Tagger und Lemmatisierer Text

Der im Projekt entwickelte Tagger und Lemmatisierer für das Altgriechische kombiniert die Ergebnisse des Morpheus Parsers1 und des auf Basis der Ancient Greek Dependency Treebank2 trainierten dependenzbasierten Mate Tools. Das Modell für die Mate Tools wurde freundlicherweise von Dr. Giuseppe G. A. Celano3 zur Verfügung gestellt. Während Morpheus über Stemmata zum Teil mehrere Sets morphosyntakter Informationen und Lemmata zu einem Wort identifizert, liefern die Mate Tools ein spezifisches Set morphosyntaktischer Informationen ohne Lemmata.

Der entwickelte Tagger und Lemmatiserer nutzt die Ergebnisse beider Verfahren, um, auf Basis eines Vergleichs, das wahrscheinlichste Lemma zu identifizieren. Die Ergebnisse wurden mittels des Goldstandards evaluiert und anschließend mit Hilfe weiterer Regeln verbessert, sodass in Bezug auf Lemmata eine Precision von 0,826, ein Recall von 0,8890 und eine Accuracy von 0,9077 erreicht wurde.

Erstellt/geprüft von: Franz Keilholz, Eva Wöckener-Gade, Stephan Jödicke, Kevin Protze, Joachim Rautenberg, Felix Schulze und André Visinoni



1 Morpheus: https://github.com/PerseusDL/morpheus
2 Ancient Greek Dependency Treebank: https://perseusdl.github.io/treebank_data/
3 Dr. Giuseppe G. A. Celano: http://www.dh.uni-leipzig.de/wo/giuseppe-ga-celano/