Baumbank (Linguistik)

aus Wikipedia, der freien Enzyklopädie
Beispielbaum für John loves Mary
Quranic-arabic-corpus.png
Hybrid constituency/dependency tree from the Quranic Arabic Corpus

Eine Baumbank (englisch Treebank), auch geparstes Korpus, ist ein Textkorpus, in dem jeder Satz geparst, also mit syntaktischer Struktur annotiert wurde. Der Begriff Baumbank bezieht sich darauf, dass die syntaktische Struktur gewöhnlich als eine Baumstruktur repräsentiert wird.

Baumbanken werden oft auf Korpora erstellt, die bereits mit Part-of-speech-Tags annotiert wurden. Zudem werden Baumbanken manchmal mit semantischer oder anderer linguistischer Information erweitert.

Baumbanken können manuell erstellt werden, indem Linguisten jeden Satz mit syntaktischer Struktur annotieren, aber auch halbautomatisch, so dass ein Parser automatisch syntaktische Struktur zuordnet, die dann von einem Linguisten geprüft und, wenn nötig, korrigiert wird. In der Praxis ist das komplette Überprüfen und Parsen von natürlichsprachlichen Texten ein arbeitsintensiver Prozess.

Einige Baumbanken folgen in ihrer syntaktischen Annotation einer bestimmten linguistischen Theorie (z. B. die BulTreeBank mit HPSG), aber die meisten sind weniger theoriespezifisch. Trotzdem lassen sich im Wesentlichen zwei Gruppen unterscheiden: Baumbanken, die Phrasenstruktur annotieren (z. B. Penn Treebank oder ICE-GB), und solche, die Abhängigkeitsstruktur annotieren (z. B. Prague Dependency Treebank oder die Quranic Arabic Dependency Treebank).

Literatur

  • Werner Kallmeyer, Gisela Zifonun (Hrsg.): Sprachkorpora – Datenmengen und Erkenntnisfortschritt. Walter de Gruyter GmbH & Co KG, Berlin 2007, ISBN 978-3-11-019273-5.

Weblinks