Successor Variety

aus Wikipedia, der freien Enzyklopädie

Successor Variety ist eine Methode aus der Linguistik, bei der es darum geht, die Morpheme eines Wortes zu ermitteln. Dies geschieht dadurch, dass die Morphemgrenzen bestimmt werden. Das Verfahren geht auf Zellig S. Harris zurück. Hagen Langer hat das Verfahren modifiziert und kam bei einem Test auf nur 7,24 % falsche Segmentierungen.[1]

Unter anderem wird Successor Variety im Information Retrieval benutzt, um bei einer Vorverarbeitung von Dokumenten eine Stammwortreduktion durchzuführen.

Verfahren

Um die Morphemgrenzen über die Nachfolgevielfalt zu bestimmen, benötigt man eine Gruppe von Wörtern, aus der man das zu bestimmende Wort wählt. Nun geht man dieses Wort Buchstabe für Buchstabe durch und zählt die Anzahl der Buchstaben die folgen könnten, um aus diesem Teilwort ein gültiges Wort aus der Wortmenge zu bilden. Die Anzahl der möglichen Buchstaben wird dabei immer weiter abnehmen, bis man auf die Morphemgrenze stößt, wo sie dann sprunghaft ansteigt.

Beispiel

In der Praxis muss die Wortmenge bedeutend größer sein! Sei die Wortmenge {holen, gehen, haben, hassen, Haustier, Hausaufgabe, Hilfe, heiter, Haushalt}

Das zu bearbeitende Wort sei: Hausaufgabe

H Buchstaben: {o,a,i,e} Anzahl: 4

Ha Buchstaben: {b,s,u} Anzahl: 3

Hau Buchstaben:{s} Anzahl: 1

Haus Buchstaben: {t, a, h} Anzahl: 3

Hausa Buchstaben: {u} Anzahl: 1

Hausau Buchstaben: {f} Anzahl: 1

Hausauf Buchstaben: {g} Anzahl: 1

Hausaufg Buchstaben: {a} Anzahl: 1

Hausaufga Buchstaben: {b} Anzahl: 1

Hausaufgab Buchstaben: {e} Anzahl: 1

Hausaufgabe Buchstaben: {} Anzahl: 0

Die Morphemgrenze liegt hier bei 'Haus', da dort die Buchstabenanzahl von 1 auf 3 ansteigen.

Siehe auch

Literatur

  • Zellig S. Harris: From phoneme to morpheme. In: Language 31, 1955, 190–222. (Auch in: Derselbe: Papers in Structural and Transormational Linguistics. Reidel, Dordrecht 1970, Seite 32–67.)
  • Zellig S. Harris: Morpheme Boundaries within Words: Report on a Computer Test. In: Transformations and Discourse Analysis Papers 73, Dordrecht 1967. (Auch in: Derselbe: Papers in Structural and Transormational Linguistics. Reidel, Dordrecht 1970, Seite 68–77.)
  • Ursula Klenk, Hagen Langer: Morphological Segmentation Without a Lexicon. In: Literary and Linguistic Computing, Volume 4, Number 4, 1989, Seite 247–253.
  • Hagen Langer: Ein automatisches Morphsegmentierungsverfahren für deutsche Wortformen. Diss. phil. Göttingen 1991.

Einzelnachweise

  1. Langer 1991, Seite 81.