Worthäufigkeit
Die Worthäufigkeit (Wortfrequenz) ist eine statistische Größe, die angibt, wie oft ein bestimmtes Wort in einem Text oder Textkorpus vorkommt. Sie kann als absolute Anzahl oder in Relation zur Gesamtzahl der Wörter des Textes angegeben werden. Die Häufigkeitsverteilung der Wörter hängt von der Sprache, der Art und dem Fachgebiet des untersuchten Textes ab. Die Worthäufigkeit wird in Häufigkeitswörterbüchern für den Wortschatz einer Sprache oder auch von Texten dargestellt.
Gesetzmäßigkeit der Worthäufigkeiten
Stellt man zu einem Text oder Textkorpus die Wörter, geordnet nach ihren Häufigkeiten, zusammen, so gilt für diese Zusammenstellung eine Ranghäufigkeitsverteilung, deren einfachste Form das Zipfsche Gesetz darstellt. Wegen Problemen mit den häufigsten und den seltensten Wörtern bei der Anwendung dieses Gesetzes wurden eine Reihe weiterer Vorschläge dazu entwickelt. Wichtig ist dabei aber vor allem, dass die Worthäufigkeiten bestimmten Gesetzen folgen. Für den Wortschatz von Goethes Erlkönig haben Altmann & Altmann gezeigt, dass die sogenannte Zipf-Mandelbrot-Verteilung ein gutes Modell ist;[1] das Gleiche lässt sich für einen Text aus den Sudelbüchern von Lichtenberg nachweisen. Diese Ranghäufigkeitsverteilungen gehören zu den bekanntesten und ältesten Errungenschaften der Quantitativen Linguistik.[2]
Anwendungsgebiete
Siehe auch
Weblinks
- wortschatz.uni-leipzig.de/html/wliste.html – Die 10 (100, 1000, 10000) häufigsten Wörter der deutschen, niederländischen, englischen und französischen Sprache.
- wortschatz.informatik.uni-leipzig.de – Wortschatzlexikon der Universität Leipzig auf Basis deutscher Quellen mit Angabe der Häufigkeitsklasse.
- [1] - Korpusbasierte Wortfrequenzlisten des Deutsch, Französisch, Italienisch und Englisch.
Einzelnachweise
- ↑ Vivien Altmann, Gabriel Altmann: Anleitung zu quantitativen Textanalysen. Methoden und Anwendungen. RAM-Verlag, Lüdenscheid 2008, S. 86–89. ISBN 978-3-9802659-5-9.
- ↑ Karl-Heinz Best: Quantitative Linguistik. Eine Annäherung. 3. stark überarbeitete und ergänzte Auflage. Peust & Gutschmidt, Göttingen 2006, S. 77–80. ISBN 3-933043-17-4.