Lexikalische Dichte

aus Wikipedia, der freien Enzyklopädie

Die lexikalische Dichte ist ein Maß in der Linguistik, besonders in der Computerlinguistik, das den Anteil der Inhaltswörter an der Gesamtzahl aller Wörter in Prozent angibt. Der Begriff leitet sich vom englischen Ausdruck für Inhaltswörter,

lexical words

, her. Inhaltswörter sind diejenigen Wörter, die eine eigene lexikalische Bedeutung haben. Ihnen gegenüber stehen die Funktionswörter, die überwiegend grammatikalische Bedeutung tragen.

Die lexikalische Dichte kann nach folgender Formel berechnet werden:

Die Skalierung auf Werte zwischen 0 und 100 ist nicht notwendig und wird nicht immer vorgenommen, insbesondere wenn man die lexikalischen Wörter nicht ins Verhältnis zur Gesamtzahl der Wörter setzt, sondern zur Anzahl an grammatikalischen Einheiten, wie beispielsweise Teilsätzen. Außerdem ist eine Gewichtung der lexikalischen Wörter je nach Häufigkeit in der Sprache möglich.

Das Maß wurde von Jean Ure zur Beschreibung von Registervariation eingeführt. Auch Michael Halliday stellte fest, dass die lexikalische Dichte im Gesprochenen geringer ist als bei geschriebener Sprache. Die lexikalische Dichte kann zur Textanalyse in der forensischen Linguistik (unter anderem Plagiarismuserkennung) angewendet werden.

Literatur

  • Jean Ure:
    Lexical density and register differentiation
    . In: G. Perren, J.L.M. Trim (Hrsg.):
    Applications of Linguistics
    . Cambridge University Press, London 1971, S. 443–452.
  • Michael A. K. Halliday:
    On Grammar
    . Continuum, 2005, ISBN 0-8264-8822-6 (eingeschränkte Vorschau in der Google-Buchsuche).
  • John Olsson:
    Forensic Linguistics: An Introduction to Language, Crime, and the Law
    . Continuum, 2004, ISBN 0-8264-6109-3 (eingeschränkte Vorschau in der Google-Buchsuche).