Zipfsches Gesetz

aus Wikipedia, der freien Enzyklopädie

Das Zipfsche Gesetz (nach George Kingsley Zipf, der dieses Gesetz in den 1930er Jahren aufstellte) ist ein Modell, mit dessen Hilfe man bei bestimmten Größen, die in eine Rangfolge gebracht werden, deren Wert aus ihrem Rang abschätzen kann. Häufige Verwendung findet das Gesetz in der Sprachwissenschaft (Linguistik), speziell in der Korpuslinguistik und Quantitativen Linguistik, wo es zum Beispiel versucht, die Häufigkeit von Wörtern in einem Text zur Rangfolge in Beziehung zu setzen. Das Zipfsche Gesetz markierte den Beginn dieses Ansatzes der Quantitativen Linguistik. Ihm liegt ein Potenzgesetz zugrunde, das von der Pareto-Verteilung bzw. Zipf-Verteilung mathematisch beschrieben wird.

Einfache Zipfverteilung

Die vereinfachte Aussage des Zipfschen Gesetzes lautet: Wenn die Elemente einer Menge – beispielsweise die Wörter eines Textes – nach ihrer Häufigkeit geordnet werden, ist die Wahrscheinlichkeit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle p} ihres Auftretens umgekehrt proportional zum Platz Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n} auf der Häufigkeitsliste (hier kurz "Rang" genannt):

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle p(n) \sim \tfrac{1}{n}.}

Der Normierungsfaktor bei Elementen ist durch die harmonische Reihe

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle H_N = \sum_{n=1}^N \frac{1}{n} \approx \ln(N) + 0{,}577 \approx \ln(1{,}78 \cdot N)}

gegeben und lässt sich nur für endliche Mengen angeben. Damit folgt:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle p(n) = \frac{1}{H_N} \cdot \frac{1}{n} \approx \frac{1}{n \cdot \ln(1{,}78 \cdot N)}.}

Wahrscheinlichkeitsverteilung

Das Zipfsche Gesetz hat seinen Ursprung in der Linguistik. Es besagt, dass bestimmte Wörter viel häufiger auftreten als andere und die Verteilung einer Hyperbel Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \tfrac 1 n} ähnelt. Beispielsweise treten bei den meisten Sprachen Wörter umso seltener auf, je länger sie sind. Der Ordnungsparameter Rang n lässt sich als kumulative Größe beschreiben: Der Rang ist gleichbedeutend mit der Anzahl aller Elemente, die genauso groß oder größer sind als Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n} . Für Rang 1 gibt es genau ein Element, nämlich das größte. Für Rang 2 sind es zwei, nämlich das erste und das zweite Element, für 3 drei usw.

Zipf nimmt einen einfachen reziproken Zusammenhang zum Rang an: . In der ursprünglichen Form ist das Zipfsche Gesetz frei von Parametern, es ist Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a=1} .

Die Zipfsche Verteilung entspricht der Pareto-Verteilung unter Vertauschung von Ordinate und Abszisse:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y(x) \sim x^{-a} \text{ (Zipf) } \Leftrightarrow x(y) \sim y^{\frac{-1}{a}} \text{ (Pareto)}} .

Beide sind kumulative Verteilungsfunktionen, die einem Potenzgesetz gehorchen. Der Exponent der Verteilungsdichtefunktion lautet entsprechend:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle e = 1 + \frac{1}{a}}

und für den einfachen Fall Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a=1} :

.

Beispiele

Zipf-Verteilung der Worthäufigkeiten auf Basis von Effi Briest
Zipf-Buchstabenhäufigkeit eines deutschen Textes

Die Verteilung der Worthäufigkeiten in einem Text (linke Grafik) entspricht in etwa qualitativ einer einfachen Zipfschen Verteilung.

Das Zipfsche Gesetz gibt den Exponenten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a} der kumulativen Verteilungsfunktion vor: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a=1} .

Der Fitwert für die Worthäufigkeiten beträgt jedoch Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a = 0{,}83} , gleichbedeutend mit dem Exponenten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a_\text{pareto} = 1{,}20} einer Paretoverteilung und dem Exponenten einer Potenz-Verteilungsdichtefunktion von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle e = 2{,}20} .

Auch die Verteilung der Buchstabenhäufigkeiten ähnelt einer Zipfschen Verteilung. Eine Statistik basierend auf 20–30 Buchstaben ist aber nicht ausreichend, um den Verlauf mit einer Potenzfunktion anzupassen.

Datei:Powercitiesziplnrp.png
Zipf-Verteilung und Messung der Größenverteilung von Städten

Ein weiteres Beispiel aus dem Artikel Pareto-Verteilung behandelt die Größenverteilung von Städten. Auch hier kann man bei einzelnen Ländern (z. B. Deutschland) einen Zusammenhang sehen, der einem Potenzgesetz zu gehorchen scheint, allerdings mit auffallenden Abweichungen. Die Grafik rechts stellt die Zipf-Näherung den Messwerten gegenüber. Der lineare Verlauf in der doppeltlogarithmischen Verteilung stützt die Annahme eines Potenzgesetzes. Anders als die Vermutung von Zipf hat der Exponent nicht den Wert 1, sondern den Wert 0,77, entsprechend einem Exponenten einer Potenzdichteverteilung von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle e=2{,}3} . Diese Theorie, nach der sich die Einwohnerzahlen und Größen unabhängig voneinander entwickelnden Städten dennoch einem übergeordneten Gesetz folgend entwickeln, findet auch bei der Ermittlung zu erwartender Ortsgrößen Anwendung.[1]

Die Bedeutung der Zipf-Verteilung liegt in der schnellen qualitativen Beschreibung von Verteilungen aus den unterschiedlichsten Bereichen, während die Pareto-Verteilung den Exponenten der Verteilung verfeinert.

Beispielsweise ist die Datenbasis für einen Fit bei der Angabe der Einwohnerzahl von nur sieben Städten zu klein. Das Zipfsche Gesetz liefert eine Näherung:

Rang n Stadt Einwohner 1/Rang p(n) p(n)·Menschen Abweichung in %
1 Berlin 3522896 1 0,39 3531136,31 −0,23
2 Hamburg 1626220 0,5 0,19 1765568,15 −8,57
3 München 1206683 0,33 0,13 1177045,44 2,46
4 Köln 946280 0,25 0,1 882784,08 6,71
5 Frankfurt 635150 0,2 0,08 706227,26 −11,19
6 Dortmund 624445 0,17 0,06 588522,72 0,93
7 Essen 594058 0,14 0,06 504448,04 19,22

Unter den Schlagworten Potenzgesetz, Skalengesetz oder Selbstorganisation wird über Gründe für das Auftreten von Potenzverteilungen diskutiert.

Siehe auch

Literatur

  • Helmut Birkhan: Das „Zipfsche Gesetz“, das schwache Präteritum und die germanische Lautverschiebung (= Österreichische Akademie der Wissenschaften. Philosophisch-Historische Klasse. Sitzungsberichte. 348). Verlag der Österreichischen Akademie der Wissenschaften, Wien 1979, ISBN 3-700-10285-2.
  • David Crystal: Die Cambridge Enzyklopädie der Sprache. Campus-Verlag, Frankfurt am Main u. a. 1993, ISBN 3-593-34824-1.
  • Xavier Gabaix: Zipf's law for cities: An explanation. In: The Quarterly Journal of Economics. Bd. 114, Nr. 3, 1999, S. 739–767, doi:10.1162/003355399556133.
  • Henri Guiter, Michail V. Arapov (Hrsg.): Studies on Zipf's Law (= Quantitative Linguistics. Bd. 16). Studienverlag Brockmeyer, Bochum 1982, ISBN 3-88339-244-8.
  • Matteo Marsili, Yi-Cheng Zhang: Interacting Individuals Leading to Zipf's Law. In: Physical Review Letters. Bd. 80, Nr. 12, 1998, S. 2741–2744, doi:10.1103/PhysRevLett.80.2741.
  • George Kingsley Zipf: The Psycho-Biology of Language. An Introduction to Dynamic Philology. Mifflin, Boston MA 1935, (The M.I.T. Press, Cambridge MA 1968).
  • George Kingsley Zipf: Human Behavior and the Principle of Least Effort. An Introduction to Human Ecology. Addison-Wesley, Cambridge MA 1949.

Weblinks

Wiktionary: Zipfsches Gesetz – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise

  1. Christian Schluter, Mark Trede, 12. September 2013: Gibrat, Zipf, Fisher and Tippett: City Size and Growth Distributions Reconsidered (PDF; 494 kB; 29 Seiten), oder im Internetarchiv (Memento vom 10. Juni 2016 im Internet Archive), abgerufen am 29. Juli 2018.