Streuungsmaß (Statistik)

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Streuung (Statistik))

Streuungsmaße, auch Dispersionsmaße (lateinisch dispersio „Zerstreuung“, von dispergere „verteilen, ausbreiten, zerstreuen“) oder Streuungsparameter genannt, fassen in der deskriptiven Statistik verschiedene Maßzahlen zusammen, die die Streubreite von Werten einer Stichprobe beziehungsweise einer Häufigkeitsverteilung um einen geeigneten Lageparameter herum beschreiben. Die verschiedenen Berechnungsmethoden unterscheiden sich prinzipiell durch ihre Beeinflussbarkeit beziehungsweise Empfindlichkeit gegenüber Ausreißern.

Anforderungen an ein Streuungsmaß

Es sei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_1, \dots, x_n \in \mathbb{R}} eine Stichprobe und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s\colon \mathbb{R}^n \rightarrow \mathbb{R}} eine Funktion. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s} heißt ein Streuungsmaß, wenn es im Allgemeinen folgende Anforderungen erfüllt:

  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s(x_1, \dots, x_n)} ist eine nichtnegative reelle Zahl, die Null ist, wenn alle Beobachtungen gleich sind Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_1=x_2=\ldots=x_n=\overline x} (in den Daten ist keinerlei Variabilität vorhanden), und zunimmt, wenn die Daten vielfältiger werden. Wenn mindestens zwei Merkmalswerte voneinander verschieden sind, dann streuen die Daten untereinander bzw. um einen Mittelwert, was auch beim Streuungsmaß zum Ausdruck kommen sollte.
  • Bei einem Streuungsmaß wird Nichtnegativität gefordert, da bei Streuung „das Ausmaß“ statt „die Richtung“ konstituierend ist. Ein Streuungsmaß sollte also umso größer sein, je stärker Beobachtungswerte voneinander abweichen. Noch strenger wird oft gefordert, dass sich ein Streuungsmaß bei einer Ersetzung eines Beobachtungswertes durch einen neuen Merkmalswert nicht verkleinern darf.
  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s} ist translationsinvariant[1], d. h. eine Verschiebung des Nullpunktes hat keinen Einfluss auf die Verteilung. Es muss also folgendes gelten:
  • Es ist auch wünschenswert, dass das Streuungsmaß gegenüber Maßstabsänderungen invariant ist.[2]

Ein einfacher Ansatz für ein Streuungsmaß wäre, die Differenzen der Werte vom empirischen Mittel aufzusummieren. Dies führt zu

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s(x)= \sum_{i=1}^n (x_i-\overline x) }

Diese Summe ergibt allerdings stets 0, weil sich positive und negative Summanden gegenseitig aufheben (Schwerpunkteigenschaft). Das ist also nicht geeignet als Streuungsmaß, da der Wert nicht zunimmt, wenn die Variabilität der Daten steigt. Möglichkeiten bestehen also darin, die Absolutbeträge oder die Quadrate der Abweichungen zu summieren.

Maßzahlen

Um das arithmetische Mittel

Summe der Abweichungsquadrate

Das intuitivste Streuungsmaß stellt die Summe der Abweichungsquadrate dar. Sie ergibt sich als Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (n-1)} -fache empirische Varianz

.

Empirische Varianz

Einer der wichtigsten Streuungsparameter ist die Varianz, die in zwei leicht unterschiedlichen Varianten definiert wird. Die Herkunft dieser Unterschiede und ihre Verwendung wird im Hauptartikel erläutert. Die Fassungen sind gegeben als

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \tilde s_x^2=\frac{1}{n} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2 }

beziehungsweise

Hierbei bezeichnet Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \overline x } jeweils das arithmetische Mittel der Stichprobe Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (x_1, \dots, x_n)} .

Empirische Standardabweichung

Die Standardabweichung ist definiert als die Wurzel aus der Varianz und liegt demnach auch in zwei Versionen vor:

beziehungsweise

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s = \sqrt{\frac{1}{n-1} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2} }

Ein wesentlicher Unterschied zur empirischen Varianz ist, dass die empirische Standardabweichung dieselbe Dimension und damit dieselben Einheiten wie die Stichprobe besitzt.

Variationskoeffizient

Der empirische Variationskoeffizient wird gebildet als Quotient aus empirischer Standardabweichung Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s} und arithmetischem Mittel Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \overline{x}} :

.

Er ist dimensionslos und somit nicht einheitenbehaftet.

Mittlere absolute Abweichung

Die mittlere absolute Abweichung Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle e} einer Zufallsvariablen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X} von ihrem Erwartungswert Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mu = \operatorname{E}(X)} ist definiert durch

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{e} := \operatorname{E} \left(\left|X - \mu\right|\right)} .

Damit ist sie das erste absolute zentrierte Moment der Zufallsvariable Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X } . Im Falle einer konkreten Stichprobe Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_1, \dots, x_n} mit dem arithmetischen Mittel Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \overline{x}} wird sie errechnet durch

Die mittlere absolute Abweichung wird in der mathematischen Statistik meist zugunsten der quadratischen Abweichung umgangen, welche analytisch leichter zu behandeln ist. Die in der Definition verwendete Betragsfunktion ist nicht überall differenzierbar, was die Berechnung des Minimums erschwert.

Aufgrund der Ungleichung vom arithmetisch-quadratischen Mittel ist die mittlere absolute Abweichung kleiner oder gleich der Standardabweichung (Gleichheit gilt nur für konstante Zufallsgrößen).

Für symmetrische Verteilungen, d. h. Verteilungen mit der Eigenschaft Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f(\mu-x)=f(\mu+x)} für alle reellen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} , mit monoton fallender Dichte für Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x>\mu} , gilt

.

Für die stetige Gleichverteilung gilt das Gleichheitszeichen.

Um den Median

Quantilsabstand

Der Quantilsabstand ist die Differenz zwischen dem - und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \left(1-p\right)} -Quantil:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle QA_p = Q_{1-p}-Q_p\;} mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \;0\leq p < 0{,}5}

Innerhalb des Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle QA_p} liegen Prozent aller Messwerte.

Interquartilsabstand

Der Interquartilsabstand (engl.

interquartile range

), abgekürzt IQR, wird als Differenz

der Quartile Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Q_{0{,}75}} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Q_{0{,}25}} berechnet:

Innerhalb des IQR liegen 50 % aller Messwerte. Er ist – wie auch der Median bzw. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Q_{0{,}5}} – unempfindlich gegenüber Ausreißern. Es lässt sich zeigen, dass er einen Bruchpunkt von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \epsilon^*=0{,}25} hat.

Der Interquartilsabstand ist gleich dem Quantilsabstand Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle QA_{0{,}25}}

Mittlere absolute Abweichung vom Median

Die mittlere absolute Abweichung (engl.

mean deviation from the median

, abgekürzt MD) vom Median Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \tilde{x}} ist definiert durch

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{MD} = \operatorname{E}\left(\left|X - \tilde{x}\right|\right) }

Im Falle einer konkreten Stichprobe wird sie errechnet durch

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{MD} = \frac{1}{n}\sum_{i=1}^n \left|x_i - \tilde{x}\right| }

Aufgrund der Extremaleigenschaft des Medians gilt im Vergleich mit der mittleren absoluten Abweichung stets

,

d. h. die mittlere absolute Abweichung bezüglich des Medians ist erst recht kleiner als die Standardabweichung.

Für symmetrische Verteilungen stimmen Median und Erwartungswert und damit auch Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{MD}} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{e}} überein.

Für die Normalverteilung gilt:

Median der absoluten Abweichungen

Die mittlere absolute Abweichung (engl.

median absolute deviation

, auch MedMed), abgekürzt MAD, ist definiert durch

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(\left|X - \tilde{x}\right| \leq \operatorname{MAD}) = 0{,}5 }

Im Falle einer konkreten Stichprobe wird sie errechnet durch

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{MAD} = \operatorname{median}{\left|x_i - \tilde{x}\right|} }

Durch die Definition ergibt sich im Falle von normalverteilten Daten folgender Zusammenhang zur Standardabweichung:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{MAD} = z_{0{,}75} \cdot \sigma }

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle z_{0{,}75}} ist das 0,75-Quantil der Standardnormalverteilung und beträgt ca. 0,6745.

Die mittlere absolute Abweichung ist ein robuster Schätzer für die Standardabweichung. Es lässt sich zeigen, dass sie einen Bruchpunkt von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \varepsilon^* = 0{,}5} hat.

Weitere Streuungsmaße

Spannweite

Die Spannweite (englisch range) Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle R} berechnet sich als Differenz zwischen dem größten und dem kleinsten Messwert:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle R = x_{\max} - x_{\min} }

Da die Spannweite nur aus den zwei Extremwerten berechnet wird, ist sie nicht robust gegenüber Ausreißern.

Geometrische Standardabweichung

Die geometrische Standardabweichung ist ein Streuungsmaß um das geometrische Mittel.

Graphische Darstellungsformen

Siehe auch

Einzelnachweise

  1. Andreas Büchter, H.-W. Henn: Elementare Stochastik - Eine Einführung. 2. Auflage. Springer, 2007, ISBN 978-3-540-45382-6, S. 83.
  2. Hans Friedrich Eckey et al.: Statistik: Grundlagen — Methoden — Beispiele., S. 74. (1. Aufl. 1992; 3. Aufl. 2002 (ISBN 3409327010). Die 4. Aufl. 2005 und die 5. Aufl. 2008 erschienen unter dem Titel Deskriptive Statistik: Grundlagen — Methoden — Beispiele).

Literatur

  • Günter Buttler, Norman Fickel (2002), „Einführung in die Statistik“, Rowohlt Verlag
  • Jürgen Bortz (2005), Statistik: Für Human- und Sozialwissenschaftler (6. Auflage), Springer Verlag, Berlin
  • Bernd Rönz, Hans G. Strohe (1994), Lexikon Statistik, Gabler Verlag

Weblinks

Wiktionary: Streuung – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen