Korrelationskoeffizient
Der Korrelationskoeffizient, auch Produkt-Moment-Korrelation,[1] ist ein Maß für den Grad des linearen Zusammenhangs zwischen zwei mindestens intervallskalierten Merkmalen, das nicht von den Maßeinheiten der Messung abhängt und somit dimensionslos ist. Er kann Werte zwischen und annehmen. Bei einem Wert von (bzw. ) besteht ein vollständig positiver (bzw. negativer) linearer Zusammenhang zwischen den betrachteten Merkmalen. Wenn der Korrelationskoeffizient den Wert 0 aufweist, hängen die beiden Merkmale überhaupt nicht linear voneinander ab. Allerdings können diese ungeachtet dessen in nichtlinearer Weise voneinander abhängen. Damit ist der Korrelationskoeffizient kein geeignetes Maß für die (reine) stochastische Abhängigkeit von Merkmalen. Das Quadrat des Korrelationskoeffizienten stellt das Bestimmtheitsmaß dar. Der Korrelationskoeffizient wurde erstmals vom britischen Naturforscher Sir Francis Galton (1822–1911) in den 1870er Jahren verwendet. Karl Pearson lieferte schließlich eine formal-mathematische Begründung für den Korrelationskoeffizienten.[2] Da er von Auguste Bravais und Pearson populär gemacht wurde, wird der Korrelationskoeffizient auch Pearson-Korrelation oder Bravais-Pearson-Korrelation genannt.
Je nachdem, ob der lineare Zusammenhang zwischen zeitgleichen Messwerten zweier verschiedener Merkmale oder derjenige zwischen zeitlich verschiedenen Messwerten eines einzigen Merkmals betrachtet wird, spricht man entweder von der Kreuzkorrelation oder von der Kreuzautokorrelation (siehe auch Zeitreihenanalyse).
Korrelationskoeffizienten wurden mehrfach – so schon von Ferdinand Tönnies – entwickelt, heute wird allgemein jener von Pearson verwendet.
Definitionen
Korrelationskoeffizient für Zufallsvariablen
Konstruktion
Als Ausgangspunkt für die Konstruktion des Korrelationskoeffizienten für zwei Zufallsvariablen und betrachtet man die beiden standardisierten (auf die Standardabweichung bezogenen) Zufallsvariablen und . Die Kovarianz dieser standardisierten Zufallsvariablen ergibt sich aus dem Satz für lineare Transformationen von Kovarianzen zu
- .
Der Korrelationskoeffizient lässt sich als die Kovarianz der standardisierten Zufallsvariablen und auffassen.[3]
Definition
Für zwei quadratisch integrierbare Zufallsvariablen und mit jeweils positiver Standardabweichung bzw. und Kovarianz ist der Korrelationskoeffizient (Pearsonscher Maßkorrelationskoeffizient) definiert durch:
- .
Dieser Korrelationskoeffizient wird auch Korrelationskoeffizient der Grundgesamtheit genannt. Durch die Definitionen der stochastischen Varianz und Kovarianz lässt sich der Korrelationskoeffizient für Zufallsvariablen auch wie folgt darstellen:[4]
wobei den Erwartungswert darstellt.
Ferner heißen unkorreliert, falls gilt. Für positive und ist das genau dann der Fall, wenn ist. Sind unabhängig, so sind sie auch unkorreliert, die Umkehrung gilt im Allgemeinen nicht.
Schätzung
Im Rahmen der induktiven Statistik ist man an einer erwartungstreuen Schätzung des Korrelationskoeffizienten der Grundgesamtheit interessiert. Daher werden in die Formel des Korrelationskoeffizienten der Grundgesamtheit erwartungstreue Schätzer der Varianzen und der Kovarianz eingesetzt. Dies führt zum Stichprobenkorrelationskoeffizienten:
Empirischer Korrelationskoeffizient
Sei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (x_i, y_i)^{\top}, \;i = 1, \ldots, n} eine zweidimensionale Stichprobe zweier kardinalskalierter Merkmale mit den empirischen Mitteln Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \textstyle \overline x = \frac1n\sum_{i=1}^n x_i} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \textstyle \overline y = \frac1n\sum_{i=1}^n y_i} der Teilstichproben Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x = (x_1, \ldots, x_n)^{\top}} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y = (y_1, \ldots, y_n)^{\top}} . Weiterhin gelte für die empirischen Varianzen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s_{x}^2 := \textstyle\tfrac{1}{n-1}\sum\nolimits_{i=1}^n (x_i - \overline{x})^2} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s_{y}^2 := \textstyle\tfrac{1}{n-1}\sum\nolimits_{i=1}^n (y_i - \overline{y})^2} der Teilstichproben Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s_{x}^2 s_{y}^2 \ne 0} . Dann ist der empirische Korrelationskoeffizient – analog zum Korrelationskoeffizienten für Zufallsvariablen, nur dass man statt der theoretischen Momente nun die empirische Kovarianz und die empirischen Varianzen verwendet – definiert durch:[5]
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r_{x,y} := \frac{ \sum_{i=1}^n(x_i-\overline x)(y_i-\overline y) }{ \sqrt{ \sum_{i=1}^n(x_i-\overline x)^2 \sum_{i=1}^n(y_i-\overline y)^2 } } = \frac{SP_{x,y}}{\sqrt{SQ_{x}SQ_{y}}}}
Hierbei ist Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle SQ_x} die Summe der Abweichungsquadrate und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle SP_{x,y}} die Summe der Abweichungsprodukte.
Mithilfe der empirischen Kovarianz Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s_{x,y} := \tfrac{1}{n-1} \sum \nolimits_{i=1}^n(x_i -\overline{x})(y_i-\overline{y})} und den empirischen Standardabweichungen
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s_x := \sqrt{\tfrac{1}{n-1} \sum \nolimits_{i=1}^n\left(x_i-\overline x\right)^2}\quad} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \quad s_y := \sqrt{\tfrac{1}{n-1} \sum \nolimits_{i=1}^n\left(y_i-\overline y\right)^2}}
der Teilstichproben Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} ergibt sich die folgende Darstellung:
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r_{x,y} := \frac{s_{x,y}}{s_x s_y}}
Sind diese Messreihenwerte z-transformiert, das heißt, Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle z_i := \tfrac{x_i - \overline x} {s_x}} , wobei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s_x} die erwartungstreue Schätzung der Varianz bezeichnet, gilt auch:
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat \rho = \frac{1}{n-1}\sum z_x z_y}
Da man in der deskriptiven Statistik nur den Zusammenhang zwischen zwei Variablen als normierte mittlere gemeinsame Streuung in der Stichprobe beschreiben will, wird die Korrelation auch berechnet als
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r_{x,y} := \frac{ \frac{1}{n}\sum_{i=1}^n(x_i-\overline x)(y_i-\overline y) }{ \sqrt{ \frac{1}{n}\sum_{i=1}^n(x_i-\overline x)^2 }\cdot\sqrt{ \frac{1}{n}\sum_{i=1}^n(y_i-\overline y)^2 }} } .
Da sich die Faktoren Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \tfrac{1}{n}} bzw. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \tfrac{1}{n-1}} aus den Formeln herauskürzen, ergibt sich in beiden Fällen der gleiche Wert des Koeffizienten.
Eine „Vereinfachung“ der obigen Formel zur leichteren Berechnung einer Korrelation lautet wie folgt:[6]
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r_{x,y} := \frac{ n\sum_{i=1}^n(x_i \cdot y_i) - (\sum_{i=1}^n x_i) \cdot (\sum_{i=1}^n y_i) }{ \sqrt{ \left[ n\sum_{i=1}^n x_i^2 - (\sum_{i=1}^n x_i)^2\right] \cdot \left[ n\sum_{i=1}^n y_i^2 - (\sum_{i=1}^n y_i)^2\right] }} }
Diese Transformation der Formel ist aber numerisch instabil und sollte daher nicht mit Gleitkommazahlen verwendet werden, wenn die Mittelwerte nicht nahe null sind.[7]
Beispiel
Für die elf Beobachtungspaare Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (x_i,y_i)} sind die Werte in der unten stehenden Tabelle in der zweiten und dritten Spalte gegeben. Die Mittelwerte ergeben sich zu Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \overline{x} = 99/11 = 9{,}0} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \overline{y} = 82{,}51/11 = 7{,}5} und damit können die vierte und fünfte Spalte der Tabelle berechnet werden. Die sechste Spalte enthält das Produkt der vierten mit der fünften Spalte und damit ergibt sich Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sum_{i=1}^{11}(x_i-\overline x)(y_i-\overline y) = 55{,}01} . Die beiden letzten Spalten enthalten jeweils die Quadrate der vierten und fünften Spalte und es ergibt sich Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sum_{i=1}^{11}(x_i-\overline x)^2 = 110{,}00\;} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \;\sum_{i=1}^{11}(y_i-\overline y)^2=41{,}27} .
Damit ergibt sich für die Korrelation Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r_{x,y} = \frac{55{,}01}{\sqrt{110{,}00}\sqrt{41{,}27}} = 0{,}816} .
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle i} | Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_i} | Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y_i} | Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_i-\overline{x}} | Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y_i-\overline{y}} | Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (x_i-\overline{x})(y_i-\overline{y})} | Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (x_i-\overline{x})^2} | Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (y_i-\overline{y})^2} |
---|---|---|---|---|---|---|---|
1 | 10,00 | 8,04 | 1,00 | 0,54 | 0,54 | 1,00 | 0,29 |
2 | 8,00 | 6,95 | −1,00 | −0,55 | 0,55 | 1,00 | 0,30 |
3 | 13,00 | 7,58 | 4,00 | 0,08 | 0,32 | 16,00 | 0,01 |
4 | 9,00 | 8,81 | 0,00 | 1,31 | 0,00 | 0,00 | 1,71 |
5 | 11,00 | 8,33 | 2,00 | 0,83 | 1,66 | 4,00 | 0,69 |
6 | 14,00 | 9,96 | 5,00 | 2,46 | 12,30 | 25,00 | 6,05 |
7 | 6,00 | 7,24 | −3,00 | −0,26 | 0,78 | 9,00 | 0,07 |
8 | 4,00 | 4,26 | −5,00 | −3,24 | 16,20 | 25,00 | 10,50 |
9 | 12,00 | 10,84 | 3,00 | 3,34 | 10,02 | 9,00 | 11,15 |
10 | 7,00 | 4,82 | −2,00 | −2,68 | 5,36 | 4,00 | 7,19 |
11 | 5,00 | 5,68 | −4,00 | −1,82 | 7,28 | 16,00 | 3,32 |
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \Sigma} | 99,00 | 82,51 | 55,01 | 110,00 | 41,27 | ||
Alle Werte in der Tabelle sind auf zwei Stellen nach dem Komma gerundet! |
Eigenschaften
Mit der Definition des Korrelationskoeffizienten gilt unmittelbar
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{Korr}(X,Y) = \operatorname{Korr}(Y,X)\;} bzw. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \;r_{x,y} = r_{y,x},}
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{Korr}(X,X) = 1,}
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{Korr}(aX + b,Y) = \sgn(a) \cdot \operatorname{Korr}(X,Y).}
Dabei sind Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle b} reelle Zahlen (mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a \ne 0} wegen der definitorisch vorausgesetzten Positivität der Varianz von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle aX + b} ) und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sgn} ist die Signumfunktion.[8]
Aus der Cauchy-Schwarzschen Ungleichung folgt
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{Korr}(X,Y)\in[-1,1]} .
Man erkennt:
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y = aX+b} fast sicher genau dann, wenn Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle |\operatorname{Korr}(X,Y)| = 1}
Das lässt sich zum Beispiel durch Lösen der Gleichung Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{E}((X - aY - b)^2) = 0} einsehen. In dem Fall ist Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a = \operatorname{Korr}(X, Y) \cdot \frac {\sigma_Y} {\sigma_X}} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle b = \operatorname{E}(Y) - a \cdot \operatorname{E}(X)} .
Sind die Zufallsgrößen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y} stochastisch voneinander unabhängig, dann gilt:
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{Korr}(X,Y)=0}
Der Umkehrschluss ist allerdings nicht zulässig, denn es können Abhängigkeitsstrukturen vorliegen, die der Korrelationskoeffizient nicht erfasst. Für die multivariate Normalverteilung gilt jedoch: Die Zufallsvariablen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y} sind genau dann stochastisch unabhängig, wenn sie unkorreliert sind. Wichtig ist hierbei die Voraussetzung, dass Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y} gemeinsam normalverteilt sind. Es reicht nicht aus, dass sowohl Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X} als auch Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y} normalverteilt sind.
Voraussetzungen für die Pearson-Korrelation
Der Korrelationskoeffizient nach Pearson erlaubt Aussagen über statistische Zusammenhänge unter folgenden Bedingungen:
Skalierung
Der Pearsonsche Korrelationskoeffizient liefert korrekte Ergebnisse bei intervallskalierten und bei dichotomen Daten. Für niedrigere Skalierungen existieren andere Korrelationskonzepte (z. B. Rangkorrelationskoeffizienten).
Normalverteilung
Für die Durchführung von standardisierten Signifikanztests über den Korrelationskoeffizienten in der Grundgesamtheit müssen beide Variablen annähernd normalverteilt sein. Bei zu starken Abweichungen von der Normalverteilung muss auf den Rangkorrelationskoeffizienten zurückgegriffen werden. (Alternativ kann man auch, falls die Verteilung bekannt ist, angepasste (nichtstandardisierte) Signifikanztests verwenden.)
Linearitätsbedingung
Zwischen den Variablen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} wird ein linearer Zusammenhang vorausgesetzt. Diese Bedingung wird in der Praxis häufig ignoriert; daraus erklären sich mitunter enttäuschend niedrige Korrelationen, obwohl der Zusammenhang zwischen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} bisweilen trotzdem hoch ist. Ein einfaches Beispiel für einen hohen Zusammenhang trotz eines niedrigen Korrelationskoeffizienten ist die Fibonacci-Folge. Alle Zahlen der Fibonacci-Folge sind durch ihre Position in der Reihe durch eine mathematische Formel exakt determiniert (siehe die Formel von Binet). Der Zusammenhang zwischen der Positionsnummer einer Fibonacci-Zahl und der Größe der Zahl ist vollkommen determiniert. Dennoch beträgt der Korrelationskoeffizient zwischen den Ordnungsnummern der ersten 360 Fibonacci-Zahlen und den betreffenden Zahlen nur 0,20; das bedeutet, dass in erster Näherung nicht viel mehr als Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle 0{,}2^2 = 4\;\%} der Varianz durch den Korrelationskoeffizienten erklärt werden und 96 % der Varianz „unerklärt“ bleiben. Der Grund ist die Vernachlässigung der Linearitätsbedingung, denn die Fibonacci-Zahlen wachsen progressiv an: In solchen Fällen ist der Korrelationskoeffizient nicht korrekt interpretierbar. Eine mögliche Alternative, die ohne die Voraussetzung der Linearität des Zusammenhangs auskommt, ist die Transinformation.
Signifikanzbedingung
Ein Korrelationskoeffizient > 0 bei positiver Korrelation bzw. < 0 bei negativer Korrelation zwischen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} berechtigt nicht a priori zur Aussage, es bestehe ein statistischer Zusammenhang zwischen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} . Eine solche Aussage ist nur gültig, wenn der ermittelte Korrelationskoeffizient signifikant ist. Der Begriff „signifikant“ bedeutet hier „signifikant von Null verschieden“. Je höher die Anzahl der Wertepaare Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (x,y)} und das Signifikanzniveau sind, desto niedriger darf der Absolutbetrag eines Korrelationskoeffizienten sein, um zur Aussage zu berechtigen, zwischen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} gebe es einen linearen Zusammenhang. Ein t-Test zeigt, ob die Abweichung des ermittelten Korrelationskoeffizienten von Null auch signifikant ist.
Bildliche Darstellung und Interpretation
Sind zwei Merkmale vollständig miteinander korreliert (d. h. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle |r| = 1} ), so liegen alle Messwerte in einem 2-dimensionalen Koordinatensystem auf einer Geraden. Bei einer perfekten positiven Korrelation (Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r = +1} ) steigt die Gerade. Wenn die Merkmale perfekt negativ miteinander korreliert sind (Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r = -1} ), sinkt die Gerade. Besteht zwischen zwei Merkmalen eine sehr hohe Korrelation, sagt man oft auch, sie erklären dasselbe.
Je näher der Betrag von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r} bei 0 liegt, desto kleiner der lineare Zusammenhang. Für Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r = 0} kann der statistische Zusammenhang zwischen den Messwerten nicht mehr durch eine eindeutig steigende oder sinkende Gerade dargestellt werden. Dies ist z. B. der Fall, wenn die Messwerte rotationssymmetrisch um den Mittelpunkt verteilt sind. Dennoch kann dann ein nichtlinearer statistischer Zusammenhang zwischen den Merkmalen gegeben sein. Umgekehrt gilt jedoch: Wenn die Merkmale statistisch unabhängig sind, nimmt der Korrelationskoeffizient stets den Wert 0 an.
Korrelation: Koinzidenz oder Kausalzusammenhang
In der Monographie „Kontrazeption mit Hormonen“ von Hans-Dieter Taubert und Herbert Kuhl (Abteilung für gynäkologische Endokrinologie, Zentrum der Frauenheilkunde und Geburtshilfe der J.W. Goethe-Universität), die 1981 im Georg Thieme Verlag Stuttgart erschien, wurde das Problem der Bedeutung von Korrelationen bei medizinischen Studien angesprochen. Es ist bekannt, dass Korrelationen (z. B. zwischen Hormondosierungen oder -serumkonzentrationen und dem Auftreten bestimmter Erkrankungen), die bei solchen Untersuchungen ermittelt werden, häufig als Beleg für einen Kausalzusammenhang interpretiert werden. Unabhängig von den zahlreichen methodischen Problemen solcher Studien werden selbst offensichtlich fragwürdige Ergebnisse gerne von den Medien kolportiert.
In dem Abschnitt „Aussagekraft verschiedener Untersuchungskonzepte“ wurde auf den Seiten 207–208 (in der 2. Auflage von 1995 auf den Seiten 239–240) als Beispiel die Bedeutung einer extrem engen Korrelation zwischen der Zahl der Storchenpaare und der Geburtenzahl in der Bevölkerung in Baden-Württemberg in dem Zeitraum zwischen 1966 und 1975 diskutiert. Aus den Daten über die kontinuierliche Abnahme der Storchenpopulation, die dem Journal für Ornithologie von 1979 entnommen wurden und dem Rückgang der Geburtenrate, der sich aus den Zahlen des Statistischen Jahrbuchs der Bundesrepublik Deutschland ergab, wurden
- die Regressionsgerade mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y = 0{,}719 x - 55{,}205} und
- der Korrelationskoeffizient mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r = -0{,}9655} berechnet (Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle p < 0{,}001} ).
Das Ergebnis ist in Abb. 46 auf S. 208 (bzw. in Abb. 60 auf S. 240 der 2. Auflage 1995) dargestellt. In dem begleitenden Text ist u. a. zu lesen: „Grundsätzlich sollten alle Aussagen über vermutete Zusammenhänge zwischen der Anwendung hormonaler Kontrazeptiva und dem Auftreten bestimmter Erkrankungen aus dem Blickwinkel erfolgen, dass die Wahrscheinlichkeit einer zufälligen Koinzidenz mit der Häufigkeit der Vergleiche steigt. So konnte mit Hilfe kontrollierter prospektiver Untersuchungen in vielen Fällen nachgewiesen werden, dass sich die Häufigkeit bestimmter Erkrankungen bei Einnahme von Ovulationshemmern nicht von der in der Gesamtbevölkerung unterscheidet. Andererseits bedeutet selbst eine hoch signifikante Korrelation zwischen zwei Parametern noch keinen Kausalzusammenhang, auch wenn dieser plausibel erscheint. Dies sei anhand der Beobachtung demonstriert, dass die Zahl der Storchenpaare in Baden-Württemberg von 67 im Jahre 1965 auf 15 im Jahre 1975 abnahm und gleichzeitig die Geburtenzahl in diesem Bundesland von 159.000 auf 97.000 zurück ging (s. Abb.). Zwischen beiden Parametern wurde eine Korrelation ermittelt, die hoch signifikant (Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle p < 0{,}001} ) ist. Trotzdem wäre es voreilig, daraus zu schließen, dass für den Geburtenrückgang die Abnahme der Storchenpopulation kausal verantwortlich ist.“ Übrigens ist zur Frage der Plausibilität anzumerken, dass diese grundsätzlich vom aktuellen Kenntnisstand abhängig ist.
Der Korrelationskoeffizient ist kein Indiz eines ursächlichen (d. h. kausalen) Zusammenhangs zwischen den beiden Merkmalen: Die Besiedlung durch Störche im Südburgenland korreliert zwar positiv mit der Geburtenzahl der dortigen Einwohner, doch das bedeutet noch keinen „kausalen Zusammenhang“, trotzdem ist ein „statistischer Zusammenhang“ gegeben. Dieser leitet sich aber aus einem anderen, weiteren Faktor ab, wie dies im Beispiel durch Industrialisierung oder der Wohlstandssteigerung begründet sein kann, die einerseits den Lebensraum der Störche einschränkten und andererseits zu einer Verringerung der Geburtenzahlen führten. Korrelationen dieser Art werden Scheinkorrelationen genannt.
Der Korrelationskoeffizient kann kein Indiz über die Richtung eines Zusammenhanges sein: Steigen die Niederschläge durch die höhere Verdunstung oder steigt die Verdunstung an, weil die Niederschläge mehr Wasser liefern? Oder bedingen sich beide gegenseitig, also möglicherweise in beiderlei Richtung?
Ob ein gemessener Korrelationskoeffizient als groß oder klein interpretiert wird, hängt stark von der Art der untersuchten Daten ab. Bei psychologischen Untersuchungen gelten Werte ab Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle |r| = 0{,}1} als kleine, Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle |r| = 0{,}3} als mittlere und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle |r| = 0{,}5} als große Effekte.[9][10]
Das Quadrat des Korrelationskoeffizienten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r^2} nennt man Bestimmtheitsmaß. Es gibt in erster Näherung an, wie viel Prozent der Varianz (d. h. des Streuungsquadrats), der einen Variable durch die Varianz der anderen Variable erklärt werden können. Beispiel: Bei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r = 0{,}3} werden 9 % (Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle = 0{,}3^2 = 0{,}09} ) der gesamten auftretenden Varianz im Hinblick auf einen statistischen Zusammenhang erklärt.
Allgemeiner empirischer Korrelationskoeffizient
Der empirische Pearson-Korrelationskoeffizient bedingt, wie oben erwähnt, einen linearen Zusammenhang, um brauchbare Werte zu liefern. Es existiert jedoch auch ein allgemeiner empirischer Korrelationskoeffizient, der für jede beliebige Funktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \hat{y}_i = f(x_i)} brauchbare Werte liefert:
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle R = \sqrt{\frac{\sum_{i=1}^N(y_i-\overline y)^2-\sum_{i=1}^N(y_i-\hat{y}_i)^2}{\sum_{i=1}^n(y_i-\overline y)^2}}}
Der Bruch unter der Wurzel entspricht dem empirischen Bestimmtheitsmaß Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle R^2} . Für den Spezialfall einer linearen Funktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \hat{y}_i = a \cdot x_i + b} geht der allgemeine empirische Korrelationskoeffizient Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle R} wieder in den empirischen Pearson-Korrelationskoeffizienten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle r_{x,y}} über.
Fisher-Transformation
Empirische Korrelationskoeffizienten sind nicht normalverteilt. Vor der Berechnung von Konfidenzintervallen muss daher erst eine Korrektur der Verteilung mit Hilfe der Fisher-Transformation vorgenommen werden. Wenn die Daten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y} aus einer zumindest annähernd bivariat normalverteilten Grundgesamtheit stammen, dann ist der empirische Korrelationskoeffizient Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat \rho} rechtssteil unimodal verteilt.
Die Fisher-Transformation des Korrelationskoeffizienten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \hat \rho} lautet dann
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle z := f(\hat \rho)=0{,}5\cdot\ln\left(\frac{1+\hat \rho}{1-\hat \rho}\right)=\operatorname{artanh}(\hat \rho)\,}
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle z} ist annähernd normalverteilt mit der Standardabweichung Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle 1/\sqrt{n-3}} und Mittelwert
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle {1 \over 2}\ln\left({{1+\rho} \over {1-\rho}}\right),}
wobei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \rho} hier für den Korrelationskoeffizienten der Grundgesamtheit steht. Die auf Basis dieser Normalverteilung errechnete Wahrscheinlichkeit, dass der Mittelwert von den beiden Grenzen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle z_1} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle z_2} umschlossen wird beträgt
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P \left(\underbrace{f(r)-\frac{z_{1-\alpha/2}}{\sqrt{n-3}}}_{z_1}\leq\mu\leq \underbrace{f(r)+\frac{z_{1-\alpha/2}}{\sqrt{n-3}}}_{z_2}\right) = 1-\alpha,}
und wird sodann retransformiert zu
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{align} r_1 &= (e^{2z_1}-1)/(e^{2z_1}+1)\\ r_2 &= (e^{2z_2}-1)/(e^{2z_2}+1). \end{align}}
Das Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (1-\alpha)} -Konfidenzintervall für die Korrelation lautet sodann
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r_1\leq \hat \rho \leq r_2} .
Konfidenzintervalle von Korrelationen liegen in aller Regel unsymmetrisch bezüglich ihres Mittelwerts.
Test des Korrelationskoeffizienten / Steigers Z-Test
Folgende Tests (Steigers Z-Test)[11] können durchgeführt werden, wenn die Variablen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y} annähernd bivariat normalverteilt sind:
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle H_0\colon \rho = \rho_0\;} vs. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \;H_1\colon \rho \neq \rho_0} | (zweiseitige Hypothese) |
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle H_0\colon \rho \leq \rho_0\;} vs. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \;H_1\colon \rho > \rho_0} | (rechtsseitige Hypothese) |
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle H_0\colon \rho \geq \rho_0\;} vs. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \;H_1\colon \rho < \rho_0} | (linksseitige Hypothese) |
Die Teststatistik
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle T(r) = \frac{f(r) - f(\rho_0) - \rho_0/(n-2)}{1/\sqrt{n-3}} \sim \mathcal{N}(0,1)}
ist standardnormalverteilt (Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f(\cdot)} ist die Fisher-Transformation, siehe vorherigen Abschnitt).
Im Spezialfall der Hypothese Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle H_0\colon \rho = 0} vs. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle H_1\colon \rho \neq 0} ergibt sich die Teststatistik als t-verteilt mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n-2} Freiheitsgraden:
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle T_0(r) = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} \sim t(n-2)}
Partieller Korrelationskoeffizient
Eine Korrelation zwischen zwei Zufallsvariablen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y} kann unter Umständen auf einen gemeinsamen Einfluss einer dritten Zufallsvariablen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle U} zurückgeführt werden. Um solch einen Effekt zu messen, gibt es das Konzept der partiellen Korrelation (auch Partialkorrelation genannt). Die „partielle Korrelation von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y} unter Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle U} “ ist gegeben durch
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r_{(X,Y)/U} = \frac{r_{X,Y} - r_{XU} \cdot r_{Y,U}} { \sqrt{(1-r_{XU}^2)(1-r_{YU}^2)} }. }
- Beispiel aus dem Alltag
In einer Firma werden zufällig Mitarbeiter ausgewählt und die Körpergröße bestimmt. Zudem muss jeder Befragte sein Einkommen angeben. Das Ergebnis der Untersuchung ist, dass Körpergröße und Einkommen positiv korrelieren, also größere Personen auch mehr verdienen. Bei einer genaueren Untersuchung stellt sich jedoch heraus, dass der Zusammenhang auf die Drittvariable Geschlecht zurückgeführt werden kann. Frauen sind im Durchschnitt kleiner als Männer, verdienen aber auch oftmals weniger. Berechnet man nun die Partialkorrelation zwischen Einkommen und Körpergröße unter Kontrolle des Geschlechts, so verschwindet der Zusammenhang. Größere Männer verdienen demnach beispielsweise nicht mehr als kleinere Männer. Dieses Beispiel ist fiktiv und der Zusammenhang in der Realität komplizierter,[12] es kann jedoch die Idee der Partialkorrelation veranschaulichen.
Robuste Korrelationskoeffizienten
Der Korrelationskoeffizient nach Pearson ist empfindlich gegenüber Ausreißern. Deswegen wurden verschiedene robuste Korrelationskoeffizienten entwickelt, z. B.
- Rangkorrelationskoeffizienten, die Ränge statt der Beobachtungswerte nutzen (wie der Spearman’sche Rangkorrelationskoeffizient (Spearman’sches Rho) und der Kendall’sche Rangkorrelationskoeffizient (Kendall’sches Tau)) oder
- die Quadrantenkorrelation.
Quadrantenkorrelation
Die Quadrantenkorrelation ergibt sich aus der Anzahl der Beobachtungen in den vier vom Medianenpaar bestimmten Quadranten. Dazu zählt man, wie viele der Beobachtungen in den Quadranten I und III liegen (Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle N_+} ) bzw. wie viele sich in den Quadranten II und IV befinden (Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle N_-} ). Die Beobachtungen in den Quadranten I und III liefern jeweils einen Beitrag von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle +1/n} und die Beobachtungen in den Quadranten II und IV von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle -1/n} :
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r_\text{quad} = \frac{N_+-N_-}{N_++N_-} = \frac{1}{n} \sum_{i=1}^n \sgn(x_i - \tilde{x}) \sgn(y_i-\tilde{y})}
mit der Signumfunktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sgn(\cdot)} , der Zahl Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n} der Beobachtungen sowie den Medianen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \tilde{x}} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \tilde{y}} der Beobachtungen. Da jeder Wert von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sgn(x_i-\tilde{x}) \sgn(y_i-\tilde{y})} entweder Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle -1} , Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle 0} oder Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle +1} ist, spielt es keine Rolle, wie weit eine Beobachtung von den Medianen entfernt ist.
Über die Quadrantenkorrelation kann mit Hilfe des Median-Tests die Hypothesen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle H_0\colon r_\text{quad} = 0\,} vs. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle H_1\colon r_\text{quad} \neq 0} überprüft werden. Ist Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n_+} die Zahl der Beobachtungen mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sgn(x_i-\tilde{x}) \sgn(y_i-\tilde{y}) = +1} , Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n_-} die Zahl der Beobachtungen mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sgn(x_i-\tilde{x}) \sgn(y_i - \tilde{y}) = -1} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n_e := (n_+ + n_-)/2 > 5} , dann ist folgende Teststatistik Chi-Quadrat-verteilt mit einem Freiheitsgrad von
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \frac{(n_+ - n_e)^2+(n_- - n_e)^2}{n_e} \sim \chi^2(1)} .
Schätzung der Korrelation zwischen nicht-metrischen Variablen
Die Schätzung der Korrelation mit dem Korrelationskoeffizienten nach Pearson setzt voraus, dass beide Variablen intervallskaliert und normalverteilt sind. Dagegen können die Rangkorrelationskoeffizienten immer dann zur Schätzung der Korrelation verwendet werden, wenn beide Variablen mindestens ordinalskaliert sind. Die Korrelation zwischen einer dichotomen und einer intervallskalierten und normalverteilten Variablen kann mit der punktbiserialen Korrelation geschätzt werden. Die Korrelation zwischen zwei dichotomen Variablen kann mit dem Vierfelderkorrelationskoeffizienten geschätzt werden. Hier kann man die Unterscheidung treffen, dass bei zwei natürlich dichotomen Variablen die Korrelation sowohl durch das Chancenverhältnis als auch durch den Phi-Koeffizient berechnet werden kann. Eine Korrelation aus zwei ordinal- oder einer intervall- und einer ordinal-gemessenen Variablen ist mit dem Spearman’schen Rho oder dem Kendall’schen Tau berechenbar.
Probleme
Das Anscombe-Quartett zeigt Datensätze mit exakt gleichem Korrelationskoeffizient, aber sehr unterschiedlichem Verhalten. Auch andere Probleme sind in der Literatur bekannt[13].
Siehe auch
Literatur
- Francis Galton: Co-relations and their measurement, chiefly from anthropometric data. In: Proceedings of the Royal Society. Band 45, Nr. 13, 5. Dezember 1888, S. 135–145 (galton.org [PDF; 468 kB; abgerufen am 26. November 2021]).
- Birk Diedenhofen, Jochen Musch: cocor A Comprehensive Solution for the Statistical Comparison of Correlations. 2015. PLoS ONE, 10(4): e0121945.
- Joachim Hartung: Statistik. 12. Auflage, Oldenbourg Verlag 1999, S. 561 f., ISBN 3-486-24984-3.
- Peter Zöfel: Statistik für Psychologen. Pearson Studium 2003, München, S. 154.
Weblinks
- Umfassende Erläuterung verschiedener Korrelationskoeffizienten und ihrer Voraussetzungen, sowie häufige Anwendungsfehler
- Eric W. Weisstein: Correlation Coefficient. In: MathWorld (englisch). Darstellung des Korrelationskoeffizienten als Kleinste-Quadrate-Schätzer
- cocor – Ein freies Web-Interface und R-Paket zum statistischen Vergleich von zwei abhängigen oder unabhängigen Korrelationen mit überlappenden oder nicht überlappenden Variablen
Einzelnachweise
- ↑ Der Name Produkt-Moment-Korrelation für den Korrelationskoeffizienten für Zufallsvariablen rührt daher, dass Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \rho_{X,Y}} die auf das Produkt der Varianzen – die im Sinne der Stochastik Momente darstellen – von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y} bezogene Kovarianz ist.
- ↑ Franka Miriam Brückler: Geschichte der Mathematik kompakt. Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6, S. 116.
- ↑ L. Fahrmeir, R. Künstler u. a.: Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer 2016, S. 326.
- ↑ Bayer, Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik, S. 86.
- ↑ Torsten Becker u. a.: Stochastische Risikomodellierung und statistische Methoden. Springer Spektrum, 2016. S. 79.
- ↑ Jürgen Bortz, Christof Schuster: Statistik für Human- und Sozialwissenschaftler. 7. Auflage. Springer-Verlag GmbH, Berlin / Heidelberg / New York 2010, ISBN 978-3-642-12769-4, S. 157.
- ↑ Erich Schubert, Michael Gertz: Numerically stable parallel computation of (co-)variance. ACM, 2018, ISBN 978-1-4503-6505-5, S. 10, doi:10.1145/3221269.3223036 (acm.org [abgerufen am 26. November 2021]).
- ↑ Für alle Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a \in \R \setminus \{0\}}
und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle b \in \R}
gilt:
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{Korr}(aX+b,Y) = \frac{\operatorname{Cov}(aX+b,Y)}{\sqrt{\operatorname{Var}(aX+b)}\sqrt{\operatorname{Var}(Y)}} = \frac{a \cdot \operatorname{Cov}(X,Y)}{\sqrt{a^2 \cdot \operatorname{Var}(X)}\sqrt{\operatorname{Var}(Y)}} = \frac{a}{|a|} \cdot \frac{\operatorname{Cov}(X,Y)}{\sqrt{\operatorname{Var}(X)}\sqrt{\operatorname{Var}(Y)}} = \sgn(a) \cdot \operatorname{Korr}(X,Y) } - ↑ Jacob Cohen: A power primer. In: Psychological Bulletin. Band 112, Nr. 1, 1992, ISSN 1939-1455, S. 155–159, doi:10.1037/0033-2909.112.1.155 (apa.org [abgerufen am 26. November 2021]).
- ↑ Jacob Cohen: A power primer. (PDF; 800 kB) In: personal.kent.edu. 1991, abgerufen am 26. November 2021 (englisch).
- ↑ J. H. Steiger: Tests for comparing elements of a correlation matrix. 1980. Psychological Bulletin, 87, 245–251, doi:10.1037/0033-2909.87.2.245.
- ↑ Der Einfluss der Körpergröße auf Lohnhöhe und Berufswahl: Aktueller Forschungsstand und neue Ergebnisse auf Basis des Mikrozensus. (PDF; 213 kB). In: destatis.de. 2010, abgerufen am 26. November 2021.
- ↑ Aggarwal, Rakesh, and Priya Ranganathan. "Common pitfalls in statistical analysis: The use of correlation techniques." Perspectives in clinical research 7.4 (2016): 187. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5079093/