Dieser Artikel behandelt die Kovarianz von zwei Zufallsvariablen; zur Kovarianz einer Datenreihe oder Stichprobe siehe
Stichprobenkovarianz.
Die Kovarianz (lateinisch con- = „mit-“ und Varianz (Streuung) von variare = „(ver)ändern, verschieden sein“, daher selten auch Mitstreuung[1]) ist in der Stochastik ein nichtstandardisiertes Zusammenhangsmaß für einen monotonen Zusammenhang zweier Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsverteilung. Der Wert dieser Kennzahl macht tendenzielle Aussagen darüber, ob hohe Werte der einen Zufallsvariablen eher mit hohen oder eher mit niedrigen Werten der anderen Zufallsvariablen einhergehen.
Die Kovarianz ist ein Maß für die Assoziation zwischen zwei Zufallsvariablen.
Definition
Sind
und
zwei reelle, integrierbare Zufallsvariablen, deren Produkt ebenfalls integrierbar ist, d. h., die Erwartungswerte
,
und
existieren, dann heißt
![{\displaystyle \operatorname {Cov} (X,Y):=\operatorname {E} {\bigl [}(X-\operatorname {E} (X))\cdot (Y-\operatorname {E} (Y)){\bigr ]}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5e796453df767130a796f1a9c4f2af7c6a3c9f79)
die Kovarianz von
und
. Die Kovarianz ist also das Produkt der Differenzen je zwischen
und
und ihren Erwartungswerten. In der Statistik werden
und
als Abweichungen vom arithmetischen Mittelwert berechnet.[2]
Berechnung
Für die Berechnung oder Schätzung der Kovarianz aus zwei Datenreihen gibt es unterschiedliche Formeln, siehe Stichprobenkovarianz.
Eigenschaften und Rechenregeln
Interpretation der Kovarianz
Normalverteilungen mit unterschiedlicher Kovarianz
Die Kovarianz kann anhand dreier Wertebereiche qualitativ beschrieben werden:
- Die Kovarianz ist positiv, wenn zwischen
und
ein Zusammenhang mit gleicher Tendenz besteht, d. h., hohe (niedrige) Werte von
gehen mit hohen (niedrigen) Werten von
einher.
- Die Kovarianz ist hingegen negativ, wenn zwischen
und
ein Zusammenhang mit gegensinniger Tendenz besteht, d. h. hohe Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen einher und umgekehrt.
- Ist das Ergebnis null, so besteht kein systematischer Zusammenhang zwischen
und
.
Zusammenhang von Kovarianz und Korrelation
Die Kovarianz ist zu zwei Eigenschaften der Daten proportional, der Stärke des Zusammenhangs und den Amplituden beider Streuungen. Um den Zusammenhang isoliert zu betrachten und vergleichbar zu machen, kann die Kovarianz mithilfe der Standardabweichung durch den Korrelationskoeffizient standardisiert werden.
Durch die Umrechnung der Kovarianz in die Korrelation

wird der Wertebereich in das Intervall
projiziert. Dabei können folgende Fälle unterschieden werden:
|
|
= 1
|
vollständig (positiv) korreliert
|
0 <
|
|
< 1
|
partiell (positiv) korreliert
|
|
|
= 0
|
vollständig unkorreliert
|
−1 <
|
|
< 0
|
partiell antikorreliert
|
|
|
= −1
|
vollständig antikorreliert
|
Existenz
Falls
und
quadratintegrierbar sind, also falls
und
gelten, so folgen aus der Cauchy-Schwarz-Ungleichung:
und analog
und zusätzlich
.
Somit ist die geforderte Existenz der Erwartungswerte für quadratintegrierbare Zufallsvariablen erfüllt.
Verschiebungssatz
Zur oft einfacheren Berechnung der Kovarianz kann man auch den Verschiebungssatz als alternative Darstellung der Kovarianz anwenden.
Satz (Verschiebungssatz für die Kovarianz):

Beweis:
![{\displaystyle {\begin{aligned}\operatorname {Cov} (X,Y)&=\operatorname {E} {\bigl [}(X-\operatorname {E} (X))\cdot (Y-\operatorname {E} (Y)){\bigr ]}\\&=\operatorname {E} {\bigl [}(XY-X\operatorname {E} (Y)-Y\operatorname {E} (X)+\operatorname {E} (X)\operatorname {E} (Y)){\bigr ]}\\&=\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y)-\operatorname {E} (Y)\operatorname {E} (X)+\operatorname {E} (X)\operatorname {E} (Y)\\&=\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y)\qquad \Box \end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1f1f5f881c260b38a9ee78fb19c148c4f5f59698)
Beziehung zur Varianz
Satz: Die Kovarianz ist die Verallgemeinerung der Varianz, denn es gilt

Beweis:
![{\displaystyle {\begin{aligned}\operatorname {Cov} (X,X)&=\operatorname {E} {\bigl [}(X-\operatorname {E} (X))^{2}{\bigr ]}\\&=\operatorname {Var} (X)\qquad \Box \end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f4921e36c79d4387197acd9836e7da9df3985b28)
Die Varianz ist demnach die Kovarianz einer Zufallsvariablen mit sich selbst.
Mit Hilfe der Kovarianzen lässt sich auch die Varianz einer Summe von quadratintegrierbaren Zufallsvariablen berechnen. Allgemein gilt

Speziell für die Summe zweier Zufallsvariablen gilt daher die Formel

Wie sich unmittelbar aus der Definition ergibt, ändert die Kovarianz das Vorzeichen, wenn eine der Variablen das Vorzeichen ändert:

Somit ergibt sich für die Differenz zweier Zufallsvariablen die Formel

Linearität, Symmetrie und Definitheit
Satz: Die Kovarianz ist eine positiv semidefinite symmetrische Bilinearform auf dem Vektorraum der quadratisch integrierbaren Zufallsvariablen.
Es gelten also die folgenden drei Sätze:
Satz (Bilinearität): Für
gilt:

![{\displaystyle \operatorname {Cov} [X,(eY+f)+(gZ+h)]=e\operatorname {Cov} (X,Y)+g\operatorname {Cov} (X,Z).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e2ec4fade415de1ca2a724ecc9f1e25a265d661a)
Beweis:
![{\displaystyle {\begin{aligned}\operatorname {Cov} (aX+b,cY+d)&=\operatorname {E} {\bigl [}(aX+b-\operatorname {E} (aX+b))\cdot (cY+d-\operatorname {E} (cY+d)){\bigr ]}\\&=\operatorname {E} {\bigl [}(aX-a\operatorname {E} (X))\cdot (cY-c\operatorname {E} (Y)){\bigr ]}\\&=ac\operatorname {E} {\bigl [}(X-\operatorname {E} (X))\cdot (Y-\operatorname {E} (Y)){\bigr ]}\\&=ac\operatorname {Cov} (X,Y)\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0c07641b767ecc042277e68bb2d2fb1eeec56326)
![{\displaystyle {\begin{aligned}\operatorname {Cov} [X,(eY+f)+(gZ+h)]&=\operatorname {E} {\bigl [}(X-\operatorname {E} (X))\cdot (eY+f+gZ+h-\operatorname {E} (eY+f+gZ+h)){\bigr ]}\\&=\operatorname {E} {\bigl [}(X-\operatorname {E} (X))\cdot (eY-e\operatorname {E} (Y)+gZ-g\operatorname {E} (Z)){\bigr ]}\\&=\operatorname {E} {\bigl [}(X-\operatorname {E} (X))\cdot e(Y-\operatorname {E} (Y))+(X-\operatorname {E} (X))\cdot g(Z-\operatorname {E} (Z)){\bigr ]}\\&=e\operatorname {E} {\bigl [}(X-\operatorname {E} (X))\cdot (Y-\operatorname {E} (Y)){\bigr ]}+g\operatorname {E} {\bigl [}(X-\operatorname {E} (X))\cdot (Z-\operatorname {E} (Z)){\bigr ]}\\&=e\operatorname {Cov} (X,Y)+g\operatorname {Cov} (X,Z)\qquad \Box \end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2574e1045ef0d8cb1e03affe152285cbd782830b)
Die Kovarianz ist offensichtlich invariant unter der Addition von Konstanten zu den Zufallsvariablen. In der zweiten Gleichung ist die Kovarianz wegen der Symmetrie auch im ersten Argument linear.
Satz (Symmetrie):

Beweis:
![{\displaystyle {\begin{aligned}\operatorname {Cov} (X,Y)&=\operatorname {E} {\bigl [}(Y-\operatorname {E} (Y))\cdot (X-\operatorname {E} (X)){\bigr ]}\\&=\operatorname {Cov} (Y,X)\qquad \Box \end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c208da3cbdf45e976ee0122f150dceb5cd233795)
Satz (Positive Semidefinitheit):

Beweis:

Insgesamt folgt wie für jede positiv semidefinite symmetrische Bilinearform die Cauchy-Schwarzsche Ungleichung

Die Linearität der Kovarianz hat zur Folge, dass die Kovarianz vom Maßstab der Zufallsvariablen abhängt. So erhält man beispielsweise die zehnfache Kovarianz, wenn man anstatt
die Zufallsvariable
betrachtet. Insbesondere hängt der Wert der Kovarianz von den verwendeten Maßeinheiten der Zufallsvariablen ab. Da diese Eigenschaft die absoluten Werte der Kovarianz schwer interpretierbar macht, betrachtet man bei der Untersuchung auf einen linearen Zusammenhang zwischen
und
häufig stattdessen den maßstabsunabhängigen Korrelationskoeffizienten. Der maßstabsunabhängige Korrelationskoeffizient zweier Zufallsvariablen
und
ist die Kovarianz der standardisierten (auf die Standardabweichung bezogenen) Zufallsvariablen
und
:[3]
.
Unkorreliertheit und Unabhängigkeit
Definition (Unkorreliertheit): Zwei Zufallsvariablen
und
heißen unkorreliert, wenn
.
Satz: Zwei stochastisch unabhängige Zufallsvariablen sind unkorreliert.
Beweis: Für stochastisch unabhängige Zufallsvariablen
und
gilt
, d. h.

Der Umkehrschluss gilt im Allgemeinen nicht. Ein Gegenbeispiel ist gegeben durch eine im Intervall
gleichverteilte Zufallsvariable
und
. Offenkundig sind
und
voneinander abhängig. Es gilt aber
.
Stochastisch unabhängige Zufallsvariablen, deren Kovarianz existiert, sind also auch unkorreliert. Umgekehrt bedeutet Unkorreliertheit aber nicht zwingend, dass die Zufallsvariablen stochastisch unabhängig sind, denn es kann eine nichtmonotone Abhängigkeit bestehen, die die Kovarianz nicht erfasst.
Weitere Beispiele für unkorrelierte, aber stochastisch abhängige Zufallsvariablen:
- Seien
und
Zufallsvariablen mit
und 
- Dann gilt
und
, 
- Es folgt
und ebenfalls
, also 
- Andererseits sind
und
wegen
nicht stochastisch unabhängig.
- Seien die Zufallsvariablen
und
bernoulliverteilt mit Parameter
und unabhängig, dann sind
und
unkorreliert, aber nicht unabhängig.
- Die Unkorreliertheit ist klar, denn

- Aber
und
sind nicht unabhängig, denn es ist 
Verallgemeinerungen
Der Kovarianzoperator verallgemeinert die Kovarianz auf unendlich-dimensionale Räume. Er spielt eine wichtige Rolle in der stochastischen Analysis auf solchen Räumen und der Theorie der stochastischen partiellen Differentialgleichungen.
Siehe auch
Literatur
- Norbert Henze: Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt des Zufalls. 10. Auflage. Verlag Springer Spektrum, Wiesbaden 2013, ISBN 978-3-658-03076-6, Kapitel 21, doi:10.1007/978-3-658-03077-3_21.
- Karl Bosch: Elementare Einführung in die Angewandte Statistik: Mit Aufgaben und Lösungen, 9. erw. Auflage. Vieweg+Teubner Verlag 2010, ISBN 978-3834812292, doi:10.1007/978-3-8348-9705-3.
Einzelnachweise
- ↑ Hansjochem Autrum, Erwin Bünning et al.: Ergebnisse Der Biologie., S. 88
- ↑ Rainer Diaz-Bone: Statistik für Soziologen. 5. Auflage. UVK Verlag, ISBN 978-3-8252-5210-6, 4.3.2, S87.
- ↑ Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, und Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S. 326.