Multivariate Verteilung
Eine multivariate Verteilung ist in der Wahrscheinlichkeitsrechnung und in der Statistik die Verteilung eines Zufallsvektors, also einer Zufallsvariablen, deren Werte Vektoren im sind. Im zweidimensionalen Fall spricht man auch von einer bivariaten Verteilung. Die multivariate Verteilung eines Zufallsvektors ist somit ein Wahrscheinlichkeitsmaß auf , das messbaren Teilmengen die Wahrscheinlichkeit zuordnet, dass einen Wert aus annimmt. Eine multivariate Verteilung kann durch eine multivariate Verteilungsfunktion charakterisiert werden. Die Verteilungen der einzelnen Komponenten eines Zufallsvektors werden die Randverteilungen von genannt. Beispiele für multivariate Verteilungen sind die Multinomialverteilung oder die multivariate Normalverteilung, weitere finden sich in der Liste multivariater und matrixvariater Wahrscheinlichkeitsverteilungen.
Einführendes Beispiel
Wir betrachten zwei Zufallsexperimente:
- Zweimaliges Würfeln mit einem idealen Würfel. Dies ist äquivalent zu einem Urnenexperiment mit sechs unterscheidbaren Kugeln, wobei zweimal mit Zurücklegen gezogen wird. Es gibt 36 mögliche Ergebnispaare (da wir die Reihenfolge des Würfelns bzw. der Ziehung berücksichtigen), und alle 36 Möglichkeiten sind gleich wahrscheinlich, haben also eine Wahrscheinlichkeit von 1/36.
- Ein ähnliches Urnenexperiment, aber ohne Zurücklegen. In diesem Fall kommen die Ergebnisse (1,1), (2,2), …, (6,6) nicht vor, da die i-te Kugel beim zweiten Ziehen nicht vorkommen kann, wenn sie bereits bei der ersten Ziehung herausgenommen wurde. Die übrigen 30 Paare sind gleich wahrscheinlich und haben daher die Wahrscheinlichkeit 1/30.
Diese beiden Experimente ergeben nun zweidimensionale diskrete Zufallsvariablen und , welche die gleichen Randverteilungen haben (jede Zahl von 1 bis 6 ist bei beiden Experimenten in beiden Ziehungen gleich wahrscheinlich und tritt mit Wahrscheinlichkeit 1/6 auf).
Jedoch sind die beiden Ziehungen im ersten Experiment unabhängig, da die gezogene Kugel zurückgelegt wird, während sie im zweiten Experiment nicht unabhängig sind. Das wird am deutlichsten, wenn man sich klarmacht, dass die Paare (1,1), (2,2), …, (6,6) bei einem unabhängigen Experiment jeweils mit Wahrscheinlichkeit 1/36 vorkommen müssen (Produkt der Randwahrscheinlichkeiten 1/6), sie aber beim zweiten Experiment überhaupt nicht auftreten können (Wahrscheinlichkeit 0 haben), da die Kugel nicht zurückgelegt wird.
Die Verteilungen von und sind daher verschieden; es handelt sich also um ein Beispiel zweier unterschiedlicher diskreter multivariater Verteilungen mit gleichen Randverteilungen.
Bivariate Verteilung
Die Realisationen eines bivariaten Zufallsvektors (einer zweidimensionalen Zufallsvariablen) sind Vektoren in . Die bivariate Verteilung des Zufallsvektors liegt durch die Angabe der Wahrscheinlichkeiten
fest, wobei die Borelsche σ-Algebra auf bezeichnet. Durch für alle ist ein Wahrscheinlichkeitsmaß definiert, das zu einem Wahrscheinlichkeitsraum macht. ist die bivariate Wahrscheinlichkeitsverteilung oder kurz bivariate Verteilung von .
Bivariate Verteilungsfunktion
Die Verteilung des Zufallsvektors liegt bereits dann fest, wenn die Wahrscheinlichkeiten
gegeben sind. Dies motiviert das Konzept der bivariaten Verteilungsfunktion des Zufallsvektors , die durch
definiert ist. Durch Angabe der Funktion liegt die Wahrscheinlichkeitsverteilung von fest, da sich aus den durch die Verteilungsfunktion angegebenen Wahrscheinlichkeiten mit den Regeln der Wahrscheinlichkeitsrechnung die Wahrscheinlichkeiten aller anderen Ereignisse ergeben.
Bivariate Dichtefunktion
Falls der Zufallsvektor Z eine bivariate (oder zweidimensionale) Dichtefunktion besitzt, dann besteht zwischen der bivariaten Verteilungsfunktion und der bivariaten Dichtefunktion der Zusammenhang
- .
Somit liegt durch die Angabe einer bivariaten Dichtefunktion die bivariate Verteilungsfunktion und damit die bivariate Verteilung fest.
Bivariate Verteilung und bedingte Wahrscheinlichkeiten
Wenn die Zufallsvariable diskret ist, dann kann man die gemeinsame Verteilung mit Hilfe bedingter Wahrscheinlichkeiten so schreiben:
und im stetigen Fall entsprechend
Hier sind und die bedingten Dichten ( unter der Bedingung , bzw. von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X} unter der Bedingung Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y=y} ) und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f_X(x), f_Y(y)} die Dichten der Randverteilungen von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Y} .
Stochastische Unabhängigkeit
Die Komponenten des Zufallsvektors Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Z=(X,Y)} sind genau dann stochastisch unabhängig, wenn
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(X \leq x, Y \leq y) = P(X \leq x) P(Y \leq y) \quad\text{für alle } x, y \in \R}
gilt. Anderenfalls liegt stochastische Abhängigkeit vor. Wenn für diskrete Zufallsvariablen
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(X = x, Y = y) = P( X = x) \cdot P( Y = y)\quad\text{für alle } x, y \in \R}
gilt oder wenn für stetige Zufallsvariablen
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f_{X,Y}(x,y) = f_X(x) \cdot f_Y(y)\quad\text{für alle } x, y \in \R}
gilt, dann sind die Zufallsvariablen X und Y unabhängig.
In der Abbildung ist ein Beispiel für die Modellierung der Abhängigkeitsstruktur mit Hilfe von Copulas gezeigt. Insbesondere ist das ein Beispiel dafür, dass eine bivariate Zufallsvariable mit normalen Randverteilungen nicht bivariat normalverteilt sein muss.
Der allgemeine mehrdimensionale Fall
Multivariate Verteilungen ordnen einem geeigneten Teilmengensystem von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \R^n} , dem sogenannten Ereignissystem, Wahrscheinlichkeiten zu. Typischerweise wird als Ereignissystem die Borelsche σ-Algebra auf Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \R^n} gewählt, die mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathcal{B}(\R^n)} bezeichnet wird. Aus wahrscheinlichkeitstheoretischer Sicht gilt: „Multivariate Verteilungen sind Wahrscheinlichkeitsmaße auf Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mathcal{B}(\R^n)} .“[1]
Bei Anwendungen, insbesondere im Bereich der Statistik, steht ein Zufallsvektor (eine n-dimensionale Zufallsvariable), Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X: \Omega \to \R^n} im Vordergrund, dessen Komponenten Zufallsvariablen sind. Der Zufallsvektor Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X = (X_1,\dots, X_n)} besitzt dann eine multivariate Verteilung, die das Bildmaß Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P_X} von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P} unter Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X} ist. Dabei gilt
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P_X(B) = P(X \in B)\quad\text{für alle }B \in \mathcal{B}(\R^n)\;.}
Verteilungsfunktion
Die Verteilungsfunktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle F_P} einer multivariaten Verteilung Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P \colon \mathcal{B}(\R^n) \to [0,1]} ist durch
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle F_P(x_1,\dots,x_n) = P((-\infty,x_1]\times \dots \times (-\infty,x_n]) \quad\text{für alle }(x_1,\dots,x_n) \in \R^n}
definiert.[2]
Die Verteilungsfunktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle F_X} eines Zufallsvektors Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X \colon \Omega \to \R^n} ist durch
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle F_X(x_1,\dots,x_n) = P(X_1 \leq x_1, \dots, X_n \leq x_n) = P(X \in (-\infty,x_1]\times \dots \times (-\infty,x_n]) \quad\text{für alle }(x_1,\dots,x_n) \in \R^n}
definiert.[3]
Besitzt der Zufallsvektor Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X=(X_1,\dots,X_n)} eine Dichtefunktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f_X \colon \R^n \to [0,\infty)} , dann hängen die Verteilungsfunktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle F_X} und die Dichte Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f_X} über
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle F_X(x_1,\dots,x_n) = \int_{-\infty}^{x_n} \dots \int_{-\infty}^{x_1} f_X(u_1,\dots,u_n) \mathrm{d} u_1 \dots \mathrm{d} u_n}
zusammen.[3]
Randverteilungen
Es gibt für Randverteilungen mehr Möglichkeiten als im zweidimensionalen Fall, da nun Randverteilungen für jede niedrigere Dimension Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle 1 \le k <n} existieren und man Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle {n \choose k}} Möglichkeiten hat, einen k-dimensionalen Teilvektor aus einem n-dimensionalen Vektor auszuwählen. Beispielsweise gibt es im dreidimensionalen Fall zur Verteilung des Zufallsvektors Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (X_1,X_2,X_3)} die drei eindimensionale Randverteilungen der Komponenten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X_1} , Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X_2} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X_3} sowie die drei zweidimensionale Randverteilungen der Teilvektoren Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (X_1,X_2)} , Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (X_1,X_3)} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (X_2,X_3)} .
Siehe auch
- Mehrdimensionale Normalverteilung
- Hotelling t-Verteilung als multivariate t-Verteilung,
- Wishart-Verteilung als multivariate Chi-Quadrat-Verteilung.
- Multinomialverteilung
- Multivariate hypergeometrische Verteilung
- Copula
Literatur
- Ludwig Fahrmeir, Alfred Hamerle (Hrsg.): Multivariate statistische Verfahren. de Gruyter, New York 1996, ISBN 3-11-008509-7.
- Joachim Hartung, Bärbel Elpelt: Multivariate Statistik. Oldenbourg, München/Wien 1999, ISBN 3-486-25287-9.
- K. V. Mardia, J. T. Kent, J. M. Bibby: Multivariate Analysis. Acad. Press, New York 1979, ISBN 0-12-471250-9 (engl.).
Einzelnachweise
- ↑ Klaus D. Schmidt: Maß und Wahrscheinlichkeit. 2., durchgesehene Auflage. Springer, Berlin / Heidelberg 2011, ISBN 978-3-642-21025-9, S. 292.
- ↑ Klaus D. Schmidt: Maß und Wahrscheinlichkeit. 2., durchgesehene Auflage. Springer, Berlin / Heidelberg 2011, ISBN 978-3-642-21025-9, S. 294.
- ↑ a b K. V. Mardia, J. T. Kent und J.M. Bibby: Multivariate Analysis. Academic Press, Amsterdam 1979, ISBN 0-12-471252-5, S. 26.