Benutzer:JonskiC/Varianz

aus Wikipedia, der freien Enzyklopädie
Formelzeichen
Mittelwert der Grundgesamtheit
Varianz der Grundgesamtheit
Anzahl der gegebenen Werte
Zufallsvariablen (Zufallsgrößen)
Stichprobe: beobachtete Werte der Zufallsvariablen
Stichprobenmittel / empirischer Mittelwert von
Stichprobenvarianz / empirische Varianz von
Stichprobenmittel (als Funktion der Zufallsvariablen)
Stichprobenvarianz (als Funktion der Zufallsvariablen)

Die Varianz (lateinisch variantia „Verschiedenheit“ bzw.

variare

„(ver)ändern, verschieden sein“) ist der Statistik und Stochastik die mittlere quadratische Abweichung um den Mittelwert. In der in der deskriptiven (beschreibenden) Statistik ist sie definiert als mittlere quadratische Abweichung der Stichprobenwerte von ihrem arithmetischen Mittel. Die induktive (schließende Statistik) dagegen betrachtet die Varianz als mittlere quadratische Abweichung der Stichprobenvariablen von ihrem Stichprobenmittel. In der deskriptiven bzw. induktiven Statistik gibt die Varianz daher an, wie stark die Stichprobenwerte bzw. Stichprobenvariablen um ihr arithmetisches Mittel bzw. Stichprobenmittel streuen (siehe Streuungsmaß (Statistik)). In der Stochastik ist die Varianz eine wichtige Kenngröße einer Wahrscheinlichkeitsverteilung und ist definiert als erwartete quadratische Abweichung einer Zufallsgröße von ihrem Erwartungswert. Sie gibt in der Stochastik daher an, wie stark die Zufallsgröße um ihrem Erwartungswert streut (siehe Dispersionsmaß (Stochastik)).

Stichprobenvarianz

Zur Ermittlung der Varianz der Werte werden zunächst die Abweichungen der jeweiligen Werte von ihrem arithmetischen Mittel gebildet. Im Anschluss quadriert man diese Abweichungen und erhält die Abweichungsquadrate . Summiert man diese Abweichungsquadrate erhält man eine sogenannte Abweichungsquadratsumme. Je nachdem, ob man diese Abweichungsquadratsumme durch die Anzahl der Werte oder um die um Eins verringerte Anzahl der Werte dividiert erhält man eine unterschiedliche Darstellung der Varianz. Im letzteren Fall ist die Varianz gegeben durch

 
 
 (1)
 

und kann als „durchschnittliches Abweichungsquadrat“ interpretiert werden. Dieses auf Basis von konkreten Werten berechnete „durchschnittliche Abweichungsquadrat“ wird auch als Stichprobenvarianz oder empirische Varianz bezeichnet. Da der Faktor auch als Korrekturfaktor bezeichnet wird, spricht man auch von der korrigierten Stichprobenvarianz oder der korrigierten empirischen Varianz. Wenn die Abweichungsquadratsumme jedoch statt durch durch dividiert wird erhält man die unkorrigierten Stichprobenvarianzen

 
 
 (2)
 
Beispiel

Gegeben sei die Stichprobe

,

es ist also . Für den empirischen Mittelwert ergibt sich

.

Bei stückweiser Berechnung ergibt sich dann

.

Über die erste Definition (Gleichung (1)) erhält man

wohingegen die zweite Definition (Gleichung (2))

liefert.

 
 
 (3)
 

Gleichung (2) und (3) unterscheiden sich darin, dass bei Gleichung (3) im Gegensatz zu Gleichung (2), der Mittelwert der Grundgesamtheit bekannt ist und daher in die Formel eingesetzt werden kann. Die Verwendung der Bezeichnungen „Stichprobenvarianz“ und „empirische Varianz“ ist in der Literatur nicht einheitlich. Einige Autoren bezeichnen Gleichung (1) als Stichprobenvarianz und Gleichung (2) als empirische Varianz unter anderem mit der Begründung, dass nur Gleichung (1) in der induktiven Statistik zur Schätzung der Varianz der Grundgesamtheit auf Basis einer Stichprobe herangezogen wird und nicht Gleichung (2), da diese Definition der Varianz gängige Qualitätskriterien nicht erfüllt (siehe #Varianz (im Sinne der induktiven Statistik)).

Für die Division durch anstatt durch kann die folgende intuitive Begründung gegeben werden: aufgrund der Tatsache, dass Summe der Abweichungen der Werte von ihrem arithmetischen Mittel stets Null ergibt (siehe Arithmetisches Mittel#Schwerpunkteigenschaft) ist die letzte Abweichung bereits durch die ersten Abweichungen bestimmt. Die Anzahl der in die Summe eingehenden unabhängigen Summanden (Anzahl der Freiheitsgrade) ist also um Eins reduziert bzw. man verliert einen Freiheitsgrad.[1] Eine weitere Begründung für den Korrekturfaktor ergibt sich aus der Betrachtung #Stichprobe ist eine Zufallsstichprobe.

Stichprobe ist eine Vollerhebung

Im Fall, dass die Stichprobe ist eine Vollerhebung ist, enthält die Stichprobe alle Elemente der Grundgesamtheit und und fallen zusammen. Der wahre Mittelwert der Grundgesamtheit fällt mit dem arithmetischen Mittel zusammen und berechnet sich aus allen Elementen der Grundgesamtheit als

 
 
 (4)
 

Bei einer Vollerhebung gilt dass die Anzahl der Elemente in der Stichprobe der Anzahl der Elemente der Grundgesamtheit entspricht () und damit gilt. Die Varianz der Grundgesamtheit (auch Populationsvarianz genannt) ist dann gegeben durch

 
 
 (5)
 

Stichprobe ist eine Zufallsstichprobe

Ist eine Stichprobe eine (einfache) Zufallsstichprobe, dann ersetzt man in Gleichung (1) die Stichprobenwerte durch die Stichprobenvariablen . Dies führt zur Darstellung der Varianz als Funktion (genauer Stichprobenfunktion) von Zufallsvariablen

 
 
 (6)
 
 
 
 (7)
 

Die Gleichungen (3) und (4) sind Analog zur Stichprobenvarianz in der deskriptiven Statistik definiert und werden in der induktiven (schließenden) Statistik verwendet. In den Verfahren der induktiven Statistik (Statistische Tests, Konfidenzintervalle etc.) fließt oft die Varianz der Grundgesamtheit ein. In der Praxis ist die Varianz der Grundgesamtheit jedoch unbekannt, so dass sie geschätzt werden muss. Die Gleichungen (6) und (7) dienen in der induktiven Statistik also als Schätzfunktion, um die unbekannte Varianz der Grundgesamtheit zu schätzen. Wenn die Stichprobe eine Zufallsstichprobe ist, dann kann das Stichprobenmittel als Schätzung (die Schätzung eines Parameters der Grundgesamtheit wird konventionell mit einem Dach gekennzeichnet ) des Mittelwerts der Grundgesamtheit herangezogen werden (). Durch die Bildung des Stichprobenmittels wird eine Abhängigkeit zwischen den Summanden in Gleichung (6) hergestellt, d. h. ein Freiheitsgrad wird gebunden bzw. geht verloren.[2] Daher dividiert man auch hier durch statt durch . Die induktive Statistik, die die Definition der Varianz in Gleichung (6) zur Schätzung der Varianz der Grundgesamtheit verwendet, liefert eine weitere Begründung für den Korrekturfaktor (siehe #Varianz (im Sinne der induktiven Statistik)).

Varianz (im Sinne der induktiven Statistik)

Stichprobenvarianz (Schätzfunktion)

In der induktiven (schließenden) Statistik wird Gleichung (6) verwendet, um die unbekannte Varianz der Grundgesamtheit zu schätzen. Dies geschieht meist durch einen einfachen Punktschätzer. Sei eine Zufallsvariable mit unbekannter Verteilung und sei eine Stichprobe gegeben, dann ist eine Schätzfunktion für die unbekannte Varianz der Grundgesamtheit gegeben durch

 
 
 (8)
 

Der Grund warum Gleichung (6) anstatt Gleichung (7) zur Schätzung der Varianz der Grundgesamtheit herangezogen wird ist, dass die unkorrigierte Stichprobenvarianz (Gleichung (7)) gängige Qualitätskriterien für Punktschätzer nicht erfüllt. Gleichung (7) ist nicht erwartungstreu für die unbekannte Varianz der Grundgesamtheit, wohingegen die korrigierte Stichprobenvarianz (Gleichung (6)) erwartungstreu für die unbekannte Varianz der Grundgesamtheit ist. Man kann zeigen, dass gerade die Normierung Gleichung (6) zu einer erwartungstreuen Schätzfunktion für die Varianz der Grundgesamtheit macht (siehe Stichprobenvarianz (Schätzfunktion)#Erwartungstreue).[3] Die Sicherstellung des Qualitätskriteriums der Erwartungstreue ist somit ein weiter Grund für den Korrekturfaktor , der aus der induktiven Statistik stammt.

Varianz (im Sinne der Wahrscheinlichkeitstheorie)

In der Stochastik ist die Varianz eine wichtiges Streuungsmaß der Verteilung einer Zufallsvariablen. Sofern der Erwartungswert existiert, ist in der Stochastik die Varianz definiert als erwarte quadratische Abweichung der Zufallsvariablen von ihrem Erwartungswert

 
 
 (9)
 

Varianzberechnung basierend auf einer Verteilungsfunktion

Varianzberechnung basierend auf einer stetigen Verteilungsfunktion

Gegeben ist in diesem Fall eine stetige Zufallsvariable mit einer Wahrscheinlichkeitsdichtefunktion (kurz: Dichte) , die eine Aussage trifft, wie wahrscheinlich das Auftreten von welchem Wert ist. Dann ergeben sich Erwartungswert und Varianz der Grundgesamtheit aus den folgenden Formeln:[4]

 
 
 (10)
 
 
 
 (11)
 

Varianzberechnung basierend auf einer diskreten Verteilungsfunktion

Im Unterschied zu Gleichungen (10) und (11) kann die Zufallsvariable in diesem Fall nur bestimmte (diskrete) Werte annehmen. Die Verteilungsfunktion ist in diesem Fall gegeben als Wahrscheinlichkeiten , mit denen der zugehörige Wert auftritt. Dies führt zu folgenden Formeln für Erwartungswert und Varianz der Grundgesamtheit:[4]

 
 
 (12)
 
 
 
 (13)
 

Literatur

  • Bronstein-Semendjajew 2020 – I. N. Bronstein, K. A. Semendjajew, G. Musiol, H. Mühlig: Taschenbuch der Mathematik. 11. Auflage. Verlag Europa-Lehrmittel Nourney, Vollmer GmbH & Co. KG, Haan-Gruiten 2020, ISBN 978-3-8085-5792-1.

Einzelnachweise

  1. Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S. 65
  2. Otfried Beyer, Horst Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik. 1976, S. 92.
  3. Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S. 341
  4. a b Bronstein-Semendjajew 2020: Taschenbuch der Mathematik, 16.2.2.3 Erwartungswert und Streuung, S. 827, Formel 16.52.