Benutzer:Mbasti01/Konzept 02
Materialsammlung zum Thema Empirische Varianz / Stichprobenvarianz
Rechenregeln - Varianz der Summe von Zufallszahlen - Gleichung von Bienayme
Varianz der Varianz - mit Beispiel, Fehlerbalken
|
Streuung der empirischen Varianz
Wenn man viele Stichproben nimmt, dann führt jede neue Stichprobe zu einer anderen Schätzung für die Varianz der Grundgesamtheit. D.h. die berechnete empirische Varianz (Stichprobenvarianz) hat ebenfalls eine Streuung. Diese Streuung ist ein Maß für die Qualität (Genauigkeit) der Varianzbestimmung. Für den Fall, dass die Streuung in einem gegebenen Anwendungsfall zu hoch ist, könnte man die Anzahl der Werte in der Stichprobe vergrößern oder den Mittelwert aus vielen verschiedenen Stichproben verwenden.
Die Streuung der Stichprobenvarianz kann durch die Berechnung der Grenzwerte des Konfidenzintervalles mit Hilfe der Chi-Quadrat-Verteilung beurteilt werden. Praktisch genügt jedoch häufig eine Abschätzung der Standardabweichung der Stichprobenvarianz mit folgenden Formeln[1] analog zu Formeln (1) und (3):
Standardabweichung der Stichprobenvarianz bei unbekanntem wahren Mittelwert der Gesamtheit:
Standardabweichung der Stichprobenvarianz bei bekanntem wahren Mittelwert der Gesamtheit:
Beispiel 1: Stichprobe mit Werten und der Varianz :
Dann lässt sich die Standardabweichung der Stichprobenvarianz abschätzen als:
Die Standardabweichung von ist im Vergleich zur Stichprobenvarianz erheblich. D.h. eine Stichprobe mit ist in den meisten Anwendungsfällen nicht geeignet um eine ausreichend verlässliche Aussage über die Varianz der Grundgesamtheit zu machen.
Beispiel 2: Stichprobe wird vergrößert auf Werte:
Dann lässt sich die Streuung der Stichprobenvarianz wie oben ermitteln als:
Die Streuung von 0,14 ist bei der Stichprobenvarianz brauchbarer, als das Ergebnis im ersten Beispiel.
Im Falle einer Normalverteilung würde das bedeuten, dass der wahre Varianzwert mit 95% Wahrscheinlichkeit im Bereich von liegt. Im Falle der Berechnung der Grenzwerte mit der Chi-Quadrat-Verteilung ergeben sich fast die gleichen Werte.
Man sieht, dass eine akkurate Berechnung der empirischen Varianz deutlich größere Stichproben erfordert, als man intuitiv vermuten würde.
Zeitreihe
Varianzberechnung basierend auf Daten aus einer Zeitreihe
In diesem Fall sind Datenwerte als Zeitreihe gegeben. ist ein Zähler für die aufgelaufenen Werte seit dem Beginn der Rechnung.
Beispielsweise wird sekündlich ein Wert gemessen. Zu jedem Zeitpunkt der Zeitreihe soll die Varianz aus den letzten Werten von bestimmt werden.
Die Rechnung soll in Echtzeit unmittelbar nach dem Eintreffen von jedem neuen Wert erfolgen. In Echtzeitsystemen wird stark auf die erforderliche Rechenzeit in jedem Zeitschritt geachtet. Mit Formeln (1) bis (3) würde die erforderliche Rechenzeit mit der Zeit steigen, da ja auch die Summen immer mehr Werte umfassen. Das wird vermieden mit folgenden rekursiven Formeln, die auf den Schätz-Ergebnissen für und zum vergangenen Zeitpunkt aufbauen, und die in jedem Zeitschritt ausgeführt werden:[2]
(I) |
(II) |
Diese Formeln benötigen Startwerte für den Zeitpunkt . Bei ungünstiger Wahl nähern sich die Schätzwerte und nur langsam den wahren Werten an. Wenn ab dem Zeitpunkt neue Messwerte eintreffen, dann sind günstige Vorbelegungen für den Zeitpunkt :
- : Vorbelegung mit , oder dem ersten erhaltenen Messwert, oder einem vorab erwarteten Mittelwert
- : Vorbelegung mit , oder einem vorab erwarteten Varianzwert
Empirische Varianz: Diskussion der Einleitung / Alternativen
Version 1.0 - Ursprünglicher Artikel
Dieser Artikel behandelt die Varianz und Standardabweichung einer Stichprobe. Für die Varianz und Standardabweichung als Kenngröße der Verteilung einer reellen Zufallsvariable siehe Varianz (Stochastik), weitere Bedeutungen finden sich unter Varianz.
Die empirische Varianz, auch Stichprobenvarianz (veraltet: empirisches Streuungsquadrat) oder einfach nur kurz Varianz (lateinisch variantia = „Verschiedenheit“ bzw. variare = „(ver)ändern, verschieden sein“) genannt, ist eine statistische Angabe für die Streubreite von Werten einer Stichprobe und in der deskriptiven Statistik eine Kennzahl einer Stichprobe. Sie gehört zu den Streuungsmaßen und beschreibt die mittlere quadratische Abweichung der einzelnen Messwerte vom empirischen Mittelwert. Sie stellt damit eine Art durchschnittliches Abweichungsquadrat dar. Die positive Wurzel der empirischen Varianz ist die empirische Standardabweichung. Die empirische Standardabweichung stellt das gebräuchlichste Streuungsmaß dar.
Die Begriffe „Varianz“, „Stichprobenvarianz“ und „empirische Varianz“ werden in der Literatur nicht einheitlich verwendet. Im Allgemeinen muss unterschieden werden zwischen der
- Varianz (im Sinne der Wahrscheinlichkeitstheorie) als Kennzahl einer Wahrscheinlichkeitsverteilung oder der Verteilung einer Zufallsvariable
- Stichprobenvarianz (im Sinne der induktiven Statistik) als Schätzfunktion für die Varianz (im Sinne der Wahrscheinlichkeitstheorie)
- der hier besprochenen empirischen Varianz als Kennzahl einer konkreten Stichprobe, also mehrerer Zahlen.
Eine genaue Abgrenzung und Zusammenhänge finden sich im Abschnitt Beziehung der Varianzbegriffe.
Version 2.0 - Entwurf einer neuen Version
Die empirische Varianz ist ein Streuungsmaß der beschreibenden Statistik. Sie ist also eine Maßzahl für die statistische Streuung von numerischen Werten. Sie basiert auf der mittleren quadratischen Abweichung vom Mittelwert und wird aus konkreten, empirisch erfassten Stichproben-Daten berechnet. Die empirische Varianz wird daher oft auch Stichprobenvarianz genannt.
Eine Abgrenzung zu anderen Varianz-Begriffen findet sich im Artikel → Varianz.
Die Wurzel aus der empirischen Varianz wird oft empirische Standardabweichung genannt.
Varianz: Diskussion der Einleitung / Alternativen
in der Medizin: Version Pschyrembel Online [3]
Rechnerisch ermittelte Größe zur Charakterisierung der Streuung der Einzelwerte einer Messreihe um ihren Mittelwert (Streuungsmaß). Die (theoretische) Varianz einer Wahrscheinlichkeitsverteilung ist die erwartete quadratische Abweichung vom Erwartungswert. Der positive Wert ihrer Wurzel ist die Standardabweichung. Die (empirische) Varianz einer Stichprobe schätzt die theoretische Varianz.
in der Wirtschaft: Gabler Online [4]
Parameter einer Wahrscheinlichkeitsverteilung, genauer:
- Moment einer Zufallsvariablen (theoretische Varianz, im Sinne der Wahrscheinlichkeitstheorie) oder
- Kennzahl einer Stichprobe (empirische Varianz, im Sinne der deskriptiven Statistik), mit dem die Breite der Verteilung bzw. die Streuung der Stichprobe gemessen werden kann (Streuungsmaß);
- in einem dritten Verständnis spricht man von der Stichprobenvarianz (im Sinne der induktiven Statistik) als Schätzfunktion für die theoretische Varianz.
...
Es gibt 2 verbreitete Versionen der empirischen Varianz:
- Erwartungstreue Schätzung: wird in den meisten Statistikprogrammen verwendet
- Maximum-Likelihood-Schätzung: arithmetisches Mittel der Abweichungsquadrate vom arithmetischen Mittel der Stichprobe, resultiert in kleineren Zahlenwerten als die erwartungstreue Schätzung
Die Quadrierung der Abweichungen vom Mittelwert bewirkt, dass große Abweichungen vom Mittelwert die Varianz stärker beeinflussen als kleine Abweichungen. Die Varianz wird nicht in der Einheit der Stichprobenwerte gemessen, sondern in der quadrierten Einheit und kann deshalb nicht anschaulich interpretiert werden (im Gegensatz zur Standardabweichung). Sie lässt sich auf Varianzursachen aufteilen (Varianzanalyse) und ist differenzierbar und damit analytisch minimierbar.
Version 1.0
Die Varianz, ist in der Statistik ein Maß für die Streubreite von numerischen Werten basierend auf der mittleren quadratischen Abweichung vom Mittelwert. Die Varianz ist eine positive reelle Zahl. Eine Varianz von Null bedeutet, dass alle betrachteten Werte identisch sind.
Die Wurzel aus der Varianz ist die Standardabweichung. Varianz und Standardabweichung gehören zu den Streuungsmaßen.
Die Varianz ist in weitergehenden Berechnungen oft praktischer als die Standardabweichung:
- Beispiel: Im Falle von mehreren unabhängigen Zufalls-Einflüssen kann man die entsprechenden Varianzbeiträge addieren
Aber die Standardabweichung ist oft anschaulicher als die Varianz, da sie dieselbe Größenordnung hat wie die ursprünglichen Einzelwerte
- Beispiel: Eine Standardabweichung von 10 cm ist für einen Leser sofort interpretierbar. Der entsprechende Varianzwert von 100 cm² ist nicht so anschaulich.
Der Begriff "Varianz" leitet sich ab von: lateinisch variantia = „Verschiedenheit“ bzw. variare = „(ver)ändern, verschieden sein“.
Version 2.0
Die Varianz (lateinisch variantia „Verschiedenheit“ bzw.
„(ver)ändern, verschieden sein“) ist der Statistik und Stochastik die mittlere quadratische Abweichung um den Mittelwert. In der in der deskriptiven (beschreibenden) Statistik ist sie definiert als mittlere quadratische Abweichung der Stichprobenwerte von ihrem arithmetischen Mittel. Die induktive (schließende Statistik) dagegen betrachtet die Varianz als mittlere quadratische Abweichung der Stichprobenvariablen von ihrem Stichprobenmittel. In der deskriptiven bzw. induktiven Statistik gibt die Varianz daher an, wie stark die Stichprobenwerte bzw. Stichprobenvariablen um ihr arithmetisches Mittel bzw. Stichprobenmittel streuen (siehe Streuungsmaß (Statistik)). In der Stochastik ist die Varianz eine wichtige Kenngröße einer Wahrscheinlichkeitsverteilung und ist definiert als erwartete quadratische Abweichung einer Zufallsgröße von ihrem Erwartungswert. Sie gibt in der Stochastik daher an, wie stark die Zufallsgröße um ihrem Erwartungswert streut (siehe Dispersionsmaß (Stochastik)).
Version 3.0
Die Varianz, ist in der Statistik ein Maß für die Streuung von numerischen Werten bzw. eine dem entsprechende Kenngröße einer Wahrscheinlichkeitsverteilung von Zufallsvariablen. Der Begriff leitet sich ab von: lateinisch variantia = „Verschiedenheit“ bzw. variare = „(ver)ändern, verschieden sein“.
Die Varianz basiert auf der mittleren quadratischen Abweichung vom Mittelwert. Die Quadrierung der Abweichungen vom Mittelwert bewirkt:
- die Varianz ist immer positiv (oder Null)
- wenige aber starke Ausreißer haben einen großen Einfluss auf das Ergebnis
Eine Varianz von Null bedeutet, dass alle betrachteten Werte identisch sind bzw. dass die Zufallsvariablen keine Streuung aufweisen. In vielen praktischen Aufgabenstellungen ist es daher das Ziel die Varianz zu minimieren.
Die Wurzel aus der Varianz ist die Standardabweichung. Varianz und Standardabweichung gehören zu den Streuungsmaßen.
Die Varianz ist in weitergehenden Berechnungen oft praktischer als die Standardabweichung: So können beispielsweise Varianzbeiträge von mehreren unabhängigen Zufalls-Einflüssen einfach addiert werden. Umgekehrt lässt sich durch eine Varianzanalyse eine Gesamt-Varianz oft auch in ihre Beiträge (Ursachen) aufteilen.
Aber die Standardabweichung ist oft anschaulicher als die Varianz, da sie dieselbe Größenordnung hat wie beobachtete Werte.
Darstellung in der Literatur
Ziel: Darstellung der Formeln / Begriffe so gut wie möglich entsprechend der angegebenen Quellen.
Formelzeichen | |
---|---|
Mittelwert der Grundgesamtheit | |
Varianz der Grundgesamtheit | |
Anzahl der gegebenen Werte | |
Zufallsvariablen (Zufallsgrößen) | |
Stichprobe: beobachtete Werte der Zufallsvariablen | |
Stichprobenmittel / empirischer Mittelwert von | |
Stichprobenvarianz / empirische Varianz von | |
Stichprobenmittel (als Funktion der Zufallsvariablen) | |
Stichprobenvarianz (als Funktion der Zufallsvariablen) |
Bronstein 2020 - Taschenbuch der Mathematik
Bronstein vermeidet die Begriffe "Empirische Varianz" und "Stichprobenvarianz" !
Bronstein verwendet als Divisor nur n-1. Erklärt das aber nicht.
Kapitel: Wahrscheinlichkeitsrechnung
Zufallsgröße / Zufallsveränderliche: "Größe , die unter Zufallsbedingungen reelle Werte annehmen kann."
Kapitel: Mathematische Statistik
Grundgesamtheit: "Menge von Elementen, die auf gewisse Merkmale hin untersucht werden sollen."
Zufallsvektor, mit Zufallsgrößen :
Stichprobe, mit konkreten Werten :
... ist eine konkrete "Realisierung des Zufallsvektors "
Kapitel: Mathematische Statistik > Beschreibende Statistik
Vorgehen bei der Erfassung der Daten:
- Erster Schritt: Protokollierung der Beobachtungswerte die eine Stichprobe darstellen
Kapitel: Mathematische Statistik > Stichprobenfunktionen > Mittelwert
"Der Mittelwert der Zufallsgrößen/Zufallsveränderlichen ist: "
(1.1) |
"Im konkreten Fall lautet der Mittelwert zur Stichprobe :"
(1.1a) |
Kapitel: Mathematische Statistik > Stichprobenfunktionen
Stichprobenfunktion: "Eine Funktion des Zufallsvektors ist wieder eine Zufallsgröße und heißt Stichprobenfunktion"
Kapitel: Mathematische Statistik > Stichprobenfunktionen > Streuung
"Die Streuung der Zufallsgrößen/Zufallsveränderlichen ist: "
(1.1) |
"Im konkreten Fall lautet die Streuung zur Stichprobe :"
(1.1b) |
Kapitel: Mathematische Statistik > Beschreibende Statistik > Statistische Parameter - Mittelwert
"Wenn sämtliche Messwerte unmittelbar berücksichtigt werden gilt: "
(1.2a) |
Kapitel: Mathematische Statistik > Beschreibende Statistik > Statistische Parameter > Streuung
"Wenn sämtliche Messwerte unmittelbar berücksichtigt werden gilt: "
(1.2b) |
Hartung 2005 - Statistik - Lehr- und Handbuch der angewandten Statistik
Formeln und Bezeichnungen wie Bronstein.
Hinweis, dass der Divisor n-1 erforderlich ist, wenn der Mittelwert der Stichprobe unbekannt ist, und dass bei bekanntem Mittelwert der Divisor n verwendet wird. ("... bei bekanntem Mittelwert lässt sich die Varianz schätzen durch ...")
Fahrmeir 1997- Statistik - Der Weg zur Datenanalyse
Keine Erklärung des Divisiors n-1. Nur Plausibilisierung mit "Anzahl Freiheitsgrade".
Kapitel: Deskription/Exploration von Daten > Lagemaße > Standardabweichung, Arithmetisches Mittel
Kapitel: Deskription/Exploration von Daten > Lagemaße > Standardabweichung, Varianz
"Zur Abgrenzung gegen entsprechende Begriffe für Zufallsvariablen wird hier von empirischer Varianz gesprochen. Das Wort empirisch soll bedeuten, dass es sich um Maßzahlen handelt, die aus konkreten Daten berechnet werden. Ist der Zusammenhang jedoch klar verzichtet man oft auf den Zusatz empirisch."
"Die Varianz ist ..." Formel wie Bronstein, aber mit Division durch n. n-1 ist nur eine Alternative. Schreibweise mit Tilde.
(Farmeir) |
"Die Varianz wird oft auch in leicht modifizierter Version definiert, indem man statt durch n durch n-1 dividiert. Diese modifizierte Form nennen wir Stichprobenvarianz. Sie wird in der induktiven Statistik bevorzugt und ist in statistischen Programmpakten deshalb oft die voreingestellte Standardoption."
Kapitel: Diskrete Zufallszahlen > Verteilungen > Lageparameter > Standardabweichung, Varianz
Varianz einer diskreten Zufallsvariable: ("erwartete quadratische Abweichung")
"... für große n liegt mit großer Wahrscheinlichkeit bei ..."
Definition Empirische Varianz (Materialsammlung)
Die Verwendung und Abgrenzung der Bezeichnungen „Stichprobenvarianz“ und „empirische Varianz“ ist in der Literatur nicht einheitlich:
Einige Autoren[5] bezeichnen Formel (1) als Stichprobenvarianz und Formel (2) als empirische Varianz unter anderem mit der Begründung, dass nur Formel (1) in der induktiven Statistik zur Schätzung der Varianz der Grundgesamtheit auf Basis einer Stichprobe herangezogen wird und nicht Formel (2), da diese Definition der Varianz gängige Qualitätskriterien nicht erfüllt (siehe #Varianz (im Sinne der induktiven Statistik)).
Es ist bemerkenswert, dass es umfangreiche mathematische und statistische Handbücher[6][5] gibt, die die Formel (2) nicht erwähnen. Es ist umstritten[7], warum Formel (2) auf Stichproben angewendet werden sollte, da es ja auch eine "korrigierte Stichprobenvarianz" (1) gibt, die den Vorteil hat, dass sie im Sinne der schließenden Statistik erwartungstreu ist.
Weitere Wikipedia-Seiten
- Hinweis auf einen unfertigen Artikel [3] im Laufe der Diskussion auf der Seite Varianz.
Einzelnachweise
- ↑ HU-Berlin 2018: Verteilung der Stichprobenvarianz, Kapitel 1.2, abgerufen am 1. Februar 2022.
- ↑ Young 2011 - Chapter 2: Recursive Estimation, Seite 19
- ↑ Pschyrembel Online: Varianz, abgerufen am 1. Februar 2022.
- ↑ Gabler-Banklexikon: Varianz, abgerufen am 1. Februar 2022.
- ↑ a b Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S. 65
- ↑ Bronstein-Semendjajew 2020: Taschenbuch der Mathematik.
- ↑ FernUni Hagen 2020: Empirische vs Stichprobenvarianz. In: YouTube. FernUni Hagen: https://www.statstutor.de/, 19. April 2020, abgerufen am 1. Februar 2022.