Benutzer Diskussion:Wilhelm Valerie/spielwiese

aus Wikipedia, der freien Enzyklopädie

Die vorliegende Beschreibung der Berechnung der deskriptiven Statistik verzichtet auf komplizierte mathematische Formeln. Weil aber Sprache oft nicht eindeutig ist, wird die verbale Beschreibung von tabellarisch aufgebauten Formularen unterstützt. Die Tabellen wurden in Anlehnung an die Tabellenverarbeitung mit dem Computer entwickelt; auf die Anwendung von Funktionen, welche die Tabellenkalkulations-Software anbietet, wurde jedoch verzichtet.

Merkmale

Merkmale sind quantitativ oder kategorial. Um den Zusammenhang zwischen zwei Merkmalen überprüfen zu können, müssen die Werte der Merkmale mehrerer Individuen in die Berechnung einfließen.

Quantitative Merkmale beschreiben Eigenschaften oder Verhalten in Form einer Mengenangabe, wie z.B. die Körpergröße (Eigenschaft) oder die Zeit welche die Individuen für eine bestimmte Aufgabe benötigen (Verhalten). Quantitative Merkmale unterscheiden sich mehr oder weniger, sie sind kontinuierlich. Die quantitativen Merkmale werden im Folgenden als Variable bezeichnet. Die Ausprägungen der quantitativen Merkmale sind die 'Variablenwerte' .

Kategoriale Merkmale qualifizieren Individuen oder Situationen, sie unterscheiden sich ganz oder gar nicht. Das kategoriale Merkmal wird als Faktor bezeichnet. Die Ausprägungen des Faktors sind die Kategorien. Ein Faktor ist z.B. das Geschlecht (=Kategorien der Individuen) oder die Jahreszeit, während der die Messung durchgeführt wurde (=Kategorien der Situation).

Die psychometrische Statistik prüft entweder zwei quantitative Merkmale auf Zusammenhang oder ein quantitatives und ein kategoriales Merkmal. Entsprechend müssen pro Individuum entweder zwei quantitative Merkmale oder ein quantitatives und ein qualitatives Merkmal erfasst werden.

Datentabelle

Datei:DSFormular1.pdf
Deskriptive Statistik Formular 1

Die gemessenen Daten werden für die statistische Berechnung tabellarisch aufgelistet. Die rechts abgebildeten Tabellen "Deskriptive Statistik, Formular 1 bzw. Formular 2" wurden mit dem Tabellen-kalkulations-programm Microsoft Excel entwickelt. Die Tabellen eignen sich sowohl als Vorlage für die Berechnung mit Microsoft Excel als auch für die manuelle Berechnung. Die Formulare enthalten jeweils 6 Kopfzeilen und 20 Tabellenzeilen.

Formular 1: Der linke Bereich mit den blauen Überschriften enthält die Eingabedaten.

Kopfdaten: Die Leerzeilen bieten Platz für Titel, Forschungsfrage, Notizen, etc. Die Zeilen 'Variable', 'Kategorie' und 'Faktor' gelten für alle Zeilen einer Tabelle.

Tabellenzeilen: Die Tabellenzeilen enthalten die Identifikation des Individuums bei dem die Werte gemessen wurden und den gemessenen Wert ( = Variablenwert). Die Variablenwerte der gleichen Variablen und der gleichen Kategorie bilden eine Gruppe, sie werden in einer Tabelle zusammengefasst. Für jede Variable, bzw. für jede Kategorie wird eine separate Tabelle erstellt. Eine Tabelle kann sich natürlich auch über mehr als 20 Tabellenzeilen erstrecken. In so einem Fall ist ein Fortsetzungsblatt anzulegen, bzw. in Excel die Tabelle zu verlängern. Die Variablenwerte können manchmal nicht direkt gemessen werden, sie müssen aus den gemessenen Daten errechnet werden. Die Spalten "vorher/von" bzw. "nachher/bis" des Dateneingabeberechs sind für solche Fälle vorgesehen. Sie spielen für die Berechnung der Statistik sonst keine Rolle.

Normierung

Die Normierung berechnet Kennzahlen wodurch unterschiedlichste Mengen- bzw. Maßeinheiten vergleichbar werden. Der Mittelwert wird zum Ursprung und die Varianz wird zur Maßeinheit. Die Tabellenfelder mit den grün unterlegten Überschriften in Formular 1 dienen der Normierung, dieser Vorgang wird auch als Standardisierung bezeichnet. Die Beschreibung der Datenfelder erfolgt in der Reihenfolge der Berechnung. Bei der Normierung werden alle Zeilen einer Tabelle einbezogen, also alle Variablenwerte der gleichen Variablen und der gleichen Kategorie.

Datenfelder der Normierung:

  • Anzahl = Anzahl der Variablenwerte
  • Mittelwert (MW) = Summe aller Variablenwerte (VW) einer Tabelle, geteilt durch deren Anzahl
  • Abweichung (Abw) = Variablenwert minus Mittelwert
  • quadrierte Abweichung (Abw²) = Quadrat der Abweichung
  • Varianz (V) = Mittelwert der quadrierten Abweichung
  • Standardabweichung (StA) = Wurzel aus der Varianz
  • standardisierte Abweichung (z-Wert) = Abweichung geteilt durch Standardabweichung (Abw / StA)

Kovarianzanalyse

Datei:DSFormular2.pdf
Deskriptive Statistik Formular 2

Mit der Kovarianzanalyse wird geprüft ob es zwischen 2 quantitativen Merkmalen einen Zusammenhang gibt oder anders ausgedrückt, ob 2 Merkmale miteinander korrelieren. Pro Individuum müssen 2 Variablenwerte von zwei verschiedenen Variablen vorliegen. Mit verschiedenen Variablen kann auch gemeint sein, dass die gleiche Variable unter zwei verschiedenen Bedingungen gemessen wurde oder die eine Variable bezieht sich auf den Ausgangswert der Variablen, während die zweite Variable die Veränderung wiedergibt. Eine eventuell eingetragene Kategorie wird entweder ignoriert oder die Kovarianz wird für jede Kategorie separat berechnet. Welcher Weg gewählt wird, hängt von der Forschungsfrage ab. Es ist meist informativ, beide Varianten zu berechnen.

Für jede Variable werden die Daten in das Formular 1 (blau unterlegt) eingetragen und die Normierung (grün unterlegt) durchgeführt. Die Kovarianzanalyse wird mit Formular 2 (rot unterlegt) berechnet. Die eine Variable wird mit x bezeichnet, die zweite mit y. Die Buchstaben werden vor die jeweilige Bezeichnung gestellt. Von der Kovarianz spricht man, wenn mit absoluten Werten (Abweichung) gerechnet wird, während die Korrelation mit den standardisierten Werten (z-Wert) rechnet. Das Ergebnis ist aber gleich. Spalte 1 von Formular 2 bezieht sich auf die Kovarianz, Spalte 2 auf die Korrelation. Die Daten werden wie folgt berechnet:

Kovarianz: Spalte 1

  • Tabellenzeilen: xAbw * yAbw = Produkt der Abweichung pro Individuum
  • Totalvarianz (tV) = Wurzel(xV * yV) = Wurzel aus dem Produkt der Varianz von Variable x und der Varianz von Variable y
  • Kovarianz (Cov) = Mittelwert der Tabellenzeilen (xAbw * yAbw) = Mittelwert aus dem Produkt der Abweichungen = überlappende Fläche beider Merkmale
  • Korrelationskoeffizient = Cov / tV = Kovarianz geteilt durch Totalvarianz

Korrelation: Spalte 2

  • Tabellenzeilen: x_zWert * y_zWert = Produkt der standardisierten Abweichung
  • Totalvarianz = 1 (= Totalvarianz geteilt durch Totalvarianz)
  • Korrelationskoeffizient = Mittelwert der Tabellenzeilen (x_zWert * y_zWert)
  • Kovarianz (Cov) = Totalvarianz mal Korrelationskoeffizient


Lineare Regression

Bei der Regression muss zwischen Prädiktor und Kriterium unterschieden werden. Die Variable x sei der Prädiktor und die Variable y das Kriterium. Ist der Variablenwert der Variablen x gegeben, kann der wahrscheinliche Wert der Variablen y ermittel werden. Die Berechnung der Werte ist in Formular 2 eingetragen.

  • x = ein Variablenwert der Variablen x
  • b = Regressionskoeffizient = Cov / xV = Kovarianz geteilt durch xVarianz
  • a = Ordinatenabschnitt = yMW - xMW * b = Mittelwert der yVariablen minus Mittelwert der xVariablen mal Regressionskoeffizient
  • y = b * x + a



Varianzanalyse

Die Varianzanalyse prüft, ob es einen Zusammenhang gibt zwischen einem quantitativen und einem kategorialen Merkmal. Pro Individuum wird das quantitative Merkmal (Variablenwert) und das kategoriale Merkmal (Kategorie) gemessen und die Variablenwerte gleicher Kategorie zu einer Tabelle zusammengefasst (Formular 1, blau unterlegt). Es werden so viele Tabellen erstellt, wie das kategoriale Merkmal Kategorien hat. Die Varianzanalyse kann sich stets nur auf eine Variable beziehen.

Der Vergleich auf Zusammenhang wird mit Formular 2 (braun unterlegt) durchgeführt. Die Normierung, wie sie auf der Ebene der Individuen pro Kategorie berechnet wurde, wird nun auf der Ebene der Kategorien durchgeführt. Die Kategorie entspricht dem Individuum und der Mittelwert der Kategorie entspricht dem Variablenwert.

  • Spalte 3 = Kategorie
  • Spalte 4 = Mittelwert der Kategorie
  • Kopfzeile Mittelwert = Mittelwert von Spalte 4
  • Spalte 5 = Abweichung = Spalte 4 minus Mittelwert
  • Spalte 6 = Abweichung² = Quadrat der Abweichung
  • Spalte 7 = Varianz innerhalb = Varianz pro Kategorie (aus Kopfdaten Formular 1 übernehmen)
  • Spalte 8 = Varianz total = Summe aus Abweichung² (Spalte 6) und Varianz innerhalb (Spalte 8)


Kopfzeile Varianz:

Spalte zwischen = Varianz zwischen = Mittelwert Abweichung²

Spalte innerhalb = Varianz innerhalb = Mittelwert der Varianzen pro Kategorie

Spalte total = Varianz total = Mittelwert aus Abweichung² + Varianzen der Kategorien, die Summe der Kopfzeile "Varianz zwischen" und "Varianz innerhalb" ergibt den gleichen Wert.

Kopfzeile StAbw: Wurzel aus der Varianz, gilt für die Spalten innerhalb, zwischen und total


Kopfzeile r²:

Spalte zwischen: Varianz zwischen geteilt durch Varianz total

Spalte innerhalb: Varianz zwischen geteilt durch Varianz total

Spalte total: Varianz total geteilt durch Varianz total (ergibt natürlich 1, Totalvarianz wird mit 1 gleichgesetzt).


Kopfzeile r = Wurzel aus r², gilt für Spalten zwischen, innherhalb und total


Mehrfaktorielle Varianzanalyse

Eine Varianzanalyse kann auch mit mehreren Faktoren gerechnet werden. Jedem Variablenwert werden soviele kategoriale Merkmale zugeordnet, wie Faktoren erfasst wurden. Die Normierung wird sowohl mit jedem einzenen kategorialen Merkmal durchgeführt, als auch mit jeder Kombination der kategorialen Merkmale. Der Varianzanteil der einzelnen kategorialen Merkmale werden vom Varianzanteil der kombinierten Merkmale subtrahiert. Der restliche Varianzanteil quantifiziert die Interaktion der kategorialen Merkmale.

Beispiel für die Berechnung einer Varianzanalyse und einer Kovarianzanalyse

Varianzanalyse

Aus der Liste österreichischer Komponisten klassischer Musik, der Liste österreichischer Autoren und der Liste der österreichischen Nobelpreisträger wurden Name (Individuum), Geburtsdatum und Todesdatum mehrerer Berühmtheiten übernommen. Der Faktor "Berühmtheiten" hat in diesem Beispiel 3 Kategorien: Komponisten, Autoren und Nobelpreisträger. Die Daten wurden in die ersten drei Seiten übertragen. Der Variablenwert ist das Lebensalter, das der Differenz aus Geburtsjahr und Todesjahr entspricht. Die Normierung wurde für die 3 Tabellen durchgeführt und mit den Ergebnissen auf Seite 4 die Varianzanalyse berechnet.

Kovarianzanalyse

Seite 5, 6 und 7 enthalten die gleichen Individuen wie das Beispiel für die Varianzanalyse, jedoch als Variablenwert wird das Geburtsjahr übernommen. Für die 3 Tabellen wird die Normierung durchgeführt. Auf Seite 8, 9 und 10 wird für jede Kategorie Geburtsjahr und Lebensalter korreliert.

Literatur

  • Jürgen Bortz: Statistik für Human- und Sozialwissenschaftler. 6., vollständig überarbeitete und aktualisierte Auflage, Springer, Heidelberg 2005, ISBN 354021271X
  • Peter Zöfel: Statistik verstehen. Addison-Wesley Verlag, München 2002. ISBN 3827316901