Diskussion:Kontingenzkoeffizient

aus Wikipedia, der freien Enzyklopädie

Dabei ist n die Fallzahl...

Ja, und was ist eine Fallzahl? Wie kann die bestimmt werden?--141.113.86.94 10:44, 20. Okt. 2009 (CEST)

Hallo, ich habe mal "Fallzahl" durch "Stichprobenumfang" ersetzt. Damit ist auch deine Frage hoffentlich beantwortet. Genauer wäre evtl. "Umfang der untersuchten Gesamtheit". Aber da diese in den meisten Fällen einer Stichprobe entspricht, denke ich, ist "Stichprobenumfang" der passendste und verständlichste Begriff. -- MM-Stat 14:12, 22. Okt. 2009 (CEST)
Prima - Danke. --141.113.86.94 16:44, 26. Okt. 2009 (CET)
»Stichprobenumfang« ist OK. Allerdings finde ich, dass das Wort »Fallzahl« auch nicht sonderlich schwer zu begreifen ist: die Anzahl der Fälle eben. Wenn Du 1358 Leute befragt hast, dann hast Du 1358 Fragebögen auf Deinem Schreibtisch liegen, jeder ein »Fall«. Das ist dann deine Fallzahl, das heißt Dein n = 1358. Wenn Du jetzt zwei Variablen kreuztabbellierst (die aus zwei Fragen des Fragebogens hervorgehen), dann kann es sein, dass einige Leute auf die eine oder die andere Frage (oder auf beide Fragen) nicht geantwortet haben. Diese Fälle fallen dann für die Kreuztabelle aus und Du hast dann evtl. eine kleinere Fallzahl in der Kreuztabelle (unten rechts in der Ecke) als Du Leute befragt hast. Zum Aufbau einer Kreuztabelle siehe hier: http://de.wikipedia.org/wiki/Kreuztabelle#Aufbau_und_Anwendung. Viele Grüße --Jake2042 (Diskussion) 04:54, 2. Aug. 2013 (CEST)

Ende 2019 ist überhaupt nicht erkennbar was n_i sein soll. Checken Leute nicht, dass ein Text der Form "a b c d e"
sinnfrei ist ohne a=Du b=kannst c=dies d=nicht e=verstehen ? --Moritzgedig (Diskussion) 16:51, 11. Dez. 2019 (CET)

Vierfelderkorrelation

Nach Ewigkeiten in der QS-Mathematik habe ich den Artikel Vierfelderkorrelation hierher verschoben. Die Versionsgeschichte findet sich hier. Den Abschnitt werde ich nach und nach überarbeiten und schließlich den QS-Baustein entfernen. Grüße, -- MM-Stat 17:55, 28. Nov. 2009 (CET)

Cramérs V

Ich habe Cramers V hierher verschoben. Gründe siehe dortige Diskussion. Die Versionsgeschichte findet sich hier. -- MM-Stat 15:21, 17. Dez. 2009 (CET)

Cramér's V

Wenn Cramérs V eine eine symmetrische Maßzahl für die Stärke des Zusammenhangs zwischen zwei oder mehr nominalskalierten Variablen, wenn (mindestens) eine der beiden Variablen mehr als zwei Ausprägungen hat ist, warum darf man das dann offenbar trotzdem für 2x2 Tabellen rechnen? --Sineuve 10:02, 11. Mai 2010 (CEST)

Der Satz ist vielleicht etwas missverständlich. Er heißt nur, dass Cramérs V bei Vierfeldertafeln identisch mit Phi () ist. Das liegt an der Definition. Bei gilt:
Also: selbstverständlich kannst Du Cramérs V auch auf Vierfeldertafeln anwenden. Nur ist V dann identisch mit , und für gibt es neben der Definitionsformel:
auch noch eine Formel, mit der sich direkt aus den Zellenhäufigkeiten der vier Felder bestimmen lässt:
Das ist schlicht einfacher zu berechnen. Viele Grüße --Jake2042 (Diskussion) 04:18, 2. Aug. 2013 (CEST)

Cramérs V Interpretation

"Bereits ein Cramérs V größer 0,3 gilt in den Sozialwissenschaften als bedeutsamer Zusammenhang." kann so nicht stehenbleiben. Es ist nicht nachvollziehbar, was ein "bedeutsamer" Zusammenhang sein soll, es fehlt eine Quellenangabe, und diese wie die nachfolgenden Zahlen sind nur gültig für Vierfeldertafeln. Was wiederum nicht so spannend ist, da das mit Phi in eins fällt.--Kjalarr 10:27, 23. Sep. 2011 (CEST)

Cohens w = Phi?

Nach der im Artikel angegeben Formel scheint Cohens Effektstärke mit identisch zu sein. Zunächst gilt:

Wenn jetzt (nach der Formel im Artikel)

ist, dann ergibt sich:

oder? kann bei Kreuztabellen, die größer als 2-mal-2-Tabellen (Vierfeldertafeln) sind, aber größer als 1 werden. Was sagt mir also Cohens ? Soll das heißen, dass nur für Vierfeldertafeln definiert und in diesem Fall identisch mit ist?

Eigentlich ist die Effektstärke so definiert:

Das lässt sich hier: http://de.wikipedia.org/wiki/Effektst%C3%A4rke nachlesen. Cohens wird in demselben Wikipedia-Artikel auch erwähnt, nämlich hier: http://de.wikipedia.org/wiki/Effektst%C3%A4rke#Cramers_.2C_Cramers_V_und_Cohens. Allerdings wird nur gesagt, Cramérs V könne auch als Maß für die Effektstärke herangezogen werden und dann (nachdem auf die Identität von V und bei Vierfeldertafeln hingewiesen worden ist) die Definitionsformel für Cohens gebracht. Was uns das jetzt aber sagen will und was das mit der weiter oben in demselben Artikel erläuterten Effektstärke zu tun hat, wird nicht erklärt. Auch in diesem Artikel kommt Cohens recht unvermittelt und es ist (jedenfalls mir) weder klar, was das eigentlich überhaupt sagen soll, noch, warum das jetzt in diesem Artikel an diesem Platz steht. Mit einigen Fragezeichen im Kopf grüßt --Jake2042 (Diskussion) 06:45, 2. Aug. 2013 (CEST)

OK, das folgende Dokument schafft Klarheit: http://www.uni-saarland.de/fak5/excops/download/POWER.pdf. Cohens wird hier im Zusammenhang mit dem Nutella-Beispiel auf Seite 6 eingeführt (Das Beispiel ist komplett erfunden und die Wahrscheinlichkeiten sind auch unrealistisch hoch). Wir gehen aufgrund der fiktiven XY-Studie davon aus, dass es in der Gesamtbevölkerung eine Wahrscheinlichkeit von 34 % gibt, Nutella zu kaufen (Das entspricht einer Gegenwahrscheinlichkeit von 66 % in der Gesamtbevölkerung, Nutella nicht zu kaufen). Zugleich gehen wir davon aus, dass es in der Gesamtbevölkerung 50 % Männer und 50 % Frauen gibt, das heißt, die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person männlich bzw. weiblich ist, bei jeweils 50 % liegt. Die Gesamtbevölkerung selbst ist 1 oder 100 % des ganzen Kuchens. Von diesen Randverteilungen ausgehend berechnen wir jetzt die erwarteten Wahrscheinlichkeiten in den einzelnen Zellen. Das führt dann zu der folgenden Indifferenztabelle:
Nutella-Konsum Geschlecht Gesamt
m w
Ja 0,17 0,17 0,34
Nein 0,33 0,33 0,66
Gesamt 0,50 0,50 1,00
Nun bringen wir (beispielsweise durch eine neue Studie) in Erfahrung, dass die Wahrscheinlichkeit bei Männern, Nutella zu kaufen, bei 40 % liegt (bedingte Wahrscheinlichkeit). Bei selbstverständlich gleichbleibenden Randverteilungen ergibt sich daraus zwingend (weil Vierfeldertafeln nur einen Freiheitsgrad haben) die folgende Kontingenztabelle:
Nutella-Konsum Geschlecht Gesamt
m w
Ja 0,20 0,14 0,34
Nein 0,30 0,36 0,66
Gesamt 0,50 0,50 1,00
Cohens wird nun so berechnet, dass zunächst bezogen auf die erwarteten und beobachteten Wahrscheinlichkeiten berechnet und dann aus diesem Wert die Wurzel gezogen wird:
Dabei ist die Anzahl der Kategorien der Spaltenvariable, die Anzahl der Kategorien der Zeilenvariable, die beobachtete Wahrscheinlichkeit in der Zelle i.j und die erwartete Wahrscheinlichkeit in der Zelle i.j. Zur Berechnung von siehe auch Benninghaus 1989, ab Seite 100. Wichtig ist nun, dass es hier nicht um erwartete und beobachtete Häufigkeiten, sondern um erwartete und beobachtete Wahrscheinlichkeiten geht. Bei dieser Art von Kreuztabellen steht an der Stelle, an der normalerweise die Fallzahl zu finden ist, immer eine 1 (nämlich 100 % vom Ganzen). ist jetzt definiert als:
Wird auf Tabellen angewandt, die keine Häufigkeiten, sondern Wahrscheinlichkeiten enthaten, dann ist immer n = 1 und es ergibt sich:
Allerdings sind sowohl als auch Cramérs V – anders als Cohens – eigentlich als Zusammenhangsmaße für Tabellen gedacht, die absolute Häufigkeiten enthalten. Nur dann ist auch die Aussage sinnvoll, dass bei Kreuztabellen, die größer als Vierfeldertafeln sind, größer als 1 werden kann. Viele Grüße --Jake2042 (Diskussion) 18:14, 2. Aug. 2013 (CEST)

Literatur

Benninghaus, Hans, (6)1989: Statistik für Soziologen 1. Deskriptive Statistik. (= Teubner Studienskripten 22) Stuttgart: Teubner

Inkonsistenz beim chi^2-Koeffizient

In der Definition von chi^2 laufen die Summen bis I und J. Bei der Abschätzung von chi^2 werden dann aber k und m für die Anzahlen der Zeilen und Spalten der Kontingenztabelle verwendet. Sollte das nicht vereinheitlicht werden? (nicht signierter Beitrag von 77.5.189.12 (Diskussion) 11:34, 3. Okt. 2016 (CEST))

Hab mal versucht, das zu vereinheitlichen. Danke für den Hinweis. -- HilberTraum (d, m) 12:35, 3. Okt. 2016 (CEST)

Abschnitt 'Phi als Maß für die Effektstärke'

Im zweiten Teil des Abschnitts (nach der Formel) steht ein unvollständiger Satz („Zu Cohens w.[6] und[7]“). Was soll damit ausgedrückt werden? Direkt danach folgt ein Satz, der keinen Sinn ergibt („Ebenfalls numerisch identisch ist es, wenn in Bezug auf Kreuztabellen, die Wahrscheinlichkeiten enthalten, als v*√k-1 mit k=min(I,J) berechnet wird“). Kurz: Identisch ist es, wenn als Formel A mit Formel B berechnet wird. --> Was berechnet wird? Ich streiche die beiden Sätze mal. Gerne dürfen sie vervollständigt und wieder eingefügt werden.--Kernpanik (Diskussion) 09:03, 2. Mai 2022 (CEST)