Kontingenztafel
Kontingenztafeln (auch: Kontingenztabellen oder Kreuztabellen) sind Tabellen, die die absoluten oder relativen Häufigkeiten (Häufigkeitstabellen) von Kombinationen bestimmter Merkmalsausprägungen enthalten. Kontingenz hat dabei die Bedeutung des gemeinsamen Auftretens von zwei Merkmalen. Das bedeutet, es werden Häufigkeiten für mehrere miteinander durch „und“ bzw. „sowie“ (Konjunktion) verknüpfte Merkmale dargestellt. Diese Häufigkeiten werden ergänzt durch deren Randsummen, die die sogenannten Randhäufigkeiten bilden. Der häufige Spezialfall einer Kontingenztabelle mit zwei Merkmalen ist eine Konfusionsmatrix.
Aufbau und Anwendung
Im Gegensatz zu einer normalen („flachen“) Tabelle, die in der 1. Zeile Attributnamen und in allen weiteren Zeilen Ausprägungen dieser Attribute besitzt, enthalten in einer Kreuztabelle sowohl Zeilen- als auch Spaltenüberschriften Merkmalsausprägungen, und am Schnittpunkt der entsprechenden Spalte und Zeile wird ein Wert dargestellt, der von den in der jeweiligen Spalte und Zeile angegebenen Merkmalausprägungen abhängt.
\ | Randhäufigkeit von | ||||
---|---|---|---|---|---|
Randhäufigkeit von |
Eine allgemeine Kreuztabelle für zwei Variablen und ist rechts dargestellt. Die Merkmalsausprägungen der Variablen und der Variablen sind oben und links angegeben. Die Anzahl der Ausprägungen und kann für beide Variablen unterschiedlich sein. Ist sie gleich, spricht man von quadratischen Kreuztabellen.
In der Tabelle findet man die absoluten Häufigkeiten , d. h. die Anzahl der Beobachtungen, in denen sowohl die Merkmalsausprägung und auftritt. Rechts sind die Randhäufigkeiten bzw. unten die Randhäufigkeiten abgetragen.
Rechts unten findet sich schließlich die Summe der Randhäufigkeiten
,
wobei die Zahl der Beobachtungen im Datensatz ist.
Anstelle von absoluten Häufigkeiten können auch relative Häufigkeiten dargestellt werden. In diesem Fall wird statt oft benutzt und es gilt natürlich .
Vierfeldertafel
Eine Vierfeldertafel ist eine Spezialform einer zweidimensionalen Kontingenztafel. Beide Variablen haben nur zwei Merkmalsausprägungen, und sie ist wie folgt aufgebaut:
Merkmal Summe Summe
Beispiel für eine zweidimensionale Kontingenztafel
Es werden 2000 Personen darüber befragt, ob sie Produkt A oder B bevorzugen. Das Ergebnis wird nach Geschlecht des Befragten ausgewertet. Es ergibt sich folgende Vierfeldertafel
- mit absoluten Häufigkeiten
Produkt \ Geschlecht weiblich männlich Summe Produkt A 660 340 1000 Produkt B 340 660 1000 Summe 1000 1000 2000
- mit relativen Häufigkeiten bezogen auf die Fallzahl
Produkt \ Geschlecht weiblich männlich Summe Produkt A 0,33 0,17 0,5 Produkt B 0,17 0,33 0,5 Summe 0,5 0,5 1
- mit relativen Häufigkeiten bezogen auf die Spalten
Produkt \ Geschlecht weiblich männlich Summe Produkt A 0,66 0,34 1 Produkt B 0,34 0,66 1 Summe 1 1
- mit relativen Häufigkeiten bezogen auf die Zeilen
Produkt \ Geschlecht weiblich männlich Summe Produkt A 0,66 0,34 1 Produkt B 0,34 0,66 1 Summe 1 1
Der Schein kann trügen
Auf den ersten Blick ist zu ersehen, dass die weiblichen Kunden dem Produkt A, die männlichen Kunden dagegen dem Produkt B zuneigen. Dies kann eine interessante Information sein – es kann aber auch nur ein Trugschluss sein. Die Auswertung der Befragung hinsichtlich des Alters der Kunden ergibt:
Produkt \ Alter bis 40 Jahre über 40 Jahre Summe Produkt A 700 300 1000 Produkt B 300 700 1000 Summe 1000 1000 2000
Das Kaufverhalten hängt also nicht nur vom Geschlecht, sondern auch vom Alter der Befragten ab. Das Bedürfnis, beide Informationen über Abhängigkeiten in einen realistischen Bezug zueinander zu bringen, erzwingt die Erarbeitung einer dreidimensionalen Kontingenztafel.
Um aus den Zusammenhängen in den untersuchten Stichproben auf Eigenschaften der zugrundeliegenden Grundgesamtheiten schließen zu können, können (unter gewissen Bedingungen) Chi-Quadrat-Tests verwendet werden. Der Exakte Fisher-Test ist ein statistischer Test auf Unabhängigkeit in der Kontingenztafel auch für kleine Stichproben.
Kategorien, die in Kontingenztafeln verwendet werden sollen
Insbesondere durch die statistischen Verfahren, die auf Kontingenztabellen aufbauen, werden Anforderungen an die Kategorien (eine einzelne Merkmalsausprägung oder eine Zusammenfassung von verschiedenen Merkmalsausprägungen) gestellt:
- Streng genommen müssen alle Kategorien voneinander völlig unabhängig sein. Zum Beispiel kann eine Person nicht gleichzeitig „weiblich“ und „männlich“ sein (außer in seltenen Fällen von Intersexualität, die hier vernachlässigt werden); aber bei „hat Grundschule besucht“ und „hat Berufslehre abgeschlossen“ kann man die Mitglieder der letzteren Gruppe eigentlich auch in die erste einfügen – da der Besuch der Grundschule für jeden Menschen (in westlich geprägten Gesellschaften) obligatorisch ist. Das Problem ist, dass die Randhäufigkeiten sich dann nicht zu oder addieren.
- Des Weiteren sollte es in der Kontingenztabelle keine Zeile oder Spalten geben, in denen sich die Häufigkeiten zu Null addieren. Zum Beispiel darf eine solche Tafel nicht die Kategorien „männlich“ und „weiblich“ besitzen, wenn man eine ausschließlich männliche oder ausschließlich weibliche Grundgesamtheit untersucht. Problematisch ist, dass in der statischen Auswertung der Kehrwert dieser Summe auftritt und 1/0 nicht definiert ist.
- Zusätzlich sollte so selten wie möglich eine Kategorie „Sonstige“ eingesetzt werden; beispielsweise wie in „fährt Opel“, „fährt Peugeot“, „fährt Toyota“, „fährt anderen Personenwagen“. Dieser „Sammeltopf“ sollte, falls er doch notwendig wird, durch eine durchdachte Konzipierung so klein wie möglich gehalten werden.
Dreidimensionale Kontingenztafel
Für eine dreidimensionale Tafel (drei Merkmale) werden zusätzliche Spalten in die Tabelle eingefügt:
Geschlecht weiblich Geschlecht männlich Produkt \ Alter bis 40 Jahre über 40 Jahre bis 40 Jahre über 40 Jahre Summe Produkt A 630 (70 %) 30 (30 %) 70 (70 %) 270 (30 %) 1000 Produkt B 270 (30 %) 70 (70 %) 30 (30 %) 630 (70 %) 1000 Summe 900 (100 %) 100 (100 %) 100 (100 %) 900 (100 %) 2000
Die in Klammern hinzugesetzten Prozentwerte sollen nur den Blick darauf lenken, dass die Produktneigung keinesfalls vom Geschlecht abhängig war: Dem Produkt A sind gleichermaßen 70 % der jüngeren Frauen wie auch der Männer und 30 % der älteren Frauen wie auch der Männer zugeneigt; bei Produkt B verhält es sich genau umgekehrt.
Um dieses Phänomen einleuchtender zu machen, lohnt sich möglicherweise wieder der Blick auf eine (diesmal wieder zweidimensionale) Kontingenztafel:
Geschlecht \ Alter bis 40 Jahre über 40 Jahre Summe Weiblich 900 100 1000 Männlich 100 900 1000 Summe 1000 1000 2000
Hier wird deutlich, dass unter den jüngeren Befragten eine übergroße Mehrheit von 90 % weiblich war. Die jüngeren Kunden bevorzugen das Produkt A – nicht etwa die weiblichen! Dagegen bevorzugen die Älteren (in der Befragung vornehmlich Männer) Produkt B. Es handelt sich bei der Geschlechterrelation aus dem Beispiel nur um ein scheinbares Verhältnis, das aufgrund der unausgewogenen statistischen Menge entstehen konnte.
Graphische Darstellung
Zur graphischen Darstellung zweidimensionaler Kontingenztabellen bieten sich 3D-Balkendiagramme an. Ein Nachteil solcher Diagramme ist jedoch, dass je nach Blickwinkel Balken verdeckt werden können. Zudem führt die 3D-Darstellung eine Perspektive ein, die es dem Betrachter schwierig machen kann, die Höhe der Balken miteinander zu vergleichen, um zu erkennen, in welcher Zelle nun mehr Beobachtungen sind.[1]
Eine weitere Möglichkeit, die sich insbesondere bei Kontingenztafeln mit relativ wenigen Zellen anbietet, ist ein gestapeltes Säulendiagramm, das sich auf die relativen Spaltenhäufigkeiten bezieht.
Besser ist es, einen Mosaikplot zu verwenden, in dem die Flächen den Häufigkeiten für jede Kombination von Merkmalsausprägungen entsprechen. Zudem kann leicht die Unabhängigkeit von zwei oder mehr Variablen angezeigt werden.
Mosaikplot der Häufigkeiten der Passagiere der Titanic nach den Variablen Klasse (1. Klasse, 2. Klasse, 3. Klasse, Besatzung), Geschlecht (männlich, weiblich) und Überlebt (ja, nein).
Statistische Auswertung
Bei komplexer werdenden Kontingenztafeln lassen sich Relationen nicht mehr einfach mit dem Auge ablesen. Die Statistik setzt zur systematischen Analyse eine Reihe von Verfahren ein:
- Zusammenhangsmaße:
- Kontingenzkoeffizienten: -Koeffizient, (korrigierter) Kontingenzkoeffizient, Cramérs V und Phi-Koeffizient
- Fehlerreduktionsmaße: Goodman und Kruskals λ bzw. τ sowie der Unsicherheitskoeffizient
- Tests:
- Weitere Analyseverfahren:
Siehe auch
- Simpson-Paradoxon
- Vierfelderkorrelation, Vierfeldertest für den einfachsten Fall
Einzelnachweise
Weblinks
- Video zur Kreuztabelle (WMV; 19,6 MB)