Mosaik-Plot
Der Mosaik-Plot auch Mosaikdiagramm ist ein graphisches Verfahren zur Visualisierung von Datensätzen mit zwei oder mehreren qualitativen Variablen (Merkmalen). Er gibt einen Überblick über die Daten und ermöglicht es, Zusammenhänge zwischen den verschiedenen Merkmalen zu erkennen.
Beispiel
Der für dieses Beispiel verwendete Datensatz hat 2201 Beobachtungen und 3 Variablen. Die Beobachtungen sind alle Personen, die sich am 15. April 1912 auf der Titanic befunden haben. Die Variablen sind:
- Das Geschlecht der Person (männlich/weiblich)
- Die Klasse (1., 2. und 3. Klasse und Besatzung)
- Hat diese Person den Untergang überlebt (Ja/Nein)?
In, zur Grafik analoger Form, ergibt sich folgende Tabelle:
Geschlecht | Überlebt | 1. Klasse | 2. Klasse | 3. Klasse | Besatzung |
---|---|---|---|---|---|
Männlich | Nein | 118 | 154 | 422 | 670 |
Ja | 62 | 25 | 88 | 192 | |
Weiblich | Nein | 4 | 13 | 106 | 3 |
Ja | 141 | 93 | 90 | 20 |
Diese Tabelle ist aber eher mühsam zu lesen und schwierig zu interpretieren.
Konstruktion des Mosaik-Plots
Reihenfolge | Variable | Achse |
---|---|---|
1. | Geschlecht | Vertikal |
2. | Klasse | Horizontal |
3. | Überlebt | Vertikal |
Die kategoriellen Variablen werden zunächst in eine Reihenfolge gebracht. Danach wird jede Variable einer Achse zugeordnet. In der Tabelle rechts ist Reihenfolge und Zuordnung für das Beispiel gegeben. Eine andere Reihenfolge oder Zuordnung wird auch einen anderen Mosaik-Plot ergeben, d. h. wie in allen multivariaten Diagrammen spielt die Reihenfolge der Variablen eine Rolle.
Am linken Rand ist die erste Variable (Geschlecht) aufgetragen. Die gesamten Daten werden zunächst in zwei Blöcke geteilt: Der untere Streifen beinhaltet alle weiblichen Personen, der obere, größere Block alle männlichen. Man erkennt sofort, dass viel weniger (ca. ein Viertel) der Personen am Schiff weiblich waren.
Am oberen Rand ist die zweite Variable (Klasse) aufgetragen. Die vier senkrechten Spalten stehen also für die vier Ausprägungen dieser Variable (1., 2., 3. Klasse und Besatzung). Diese Spalten sind nicht gleich breit. Die Breite einer Spalte gibt die relative Häufigkeit dieser Ausprägung wieder. Man sieht, dass bei den Männern die Besatzung die größte Gruppe darstellt, bei den Frauen waren die in der 3. Klasse Reisenden die größte Gruppe. Unter den Frauen waren nur wenige Besatzungsmitglieder.
Die dritte Variable (Überlebt) ist auf der rechten Seite dargestellt und außerdem durch die Farbgebung hervorgehoben: Die dunkelgrauen Rechtecke stellen die Personen dar, die das Unglück nicht überlebt haben. Man sieht sofort, dass die Frauen in der 1. Klasse die besten Überlebenschancen hatten. Generell war die Wahrscheinlichkeit das Unglück zu überleben für Frauen höher als für Männer und für Reisende der 1. Klasse höher als für die übrigen Reisenden. Insgesamt haben ca. 1/3 aller Personen überlebt (hellgraue Flächen).
Unabhängigkeit im Mosaik-Plot
Klasse | Absolut | Relativ |
---|---|---|
1. | 325 | 14,8 % |
2. | 285 | 12,9 % |
3. | 706 | 32,1 % |
Besatzung | 885 | 40,2 % |
Geschlecht | Absolut | Relativ |
Männlich | 1731 | 78,6 % |
Weiblich | 470 | 21,4 % |
Überlebt | Absolut | Relativ |
Nein | 1490 | 67,7 % |
Ja | 711 | 32,3 % |
Geschlecht | Überlebt | 1. Klasse | 2. Klasse | 3. Klasse | Besatzung |
---|---|---|---|---|---|
Männlich | Nein | 173,0 | 151,7 | 375,9 | 471,2 |
Ja | 82,6 | 72,4 | 179,4 | 224,8 | |
Weiblich | Nein | 47,0 | 41,2 | 102,1 | 127,9 |
Ja | 22,4 | 19,7 | 48,7 | 61,0 |
Mosaik-Plots können insbesondere über die Unabhängigkeit der dargestellten Variablen Auskunft geben. Eine mögliche Frage wäre: Hängt die Überlebenschance davon ab welches Geschlecht man hat, ob man in einer bestimmten Klasse reist oder einer Kombination von beiden? In diesem Fall wären die drei Variablen nicht unabhängig.
Sind die drei Variablen Geschlecht, Klasse und Überlebt unabhängig voneinander, dann ergibt sich die Häufigkeit in jeder Zelle der obigen Tabelle als Produkt der marginalen relativen Häufigkeiten multipliziert mit der Anzahl der Beobachtungen. Für das Beispiel ergibt sich für den linken oberen Tabelleneintrag
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle 2201\cdot\underbrace{0{,}786}_{\text{Männlich}} \cdot \underbrace{0{,}148}_{\text{1. Klasse}} \cdot \underbrace{0{,}677}_{\text{Nicht überlebt}}\approx 173}
In der folgenden Grafik sieht man links den Mosaik-Plot der Titanic Daten (titanic) und rechts den Mosaik-Plot wenn die drei Variablen unabhängig wären (independent). Der rechte Mosaik-Plot ist also eine Visualisierung der Tabelle Häufigkeiten bei vollständiger Unabhängigkeit. Wären also die drei Variablen unabhängig, dann müssten in jeder Spalte des Mosaik-Plots alle Rechtecke die gleiche Breite bzw. in jeder Zeile des Mosaikplots alle Rechtecke die gleiche Höhe haben.
Dies ist im titanic Mosaik-Plot offensichtlich nicht der Fall und die drei Variablen sind abhängig voneinander. D. h. die Überlebenschance hängt vom Geschlecht, der Klasse oder einer Kombination von beiden ab. Auch die Unabhängigkeit von jeweils zwei Variablen kann man so graphisch nachprüfen; unter Umständen ist eine Umordnung der Variablen zur leichteren Visualisierung nötig.
Eigenschaften des Mosaik-Plots
- Die darzustellenden Variablen sind kategoriell oder ordinal skaliert.
- Es werden mindestens zwei Variablen dargestellt. Nach oben ist die Anzahl prinzipiell nicht limitiert, bei zu vielen Variablen wird die Grafik aber schnell unübersichtlich.
- Die Anzahl der Beobachtungen ist nicht limitiert, aber auch nicht in der Grafik ablesbar.
- Die Flächen der rechteckigen Felder, die für eine Merkmalskombination stehen, sind proportional zur Anzahl der Beobachtungen, die diese Merkmalskombination aufweisen.
- Anders als z. B. beim Box-Plot oder QQ-Diagramm ist es beim Mosaik-Plot nicht möglich, ein Konfidenzintervall einzuzeichnen. Die Signifikanz von unterschiedlichen Häufigkeiten der verschiedenen Merkmalsausprägungen kann daher nicht optisch festgestellt werden. Allerdings gibt es dafür statistische Tests.
- Die Reihenfolge der Variablen kann im Prinzip beliebig gewählt werden. Allerdings ist jeweils darauf zu achten, welche Reihenfolge die Interpretation begünstigt. Eventuell können auch alle Möglichkeiten durchprobiert werden.
Klärung der verwendeten Begriffe
- Der Begriff Variable ist hier im Sinne der multivariaten Statistik zu verstehen, nicht im Sinne der Programmierung. Eine Variable ist also eines von mehreren Merkmalen, die für jede Beobachtung erhoben wurde. Die verschiedenen Variablen eines (multivariaten) Datensatzes können unterschiedlichen Variablentypen angehören.
- Mit Variablentyp ist die Einteilung in kategorielle, ordinale oder metrische (quantitative) Merkmale gemeint (letztere lassen sich noch weiter unterteilen, was hier aber nicht nötig ist).
- Kategorielle (nominelle) Variable sind Variablen, bei denen die verschiedenen möglichen Ausprägungen nicht sinnvoll durch Zahlen repräsentiert werden können. Sie lassen sich auch nicht in eine sinnvolle Reihenfolge bringen. Beispiele aus dem Bereich der demographischen Variablen sind: Geschlecht, Haarfarbe, Muttersprache.
- Ordinale Daten sind Daten, bei denen sich die verschiedenen Ausprägungen in eine sinnvolle Reihenfolge bringen lassen. Beispiele: die verschiedenen Buchungs-Klassen bei Hotels oder Flugtickets, Schulnoten.
Literatur
- John Hartigan, Beat Kleiner: Mosaics for contingency tables. In: Computer Science and Statistics: Proceedings of the 13th Symposium on the Interface. 1981, S. 268–273.