Benutzer:Maphry/Median
Der Median – auch Zentralwert genannt – ist ein in der Statistik verwendeter Mittelwert der auf der Berechnung eines Quantils beruht. Im Allgemeinen teilt der Median einen Datensatz, eine Stichprobe oder eine Verteilung, so in zwei Hälften, dass die Werte in der einen Hälfte nicht größer als der Medianwert sind und in der anderen nicht kleiner.
Beschreibung
Der Begriff Median (von lateinisch medianus ‚in der Mitte befindlich‘, ‚der Mittlere‘) entstammt der Geometrie, wo er ebenfalls eine Grenze zwischen zwei Hälften gleicher Größe bezeichnet.
Im Fall einer Stichprobe in Form einer Liste von Werten, teilt der Median diese in zwei Hälften. Er kann auf folgende Weise bestimmt werden:
- Alle Werte werden (aufsteigend) geordnet.
- Wenn die Anzahl der Werte ungerade ist, ist die mittlere Zahl der Median.
- Wenn die Anzahl der Werte gerade ist, wird der Median meist als arithmetisches Mittel der beiden mittleren Zahlen definiert, die dann Unter- und Obermedian heißen.
Im Fall einer Verteilung gibt der Median den Wert an, der die Wahrscheinlichkeitsdichtefunktion so aufteilt, dass die Hälfte der Wahrscheinlichkeit auf der einen und die andere Hälfte auf der anderen Seite des Wertes liegt.
Beispiele
Berechnugnsbeispiel
Sieben unsortierte Messwerte 4, 1, 15, 2, 4, 5, 4 werden nach Größe sortiert: 1, 2, 4, 4, 4, 5, 15; Der Median (auch der Ober- und der Untermedian) ist der Wert an der mittleren Stelle, also 4. Wenn im Beispiel durch einen Fehler eine 4 durch 46 ersetzt wurde, ändert sich der Median nicht: 1, 2, 4, 4, 5, 15, 46. Das arithmetische Mittel hingegen springt von 5 auf 11.
Beispiel zum Vergleich von Median und arithmetisches Mittel
In einer Gruppe von zehn Personen haben alle Personen Monatseinkommen in unterschiedlicher Höhe. Eine Person erhält 1.000.000 €, die übrigen neun bekommen 1.000 €, 2.000 €, 3.000 € usw. bis 9.000 €.
Das arithmetische Mittel, der „Durchschnitt“ – das Monatseinkommen, das jede Person hätte, wenn alle zehn dasselbe verdienen würden –, beträgt in diesem Falle 104.500 €. Freilich verdient nur eine der zehn Personen mehr als dies, die übrigen neun verdienen deutlich weniger Geld.
Der Median dagegen beträgt 5.500 €. Fünf Personen verdienen mehr als das, fünf Personen verdienen weniger. Der Median markiert hier die Grenzlinie zwischen der besser verdienenden und der schlechter verdienenden Hälfte.
Eigenschaften
Eine wichtige Eigenschaft des Medians ist Robustheit gegenüber Ausreißern. Dies steht vor allem im Gegensatz zum arithmetischen Mittel, das ebenfalls einen zentralen Wert abschätzt, jedoch anfällig für Ausreißer ist.
Im Fall einer Stichprobe ist im Fall von einer ungeraden Anzahl von Werten der Median ein Wert der Liste, im Fall von einer geraden Anzahl von Werten ist dies für den Unter- und Obermedian der Fall. Bei einer Verteilung hat der Median zwingend eine Wahrscheinlichkeit. Dies ist in beiden Fällen abermals im Gegensatz zum arithmetischen Mittelwert oder Erwartungswert zu sehen, wo dieses nicht zwingend gegeben ist.
Vergleich mit anderen Maßen der zentralen Tendenz
Der Median ist ein spezielles Quantil, nämlich das ½-Quantil. Andere wichtige Lagemaße sind das arithmetische Mittel und der Modus. Sollte die Verteilung Symmetrisch sein, so ist Median und Mittelwert im Allgemeinen identisch. Daraus folgt, dass der Unterschied zwischen Median und Mittelwert vor allem bei asymmetrisch verteilten Daten von Bedeutung ist. Generell beschreiben beide andere Eigenschaften der Verteilung oder der Stichprobe. Dies wird besonders deutlich bei einer bimodalen Verteilung der Daten. Ob Median oder arithmetisches Mittel aussagekräftiger ist, hängt von der Fragestellung ab. Bei einer Einkommensverteilung interessiert Steuerzahler zumeist, wie viel ein typischer Bürger verdient, was sich deutlicher im Median widerspiegelt.
Der Modus, der den höchsten Wert der Wahrscheinlichkeitsdichtefunktion beschreibt ist unabhängig davon nicht zwingend identisch zum Median. Für die Normalverteilung gilt, dass alle drei Maße identisch sind.
Anwendungsbereiche
Eine Besonderheit des Medians gegenüber dem arithmetischen Mittel ist die Anwendbarkeit des Medians für ordinal skalierte (kategorisch sortierten) Variablen wie beispielsweise Notenstufen, bei denen es keinen quantitativen Abstand gibt. Nachteile und Vorteile gegenüber dem arithmetischen Mittel finden sich bei bei intervall- und verhältnisskalierten Daten. Für lediglich nominal skalierte Variablen, deren Ausprägungen keine natürliche Rangfolge aufweisen, wie zum Beispiel eine Variable Geburtsland, kann der Median nicht angewendet werden. Hier ist der Modalwert das einzige Lagemaß, das festgestellt werden kann.
Der Median wird in der Statistik und der Wahrscheinlichkeitstheorie in drei unterschiedlichen Bedeutungen angewendet:
- als Lagemaß der deskriptiven Statistik zur Beschreibung des Zentralwerts einer konkreten Liste von Stichprobenwerten,
- in der Wahrscheinlichkeitstheorie als Median einer Wahrscheinlichkeitsverteilung oder einer Zufallsvariable. Hier stellt der Median eine Alternative zum Erwartungswert für die Angabe eines „mittleren Werts“ dar.
- in der mathematischen Statistik als Median einer Zufallsstichprobe zur robusten Schätzung unbekannter Verteilungen.
Median einer Stichprobe
Ein Wert ist Median einer Stichprobe, wenn mindestens die Hälfte der Beobachtungen in der Stichprobe einen Wert und mindestens die Hälfte einen Wert hat.
Sortiert man die Beobachtungswerte der Größe nach, das heißt geht man zur nach dem Rang geordneten Stichprobe über, so ist der Median bei einer ungeraden Anzahl von Beobachtungen der Wert der in der Mitte dieser Folge liegenden Beobachtung. Bei einer geraden Anzahl von Beobachtungen gibt es kein einzelnes mittleres Element, sondern zwei. Hier sind die Werte der beiden mittleren Beobachtungen sowie alle Werte dazwischen (obwohl diese möglicherweise bei keiner Beobachtung aufgetreten sind) ein Median der Stichprobe, da für alle diese Werte obige Bedingung zutrifft.
Bei kardinal skalierten Messgrößen (wenn es also sinnvoll möglich ist, die Differenz von Messwerten zu berechnen) verwendet man im Falle einer geraden Anzahl Beobachtungen meist das arithmetische Mittel der beiden mittleren Beobachtungswerte. Der Median einer geordneten Stichprobe von Messwerten ist dann also
Diese Definition hat den Vorteil, dass bei Stichproben aus symmetrischen Verteilungen das arithmetische Mittel und der Median im Erwartungswert identisch sind.
Ober- und Untermedian
Oft möchte man dagegen sicherstellen, dass der Median in jedem Fall ein Element der Stichprobe ist. In diesem Fall wird alternativ zu dieser Definition bei einer geraden Anzahl von Elementen entweder der Untermedian oder der Obermedian genutzt und als Median bezeichnet. Im Falle einer ungeraden Anzahl der Beobachtungen wird festgelegt.
Mithilfe von Gauß-Klammern lässt sich diese Definition kürzer schreiben als
- ,
und es gilt allgemein:
- .
Diese Medianbestimmung spielt beispielsweise bei Datenbanksystemen eine große Rolle, wie z. B. bei SELECT-Abfragen mittels des Medians der Mediane.
Eigenschaften
Der Median , und im Fall einer geraden Anzahl von Messwerten alle Werte mit , minimieren die Summe der absoluten Abweichungen, das heißt für ein beliebiges gilt
Der Median ist Grundlage der Methode der kleinsten absoluten Abweichungen und Verfahren der robusten Regression. Das arithmetische Mittel dagegen minimiert die Summe der quadratischen Abweichungen und ist Grundlage der Methode der kleinsten Quadrate und der Regressionsanalyse und ist mathematisch leichter zu handhaben, jedoch nicht robust gegen Ausreißer.
Der Median kann, wie oben beschrieben, algorithmisch bestimmt werden, indem die Messwerte sortiert werden. Das ist im Allgemeinen mit Aufwand verbunden, nur auf speziellen Klassen von Eingabedaten ist möglich (siehe Sortieralgorithmus). Es gibt aber auch Algorithmen zur Quantilsbestimmung mit linearem Worst-Case-Aufwand sowie Algorithmen zur Abschätzung, beispielsweise die Cornish-Fisher-Methode.
Median von gruppierten Daten
Vor allem in den Sozialwissenschaften wird bei Statistiken häufig der Median geschätzt, da nicht alle Daten explizit und exakt gegeben sind, sondern nur in Intervallen gruppiert vorliegen. So wird beispielsweise bei Umfragen selten nach dem exakten Gehalt gefragt, sondern nur nach der Einkommensklasse, also dem Bereich, in welchem das Gehalt liegt. Wenn nur die Häufigkeiten jeder Klasse bekannt sind, dann lässt sich der Median einer solchen Stichprobe im Allgemeinen nur näherungsweise bestimmen. Es seien die Anzahl aller Daten, die jeweilige Anzahl der Daten der -ten Gruppe und bzw. die entsprechenden oberen bzw. unteren Intervallgrenzen. Zunächst wird nun die mediane Klasse (oder mediane Gruppe) bestimmt, d. h. diejenige Gruppe, in welche der Median (nach obiger, konventioneller Definition) hineinfällt, z. B. die -te Gruppe. Die Zahl ist dadurch bestimmt, dass , aber gilt. Wenn keine weiteren Angaben über die Verteilung der Daten gegeben sind, wird z. B. Gleichverteilung postuliert, sodass man sich der linearen Interpolation als Hilfsmittel bedienen kann, um eine Schätzung des Medians der gruppierten Daten zu erhalten:
Wenn keine weiteren Angaben über die Verteilung der Daten gegeben sind, kann auch jede andere Verteilung außer der Gleichverteilung möglich sein und somit kann auch jeder andere Wert im m-ten Intervall der Median sein.
Im Gegensatz zur konventionellen Definition des Medians muss dieser nicht zwangsläufig ein Element aus der tatsächlichen Datenmenge sein, welche in aller Regel nicht bekannt ist.
Beispiel
Einkommen:
Klasse () | Bereich ( bis ) | Gruppengröße () |
---|---|---|
1 | mind. 0, weniger als 1500 | 160 |
2 | mind. 1500, weniger als 2500 | 320 |
3 | mind. 2500, weniger als 3500 | 212 |
Man berechne
Also liegt der Median in der 2. Klasse (d. h. ), da die erste Klasse nur 160 Elemente umfasst. Somit ergibt sich als Schätzung für den Median
Da die konkrete Verteilung der Daten in den Intervallen unbekannt ist, kann auch jeder andere Wert im 2. Intervall der Median sein. Der beispielhaft errechnete Wert 2081,25 kann also bis zu 581,25 zu groß und bis zu 418,75 zu klein sein, der Fehler der Schätzung also bis zu 28 % betragen.
Eine Veranschaulichung dieses Verfahrens zur Festlegung des Medians bei gruppierten Daten ist die grafische Ermittlung mit Hilfe der Summenkurve. Hier wird der Abszissenwert gesucht, der zum Ordinatenwert gehört. Bei kleinerem und geradem kann auch stattdessen der Ordinatenwert gewählt werden.
Median einer Verteilung
Im Fall der Verteilung von Zufallsvariable ist der Median eine Kennzahl dafür, wo sich die "Mitte" einer Wahrscheinlichkeitsverteilung befindet. Anschaulich ist der Median die Zahl, bei der
- die Wahrscheinlichkeit, einen Wert kleiner oder gleich dem Median zu erhalten und
- die Wahrscheinlichkeit, einen Wert größer oder gleich dem Median zu erhalten
gleich ist. Es existieren mehrere Formalisierungen dieser intuitiven Vorstellung, die sich bezüglich der Existenz und Eindeutigkeit des Medians unterscheiden.
Andere Varianten
- Die Wohlfahrtsfunktion ist eine Alternative zum Median bei der Ermittlung des Masseneinkommens aus einer gegebenen Einkommensverteilung.
- Eine andere Möglichkeit als der Median, mit Extremwerten umzugehen, ist die Benutzung eines getrimmten Mittelwerts, den man ermittelt, indem man die kleinsten und größten Werte vor der Berechnung entfernt (typischerweise werden 5 % der Werte weggelassen).[1]
- Nach Butler[2] gibt es auch eine strengere Definition von Median (die weniger gebräuchlich ist), die sagt, der Median ist der Wert, für den gilt, die Zahl der kleineren Werte in der Reihe ist gleich der Zahl der größeren Werte in der Reihe. Für Spezialfälle wie 3, 3, 3, 3, 4 oder 1, 2, 3, 3, 3 gibt es ein Verfahren, mit dem man einen eindeutigen Median unter Beibehaltung der strengeren Definition berechnen kann.[3]
Weblinks
- Ausführliche Erläuterungen zur Berechnung des Medians auf dem „Fußweg“: Wikibooks
- Ausnutzung der robusten Eigenschaften des Medians am Beispiel der Kreisausgleichung
- Eric W. Weisstein: Statistical Median. In: MathWorld (englisch).
- A.V. Prokhorov: Median (in statistics). In: Michiel Hazewinkel (Hrsg.): Encyclopedia of Mathematics. Springer-Verlag und EMS Press, Berlin 2002, ISBN 978-1-55608-010-4 (englisch, online).