Robuste Schätzverfahren

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Robuste Statistik)

Robustes Schätzverfahren ist ein Begriff der Schließenden Statistik. Ein Schätzverfahren oder Testverfahren heißt robust, wenn es nicht sensibel auf Ausreißer (Werte außerhalb eines aufgrund einer Verteilung erwarteten Wertebereiches) reagiert.

Die klassischen Schätzmethoden, die in der ersten Hälfte des 20. Jahrhunderts entwickelt wurden, tendieren häufig dazu, bei Vorliegen von Ausreißern in der Stichprobe irreführende Ergebnisse zu liefern. Ein robustes Schätzverfahren orientiert sich deshalb an der Masse der Daten und integriert eine Ausreißeranalyse, um den Einfluss von Modellabweichungen zu reduzieren und ihn bei zunehmender Devianz gegen Null streben zu lassen.

Die Entwicklung robuster Schätzer zur Effizienzsteigerung von Schätzverfahren ist seit den 1980er Jahren ein wichtiges Forschungsanliegen in der mathematischen Statistik. Zu den robusten Verfahren gehören zum Beispiel der RANSAC-Algorithmus und Verfahren, die eine hohe Bruchpunktresistenz aufweisen.

Beispiel

Ein einfaches robustes Schätzverfahren stellt der (empirische) Median dar, den man anstelle des arithmetischen Mittels verwenden kann, um den Erwartungswert einer symmetrischen Verteilung zu schätzen. Den empirischen Median erhält man, indem man die Beobachtungen der Größe nach sortiert und dann den der Reihenfolge nach mittleren Beobachtungswert als Schätzwert wählt. Ein Beispiel: Es werden eine gewisse Zahl von Messungen durchgeführt, um eine physikalische Größe (etwa die Gravitationskonstante) experimentell zu bestimmen. Man nimmt an, dass die auftretenden Messfehler unsystematisch sind und in beide Richtungen gehen können, die Messwerte also mal zu groß, mal zu klein sind; formal genauer: unabhängige und identisch verteilte Beobachtungen mit symmetrischer Verteilung und dem wahren Wert der zu bestimmenden Größe als Erwartungswert. Es gibt nun gelegentlich einzelne Messwerte, die deutlich von den übrigen abweichen („Ausreißer“, die oben beschriebenen Modellabweichungen); sie sind in der Regel auf Fehler bei der Durchführung des Experiments zurückzuführen („Verwackeln“ der Apparatur, „Verschreiben“ o. ä.). Obwohl extreme Abweichungen eher auf einen Fehler hindeuten und daher solche Beobachtungen eher weniger Einfluss auf das Ergebnis haben sollten, beeinflussen sie das arithmetische Mittel stark; der Einfluss wird sogar umso größer, je deutlicher die Abweichung ist. Der Median hingegen ist gegen solche Ausreißer unempfindlich, also „robust“. Sofern keine Ausreißer vorliegen, liefert er allerdings bei gleicher Zahl von Messwerten im Allgemeinen eine ungenauere Schätzung, da „im Kleinen“ der Schätzwert nur durch eine einzige – nämlich die mittlere – Beobachtung bestimmt wird.

Datei:Robuste Schätzung des Erwartungswerts.pdf Bei normalverteilten Zufallsvariablen sind Ausreißer eher unwahrscheinlich und der arithmetische Mittelwert liefert eine gute Schätzung für den Erwartungswert. Dagegen ist bei einer t-Verteilung mit einer geringen Anzahl von Freiheitsgraden aufgrund der schweren Verteilungsschwänze die Wahrscheinlichkeit für Ausreißer deutlich erhöht. In der nebenstehenden Abbildung sind beide Schätzer erwartungstreu, aber der Median weist eine geringere Varianz auf als der arithmetische Mittelwert, was für die Robustheit des Medians gegenüber Ausreißern spricht. Mit steigender Anzahl von Freiheitsgraden konvergiert die t-Verteilung gegen die Normalverteilung und Ausreißer werden unwahrscheinlicher. In diesem Fall ist die Varianz des arithmetischen Mittelwerts geringer, weil mehr Information aus den Daten verwendet wird.

Siehe auch

Literatur

  • P. Huber: Robust Estimation of a Location Parameter. In: The Annals of Mathematical Statistics. 35, 1964.
  • Frank R. Hampel et al.: Robust Statistics. The Approach Based on Influence Functions. Wiley, New York 1986, ISBN 0-471-73577-9.
  • Helmuth Späth: Mathematische Software zur linearen Regression. Oldenbourg, München 1987, ISBN 3-486-20375-4.
  • Helga Bunke, Olaf Bunke: Nonlinear regression, functional relations and robust methods. Band 2: Non-Linear Functional Relations and Robust Methods. Wiley, New York u. a. 1989, ISBN 0-471-91239-5.
  • Werner Stahel (Hrsg.): Directions in Robust Statistics and Diagnostics. 2 Bände. (Bände 33 und 34 von The IMA Volumes in Mathematics and its Applications.) Springer, Berlin u. a. 1991, ISBN 3-540-97530-6, ISBN 3-540-97531-4.
  • Karl-Rudolf Koch: Parameterschätzung und Hypothesentests. 3. Auflage. Dümmler, Bonn 1997, ISBN 3-427-78923-3.
  • David C. Hoaglin, Frederick Mosteller, John W. Tukey: Understanding Robust and Exploratory Data Design. Wiley, New York 2000, ISBN 0-471-38491-7.
  • Mia Hubert (Hrsg.): Theory and Application of Recent Robust Methods. Birkhäuser, Basel u. a. 2004, ISBN 3-7643-7060-2.
  • Ricardo A. Maronna, Douglas R. Martin, Victor J. Yohai: Robust Statistics: Theory and Methods. Wiley, New York u. a. 2006, ISBN 0-470-01092-4.