Explorative Datenanalyse

aus Wikipedia, der freien Enzyklopädie

Die explorative Datenanalyse (EDA) oder explorative Statistik ist ein Teilgebiet der Statistik. Sie untersucht und begutachtet Daten, von denen nur ein geringes Wissen über deren Zusammenhänge vorliegt. Viele EDA-Techniken werden im Data-Mining eingesetzt. Außerdem werden sie häufig in Lehrveranstaltungen über die Statistik als Einführung in das statistische Denken gelehrt.

Diese Benennung wurde von John W. Tukey in den 1970er Jahren eingeführt. Tukey legte dar, dass ein zu großer Schwerpunkt in der Statistik auf das Auswerten und Testen von gegebenen Hypothesen gelegt wird. Ferner schlug er vor, Daten dazu zu verwenden, um mögliche Hypothesen zu erhalten, welche anschließend getestet werden.

Ziele

Ziele der explorativen Statistik sind:

Verfahren

Grundlegende graphische Methoden, welche in der explorativen Statistik verwendet werden, sind:

Grundlegende quantitative Methoden sind:

Spezielle Verfahren

Probleme

Problematisch kann das Bilden von Hypothesen anhand eines Datensatzes und das Testen dieser Hypothesen auf dem gleichen Datensatz sein. Dann können scheinbar signifikante Resultate oder Scheinkorrelationen erhalten werden, die sich aber auf einem unabhängigen Datensatz zum selben Sachverhalt nicht zeigen würden – dies ist das Problem von P-Hacking. Ein Ausweg aus diesem Problem ist das strikte Trennen von Datensätzen, die man zum Bilden von Hypothesen nutzt und Datensätzen, die man zum validieren der gefundenen Hypothesen benutzt (siehe Kreuzvalidierungsverfahren).

Explorative Datenanalyse – Beurteilende Statistik

Die EDA, eine Weiterentwicklung der deskriptiven Statistik zur Analyse von Daten, arbeitet mehr induktiv: Mit ihren Methoden soll Neues entdeckt, sollen Vermutungen generiert, Besonderheiten erkannt und Sachverhalte dargestellt werden.[1] Die Daten bestimmen die Vorgehensweise. Die Einfachheit der Methoden und ihre Praxisrelevanz machen die EDA als Schulstoff besonders interessant.[2] Tukey benutzt die Figur des Datendetektivs[3], von dem Einfallsreichtum und Intuition verlangt werden, um die Einstellung zur EDA zu kennzeichnen. Die beurteilende Statistik arbeitet deduktiv: Eine Hypothese wird entweder verworfen oder beibehalten. Die dabei benutzten Verfahren sind hoch formalisiert, häufig schwer zu verstehen, ihre praktische Relevanz sowie die Interpretation der Ergebnisse umstritten.[4] Beide, EDA und beurteilende Statistik, schließen jedoch einander nicht aus, sie ergänzen sich.[5]

Literatur

  • Literatur über Explorative Datenanalyse im Katalog der Deutschen Nationalbibliothek
  • Hoaglin, D C; Mosteller, F & Tukey, J W (Eds) (1985) Exploring Data Tables, Trends and Shapes ISBN 0-471-09776-4
  • Hoaglin, D C; Mosteller, F & Tukey, J W (Eds) (1983) Understanding Robust and Exploratory Data Analysis ISBN 0-471-09777-2
  • Tukey, J W (1977) Exploratory Data Analysis ISBN 0-201-07616-0
  • Velleman, P F & Hoaglin, D C (1981) Applications, Basics and Computing of Exploratory Data Analysis ISBN 0-87150-409-X
  • Wolfgang Polasek: EDA Explorative Datenanalyse. Einführung in die deskriptive Statistik (2. Auflage). Springer-Verlag, Berlin 1994, ISBN 978-3-540-58394-3
  • Siegfried Heiler, Paul Michels: Deskriptive und explorative Datenanalyse. Oldenbourg, München 1994, ISBN 3-486-22786-6

Einzelnachweise

  1. R. Fischer, G. Mal : Mensch und Mathematik, BI Wissenschaftsverlag, Mannheim, Wien, Zürich 1989, ISBN 3-411-03117-4, S. 269
  2. R. Biehler: Explorative Datenanalyse - Neue Impulse für den Mathematikunterricht?. In : Beiträge für den Mathematikunterricht, Franzbecker Verlag, Bad Salzdetfurth 1983, S. 72–75
  3. Tukey, J. W.: Exploratory Data Analysis, Addison-Wesley, Reading MA, 1977 ISBN 0-201-07616-0,S. 1
  4. D. Vogel, G. Wintermantel: MATHE - explorative Datenanalyse - Statistik aktiv lernen, Klett Verlag, Stuttgart 2003, ISBN 3-12-720049-8, S. 10
  5. Tukey schreibt auf S. 3: „Explorative Datenanalyse kann niemals alles sein, doch nichts sonst kann als Grundstein dienen - als erster Schritt.“