Benutzer:Signifikanz
Einleitung
In der statistischen Fachsprache bezeichnet Signifikanz ein kennzeichnendes Merkmal der Gesamtheit, das durch eine Stichprobe ermittelt wurde.
Anwendung findet der Begriff in Entscheidungsverfahren und Tests (Signifikanztest), bei denen aufgestellte Hypothesen durch Stichproben-Untersuchungen überprüft werden. Durch das Signifikanzniveau erfolgt die Bestimmung, ab welchem Wert die Hypothese entkräftet wird. [1] Um die in den Hypothesen formulierten Zusammenhänge zu überprüfen, wird immer auf die Grundgesamtheit zurückgegriffen und sich nicht nur auf die Stichprobe beschränkt.
Wenn ein Forschungsresultat als statistisch signifikant bezeichnet wird, dann ist damit nicht gemeint, dass das Ergebnis ein bedeutsames ist – wie es die lateinische Bedeutung des Wortes »signifikant« vermuten lassen könnte (lat.: entscheidend, wichtig, bedeutsam) – vielmehr bedeutet die Formulierung in Bezug auf einen statistischen Hypothesentest (Prüfung eines empirischen Sachverhalts gegen die Zufälligkeit einer solchen Verteilung), dass das Ergebnis nicht auf einem Zufallseffekt beruht.[2] Darüber hinaus ist dann von einem signifikanten Resultat zu sprechen, wenn die Nullhypothese (der postulierte Zusammenhang ist null und nichtig) berechtigter Weise verworfen wird. [3] Ein nicht-signifikantes Ergebnis ist im Umkehrschluss aber kein Indiz für die Richtigkeit der Nullhypothese.
Mit Hilfe von statistischen Hypothesentests besteht nicht die Möglichkeit, „Wahrheiten“ zu ermitteln. Vielmehr ist immer mit einem α-Fehler (Fehler 1. Art) zu rechnen. Dieser tritt dann ein, wenn die Ergebnisse der Stichprobe auf die Alternativhypothese (Erklärung für ein bestimmtes, bisher unzureichend beleuchtetes Phänomen) schließen lassen, aber in der Grundgesamtheit die Nullhypothese (formale Gegenhypothese zur formulierten Alternativhypothese) gilt.
Signifikanztest
Ein Signifikanztest stellt eine standardisierte statistische Methode dar, um auf Basis von empirisch quantitativen Stichprobendaten zu entscheiden, ob eine Nullhypothese (H0) einer Untersuchung verworfen werden kann oder nicht und die dazu komplementäre Alternativhypothese (H1) anzunehmen ist.[4]
Nach Planung der Untersuchung und Formulierung des statistischen Hypothesenpaares wird ein geeigneter Signifikanztest ausgewählt. Bei der Auswahl des geeigneten Verfahrens sind Kriterien wie die Anzahl der Untersuchungsgruppen, der Versuchspersonen, der abhängigen und unabhängigen Variablen oder die Qualität der Daten und das Datenniveau (nominal-ordinal-metrisch) von entscheidender Bedeutung. Voraussetzung für einen Signifikanztest ist, dass die Stichprobe eine Zufallsstichprobe ist, also randomisiert sein muss.
Es wird zunächst gefragt, ob das Untersuchungsergebnis durch die Nullhypothese erklärt werden kann. Hierfür ermittelt man über ein Wahrscheinlichkeitsmodell einen Wert, die sogenannte Irrtumswahrscheinlichkeit, die angibt, mit welcher bedingten Wahrscheinlichkeit das gefundene Untersuchungsergebnis auftritt, wenn in der Population die Nullhypothese gilt.
Ein signifikantes Ergebnis liegt vor, wenn ein Signifikanztest eine sehr geringe Irrtumswahrscheinlichkeit ermittelt. Dies bedeutet, dass sich das gefundene Stichprobenergebnis nicht gut mit der Annahme vereinbaren lässt, dass in der Population die Nullhypothese (H0) gilt. Man lehnt deshalb die Nullhypothese (H0) ab und akzeptiert die Alternativhypothese (H1).[5]
Lässt sich das Stichprobenergebnis schlecht mit der Nullhypothese vereinbaren, berechnet der Signifikanztest eine geringe Irrtumswahrscheinlichkeit mit einem nur geringen Risiko sich zu irren und man spricht von einem signifikanten Ergebnis. Ein Restrisiko bleibt jedoch bestehen und um Irrtümer möglichst zu vermeiden, wurden für die Annahme der Alternativhypothese und Ablehnung der Nullhypothese strenge Kriterien festgelegt. Nur wenn die Irrtumswahrscheinlichkeit sehr gering ist und unter 5% liegt, ist die Annahme der Alternativhypothese akzeptabel. Die 5%-Schwelle für die Irrtumswahrscheinlichkeit nennt man Signifikanzniveau und verhindert, dass die Nullhypothese zu Unrecht abgelehnt wird.[6]
Praktische Bedeutsamkeit signifikanter Effekte
Wie oben ausgeführt bedeutet eine signifikante Korrelation zwischen zwei Variablen nicht zwangsläufig, dass eine der Variablen Ursache der anderen sein muss. Für eine bestehende Korrelation können verschiedene Erklärungsmöglichkeiten herangezogen werden:
- x bewirkt y oder y bewirkt x
- x und y beeinflussen sich gegenseitig kausal
- eine Drittvariable z wirkt gleichzeitig auf x und y ein.[7]
Die statistische Signifikanz sagt lediglich etwas über die Existenz eines Effektes, nicht jedoch über dessen Relevanz im Kontext einer Fragestellung aus. Jede Nullhypothese kann bei ausreichend großen Stichproben abgelehnt werden, d.h. dass ein hypothesenkonformer Unterschied bei ausreichend großen Fallzahlen immer signifikant ist.[8] Die praktische Bedeutsamkeit von signifikanten Effekten im Sinne der Einschätzung des erzielten Resultats wird im Allgemeinen über das dimensionslose Maß der Effektgröße vorgenommen.[9] Die Effektgröße, häufig auch Effektstärke genannt, ist ein Maß für die praktische Bedeutsamkeit eines gefundenen Zusammenhangs. Da die Signifikanz abhängig von der Größe der Stichprobe ist, stellt sie kein geeignetes Maß dar, um einschätzen zu können, ob ein Ergebnis tatsächlich praktisch bedeutsam ist.[10] Um einen Unterschied unabhangig von der Stichprobengröße beziffern zu können, sollte bei einem Signifikanztest auch die Effektgröße angegeben werden. Während die Signifikanz eines Ergebnisses aussagt, ob ein gefundener Unterschied nur mit geringer Wahrscheinlichkeit durch zufallige Abweichungen zu erklären ist, gibt die Effektgröße an, wie groß ein Unterschied ist.[11]
Anhand einzelner Formeln lässt sich die Effektstärke und somit der praktische Wert beispielsweise einer medizinischen Behandlung oder einer neuen Unterrichtsmethode etc. berechnen.[12] Beispielsweise berechnet man die Effektstärke (d) für unabhängige Stichproben mit folgender Formel:
- , wobei
μ1 = Mittelwert der 1. Stichprobe
μ2 = Mittelwert der 2. Stichprobe
σ = Standardabweichung.[13]
Die Bewertung des praktischen Stellenwerts hat eine lange Tradition und geht auf die Untersuchungen von Cohen zurück. Die seitdem auf Konventionen festgelegte Effektstärkenklassifizierung weist dabei folgende Werte aus:
- kleiner Effekt d = 0,20
- mittlerer Effekt d = 0,50
- großer Effekt d = 0.80.[14]
Zur Effektstärkenberechnung anhand bestimmter Teststatistiken, wie dem t-Test oder ANOVA, sei auf die einschlägige Literatur verwiesen.(siehe z.B. 4, 5, 6)
Probleme/Kritik
Die Akzeptanz des Signifikanzbegriffs leidet darunter, dass die damit verbundenen statistischen Tests nicht angemessen oder in Unkenntnis der mit ihnen verknüpften Annahmen angewandt werden. Viele dieser Tests sind an stochastisch unabhängige Beobachtungen oder bestimmten Verteilungsannahmen, wie Normalverteilung bei metrischen Größen geknüpft. [15] [16]
Auch an der Repräsentativität der Daten, d.h. an einer zufälligen Auswahl aus der Grundgesamtheit kann mitunter gezweifelt werden. Werden diese Annahmen nicht überprüft oder eingehalten, kann die Wahrscheinlichkeit für Falschaussagen mitunter drastisch ansteigen. [17]
Im technischen Bereich der überwiegend mit metrischen Daten arbeitet, setzt sich daher zunehmend das Konzept von Vertrauensbereichen (Konfidenzintervall) durch. Dies ist von den mathematischen Grundlagen äquivalent aber eingängiger und leichter zu verstehen. Es hat damit den Vorteil besser auf Plausibilität überprüft werden zu können. [18]
Einzelnachweise
- ↑ Stück, Hans-Hermann (1991): Basiswissen Statistik in 6 Stunden: Relative Häufigkeit – Mittelwerte – Wahrscheinlichkeit – Stichproben – Konfidenz – Signifikanz. Wilhelm Heyne, München, S. 96
- ↑ Kuckarzt, Udo; Rädiker, Stefan; Ebert, Thomas; Schehl, Julia (2010): Statistik: Eine verständliche Einführung. Wiesbaden, S. 136-144
- ↑ Pospeschill, Markus (2006): Statistische Methoden: Strukturen, Grundlagen, Anwendungen in Psychologie und Sozialwissenschaften. Elsevier, München, S. 168
- ↑ W. Hussy; M. Schreier; G. Echterhoff (2010): Forschungsmethoden in Psychologie und Sozialwissenschaften, Springer Verlag, Heidelberg, Seite. 173
- ↑ J. Bortz, N. Döring (2006): Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler, 4. Auflage, Springer Verlag, Heidelberg, S. 26
- ↑ Akkerboom, H. (2010): Wirtschaftsstatistik im Bachelor: Grundlagen und Datenanalyse, Auflage 2., Gabler Verlag, Wiesbaden, S. 209
- ↑ Kuckarzt, Udo; Rädiker, Stefan; Ebert, Thomas; Schehl, Julia (2010): Statistik: Eine verständliche Einführung. Wiesbaden: VS, S. 203 f., ISBN-10: 9783531166629
- ↑ Hussy, Walter; Schreier, Margit; Echterhoff, Gerald (2010): Forschungsmethoden in Psychologie und Sozialwissenschaften, Heidelberg, S. 174. ISBN 978-3-540-95935-9
- ↑ Fröhlich, Michael; Pieter, Andrea (2009): Wissenschaft Kompetenzen, zur Bewertung der praktischen Relevanz von Interventionen, Exemplarische Anleihen aus der Krafttrainingsforschung. In: pt_Zeitschrift für Physiotherapeuten, Münche: Pflaum Verlag, 61 [2009] 12, S. 1-4.
- ↑ Kuckarzt, Udo; Rädiker, Stefan; Ebert, Thomas; Schehl, Julia (2010): Statistik: Eine verständliche Einführung. Wiesbaden: VS. S. 145 f., ISBN-10: 9783531166629
- ↑ Hussy, Walter; Schreier, Margit; Echterhoff, Gerald (2010): Forschungsmethoden in Psychologie und Sozialwissenschaften, Heidelberg, S. 175. ISBN 978-3-540-95935-9
- ↑ Fröhlich, Michael; Pieter, Andrea (2009): Wissenschaft Kompetenzen, zur Bewertung der praktischen Relevanz von Interventionen, Exemplarische Anleihen aus der Krafttrainingsforschung. In: pt_Zeitschrift für Physiotherapeuten, Münche: Pflaum Verlag, 61 [2009] 12, S. 1-4.
- ↑ Cohen, Jacob (1988): Statistical Power Analysis for the Behavioral Sciences, 2. Aufl., Hillsdale: Lawrence Erlbaum Associates, S. 49 ff., ISBN 978-0805802832
- ↑ Cohen, Jacob (1988): Statistical Power Analysis for the Behavioral Sciences, 2. Aufl., Hillsdale: Lawrence Erlbaum Associates, S. 115 f., ISBN 978-0805802832
- ↑ Kriz, J. (1972): Statistische Signifikanz und ihre sozialwissenschaftliche Relevanz – Eine Kritik an statistische Entscheidungsmodelle. In: Zeitschrift für Soziologie, Jahrgang 1, Heft 1, S.47-51
- ↑ Hartung, U. (2005): Statistik, Lehr- und Handbuch der angewandten Statistik. 14. Auflage, Berlin. S.129 ff.
- ↑ Dubben, H.-H./Beck-Bornholdt, H.-P. (2004): Die Bedeutung der statistischen Signifikanz. In: Diekmann, A. (Hrsg.)(2004): Methoden der Sozialforschung. Kölner Zeitschrift für Soziologie und Sozialpsychologie, Sonderheft 44/2004, Köln. S. 61-74
- ↑ Hartung, U. (2005): Statistik, Lehr- und Handbuch der angewandten Statistik. 14. Auflage, Berlin. S. 129 ff.
Weiterführende Literatur
- Hedges LV; Olkin I. (1985): Statistical methods for meta-analysis. New York, London u. a.: Academic Press.ISBN 0-12-336381-0
- Hunter JE, Schmidt FL. 2004. Methods of meta-analysis: correcting error and bias in research. Newbury Park: Sage. ISBN 978-1-412-90479-7