Fehler 1. und 2. Art
Die Fehler 1. und 2. Art, auch α-Fehler (Alpha-Fehler) und β-Fehler (Beta-Fehler) (oder α-/β-Risiko) genannt, bezeichnen eine statistische Fehlentscheidung. Sie beziehen sich auf eine Methode der mathematischen Statistik, den sogenannten Hypothesentest. Beim Test einer Hypothese liegt ein Fehler 1. Art vor, wenn die Nullhypothese zurückgewiesen wird, obwohl sie in Wirklichkeit wahr ist (beruhend auf einer zufällig erhöhten bzw. niedrigeren Anzahl positiver Ergebnisse). Dagegen bedeutet ein Fehler 2. Art, dass der Test die Nullhypothese fälschlicherweise nicht zurückweist, obwohl die Alternativhypothese korrekt ist. Fehler 1. und 2. Art werden in der statistischen Qualitätskontrolle (siehe Prüflos) häufig Produzentenrisiko und Konsumentenrisiko genannt. In der Prozesskontrolle durch Qualitätsregelkarten verwendet man dafür die Begriffe blinder Alarm und unterlassener Alarm. Fehler 1. und 2. Art werden auch als frequentistische Konzepte bezeichnet.[1] Dennoch sind Fehler 1. und 2. Art in jedem Fall bedingte Wahrscheinlichkeiten.[1][2] Das Konzept des Fehlers 1. und 2. Art wurde von Neyman und Pearson[3] eingeführt.
Entscheidungstabelle
Wirklichkeit | |||
---|---|---|---|
H0 ist wahr | H1 ist wahr | ||
Entscheidung des Tests … |
… für H0 | Richtige Entscheidung (Spezifität) (Richtig negativ) Wahrscheinlichkeit: 1 - α |
Fehler 2. Art (Falsch-negativ) Wahrscheinlichkeit: β |
… für H1 | Fehler 1. Art (Falsch-positiv) Wahrscheinlichkeit: α |
Richtige Entscheidung Wahrscheinlichkeit: 1-β (Richtig positiv) (Trennschärfe des Tests, Sensitivität) |
Formale Darstellung
Ein statistischer Test ist ein Entscheidungsproblem, bei dem es um einen unbekannten Parameter geht, der in einem bestimmten Parameterraum liegen muss. Der Parameterraum kann in zwei disjunkte Teilmengen und zerlegt werden. Das Entscheidungsproblem liegt nun darin zu entscheiden, ob in oder liegt. Bezeichne die Nullhypothese und die Alternativhypothese. Weil und disjunkt sind, kann nur eine der beiden Hypothesen wahr sein. Da ein hypothetischer Test immer eine Entscheidung voraussetzt, gibt es eine Wahrscheinlichkeit, dass man eine falsche Entscheidung trifft. Seien und . Wenn Ablehnbereich und Teststatistik definiert wurden, dann kann die Wahrscheinlichkeit abzulehnen für jedes bestimmt werden. Sei , wobei abgelehnt wird, wenn die Teststatistik in den kritischen Bereich fällt (). Die Funktion wird auch Gütefunktion genannt. Für gewöhnlich besteht eine von verschiedene Wahrscheinlichkeit die Nullhypothese abzulehnen, auch wenn sie wahr ist (Fehler 1. Art genannt). Bei Hypothesentests ist es üblich, Testverfahren nur so zu konstruieren, dass diese Wahrscheinlichkeit durch eine Konstante begrenzt wird, die das Signifikanzniveau des Tests genannt wird. Das heißt, das Signifikanzniveau ist der größte Wert von für jeden Wert von der wahr macht, also . Im Gegensatz zum Fehler 1. Art wird der Fehler 2. Art nicht durch eine vorgegebene Schranke kontrolliert. Es ist i. A. nicht möglich, beide Fehlerwahrscheinlichkeiten gleichzeitig zu minimieren. Daher sucht man unter allen Signifikanztests (Tests, die für einen Fehler 1. Art kontrollieren) denjenigen, der die Fehlerwahrscheinlichkeit minimiert. Mit anderen Worten: Wenn das Signifikanzniveau bzw. der Fehler 1. Art a priori festgelegt wurde, dann ist man daran interessiert die Trennschärfe gegen alle relevanten Alternativen zu maximieren. Die Trennschärfe eines Tests ist 1 abzüglich der Wahrscheinlichkeit einen Fehler 2. Art zu begehen, d. h. . Die Wahrscheinlichkeit für einen Fehler 2. Art wird nicht als vorgegeben, sondern als abhängig von dem in der Grundgesamtheit vorliegenden Parameter betrachtet.[4] Zusammenfassend gilt für die Wahrscheinlichkeit, einen Fehler 1. bzw. 2. Art zu begehen
Bei „einfachen“ Hypothesen (wie z. B. vs. ) gilt für die Wahrscheinlichkeit einen Fehler 1. Art zu begehen nur das Gleichheitszeichen, d. h. .[9][10] Im Allgemeinen gilt, dass eine Verringerung von die Wahrscheinlichkeit eines Fehlers 2. Art erhöht und umgekehrt. Durch komplizierte Berechnungen kann auch bestimmt werden.
Fehler 1. Art
Beim Test einer Hypothese liegt ein Fehler 1. Art vor, wenn die Nullhypothese zurückgewiesen wird, obwohl sie in Wirklichkeit wahr ist (beruhend auf falsch positiven Ergebnissen).
Die Ausgangshypothese (Nullhypothese) ist hierbei die Annahme, die Testsituation befinde sich im „Normalzustand“. Wird also dieser „Normalzustand“ nicht erkannt, obwohl er tatsächlich vorliegt, ergibt sich ein Fehler 1. Art. Beispiele für einen Fehler 1. Art sind:
- der Patient wird als krank angesehen, obwohl er in Wirklichkeit gesund ist (Nullhypothese: der Patient ist gesund),
- der Angeklagte wird als schuldig verurteilt, obwohl er in Wirklichkeit unschuldig ist (Nullhypothese: der Angeklagte ist unschuldig),
- der Person wird kein Zugang gewährt, obwohl sie eine Zugangsberechtigung hat (Nullhypothese: die Person hat Zugangsberechtigung)
Als Signifikanzniveau oder Irrtumswahrscheinlichkeit bezeichnet man die vor einem Hypothesentest festgelegte maximale Wahrscheinlichkeit dafür, dass die Nullhypothese aufgrund der Testergebnisse abgelehnt wird, obwohl die Nullhypothese wahr ist. In der Regel wählt man ein Signifikanzniveau von 5 % (signifikant) oder 1 % (sehr signifikant).
Die andere mögliche Fehlentscheidung, nämlich die Alternativhypothese zurückzuweisen, obwohl sie wahr ist, heißt Fehler 2. Art.
Beispiele
- Ein Tester hat eine Urne vor sich, in die er nicht hineinschauen kann. Darin befinden sich rote und grüne Kugeln. Es kann jeweils nur eine Kugel zu Testzwecken aus der Urne entnommen werden.
Alternativhypothese: „In der Urne befinden sich mehr rote als grüne Kugeln“.
Um ein Urteil über den Inhalt der Urne abgeben zu können, wird der Tester der Urne mehrmals Kugeln zu Testzwecken entnehmen. Wenn er daraufhin zu der Entscheidung gelangt, dass die Alternativhypothese zutreffend sein kann, also er die Meinung vertritt, dass mehr rote als grüne Kugeln in der Urne seien, obwohl in Wirklichkeit die Nullhypothese zutrifft, nämlich dass gleich viele rote wie grüne oder weniger rote als grüne Kugeln in der Urne sind, dann begeht er einen Fehler 1. Art. - Wir wollen überprüfen, ob eine neue Lernmethode die Lernleistung von Schülern steigert. Dafür vergleichen wir eine Gruppe von Schülern, die nach der neuen Lernmethode unterrichtet wurden, mit einer Stichprobe von Schülern, die nach der alten Methode unterrichtet wurden.
Alternativhypothese: „Schüler, die nach der neuen Lernmethode unterrichtet wurden, haben eine höhere Lernleistung als Schüler, die nach der alten Methode unterrichtet wurden.“
Angenommen in unserer Untersuchung weist die Stichprobe von Schülern, die nach der neuen Lernmethode unterrichtet wurden, tatsächlich eine bessere Lernleistung auf. Vielleicht beruht dieser Unterschied aber auch nur auf Zufall oder anderen Einflüssen. Wenn also in Wahrheit zwischen den beiden Populationen überhaupt kein Unterschied besteht und wir fälschlicherweise die Nullhypothese verwerfen – es also als gesichert ansehen, dass die neue Methode das Lernen verbessert – dann begehen wir einen Fehler 1. Art. Dieser kann natürlich fatale Folgen haben, wenn wir z. B. mit hohen Kosten und viel Aufwand den gesamten Unterricht auf die neue Lernmethode umstellen, obwohl diese in Wahrheit überhaupt keine besseren Ergebnisse bewirkt. - Spam-Filter für ankommende E-Mails: Ein Filter soll erkennen, ob eine E-Mail Spam ist oder nicht.
Nullhypothese: Es ist eine normale E-Mail und kein Spam.
Alternativhypothese: Es ist Spam.
Falls eine E-Mail als Spam klassifiziert wird, sie jedoch in Wirklichkeit kein Spam ist, die E-Mail also falsch als Spam klassifiziert wird, so sprechen wir von einem Fehler 1. Art (falsch-positiv).
Fehler 2. Art
Im Gegensatz zum Fehler 1. Art bedeutet ein Fehler 2. Art, dass der Test die Nullhypothese fälschlicherweise bestätigt, obwohl die Alternativhypothese korrekt ist.
Schwierigkeiten bei der Bestimmung des Fehlers 2. Art
Im Gegensatz zum Risiko 1. Art, die gegebene Nullhypothese, obwohl sie in Wirklichkeit zutrifft, irrtümlicherweise abzulehnen, lässt sich das Risiko 2. Art, also die Wahrscheinlichkeit eines Fehlers 2. Art meist nicht vorab bestimmen. Grund dessen ist die Art und Weise der Festlegung von Hypothesen statistischer Tests: Während die Nullhypothese stets eine dezidierte Aussage wie beispielsweise : „Mittelwert“ darstellt, ist die Alternativhypothese, da sie im Grunde alle übrigen Möglichkeiten erfasst, damit i. d. R. auch nur recht unbestimmter bzw. globaler Natur (bspw. : „Mittelwert “).
Die rechtsstehende Grafik illustriert diese Abhängigkeit der Wahrscheinlichkeit eines Fehlers 2. Art ; (rot) vom unbekannten Mittelwert , wenn als „Signifikanzniveau“, d. h. maximales Risiko 1. Art, ; (blau) in beiden Fällen derselbe Wert gewählt wird. Wie zu sehen, ergibt sich dabei überdies die paradoxe Situation, dass die Wahrscheinlichkeit eines Fehlers 2. Art umso größer wird, je näher der wahre Wert an dem von der Nullhypothese behaupteten Wert liegt, bis hin dazu, dass für das Risiko 2. Art ; den Grenzwert ; annimmt. Anders gesagt: Je kleiner die Abweichung des tatsächlichen vom behaupteten Wert , desto größer paradoxerweise die Wahrscheinlichkeit, einen Fehler zu machen, wenn man aufgrund des Testergebnisses weiterhin dem behaupteten Wert Glauben schenkt (obwohl die Abweichung beider Werte voneinander möglicherweise aufgrund ihrer Geringfügigkeit praktisch gar keine Rolle mehr spielt). Wie dieser Widerspruch zeigt, kann ein rein formal-logischer Umgang mit der Problematik des Fehlers 2. Art leicht Grundlage von Fehlentscheidungen sein. Bei biometrischen und medizinstatistischen Anwendungen heißt die Wahrscheinlichkeit, eine Entscheidung für H0 zu treffen, falls H0 richtig ist, Spezifität. Die Wahrscheinlichkeit, eine Entscheidung für H1 zu treffen, falls H1 richtig ist, wird Sensitivität genannt. Wünschenswert ist, dass ein Testverfahren hohe Sensitivität und hohe Spezifität und damit kleine Wahrscheinlichkeiten für die Fehler erster und zweiter Art hat.
Beispiele
- Im Six-Sigma-Projektmanagement: Fehler 1. Art: Man stellt am Projektende fest, dass bei der initialen Planung Aspekte ausgelassen wurden („zu wenig gemacht“). Ein Fehler 2. Art wäre hier, dass das gesamte Projekt über Dinge gemacht wurden, die sich am Ende als überflüssig bzw. irrelevant für den Projekterfolg herausstellen („zu viel gemacht“).
- Ein Tester hat eine Urne vor sich, in die er nicht hineinschauen kann. Darin befinden sich rote und grüne Kugeln. Es kann jeweils nur eine Kugel zu Testzwecken aus der Urne entnommen werden.
Alternativhypothese: „In der Urne befinden sich mehr rote als grüne Kugeln“.
Um ein Urteil über den Inhalt der Urne abgeben zu können, wird der Tester der Urne mehrmals Kugeln zu Testzwecken entnehmen. Die Nullhypothese in unserem Beispiel lautet, dass entweder genauso viele rote wie grüne, oder aber mehr grüne als rote Kugeln in der Urne sind (das Gegenteil der Alternativhypothese). Wenn der Tester aufgrund seiner Stichprobe also zu dem Schluss kommt, die Nullhypothese sei richtig bzw. die Alternativhypothese falsch, obwohl in Wahrheit doch die Alternativhypothese richtig ist, dann beginge er einen Fehler 2. Art. - Wir möchten den Einfluss der Ernährung auf die geistige Entwicklung von Kindern in Kinderheimen untersuchen. Dafür vergleichen wir zwei Gruppen von Kindern hinsichtlich ihrer Leistung in kognitiven Tests: Die eine Stichprobe wird nach dem herkömmlichen Plan ernährt, die andere erhält eine besonders gesunde Kost. Wir vermuten, dass die gesunde Kost sich positiv auf die kognitiven Leistungen auswirkt.
Alternativhypothese: „Kinder, die eine besonders gesunde Kost erhalten, weisen bessere kognitive Leistung auf als Kinder, die auf die herkömmliche Weise ernährt werden.“
Wenn wir nun die kognitive Leistung unserer beiden Stichproben vergleichen, so stellen wir keinen Unterschied in der kognitiven Leistung fest. Demzufolge halten wir die Alternativhypothese für falsch und bestätigen die Nullhypothese. Wenn jedoch in Wahrheit die Population der gesund Ernährten doch eine bessere Leistung aufweist, dann begehen wir einen Fehler 2. Art.
Aber wir haben in unserer Stichprobe doch keinen Unterschied festgestellt? Diese Gleichheit kann aber auch auf die zufällige Streuung der Messergebnisse oder auf die ungünstige Zusammenstellung unserer Stichproben zurückzuführen sein.
Das Begehen eines Fehlers 2. Art ist in der Regel weniger „schlimm“, als ein Fehler 1. Art. Dies hängt jedoch individuell vom Untersuchungsgegenstand ab. In unserem Beispiel hat der Fehler 2. Art ausgesprochen nachteilige Konsequenzen: Obwohl die gesunde Ernährung die Leistung verbessert, entscheiden wir uns, die herkömmliche Ernährung beizubehalten. Ein Fehler 1. Art, also die Einführung der gesunden Ernährung für alle Kinder, obwohl diese keine Leistungsverbesserung bringt, hätte hier weniger nachteilige Konsequenzen gehabt.
Entgegengesetzte Notation
In manchen Quellen wird für den Fehler 2. Art und die Teststärke die genau entgegengesetzte Notation verwendet. Dort wird also die Wahrscheinlichkeit, einen Fehler 2. Art zu begehen, mit dem Wert 1-β bezeichnet, die Teststärke oder Power dagegen mit β.[11]
Agnostische Tests
Im Mai 2018 wurde von Victor Coscrato, Rafael Izbicki und Rafael Bassi eine Methode vorgeschlagen mit der sowohl Fehler 1. Art als auch Fehler 2. Art kontrolliert werden können. Ein solches Verfahren nennen sie „Agnostischer Test“. Zusätzlich zum Fehler 1. und 2. Art wird bei agnostischen Tests allerdings ein weiterer so genannter Fehler 3. Art definiert. Dieser tritt ein, wenn das Ergebnis des Tests weder die Nullhypothese () noch die Alternativhypothese () stützt, sondern sein Ergebnis agnostisch bleibt.[12]
Siehe auch
Weblinks
Einzelnachweise
- ↑ a b Denes Szucs, John Ioannidis: When Null Hypothesis Significance Testing Is Unsuitable for Research: A Reassessment. In: Frontiers in human neuroscience, Band 11, 2017, S. 390, doi:10.3389/fnhum.2017.00390, PMID 28824397, PMC 5540883 (freier Volltext) (Review).
- ↑ Philipp Sibbertsen und Hartmut Lehne: Statistik: Einführung für Wirtschafts- und Sozialwissenschaftler., S. 379
- ↑ Jerzy Neyman und Egon Pearson: On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference: Part I. In: Biometrika, Vol. 20A, Nr. 1/2 (July 1928). Oxford University Press. Seiten 175–240.
- ↑ Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin / Heidelberg 2016, ISBN 978-3-662-50371-3, S. 385.
- ↑ Bayer, Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik, S. 154
- ↑ Hinweis: Sowohl Beta (wie auch Alpha) repräsentieren bedingte Wahrscheinlichkeiten
- ↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York / Chichester / Brisbane / Toronto / Singapore 1988, ISBN 0-471-62414-4, S. 96. ff
- ↑ Jeffrey Marc Wooldridge: Introductory econometrics: A modern approach. 4. Auflage. Nelson Education, 2015, S. 779.
- ↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York / Chichester / Brisbane / Toronto / Singapore 1988, ISBN 0-471-62414-4, S. 96. ff
- ↑ James L. Johnson: Probability and Statistics for Computer Science. S. 340. ff
- ↑ Erwin Kreyszig: Statistische Methoden und ihre Anwendungen. 7. Auflage. Göttingen 1998, S. 209 ff.
- ↑ Victor Coscrato, Rafael Izbicki, Rafael Bassi Stern: Agnostic tests can control the type I and type II errors simultaneously. 11. Mai 2018, arxiv:1805.04620.