Diskussion:Statistischer Test

aus Wikipedia, der freien Enzyklopädie
Auf dieser Seite werden Abschnitte ab Überschriftebene 2 automatisch archiviert, die seit 45 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind. Das aktuelle Archiv befindet sich unter Archiv.

parametrischer und nichtparametrischer Tests

Die Darstellung des Unterschiedes zwischen parametrischen und nichtparametrischen Tests ist wenig hilfreich. Der eigentliche Unterschied ist die beschreibung der Menge der Verteilungen (Verteilungsannahme), die in Hypothese und Alternative aufgeteilt werden. Bei einem paramterischen Test ist diese Menge durch einen endlichdimensionalen Parameter, also durch eine Vektor aus stetig beschreibbar. Es genügt also, eine Hypothese über diesen endlichdimensionalen Parameter zu formulieren.

Wenn die Verteilungsannahme alle Normalverteilungen mit der Standardabweichung 5 sind (wie bei den Gaußtests), dann kann über den Parameter jede Verteilung in der Verteilungsannahme beschrieben werden.

Bei einem nichtparamterischen Verfahren gibt es diese Möglichkeit nicht. Die Menge der symmterischen Verteilungen (die als Verteilungsanname Voraussetzung für den Permutationstest von Fisher oder die Rangbasieten Test von Wilcoxon ist) kann nicht durch einen solchen Parameter oder Parametervektor beschrieben werden.

Das ein nichtparametrisches Verfahren ohne Voraussetzungen auskommt ist nicht richtig. Es kommt mit Voraussetzungen anderer Art aus.

--kw 02:14, 6. Nov 2004 (CET)

nicht durch Zufall erklärbar

"Statistisch signifikant" bedeutet also nichts anderes als "überzufällig", "nicht durch Zufall erklärbar".

Stimmt das? Heißt signifikant nicht, dass das Ergebnis nur mit einer kleinen Wahrscheinlichkeit, z.B. < 5%, durch Zufall entstanden ist? -- Fuzzy 14:17, 5. Mai 2005 (CEST)

nein. Das wäre eine Bayesianische Interpretation.

"Statistisch signifikant (auf einem Signifikanzniveau 0.05)" heißt, dass das Ergebnis nur mit einer Wahrscheinlichkeit von 5 % zufällig entstanden ist. Das Ergebnis kann also immer noch falsch sein; die Warscheinlichkeit, dass es falsch ist, ist aber gering.

Alle Ergebnisse sind ein Zufallsprodukt, weil ja die Prüfgröße als Zufallsvariable definiert ist. Signifikant heißt, dass die Prüfgröße mit einer W' von alpha zufällig in den Ablehnungsbereich der Hypothese fällt, obwohl die Hypothese wahr ist. Siehe auch Fehler und Varianzen. Gruß --Philipendula 18:12, 16. Dez 2005 (CET)
Oder verständlicher ausgedrückt: Wenn ich ein Signifikanzniveau von 5% wähle, wird jede zwanzigste Untersuchung einer Zufallsvariablen signifikant sein. Damit ist gewährleistet, dass es signifikante Ergebnisse gibt, selbst wenn nur der Zufall seine Hand im Spiel hat.
Dass "das Ergebnis nur mit einer Wahrscheinlichkeit von 5 % zufällig entstanden ist", ist auch falsch. Das würde bedeuten:
Tatsächlich ist aber
Ein weit verbreitetes Missverständnis. --Hob 13:18, 4. Jun. 2008 (CEST)

Aus dem Artikel

noch einzubauen, bzw. oben zu verbessern

  1. dichotom = Stichprobe besteht nur aus wahr/falsch, ja/nein, 0/1 (oder sinngemäßen) Werten. Also Merkmalen die nur zwei Ausprägungen haben können.
  2. p-Wert = Gibt an, ab welchem α das Experiment rein rechnerisch signifikant wäre. p = 0.05 bedeutet das ein Versuch der z.B. einen t-Wert von
  3. Fehler 1. Art = Man verwirft H0 (signifikant), obwohl sie eigentlich zutrifft, höchstens mit der Wahrscheinlichkeit α. Diese Irrtumswahrscheinlichkeit ist bei vielen Tests frei wählbar (z.B. α = 0.05).
  4. Fehler 2. Art = Man verwirft H0 nicht (nicht signifikant), obwohl sie verworfen werden sollte mit der Wahrscheinlichkeit ß. Diese Irrtumswahrscheinlichkeit hängt u. a. ab von der Fallzahl n, der zufallsbedingten Streuung des Mittelwertes, von der Irrtumswahrscheinlichkeit α, der Art des statistischen Tests, der Fragestellen (einseitig oder zweiseitig) u. v. m. Anmerkung: 1-ß nennt man Power oder Teststärke.
  5. Binomialtest = Testverfahren für dichotome Zielgrößen bei einer Stichprobe.
  6. Einstichproben-Kolmogorow-Smirnow-Test nach Normal- oder Gleichverteilung
  7. Ein- und Zweistichproben Chi-Quadrat Tests
  8. Fishers Exakt Test
  9. Friedman Pseudo 2-Wege ANOVA
  10. Hotelings-T^2-Test
  11. Jonckheeres-Trend
  12. Kappa-Test
  13. Kruskal-Wallis Einwege ANOVA nach Rängen
  14. McNemars-Test = Vorzeichentest = Testverfahren für dichotome Zielgrößen bei zwei verbundenen Stichproben.
  15. Mehrfachstichproben-Median-Test
  16. Moses-Extreme-Reaction-Test
  17. Pages-L-Trend
  18. Proportionaltests
  19. Quade 2-Wege ANOVA
  20. U-Test (Mann-Whitney-Wilcoxon) = nichtparametrischer Test (Rangsummentest) für zwei unverbundene (unabhängige) Stichproben.
  21. Vierfeldertest = Testverfahren für dichotome Zielgröße bei 2 unverbundenen Stichproben.
  22. Vorzeichentest = McNemar-Vorzeichentest (siehe oben)
  23. Wilcoxon-Test = nichtparametrisches Testverfahren (Rangsummentest) für eine Stichprobe bzw. auch für zwei verbundene (abhängige) Stichproben (hier beschrieben). Dabei werden die Messwerte x und y der beiden Stichproben A = xi..xn und B = yi..yn zunächst subtrahiert (di = xi - yn) und die Beträge der d-Werte nach Größe sortiert und durchnummeriert (=Rangbildung). Dann bildet man zwei Rangsummen R+ und R-: R+ ist die Summe aller Rangnummern (nicht der Differenzen) von d-Werten die > 0 sind. R- die Summe aller Rangnummern die < 0 sind. Nun nimmt man den kleineren der beiden Werte als Testwert T. In einer Tabelle schaut man nach dem kritischen Wert K für den Test (n, α, ein-/zweiseitig) und vergleicht ihn. Ist K < T, ist H0 nicht zu verwerfen.
  24. Walsh-Test
  25. Zweistichproben-Kolmogorow-Smirnow-Test
  26. Zwei-Stichproben-Median-Test
  27. Power = 1 - ß

Linkkontainer aus Schätzer

Hypothesentest

Siehe


Enzyklopädie?

Vergiss mal nicht fuer eine interessierte Leser zu erklären was ein statistischer Test wohl ist!Nijdam 02:37, 8. Jul 2006 (CEST)

Das ist bereits erklärt. Die Einleitung ist kurz und prägnant. Es geht darum, anhand von Beobachtungen eine Entscheidung darüber zu treffen, ob eine Hypothese stimmt oder nicht. Weil man mit Zufallsvariablen zu tun hat, treten natürlich Fehler auf. Diese will man kontrollieren. In deiner neuen Version hast du einfach einen neuen Absatz eingefügt, der sprachlich weit von den Standards der Wikipedia entfernt ist und der nur das noch einmal wiederholt, was im Absatz vorher steht. Ein Beispiel wäre natürlich okay, das können wir gerne gemeinsam überarbeiten. --Scherben 17:40, 8. Jul 2006 (CEST)
@Scherben. Ich weiss was ein Testverfahren ist, aber die Einleitung versteht vermutlich nur einer der schon weiss warum es geht. Ich wiederhole bestimmt nich nur was im Anfang steht. 1. Ich vergleiche den Verfahren mit einem Gerichtsverfahren. 2. Ich erkläre die unterschiedene Bedeutung der

beiden Hypothesen, 3. Ich gebe ein einfaches Beispiel, wovon ich sicher bin sogar eine Laie wird etwas davon verstehen. Und ich bin überzeugt ein interessierten Laie wird vom restlichen Artikel üuberhaupt nichts verstehen. Das ist auch eigentlich mein grosstes Problem mit viele der Artikeln über Statistik. Sie sind geschrieben wie ein genaues Textbuch, von Leuten die in den meisten Fälle bestimmt wissen worüber sie schreiben, aber die wenig Verständnis haben für die Bedeutung von Wikipedia als Enzyklopedie, die nicht nur für Spezialisten zugänglich sein soll.


Zum Einfuegen

Ein statistischer Testverfahren lässt sich gut vergleichen mit einem Gerichtsverfahren. Da wird versucht die Schuld eines Verdächtigen festzustellen. Es gibt zwei Hypothesen: "der Verdächtige ist unschuldig" und "der Verdächtige ist schuldig". Der erste nennt man die Nulhypothese, davon wird vorläufig ausgegangen. Der zweite nennt man Alternativhypothese; es ist diese Hypothese die man versucht zu "beweisen". Wenn zu viele Indizien gegen die Nulhypothese sprechen, wird sie abgelehnt und achtet man die Alternativhypothese bewiesen. Es lässt sich dabei nicht vermeiden gelegentlich Fehlentscheidungen zu treffen. Es gibt zwei Arte von Fehlentscheidungen: einen Schuldigen freisprechen und einen Unschuldigen verurteilen.

Im folgenden Biespiel werden wir diese Elementen begengnen.

Beispiel

Es gibt Leute die sagen sie seien hellsehend. Das möchten wir mal prüfen. Dazu entwicklen wir einen statistischer Test. Wir werden unseren Testperson 25 mal eine rein zufällig gewählte Spielkarte zeigen, der Rückseite selbsverständlich, und fragen welcher Farbzeichen die Karte ist. Die Anzahl Treffer nennen wir X. Vorläufig gehen wir von der Nulhypothese (H0) aus der Testperson sei "unschuldig", dh. nicht hellsehend. Die Alternativhypothese (H1)lautet: der Testperson ist mehr oder weniger hellseherisch begabt. Was bedeutet das für unserem Test? Wenn der Nulhypothese richtig ist, wird der Testperson nur versuchen den Farbzeichen zu erraten. Für jede Karte eine Wahrscheinlichkeit von 1/4 richtig zu antworten. Ist die Alternativhypothese richtig hat er für jede Karte eine grössere Wahrscheinlichkeit als 1/4. Wir deuten die Wahrscheinlichkeit auf ein Treffer an mit p. Die Hypothesen sind dann:

und

Wenn der Testperson alle 25 Karten gut benennt, ist es klar wir werden ihn als Hellseher betrachten. Und mit 24 oder 23 Treffer auch. Bei ein solcher Ergebnis werden wir die Nulhypothese ablehenen. Aber mit 5 oder 6 Treffer gibt es keinen Grund dazu. Aber was wäre mit 12 Treffer, oder mit 17? Irgendwo gibt es einen kritischen Anzahl Treffer c, von den wir nicht mehr glauben können es seien reinen Zufallstreffer. Nennt unser Testperson c oder mehrmals den richtige Farbzeichen, dann werden wir ihn als hellsehend betrachten, also die Nulhypothese ablehnen. Nennt er weniger als c Treffer, dan müssen wir ihn leider wegen Mangel an Beweis freisprechen, dh. wir sind nicht davon überzeugt er habe eine Begabung. Wir können leider auch nicht sagen dass wir davon überzeugt sind er habe keine Begabung. Es fehlt einfach ausreichend Beweis. Beweis das wir finden in der Anzahl der Treffer X, den wir Testgrösse nennen.

Wie bestimmen wir nun den kritischen Zahl c? Man sieht leicht ein das man mit c = 25 kritischer ist als mit c = 10. Im ersten Fall wird man kaum ein Person als Hellseher anmerken, im zweiten Fall ziemlich viele. Es kommt darauf an wie kritisch man sein will, dh. wie oft man eine Fehlentscheidung erster Art zulässt. Mit c = 25 ist die Wahrschenlichkeit ein solcher Fehlentscheidung (unschuldig Verurteilen):

also sehr, sehr klein.

Es ist die Wahrscheinlichkeit dass der Testperson rein zufällig 25 mal gut erraten hat.

Weniger kritisch, mit c = 10, bekommen wir:

eine ganz andere Zahl.

Man kann zuvor überlegen wie kritisch man sein will, und die Wahrscheinlichkeit ein solcher Fehlentscheidung eine Grenze stellen, zB. 1%. Dann lässt sich c bestimmen aus:

woraus für c folgt: c = 12.

Anmerkung Oktober 2008

Achtung, Anmerkung Dieses Beispiel enthält einen offensichtlichen Fehler. Ein Hypothesenpaar (H0 und H1) muss immer alle möglichen Fälle abdecken. Wenn die inhaltliche Hypothese H1 hier lautet, dass p größer als 0,25 ist, muss die H0 heißen, dass p kleiner-gleich 0,25 ist (einseitiger Hypothesentest). Wenn die H0 heißen soll, dass p exakt 0,25 ist, dann muss die H1 im Umkehrschluss heißen, dass p größer ODER KLEINER als 0,25 ist. Alle Fälle müssen durch das Hypothesenpaar abgedeckt sein! Mein Änderungsvorschlag hierzu ist verworfen worden. Es sollte allerdings dringend eine Änderung geben!

Was "alle Fälle" sind, hängt davon ab, wie du den Parameterraum definierst. Hier ist implizit der Fall geben. --Scherben 21:08, 13. Okt. 2008 (CEST)
Bin ich nicht mit einverstanden. Im Bereich der Wahrscheinlichkeit kann man nicht einfach sagen: Liegt in [0.25,1]. Das geht notwendigerweise von 0 - 1. Die Menge sind die reellen Zahlen von 0 bis 1 und H0 muss nun mal das Gegenereignis von H1 beschreiben. Das ist dann richtigerweise kleiner-gleich 0,25. (nicht signierter Beitrag von 85.179.3.120 (Diskussion) 16:39, 14. Okt. 2010 (CEST))
Siehe auch Diskussion:Binomialtest#Nullhypothese p=1/4 versus p<=1/4 und die Referenz („tea tasting Lady“-Beispiel in Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik (Kapitel 6)). -- KurtSchwitters 17:28, 14. Okt. 2010 (CEST)

Ich stimme meinem Vorredner ausdrücklich zu!! Der Bereich für H0 muss unbedingt auf [0,0.25] abgeändert werden!!

Außerdem schlage ich folgende Änderung vor, da der "Ablehnungsbereich" und der kritische Wert einer Hypothese schlichtweg anders definiert sind (siehe Fachliteratur). In diesem übrigens sehr schön und anschaulichen Beispiel wäre die Hypothese H0:[0.25,1] demnach bereits bei einem Wert von c = 12 abzulehnen:

Folgender Text wäre zu ändern: Wie bestimmen wir also den kritischen Wert ? Mit (also dass wir nur hellseherische Fähigkeiten erkennen wollen, wenn alle Karten richtig erkannt worden sind) ist man deutlich kritischer als mit . Im ersten Fall wird man kaum eine Person als Hellseher ansehen, im zweiten Fall einige mehr.

In der Praxis kommt es also darauf an, wie kritisch man genau sein will, also wie oft man eine Fehlentscheidung erster Art zulässt. Mit ist die Wahrscheinlichkeit einer solchen Fehlentscheidung:

,

also sehr klein. Dies ist der Wert der Wahrscheinlichkeit, dass die Testperson rein zufällig 25-mal richtig geraten hat.

Weniger kritisch, mit , erhalten wir mit der Binomialverteilung,

,

eine wesentlich größere Wahrscheinlichkeit.

Vor dem Test wird eine Wahrscheinlichkeit für den Fehler erster Art festgesetzt. Typisch sind Werte zwischen 1 % und 5 %. Abhängig davon lässt sich (hier im Falle eines Signifikanzniveaus von 1 %) dann so bestimmen, dass

gilt. Unter allen Zahlen , die diese Eigenschaft erfüllen, wird man zuletzt als die kleinste Zahl wählen, die diese Eigenschaft erfüllt, um die Wahrscheinlichkeit für den Fehler zweiter Art klein zu halten. In diesem konkreten Beispiel folgt: . Ein Test dieser Art heißt Binomialtest, da die Anzahl der Treffer unter der Nullhypothese binomial verteilt ist. (nicht signierter Beitrag von 77.0.11.207 (Diskussion) 17:05, 16. Mär. 2015 (CET))

Ob man oder schreibt, ist doch egal. Aber im Text ist die Anzahl, ab der man die Nullhypothese ablehnt, gemeint ist also einschließlich . -- HilberTraum (d, m) 18:18, 16. Mär. 2015 (CET)

Hi ;-) rechne (am besten mit R "1-pbinom(12,25,.25)") mal aus wann das Niveau erreicht ist. Du wirst auf eine Zahl zwischen 11 und 12 kommen. Aber nicht auf eine Zahl zwischen 12 und 13! Deswegen ist es so wichtig bei Tests ohne Randomisierung den kritischen Wert bei der Entscheidung für H1 auszuschließen. Grüße von Darmstadt ins schöne München (nicht signierter Beitrag von 77.13.116.64 (Diskussion) 17:04, 17. Mär. 2015 (CET))

Das liegt ja nur daran das pbinom(x,n,p) halt P(X ≤ x) berechnet. Ob man das c in H1 einschließt oder nicht ist aber doch nur eine Konvention, man muss eben nur bei der Berechnung aufpassen. Wenn man das c nach „deiner“ Konvention aus H1 ausschließt, hat man das Problem mit pbinom halt beim linksseitigen Test statt beim rechtseitigen, und bei einem zweiseitigen Test muss man sowie an einer Seite 1 addieren oder subtrahieren, siehe auch Zaunpfahlproblem. -- HilberTraum (d, m) 17:49, 17. Mär. 2015 (CET)

Bei jeglichen (links wie rechts und auch beidseitig) Tests muss man in dem Falle, dass die Teststatistik den kritischen Wert genau annimmt, randomisieren. Dies wird bei stetigen Tests egal sein, da c mit Wk P-f.s. =0 angenommen wird. Bei diskreten Tests wie im vorliegenden Beispiel wird der kritische Wert entweder in einer Nullmenge liegen (d.h. nicht diskret sein) oder diskret sein und man muss randomisieren, falls die Teststatistik diesen Wert annimmt. Mir geht es um folgendes: Wenn bei einer diskreten Verteilung der kritische Wert ein diskreter Wert ist und die zugehörige Teststatistik eben diesen annimmt, dann wird nach vorliegendem Bsp. H1 angenommen, obwohl in der Literatur randomisiert werden muss. Der kritische Wert wird bei Tests mit stetiger ZV mit Wk 1 nur an stetigen Stellen liegen. Hier ist es "fast" egal. Da dies aber ein diskretes Beispiel ist, finde ich es unglücklich gewählt.

Unabhängig dessen muss ich eingestehen, dass das -Fraktil entgegen meiner vorigen Aussage natürlich zwischen 12 und 13 liegt, was der meinem Vorschlag hier und der in Wiki aktuellen Rechnung (c>12) bzw. (c>=13) auch keinen Abbruch tut, da es ja das gleiche ist. Vielleicht sollte man vorher ein stetiges Beispiel mit N(0,1) verteilten iid ZVn einstellen, damit dies auch Schüler kapieren. (nicht signierter Beitrag von 77.13.116.64 (Diskussion) 19:03, 17. Mär. 2015 (CET))

Kann ich leider beides so nicht ganz nachvollziehen: Wieso muss man denn randomisieren? Randomisierte Tests, die übrigens im Artikel noch gar nicht vorkommen, sind doch eher ein theoretisches, beweistechnisches Hilfsmittel, das meines Wissens nach in der Praxis sowieso keine große Rolle spielt. „In der Praxis“ wird ja auch gar nicht ein kritischen Bereich bestimmt, sondern der zur beobachteten Stichprobe gehörige p-Wert.
Wegen der Schüler denke ich, dass man das schon so lassen sollte, denn soweit ich weiß – zumindest bei mir war das so, ist das jetzt anders? – wird eigentlich nur der diskrete Binomialtest im Unterrricht behandelt, Tests für stetige Verteilungen kommen/kamen in der Schule gar nicht vor. -- HilberTraum (d, m) 21:26, 17. Mär. 2015 (CET)

Es ist eine Frage was für einen Anpruch das Wiki hat. In der Testtheorie nach Neyman-Pearson ist dies einfach falsch. Der P-Wert hat hiermit nichts zu tun, sorry. Ich bin eben der Meinung: Besser kein Beispiel als ein falsches bzw. besser ein einfaches als ein falsches. (nicht signierter Beitrag von 77.13.116.64 (Diskussion) 22:28, 17. Mär. 2015 (CET))

Ja, was ist denn nun genau falsch an dem Beispiel? Jetzt schreib doch bitte nicht so kryptisch, sondern mal klipp und klar, was denn im Artikel verbessert werden soll. Welches „dies“ ist denn „einfach falsch“? Ein Fehler im Beispiel sollte natürlich unbedingt korrigiert werden! Das kannst du selbst tun oder den Fehler genau benennen, dann werde ich das gerne für dich machen. -- HilberTraum (d, m) 22:46, 17. Mär. 2015 (CET)

Eben wenn Teststatistik=Kritischer Wert, so nimmt man weder H0 an, noch verwirft man H0 und führt eine Randomisierung durch. Im konkreten Beispiel gilt zwar TeststatistikKritischer Wert, wird aber der Test modifizert, so kann der Fall Teststatistik=Kritischer Wert eintreten. Meinen Vorschlag dazu habe ich eindeutig oben zitiert. (nicht signierter Beitrag von 77.13.116.64 (Diskussion) 23:00, 17. Mär. 2015 (CET))

Ich weiß immer noch nicht, wer dieser „man“ ist, der eine Randomisierung durchführt. Hast du eine Literaturstelle dafür? Im Text steht ja auch nichts davon, dass dort ein bester Test zum Niveau oder Ähnliches gesucht ist; es geht nur darum, dass der Test sein Signifikanzniveau einhalten soll. Das Beispiel steht übrigens genauso in Henze: Stochastik für Einsteiger. -- HilberTraum (d, m) 07:50, 18. Mär. 2015 (CET)

Hypothese bestaetigen?

Entweder man betracht die Analyse als Entschedungsproblem, dann entscheidet man für eine der zwei Hypothesen, oder man betracht sie als Testproblem, und kann man nur die Hypothese ablehnen oder nicht ablehnen. Die Hypothese wird nie bestaetigt. Was die Fehlentscheidungen betrifft, im ersten Fall kann man sie symmetrisch behandeln, im zweiten Fall nicht.Nijdam 15:15, 12. Jul 2006 (CEST)

Ich glaube, du versuchst sprachliche Feinheiten zu sehen, wo nicht einmal deutsche Muttersprachler sie sehen... Man kann sehr wohl davon sprechen, dass man eine Hypothese bestätigt sieht, wenn man sie im Rahmen beider Interpretationen (Test und/oder Entscheidung) akzeptiert. Und natürlich behandeln wir die Wahrscheinlichkeiten für den Fehler erster oder zweiter Art hier nicht symmetrisch, wir erklären ja das Prinzip eines statistischen Tests. Genau das steht im Text. Ich verstehe dein Problem nicht. Grüße --Scherben 15:19, 12. Jul 2006 (CEST)
Um so schlimmer fuer die Muttersprachler! Sicherlich kann! man davon sprechen aber ob es sinnvoll ist, ist eine andere Sache. Die Terminologie "bestaetigen" ruft bei die meisten eine Sicherheit hervor die es nicht gibt. Wenn eine Hypothese nicht abgelehnt werden kann, musss man sie akzeptieren, einigermassen auch notgezwungen. Es bedeutet ohne weiteres ueberhaupt nicht sie sei wahr, oder vermutlich wahr oder sehr wahrscheinlich wahr. Man weisst es einfach nicht und koennte in manche Faelle sogar auch die Alternativhypothese akzeptieren.Nijdam 16:32, 12. Jul 2006 (CEST)

Nijdam hat recht.

Signifikanzniveau

Im einfuehrenden Beispiel moechte ich nicht vom minimieren der W. des Fehlers 2. Art reden. Das muss ich auch nicht wenn ich dem Signifikanzniveau nicht eine Schranke stelle, sondern annaeherend festlege.Nijdam 15:15, 12. Jul 2006 (CEST)

Hier hast du natürlich Recht, ich habe das übersehen. Nur: Wenn du im Beispiel nicht den Fehler zweiter Art minimi3eren willst, dann musst du detaillierter erklären, wie man das verstehen soll. Da finde ich den Weg über die Schranke eleganter. --Scherben 15:21, 12. Jul 2006 (CEST)

Überschneidung???

Ich bin das Lemma Testtheorie jetzt mehrfach durchgegangen, aber Überschneidungen sehe ich nicht... --Scherben 18:55, 27. Jul 2006 (CEST)


Ausreißertest fehlt

Der Ausreißertest nach Grubbs müsste hier erwähnt werden, oder? Plehn 16:19, 4. Feb. 2007 (CET)

Unpassender Link

Der Weblink nach http://brinkmann-du.de/mathe/gost/stoch_01_16.htm ist etwas unpassend. Die Seite ist voller Werbung. Evtl ersetzen.

Dieser Weblink ist sogar in großen Teilen falsch. Von einem Annahmebereich der Nullhypotese bei einem statistischen Test zu sprechen ist schlicht nicht haltbar. Unbedingt entfernen (hab ihn aber auch nicht mehr im Text gefunden) --Schlurcher ??? 16:57, 7. Sep. 2007 (CEST)

Linearität bei der Methodenvalidierung (Analytische Chemie)

Bei der Methodenvalidierung in der analytischen Chemie ist ein statistischer Test auf Linearität nach Mandel, der sogenannte Mandel-Test (oder Mandel-Anpssungstest) üblich, anhand dessen bestimmt wird, welches Regressionsmodell (lineare oder quadratische Regression) für den vorliegenden Untersuchungsfall anzunehmen ist.<ref>Mandeltest</ref>

Arbeite momentan am Artikel Linearität (QS Helfer gesucht!) und bin auf das gestoßen. Hat der Mandel-Test noch einen anderen Namen, oder fehlt der hier? --WikipediaMaster 13:59, 6. Apr. 2008 (CEST)

Symmetrisches Problem

@Scherben: Das ist von vornherein kein symmetrisches Problem. Versuch doch mal, das, was in "Mögliche Fehlentscheidungen" geschieht, mit β statt α zu machen. Lege ein Signifikanzniveau β fest, das eine obere Schranke für die Wahrscheinlichkeit eines Fehlers zweiter Art liefert. Es geht nicht, weil man nicht berechnen kann, wo die Grenze liegt. Dafür müsste man wissen, wie groß der Effekt ist, den man erst zu finden versucht.

Die Nullhypothese ist bekannt und daher die Wahrscheinlichkeiten berechenbar. Die Alternativhypothese hingegen ist die Gesamtheit aller anderen Hypothesen und daher nicht geeignet, etwas Derartiges zu berechnen.

Die jetzige Formulierung erweckt den falschen Eindruck, dass man das genau so gut andersherum machen könnte. --Hob 16:37, 4. Jun. 2008 (CEST)

Das hängt vom Beispiel ab... Wenn du z. B. in der Situation des Neyman-Pearson-Lemmas bist, dann kannst du natürlich die Nullhypothese und die Alternative vertauschen und die gleiche Methodik für beta anwenden. Und auch in dem speziellen Beispiel aus Abschnitt 2 funktioniert das: Du berechnest die Wahrscheinlichkeit für einen Fehler zweiter Art abhängig von p und legst beta so fest, dass die Wahrscheinlichkeit für einen solchen Fehler gleichmäßig in p klein wird. Der Test ist nur insofern witzlos, als er immer für H1 entscheiden würde, aber das liegt an der Struktur von H0. --Scherben 16:48, 4. Jun. 2008 (CEST)
Nachtrag: Ich weiß nicht, wie deine Kenntnisse in Mathematik sind. Wenn du kein Wort verstehst, sag' einfach Bescheid, dann erläutere ich das elementarer. --Scherben 16:49, 4. Jun. 2008 (CEST)
Neyman-Pearson-Lemma: ok, in diesem Sonderfall, wo man nur zwei mögliche Werte betrachtet, ist es tatsächlich symmetrisch.
Beispiel aus Abschnitt 2: ja, in Abhängigkeit von p geht das (ich weiß allerdings nicht, was mit "gleichmäßig in p klein wird" gemeint ist, und kann deshalb die Witzlosigkeit nicht nachvollziehen, glaube sie aber erst mal). Aber die Methode ist dennoch eine andere. Mit der normalen Methode muss man keine solchen Klimmzüge machen. Die Asymmetrie ist intrinsisch - es gibt eine einfache Methode, die ein sinnvolles Ergebnis liefert, und eine komplizierte Methode, die (wenn ich deine Aussage richtig verstehe) kein sinnvolles Ergebnis liefert. Also wählt man die einfache. --Hob 17:21, 4. Jun. 2008 (CEST)
Ich versuche es mal zu erklären: Du berechnest für jedes p größer als 1/4 die Wahrscheinlichkeit für den Fehler zweiter Art. Dieser ist monoton fallend in p, das kann man sich recht leicht überlegen. (Je besser der Hellseher wirklich ist, desto unwahrscheinlicher ist, dass er falsch klassifiziert wird.) Wenn man also eine obere Schranke für den Fehler zweiter Art auf der gesamten Alternative sucht, so kann man einfach den Wert am linken Rand nehmen (in diesem Fall also für p=1/4, auch wenn dieser eigentlich gar nicht zur Alternative gehört) und auf dieser Grundlage die Teststatistik definieren. Für alle p, die größer als 1/4 sind, gelten die nötigen Rechnungen dann automatisch auch, die Wahrscheinlichkeit für einen Fehler zweiter Art ist ja kleiner... Diese Technik benutzt man bei allen zweiseitigen Tests. --Scherben 17:50, 4. Jun. 2008 (CEST)
OK, ungefähr klar. Aber mein wesentlicher Punkt war ein anderer: siehe oben "Die jetzige Formulierung erweckt den falschen Eindruck, dass man das genau so gut andersherum machen könnte." --Hob 09:22, 5. Jun. 2008 (CEST)
An welcher Stelle denn? Im einführenden Beispiel oder später? --Scherben 09:30, 5. Jun. 2008 (CEST)
"In der statistischen Praxis macht man aus diesem vordergründig symmetrischen Problem ein unsymmetrisches:" Da steht ja schon, dass es nur vordergründig symmetrisch ist, insofern muss man es nicht unsymmetrisch machen. Wie wäre es mit "Dass dieses Problem nur vordergründig symmetrisch ist, zeigt sich in der statistischen Praxis"? Aber das stimmt nicht so ganz - "zeigt sich" ist noch das falsche Wort dafür.
Meine Ergänzungen im einführenden Beispiel, die sich dann als in dieser Allgemeinheit als falsch herausgestellt haben, sollten nur der Erläuterung dafür dienen. Bitte ignorieren. --Hob 10:35, 5. Jun. 2008 (CEST)
Eigentlich ist die Formulierung schon ganz richtig. Es ist ja zunächst keine der beiden Hypothesen als Nullhypothese ausgezeichnet, man kann prinzipiell jede der beiden als solche wählen. In der Praxis gibt das Problem meist die Nullhypothese vor, aber in der Theorie gibt es da zunächst keine Beschränkungen. Sobald man sich aber (in Theorie und/oder Praxis) entscheiden hat, welche Hypothese als Nullhypothese angesehen werden soll, wird das Problem unsymmetrisch. Man fixiert ein alpha und versucht nun, einen Test herzuleiten, für den die Wahrscheinlichkeit eines Fehlers erster Art kleiner als alpha ist. Mit dem Fehler zweiter Art passiert genau das nicht, deshalb wird das Problem unsymmetrisch. --Scherben 16:26, 5. Jun. 2008 (CEST)
Aber H1: p>1/4 ist als Nullhypothese ungeeignet, weil sie ein ganzes Konglomerat von Hypothesen ist. H0 ist die einzig sinnvolle Nullhypothese. --Hob 16:31, 5. Jun. 2008 (CEST)
Nein, das ist durchaus möglich. Stelle dir zum Beispiel vor, dass du zu einem Spiel eingeladen wirst, bei dem du mit einer bestimmten Wahrscheinlichkeit p gewinnst. Ein sinnvoller Test vor der Entscheidung, ob du mitspielst, könnte sein: H0: gegen H1: . Du willst also nur mitspielen, wenn du dir sicher sein kannst, dass die Gewinnwahrscheinlichkeit nicht kleiner als 0,5 ist (also wenn ein solcher Test für die Alternative entscheidet). Einen solchen Test kann man problemlos konstruieren. --Scherben 16:47, 5. Jun. 2008 (CEST)
Mir geht es nicht darum, was man alles konstruieren kann, sondern um die Asymmetrie zwischen Null- und Alternativhypothese. Hypothese (Statistik) besagt: "Die Nullhypothese H0 beinhaltet die Gleichheit von Sachverhalten". Sie ist ein Punkt auf der Zahlengerade, die Alternativhypothese ist der Rest der Zahlengeraden. So hatte ich das bisher immer verstanden, und so sagt es auch Hypothese (Statistik). Ist das jetzt von Natur aus asymmetrisch oder nicht? --Hob 17:27, 5. Jun. 2008 (CEST)
Hypothese (Statistik) ist offenbar falsch. --Scherben 17:43, 5. Jun. 2008 (CEST)
Dann ändere es bitte. --Hob 17:44, 5. Jun. 2008 (CEST)
Schon geschehen. Der besagte Artikel ist (aus der Sicht des Mathematikers) sowieso ziemlich unscharf geschrieben, dass es da zu Verwirrungen kommt, ist nicht überraschend. --Scherben 17:47, 5. Jun. 2008 (CEST)

multiple Tests

Sollten wir nicht das Problem des multiplen Testens in den Artikel aufnehmen? Dann mit Hinweisen auf die Bonferroni-Korrektur sowie Scheffé und Tukey?--Falli85 09:07, 29. Nov. 2008 (CET)

Wollen wir wirklich *.exe Dateien direkt verlinken? (nicht signierter Beitrag von 84.160.188.32 (Diskussion | Beiträge) 11:32, 20. Sep. 2009 (CEST))

Abschnitt "Wichtige Verteilungen"?

Ich verstehe nicht was der Abschnitt "Wichtige Verteilungen" auf der Seite für statistische Tests zu suchen hat. Ich bin dafür, diesen Abschnitt zu entfernen. --Beben 23:04, 6. Jan. 2010 (CET)

Ja, ist mir auch schon unangenehm aufgefallen. Meinen Löschsegen hast du. -- Philipendula 10:48, 7. Jan. 2010 (CET)

Niemals?

Die Zufallsvariable X ist uniform verteilt auf [0,a]. Nullhypothese: a=1; Alternative: a>1. Beobachtung: X=2. Und?Nijdam 11:17, 13. Jan. 2010 (CET)

Der Titel "niemals" betrifft den Satz aus der Einleitung: Da die vorhandenen Daten Realisationen von Zufallsvariablen sind, lässt sich niemals mit Sicherheit sagen, ob eine Hypothese stimmt oder nicht.

Ich habe "niemals" geändert in "meistens nicht", aber die Änderung wurde von Philipendula revertiert. Deshalb obenstehendes Beispiel. Nijdam 14:43, 12. Jan. 2010 (CET)

Unterstehendes verstehe ich nicht. Worauf trifft es zu, und was bedeutet es? (NB: der gesamte Parameterraum ist meistens gerade in die Nullhypothese und die Alternative zerlegt.) Nijdam 14:43, 12. Jan. 2010 (CET)

Sry, ein Missverständnis, ich dachte es bezieht sich auf den Teil bei der formalen Definition des Testes, da dort die Bedingung, dass der gesamte Parameterbereich in die Hypothese eingehen muss ("mit was? Ich glaube nicht es braucht unbedingt eine Zerlegung zu sein. mit "), kommentiert wurde. Die Quellen unten zeigen, dass es aber hin muss.--Beben 20:45, 12. Jan. 2010 (CET)

Was bedeutet doch den unterstehende Satz?Nijdam 00:48, 13. Jan. 2010 (CET)

Man kann keinen parametrischen Test machen, bei dem der gesamte Parameterraum in die Nullhypothese und die Alternative zerlegt ist, zumindest handelt es sich dann nicht mehr um einen normalen statistischen Test mit gewöhnlichen Interpretationen... Zum Vergleich:

--Beben 22:41, 11. Jan. 2010 (CET)

Ich sehe das eigentlich genauso. Der Wert des Parameterraums sollte eindeutig entweder und zugeordnet werden. Also entweder vs. oder vs. (und ich vermute, implizit wird der letzte Test auch durchgeführt). Desweiteren sehe ich es als Problem, wenn ein Modell über die Grundgesamtheit aufgestellt () wird, das mit den Beobachtungsdaten nicht möglich ist. Die Durchführung eines Tests sollte sich immer auf zwei mögliche Modelle für die GG beziehen. Natürlich kann man das o.g. Beispiel mathematisch behandeln und kommt dann zu Nijdams Aussage, jedoch halte ich es für den Einführungstext des Artikels nicht so relevant. -- Sigbert 08:43, 30. Mai 2010 (CEST)

Bild?

Ich verstehe nicht was das neulich hinzugefuegte Bild verdeutlicht. Nijdam 23:17, 10. Mai 2010 (CEST)

Ich auch nicht. Da fehlt die Verteilung der Teststatistik . Es wäre auch besser, wenn als einführendes Beispiel ein Test mit stetiger Teststatistik gewählt würde. Wir führen die Testtheorie immer mit dem Einstichproben-Test auf Mittelwert ein und machen den Binomialtest erst später um aufzuzeigen, was passiert wenn die Teststatistik diskret verteilt ist (das vorgegebene Signifikanzniveau kann selten erreicht werden). -- Sigbert 08:51, 30. Mai 2010 (CEST)

Fehler beim "Asymptotischen Verhalten"

Dort steht . Es fehlt in der Formel ein n, das man laufen lassen könnte. (nicht signierter Beitrag von 91.62.196.150 (Diskussion) 19:18, 19. Mai 2010 (CEST))

In der Tat taucht hier der Stichprobenumfang n auf, obwohl vorher nur von einer Zufallsvariable X die Rede war. --Sigma^2 (Diskussion) 16:34, 22. Feb. 2016 (CET)
Es handelt sich insbesondere nicht um dasselbe n, das im dritten Satz der Abschnitts "Formale Definition eines statistischen Testes" verwendet wird. --Sigma^2 (Diskussion) 17:21, 22. Feb. 2016 (CET)
Hm, ja stimmt. Ist aber gar nicht so einfach einzubauen, man betrachtet ja dazu eigentlich eine Folge von Tests. Außerdem fehlt im Abschnitt "Formale Definition eines statistischen Testes" irgendwie die Teststatistik . Normalerweise ist doch der kritische Bereich nicht als Teilmenge von definiert, sondern man hat eine Abbildung (meist ) und der kritische Bereich ist eine Teilmenge von . Das ist wohl Einiges zu tun. -- HilberTraum (d, m) 17:39, 22. Feb. 2016 (CET) Wobei ich jetzt sehe, dass tatsächlich beide Definitionen in der Literatur vorkommen. Aber man sollte sie halt nicht vermischen. -- HilberTraum (d, m) 17:59, 22. Feb. 2016 (CET)

Parametrisch/nicht-parametrisch und verteilungsfrei/verteilungsgebunden

Habe mal ein Abschnitt dazu ergänzt und frage ich mich, ob das nicht doch das Gleiche ist? Im Rinne, S.517, wird jedoch zwischen diesen beiden Begriffen unterschieden. -- Sigbert 08:30, 30. Mai 2010 (CEST)

Zur allgemeinen Information: Wir haben Literatur nachgesichtet und diverse zuverlässige Quellen gefunden, die die Begriffe explizit synonym verwenden. Die Literaturangaben wurden hinzugefügt, der Text entsprechend angepasst. Viele Grüße, MM-Stat 14:58, 31. Mai 2010 (CEST)
Das findet sich aber nicht in der Gliederung des Artikels wieder. Dort werden die Begriffe getrennt genannt, dann aber als synomym angedeutet. --Zulu55 10:40, 5. Aug. 2010 (CEST)

Rückseite von Spielkarten

Beide Formulierungen, die zur Zeit von verschiedenen Benutzern favorisiert werden, sind nicht optimal. Ich schlage folgendes vor:

Einer Testperson wird die Rückseite einer rein zufällig gewählten Spielkarte gezeigt und sie wird danach gefragt, zu welcher der vier Farben (Kreuz, Pik, Herz, Karo) die Karte gehört. Dies wird 25-mal wiederholt, wobei dazwischen die Karte wieder in den Stapel zurückgelegt und der Stapel neu gemischt wird.

Die Information "mit Zurücklegen" fehlt bisher. Ohne Zurücklegen wäre die Berechnung komplizierter. --Hob 09:19, 21. Jan. 2011 (CET)

Link für nichtparametrische Testverfahren für abhängige, metrisch und ordinal skalierte Stichproben verändert

Bislang leitete der Wilcoxon Link in der Testverfahrenübersichtstabelle für abhängige Stichproben zum Mann-Whitney Test für unabhängige Stichproben. Das hab ich mal dahin gehend geändert, dass nun der Wilcoxon-Vorzeichen-Rang-Test mit dem Link erreicht wird. Das beugt Verwirrungen vor. Irgendwelche Einwände dagegen? --Geosusi 13:47, 22. Mär. 2011 (CET)

Rezension

Die Kapitel 1-4 dienen als Einführung in das Thema. Sie sind durchweg ausführlich und gut geschrieben. Kapitel 2 „Ein einführendes Beispiel“ erläutert sehr umfassend und gründlich die benutzten mathematischen Ausdrücke. Dadurch bleibt alles leicht verständlich.

Kapitel 5 „Formale Definition eines statistischen Tests“ besteht im Grunde nur aus einem Unterkapitel. Für die Übersichtlichkeit und Struktur des Artikels wäre es besser, wenn man das Unterkapitel 5.1 „Parametrischer statistischer Test“ direkt zum Kapitel 5 erklären würde.

Im nächsten Abschnitt 6 verwendet der Autor die Formulierung „ein sogenannter Neymann-Pearson-Test ist ein sogenannter Likelihood-Quotienten-Test“. Die Wiederholung von „sogenannter“ ist vermeidbar. Der Satz und dieser Abschnitt sind nicht gut gelungen. Vieles ist schlecht (wenn nicht sogar falsch) formuliert und dadurch schwer zu verstehen.

Kapitel 8 „Problem der Modellwahl“ ist recht kurz und der Inhalt könnte deswegen womöglich an anderer Stelle als Unterkapitel untergebracht werden. Beim Lesen des Kapitels wünscht man sich außerdem ein bisschen mehr Ausführung oder ein erklärendes Beispiel, denn in der momentanen Form leuchtet dem Leser das angesprochene Problem nicht direkt ein.

Kapitel 9 ist gut gelungen. Der Aufbau in die verschiedenen Unterkapitel schafft Übersicht. Die Erklärungen sind allesamt verständlich.

Der letzte Abschnitt „Wichtige Tests“ kann vor allem durch seine zwei Tabellen überzeugen, die einen guten Überblick schaffen.

Die Qualität der einzelnen Abschnitte dieses Artikels schwankt stark: Die Kapitel 1-4 bieten ausführliche Erklärungen und einen klaren Aufbau. Dieser logische Aufbau ist in den folgenden Kapitel nicht mehr erkennbar, in Kapitel 6 stören zudem schlechte Formulierungen und in 7 kann man noch die unterschiedlichen Schriftgrößen für Formeln und Variablen bemängeln. Auch in 9.3 und 9.4 stört diese Uneinheitlichkeit den Lesefluss.

Die Kapitel 9 und 10 schließen durch ihre nachvollziehbare Struktur und übersichtlichen Tabellen den Artikel gelungen ab und bieten dabei einen genauen Überblick über die verschiedenen Tests und ihre Unterschiede. --Spuppe 10:22, 22. Feb. 2012 (CET)

Formale Definition eines statistischen Testes

Habe in obigem Abschnitt die Überschrift "Parametrischer Test" entfernt, die wohl schon länger dort etwas verwaist rumhing und einen User veranlasste, einen Wikilink zu Parameterfreien Tests zu setzen. Die Unterschied ist hier m.E. nicht nötig, da auch der parameterfreie Test letztlich auf eine Verteilung aufbaut. --Philipendula (Diskussion) 09:24, 27. Nov. 2014 (CET)

Es wird behauptet, dass das Niveau (level) und der Umfang (size) eines Test dasselbe seien. Dies ist falsch. Richtig ist lediglich, dass viele einfache Tests so konstruiert werden können, dass der Umfang des Tests mit dem gewünschten Signifikanzniveau übereinstimmt. Bei Tests, die auf einer Abschätzung mit Hilfe einer Ungleichung, z. B. der Bonferroni-Ungleichung, beruhen, ist der Umfang häufig systematisch kleiner als das Niveau. --Sigma^2 (Diskussion) 09:17, 1. Okt. 2017 (CEST)

Bijektion

Wegen der heutigen Ergänzung: Sicherlich wird die Zuordnung zwischen und in der Praxis bijektiv sein, aber ist das wirklich ein Teil der Definition? Wenn ja, wo wird das so gemacht? Grüße -- HilberTraum (d, m) 18:01, 4. Mär. 2016 (CET)

H. Witting, Mathematische Statistik I, Parametrische Verfahren bei festem Stichprobenumfang, S. 5: "Aus technischen Gründen indiziert man die Elemente häufig durch einen Parameter . Die Gesamtheit der zugelassenen Parameterwerte heißt der Parameterraum. Unter einer Parametrisierung einer Klasse verstehen wir demgemäß eine bijektive Abbildung von einem Parameterraum auf ."
Ohne diese Voraussetzung könnten zwei Parameter aus den disjunkten Mengen und zur selben Wahrscheinlichkeitsverteilung der Beobachtungen gehören (Fachterminus: Beobachtungsäquivalenz) und es ist unmöglich, auf Basis der Beobachtungen eine Testentscheidung zu treffen (Fachterminus: Nichtidentifizierbarkeit).
Zur ersten Frage: ja, es ist Teil der Definition einer "parametrischen Verteilungsannahme". Allerdings wird der Parameterbegriff in der Statistik manchmal auch in einem weiterem Sinn für Kennzahlen einer Verteilung verwendet, z. B. den Erwartungswert, den Median oder ein Quantil. Solche Kennzahlen bilden in der Regel keine Parametrisierung oder parametrische Verteilungsklasse im Sinn der statistischen Inferenztheorie.
Zur zweiten Frage: in guten Statistikbüchern, z. B. Witting, siehe oben. In vielen schwächeren, insbesondere anwendungsorientierten, Darstellungen der Statistik wird einfach unterlassen, zu sagen, was eine Parametrisierung oder ein parametrisches Verteilungsmodell und welche Voraussetzungen stilschweigend gemacht werden.
--Sigma^2 (Diskussion) 15:21, 27. Mai 2016 (CEST)

Was sind GGen?

Siehe Überschrift. --84.114.149.253 22:00, 5. Jun. 2016 (CEST)

Ich denke es handelt sich um GrundGesamtheiten. LG --NikelsenH (Diskussion) 22:58, 5. Jun. 2016 (CEST)

Übersicht Tests

Jedes Mal suche ich diese Übersicht unter Liste statistischer Tests. Ich sehe eigentlich nicht, was einer solchen Liste im Wege stünde; könnte man diesen Abschnitt nicht in eine solche Liste auslagern? Da hätte man auch ein bisschen mehr Platz. --77.8.0.127 19:04, 24. Mai 2020 (CEST)

Wäre mE auch sinnvoll. Ein Nutzer hat mal eine Liste angefangen [1]. Die könnte man übernehmen und ausbauen. Wäre aber sicher viel Arbeit.--Jonski (Diskussion) 19:15, 24. Mai 2020 (CEST)