Benutzer:Boomdiada/Shapiro-Wilk-Test

Der Shapiro-Wilk-Test (nach S. Shapiro und M. Wilk) ist ein statistischer Test zur Überprüfung der Hypothese, dass eine univariate Stichprobe aus einer normalverteilten Grundgesamtheit stammt. Eine Weiterentwicklung des Tests, der sogenannte Royston's H-Test, ermöglicht die Überprüfung mehrdimensionaler Stichproben auf multivariate Normalverteilung.

Die vergleichsweise hohe Teststärke des Shapiro-Wilk-Tests in zahlreichen Situationen, insbesondere bei kleineren Stichproben, erklärt seine Beliebtheit als Vortest: um sicherzustellen, dass die Daten die Normalitätsannahme weiterführender statistischer Verfahren nicht verletzen. So ist er oder seine Abwandlungen (wie der Ryan-Joiner-Test) in zahlreichen Statistik-Softwarepaketen vertreten.

Konzept

Man verfüge über n unabhängigen Beobachtungen einer metrisch skalierten Zufallsvariable X, wobei der Stichprobenumfang n zwischen 3 und 5000 liegen sollte:

$x_{(1)},\ x_{\left(2\right)},\dots ,\ x_{(n)}$

Überprüft werden soll, ob die Zufallsvariable X eine Normalverteilung befolgt. Oder alternativ ausgedrückt: ob eine Normalverteilung der Grundgesamtheit vorliegt. Die zweiseitig formulierten Hypothesen:

Nullhypothese	Alternativhypothese
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \!\,H_0: F_X(x) = \Phi (x)}	Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle H_1: F_X(x) \neq \Phi (x)}
Die Grundgesamtheit ist normalverteilt.	Die Grundgesamtheit ist nicht normalverteilt.

Zur Überprüfung der Nullhypothese fasst das Shapiro-Wilk-Testverfahren die graphischen Informationen in einer Kennzahl zusammen, die einer Analyse mittels Normalwahrscheinlichkeitsplot entspringen würden. Diese Kennzahl, die Teststatistik W, drückt das Verhältnis zweier Varianz-Schätzer zueinander aus.
$W={{b^{2}} \over {(n-1)s^{2}}}$

Der Ausdruck im Zähler der Teststatistik schätzt die Varianz einer Stichprobe, die aus einer normalverteilten Grundgesamtheit stammt. Die Teststatistik vergleicht dann diese unter der Nullhypothese „erwartete“ Varianz mit der tatsächlichen Varianz der Stichprobe, deren Schätzer im Nenner der Teststatistik zu finden ist. Das Verfahren stützt sich also einer Varianzanalyse (ANOVA) der Stichprobe. Die Teststatistik Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle W} kann auch als ein Korrelationskoeffizient interpretiert werden, ähnlich dem Bestimmtheitsmaß. Je näher die Teststatistik an 1 liegt, desto weniger Abweichungen zeigt die tatsächliche Varianz von der hypothetischen Varianz unter Annahme von Normalverteilung.

Sollte die Nullhypothese zutreffen, die Grundgesamtheit der Stichprobe also in der Tat normalverteilt sein, müssten beide Varianz-Schätzer unabhängig voneinander zu etwa demselben Ergebnis kommen. Je geringer folglich die geschätzten Varianzen voneinander abweichen, desto wahrscheinlicher ist es, dass die Grundgesamtheit der Stichprobe in Wirklichkeit normalverteilt ist.

Ursprünglich war der Test nur im Stande, univariaten Stichproben vom Umfang 3 < n < 50 zu untersuchen. Im Jahr 1972 wurde es möglich, den Test durch eine Erweiterung von Shapiro und Francia auch für Stichproben vom Umfang n < 100 einzusetzen. Danach gab es weitere Anpassungen, die den möglichen Anwendungsbereich weiter vergrößerten. Royston führte 1992 eine weitere Verbesserung ein und machte Stichproben der Größe n < 2000 möglich. Rahman und Govidarajulu erweiterten 1997 den Einsatzbereich des Tests auf Stichproben vom Umfang n < 5000, wobei in diesem Fall angepasste kritische Werte notwendig sind.

Wenn der Wert der Teststatistik Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle {W}} größer ist als der kritische Wert ${W}_{kritisch}$ , wird die Nullhypothese nicht abgelehnt und es wird angenommen, dass eine Normalverteilung vorliegt.Für die kritischen Werte mit n < 50 existieren Tabellen, die in vielen Statistikbüchern abgedruckt werden. Kritische Werte für Stichproben mit n > 50 können mittels Monte-Carlo-Simulation ermittelt werden. Die Dichtefunktion der W-Teststatistik ist sehr linksschief und der Ablehnungsbereich des Tests fällt ins kleine Ende der Verteilung.

Die Methode zur Berechnung des p-Wertes ist abhängig vom Stichprobenumfang Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n} . Für $n=3$ ist die Wahrscheinlichkeitsverteilung von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle W} bekannt. Für Stichproben mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n > 3} wird eine Transformation in die Normalverteilung durchgeführt.

Die Werte σ,γ,μ für die jeweiligen Stichprobengrößen $n>3$ werden per Monte-Carlo-Simulation errechnet.

Die Varianzschätzer

Der Schätzer für die Stichprobenvarianz im Nenner der Teststatistik ist die korrigierte Stichprobenvarianz Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle s^2} .

Fehler beim Parsen (Konvertierungsfehler. Der Server („https://wikimedia.org/api/rest_“) hat berichtet: „Cannot get mml. Server problem.“): {\displaystyle s^{2}={\frac {1}{n-1}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}

Die erwartete Varianz einer Stichprobe, die aus einer normalverteilten Grundgesamtheit stammt, wird mittels der verallgemeinerten Methode der kleinsten Quadrate geschätzt. Dieses gewöhnliche lineare Modell stellt die geordneten Beobachtungen der Stichprobe den entsprechenden Ordnungsstatistiken einer Standardnormalverteilung gegenüber. Der Schätzer Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle b^2} für die erwartete Varianz ist damit die quadrierte Steigung der Regressionsgeraden im QQ-Plot. Die Regressionsgleichung lautet:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_i = \mu + \sigma m_i + \varepsilon_i}

wobei

- $x_{i}$ die Ordnungsstatistiken aus der Stichprobe sind

- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \mu} der Schnittpunkt mit der y-Achse und der Schätzer für den Mittelwert ist

- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sigma} die Steigung der Regressionsgeraden beschreibt

- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m_i} die erwarteten Ordnungsstatistiken einer Standardnormalverteilung sind

- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \varepsilon_i} die Störgröße ist, die nichterfassbare Einflüsse darstellt

Testablauf

Der Test überprüft die Hypothese, dass eine Stichprobe aus einer normalverteilten Grundgesamtheit entnommen wurde.

I. Erstellung der Ordnungsstatistiken

Alle Beobachtungen der Stichprobe $x_{(1)},\ x_{\left(2\right)},\dots ,\ x_{(n)}$ werden nach aufsteigender Größe sortiert Fehler beim Parsen (Konvertierungsfehler. Der Server („https://wikimedia.org/api/rest_“) hat berichtet: „Cannot get mml. Server problem.“): {\displaystyle x_{(1)}\leq x_{(2)}\leq \cdots \leq x_{(n)}} und jedem Wert wird ein Rangplatz zugeordnet. So erhält man die Ordnungsstatistiken der Stichprobe Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X_{(1)}, X_{(2)}, \ldots, X_{(n)}} mit den Werten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x_{(1)}, x_{(2)}, \ldots, x_{(n)}} . Dabei ist $X_{(i)}$ als die $i$ -te geordnete Statistik definiert.

II. Berechnung der Schätzer $b^{2}$ und $s^{2}$ sowie der Teststatistik W

$b$ wird berechnet als die Summe aus Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle k} Zahlenpaaren der Ordnungsstatistiken Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \left(x_{\left(n\right)}-x_{\left(i\right)}\right)} , jeweils multipliziert mit einem entsprechenden Gewichten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a_{(i)}} . Wenn die Anzahl der Beobachtungen in der Stichprobe gerade ist, ist Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle k = n/2} , bei ungerader Anzahl ist Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle k = (n-1)/2} . Somit gilt:

b=a_{(1)}\left(x_{\left(n\right)}-x_{\left(1\right)}\right)+a_{(2)}\left(x_{\left(n-1\right)}-x_{\left(2\right)}\right)\ +\cdots

Die Koeffizienten $a_{(i)}$ sind gegeben sind durch

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a_{(i)}={[(m^{\top }V^{-1}V^{-1}m)}^{-\ {{1}\over {2}}}]\ m^{\top }V^{-1}}

mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m_{(i)}} stellvertretend für die erwarteten Ordnungsstatistiken einer Normalverteilung

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m_{(i)}={(m_{(1)},\dots ,\ m_{(n)})}^{\top }} wobei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle m_{(i)}={\Phi }^{-1}\left({{i-{{3}\over {8}}}\over {n+{{1}\over {4}}}}\right)} mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle {\Phi }\left(x_{(i)}\right)=\ {{1}\over {\sigma \sqrt{2\pi }}}e^{-\ {{{\left(x_{(i)}-\mu \right)}^2}\over {2{\sigma }^2}}}}

und der Kovarianzmatrix V der erwarteten Ordnungsstatistiken

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle V= \begin{pmatrix} \operatorname{Cov}(m_1,m_1) & \cdots & \operatorname{Cov}(m_1,m_n) \\ \vdots & \ddots & \vdots \\ \operatorname{Cov}(m_n,m_1) & \cdots& \operatorname{Cov}(m_n,m_n) \end{pmatrix} }

Die Koeffizienten Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a_{(1)},\ \dots \ a_{(n)}} sind auch häufig für die ersten 50 Zahlenpaare in Tabellen vieler Statistikbücher zu finden.

Die Varianz $s^{2}$ sowie dem Mittelwert ${\overline {x}}$ der Stichprobe werden berechnet durch

s^{2}={{\sum _{i=1}^{n}{{(x_{i}-{\overline {x}})}^{2}}} \over {n-1}}

mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \overline{x}={{\sum^n_{i=1}{x_i}}\over {n}}}

Der Wert der Teststatistik für die Stichprobe wird ermittelt:

W={{b^{2}} \over {(n-1)s^{2}}}

III. Testentscheidung

Der unter II. ermittelte Wert der Teststatistik W wird mit dem kritischen Wert Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle {W}_{kritisch}} für den entsprechenden Stichprobenumfang n und ein festgelegtes Signifikanzniveau α (oft 5 %) verglichen. Falls der Wert der Teststatistik $W$ größer ist als der kritische Wert, wird die Nullhypothese nicht abgelehnt. Die Daten sprechen in diesem Fall nicht gegen eine Normalverteilung der Grundgesamtheit. Gibt es jedoch statistisch signifikante Abweichungen, d.h. ist die Teststatistik $W$ kleiner als der kritische Wert, so wird die Nullhypothese zu Gunsten der Alternativhypothese abgelehnt. Eine Normalverteilung der Grundgesamtheit wird aufgrund der Stichprobe ausgeschlossen.

Alternativ könnte die Auswertung über den p-Wert des Tests vorgenommen werden. Der p-Wert gibt beim Shapiro-Wilk-Test die Wahrscheinlichkeit an, die vorhandene Stichprobe aus einer normalverteilten Grundgesamtheit zu ziehen.(Also: je kleiner der p-Wert, desto kleiner die Wahrscheinlichkeit, dass die Stichprobe bei einer normalverteilten Grundgesamtheit vorkäme). Die Nullhypothese wird nicht abgelehnt, wenn der p-Wert größer ist als das festgelegte Signifikanzniveau α.

Zahlenbeispiel

I. Überprüft wird die Hypothese, dass folgende Stichprobe (n = 10) aus einer Normalverteilung stammt:

200, 545, 290, 165, 190, 355, 185, 205, 175, 255

Die Beobachtungen werden der Größe nach geordnet:

165, 175, 185, 190, 200, 205, 255, 290, 355, 545

II. Der Stichprobenumfang ist eine gerade Zahl, somit werden $k=n/2=5$ Zahlenpaare der Ordnungsstatistiken Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \left(x_{\left(n\right)}-x_{\left(i\right)}\right)} gebildet. Die entsprechenden Gewichte Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a_{(i)}} werden einer Tabelle entnommen.

b = 0,5739*(545-165) + 0,3291*(355-175) + 0,2141*(290-185) + 0,1224*(255-190) + 0,0399*(205-200)= 218,08 + 59,24 + 22,48 + 7,96 + 0,2 = 307, 96

s = 117,59

Demzufolge,

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle W={{{307,96}^2}\over {\left(10-1\right){117,59}^2}}=0,76}

III. Der kritische Wert bei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n = 10} und einem Signifikanzniveau von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \alpha=5\%} beträgt Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle {W}_{kritisch} = 0,842} . Da Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle {W < W}_{kritisch}} (0,76 < 0,842), fällt Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle W} in den Ablehnungsbereich und die Nullhypothese wird abgelehnt. Folglich wird angenommen, dass die Stichprobe keiner normalverteilten Grundgesamtheit entstammt.

Eigenschaften des Shapiro-Wilk-Tests

Im Gegensatz zu manchen alternativen Verfahren (allgemeinen Anpassungstests wie der Kolmogorow-Smirnow-Test oder der Chi-Quadrat-Test, die die Stichprobe auf diverse hypothetische Verteilungen testen können) ist der Shapiro-Wilk-Test einzig auf die Untersuchung hinsichtlich Normalität konzipiert.

Als Omnibus-Test ist der Shapiro-Wilk-Test lediglich in der Lage festzustellen, ob eine signifikante Abweichung zur Normalverteilung besteht, jedoch nicht im Stande zu beschreiben, in welcher Form die Abweichung auftritt (Links-/Rechtsschiefe, Endlastigkeit der Verteilung).

Obwohl kein uniform optimaler Test gegen jedliche Art von Abnormalität zur Zeit bekannt ist, zeichnet sich der Shapiro-Wilk-Test nachweislich durch seine insgesamt hohe Teststärke aus. Diverse Monte-Carlo-Studien bestätigen seine Überlegenheit vor allem bei kleinem Stichprobenumfang (n < 50): Zum Beispiel zeigte das Shapiro-Wilk-Verfahren bei einer tatsächlichen Chi-Quadrat-Verteilung eine Teststärke von 54 % (Stichprobengröße: 20 Beobachtungen). Der D'Agostino-Test von 1972 wies dagegen eine Teststärke von 29 % auf. ^[1] So wird der Shapiro-Wilk-Test, neben dem Anderson-Darling-Test, stellenweise als Benchmark für andere Normalitätstests herangezogen.

Der Test reagiert sehr sensibel auf Ausreißer, sowohl für einseitige als auch beidseitige Ausreißer. Ausreißer können das Verteilungsbild stark verzerren, so dass dadurch die Normalverteilungsannahme fälschlicherweise abgelehnt werden könnte.

Die Tatsache, dass gerade größere Untersuchungen durch Computerprogramme durchgeführt werden, kann unter Umständen zu Fehlentscheidungen des Tests führen: Da Daten aus der Standardnormalverteilung auf reellen Zahlen basieren, Computer jedoch mit gerundeten Werten rechnen, können sich Rundungsfehler schnell addieren, so dass Abweichungen zwischen theoretischen und empirischen Daten künstlich generiert werden, die, wenn sie groß genug sind, zur Ablehnung der Nullhypothese führen könnten.

Der Test ist relativ anfällig gegenüber Bindungen (Ties), d.h. wenn es viele identische Werte gibt, wird die Teststärke stark beeinträchtigt. Falls ursprünglich mit gerundeten Daten gearbeitet wurde, lässt sich die Teststärke mit der sogenannten Sheppard-Korrektur verbessern. Die Korrektur von Sheppard produziert ein angepasstes $W$ , gegeben durch Fehler beim Parsen (Konvertierungsfehler. Der Server („https://wikimedia.org/api/rest_“) hat berichtet: „Cannot get mml. Server problem.“): {\displaystyle W_{angepasst}=W*\ {{\sum {{(x_{\left(i\right)}-{\overline {x}})}^{2}}} \over {\left\{\sum _{i=1}^{n>}{{(x_{\left(i\right)}-{\overline {x}})}^{2}-{{n-1} \over {12}}}\omega ^{2}\right\}}}}

mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \omega} als Rundungsdifferenz.

Einzelnachweise

↑ Edith Seier: Comparison of Tests for Univariate Normality, Department of Mathematics. East Tennessee State University, 2002

Literatur

Sam S. Shapiro, Martin Bradbury Wilk: An analysis of variance test for normality (for complete samples), Biometrika, 1965
D. G. Rees: Essential Statistics, Chapman & Hall, 2000
Berna Yazici, Senay Yolacan: A comparison of various tests of normality, Journal of Statistical Computation and Simulation, 77(2), 2007, pp. 175-183
Edith Seier: Comparison of Tests for Univariate Normality, Department of Mathematics. East Tennessee State University, 2002
Manfred Precht, Roland Kraft, Martin Bachmaier: Angewandte Statistik, Oldenbourg, 2005
J.R. Leslie, M.A. Stephens und Fotopoulos: Asymptotic Distribution of the Shapiro-Wilk W for Testing Normality, The Annals of Statistics, 1986

Weblinks

Kategorie:Nicht-Parametrischer Test

[1] Edith Seier: Comparison of Tests for Univariate Normality, Department of Mathematics. East Tennessee State University, 2002

[1]

Anonym

Suche

Benutzer:Boomdiada/Shapiro-Wilk-Test

Namensräume

Mehr

Seitenaktionen

Inhaltsverzeichnis