Benutzer:C.Reinboth/Stichprobenumfang
Einleitung
Der Stichprobenumfang (in der Praxis häufig auch als Stichprobengröße bezeichnet) ist die Anzahl der im Rahmen einer statistischen Erhebung untersuchten Elemente der Grundgesamtheit. Die Bestimmung der für eine gegebene Untersuchung optimalen Stichprobengröße gilt als schwierig, da idealerweise eine Reihe von Parametern berücksichtigt werden müsste, die häufig nicht oder nur teilweise bekannt sind (beispielsweise die Rücklauf- oder Ausfallquote). Aus diesem Grund spielen in der Praxis neben allgemeingültigen Normen auch Erfahrungswerte bei der Bestimmung des Stichprobenumfangs eine große Rolle.
Statistische Relevanz
Die praktische Bedeutung des Stichprobenumfangs ist durch dessen Zusammenhang mit derRepräsentativität einer Erhebung gegeben. Zur Bestimmung exakter Werte ist eine Vollerhebung unumgänglich, da eine solche in der Regel aber aufgrund zeitlicher, methodischer oder finanzieller Barrieren nicht durchgeführt werden kann, greift man statt dessen auf eine Stichprobe zurück, also einen Ausschnitt aus der Grundgesamtheit, der stellvertretend untersucht wird.
Wird die Stichprobe mathematisch einwandfrei gezogen, so steigt die Aussagekraft der erhobenen Daten mit dem Umfang der Stichprobe an. Grund hierfür ist, dass eine große Stichprobe näher an das mathematische Ideal der Vollerhebung herankommt als eine vergleichbare, kleinere Stichprobe.
In der öffentlichen Diskussion wird der Stichprobenumfang allerdings häufig fälschlicherweise als das einzige ausschlaggebende Kriterium zur Beurteilung der Repräsentativität dargestellt. Dabei ist zu beachten, dass der Zusammenhang zwischen Repräsentativität und Stichprobenumfang nur dann gegeben ist, wenn die der Erhebung zugrundeliegende Stichprobe eine Repräsentativität überhaupt zulässt.
Ein Fehler im Stichprobenverfahren wird daher nicht durch eine besonders große Stichprobe ausgeglichen, wie der historische Beispielfall des "Literary Digest Desasters" zeigt: Im Jahre 1936 gelang es dem US-Magazin "Literary Digest" trotz einer enorm großen (aber fehlerhaft gezogenen) Stichprobe (2,5 Millionen Probanden) nicht, den Ausgang der US-Präsidentschaftswahl zwischen Alfred Landon und Franklin D. Roosevelt korrekt vorherzusagen. George Gallup, dem Gründer späteren der Gallup Organization gelang es dagegen, mit einer nur 5000 Probanden umfassenden Stichprobe den Sieg Roosevelts vorherzusagen.
Berechnung nach Cochran
In der Praxis existieren verschiedene mathematische Möglichkeiten zur (näherungsweisen) Bestimmung der optimalen Stichprobengröße. Eine der bekanntesten Formeln wurde in den 60er Jahren von William G. Cochran entwickelt:
Die Formel lehnt sich an die aus der Statistik bekannten Konfidenzintervalle an, die ein untersuchtes Merkmal mit einer gewissen Wahrscheinlichkeit zwischen zwei Grenzwerten einschließen.
Folgende Werte gehen in die Formel ein:
- N (Größe der Grundgesamtheit)
- p (Vermuteter Stichprobenanteilswert)
- q (entspricht 1-p)
- e (Schwankungsbreite des Konfidenzintervalls)
- Z (Z-Wert aus der Standardnormalverteilung)
Der Z-Wert ergibt sich aus der gewünschten „Sicherheit“ des Konfidenzintervalls und kann in einschlägigen Z-Tabellen nachgeschlagen werden. Bei einer in der Praxis üblichen Sicherheit von 95% liegt der Z-Wert beispielsweise bei 1,96, bei einer Sicherheit von 99% dagegen bei 2,25.
Der Stichprobenanteilswert kennzeichnet den vermuteten Anteil an Elementen innerhalb der Stichprobe, die das gewünschte Merkmal aufweist. Je weiter dieser Anteil (nach oben oder unten) von 50% abweicht, umso kleiner dürfte der Stichprobenumfang ausfallen. Ist der Stichprobenanteilswert nicht bekannt (was bei den meisten Untersuchungen der Fall ist), wird daher üblicherweise mit p = 0,5 gerechnet um einen möglichst konservativen Schätzwert für den optimalen Stichprobenumfang zu erhalten.
Beispielsrechnung zur Cochran-Formel
Es soll die optimale Stichprobengröße für eine Befragung von Mitarbeitern errechnet werden. Ziel der Befragung ist es zu ermitteln, wie viel Prozent der Mitarbeiter mit einer bestimmten unternehmensinternen Regelung einverstanden sind. Das Unternehmen beschäftigt N = 5.000 Mitarbeiter, der Stichprobenanteilswert ist unbekannt und wird daher mit p = 0,5 geschätzt (hieraus ergibt sich auch q = 0,5) und als Z-Wert wird 1,96 eingesetzt (95%ige Ergebnissicherheit). Vom realen Wert (dem Wert, den man bei einer Vollerhebung unter allen 5.000 Mitarbeitern erhalten würde) sollen der über die Stichprobe ermittelte Wert maximal um +/- 3% abweichen (daher e = 0,03).
Setzt man die Werte in die Formel ein ergibt sich eine optimale Stichprobengröße von 880 Personen. Angenommen, es ergäbe sich (bei sauberer Stichprobenziehung) aus dieser Stichprobe ein Wert von 18% (Zustimmung der Mitarbeiter zur Regelung), kann ausgesagt werden, dass der reale Wert mit einer Sicherheit von 95% nur um maximal +/- 3% von den gefundenen 18% abweicht.
Weitere wichtige Parameter
Bei der Erhebungsplanung sind neben den oben dargestellten methodischen Aspeketen auch weitere Paramter zu beachten, beispielsweise die Rücklaufquote. Ist diese zu niedrig, d.h. werden in einer schriftlichen Erhebung mittels Fragebogen zu wenige Bögen zurückgeschickt, hat auch dies Auswirkungen auf die Repräsentativität der Ergebnisse. Zudem ist zu beachten, dass für bestimmte statistische Verfahren (z.B. Faktorenanalyse, Clusteranalyse) eine bestimmte Minimalgröße des Datensatzes erforderlich ist, so dass eine zu gering dimensionierte Stichprobe noch erweitert werden müsste.
Quellen
Cochran, W. G. 1963. Sampling Techniques, 2nd Ed., New York: John Wiley and Sons, Inc.
Smith, M. F. 1983. Sampling Considerations In Evaluating Cooperative Extension Programs. Florida Cooperative Extension Service Bulletin PE-1. Institute of Food and Agricultural Sciences. University of Florida.
Weblinks
- Handout Statistikvorlesung, WU Wien, 2003
- Bestimmung der Stichprobengröße für repräsentative Umfragen
- Tool zur Berechnung des optimalen Stichprobenumfangs nach Cochran
Kategorie:Statistik Kategorie:Qualitätsmanagement Kategorie:Six Sigma