Diskussion:Chi-Quadrat-Test
Auf dieser Seite werden Abschnitte ab Überschriftebene 2 automatisch archiviert, die seit 45 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind. Das aktuelle Archiv befindet sich unter Archiv. |
Diesen Satz bitte umschreiben
Im kursiven Satz ist nicht zu verstehen, wie man auf χ2 = 14.07 kommt. Die 9-2=7 sind die Freiheitsgrade (9 Möglichkeiten, 7 Freiheitsgrade). Warum subtrahiert man 2 und nicht 1? Das die 0.05 durch die Rechnung "100-0.05 = 0.95" zustandekommt kann man auch nur erraten. Und ausserdem wird nicht gesagt, wie nun die 0.95 und die 7 zu 14.07 umgerechnet werden. Da ich nicht-Mathematiker bin hoffe ich, jemand kann das kurz ergänzen.
Bei einem Signifikanzniveau α = 0,05 liegt der kritische Wert der Testprüfgröße bei χ2(0,95;9-2=7) = 14,07. Da χ2 > 14,07 ist, wird die Hypothese abgelehnt. Man kann davon ausgehen, dass das Merkmal Umsatz nicht normalverteilt ist.
Lumbar 16:51, 3. Nov 2004 (CET)
9 - 2 Freiheitsgrade kommen zustande, weil wir 9 Summen haben, aber wir haben 2 Parameter (mü und sigma) geschätzt. Für jeden geschätzten, also unbekannten Parameter geht ein Freiheitsgrad verloren (deshalb hat die geschätzte Varianz s^2 n-1 Freiheitsgrade, denn es wird der Erwartungswert durch das arithmetische Mittel geschätzt. Das war es vermutlich, was du mit 1 FG meintest).
Das 95%-Quantil der Chi^2-Verteilung mit 7 FG kann man in einer Tabelle nachschlagen. Guckst Du z.B. Chi-Quadrat-Verteilung.
Ansonsten steht alles z.B. unter #Vorgehensweise
- Bei einem Signifikanzniveau α wird Ho abgelehnt, wenn χ2 > χ2(1-α; m-1), dem (1-α)-Quantil der χ2-Verteilung mit m-1 Freiheitsgraden ist.
und #Besonderheiten
- Schätzung von Verteilungsparametern
- Im allgemeinen gibt man bei der Verteilungshypothese die Parameter der Verteilung an. Kann man diese nicht angeben, müssen sie aus der Stichprobe geschätzt werden. Hier geht bei der χ2-Verteilung pro geschätztem Parameter ein Freiheitsgrad verloren. Sie hat also m-w-1 Freiheitsgrade mit w als Zahl der geschätzten Parameter.
in diesem Artikel.
--Philipendula 17:22, 3. Nov 2004 (CET)
- Wie komme ich denn im Beispiel auf den Wert χ2(...,...) = 14,07? Ich wüsste gar nicht, wie man das ausrechnen kann. Ansonsten aber ein schöner Artikel! 128.176.114.42 19:21, 12. Jan 2005 (CET)
- Man schlägt diesen Wert in einer CHI-Quadrattabelle nach. Lies doch mal die obigen Beitrage nach. Gruß --Philipendula 00:27, 13. Jan 2005 (CET)
- Oder man benutzt einen einschlägigen numerischen Algorithmus (zum Beispiel den von Hill und Pike: Algorithm 299, Communications of the ACM, 10/4, 243-244, 1967) und bemüht den Computer :-)
- --Strike 3. Jul 2005 16:34 (CEST)
Wieso 7 Freiheitsgrade und nicht 6: m-1-w=9-1-2(my und sigma)=6 ?
Ich fände einen Satz am Anfang toll, der es einem absoluten Statistiklaien - zufällig bin ich einer - ermöglicht, zu erahnen, was man mittels des Tests vergleicht, testet, anschaut. z.B. ... ein Test, mit dessen Hilfe man rausfinden kann, ob zwei Messungen miteinander vergleichbar sind oder nicht (ohne das das jetzt ein Beispiel für den Chixchi Test sein soll ;-)
Die Profis lesen sich den REst durch, ein Laie stoplert über das Wort und will dann in einem Satz wissen, was Statistiker damit machen. Warum das agnze funktioniert, ist dem Laien - mir z.B. - zunächst einmal egal.
Umsätze exponentielverteilt
Es wäre schön, wenn im Abschnitt 1.3 Beispiel zu Anpassungstest darauf gestetet würde, ob die Umsätze exponentialverteilt sind. Das sieht so aus und würde Sinn machen. Der ersteller dieses Absatzes kann das bestimmt in Windeseile ummodeln, ich habe leider keine Ahnung von SPSS (nur GNU R). Ansonsten finde ich das eine super Idee! :) --Thire 14:45, 17. Mär 2006 (CET)
Vielleicht wurde deshalb die Ergänzung (1.4) eingefügt und die Umsätze logarithmiert? Oder wozu dient das logarithmieren an dieser Stelle? --134.100.99.138 16:32, 22. Jun. 2007 (CEST)
- Yep, exakt. --Philipendula 17:09, 22. Jun. 2007 (CEST)
Chi^2-Test von Bartlett
Man wird von Chi-Quadrat-Test von Bartlett aus hierher umgeleitet, auf der Seite findet sich aber kein Hinweis zu diesem Test. Das verwirrt den werten Leser. Lieber die Weiterleitung löschen, bevor ein eigener Artikel entsteht. 129.206.90.2 16:34, 19. Mär. 2007 (CET)
Neues Beispiel
Habe das Beispiel zu Schuhe und Geschlecht, das einfach in den Artikel geklatscht wurde, nach unten verlagert. Eigentlich bin ich der Meinung, dass es überflüssig ist, weil schon ein Beispiel dazu existiert. Außerdem ist es schlecht geschrieben. --Philipendula 17:02, 14. Apr 2006 (CEST)
genau dieses beispiel fand ich hilfreich, um auf sehr schnelle und einfache weise mein statistik wissen aufzufrischen! bitte beibehalten!
FRAGE DAZU: ich weiß, meine Statistikkenntnisse sind nicht der Hammer, aber: müßte man in diesem Beispiel nicht eine ungerichtete Hypothese formulieren und deswegen in der Endtabelle nicht bei 95%, sondern bei 97,5% nachschaun (weil auf beiden Seiten der Flächenverteilung 2,5% abgeschnitten werden; 2,5*2=5 usw.)? Oder ist die Hypothese in diesem Beispiel gerichtet, und wenn ja, warum?
Chiquad.-Anpassungstest
Hallo, ich habe hier in Wikipedia genau wie in meinen Büchern immer das gleiche Muster für den Beitrag zum Chiquadrat gefunden: (beobachtete Häufigkeit - erwartete Häufigkeit)^2 / erwartete Häufigkeit.
Wenn die echte Chiquadratverteilung aber als Summe der Chiquadrate einzelner Standardnormalverteilter Beiträge ermittelt wird, beinhaltet das m.E. einen systematischen Fehler: Jede beobachtete Häufigkeit in einem Tabellenfeld beruht doch letztlich auf einer Binomialverteilung (gehört dazu bzw. gehört nicht dazu). Wenn man für jede Klasse standardnormiert, muss man den Mittelwert(der Binomialverteilung) subtrahieren und durch die Standardabweichung (der Binomialverteilung) dividieren. Das ergibt aber vielmehr folgende Chiquadrat Beiträge (die ebenfalls einfach zu berechnen sind):
(beobachtete Häufigkeit - erwartete Häufigkeit)^2 / (erwartete Häufigkeit * (1- erwartete Häufigkeit/Gesamtzahl N))
Bei kleiner Anzahl von Klassen ist die Abweichung doch kein Pappenstiel und alle Beiträge und damit das ermittelte Chiquadrat werden systematisch unterschätzt. Außerdem werden die Einflüsse von Klassen geringer Häufigkeit systematisch weniger stark unterschätzt.
Bei Näherungen ist doch normalerweise in der Statistik wenigstens sichergestellt, dass sie erwartungstreu sind und keine systematischen Fehler einbringen. Ist das hier anders, warum macht man das so, wo gibt es Literatur die diesen Aspekt betrachtet oder habe ich irgendwo einen Denkfehler gemacht?
Grüße von micha138
- Zum einen sind die Standardnormalverteilungen nicht unabhängig voneinander sind, da die Summe aller beobachteten bzw. erwarteten Häufigkeiten ja gleich der Anzahl der Beobachtungen sein muss. Zum anderen gibt es ja auch noch Approximationsbedingungen (z.B. alle erwarteten Häufigkeiten grösser gleich 5). --Sigbert 21:49, 26. Dez. 2008 (CET)
Anpassungstest
Ich bin nicht ganz auf dem Laufendem mit der deutsche Terminologie, aber im Algemeinen gibt es einen Unterschied zwischen einen Chi-Quadrat-Test und einen Chi-Quadrat-Anpassungstest (Eng. Goodness-of fit). Der erste bezieht sich auf ein Test für die Varianz einer Normalverteilung, die zweite ist die in diesem Artikel erwähnte.Nijdam 20:53, 8. Jul 2006 (CEST)
- Mit Chi-Quadrat-Test ist im Allgemeinen der Anpassungstest gemeint, als Verteilungstest und Unabhängigkeitstest, das Andere ist der Varianztest. Der hat halt auch eine chi-qu.-verteilte Prüfgröße, wird aber nicht so bezeichnet. --Philipendula 21:25, 8. Jul 2006 (CEST)
Wichtige Bemerkung zur Mindestanzahl der Häufigkeiten pro Merkmalskategorie beim Chi Quadrat Anpassungstest
Ich halte es für nicht ganz ausreichend, nur eine Mindestanzahl für die zu erwarteten Häufigkeiten (E) vorzuschreiben, z.B. (E >= 5), und dabei die tatsächlich aufgetretenen Häufigkeiten (H) komplett zu ignorieren. Es kann dann dazu kommen, dass man auch signifikante Abweichungen von der vermuteten Verteilungsfunktion (eben jene mit (E < 5) und (H >= 5)) herausfiltert, also "übersieht" und somit fälschlicherweise behauptet, die vorliegende Stichprobe würde der angenommenen Verteilungsfunktion genügen, obwohl dies eigentlich nicht sein kann. Ein anschauliches Beispiel soll dies besser verdeutlichen: Man betrachte die Anzahl aller gesetzten (oder nicht gesetzten) Bits (also P = 0.5) in jeweils 1024 Bit langen Bitfolgen, die ein Zufallsgenerator so am laufenden Band erzeugt. Das müßte theoretisch einer diskreten Binomialverteilung (DBV) mit den Parametern (N = 1024) und (P = 0.5) entsprechen. Dass (fast) alle 1024 Bits einer zufälligen Bitfolge gesetzt (oder nicht gesetzt) sind, ist extrem selten (also E immer noch extrem klein auch bei vielen Millionen Tests). Natürlich kann es bei vielen Millionen Tests trotzdem vorkommen, dass man genau diese Bitfolge einmal erwischt. Dann wäre (H = 1). Das darf selbstverständlich noch keine Ablehnung der Hypothese verursachen. Hat man aber bei Millionen von Tests (H >= 5) zufällige Bitfolgen, wo (fast) alle Bits gesetzt (oder nicht gesetzt) sind, kann es einfach keine DBV(1024, 0.5) mehr sein. Es ist daher meines Erachtens pro Merkmalskategorie zu überprüfen, ob (E >= 5) ODER ob (H >= 5) ist. Wenn mindestens eine von den beiden Bedingungen wahr ist, sollte diese Merkmalskategorie unbedingt mit in die Berechnung des Chi-Quadratwertes einfließen, der dann (wie bei diesem Beispiel) dadurch zwangsweise so groß wird, dass man die Hypothese auf jeden Fall (also bei jedem Signifikanzniveau, auch bei alpha = 99% o.ä.) zweifelsfrei ablehnen muss. --Aragorn321 (Diskussion) 12:09, 21. Aug. 2014 (CEST)
- Hallo! Ein Test wird ja – wenn man es „richtig“ macht – vor dem Erheben der Stichprobe ausgewählt. Es kann also nicht von der Stichprobe abhängen, ob ein Test für die gewählten Hypothesen anwendbar ist oder nicht. Außerdem ist ja erst mal wichtig, dass der Test sein Signifikanzniveau einhält, also dass der Fehler 1. Art nicht größer als alpha wird. Weil der Chi-Quadrat-Test aber nur näherungsweise exakt ist, muss man durch E >= 5 erst mal sicherstellen, dass die Näherung ausreichend genau ist. Mit einem großen Fehler 2. Art wie in deinem Beispiel muss man dann halt „leben“, oder einen besseren Test verwenden. Grüße -- HilberTraum ⟨d, m⟩ 13:05, 21. Aug. 2014 (CEST)
Verbesserungsvorschlag (und Versuch einer Standardisierung) für den Chi Quadrat Anpassungstest
Ich stehe öfters vor dem Problem, das ich gern einen Chi-Quadrat-Anpassungstest für eine beobachtete diskrete Verteilung machen möchte, von der ich genau weiß, wie sie im Optimalfall verteilt sein müßte, also die diskrete hypothetische Verteilung bestens kenne. Leider haben aber die meisten diskreten hypothetischen Verteilungen (im Gegensatz zur diskreten Gleichverteilung) an vielen Stützstellen nur eine sehr kleine Eintrittswahrscheinlichkeit (p[i]), so dass es selbst nach aber Millionen durchgeführten Einzeltests deutlich weiniger als 5 Treffer an diesen Stützstellen zu erwarten sind. Zur Veranschaulichung betrachte man den einfachen Fall, dass die Anzahl der gesetzten Bits in einem 64 Bit großen Zufallswert zu ermitteln sind. Es können mindestens 0, maximal 64 Bits gesetzt sein. Die zugehörige diskrete hypothetische Verteilung ist die diskrete Binomialverteilung (DBV) mit 65 Stützstellen und der generellen Erfolgswahrscheinlichkeit p = 0.5 dafür, dass ein bestimmtes Bit gesetzt ist. Die Wahrscheinlichkeiten dafür, dass in dem 64-Bit-Zufallswert nur sehr wenige (oder sehr viele) Bits gesetzt sind, sind jeweils extrem klein. Am wahrscheinlichsten ist der Fall, dass nur ungefähr die Hälfte der maximal möglichen Bits gesetzt ist, also (p[64/2=32] = maxP). Um trotzdem den Chi-Quadrat-Anpassungstest verwenden zu können, müßte ich in der beobachteten Verteilung sehr viele separat erfasste Stützstellen zu einer einzigen verwertbaren Stützstelle zusammenfassen, damit endlich die erforderliche Anzahl an zu erwartenden Treffern (E >= 5) zustande kommt. Mit anderen Worten, es wird über viele separat erfaßte Werte letzten Endes gemittelt. So kommt es zum einen immer wieder vor, dass mir der Chi-Quadrat-Anpassungstest eine beobachtete Verteilung als "sehr gut an die hypothetische Verteilung angepasst" verkaufen will, obwohl das real gar nicht der Fall ist. Zum anderen lassen sich die in verschiedenen Testserien ermittelten Chi-Quadratwerte (sumChi2) nicht miteinander vergleichen, weil z.B. in der Testserie A deutlich weniger brauchbare Stützstellen (mit E >= 5) übrig bleiben als in der Testserie B. Obwohl die diskrete Verteilung der Testserie B besser an die hypotetische Verteilung angepasst ist, kann man dort einen höheren Chi-Quadratwert als bei Testserie A erhalten (sumChi2(B) > sumChi2(A)), was daran liegt, dass bei der Testserie B dann auch deutlich mehr Teilsummen in den Chi-Quadratwert einfließen. Außerdem läßt es sich wegen der variablen Anzahl an Teilsummen ohne die aufwendige Ermittlung des p-Wertes zu dem errechneten Chi-Quadratwert nicht entscheiden, ob die Hypothese abzulehnen ist, oder nicht.
Irgendwie ist der ganze Zustand sehr unbefriedigend. Es wäre doch wunderschön, wenn man stets jede separat erfaßte Stützstelle auch immer beim Chi-Quadrat-Anpassungstest verwenden könnte. Damit wäre der Chi-Quadrat-Anpassungstest zum einen um so genauer, je detailierter die Beobachtung erfasst ist, und zum anderen könnte man die Chi-Quadratwerte aus verschiedenen Testserien auch problemlos miteinander vergleichen, da stets die selbe Anzahl an brauchbaren Stützstellen (nämlich alle) eine entsprechende Teilsumme für den Chi-Quadratwert liefern. Ganz obendrein ließe sich hier auch stets vorab der maximale Chi-Quadratwert (maxChi2) ermitteln, bis zu welchem die Hypothese noch gelten soll (sumChi2 <= maxChi2), man könnte also auf die aufwendige Berechnung der p-Werte komplett verzichten.
Bekannt ist weiterhin, dass ein Zufallswert mit vielen Merkmalsausprägungen (also mit vielen separat erfassbaren Stützstellen (i = 1,...,M)), einem konkreten Wert viel öfter nicht entspricht (q[i]) als er ihm tatsächlich entspricht (p[i]), also (q[i] > p[i]). Da p[i] und q[i] zusammen pro Stützstelle stets genau die Gesamtanzahl der durchgeführten Tests (N) ergeben sollten, gilt also fast immer (q[i] >= N/2). Wenn man für den Chi-Quadrat-Anpassungstest zum Beispiel generell festlegt, dass der Erwartungswert pro verwendeter Teilsumme (E >= 5) sein soll, braucht man nur (N >= 2*E) Tests durchzuführen und kann jede separat erfaßte Stützstelle für den Chi-Quadrat-Anpassungstest auch verwenden, wenn man statt P einfach Q betrachtet. Man wertet also pro Stützstelle einfach die Anzahl der Nichterfolge (e[i] = q[i]), statt der Anzahl der Erfolge (e[i] = p[i]) aus. Damit ist die pro Stützstelle beobachtete Abweichung, vom Betrag her gesehen, genauso groß wie ursprünglich, das Quadrat der Abweichung pro Stützstelle liefert also stets den gleichen Wert wie vorher, aber der Quotient der Teilsumme (e[i] = q[i]) ist nun größer als früher (e[i] = p[i]), was dazu führt, dass die einzelnen Teilsummen für den Chi-Quadratwert nun meist deutlich kleiner sind als früher, dafür sind es aber deutlich mehr Teilsummen als früher (nämlich stets so viele, wie separat erfaßte Stützstellen vorhanden sind). Die auf diese Weise ermittelten Chi-Quadratwerte reagieren a) nun wesentlich sensibler und korrekter auf einzelne Abweichungen der beobachteten Verteilung von der hypothetischen Verteilung als früher, sind b) nun auch direkt miteinander vergleichbar und brauchen c) auch keine p-Wert Ermittlung mehr, eben weil sie problemlos miteinander vergleichbar sind. Wenn man ein absolutes Maß festlegen will, ab wann eine Hypothese zu verwerfen ist, kann man den kritischen Chi-Quadratwert z.B. auf (maxChi2 = 0.1 * M) festsetzen, wobei M die Anzahl der separat erfassten Stützstellen ist. Noch besser ist es, wenn man jeden ermittelten Chi-Quadratwert (sumChi2) noch durch die Anzahl der verwendeten Stützstellen (M) und die Anzahl der durchgeführten Tests (N) teilt, dann erhält man so etwas wie einen standardisierten Chi-Quadratwert (stdChi2 = sumChi2/(M * N)). Die auf diese Weise "standardisierten" Chi-Quadratwerte lassen sich nun auch uneingeschränkt miteinander vergleichen, d.h. unabhängig davon, wieviel Tests durchgeführt wurden und wieviel Stützstellen vorhanden sind. Mit anderen Worten erst der "standardisierte" Chi-Quadratwert (stdChi2) spiegelt auch zuverlässig die erwartete Verbesserung der Anpassung der beobachteten Verteilung an die hypothetische Verteilung wieder, wenn man die Testanzahl deutlich erhöht.
Zur besseren Veranschaulichung des Problems (und des Lösungsvorschlages) hier ein paar konkrete Zahlenwerte für die oben erwähnte DBV(65, 1/2) mit den klassichen Chi-Quadratwerten (oldChi2) im Vergleich zu den jeweils nichtstandardisierten Chi-Quadratwerten (newChi2) und den jeweils standardisierten Chi-Quadratwerten (stdChi2) für eine Reihe unterschiedlicher Testfälle:
numberOfTests (N) | oldChi2M | oldChi2Sum | newChi2M | newChi2Sum | stdChi2M | stdChi2Sum |
---|---|---|---|---|---|---|
10 | 1 | 0,000e+00 | 65 | 0,9243 | 1 | 1,422e-03 |
100 | 10 | 7,833e+00 | 65 | 0,8944 | 1 | 1,376e-04 |
1.000 | 20 | 2,606e+01 | 65 | 1,6744 | 1 | 2,576e-05 |
10.000 | 26 | 2,927e+01 | 65 | 1,07575 | 1 | 1,655e-06 |
100.000 | 32 | 3,322e+01 | 65 | 0,94055 | 1 | 1,447e-07 |
1.000.000 | 36 | 3,986e+01 | 65 | 0,97695 | 1 | 1,503e-08 |
10.000.000 | 39 | 3,185e+01 | 65 | 0,806 | 1 | 1,240e-09 |
100.000.000 | 42 | 3,132e+01 | 65 | 0,71955 | 1 | 1,107e-10 |
1.000.000.000 | 45 | 3,891e+01 | 65 | 0,94445 | 1 | 1,453e-11 |
Hinweis: Ich möchte mich keinesfalls mit fremden Federn schmücken: Die "Standardisierung" des Chi-Quadratwertes habe ich nicht "erfunden" sondern sie wird häufig schon bei den Chi-Quadrat-Unabhängigkeitstests gemacht (siehe Artikel zu den diversen Chi-Quadrat-Koeffizienten), ich habe sie nur genauso für den Chi-Quadrat-Anpassungstest angewendet.
--Aragorn321 (Diskussion) 09:03, 17. Dez. 2014 (CET)
- Diese „Standardisierung“ habe ich noch nie gesehen und ehrlich gesagt auch nicht ganz verstanden. Du schreibst „siehe Artikel zu den diversen Chi-Quadrat-Koeffizienten“. Geht das auch ein bisschen genauer? Wo kann man konkret etwas über dieses Verfahren nachlesen?
Das übliche Vorgehen dürfte hier wohl sein (wenn man bei diesem Problem überhaupt einen Chi-Quadrat-Anpassungstest machen will/soll!), dass man die Werte {0,1,…,64} in Klassen einteilt, deren Wahrscheinlichkeiten alle ungefähr in der gleichen Größenordnung liegen, und darauf dann den Chi-Quadrat-Test anwendet. -- HilberTraum (d, m) 13:35, 17. Dez. 2014 (CET)
Huch, das ging ja fix! Ich dachte eigentlich, alle außer mir sind schon im Weihnachtsurlaub (;-))) Die Idee der "Standardisierung" habe ich vom Chi-Quadrat-Koeffizienten für den Chi-Quadrat-Unabhängigkeitstest "geborgt". Der dort ermittelte Chi-Quadratwert sumChi2 hat eine andere Formel als der Chi-Quadratwert für den Anpassungstest und liegt in den Grenzen [sumMin=0, sumMax=N*min(dimX-1,dimY-1)]. Also teilt man sumChi2 durch dessen Maximalbetrag (sumMax) und erhält so ein sdtChi2=(sumChi2/sumMax) in den Grenzen [stdMin=0, stdMax=1], welcher nun weder von der Anzahl der Stützstellen (dimX, dimY) noch von der Anzahl der Tests (N) abhängig ist. Damit sind diese "standardisierten" Chi-Quadratwerte alle problemlos miteinander vergleichbar. Der Link zu den Chi-Quadrat-Koeffizienten ist: Artikel zu Chi-Quadrat-Koeffizienten. Darauf bin ich allerdings erst durch diese Diskussionsseite gekommen, weil hier irgendwo "Cramers V" erwähnt wurde, da wird noch zusätzlich die Quadratwurzel gezogen, mit anderen Worten die Verkleinerung des "standardisierten" Chi-Quadratwertes erfolgt dort nicht umgekehrt linear (mit dem Exponent 1/1) zum Wachstum der Testanzahl, sondern nur mit dem Exponent 1/2. Der Sinn bzw. die Notwendigkeit dieser "gebremsten" Verkleinerung leuchtet mir noch nicht so ganz ein. Die Idee Q statt P zu verwenden, um aus allen separat (und mit viel Liebe) erfaßten Stützstellen eine brauchbare Teilsumme für den Chi-Quadratwert zu erzeugen, habe ich selbst verzapft, weil ich mich über die vielen viel zu kleinen p's schon viel zu lange geärgert habe. Ich berechne die i-te Teilsumme des Chi-Quadratwertes sumChi2[i] nicht mehr mit sumChi2[i]=(n[i] - p[i])²/p[i]; sondern als newChi2[i]=((N-n[i])-q[i])²/q[i]; wobei n[i] die Anzahl der Treffer, (N-n[i]) die Anzahl der Nichttreffer für die i-te Stützstelle und N die Gesamtzahl der durchgeführten Tests sind. --Aragorn321 (Diskussion) 16:20, 17. Dez. 2014 (CET)
- Ich meinte Letzteres, also dass man statt der Treffer die Nichttreffer betrachtet. So was habe ich noch nie gesehen und kann mir auch gerade nicht vorstellen, dass das vernünftig funktionieren kann. Dann man Chi-Quadrat-Koeffizienten normieren kann, um sie zu vergleichen, ist klar, aber ich dachte, es geht eher um Tests und nicht um Vergleiche. -- HilberTraum (d, m) 17:40, 17. Dez. 2014 (CET)
Ich habe eine, wie ich finde, sehr einfache, und leicht skalierbare, generische polygraphische Substitutionschiffre entwickelt, welche für alle Blockgrößen optimal funktioniert, die echte Zweierpotenzen sind. Es werden also auf einen Schlag jeweils 2,4,8,16,32,...1024,2048 Bytes mit logarithmisch wachsendem Zeitaufwand ver- bzw. wieder entschlüsselt. Sie ist für 128 Bit (=16 Byte) ungefähr so schnell wie eine AES-Software-Implementation in Java, aber ca. knapp 10 mal langsamer als eine AES-Hardware-Implementation (also CPU mit Crypto-Chip). Dabei läßt sich meine Blockchiffre im Gegensatz zu anderen Chiffren in Hardware sehr gut parallelisieren, weil sie ausschließlich nur einfachste voneinander weitestgehend unabhängige Byteoperationen benutzt. Um auch die statistische Güte der Verschlüsselung zu untersuchen bzw. mit anderen Verschlüsselungen wie AES, Blowfish, ... zu vergleichen, habe ich massenweise Elementarstatistik betrieben. Anfangs habe ich nur 4 normalisierte Momente (avg, var, skn, exz) der empirischen Verteilungen untersucht, die näherten sich mit Vergrößerung der Testanzahl natürlich immer mehr den verteilungsspezifischen Werten der jeweils erwarteten diskreten hypothetischen Verteilung an. Dann nahm ich den Chi-Quadrat-Anpassungstest, Chi-Quadrat-Homogenitätstest und den Chi-Quadrat-Unabhängigkeitstest noch zu Hilfe. Dabei stieß ich auf die oben erwähnten Probleme, die einer automatisierten und korrekten Auswertung von Chi-Quadratwerten eindeutig im Wege standen. Das Hauptproblem dabei war nicht die fehlende Standardisierung, sondern dass jede hypotetische Verteilung in jeder Blockgröße für jede Testanzahl absolut nicht miteinander vergleichbare Werte lieferte, weil mal nur 13 Teilsummen aus maximal 65 möglichen, beim nächsten Mal aber 17 oder 25 Teilsummen aus den selben 65 maximal möglichen verwendet wurden. Damit konnte ein größerer Chiquadratwert auch besser sein als ein kleinerer. Für die geometrische Verteilung ist es wieder anders als für die Binomialverteilung, für 128 Bit lange Werte anders als für 64 Bit lange Werte, usw. Alles hing davon ab, ob theoretisch genügend Treffer pro Stützstelle vorhanden sind und das war selten genug der Fall. Mit anderen Worten jeder verwendete Chi-Quadrat-Test hätte an jede diskrete Verteilung, an jede Blockgröße und an jede Testanzahl separat angepasst werden müssen. Ich suchte also ein qualitativ brauchbares zuverlässiges und einfach zu benutzendes "Abweichungsmaß", was auch automatisch ausgewertet, also mindestens problemlos miteinander verglichen werden konnte. Nun kann ich stets alle in der empirischen Verteilung erfassten Stützstellen auch für den Chi-Quadratwert verwenden und bekomme so auch zuverlässig kleinere Abweichungen von der hypothetischen Verteilung mit. Weder das eine noch das andere war vorher der Fall. Mit dem verwende Q statt P Trick zusammen mit der Standardisierung, löse ich nicht nur alle oben erwähnten Probleme, sondern die statistische Auswertung ist auch noch deutlich schneller geworden, weil die aufwendige Berechnung der Alpha-Werte für nahezu beliebiege Freiheitsgrade ersatzlos wegfällt. Es waren zwar nicht ganz "7 Probleme auf einen Streich" aber immerhin schon das eine oder andere Problem, was mir lange genug Kopfzerbrechen bereitet hatte. Ich hoffe, ich konnte meine inhaltlichen Probleme mit den Chi-Quadrat-Tests etwas besser verständlich machen. Wenn ja, kann alles von dieser Seite weg, was nicht wirklich hier hingehört.--Aragorn321 (Diskussion) 19:56, 17. Dez. 2014 (CET)
- Na, wenn dein Verfahren funktioniert und du damit zufrieden bist, dann ist ja alles in Butter. Dann müssen wir hier das ja auch gar nicht verstehen ;) Grüße -- HilberTraum (d, m) 09:06, 18. Dez. 2014 (CET)
Stärke des Zusammenhangs
1. Der Chi-Quadrat-Test ist ein Signifikanztest, daher sollte auch nur dies erklärt werden. Wenn die Stärke interessiert, können selbstredend Zusammenhangsmaße berechnet werden, beispielsweise solche, die auf Chi-Quadrat basieren, wie der (korrigierte) Kontingenzkoeffizient oder Cramers V. Das gehört hier aber nicht hin.
2. Zudem frage ich mich was das für eine Maßzahl ist. die Bezeichnung wird in der Regel für das Bestimmtheitsmaß verwendet, also das Quadrat aus Pearsons r (Produkt-Moment-Korrelationskoeffizient). Beide Zusammenhangsmaße arbeiten (grob gesagt) mit dem Vergleich der Kovarianz mit den Einzelvarianzen, erfordern also für beide Variablen metrisches Skalenniveau. Weder das Bestimmtheitsmaß noch der Maßkorrelationskoeffizient haben also etwas mit Chi-Quadrat-basierten Maßen zu tun. Eine Ausnahme besteht meines Wissens nur bei Vierfeldertafeln: Wenn die beiden Ausprägungen der beiden Variablen jeweils mit 0 (Null) und 1 (Eins) kodiert sind, dann entspricht der Vierfelderkoefffizient Phi (Ein Chi-Quadrat-basiertes Zusammenhangsmaß) numerisch genau Pearsons r.
Viele Grüße -- Jake2042 23:15, 4. Apr. 2007 (CEST)
- Ich hab's herausgefunden. Es handelt sich um , also das Quadrat von Cramers V. Der Autor / die Autorin hat wahrschinlich einfach ein großes V mit einem kleinen r verwechselt, was bei handschriftlichen Aufzeichnungen schon mal passieren kann. Dennoch bin ich immer noch der Ansicht dass der ganze Absatz hier nicht hingehört. Viele Grüße -- Jake2042 23:15, 4. Apr. 2007 (CEST)
- Yep. Der Beitrag ab [1] ist eigentlich wenig hilfreich und sachgerecht. Am besten wäre es, man würde das alles rauswerfen. --Philipendula 00:19, 5. Apr. 2007 (CEST)
- Erledigt. -- Jake2042 00:40, 5. Apr. 2007 (CEST)
Frage zu dem Beispiel des Anpassungstests (Umsaetze von boersennotierten Unternehmen)
Wie passen die im Histogramm dargestellten Haeufigkeiten mit denen der Tabelle zusammen? (Ich kann das nicht zuordnen und verstehe demzufolge auch nicht die angegebenen Werte fuer Erwartungswert und Varianz. Bitte erlaeutern.) --84.128.253.244 20:33, 18. Sep. 2007 (CEST)
- Die Werte wurden mit Hilfe der 200 Originaldaten ermittelt. Streng genommen ist das eh zweifelhaft, weil die Daten stark rechtsschief verteilt sind. Weil Erwartungswert und Varianz geschätzt wurden, gehen zwei Freiheitsgrade verloren. --Philipendula 20:55, 18. Sep. 2007 (CEST)
- Heisst das, dass die "200 Originaldaten" nicht richtig in der Tabelle wiedergegeben werden? Wenn ja, halte ich das Beispiel nicht gerade fuer gelungen ... Wie berechnet man eigentlich den Erwartungswert bei Intervallen? Ist dabei fuer die Summation der mittlere Wert des Intervalls massgeblich, also z. B. 7500 (mal Haeufigkeit), wenn das Intervall von 5000 bis 10000 geht? (Das wuerde ich fuer sinnvoll halten.) Das Histogramm laesst eher vermuten, dass die Intervallgrenzen (0; 5000; 10000 usw.) massgeblich sind. --84.128.191.202 21:21, 18. Sep. 2007 (CEST)
- Für den Anpassungstest muss man die Daten in Klassen einteilen, auch wenn sie im Einzelnen gegeben sind. Ich kann mich nicht mehr erinnern, aber ich bin relativ stark überzeugt, dass ich arithmetisches Mittel und Varianz mit den - mir vorliegenden - Originaldaten ermittelt habe. Wenn die Daten nicht vorliegen, kann man sie mit Hilfe der Klassenmitten näherungsweise errechnen. Mir ging es vor allem darum, zu zeigen, wie man vorgeht, wenn die Parameter der Grundgesamtheit nicht gegeben sind, was vermutlich der Regelfall ist. --Philipendula 21:32, 18. Sep. 2007 (CEST)
- Heisst das, dass die "200 Originaldaten" nicht richtig in der Tabelle wiedergegeben werden? Wenn ja, halte ich das Beispiel nicht gerade fuer gelungen ... Wie berechnet man eigentlich den Erwartungswert bei Intervallen? Ist dabei fuer die Summation der mittlere Wert des Intervalls massgeblich, also z. B. 7500 (mal Haeufigkeit), wenn das Intervall von 5000 bis 10000 geht? (Das wuerde ich fuer sinnvoll halten.) Das Histogramm laesst eher vermuten, dass die Intervallgrenzen (0; 5000; 10000 usw.) massgeblich sind. --84.128.191.202 21:21, 18. Sep. 2007 (CEST)
Werbung für SPSS?
Hallo,
warum muss denn drei mal drauf hingewiesen werden, dass die Beispieldaten mit SPSS bearbeitet wurden? Ich halte das für Werbung für eine proprietäre Software. Das hat in der Wikipedia keinen Sinn - oder?
Auffällig!
Ich bin also nicht er einzige, den das stört?! Wollte gerade selber eine Diskussion diesbezüglich starten... Bitte ändern, es muss doch auch nicht an jeder Abbildung stehen und verlinkt sein!
- Hab mich drum gekümmert. Man könnte die Sache auch noch in R oder im Statistikpaket rechnen und dann diese Grafiken einbinden... -- ~ğħŵ ₫ 09:00, 2. Jul. 2008 (CEST)
- Ich bin ja kein Freund von Werbung. Allerdings ist halt beispielsweise die Grafik von SPSS. Ich denke, dass es hier einfach informativ ist, wo die Ergebnisse her sind. Das ist alles. -- Philipendula 09:25, 2. Jul. 2008 (CEST)
- Na moment mal! Es gibt einen eigenen Artikel über SPSS, dass die Grafik damit erstellt wurde, ist keine relevante Information für den Artikel oder dessen Verständnis. Man könnte das Beispiel auch mit einem HP-Taschenrechner durchrechnen... Zudem ist SPSS ein kommerzielles Programm. In GNU R kann man es genauso rechnen, wenn man einen Frontend haben wil, dann eben mit dem Statistiklabor. Wer Informationen über Statistiksoftware sucht, kann sie in den einschlägigen Artikeln finden, aber nicht hier (denn sonst schreib ich hinter jede Erwähnung von SPSS, dass man es genauso gut mit R oder dem Statlabor rechnen kann, und dann wirds lächerlich). Daher nochmals Revert. ...und wenns dir immer noch nicht passt, rechne ich das Beispiel in R nach (die Grafiken haben ohnedies Verbesserungspotential). -- ~ğħŵ ₫ 10:57, 2. Jul. 2008 (CEST)
- Halt mal die Luft an. -- Philipendula 11:59, 2. Jul. 2008 (CEST)
- Na moment mal! Es gibt einen eigenen Artikel über SPSS, dass die Grafik damit erstellt wurde, ist keine relevante Information für den Artikel oder dessen Verständnis. Man könnte das Beispiel auch mit einem HP-Taschenrechner durchrechnen... Zudem ist SPSS ein kommerzielles Programm. In GNU R kann man es genauso rechnen, wenn man einen Frontend haben wil, dann eben mit dem Statistiklabor. Wer Informationen über Statistiksoftware sucht, kann sie in den einschlägigen Artikeln finden, aber nicht hier (denn sonst schreib ich hinter jede Erwähnung von SPSS, dass man es genauso gut mit R oder dem Statlabor rechnen kann, und dann wirds lächerlich). Daher nochmals Revert. ...und wenns dir immer noch nicht passt, rechne ich das Beispiel in R nach (die Grafiken haben ohnedies Verbesserungspotential). -- ~ğħŵ ₫ 10:57, 2. Jul. 2008 (CEST)
- Ich bin ja kein Freund von Werbung. Allerdings ist halt beispielsweise die Grafik von SPSS. Ich denke, dass es hier einfach informativ ist, wo die Ergebnisse her sind. Das ist alles. -- Philipendula 09:25, 2. Jul. 2008 (CEST)
Nachbesserungsbedürftig
Warum? Weil der Artikel sich vmtl. nur jemandem erschließt, der einen großen Teil des Inhalts bereits kennt. Dem „interessierten Laien“ werden aber gleich mal eine „Menge von Zahlen und Diagrammen“ vorgesetzt, die IMHO folgende (vielleicht hier, wegen der Klarheit, etwas grob formulierten) Eindrücke erzeugen:
- zwischen den erwähnten Zahlen und den Diagrammen gibt es kaum einen Zusammenhang („lt. Diagramm machen knapp 130 Unternehmen überhaupt keinen Umsatz …“)
- einfach mal darauf losschätzen, dann kommt auch ein Ergebnis ’raus („Da keine Parameter vorgegeben werden … Es sind geschätzt“; „Es sei Φ… der oben angegebenen Normalverteilung“ – welcher Schätzwert ist denn das?; „Bei einem Signifikanzniveau α = 0,05 …“ – und warum nicht 3,72? Natürlich gibt es dazu auch eine Beschreibung. Aber „wenn schon geschätzt wird“ erwartet man eben auch Schätzungen.)
- Angesichts der Linkverteilung könnte man übrigens in Versuchung geraten, den Artikel bzgl. des Inhalts auf eine möglicherweise „übersignifikant vorhandene Werbebotschaft“ zu Untersuchen – wie heißt doch gleich diese Software, welche die „zusammenhangslosen Diagramme“ …?
Mein Fazit: es gibt viele „Bilder“ und sicher auch Informationen. Aber es fehlt (für den „interessierten Laien“) vorab erst mal eine Zusammenfassung der Begriffe. So muß man den Text von oben nach unten abarbeiten, ohne sich einen Überblick verschaffen zu können. Die Folge: man folgt dem einen oder anderen Link — und weiß nach fünf Minuten nicht mehr, wo man eigentlich war und wie es weitergehen sollte. Außerdem würde ich vorschlagen, die Diagramme und Tabellen im Text etwas zurückzunehmen (nicht heraus!). So drängen sie sich zu sehr in den Vordergrund und unterbrechen den grundlegenden Informationsfluß. (Wie wäre es mit dem Auslagern von Beispielen – und die dann gerne mit mehr Zahlen – in einen eigenen Abschnitt?)
Bildbeschreibung fehlt bei [[Datei:UmsatzHisto0.PNG]], [[Datei:LgUmsatzHisto0.PNG]], [[Datei:Chigross.png]] und [[Datei:Chiklein.png]]
Der Artikel enthält ein Bild, dem eine Bildbeschreibung fehlt, überprüfe bitte, ob es sinnvoll ist, diese zu ergänzen. Gerade für blinde Benutzer ist diese Information sehr wichtig. Wenn du dich auskennst, dann statte bitte das Bild mit einer aussagekräftigen Bildbeschreibung aus. Suche dazu nach der Textstelle [[Datei:UmsatzHisto0.PNG]], [[Datei:LgUmsatzHisto0.PNG]], [[Datei:Chigross.png]] und [[Datei:Chiklein.png]] und ergänze sie.
- Wenn du eine fehlende Bildbeschreibung ergänzen willst, kannst du im Zuge der Bearbeitung folgende Punkte prüfen:
- Namensraum Datei: Bilder sollte im Namensraum Datei liegen. Bitte ändere die alten Bezeichnungen
Bild:
undImage:
inDatei:
. - Skalierung: Außerhalb von Infoboxen sollten keine festen Bildbreiten (zum Beispiel 100px) verwendet werden. Für den Fließtext im Artikelnamensraum gibt es Thumbnails in Verbindung mit der automatischen Skalierung. Um ein Bild/eine Grafik in besonderen Fällen dennoch größer oder kleiner darzustellen, kann der „upright“-Parameter verwendet werden. Damit erfolgt eine prozentuale Skalierung, die sich an den Benutzereinstellungen orientiert. --SpBot 21:49, 1. Mär. 2009 (CET)
- Namensraum Datei: Bilder sollte im Namensraum Datei liegen. Bitte ändere die alten Bezeichnungen
Bsp ausführen
Finde das Bsp toll, bin mir aber nicht sicher ob ich alles richtig verstehe und wäre über eine Zusammenfassung (und ev. ausführlichere Begründung) der Ergebnisse aus dem Bsp froh. (es soll ja getestet werden ob x normalverteilt ist...) --> Nein, es ist nicht normalverteilt weil... LG Hans--91.128.200.24 09:04, 14. Jun. 2009 (CEST)
Vierfeldertest
Um den Themenkomplex "Chi-Quadrat-Test" der Vollständigkeit näher zu bringen, habe ich den Artikel Chi-Quadrat-Vierfeldertest hier eingegliedert. Die Versionsgeschichte des Abschnitts "Vierfeldertest" findet sich hier. Solange der Abschnitt noch nicht überarbeitet (Abgrenzung, Gemeinsamkeit,Redundanz zu Vierfelderkorrelation,...) ist, lasse ich den QS-Baustein drin. Ich arbeite weiter an diesem Abschnitt. Weitere Autoren sind natürlich erwünscht. :) Grüße, -- MM-Stat 18:36, 28. Nov. 2009 (CET)
Aus dem Kontext unverständliches Beispiel
Bei http://de.wikipedia.org/wiki/Chi-Quadrat-Test#Homogenit.C3.A4tstest unter "Vorgehensweise" wird ein Beispiel aus der Luft gegriffen. Woher soll ich wissen was "die Sonntagsfrage" ist? Auch die aufgezählten Parteien sind nur aus deutscher (also: "Deutschländischer") Perspektive verständlich. Fazit: Sogar bei einem absolut kultur-freiem Lemma wie der Stochastik gelingt es manchen noch kulturelle Barrieren einzubauen und einen Artikel deutschlandlastig zu gestalten... --Chrugel ¿↔? 10:39, 26. Apr. 2012 (CEST)
Ist "die Sonntagsfrage" analog zum "Sonntagsfahrer" zu verstehen? --Chrugel ¿↔? 18:03, 14. Aug. 2012 (CEST)
Die deutsche Wikipedia enthält Beispiele aus Deutschland? Das ist ja wohl kaum verwunderlich. Und ich bin mir 99,9% sicher, das auch jeder Österreicher und Schweizer das versteht.
--93.218.64.7 22:55, 11. Feb. 2013 (CET)
'Empirische' statt 'erwartete' Häufigkeiten
Im Beispiel für den Chi-Quadrat Unanbhänigkeitstest, in dem Kunden einer Bank nach ihrer Zufriedenheit befragt werden (Kapitel 2.3), scheint ein Fehler zu sein. Statt "man sieht, dass einige erwartete Häufigkeiten zu klein waren" müsste von beobachteten bzw. empirischen Häufigkeiten die Rede sein. (nicht signierter Beitrag von IndiaAlpha007 (Diskussion | Beiträge) 20:45, 19. Nov. 2013 (CET))
Fragen zum praktischen Nutzen des Chi-Quadrat-Homogenitätstests
Ich habe vier unabhängige halbwegs gute Stichproben, mit jeweils genau 220 (und somit ausreichend vielen) Testwerten vorliegen, welche das Vorkommen jedes möglichen Bytewertes auf den vier möglichen Bytepositionen eines 4 Byte großen Zufallswertes separat erfassen. Diese 4 Stichproben müßten theoretisch alle der diskreten Gleichverteilung mit der Erfolgswahrscheinlichkeit von p = 1/256 unterliegen, da ein Byte immer aus genau 8 Bit besteht und daher stets genau 28 = 256 verschiedene Werte annehmen kann. Da hier sämtliche Parameter der angenommenen Verteilung bestens bekannt sind, kann man problemlos mit m = (256 - 0) = 256 Freiheitsgraden arbeiten. Laut Chi-Quadrat-Anpassungstest genügt jede Stichprobe selbst bei einem äußerst ablehnungsfreundlichen Alphawert (alpha = 10% = 0.1) eindeutig der angenommenen diskreten Gleichverteilung, da selbst der größte Chi-Quadratwert der vier Stichproben (also der Chi-Quadratwert der schlechtesten Stichprobe) kleiner als 260 und somit auch kleiner als der bei (alpha = 0.1) und (m = 256) maximal erlaubte Chi-Quadrat von 285.3927 ist.
Stecke ich die selben vier Stichproben in den Chi-Quadrat-Homogenitätstest, erhalte ich einen neuen Chi-Quadratwert von ca. 4*260 = 1040, also kapp über 1000. Die Anzahl der Freiheitsgrade wäre hier aber nur (4-1)*(256-1) = (3*255) = 765. Selbst bei einem äußerst akzeptanzfreundlichen Alphawert von (alpha = 0.1% = 0.001) wäre der maximal erlaubte Chi-Quadratwert dann aber nur 891.5951 und somit kleiner als mein im Chi-Quadrat-Homogenitätstest ermittelter Chi-Quadratwert von knapp über 1000. Es wird also vom Chi-Quadrat-Homogenitätstest trotz eines äußerst akzeptanzfreundlichen Alphawertes behauptet, meine vier Stichproben würden nicht alle der gleichen Verteilung genügen, was aber durch die vorliegenden vier separaten Chi-Quadrat-Anpassungstest selbst bei einem äußerst ablehnungsfreundlichen Alphawert eindeutig widerlegt wird.
Habe ich aber dagegen drei sehr gute Stichproben mit einem Chi-Quadratwert von jeweils nur ca. 150 und eine schlechte Stichprobe mit einem Chi-Quadratwert von ca. 350, welche selbst bei einem äußerst akzeptanzfreundlichen Alphawert eindeutig abzulehnen ist und stecke diese vier Stichproben in den Chi-Quadrat-Homogenitätstest, erhalte ich einen Chi-Quadratwert von ca. 3*150 + 1*350 = 800 < 815.5369. Selbst der ablehnungsfreundlichste Chi-Quadrat-Homogenitätstest (mit alpha = 10% = 0.1) behauptet also, dass alle vier Stichproben angeblich der gleichen Verteilung genügen, obwohl dem definitiv nicht so ist.
Betrachtet man dagegen als entscheidendes Kriterium jeweils nur das Minimum aller Signifikanzwerte (minAlpha) der vorliegenden Stichproben, also das Minimum aller Alphawerte zu denen die zugehörige Stichprobe gerade noch der angenommenen Verteilung genügt, habe ich sowohl im ersten wie auch im zweiten geschilderten Fall (jeweils im Gegensatz zum Chi-Quadrat-Homogenitätstest) immer die richtige Antwort auf die Frage, ob die vorliegenden Stichproben der gleichen Verteilung unterliegen. Ist der minAlpha Wert kleiner als mein vorher festgelegtes Signifikanzniveau (z.B. minAlpha < (fixAlpha = 0.001)), gibt es mindestens eine Stichprobe, die der angenommenen Verteilung nicht entspricht. Ist der ermittelte minAlpha Wert dagegen größer oder gleich dem vorher festgelegten Signifikanzniveau (z.B minAlpha >= (fixAlpha = 0.001)), gibt es keine Stichprobe, die der angenommenen Verteilung nicht genügen würde. Der Rechenaufwand der Minimum-Alpha-Methode ist (im Zeitalter der mathematischen Koprozessoren für reelle Zahlen) im Wesentlichen der selbe, wie im Chi-Quadrat-Homogenitätstest. Außerdem sind alle Alphawerte stets im Bereich zwischen 0 und 1 "normiert" und lassen sich somit miteinander auch dann vergleichen, wenn für die einzelnen Stichproben unterschiedliche Anzahlen an brauchbaren Merkmalskategorien vorliegen und damit ein Chi-Quadrat-Homogenitätstest gar nicht anwendbar wäre.
Welchen praktischen Nutzen hat also ein Chi-Quadrat-Homogenitätstest, wenn er zum einen höhere Anforderungen an die Voraussetzungen stellt, als andere bekannte Verfahren, zum zweiten nicht wesentlich weniger Rechenleistung benötigt, als andere Verfahren und zum dritten definitiv falsche Antworten auf die einzige Frage liefern kann, die er eigentlich stets richtig beantworten soll?
Falls in meinen beispielhaften Berechnungen bzw. Überlegungen irgenwo der Wurm drin sein sollte, zeigt es mir bitte!
Für die Berechnungen der angegebenen Chi-Quadratwerte (bei ablehnungsfreundlichem alpha = 0.1 und akzeptanzfreundlichem alpha = 0.001) habe ich den im Artikel angegebenen Link zur englischen Seite mit den "exakten p-Werten" Chi2WertBerechnung genutzt.
--Aragorn321 (Diskussion) 14:26, 16. Aug. 2014 (CEST)
Chi-Quadrat-Verteilungstest in der Rechtsprechung - Fehlerhafte Darstellung
Es ist nicht ganz korrekt, dass der Chi-Quadrat Test hier im Zusammenhang mit Benford's Gesetz angewendet wurde. Aus der verlinkten Quelle ist ersichtlich, dass eine explizite Gleichverteilung angenommen wird. "Im vorliegenden Falle beruht der Test auf der Annahme, dass die erste und zweite Stelle vor dem Komma und die erste Stelle nach dem Komma bei einer relativ großen Menge von Erfassungen gleich verteilt sind." (S.6, http://elektronische-steuerpruefung.de/rechtspr/fg_chi_quadrat.pdf) Das widerspricht aus meiner Sicht explizit der Annahmen von Benford's Gesetz, was ja eigentlich sagt, dass die Ziffern eben nicht gleichverteilt sind, sondern niedrigere Ziffern häufiger auftreten.