Diskussion:Korrelationskoeffizient
wird bei mir nicht angezeigt. Ich habe das in eine 0 geändert ohne Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle }
ueberarbeiten
Artikel ist immer noch stark überarbeitungsbedürftig. --Philipendula 11:49, 13. Jun 2004 (CEST)
Änderung durch Philipendula
- 1. Wenn man schon Kovarianz und Standardabweichung erwähnt, sollte man sie auch als solche hinschreiben.
- dafür gibt es Hyperlinks. Die Formeln sollten so einfach wie möglich gehalten werden. -- Nichtich 08:33, 27. Jul 2004 (CEST)
- 2. Es ist nicht gesichert, ob der KK nach Pearson der meist verwendetet ist. Da heutzutage in Datenbanken viele rangskalierte Merkmale erfasst sind, wird wohl der RangKK auch häufig verwendet.
- 3. Kleinigkeiten
--Philipendula 14:01, 8. Jul 2004 (CEST)
Normalverteilung Vorraussetzung für Pearson? (1. Diskussion)
Kann mir jemand erklären warum der Produkt-Moment-Korrelationskoeffizeint auf der Annahme basiert, dass eine bivariate Normalverteilung vorliegt? Was ich verstehen würde wären Aussagen wie
- die Bivariate Normalverteilung lässt sich so parametrisieren, dass Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \rho} direkt als Parameter auftritt oder
- Betrachtungen zur Stichprobenverteilung von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \rho} basieren auf der Annahme, dass eine Stichprobe aus einer bivariaten Normalverteilung vorliegt
Dass eine Statistik ein Schätzer für einen Paramter einer Verteilung ist ist doch nicht unabdingbare Voraussetzung für die Interpretation dieser Statistik, wenn es um etwas anderes als Parametertests oder Intervallschätzungen geht.
Als beschreibende Masszahl für die durch den Korrelationskoeffizienten gemessene Eigenschaft (mit allen Bedenken über die Interpretation der Abwesenheit von Korrelation) will es mir nicht gelingen, zu erkennen, wie die bivariate Normalverteilung Voraussetzung für "den Korrelationskoeffizienten" ist.
--kw
---Lieber kw, nach allem, was ich weiß, ist die Forderung einer bivariaten Normalverteilung für die korrekte Ermittlung des KK nach Pearson NICHT erforderlich. Allerdings benötigst Du diese Bedingung DANN, wenn Du Aussagen über die Signifikanz des KK machen willst. Denn die gängigen Signifikanztests beruhen auf der t-Verteilung, die sich auf die NV stützt. Auch wenn Du in Tabellen nachschaust, ob der KK bei den n der Stichprobe signifikant ist, wird die bivariate NV stillschweigend angenommen. In dieser Zwickmühle ist man z.B. bei r = 0,13 bei 200 Datensätzen und Signifikanzniveau 5%. Schon signifikant oder gerade noch nicht ?
Am besten ist es immer, Du machst einen Bootstrap (why the hell did nobody write something about bootstrap yet???) aus Deinen Datensätzen und bildest daraus ein Konfidenzintervall nach Konvertierung in Fisher-Z-Werte. Dann kannst Du die für Deinen Datensatz tatsächliche Signifikanz ermitteln, ohne die bivariate NV postulieren zu müssen. Bezüglich Bootstrap siehe z.B. Google "Bootstrap Efron". Gruß Pard 21:16, 28. Mär 2005 (CEST)
Derzeit vermittelt der Artikel, dass eine Normalverteilung eine notwendige Bedingung für die Berechnung eines KK ist. Das stimmt so natürlich nur eingeschränkt (wie auch oben angemerkt) und ein Student/Studentin, der/die das in der Prüfung so ohne nähere Erläuterung wiedergibt, würde das wohl als Fehler angestrichen bekommen. 78.48.33.13 11:50, 12. Nov. 2008 (CET)
Die Information ist meiner Meinung (und diverser Lehrbucher) so nicht richtig. Weder für die Schätzung der Regressionskoeffizienten, noch für einen Signifikanztest ist eine Normalverteilung der Variabel nötig. Für einen unverzerrten Signifikanztest ist es ausreichend bzw. Voruassetzung, dass die Residuen Normalverteilt sind. Das kann da so nicht stehen bleiben! Verstehe jetzt langsam auch, warum sich dieses Gerücht so hartnäckig hält (TOB).
Habe mir jetzt die Gesamte Diskussion hier durchgelesen und scheinbar hat sich zu dem Thema seit fast einem Jahr nichts mehr getan. Ich bin deshalb zu dem Schluss gekommen, dass ich die Normalverteilungsannahme rausnehme. Finde es besser wenn da gar nichts steht anstatt einer Falschinformation. Wenn mir jemand eine seriöse Quelle nenen kann, die eine Normalverteilung als Voraussetzung anführt, kann man das ja wieder mit reinnehmen.(Tob) (nicht signierter Beitrag von 194.95.119.139 (Diskussion 17:11, 15. Jun. 2010 (CEST))
- Für den Test des Korrelationskoeffizienten ist die bivariate Normalverteilung Voraussetzung, vgl. Rinne (1997), Taschenbuch der Statistik (2. Auflage), Verlag Harri Deutsch, S. 544. --Sigbert 17:54, 15. Jun. 2010 (CEST)
Eben! Sie schreiben es ja. Fur den TEST des Koeffizienten (auf Signizikanz)ist die Normalverteilung Voraussetzung, nicht aber für die Bestimmung des Koeffizienten selber. Der Eintrag stimmt so also nicht und sollte, sofern nicht überarbeitet, entfernt werden (Vgl. Voß (2004), Taschenbuch der Statistik, S. 517). Wir sind doch scheinbar gar nicht so weit auseinander :-) (nicht signierter Beitrag von 78.48.73.102 (Diskussion 09:15, 16. Jun. 2010 (CEST))
- Richtig. Für die Berechnung des KK ist eine Normalverteilung keine Voraussetzung; es ist ja nur eine Maßzahl und für deren korrekte Interpretation ist eher die Frage eines linearen oder nicht-linearen Zusammenhangs relevant. --Sigbert 12:13, 16. Jun. 2010 (CEST)
Grund für Revert
Im Artikel wurde die Formel für den KK rausgelöscht. Ob es Vandalismus oder logisch begründet war, weiß man nicht. Man sollte vielleicht stärker nach Grundgesamtheit und Stichprobe differenzieren und für jeden Falle einen KK angeben. --Philipendula 22:51, 9. Nov 2004 (CET)
Rückstellung meiner Änderungen
Leider besitzt der von dir bevorzugte Artikel ein paar inhaltliche Fehler.
Im Abschnitt "Darstellung" steht: "Stellt man die Korrelation zweier Messreihen...". In der Regel spricht man aber nicht von der Korrelation von Messreihen, sondern von Merkmalen (oder Zufallsvariablen). Ferner: "...so ergibt sich für r=+1 oder -1 das Bild einer Geraden." Was ergibt hier die Gerade? Warum schreibt man nicht, dass es die (im Koordinatensystem abgetragenen) Messwerte sind, welche eine Gerade ergeben... Ich finde, auch der Rest dieses Abschnittes lässt mehr Fragen offen, als er beantwortet (z.B.: "...je mehr Füchse desto weniger Kaninchen.").
Unter dem "Korrelationskoeffizienten" versteht man landläufig die Maßzahl von Pearson. Die angegebene Formel mit den Kovarianzen und Varianzen ist schlichtweg falsch. Hierbei wurden stochastische Elemente (Zufallsvariablen) mit statistisch deskriptiven Elementen (Merkmale) unzulässigerweise miteinander vermischt. Außerdem entsprechen die Faktoren im Nenner nicht den Standardabweichungen, wie im Artikel angegeben.
Die Rangkorrelation nach Spearman ist ein eigenständiges Maß und wird landläufig mit dem Begriff des "Rangkorrelationskoeffizienten" gleichgesetzt. Dieser verdient m.E. einen eigenen Wikipedia-Artikel (ich gebe zu: Der momentan vorhandene Artikel ist unzureichend und stark fehlerbehaftet). Mithin misst der Rangkorrelationskoeffizient nicht den linearen Zusammenhang von Merkmalen, sondern den linearen Zusammenhang derer Rangzahlen. Also passen die Erläuterungen in der Einleitung deines Artikels überhaupt nicht zum Rangkorrelationskoeffizienten.
Grüße, Laiendarsteller, 27.12.2004, 20:50 Uhr MEZ
empirischer kk
Hallo!
Ich denke ich habe einen Fehler in dem Beitrag entdeckt, bin mir jedoch nicht sicher, da es so scheint dass die Autoren in Bezug auf Mathematik mir mehr als haushoch überlegen sind... :-(
Im Rahmen meiner Diplomarbeit, die auch das Thema Korrelation behandelt bin ich auf diesen Beitrag gestossen, und mir ist aufgefallen, dass wenn ich den Koeffizienten per Hand nach der genannten Formel berechnen will ein Ergebnis deutlich größer |1| herauskommt.
Meine (vorsichtige) Kritik:
Die Berechnungsvorschrift für Die Kovarianz beinhaltet vor der Summe den Term 1/(n-1) und die Varianz 1/n. Kann es sein dass diese beiden Formulierungen fälschlicherweise gekürzt oder vergessen wurden?
Falls nicht lasse ich mich auch belehren...
Mfg
- Wenn du die Formel ganz oben meinst: Die stimmt 100 pro. Die 1/n kürzen sich tatsächlich weg. Entweder du nimmst für beide 1/n oder für beide 1/(n-1). Alles Andere ist Kokolores. Gruß --Philipendula 17:14, 24. Mai 2005 (CEST)
Aber die des empirischen Korrelationskoeffizienten ist definitiv falsch: Das "1/n" im Zähler gehört weg, weil sich eben die 1/n oder 1/(n-1) komplett rauskürzen! Gruß, dm
- gudn tach!
die formel wird wohl aus didaktischen gruenden(?) immer mit den faktoren geschrieben, obwohl sie sich herauskuerzen. der lesbarkeit halber schlage ich vor, (n-1) durch n zu ersetzen. einwaende? -- 141.3.74.36 19:06, 22. Jul. 2007 (CEST)
- Ja ich habe Einwände. Entweder schreiben wir es richtig (1/(n-1) oder das raus gekürzte. Kleines Bsp: Statt 1/(n-1) Pi zu schreiben wäre noch einfacher, aber würde das Verständnis mindern. Und genau so ist es mit n statt n-1. Wenn es schon einfacher werden soll, dann könnte statt dessen vorher eine Formel sein: m = n-1 und die Formel durch 1/m ersetzt werden. Eine falsche Formel schadet dem Ansehen des WP Projekts und ich bin mir sicher, dass, wenn ein Schüler die falsche Formel verwendet, er Punkteabzüge bekommt (bin mir sicher, weil ich schon mal deshalb eine Diskussion mit einem Uni Prof hatte). --Krasnoj 11:33, 19. Aug. 2007 (CEST)
- klar, pi zu schreiben waere lustig und nicht falsch, aber doof, da sind wir uns einig. in meinem stochastik-II-buch steht die formel aber bspw. mit 1/n. wenn ein lehrer wegen sowas punktabzug geben wuerde, waere das ein fehler des lehrers (selbst bei pi).
- aber artikel wie Stichprobenvarianz scheinen dir recht zu geben, dass es eher so definiert wird. kannst es im artikel ruhig wieder zurueckaendern. -- seth 12:37, 19. Aug. 2007 (CEST)
- Sorry für die Änderung, hätte wohl erst in die Diskussion gucken sollen. Ich stimme Krasnoj eigentlich zu. Will man die Brüche aus didaktischen Gründen lassen, müsste man 1/(n-1) schreiben --- denn so ist die Stichprobenvarianz nunmal definiert. Mir liegt hier die 14. Auflage des unten referenzierten Buches von Hartung vor und dort werden die Brüche weggelassen. Mein Vorschlag zur Güte: Die Formel zuerst mit Varianz/Kovarianz schreiben, diese dann einsetzen und dann die Brüche kürzen. Damit wäre die Herleitung klar und man hätte am Ende eine vereinfachte Formel, mit der man gut rechnen kann. --Rabus 12:13, 10. Jan. 2008 (CET)
- Yep --Philipendula 13:29, 10. Jan. 2008 (CET)
- Vieleicht noch einen Satz: "Die Brüche kürzen sich weg" oder so... halt das was für einen Mathematiker "trivial" ist --source 13:58, 10. Jan. 2008 (CET)
rechtssteil
was ist "rechtssteil unimodular"? -- 129.13.72.153 17:48, 29. Mai 2006 (CEST)
- "modular" scheint mir kaes zu sein. gemeint war vermutlich "modal", siehe engl. (en:Unimodal_distribution). hab's einfach mal frech geaendert. -- 141.3.74.36 13:52, 27. Okt. 2006 (CEST)
Beispiele
Durch beispielhafte Berechnungen könnte der Artikel weiter aufgewertet werden. FlYnSt4r 21:17, 1. Jul 2006 (CEST)
äh - geht das auch einfach? 20.07.06
Hallo. Ich frage mich, ob ich auch ohne Mathestudium un der Lage bin, einen Korrelationskoeffizienten für 2 Zeitreihen mit Merkmalsausprägungen (von 1-4) zu bestimmen? Ich habe im Artikel gelesen, dass "Zwischen den Variablen x und y wird ein linearer Zusammenhang vorausgesetzt" wird. Was genau bedeutet das für meine Merkmalsausprägungen? Sie müssen sich ähnlich entwickeln (von 1 zu 4)?
Oh manno.
Gruß
K.
Ohne Mathestudium schaut man beispielsweise in das Wikibook b:Statistik: Korrelationsanalyse --Philipendula 17:57, 27. Okt. 2006 (CEST)
Die Antwort auf K. halte ich für unbefriedigend. Wikipedia ist als Enzyklopädie an halbwegs gebildete Menschen gerichtet. Die Antwort besagt expressis verbis, dass zum Verständnis des Artikels gleich ein Studium notwendig ist. Sowie der Artikel in einer wissenschaftlichen Abhandlung brilliant sein mag, so nutzlos ist er in einer Enzyklopädie. Wikipedia ist kein Ort, um mit Fachwissen zu brillieren, sondern um Menschen Dinge begreiflich zu machen. Das ist hier grundsätzlich verfehlt.
92.224.192.50 17:06, 21. Feb. 2010 (CET)
- 1) Bei zwei Merkmalsausprägungen geht das ganz einfach: Du weist dem einen Merkmal die Zahl 0 zu und dem anderen die Zahl 1. Dann berechnest du den Korrelationskoeffizienten so, wie er dort angegeben ist. (Das Sigma-Zeichen ist ein Summenzeichen und bedeutet, dass du alle Möglichkeiten, wie dort angegeben addierst.)
- Bei mehr als zwei Merkmalsausprägungen wird das ganze schon komplizierter. Da rate ich dir eher zu einem Chi-Quadrat-Test.
- 2) Linearer Zusammenhang bedeutet, dass, wenn du alle Werte in einem Plot einträgst, du "ungefähr" eine Gerade durchziehen kannst. Das heißt, wenn x und y deine beiden Variablen sind, dann besteht näherungsweise folgender Zusammenhang: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y =a*x + b}
- Ich werde das bei Gelegenheit in die Wikipedia einbauen. --Eulenspiegel1 00:29, 23. Feb. 2010 (CET)
Verschiebung
Der Artikel behandelt nur einen einzigen Korrelationskoeffizienten. Er wird seinem Titel somit nicht gerecht. Ich finde der Artikel sollte nach Pearson-Moment-Korrelation verschoben werden. Eine Weiterleitung würde ich selbstverständlich einrichten.
Was meint Ihr dazu?
Falk Lieder 11:18, 30. Dez. 2006 (CET)
- Grundsätzlich ja. Wie wäre es mit dem Lemma: Korrelationskoeffizient nach Bravais-Pearson? Wir wollen doch den guten alten Bravais nicht immer unter den Tisch fallen lassen. --Philipendula 13:27, 30. Dez. 2006 (CET)
- solange die anzahl an kks samt der zugehoerigen texte noch ueberschaubar bleibt, bin ich der meinung, alles unter einem dach abzuhandeln. der korrelationskoeffizient, wie er hier beschrieben wird, ist nun mal der gaengige, wie er wohl in den meisten einfuehrenden wahrscheinlichkeitstheoretischen buechern zu finden sein wird; oft ohne die nennung von pearson oder sonstwem. -- 141.3.74.36 19:14, 22. Jul. 2007 (CEST)
Redundanz-Vorschlag von IP (aus dem Artikelkopf)
Moin, moin miteinander. Ich denke die Artikel Korrelation und Korrelationskoeffizient gehören zusammen und sollten zusammengeführt werden. Ich bin mir nicht ganz sicher ob die beiden Artikel aus fachlich- mathematischer Sicht auch wirklich zusammengehören, aber ich glaube schon das ein paar Leser dazu mehr sagen könnten. Es wäre nett, wenn du bei der Überarbeitung und Zusammenführung mithelfen könntest. Danke. --84.177.77.208 16:25, 6. Mär. 2008 (CET)
- So etwas gehört in die Diskussion und ganz sicher nicht in den Artikel! (nicht signierter Beitrag von 83.180.106.66 (Diskussion) 14:57, 25. Mar 2008)
Intervallniveau und dichotom??
Tach, da kann aber was nicht stimmen:
[quote] Der Pearsonsche Korrelationskoeffizient liefert korrekte Ergebnisse bei intervallskalierten und bei dichotomen Daten. Für niedrigere Skalierungen existieren andere Korrelationskonzepte (z. B. Rangkorrelationskoeffizienten).[/quote]
1) wie kann eine Skalierung gleichzeitig intervallskaliert und dichotom sein?? Das schließt sich ja aus. 2) Pearsons r ist m.E. auf gar keinen Fall auf dichotome Merkmalsausprägungen anwendbar, da für das r die intervallskalierung Voraussetzung ist. Dazu siehe wieder 1)
Oder weiß da jemand mehr?? Grüße
- Es wurde schon vor urdenklichen Zeiten von einer IP eingepflegt. Vielleicht hatte sie ja metrisch, aber diskret gemeint. Ich hab es schon lange satt, solchem Quark hinterherzuräumen. -- Philipendula 10:19, 15. Sep. 2008 (CEST)
- Der KK kann für metrische skalierte Variablen benutzt werden und dass schliesst ja intervallskalierte Daten ein. Und bei metrischen Daten spielt es keine Rolle, ob sie diskret sind oder nicht; es kommt nur darauf an, ob die Distanzen zwischen Merkmalsausprägungen sinnvoll zu interpretieren sind. Für dichotome Merkmale sollte andere Koeffizenten benutzt werden, z.B. Cramer's V oder der Phi Koeffizient. --Sigbert 06:47, 21. Sep. 2008 (CEST)
Ich denke, dass die Aussage stimmt. Ein zweigestuftes (dichotomes) Merkmal ist automatisch auch intervallskaliert. Deswegen führt die Anwendung der Produkt-Moment-Korrelation auf zwei zweigestufte Variablen auch zum selben Ergebnis wie der Phi-Koeffizient. Zumindest habe ich das mit Hilfe einer Tabellenkalkulation gerade ausprobiert, da sich die selbe Frage für mich bei der Kuder-Richardson-Formel gestellt hat, die das Äquivalent zu Cronbachs Alpha für dichotome Items darstellt. Auf Nachfrage bei mir kann ich euch die Tabellenkalkulation gerne zuschicken. Bortz, J. (1999) Statistik für Sozialwissenschaftler. Berlin: Springer schreibt auf S.218: „...Diese Äquivalenz trifft auch auf die dichotomen y-Werte zu, so dass sich die Produkt-Moment-Korrelation für Alternativdaten zu folgender Berechnungsvorschrift [dem Phi-Koeffizient] vereinfacht“. Der Phi-Koeffizient scheint also lediglich ein Spezialfall der Produkt-Moment-Korellation für zwei dichotome Items zu sein. Allerdings gibt es wohl noch eine Besonderheit bezüglich dem Wertebereich des Phi-Koefizienten, worauf Bortz auf S. 219 hinweist. Ich denke eine Herleitung des Phi-Koeffizienten aus der Produktmoment-Korreltion könnte zu günstigerer Stunde gelingen. --Christian stroppel 00:47, 19. Jan. 2009 (CET)
Bildbeschreibung fehlt bei [[Bild:part_korrelation.PNG]]
Der Artikel enthält ein Bild, dem eine Bildbeschreibung fehlt, überprüfe bitte, ob es sinnvoll ist, diese zu ergänzen. Gerade für blinde Benutzer ist diese Information sehr wichtig. Wenn du dich auskennst, dann statte bitte das Bild mit einer aussagekräftigen Bildbeschreibung aus. Suche dazu nach der Textstelle [[Bild:part_korrelation.PNG]] und ergänze sie.
- Wenn du eine fehlende Bildbeschreibung ergänzen willst, kannst du im Zuge der Bearbeitung folgende Punkte prüfen:
- Namensraum Datei: Bilder sollte im Namensraum Datei liegen. Bitte ändere die alten Bezeichnungen
Bild:
undImage:
inDatei:
. - Skalierung: Außerhalb von Infoboxen sollten keine festen Bildbreiten (zum Beispiel 100px) verwendet werden. Für den Fließtext im Artikelnamensraum gibt es Thumbnails in Verbindung mit der automatischen Skalierung. Um ein Bild/eine Grafik in besonderen Fällen dennoch größer oder kleiner darzustellen, kann der „upright“-Parameter verwendet werden. Damit erfolgt eine prozentuale Skalierung, die sich an den Benutzereinstellungen orientiert. --SpBot 23:12, 1. Mär. 2009 (CET)
- Namensraum Datei: Bilder sollte im Namensraum Datei liegen. Bitte ändere die alten Bezeichnungen
Interpretation des KK
Habe den Beitrag über Peter Zöfel entfernt. Diese Handbücher sind keine wissenschaftlichen Werke, sondern lediglich SPSS-Handbücher für Leute, die zwar SPSS anwenden wollen, aber sonst keine Lust haben, sich tiefere Kenntnisse in Statistik anzueignen. Ab wann ein Korrelationskoeffizient niedrig oder hoch ist, liegt im Auge des Betrachters. In der Marktforschung kann ein Korrelationskoeffizient von 0,6 schon als sehr hoch angesehen werden, ein Ökonometriker zuckt erst ab 0,9 mit der Wimper. -- Philipendula 21:14, 31. Mär. 2009 (CEST)
Normalverteilung Vorraussetzung für Pearson?
Der Satz: "Die Schätzung der Korrelation mit dem Korrelationskoeffizient nach Pearson setzt voraus, dass beide Variablen intervallskaliert und NORMALVERTEILT sind" ist meiner Meinung nach nicht korrekt. Normalverteilung ist keine Vorraussetzung für die Pearson Korrelation, da diese ledigliche eine normierte Kovarianz (Mittleres Rechteck der Abstände in Y- und Y- Richtung) ist und mit Verteilungen rein gar nichts zu tun hat. Bestenfalls setzen einige dazugehörige Signifikanztests Normalverteilung Vorraus, die Pearson-Korrelation selbst jedoch nicht. Bitte überprüfen und korrigieren. (nicht signierter Beitrag von 212.100.250.230 (Diskussion | Beiträge) 01:39, 5. Jul 2009 (CEST))
Denselben Gedanken hatte ich auch schon. Lediglich der Signifikanztest, setzt meiner Meinung nach Normalverteilung vorraus. Er überprüft die Wahrscheinlichkeit mit der die gefundene Korrelation zufällig aus einer Population stammen könnte, bei der die Korrelation zwischen zwei "normalverteilen" Valiablen 0 ist. Die empierisch gefundene Korrelation ist ein rein deskriptives Maß, nämlich das durchschnittliche Produkt der beiden z-standardisierten Werte. Z-standardisieren kann man natürlich auch nciht normalverteilte Variablen. Dennoch bedürfte es zu Absicherung dieses Gedankengangs noch einer Quelle!--Christian Stroppel 11:30, 31. Jul. 2009 (CEST)
Ich habe gerade entdeckt, dass das selbe schon oben Diskitiert wurde und die Überschrift Normalverteilung Vorraussetzung für Pearson? (1. Diskussion) nachgetragen.--Christian Stroppel 00:16, 11. Aug. 2009 (CEST)
Korrelation der Stichpobe/der Population
In der Versionsgeschichte fällt auf, dass in der Formel abwechselnd die Formel verändert wird. Einmal wird durch n geteilt, dann wieder durch n-1. In der Literatur finden sich gaube ich auch unterschiedliche Formeln. Da n-1 sich auf die korrigierte Schätzung der Populationssteuung bezieht, ist anzunehmen, dass man je nachdem durch n oder n-1 zu teilen ist. Was denkt ihr? Kennt ihr Quellen die sich dazu äußern? --Christian Stroppel 11:30, 31. Jul. 2009 (CEST)
- Das hängt zumindest beim Pearson-Rangkoeffizienten damit zusammen, ob der Erwartungswert bekannt ist oder nicht. Wenn der Erwartungswert bekannt ist, teilt man durch n. Wenn der Erwartungswert unbekannt ist und geschätzt werden muss, teilt man in der Regel durch n-1, damit die Formel erwartungstreu ist.
- Für den Pearson-Korrelationskoeffizienten ist das aber völlig irrelevant, da sich das 1/n sowieso rauskürzt. --Eulenspiegel1 10:21, 16. Jun. 2010 (CEST)
Schreibweise im Deutschen: .80 oder 0,8?
Die Diskussion findet ihr hier:Diskussion:Reliabilität#.08_versus_0.2C8--Christian Stroppel 11:30, 31. Jul. 2009 (CEST)
- In D schreibt man immer noch 0,8, auch wenn das manche nicht so cool finden. -- Philipendula 12:13, 31. Jul. 2009 (CEST)
- Kennst du Bücher oder Veröffentlichungen in denen es so ist? In der obengenannten Diskussion findet man, dass es noch viele Artikel in Wikipedia gibt, in denen der Punkt verwendet wird.--Christian Stroppel 20:22, 31. Jul. 2009 (CEST)
- Jedes popelige Sadistiklehrbuch verwendet die Kommaschreibung, das ist der Standard in der deutschen Rechtschreibung. -- Philipendula 22:28, 31. Jul. 2009 (CEST)
- Popeliges Statistiklehrbuch? Deine Wortwahl macht keine Hoffnung auf eine fruchtbare Diskussion, sondern eher den Anschein von mangelnder Wertschätzung für die Äußerungen anderer. Ich sehe im Moment auch kein richtiges Argument dafür, warum man die Diskussion hier und nicht wie oben angegeben unter der Diskussion Reliabilität führen sollte.--Christian Stroppel 17:53, 9. Aug. 2009 (CEST)
- Jedes popelige Sadistiklehrbuch verwendet die Kommaschreibung, das ist der Standard in der deutschen Rechtschreibung. -- Philipendula 22:28, 31. Jul. 2009 (CEST)
- Kennst du Bücher oder Veröffentlichungen in denen es so ist? In der obengenannten Diskussion findet man, dass es noch viele Artikel in Wikipedia gibt, in denen der Punkt verwendet wird.--Christian Stroppel 20:22, 31. Jul. 2009 (CEST)
Die weitere Diskussion erfolgt besser an geeigneterer Stelle: Wikipedia_Diskussion:Schreibweise_von_Zahlen#Schreibweise_statistischer_Kennwerte_in_Sozialwissenschften
-- Christian Stroppel 00:20, 5. Sep. 2010 (CEST)
Kommentar zu der Änderung 80033638 von 178.198.1.186
Folglich wurde hier gezeigt, dass eine Korrelation (ein beobachteter Zusammenhang) immer auf den Einfluss einer oder mehrerer Drittvariablen zurückgeführt werden kann. (In solchen Fällen kann nur ein Experiment sicherstellen, dass tatsächlich eine Ursachenwirkung und mithin eine "echte" Korrelation besteht.)
- 1. Zunächst setzt dies die Existenz einer dritten oder weiterer relevanten Variablen voraus.
- 2. Wenn von Einfluß gesprochen wird, dann wird eine Kausalrichtung impliziert ausgehend von einer dritten Variable. Es geht hier aber um Korrelation und nicht um Kausalität. Statt die partielle Korrelation von X und Y bereinigt um U, könnte man auch die partiellen Korrelationen von Y und U bereinigt um X bzw. die partielle Korrelation von X und U bereinigt um Y betrachten. Partielle Korrelation hat also per se nichts mit Kausalrichtungen zu tun; erst durch die Betrachtung nur bestimmter partieller Korrelationen (und nicht aller möglichen) legt der Forscher Kausalrichtungen fest.
- 3. Auch ein Experiment kann die Kausalrichtung letztlich nicht immer festlegen, korrekterweise sollte man hier auf die Sachlogik verweisen.
In der Forschung interessiert dem gegenüber oftmals die umgekehrte Situation. Zwischen X und Y besteht KEINE Korrelation. Man möchte aber zeigen, dass diese dann vorliegt, wenn Drittvariablen berücksichtigt werden.
- 4. Für so eine Aussage wäre ein Beispiel definitiv hilfreich.
- --Sigbert 18:32, 8. Okt. 2010 (CEST)
Zusammenhang zwischen Pearson-Korrelationskoeffizient und Empirischer Korrelationskoeffizient
Besteht ein Zusammenhang zwischen dem Pearson-Korrelationskoeffizient und dem Empirischer Korrelationskoeffizient? Wenn ja, welcher? --MartinThoma 17:34, 14. Jan. 2012 (CET)
- Ja, es ist beides Mal der Bravais-Pearson Korrelationskoeffizient. Einmal für Zufallsvariablen definiert und einmal für zwei Meßreihen definiert. --Sigbert 15:46, 15. Jan. 2012 (CET)
spinn ich oder wie jetzt?
Linearitätsbedingungen:
also Leute ich bin echt die Oberschnarchnase bei solchen Dingen aber mir ist da etwas komisch vorgekommen: im oben genannten Abschnitt wird ein r von 0.20 (bzw ein r^2 von 2^2)als 4 % dargestellt. Meines Wissens bedeutet 1,0 ja 100 %, dementsprechend würden dann ein r von 0.20 ja wohl eher 40% der Varianz erklären oder nicht?
Aber wie gesagt ich kenn mich da nicht aus. (nicht signierter Beitrag von 193.5.56.43 (Diskussion) 11:26, 17. Aug. 2012 (CEST))
- Wenn r = 0.20 ist, dann ist das Bestimmtheitsmaß r² = 0.2 · 0.2 = 0.04, also 4 % der Varianz werden erklärt. -- HilberTraum (Diskussion) 16:47, 17. Aug. 2012 (CEST)
Abschnitt "Quadrantenkorrelation" bedarf einer sprachlichen Überarbeitung
Beim Lesen des im Betreff erwähnten Abschnitts ist mir aufgefallen, dass die sprachliche Qualität arg dürftig ist. Zusätzlich erscheint mir der Teil etwas knapp. Ich möchte aber auch nichts (sinnentstellend) ändern, da ich mich nicht gut genug auskenne. Vielleicht fühlt sich hierdurch jemand mit mehr Kompetenz auf diesem Gebiet berufen?! (nicht signierter Beitrag von 130.83.199.121 (Diskussion) 16:21, 19. Mär. 2014 (CET))
Mathepedia?
Der Korrelationskoeffizient ist in allen meinen Statistikbüchern einfacher dargestellt. Statistikbücher sind ja schon was für Spezialisten. Hier wird Korrelationskoeffizient nur mathematisch beschrieben. Das gehört m.E. nicht in Wikipedia, ich schlage ein Mathepedia vor für Leute, die etwas auf der Basis von Formeln verstehen wollen. Ein Lexikon dagegen sollte anschaulich erklären, in einer Sprache, die alle verstehen.--PPilz (Diskussion) 09:31, 8. Dez. 2015 (CET)
Siehe auch
- Faktorenanalyse
- Kontingenztafel
- Korrelation
- Korrelationsgrad
- Streudiagramm
- Transinformation
- Zusammenhangsmaß
Nach welcher Systematik wurden die zusammengestellt? --Siehe-auch-Löscher (Diskussion) 08:37, 6. Okt. 2014 (CEST)
- Habe mal ein paar Begriffe rausgenommen. --Sigbert (Diskussion) 21:59, 7. Okt. 2014 (CEST)
Produkt-Moment-Korrelation
Im Artikel wird leider nicht erklärt, woher diese Bezeichnung rührt. Weiß da evtl. jemand weiter?--Hubon (Diskussion) 20:50, 19. Dez. 2016 (CET)
- @Hubon:Das liegt daran dass der Korrelationskoeffizient mit der Varianz darstellt wird, welches ein Moment (Stochastik) darstellt. Im Nenner befindet sich dann das Produkt der Momente (der Varianzen). Grüße. --JonskiC (Diskussion) 11:18, 20. Apr. 2017 (CEST)
Konstruktion des Korrelationskoeffizienten für Zufallsvariablen
Es fehlt leider ein Absatz zur Konstruktion des Korrelationskoeffizienten für Zufallsvariablen.--JonskiC (Diskussion) 00:47, 25. Okt. 2017 (CEST)
Urheber?
Laut dem Buch "Statistik verstehen" von W. Krämer" wurde der Korrelationskoeffizient von Francis Galton entdeckt und von "Bravais und Pearson" populär gemacht.
"Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X = aY + b} fast sicher"
In dem Artikel Abschnitt "Eigenschaften" wurde gesagt, durch Optimieren, kommt man auf "Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X = aY + b} ". Das ist meiner Meinung nach nicht richtig. Ich habe es korrigiert aber dann wurde die Korrektur rückgängig gemacht. Hier nochmal, wie ich drauf gekommen bin: Ohne Einschränkung ist Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle E(X) = 0} und . Dann ist Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle E((X - aY)^2)} eine quadratische Formel in Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a} . Man macht sich klar, dass nur ein Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle a} in Frage kommt für Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle E((X - aY)^2) = 0} . Die Diskriminante ist Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle 4 \sigma_x^2 \sigma_y^2 (Korr(X, Y)^2 - 1)} . Sie wird genau dann Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle 0} , wenn Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle |Korr(X, Y)| = 1} . Insbesondere gilt für ein , Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle E((X - aY)^2) = 0} . Daraus folgt aber die Behauptung. So, ich sehe hierdrin keine Optimierung. Ich wäre dankbar, wenn mir jemand auf die Sprünge hilft. Wenn sich keiner meldet, werde ich weiterhin korrigieren.
KK nach Ferdinand Tönnies
In der Artikel-Einleitung wird ein Korrelationskoeffizient nach Ferdinand Tönnies ohne Nennung einer Quelle erwähnt. Mit der Suchmaschine meines Vertrauens findet man wie so oft zwar ebenfalls die Information, dass es einen Korrelationskoeffizienten nach Tönnies gibt, aber nicht (jedenfalls nicht so ohne Weiteres), wie er aussieht (Definition). Ich würde mir bei Nennung des KKs nach Tönnies einen weiterführenden Link wünschen, der auf eine Seite führt, die eine Definition desselben enthält.
Damit kein falscher Eindruck entsteht: Ich bin ein großer Fan von der Nennung dieses KKs. Meinetwegen dürfte es gerne auch einen Abschnitt mit einer Liste verschiedener KKs geben -- dort sollten sie allerdings nicht nur erwähnt, sondern auch definiert sein.--Nix schlecht (Diskussion) 14:29, 31. Dez. 2019 (CET)
Standardisiert
Im Artikel wird Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle X/\sigma_X} als die standardisierte Variabele betrachtet. Das stimmt aber nicht mit der Definition im Lemma Standardisierung (Statistik). Madyno (Diskussion) 21:45, 30. Jan. 2020 (CET)
- Ja stimmt eigentlich, aber eine Verschiebung ändert die Korrelation nicht. Ich habe mal versucht, den Abschnitt etwas umzuformulieren. Grüße -- HilberTraum (d, m) 21:59, 30. Jan. 2020 (CET)
Lemma
Da es eine Reihe von Korrelationskoeffizienten gibt: Inwiefern wäre es sinnvoll hier als Lemma Bravais-Pearsonscher Korrelationskoeffizient oder Pearsonscher Korrelationskoeffizient zu verwenden und Korrelationskoeffizient als Überblickslemma über verschiedene Korrelationskoeffizienten einzurichten.--Jonski (Diskussion) 20:01, 13. Mai 2020 (CEST)
Definitionen: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sigma_{X,Y}}
Was bedeutet der Ausdruck Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \sigma_{X,Y}} ? Sigma ist ja eigentlich in der Statistik die Standardabweichung, aber normalerweise nur für einen Vektor... TiHa (Diskussion) 19:15, 3. Nov. 2020 (CET)