Diskussion:Diskriminanzanalyse/Archiv/1

aus Wikipedia, der freien Enzyklopädie

Varianzanalyse und Diskriminanzanalyse

Varianzanalyse und Diskriminanzanalyse sind zwei verschiedene Seiten der Medaille. Im univariaten Fall ist die Diskriminanzfunktion gerade identisch mit dem Quadrat der t-Statistik. Ich würde eher gerade die Interdependenz betonen. Weiterhin sollte erwähnt werden, daß im Falle normalverteilter Populationen die Fishershe Diskriminanzfunktion sowohl mit der Bayes-Diskriminanzfunktion als auch mit der Maximum-Likelihood-Diskriminanzfunktion übereinstimmt. übereinstimmt (Anderson: Multivariate Statistics o.ä.). (RL)

Der Artikel enthält teilweise Inhalte, die zur Varianzanalyse gehören und wahrscheinlich gibt es weitere Überschneidungen. Besser an einer Stelle gut erklärt als an mehreren Stellen nur halb gut. Thematische Doppelungen sind auch schlecht zu warten. Die Bilder und Beispiele sind aber toll. Es sollte nur noch ein bischen gestrafft werden. -- Nichtich 09:49, 27. Jul 2004 (CEST)

Deiner Meinung bin ich nicht. Die klassische VA und DA gehören gemeinsam zu einer Klasse von Verfahren, den sog. linearen Verfahren, die man i.a. als y = a + bx beschreiben könnte, wobei sowohl x als auch y Matrizen sein können. Sie unterscheiden sich folgendermaßen:

Bei der VA ist y eine metrische Variable und x kategoriale Dummyvariable als Platzhalter für den Einfluss eines Faktors. Beispiel: x1 ist Farbe eines Regals und x2 ist Stärke der Beleuchtung. y ist Absatz von Kaffeepaketen. Man fragt hier, wieviel Einfluss haben der Faktor Farbe und Beleuchtung jeweils auf den Absatz?

Bei der DA sind die x metrische Variablen und y ist nominalskaliert. y bezeichnet die Zugehörigkeit eines Objekts zu einer Gruppe. Man fragt hier: Kann ich y mit Hilfe von x vorhersagen. Beispiel: y ist eine Schiffsklasse (Schlachtschiff, Zerstörer, Kreuzer) und x sind etwa Länge, Breite, Tiefgang, BRT. Frage: Zu welcher Schiffsklasse gehört ein Schiff mit bestimmten Maßen? (Mag dieses Beispiel künstlich sein, gibt es tatsächlich eine ähnliche Anwendung in den GIS: Wenn per Satellit im Meer eine Ölverschmutzung entdeckt wird, versucht man mit Hilfe der Daten, die der Satellit von Schiffen in der Nähe erfasst, den vermutlichen Verursacher zu finden, etwa ist dieses Schiff eher ein Containerschiff oder Tanker? usw.).

Was Dich vielleicht zur Annahme der Ähnlichkeit gebracht hat, war die Verwendung des Begriffs Varianz. Varianz ist allerdings ein formales Maß für den Gehalt an Information. Hat ein Merkmal eine große Varianz, streut es stark, es steckt also viel Information in den einzelnen Daten. Mit Varianzen hat man es in linearen Verfahren immer zu tun: In der Regressionsanalyse und eigentlich auch der VA wird die Varianz der Residuen minimiert, in der DA maximiert man die Varianz zwischen den Gruppen, in der Faktorenanalyse wird die Gesamtvarianz der Daten auf die einzelnen Hauptachsen aufgeteilt usw.

(Eigentlich könnte man fast daraus einen Artikel über Lineare Verfahren machen.) DA ist nicht einfach zu erklären. Wenn man zu lakonisch ist, bleibt die Beschreibung unverständlich. Ich kenne jemanden, der hat eine Dissertation über dieses Thema geschrieben und hat trotzdem eigentlich nie gewusst, was er da macht. In der Hoffnung, dass der Artikel DA einigermaßen ungerupft bleibt --Philipendula 10:57, 27. Jul 2004 (CEST)

Das VA und DA zwei unterschiedliche Dinge sind ist mir schon klar. Teile des Artikels und die Beispiele könnten aber genauso gut unter Varianzanalyse, Mahalanobis-Distanz, Bayes-Klassifikator etc. stehen. Deine Bilder machen das ganze schon ziemlich anschaulich (schade nur, dass man Bilder so schlecht bearbeiten kann, sonst würde ich noch die Trennfläche der Diskriminanzfunktion hinzufügen). Was mir immer wieder in der Wikipedia aufstösst ist, dass zwar einzelne Artikel (wie dieser) ganz gut sind, man aber beim Weiterblättern in verwandten Artikeln auf lauter Ungereimtheiten und Unklarheiten stösst. Die unterschiedliche Benennung von Variablen ist nur eine Kleinigkeit. Besser einheitliche kurze aber klare Artikel mit Beispielen und Verweisen untereinander, zwischen denen man hin und her springen kann als komplexe Lehrbuchartikel, die alles nochmal von vorne Erklären und dabei sogar verschiedene Terminologien benutzen. Da ich noch nicht so tief in der Materie stecke, werde ich mich mit dem auseinanderrupfen des Artikels aber erstmal zurückhalten ;-) -- Nichtich 12:17, 28. Jul 2004 (CEST)

P.S: Eine der Gründe, warum ich die Wikipedia so interessant finde, ist ihre hochgradige Transdisziplinarität. Beispielsweise wird die Diskriminanzanalyse in unterschiedlichsten Bereichen eingesetzt, so dass dieser Artikel am Ende u.A. für den Statistiker, Geowissenschaftler, Wirtschaftswissenschaftler, Informatiker und interessierten Laien passend sein muss.

gepoolte Kovarianz

Wird im Text erwähnt aber nicht erklärt. Was ist das?

Der gewichtete Durchschnitt der gruppenspezifischen Kovarianzmatrizen. --Philipendula 14:27, 28. Jul 2004 (CEST)

Manchmal bin ich so müde... ;-)

Was jetzt einzelne Teile des Artikels bei VA zu suchen hätten, ist mir nicht ganz klar. Die Mahalanobisdistanz wird natürlich immer da erwähnt, wo sie als Distanzmaß auch gebraucht wird, z.b. in der DA oder auch in der Clusteranalyse.

Der Artikel mit dem Bayesschen Klassifikator trifft das Problem nicht ganz. In der DA unterscheidet man, ob man gleiche oder verschiedene Gruppengrößen hat. Was Du angegeben hast, könnte auch auf den Maximum-Likelihood-Klassifikator bei gleicher Gruppengröße zutreffen.

Die grafische Darstellung der Diskriminanzfunktion habe ich mit Absicht unterlassen, denn ich persönlich bevorzuge die Distanzen. Wenn man nämlich mehr als zwei Gruppen hat, erhält man immer einen Zoo aus Diskriminanzfunktionen, was dann das Ganze wieder schwerfällig macht.

Ich mag es eigentlich nicht so gern, wenn ein Thema in 100 Fragmente zerfällt, von denen dann meisten 50% so schlecht geschrieben sind, dass sie für den gesamten Kontext unbrauchbar sind. An ein bisschen Redundanz ist noch niemand gestorben. Es handelt sich ja hier um eine Enzyklopädie und nicht um ein Glossar. Auch die exzellenten Artikel zeichnen sich durch epische Breite aus, hier stört sich kein Mensch an Redundanz.

Was die Einheitlichkeit der Symbolik anbelangt, wäre das sicher toll. Aber wer soll hier seine Güter aufgeben? Teilweise unterscheiden sich die Bezeichnungen schon in den unterschiedlichen Disziplinen, und jeder findet seine eigene supi. Ich auch.

Eigentlich könntest Du Dich doch beispielsweise mal kreativ austoben, indem Du etwa einen Artikel über Multidimensionale Skalierung schriebest, die passt auch in das gesamte Konzept. Oder LISREL, oder k-nächste Nachbarregel in der DA oder... Die Wikigemeinde würde Dir die Füße küssen.

Nix für ungut :-))) --Philipendula 14:32, 28. Jul 2004 (CEST)

Intra/Intergruppenvarianz

Vielleicht waere eine genauere Bestimmung dieser Begriffe angebracht - die Bilder machen zwar sehr schoen klar, woraufs ankommt, aber nicht was dann die tatsaechliche in Formeln gefasste (oder meinethalben auch in konkrete Begriffe) Definition ist... Ansonsten hab ich, allerdings erst nach einiger Link-Verfolgung viel durch den Artikel gelernt, also jedenfalls Dank deMN VerfasserN! Pirogo - 2004-10-09-16:33

Hast Du recht. Könnte man sogar in einem eigenen Artikel machen, weil diese Vorgehensweise in mehreren Verfahren Anwendung findet. --Philipendula 17:46, 9. Okt 2004 (CEST)

Zahlen-Beispiel korrekt?

Ich bin gerade dabei mir DA anzueignen und mir ist es nicht gelungen das Zahlenbeispiel am Ende nachzuvollziehen. Die berechneten Kovarianzen und Mittelwerte stimmen, aber die erzielten Faktoren in f(x) sind in meiner Rechnung ungefähr doppelt so groß wie die im Beispiel. Eventl. liegt es auch an einem Fehler in meiner eigenen Rechnung. Verwendet habe ich die folgende Funktion:

icefreshDC 16:09, 22. Juni 2010 (CEST)

Samenbeispiel korrekt ?

Ist das erste Beispiel (Samenbeispiel) korrekt? So wie ich es bisher verstehe, müsste bei einem X=10 eine Zuordnung zur zweiten Gruppe stattfinden, da die Distanz zum Gruppenmittelwert geringer ist. Weiss es jemand genau? (nicht signierter Beitrag von 46.14.198.82 (Diskussion) 18:33, 15. Nov. 2013 (CET))

Likelihood und Wahrscheinlichkeitsdichte

Man muss gut unterscheiden zwischen Likelihood und Wahrscheinlichkeitsdichte. Als Funktion der Wahrnehmung spricht man von Dichte, als Funktion der Parameter daentgegen von Likelihood. Fuer ein gutes Verstaendnis kann man da nicht deutlich genug sein.Nijdam 00:45, 6. Sep. 2007 (CEST)

@Nijdam: Wurde dieser Fehler häufig in edits gemacht? Falls ja, könnte man ganz oben auf der Diskussionsseite ja einen (permanenten) Hinweis anbringen. --Martin Thoma 03:35, 15. Aug. 2014 (CEST)

Fehlende Bildbeschreibungen

Im Artikel befinden sich einige Abbildungen, die keine (alternative) Bildbeschreibung enthalten. Könnte die bitte jemand nachtragen? Danke! --STBR!? 12:52, 11. Okt. 2008 (CEST)

a) Welche Bilder b) was meinst du mit alternativen Bildbeschreibungen? -- Philipendula 15:22, 11. Okt. 2008 (CEST)

Da es seit 2008 keine Antwort gab, betrachte ich das als erledigt. --Martin Thoma 03:37, 15. Aug. 2014 (CEST)

Archivierung dieses Abschnittes wurde gewünscht von: --Martin Thoma 03:37, 15. Aug. 2014 (CEST)