Diskussion:Streudiagramm
Einleitungssatz
Jungs, das steht doch alles eh viel besser in "Regressionsanalyse" im kapitel "Regressionsanalyse#Einfache Lineare Regression" drin! also würd ich einen direkten verweis dahin vorschlagen! Benutzer:Ulmo-george (nachgetragen von Philipendula)
- Ach? Oo. --Philipendula 00:44, 6. Jan. 2007 (CET)
Da Benutzer:Philipendula meine Änderungen rückgängig gemacht hat, erläutere ich, was ich an dem Einleitungssatz verbessern wollte.
"Ein Streudiagramm (Scatterplot) ist die graphische Darstellung von beobachteten Wertepaaren zweier statistischer Merkmale, also für einen bivariaten Datensatz. Diese Wertepaare werden in ein kartesisches Koordinatensystem eingetragen, wodurch sich eine Punktwolke ergibt."
Scatterplot: Unnötiger und ungebräuchlicher Anglizismus. Ausserdem gibt hier noch den deutschen Audruck Punkt(e)diagramm.
--> Kommentar: Wenn man den Begriff Scatterplot in einer Statistik-Vorlesung an der Uni lernt, wird er ja nicht ganz so ungebräuchlich sein... (nicht signierter Beitrag von 85.180.114.130 (Diskussion) 13:13, 15. Sep. 2011 (CEST))
statistischer Merkmale: Warum die Einschränkung auf statistische Mermale? So ist zb. Messwerteerfassung keine Statistik.
bivariat: OK, mein Ausdruck unabhängige Punkte war schlechter, aber bivariat ist ein nicht sonderlich bekanntes Wort. Vieleicht gibt es eine auf Anhieb verständlichere Alternative für ein Einleitungssatz?
Punktewolke: Dieses Bezeichnung ist zugleich eine Wertung, weil damit eine ziemlich gleichmäßige Verteilung vemutet wird. Bei Messungen linearer Zusammenhänge ergibt sich keine Punktewolke sonder eine Punkte-Linie. Die Bezeichung Punktebild passt für beides.
--Avron 18:34, 3. Jan. 2007 (CET)
Punktwolke ist in der Statistik, woher der Begriff Streudiagramm schließlich stammt, ein gängiger Begriff. Im realen Leben sind exakte Linien bei erhobenen Daten eigentlich quasi unmöglich. So wäre ja selbst Streudiagramm POV, weil der Begriff streuen auch auf eine gewisse Zufälligkeit hindeutet.
Ein statistisches Merkmal ist einfach eine Variable, für die Daten erhoben werden. Das soll angeblich bei der Erfassung von Messwerten auch vorkommen. --Philipendula 18:47, 3. Jan. 2007 (CET)
Wenn man Punktewolke und Struediagramm als "Paar" sieht dann hast du schon recht. Aber erstens ist in dem Beispiel (Gewicht und Alter) eine klare lineare Beziehung und zweitens ist das Lemma Streudiagramm normalerweise mit Punktediagramm identisch. Wenn du das so klar trennen willst, müsstest du das Beispiel in ein neuse Lemma "Punktediagramm" verschieben. Das gefällt mir aber nicht, weil sich die Diagramme nur in dem Datenbereich unterscheiden würden. Alles andere wäre gleich. --Avron 19:10, 3. Jan. 2007 (CET)
Ich habe mir noch Statistische Variable zu Gemüte geführt. So wie ich die Definition verstehe, ist damit nicht eine einfache Messung (zb. Strom/Spannung) gemeint, oder? --Avron 19:23, 3. Jan. 2007 (CET)
Wenn ich 10x einen Spannungswert erhebe, habe ich die statistische Variable Spannung mit n=10 Beobachtungen oder Messwerten (Beobachtung ist allgemein, Messwert ist Ingenieursgewäsch).
Streudiagramm findet ca. 40.000 Treffer, Punktdiagramm nicht mal 1000. Der Begriff Punktwolke hat über 40.000 Treffer, Punktbild nur knapp 400. Punktwolke ist in der Statistik allgemein gebräuchlich, ganz allgemein für eine Ansammlung von mehrdimensionalen Punkten, es muss nicht unbedingt die Grafik gemeint sein.
... und die Beziehung in der Grafik des Artikel kann man eigentlich eher nicht als linear bezeichnen ... --Philipendula 23:53, 3. Jan. 2007 (CET)
Sag mal, was ist dir denn für eine Laus über die Leber gelaufen? Du gehst gar nicht auf meine Fragen ein, versteckst dich hinter Google-Anzahlen und "Ingenieursgewäsch" finde ich in dem Kontext nicht komisch sondern abwertend. Ich will doch nur dass der Artikel besser, oder besser abgegrenzt, wird. Wenn du mir nicht glaubst, schau dir Diagramm und die Artikel unter Achsendiagramme an. Dort sind einige Artikel von mir und viele sind von mir stark verändert worden.
Trotzdem denke ich dass wir doch noch einen konstruktiven Dialog führen könnnen.
"Wenn ich 10x einen Spannungswert erhebe, habe ich die statistische Variable Spannung mit n=10 Beobachtungen oder Messwerten" Sorry, aber noch verstehe ich nicht was du damit ausdrücken willst so ist ein Messwert ist nicht bivariat. Ein einfaches Beispiel: Messung der Temperatur über einen Zeitraum. Zu bestimmten Zeitpunkten wird die Temperatur gemessen. Und zwar nur einmal.
Zu Streudiagramm / Punktediagramm möchte ich noch folgendes sagen. Ich bin mir ziemlich sicher dass die Mehrheit der Streudiagramme mit Microsoft Office oder OpenOffice erstellt wird. Dort heissen diese Diagrammtypen "Punkte(XY)-Diagramm" bzw. "XY-Diagramm". Auch verstehe ich nicht was du mit dem Google-Vergleich erreichen wolltest. Streudiagramm ist doch schon das Hauptlemma, Punktediagramm nur eine Weiterleitung.
"Der Begriff Punktwolke hat über 40.000 Treffer, Punktbild nur knapp 400. Punktwolke ist in der Statistik allgemein gebräuchlich, ganz allgemein für eine Ansammlung von mehrdimensionalen Punkten, es muss nicht unbedingt die Grafik gemeint sein." Ich sage nicht das Punktbild das tollste Wort hier ist, nur dass Punktewolke nicht optimal ist. Und nochmal, es geht hier nicht Statistik. Du tust so, als wäre das Diagramm und Statistik das Gleiche. Diagramme sind für anschauliche Informationsdarstellung da und somit interdisziplinär.
"... und die Beziehung in der Grafik des Artikel kann man eigentlich eher nicht als linear bezeichnen ..." Dann ist es eben eine funktionalle Abhängigkeit oder was auch immer; du weisst doch was gemeint ist. Auf jeden Fall ist es dem Beispiel keine Punktewolke zu sehen. --Avron 18:31, 4. Jan. 2007 (CET)
- Ein Streudiagramm ist eine Methode der Datenanalyse, also per se eine statistische Anwendung. Es gehen real erhobene Daten in das Streudiagramm ein. Statistik ist aber auch per se interdisziplinär, sie existiert doch nicht zum Selbstzweck. Wenn du ein Säulendiagramm einer Notenverteilung machst oder 50 Werte von Druck und Temperatur in ein Streudiagramm einträgst, machst du automatisch Statistik. Punktwolke ist, so weit mir bekannt ist, tatsächlich häufig gebraucht. Gruß --Pyrus 17:13, 5. Jan. 2007 (CET)
- Hm ... --Philipendula 00:44, 6. Jan. 2007 (CET)
- Philipendula, du hast keine Lust auf einen Dialog. So habe ich auch vorerst keine Lust diesen Artikel zu verbessern, obwohl er es schon nötig hätte.--Avron 22:48, 17. Jan. 2007 (CET)
- Wieso, ich stimme Pyrus doch zu. --Philipendula 22:57, 17. Jan. 2007 (CET)
- Um es mit deinen Worten auszudrücken, Hm ... --Avron 18:06, 18. Jan. 2007 (CET)
- Wieso, ich stimme Pyrus doch zu. --Philipendula 22:57, 17. Jan. 2007 (CET)
- Philipendula, du hast keine Lust auf einen Dialog. So habe ich auch vorerst keine Lust diesen Artikel zu verbessern, obwohl er es schon nötig hätte.--Avron 22:48, 17. Jan. 2007 (CET)
Schlechtes Beispiel
Das erste Beispiel finde ich schlecht für diesen Artikel, weil hier einfach eine lineare Folge von Messwerten dargestellt wird - dafür braucht man kein Streudiagramm, sondern ein einfaches Linien- oder Balkendiagramm genügt. Ich würde dieses Beispiel streichen und evtl. durch ein Beispiel wie Image:Rational scale to assess the harm of drugs (mean physical harm and mean dependence).svg ersetzen. Neitram 00:27, 19. Jan. 2008 (CET)
Also erstens ist es nichtlinear, zweitens ist es nicht eine exakte Parabel, sondern es sind kleine Abweichungen drin. Drittens ist dein Vorschlag kein Streudiagramm, sondern ein Bubbleplot. Man verwendet nämlich Streudiagramme auch als erstes Vorschaltkriterium bei Regressionsanalyse, und so war es hier auch. --Philipendula 00:31, 19. Jan. 2008 (CET)
- Bist du sicher mit dem bubbleplot? Gerade hatte ich in der Auskunft auf Streudiagramm getippt. Die dicken Punkte sind doch gleich groß, und ich sehe keinen dritten Bezugsfaktor. Gruß T.a.k. 00:38, 19. Jan. 2008 (CET)
- @Philipendula: Erstens: Mit "linear" meine ich, dass eines der beiden Merkmale, in diesem Fall das "Alter", eine lineare Folge ist. Dafür braucht man nun mal kein Streudiagramm. Streudiagramme werden typischerweise dann eingesetzt, wenn man Werte mit zwei Merkmalen hat, die unabhängig voneinander sind. Zweitens: die Parabelform ist hier völlig egal. Drittens: Mein Vorschlag (war übrigens nur als Beispiel gedacht, wir können gerne auch ein anderes Beispiel nehmen) ist kein Bubbleplot, denn bei Bubbleplots (auch Blasendiagramm oder bubble charts genannt) sind die Kreise unterschiedlich groß, wie T.a.k. schon sagte. Neitram 01:28, 19. Jan. 2008 (CET)
- Die Merkmale müssen nicht zwangsläufig unabhängig sein. Bei unten folgendem Bild ist auch eine deutliche Korrelation zu erkennen. Wenn man eine Zeitreihe plottet, liegt in der Abfolge der Daten auch eine lineare Folge vor. Trotzdem bezeichnet man sowas als Streudiagramm. --Philipendula 01:35, 19. Jan. 2008 (CET)
- Selbstverständlich, die Merkmale können Korrelationen aufweisen (dafür macht man ja u.a. ein Streudiagramm, um zu sehen, ob sie irgendwie korrelieren). Aber sie sind eben zunächst Merkmale, die unabhängig voneinander erfasst werden. Die Punkte sind deshalb sowohl in X- als auch in Y-Richtung über die Fläche "verstreut" (auch wenn sich in der Praxis meist irgendwelche Korrelationen zeigen). Das zeigt dieses Bild sehr schön. Aber das momentane Beispiel mit "Gewicht nach Alter" ist eben kein solcher Fall, weil "Alter" hier ein Sortierkriterium darstellt. Es gibt in diesen Daten nie mehrere Punkte, die vertikal übereinander liegen, also braucht man kein Streudiagramm, weil ein normales Liniendiagramm oder Säulendiagramm hier ausreicht. Deshalb ist das ein schlechtes Beispiel, und das mit den Drogen oder mit der Länge und Breite von Artillerieschiffen wäre ein besseres Beispiel. Neitram 10:28, 19. Jan. 2008 (CET)
- Es müssen nicht notgedrungen Punkte vertikal übereinanderliegen. Die Merkmale sollen metrisch skaliert sein. Wenn ich beispielsweise die Erträge bei unterschiedlichen Gaben von Düngermengen betrachte, sind auch die Merkmale der Abszisse äquidistant angeordnet. Und trotzdem bezeichnet man die grafische Darstellung der Wertepaare als Streudiagramm. Dieser Begriff ist nicht geschützt. Auch injektive Abbildungen in den Wertepaaren werden vom Streudiagramm miteinbegriffen. Ansonsten mag ich nicht mehr weiter über solche Lappalien diskutieren. Werft meinetwegen die Grafik raus. --Philipendula 13:32, 19. Jan. 2008 (CET)
- Okay, ich habe das Beispiel durch das Diagramm mit den Artillerieschiffen ersetzt. Neitram 18:04, 19. Jan. 2008 (CET)
Zum 2. Abschnitt "Streudiagramme bei ordinalskalierten Merkmalen"
Die Techniken wie z.B. Sonnenblumen-Streudiagramm oder Jittered-Scatterplot kommen nicht nur bei ordinalskalierten Merkmalen zum Einsatz, sondern immer dann, wenn diskrete Variable vorliegen (diese können auch metrisch sein). Ordinalskalierte Merkmale weisen natürlich auch nur diskrete Ausprägungen auf - daher kommt es zu den Überlagerungen verschiedener Beobachtungen wenn diese in beiden Variablen die gleichen Ausprägungen haben.
Ein Beispiel für einen zweidimensionalen Datensatz mit diskreten, metrischen Variablen wäre z. B.: Die Anzahl der Teilnehmer einer Tagung und die Dauer der Tagung in Tagen.
Oft ist es aber auch so, dass stetige Variablen vorliegen, aber durch die Mess- (Erhebungs-) Genauigkeit diskretisiert werden (z.B. das Alter in Jahren). Es kommt letztlich auf den betrachteten Wertebereich, die Feinheit der Messung (Erhebung) und die Anzahl der Beobachtungen an, ob Überlagerungen zu erwarten sein werden, oder nicht.
--VincentBosch 12:33, 23. Feb. 2008 (CET)
- Habs mal notdürftig geändert. Bei den in Frage kommenden Merkmalen ist mir kein Sammelbegriff eingefallen, der nicht schwerverdaulich wäre. Also hab ichs mal diskret verteilt genannt und da die ordinal- und nominalskalierten Merkmale stillschweigend mit verarztet. --Philipendula 13:40, 23. Feb. 2008 (CET)
3D-Scatterplot und letzter Satz der Einleitung
Hallo,
- gibt es einen Grund, warum hier der Scatterplot explizit ausschließlich als Darstellungsmethode bivariater Verteilungen beschrieben wird? Wenn nicht, dann würde ich den Einleitungssatz um "oder drei" ergänzen und dem Artikel einen kurzen Abschnitt zum 3D-Scatterplot hinzufügen.
- der letzte Satz der Einleitung "Die Darstellung der Punkte kann durch verschiedene kleine Symbole erfolgen." sollte m.E. lieber in den Artikelverlauf eingebaut werden, anstatt in der Einleitung zu stehen, weil er für eine Einleitung schon "zu speziell" ist. Außerdem könnte man vllt. aus dem Satz das Wort "kleine" streichen. -- MM-Stat 10:13, 7. Okt. 2009 (CEST)
scatter plot
Warum wird o.g. nicht weitergeleitet, obwohl doch engl. Begriffe immer verlinkt werden? Gruß -- 217.224.198.248 15:54, 18. Nov. 2014 (CET)
- Hallo, unter Scatter plot steht "10:00, 21. Jun. 2014 Ambross07 (Diskussion | Beiträge) löschte Seite Scatter plot (Unerwünschte Weiterleitung: einziger Bearbeiter: 217.227.222.240)" Dem kann ich allerdings in der Tat nicht zustimmen. Vielleicht kann sich der löschende Admin Benutzer:Ambross07 hier dazu äußern. Der Begriff ist gebräuchlich und wird in der Einleitung auch genannt. --Zulu55 (Diskussion) Unwissen 16:41, 18. Nov. 2014 (CET)