Diskussion:Box-Plot

aus Wikipedia, der freien Enzyklopädie
Diese Diskussionsseite dient dazu, Verbesserungen am Artikel „Box-Plot“ zu besprechen. Persönliche Betrachtungen zum Thema gehören nicht hierher. Für allgemeine Wissensfragen gibt es die Auskunft.

Füge neue Diskussionsthemen unten an:

Klicke auf Abschnitt hinzufügen, um ein neues Diskussionsthema zu beginnen, und unterschreibe deinen Beitrag bitte mit Icondarstellung des Buttons zur Erzeugung einer Signatur oder --~~~~.

Ausschließlich kardinalskaliert?

Ein Dozent erwähnte, dass sie ebensogut für ordinalskalierte Daten mit ausreichend vielen Ausprägungen sinnvoll sind. Der englische Wiki beschreibt dazu grouped numerical data, was dem nicht widerspricht.

--2A02:8071:B390:2201:D81A:3660:3F8C:4C14 05:47, 28. Mär. 2015 (CET)

Dem stimme ich zu: ich kenne keine Literatur, bei welche die Daten kontinuierlich = kardinalskaliert sein müssen. Bei ordinalskalierten Daten hat man meist geklumpte Daten (s.u. mein Kommentar bei Median), hier muss man für Quartilenberechnungen die exaktere Interpolationsmethode verwenden. PPilz (Diskussion) 16:26, 7. Apr. 2015 (CEST)

vv

Schiefe beim Boxplott

Sagt nicht auch die Lage der Box etwas über die Schiefe aus?

Zitat aus "Deskriptive Statistik" von Prof. Dr. Martin Missong und Prof. Stefan Mittnik:
...relativ gering[e] Abstände zwischen Minimum, unterem Quartil und Median, verglichen mit den relativ großen Abständen zwischen Median, oberem Quartil und Maximum, spiegeln die "linkssteile" bzw. "rechtsschiefe" Verteilung [...] wieder.

Tun sie, aber wie im Artikel bereits beschrieben ist die Lage des Medians maßgeblich und dem widersprichst du hier auch nicht. --jkohl 09:39, 12. Aug. 2008 (CEST)

Unklarheit über Bestimmung der Quartile

Bestimmung der Quartile

Version 1: (Schulbuch): Das untere Quartil ist der Median der unteren Hälfte. (Was genau ist bei einer ungeraden Anzahl die "untere Hälfte"? Ich schlage vor, man entfernt den Median, damit ist "die untere Hälfte" wieder genau definiert. Es ist sogar ganz elegant, denn da bei einer geraden Anzahl der Median keinen eindeutigen "Träger" hat, entfernt man hier eben nichts.)

weitere Versionen: 0,25 der Anzahl der Daten, und man nimmt den Wert, der am nächsten dran liegt, aber es gibt auch noch weitere. Torika 15:08, 14. Apr 2008

Diese Aussage ist falsch, das Perzentil P25 ist nicht der Median der unteren Hälte wenn von der Verteilung innerhalb der Whisker gesprochen wird. Das Perzentil P25 muss nicht Teil der Messwerte sein, ebenso der Median. Dies ist in, im Fall des Median, Verteilungen mit einer geraden Anzahl Messwerte der Fall.

Schulbuch ist falsch, da es vereinfacht. Man macht eine kumulative Häufigkeitsverteilung der Daten, und liest bei 25% und 75% ab, wo genau die Quartilen liegen PPilz (Diskussion) 16:40, 7. Apr. 2015 (CEST)

Ausreisser

Die Werte ausserhalb der Whiskers sind keine Ausreisser. Es gibt von Gather einen Aufsatz der Ausreisser mit Verteilungsannahmen verkoppelt und dass scheint mir ein besserer Ansatz zu sein. Besser wäre es daher von Extremwerten zu sprechen. --Sigbert 21:00, 10. Dez. 2008 (CET)

Wo ist dieser Artikel? Würde mich interessieren. Die übliche Regel für Ausreißer bei Box-Whisker-Plots, also ein fixes Maß für Ausreißer = 1.5 IQR, wie von Tukey damals vorgeschlagen, ist sicherlich nicht sinnvoll. Ein Ausreißermaß muss vom Stichprobenumfang abhängen. Zitat aus https://en.wikipedia.org/wiki/Outlier:

"...in large samples, a small number of outliers is to be expected (and not due to any anomalous condition)." PPilz (Diskussion) 16:41, 7. Apr. 2015 (CEST)

gekerbte Boxplots

Könnte man doch erwähnen! (nicht signierter Beitrag von 84.180.156.165 (Diskussion | Beiträge) 13:39, 5. Nov. 2009 (CET))

Bin kein Wikipedia-Experte, aber: müsste man diesen Diskussionsbeitrag nicht löschen, nachdem er im Artikel umgesetzt wurde? PPilz (Diskussion) 16:37, 7. Apr. 2015 (CEST)

Interquartilsabstand falsch?

Beim Beispiel steht folgendes: So erkennt man direkt, dass der Median (durchgezogene Linie) genau bei 8,5 liegt und dass je 25 % der Daten unter 7 und über 9,25 liegen, denn dies sind genau die Abmessungen der Box, in der 50 % der Messwerte enthalten sind. Folglich ist auch der Interquartilsabstand, der der Länge der Box entspricht, genau 2,5.

Müsste die Länge der Box nicht 2,25 betragen? 9,25 - 7 = 2,25 und nicht 2,5. (nicht signierter Beitrag von 193.171.33.216 (Diskussion | Beiträge) 18:32, 7. Apr. 2010 (CEST))

erledigtErledigt, Siehe auch Wikipedia:Sei mutig -- Schlurcher ??? 17:09, 8. Apr. 2010 (CEST)

Ich habe mir alles noch mal genauer angeschaut. Die Boxplotlänge von 2,25 ist meiner Meinung nach falsch. Der Fehler liegt meiner Meinung nach bei den 9,25 der 75% der Daten (3. Quartil). 75% der Daten liegen nämlich nicht bei 9,25 sondern bei 9,5. Diese errechnen sich aus (9+10)/2. Somit stimmt die Länge des Boxplots mit 2,5 (errechnet sich aus 9,5 - 79. Jedoch muss das 3.Quartil von 9,25 in 9,5 geändert werden. (nicht signierter Beitrag von 193.171.33.216 (Diskussion | Beiträge) 20:15, 12. Apr. 2010 (CEST))

Beispiel: Median

Muss der Median nicht ein Vertreter der Messdaten sein? Ich sehe keine 8,5 in den Daten. Zugegeben, bei gerade Anzahl von Daten ist das mittlere Element (Median) nicht ganz eindeutig zu bestimmen, aber ich wuerde dann eben immer links neben der Mitte schauen. Ich wuerde also als Median 8 waehlen. (nicht signierter Beitrag von 129.70.161.79 (Diskussion) 17:11, 28. Feb. 2012 (CET))

Nein, bei einer geraden Anzahl von Beobachtungen ist der Median der Mittelwert der beiden mittleren Beobachtungen. --Sigbert (Diskussion) 15:07, 1. Mär. 2012 (CET)
Nun für mich in der Informatik ist es wichtig, dass der Median Element der Menge ist, laut Wiki nennt man das dann "Unter-" oder "Ober-" median. Sollte man das bei dem Beispiel vielleicht erwähnen um Unklarheiten zu vermeiden? (nicht signierter Beitrag von 84.62.112.53 (Diskussion) 22:15, 1. Mär. 2012 (CET))
Das widerspricht der Eigenschaft des Medians, dass er die Daten in zwei gleich große Hälften teilt. --Sigbert (Diskussion) 18:54, 2. Mär. 2012 (CET)
Nein, das ist überhaupt kein Problem. Der Median ist der Wert, so dass mindestens die Hälfte der Werte größer oder gleich und mindestens die Hälfte der Werte kleiner oder gleich ist.--Kortenkamp (Diskussion) 08:32, 9. Aug. 2012 (CEST)
Falsch: diese Angaben/Kommentare gelten nur, wenn der Wert oberhalb und unterhalb des Medians jeweils nur ein mal vorkommen. Sollte der Wert unterhalb des Medians z.B. drei mal (also geklumpt) vorkommen, der oberhalt des Medians z.B. fünf mal, dann liegt der Median nicht genau in der Mitte (auch wenn viele Statistikprogramme das so rechnen). Man muss im Prinzip eine kumulative Häufigkeitsverteilung aufzeichnen, und bei 50% ablesen, dann erhält man den Median auch für geklumpte Daten exakt PPilz (Diskussion) 16:19, 7. Apr. 2015 (CEST)

Abb. Beispielboxplot oben rechts

Welcher Definition der "Whiskers" folgt der Beispielboxplot oben rechts auf der Seite denn eigentlich? Wäre das 1,5-fache des Interquartilabstandes zu Grunde gelegt, dann lägen die angezeigten "Ausreißer" noch innerhalb dessen, beim Maximum/Minimum natürlich ebenso. Beim 2,5-%-Quantil bzw. 97,5-%-Quantil gäbe es ab einem gewissen Stichprobenumfang auch oben "Ausreißer", die aber (genauso wie die unteren) nicht automatisch so bezeichnet werden sollten.

Außerdem sollte es in der Bildunterschrift vermutlich "horizontal" statt "vertikal" heißen.

Ich denke, die Abbildung im Ganzen ist nicht optimal, insbesondere, da sie die prominenteste der Seite ist. Die zu Grunde liegende Definition sollte angegeben werden und die Bildunterschrift sollte korrigiert werden. (nicht signierter Beitrag von 131.159.65.107 (Diskussion) 16:51, 14. Mai 2012 (CEST))

Handelt es sich genau genommen nicht um eine Zahlengerade statt von einem Zahlenstrahl zu sprechen? (nicht signierter Beitrag von 2003:7A:AE32:704C:2DB8:480C:AB1F:C4D8 (Diskussion | Beiträge) 14:44, 14. Mär. 2016 (CET))

Antennen oder Whisker

Im Artikel steht "Diese Linien werden als „Antenne“ oder **seltener** als „Fühler“ oder „Whisker“ bezeichnet" aber sogar in diesem Artikel werden sie fast nur "Whisker" genannt. Passt irgendwie nicht zusammen. (nicht signierter Beitrag von 85.195.252.184 (Diskussion) 14:38, 16. Mai 2016 (CEST))

Kategorie Technische Zeichnung?

Ist die Kategorie "Technische Zeichnung" wirklich zutreffend? --Harald321 (Diskussion) 22:26, 25. Jun. 2016 (CEST)

Boxplot Beispiel

Hallo, im Beispiel steht, dass je 25% der Daten unter 7 und über 9 liegen würden. Also ich stimme zu, dass 25% der Daten über 9 liegen, aber liegen nicht nur 20% der Daten unter 7?!! und liegen dadurch nicht auch 55% der Daten in der Box? (nicht signierter Beitrag von 2A01:C22:3419:4900:C9D6:5050:99BA:E66F (Diskussion) 15:43, 11. Dez. 2020 (CET)) Da hast du ja Recht, vielleicht sollte es so ausgedrückt werden: "bis 7 und ab 9,5". Yomomo (Diskussion) 18:24, 11. Dez. 2020 (CET)