Diskussion:Empirisches Quantil

aus Wikipedia, der freien Enzyklopädie

Falscher Index in Definition

Im Fall n*p nicht ganzzahlig, sollte das p-Quantil vermutlich gleich xp(abgerundet(n*p)+1) sein, und nicht xp(abgerundet(n*p)). Es fehlt m.E. also das "+1".

Siehe z.B. auch http://www.crashkurs-statistik.de/quantile/

Entsprechend wäre auch das Beispiel zu korrigieren. (nicht signierter Beitrag von 192.102.17.49 (Diskussion) 17:56, 19. Jan. 2017 (CET))

Danke für den Hinweis, habe es gerade gerichtet. --NikelsenH (Diskussion) 18:25, 19. Jan. 2017 (CET)
Dieser Abschnitt kann archiviert werden. Patagonier (Diskussion) 10:46, 1. Aug. 2017 (CEST)

Unbrauchbarer Einzelnachweis

Was genau ist das Problem bei dem von mir zitierten Einzelnachweis, der "wegen Unbrauchbarkeit entfernt" wurde? Ist es nicht eine nützliche Information für alle Excel-Nutzer, wenn sie sich über die von Microsoft eigenwillig implementierte Quantilfunktion wundern, die meines Wissens von Microsoft selbst nirgends detailliert erklärt wird? --Patagonier (Diskussion) 00:27, 24. Jul. 2017 (CEST)

Hallo Patagonier, die Wikipedia stellt bekanntes Wissen dar, Wissen wird dadurch bekannt, dass es veröffentlicht und erkennbar rezipiert wird. Private Seiten, noch dazu mit kommerziellem Charakter (hier Beratung), verfehlen unsere Anforderungen an WP:Belege und eignen sich nicht dazu, bekanntes Wissen darzustellen. Siehe auch WP:Keine Theoriefindung. Grüße --Millbart talk 08:39, 24. Jul. 2017 (CEST)
gudn tach Patagonier, Millbart!
es geht um den artikel http://www.excel4managers.de/index.php?page=quartile_alg05.
auf den ersten blick scheint der mir gar nicht so schlecht zu sein. und nur weil's eine private seite ist, ist das noch nix schlimmes. der autor hat anscheinend selbst etwas herausgefunden, was schlecht bis gar nicht dokumentiert ist. das kommt bei software haeufiger vor. gerade bei weitverbreiteter software wie excel kann eine solche information wp-relevant sein. wir schreiben in artikeln auch, wie man in dieser oder jenen software bestimmte zeichen erstellt, wieso soll man also nicht angeben, wie excel eine funktion definiert, die nicht von jedem gleich definiert wird?
bis hierhin sind es argumente fuer die aufnahme des artikels.
was jedoch meiner ansicht nach gegen den link spricht, ist die mangelnde nachvollziehbarkeit/ueberpruefbarkeit. wenn schon jemand etwas herausgefunden hat, sollte er den weg dorthin auch nachvollziehbar begruenden. das fehlt in diesem fall, weshalb die aussagen nur sehr schwer ueberpruefbar sind.
zusammengenommen wuerde ich mich schwertun, den artikel zu verlinken. gibt es denn wirklich nichts besseres/handfesteres dazu? -- seth 23:34, 27. Jul. 2017 (CEST)
Danke seth für den Beitrag Deiner Meinung. Ich persönlich teile die "Fuer"-Argumente. Bzgl. Nachvollziehbarkeit/Überprüfbarkeit habe ich selbst die Informationen an meinen persönlichen Beispieldaten überprüft und nachvollziehen können: was Excel lieferte, stimmte mit dem überein, wie es nach den Informationen auf der Seite zu erwarten war. Das kann jeder selber jederzeit genauso machen, womit eine Nachvollziehbarkeit im konkreten Fall gegeben ist. Das ist natürlich kein Beweis (im mathematischen Sinne (Beweistheorie)), aber solange es nichts "besseres/handfesteres dazu" gibt, würde ich den Link lieber aufnehmen. Falls jemand der Meinung ist, die Informationen seien nicht korrekt, soll er doch ein einziges Gegenbeispiel nennen (Antithese), dann ist die Sache natürlich sofort erledigt. Bis das geschieht oder bis wir etwas "besseres/handfesteres dazu" haben (Sehr gerne her damit!), finde ich, dass der Link aufgenommen dürfen werden sollte. Ich sehe keinen Bedarf dafür, dass der Autor darlegen müsste, auf welchem Wege er zu seinen Erkenntnissen kam. Übrigens: en.wikipedia nennt auch einfach die verwendeten Formeln, ohne Quellenangabe und ohne Herleitung derselben. --Patagonier (Diskussion) 23:50, 30. Jul. 2017 (CEST)
Moin Patagonier, der Haken ist nur leider, dass Wikipedia so nicht funktioniert. Damit Inhalte als etabliertes Wissen akzeptiert werden können, müssen die Belege auf denen sie basieren erkennbar umfassend rezipiert worden sein. Seths Für-Argumente greifen leider überhaupt nicht wenn man sich die oben verlinkte Richtlinie anschaut. Aussagen auf einer Seite, auch wenn sie gut gemacht sein mag und selbst wenn sie bei einer Uni gehostet werden würde, die keine Rezeption erfahren haben ("was schlecht bis gar nicht dokumentiert ist"), fallen exakt unter das was wir als Theoriefindung bezeichnen und können nie Grundlage der Artikelarbeit sein. Mangelnde Rezeption spricht dann auch noch für enzyklopädische Irrelevanz. Was in der englischen Wikipedia passiert hat erstmal keinen Einfluss auf die Arbeit hier. Grüße --Millbart talk 17:47, 31. Jul. 2017 (CEST)
Hallo Millbart, Theoriefindung dürfte ja wohl nur ein Problem sein bei Themen, bei denen unterschiedliche Meinungen vorherrschen, die sich nicht auf einen gemeinsamen Nenner bringen lassen und bei denen jede Seite versucht, ihre Meinung (einseitig) in Wikipedia einzubringen. Im vorliegenden Fall gibt es aber niemanden, der die Informationen, die ich verlinken möchte und persönlich überprüft habe, inhaltlich anfechtet. Wikipedia funktioniert ja ähnlich wie Wissenschaft auch so, dass Artikel durch Diskussion und Weiterbearbeitung an Qualität gewinnen, doch dafür muss auch ein (wenngleich noch nicht perfekter) Anfang gemacht werden dürfen. Das ist doch das WP:Sei mutig!, das einer der Grundsätze Wikipedias ist und das mir seinerzeit bei meiner Willkommensbegrüssung nahegelegt wurde. Was die angebliche enzyklopädische Irrelevanz anbelangt, so stimme ich mit Benutzer:Dr._Nachtigaller überein, der wunderbar formuliert hat: "Ein «unrelevanter» Artikel frisst kein Heu und steht niemandem im Weg; das schlimmste, was passieren kann, ist, dass er einfach ungelesen bleibt. Falls ihn aber auch schon nur eine einzige Person nützlich findet, so ist der Artikel bereits «relevant», nämlich für diese eine Person.". Bitte lasst uns frustrierte Benutzer, die ihre Mitarbeit still einstellen, vermeiden. --Patagonier (Diskussion) 11:26, 26. Mai 2018 (CEST)
Hallo Patagonier, zu den einzelnen Punkten:
  1. "Theoriefindung dürfte ja wohl nur ein Problem sein bei Themen, bei denen unterschiedliche Meinungen vorherrschen, die sich nicht auf einen gemeinsamen Nenner bringen lassen und bei denen jede Seite versucht, ihre Meinung (einseitig) in Wikipedia einzubringen." Das stimmt so nicht, siehe die oben verlinkte Richtlinie: "Als Theoriefindung (originäre Forschung) gelten Aussagen in Artikeln der Wikipedia, die nicht in anerkannter Fachliteratur veröffentlicht sind. Das betrifft insbesondere unveröffentlichte Theorien, Daten, Aussagen, Konzepte, Methoden oder Argumente, aber auch eigene Interpretationen veröffentlichter Daten und Analysen (Stichwort Privattheorie)."
  2. "Wikipedia funktioniert ja ähnlich wie Wissenschaft auch so, dass Artikel durch Diskussion und Weiterbearbeitung an Qualität gewinnen, doch dafür muss auch ein (wenngleich noch nicht perfekter) Anfang gemacht werden dürfen" Jein. In Artikeln wird auf Basis unserer Richtlinien und erkennbar rezipierter Veröffentlichungen gearbeit. Es geht um die Darstellung des "bekannten" Wissens und nicht darum, im Gegensatz zur Wissenschaft, unbekanntes bekannt zu machen (Theorieetablierung).
  3. Die inhaltlichen Richtlinien über Belege, Theoriefindung und Neutralität sind die Schranken für "Sei mutig!".
  4. Möchte man grundsätzliche Dinge dieses Projektes ändern, wie beispielsweise zentrale Richtlinien, tut man Du das sinnvollerweise indem man seine Vorschläge dazu an zentraler Stelle zur Diskussion stellt und nicht indem man besagte Richtlinien missachtet.
Grüße --Millbart talk 12:33, 27. Mai 2018 (CEST)

Einleitungsabsatz präzisieren

Hallo alle zusammen,

den folgenden Text in der Eileitung des Artikels:

»Vereinfacht teilt ein empirisches p-Quantil die Stichprobe so, dass ein Anteil der Stichprobe von p kleiner als das empirische p-Quantil ist und ein Anteil von 1-p der Stichprobe größer als das empirische p-Quantil ist. Ist beispielsweise eine Stichprobe von Schuhgrößen gegeben, so ist das empirische 0,35-Quantil diejenige Schuhgröße , so dass 35 % der Schuhgrößen in der Stichprobe kleiner als sind und 65 % größer als sind.«

würde ich gerne in folgender Weise ändern:

»Vereinfacht teilt ein empirisches p-Quantil die Stichprobe so, dass ein Anteil der Stichprobe von (annähernd) p Werte aufweist, die kleiner oder gleich dem empirischen p-Quantil sind und ein Anteil von (annähernd) 1–p der Stichprobe Werte aufweist, die größer gleich dem empirischen p-Quantil sind. Bei dem unten angegeben Beispiel ist das 0,25-Quantil identisch mit dem Wert des dritten Falls. Da hier 10 Fälle vorliegen, gibt es zwei Fälle oder 20 Prozent der Verteilung, die im Vergleich zum 0,25-Quantil kleinere oder gleich große Werte aufweisen und 7 Fälle oder 70 Prozent der Verteilung, die im Vergleich zum 0,25-Quantil gleich große oder größere Werte aufweisen.
In diesem Beispiel teilt das 0,25-Quantil die Stichprobe also nicht exakt, sondern nur annähernd im Verhältnis zu . Das ist immer dann der Fall, wenn das jeweilige empirische p-Quantil der Wert eines real existierenden Falls ist, weil dieser Fall sowohl aus dem unteren als auch aus dem oberen Bereich, in die das empirische Quantil die Stichprobe teilt, herausfällt. Wenn das empirische p-Quantil ein Wert ist, der zwischen den Werten von zwei benachbarten Fällen liegt (wie im Beispiel unten das 0,5-Quantil), dann teilt ein empirisches p-Quantil die Stichprobe genau so, dass exakt np Fälle kleinere oder gleichroße Werte und n(1–p) Fälle gleich große oder größere Werte aufweisen. In dem Beispiel führt das 0,5-Quantil zu einer Aufteilung der Stichprobe in genau 5 untere und 5 obere Werte, also genau 50 Prozent zu 50 Prozent.«

Ist das in Ordnung? Über eine zeitnahe Antwort würde ich ich freuen.

Viele Grüße

--Jake2042 (Diskussion) 10:49, 18. Sep. 2019 (CEST)

Hallo Jake2042,

meine Meinung:

  • Der Leser sollte in der Einleitung möglichst nicht schon mit einem Beispiel konfrontiert werden
  • die bisherige Einleitung ist nicht falsch, denn sie beginnt mit "vereinfacht"
  • die Einfügung von "(annähernd)" macht es nicht besser: tat der Text bisher so, als seien die Anteile exakt, tut er danach so, als seien die Anteile annähernd. Beides stimmt jedoch nicht allgemein, sondern je nach Fall mal das eine, mal das andere.
  • das Wort "Fall" sollte imho ersetzt werden durch "Stichprobenwert"
  • im bisherigen Text steht "größer als" und "kleiner als", bei Dir "größer gleich" und "kleiner gleich". Was ist richtig?
  • Du schreibst, ".., weil dieser Fall sowohl aus dem unteren als auch aus dem oberen Bereich [] herausfällt". Das widerspricht dem obigen "größer gleich" und "kleiner gleich", wonach die Werte eingeschlossen wären.
  • die Herausarbeitung, dass die Anteile nur annähernd exakt bzw. tatsächlich exakt sind, je nach dem, ob ein Sichprobenwert dem Quantil exakt entspricht oder nicht, finde ich gut und erwähnenswert
  • Vorschlag: man schreibt an den Schluss der Einleitung sowas wie: "Falls die Stichprobe einen Wert enthält, der dem p-Quantil exakt entspricht, teilt das p-Quantil die Stichprobe nur annähernd in Anteile der Größe p und 1-p; ansonsten jedoch exakt (siehe Unterabschnitt Exaktheit)." und erstellt einen solchen Unterabschnitt mit Erläuterung und Verweis auf die vorhandenen Beispiele.

Viele Grüße, Patagonier (Diskussion) 21:48, 29. Sep. 2019 (CEST)

Definitionen

Ich würde gerne die Perzentilberechnung verstehen, insbesondere die Berechnung, die SPSS bei FREQUENCIES /PERCENTILES macht. Da irre ich von einer Definition zur nächsten. Wenn ich nur diese vier Artikel nehme (es gibt offenbar noch mehr):

Empirisches Quantil (D1) <-> en:Percentile (E1)

Quantil (Wahrscheinlichkeitstheorie) (D2) <-> en:Quantile (E2)

Als Unterschied zwischen (D1) und (D2) sehe ich, dass bei (D2) die dahinterliegende Verteilungsfunktion bekannt ist, also darüber ein Quantil in der Regel direkt und exakt berechnet werden kann. Dagegen ist bei (D1) keine Funktion bekannt, sodass man erst einmal nur die beiden dem Quantil "benachbarten" Fälle ermitteln kann und daraus dann einen Quantilwert ableitet. Bei SPSS FREQUENCIES, ebenso wie bei verwandten Funktionen in Excel, Python statistics, Pandas, die alle mit Datentabellen arbeiten, kann es dann nur um (D1) gehen. Aber die Interwiki-Zuordnung zu (E1) und (E2) ist so Quatsch, richtig?

Hier (D1) wird eine Definition geliefert, die zwischen gerader und ungerader Fallzahl unterscheidet. Gibt es irgendeine "gängige" Software, die diese Definition verwendet? Auf der verlinkten Seite werden neun alternative Berechnungsmethoden Q1 bis Q9 genannt, ebenso in (E2) neun alternative Berechnungsmethoden R-1 bis R-9. Ob es dieselben neun sind, kann ich nicht beurteilen, ich kann die Formeln alle nicht lesen. Findet sich die Definition von (D1) hier überhaupt irgendwo wieder? Im SPSS-Algorithmenhandbuch, S. 370 f. ist noch eine andere Formel angegeben, die ich ebenfalls nicht lesen kann. Auch die enthält eine Fallunterscheidung, da geht es aber wohl nicht um gerade und ungerade Fallzahl.

Gibt es eigentlich dieselbe Vielfalt an Algorithmen bereits für den Median? Der ist doch auch ein Quantil?

Was ich sagen will, ich würde mir eine Erklärung wünschen, die auf die verschiedenen Berechnungsmethoden eingeht und sinnvollerweise Pseudocode-Algorithmen und Beispielwerte zum Nachvollziehen mitliefert. --Redoute (Diskussion) 11:11, 25. Apr. 2021 (CEST)

Ich möchte gleich noch eine (dumme) Frage zum Verständnis hinterherschieben: Nehmen wir an, ich habe zehn Werte x1 = 1 ... x10 = 10. In einer Häufigkeitstabelle mit kumulierten Prozentwerten kann ich dann ablesen: Wert 9: 90 % kumuliert. In meiner Naivität hätte ich dann behauptet: 9 ist das 90%-Perzentil. Nach der Definition in (D1) erhalte ich aber 9,5 als Ergebnis? Ergeben die kumulierten Prozente keine Perzentile? --Redoute (Diskussion) 11:21, 25. Apr. 2021 (CEST)

Tippfehler

Tippfehler im Artikel: Das Mittel ist 62,5 und nicht 62,2 --34.99.148.151 19:19, 21. Apr. 2022 (CEST)

Ist korrigiert, danke. -- SuPich [Diskussion] [Beiträge] um 19:56, 21. Apr. 2022 (CEST)