Benutzer:Sigma^2/Statistik-Seiten

aus Wikipedia, der freien Enzyklopädie

Zum Niveau der Statistik-Seiten

Walter Krämer [abgerufen am 13.9.2021]:

„Warnung vor Wikipedia -- Zitate aus der deutschen Wikipedia sind ab jetzt in akademischen Abschlussarbeiten an meinem Institut nicht mehr erlaubt. Anders als die englische wird die deutsche Wikipedia von Ideologen dominiert. Außerdem steckt sie in vielen Artikeln zu Wirtschaftswissenschaften und Statistik voller Fehler. Generell ist das Niveau von Artikeln zur Statistik weit unterhalb einer Bachelorarbeit an unserer Fakultät.[1]

Die Dominanz durch Ideologen kann ich für die Statistik-Seiten nicht bestätigen. Die Aussage über das niedrige Niveau und die Fehlerhaftigkeit der Statistik-Seiten teile ich.

Eine Ursache ist, dass als Quellen anstelle von wissenschaftlichen statistischen Monographien häufig vereinfachende und fehlerhafte Darstellungen von Nichtstatistikern für Nichtstatistiker verwendet werden. Eine weitere Ursache ist, das Wikipedia-Autoren, die in ihrem Studium (typischerweise nicht im Fach Statistik) auch mit bestimmten Anwendungen der Statistik konfrontiert wurden, denken, dieser winzige Ausschnitt sei "die Statistik". Niemand käme in der Mathematik auf die Idee, ein Buch dass von einem Nichtmathematiker für Nichtmathematiker geschrieben wurde, als Quelle für mathematische Terminologie oder Methodik zu verwenden. Bei statistischen Anwendern ist dies eher der Regelfall. Diese Problematik tritt auf insbesondere bei den Statistikeinführungen für Psychologen, Pädagogen, Mediziner, Wirtschaftswissenschaftler, Soziologen, Politologen usw. auf. Der Anteil der Autoren von Statistik-Seiten, die sich längere Lebenszeit mit Statistik befasst haben, scheint verschwindend zu sein. Einige wenige Autoren mit solidem Hintergrund in Mathematik und Stochastik haben immer wieder grobe Fehler korrigiert und dafür gesorgt, dass die Artikel im Bereich der Stochastik eine durchgängig fehlerfreieres Niveau haben. Allerdings werden solche Stochastik-Konzepte, die in der Statistik sehr wichtig sind, häufig ausschließlich im Hinblick zu ihrem Bezug zur Maßtheorie, nicht aber zur Statistik diskutiert, wodurch viele für Nichtmathematiker völlig unlesbare Artikel entstanden sind.

Qualitätssicherung und "Portal Statistik"

Es gibt das Portal:Statistik, das aber keine systematische Qualitätssicherung der Statistik-Seiten organisiert. Teilweise findet die Qualitätssicherung von statistisch-methodischen Artikeln im Portal:Mathematik/Qualitätssicherung statt.

Das Portal:Statistik wird offensichtlich schon seit längerer Zeit kaum noch genutzt, z B. steht der Eintrag "Aktuelles" auf 2014. Es gibt einen Artikel Portal:Statistik/Literatur, der bis 2022 überwiegend elementare Einführungen und Lehrbücher enthielt, aber keine wissenschaftlichen Standardwerke.

Statistik-Seiten mit Qualitätsmängeln

Alphafehler-Kumulierung

  • es wird über lokale, globale und multiple Niveaus geredet, ohne die Begriffe zu definieren
  • "konservativste Form"
  • Verweis auf den nicht existierenden Artikel Multiples Testproblem

Attributables Risiko

  • konfuse Vermischung von relativen Häufigkeiten (aus Daten) und Wahrscheinlichkeiten

Ausfallrate

  • unvollständige Definition

Bayes-Klassifikator

  • Ist eingetragen im Portal:Mathematik/Qualitätssicherung
  • seltsame Terminologie: Feature-Vektor, Feature Vektor, Features
  • konfuse Vermischung von relativen Häufigkeiten (aus Daten) und Wahrscheinlichkeiten

Bayessche Statistik

- Das Symbol wird teils für die Wahrscheinlichkeit eines Ereignisse, teils für die Dichte- oder Wahrscheinlichkeitsfunktion, teils für die Wahrscheinlichkeitsverteilung verwendet.
- Außerdem wird uneinheitlich , und verwendet.
- Die Notation für die Beta-Verteilung mit Angabe des Namens der Zufallsvariablen ist unüblich (wenn nicht sogar unsinnig) und unverträglich mit dem Artikel Beta-Verteilung.
- Analoges gilt für die Notation der Binomialverteilung.

Bayessches Netz

  • unerklärte und inkonsistente Schreibweise (gemeint ist wohl Wahrscheinlichkeitsfunktion oder Dichtefunktion)

Bestimmtheitsmaß

  • Fehlendes statistisches Modell
  • es bleibt völlig unklar, was ein aus den Daten berechnetes Bestimmtheitsmaß schätzt
  • der gesamte Artikel ist beschreibend und ohne theoretischen Hintergrund geschrieben
  • enthält unsinnig Behauptung über angeblich unverzerrte Schätzer von Standardabweichungen

Beurteilung eines binären Klassifikators

  • Konfusion zwischen relativen Häufigkeiten und Wahrscheinlichkeiten

Effektstärke

  • Unklare Begrifflichkeit: Stärke eines "statistischen Effekts"
  • Unklar, ob es um Unterschiede in der Grundgesamtheit oder in der Stichprobe geht
  • Unstatistische Argumentation
  • Effect size hat keinen Eintrag in EOSS
  • englischsprachiger Artikel en:Effect size ist erheblich besser
  • teilweise liegt die abstruse Vorstellung zugrunde, substanzwissenschaftliche Relevanz könne irgendwie statistisch bestimmt werden

Einstichproben-t-Test

  • Phantasierte Anwendung bei nicht normalverteilter Grundgesamtheit
  • Falsche Interpretation der Testverteilung
  • Uneinheitliche Schreibweise für Quantile

Ereigniszeitanalyse

  • Im stochastischen Modell wechselnder Bezug auf Individuum bzw. Population
  • Es fehlt ein statistisches Modell (Überlebensfunktionen der Individuen, stochastische Unabhängigkeit)

Fehler 1. und 2. Art

  • es fehlen Fehlwahrscheinlichkeiten
  • falsche Verwendung des Risikobegriffs
  • fehlerhafte Entscheidungstabelle
  • fehlerhafte formale Darstellung der Fehlerwahrscheinlichkeiten
  • falsche Wertigkeit der Terminologie aus medizinischen Labortests
  • Unsinn über bedingte Wahrscheinlichkeiten
  • Macht eines Tests fehlt
  • Umfang eines Tests fehlt

Globaler F-Test

  • Keine Unterscheidung zwischen Zufallsvariablen und Realisationen

Gammaverteilung

  • Unsinn über unterschiedliche Parametrisierungen (deutschsprachig usw.)

Gauß-Test

  • Unsinnige Aussage, dass Gauß-Test nicht für kleine Stichprobengeeignet ist
  • Der (ungewöhnliche) Begriff "Testprüfgröße" wird uneinheitlich teils für die Teststatistik (Stichprobenvariable), teils für die Prüfgröße im Sinn einer Zahl (Realisation der Teststatistik)
  • Differenzentest wird falsch als Zweistichprobentest dargestellt
  • Beispiel schlecht

Impfstoffwirksamkeit

  • konfuse Vermischung von relativen Häufigkeiten (aus Daten) und Wahrscheinlichkeiten

Inzidenz (Epidemiologie)

  • konfuse Vermischung von relativen Häufigkeiten (aus Daten) und Wahrscheinlichkeiten

Kritischer Wert (Statistik)

  • Notationsprobleme

Levene-Test

  • fehlende Voraussetzungen
  • schlechte Formulierungen in Beispielen
  • falsche Theorie

Logistische Regression

  • Notationsproblema
  • Unklare Verwendung bedingter Wahrscheinlichkeiten

Logit

  • Notationsprobleme

Multiples Testen

Operationscharakteristik

  • Konfusion zwischen Schätzer und Schätzwert
  • Der "wahre" Parameter ... , "tatsächliche Lage", "wahre Lage"

Multiples Testproblem

Probit-Modell

  • Ist eingetragen im Portal:Mathematik/Qualitätssicherung
  • Im Artikel wird ein Probit nicht ein einziges Mal verwendet, es wird auch nicht auf Probit verwiesen.
  • Notationsprobleme: Vektor der X-Variablen ist mit X bezeichnet.
  • Im Abschnitt Modell problematische Notation.

Relative und absolute Risikoreduktion

  • konfuse Vermischung von relativen Häufigkeiten (aus Daten) und Wahrscheinlichkeiten

Relatives Risiko

  • konfuse Vermischung von relativen Häufigkeiten (aus Daten) und Wahrscheinlichkeiten

Statistischer Test

  • problematische Schreibweisen und Notation für Ablehnwahrscheinlichkeit
  • problematische Schreibweise für Binomialwahrscheinlichkeit, die als Binomialverteilung bezeichnet wird
  • falsche Behauptung über Umfang eines Tests
  • Tabelle enthält mehrere problematische Behauptungen, Empfehlungen und falsche Voraussetzungen
  • zweidimensionale Beobachtungen werden als "zwei abhängige Stichproben" bezeichnet
  • falscher Verweis auf einen nichtexistenten Hauptartikel Multiples Testen
  • Weblink [Statistical Tests Overview] ist toter Link
  • Weblink "Statistische Versuchsauswertung" ist toter Link

Statistisches Modell

  • Es fehlt das Wesentliche eines parametrischen Modells: die Identifizierbarkeit der Parameter bzw. die eindeutige Identifizierbarkeit einer Verteilung durch den Parameter

Stichprobenraum

  • Artikel fehlt, stattdessen WL auf Ergebnisraum, dort fehlerhaft zugeordnet
  • Begriff der mathematischen Statistik nicht erklärt
  • Begriff der Stichproben aus endlichen Grundgesamtheiten nicht erklärt

Studentsche t-Verteilung

  • seltsame Schreibweise für Zufallsvaribalen, z. B. N(0,1) als Symbol für eine standardnormalvereteilte Zufallsvariable
  • Schreibweise für Zufallsvariable, später auch Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle T_n}
  • unübliche, angeblich DIN-konforme, Schreibweise für Quantile
  • es fehlt die verallgemeinerte t-Verteilung mit nicht ganzzahligem Freiheitsgradparameter
  • Konfusion von Quantilwerten mit p-Werten

Suffiziente Statistik

  • Falsche Verwendung des Begriffs Statistik für einen Wert einer Statistik
  • Seltsame Schreibweise für bedingte Verteilung

t-Test

  • Falsche Behauptungen zur Asymptotik
  • obskurer Verweis auf den falschen Satterthwaite (inzwischen korrigiert)
  • obskurer Verweis auf "t-Test in Matrixnotation",
  • uneinheitliche Schreibweise (t versus t)

Testen allgemeiner linearer Hypothesen

  • Es wird nur ein Spezialfall im Rahmen eines linearen Regressionsmodells behandelt und gleichzeitig behauptet, das wäre schon das multiple Testen

Wahres Modell

  • angeblich statistischer Grundbegriff

Varianz

  • Träger falsch definiert und verwendet

Zufallsstichprobe

  • Konfuse Mischung aus Konzepten der Theorie der Stichproben aus endlichen Grundgesamten (angebbare Wahrscheinlichkeiten, Ziehungsschemata mit und ohne Zurücklegen usw-) und der i.i.d.-Stichproben aus unendlichen Grundgesamtheiten

Zweistichproben-t-Test

  • falsche Darstellung der Grundgesamtheit
  • uneinheitliche Quantilnotation
  • falsche Behauptungen zur Asymptotik
  • t-Differenzentest als "Zweistichproben-Test"
  • Beispiele suggerieren, wie man nicht testen sollte, nämlich erstmal rechnen und dann Hypothesen aufstellen
  • t-Test für nicht normalverteilte Beobachtungen

Akzeptable Seiten zur Statistik

Risiko |