Benutzer:Michael Schönitzer (WMDE)/Sortierschlüssel

aus Wikipedia, der freien Enzyklopädie
< Benutzer:Michael Schönitzer (WMDE)
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 1. Juni 2019 um 08:41 Uhr durch imported>Anonym~dewiki(31560) (→‎Fehlerhaft, eliminieren).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

Dies ist eine Arbeits- und Wartungsseite bezüglich Sortierschlüssel von Artikeln, um die Umstellung auf UCA vor- und nachzubereiten. (Siehe Wikipedia:Umfragen/Sortierschlüssel vereinfachen) Hilfe ist erwünscht! Du darfst die Liste gerne bearbeiten. Sollen Queries aktualisiert werden, reicht ein Ping an Michael Schönitzer (WMDE) (Diskussion)

Allgemeine Statistik

  • Seiten überhaupt: 1.322
  • Seiten mit Sortierschlüssel: 1.799.134
  • Kategorisierungen mit Sortierschlüssel: 7.485.280
  • Seiten mit Standardsortierschlüssel (defaultsort): 1.098.240

Mutmaßlich dauerhaft legitim, oder tolerierbar

  • Sortkeys, die mit einem Leerzeichen beginnen: 11.111
    • Vereinzelte inhaltliche Missgriffe, jedoch grundsätzlich in Ordnung.
  • Runde Klammern: 25.404
    • Gehupft wie gesprungen; ändern nichts am Ergebnis.
  • Raute vor einem grammatikalischen Artikel: 12.780
  • Komma vor einem grammatikalischen Artikel: 1.205
    • Kann in seltenen Fällen bereits heute das Ergebnis beeinflussen; sollte meist in # umgewandelt werden.
  • Ampersands: 35
  • Ausrufezeichen: 52.463
    • Abzüglich „Hauptartikel“: 21.849
    • Ausrufezeichen im Defaultsort: 172
      • ! an erster Stelle: 164
      • Inhaltlich verdächtig; nur eine Einzelkategorie kann mit dem „Hauptartikel“ in Verbindung gebracht werden.
      • Defaultsort kann nicht alle Einzelkategorien mit einem „Hauptartikel“ verknüpfen; erhebliche Gefahr von Fehlzuordnungen.
  • Tilde: 54
  • Fragezeichen: 70
    • Inhaltlich problematisch: ? an erster Stelle 70
      • meint teilweise wohl Ausrufezeichen
      • teilweise soll die Kategorisierung in Frage gestellt werden?
  • Gedankenstrich: 85
    • Teils Schreibfehler (Typografie), insgesamt folgenlos.
  • @: 32
    • Unicodeblöcke zu gleicher Schrift; unschädlich.

Bislang legitim, zukünftig zu ändern

Fehlerhaft, eliminieren

  • Sonderzeichen, die im Sortkey nicht aber im Seitentitel vorkommen:
    • Pipe |: 30
      • davon Pipe am Anfang: 0
      • mit Ausrufezeichen: 0
    • Steuerzeichen: 0
    • „Einige nicht-druckbare Zeichen“: 0
    • # und Doppelpunkte vor nicht-numerischem Schlüssel: 25
  • HTML-Tags in Schlüsseln: 63
  • Doppelpunkt nicht vor Ziffer: 58
    • Zahlreiche Fehler (von 58); einige wenige inhaltlich sinnvoll.

Nicht auswertbar

  • HTML-Entities in Schlüsseln: 0
    • Gültige Entities werden zunächst in Einzelzeichen konvertiert und dann dekodiert in die Datenbanktabellen geschrieben.

Absehbare Botläufe

In dieser Reihenfolge innerhalb betroffener Seiten; ggf. Seite nur einmal bearbeien und speichern!

  1. Kategorie:DINKategorie:Europäische NormKategorie:IEC-Norm
    • Doppelpunkt zwischen erster Ziffer und Zifferngruppe durch genau ein Leerzeichen ersetzen.
    • ^([1-9]):+([1-9].*)$Klammer1 Leerzeichen Klammer2
  2. Numerische Doppelpunkt-Codes, egal ob mit oder ohne #:
    • Doppelpunkte am Schlüsselbeginn vor nachfolgender Ziffer durch ein Leerzeichen ersetzen; dabei führenden # ggf. eliminieren, führende Nullen der Zifferngruppe (bis auf letzte Ziffer) eliminieren.
    • ^#?:+0*(0|0[^0-9].*|[1-9].*)$Klammer
    • 16.270
  3. Numerische #-Codes
    • Überall führenden # vor nachfolgender Ziffer eliminieren, führende Nullen der Zifferngruppe (bis auf letzte Ziffer) eliminieren.
    • #0*(0|0[^0-9].*|[1-9].*)$Klammer
    • 56.637

Akzeptable Frequenz: 100.000 Artikel/Monat; 3.000/Tag. Teilweise betreffen die Treffer mehrfach denselben Artikel. Die Umstellung wird sich wohl über eine Woche ziehen. Die fraglichen Artikel sind thematisch gleichartig und werden von denselben Mitarbeitern beobachtet; die Abarbeitungsreihenfolge sollte möglichst homogen über den Zeitraum verteilt sein; also nach pageid bzw. pageid%100 und nicht nach Lemma sortiert sein, oder random.

  • Eine Quarry kann für den Botbetreiber erstellt werden, die die unique CSV-Liste der pageid in geeigneter Vorsortierung verfügbar macht.
  • Parallel dazu sollen fast eine Dreviertelmillion Personen-Sortierschlüssel entfallen können.
  • Vorher wird die Aktion im Kurier bekanntgemacht.

Noch zu analysieren

Anmerkungen

Wikipedia:Technik/Labs/Quarry