Benutzer:Michael Schönitzer (WMDE)/Sortierschlüssel
aus Wikipedia, der freien Enzyklopädie
Allgemeine Statistik
- Seiten überhaupt: 1.322
- Seiten mit Sortierschlüssel: 1.799.134
- Kategorisierungen mit Sortierschlüssel: 7.485.280
- Seiten mit Standardsortierschlüssel (defaultsort): 1.098.240
Mutmaßlich dauerhaft legitim, oder tolerierbar
- Sortkeys, die mit einem Leerzeichen beginnen: 11.111
- Vereinzelte inhaltliche Missgriffe, jedoch grundsätzlich in Ordnung.
- Runde Klammern: 25.404
- Gehupft wie gesprungen; ändern nichts am Ergebnis.
- Raute vor einem grammatikalischen Artikel: 12.780
- Komma vor einem grammatikalischen Artikel: 1.205
- Kann in seltenen Fällen bereits heute das Ergebnis beeinflussen; sollte meist in
#
umgewandelt werden.
- Kann in seltenen Fällen bereits heute das Ergebnis beeinflussen; sollte meist in
- Ampersands: 35
- Ausrufezeichen: 52.463
- Abzüglich „Hauptartikel“: 21.849
- Ausrufezeichen im Defaultsort: 172
!
an erster Stelle: 164- Inhaltlich verdächtig; nur eine Einzelkategorie kann mit dem „Hauptartikel“ in Verbindung gebracht werden.
- Defaultsort kann nicht alle Einzelkategorien mit einem „Hauptartikel“ verknüpfen; erhebliche Gefahr von Fehlzuordnungen.
- Tilde: 54
- Undokumentierte Regel, zurzeit Abschnitt nach den Buchstaben, zukünftig davor, in:
- Kategorie:Liste (Kulturdenkmäler in Hamburg) – mit führender Tilde: Bezirke
- Kategorie:Homosexualität im Film – mit führender Tilde: Festivals
- Kategorie:Travestie – mit führender Tilde: Theater
- Diakritisches Zeichen explizit: Kategorie:Lateinischer Buchstabe
- Undokumentierte Regel, zurzeit Abschnitt nach den Buchstaben, zukünftig davor, in:
- Fragezeichen: 70
- Inhaltlich problematisch:
?
an erster Stelle 70- meint teilweise wohl Ausrufezeichen
- teilweise soll die Kategorisierung in Frage gestellt werden?
- Inhaltlich problematisch:
- Gedankenstrich: 85
- Teils Schreibfehler (Typografie), insgesamt folgenlos.
- @: 32
- Unicodeblöcke zu gleicher Schrift; unschädlich.
Bislang legitim, zukünftig zu ändern
- Numerische Doppelpunkt-Codes: 16.270
#
direkt gefolgt von Zahl: 56.637
Fehlerhaft, eliminieren
- Sonderzeichen, die im Sortkey nicht aber im Seitentitel vorkommen:
- HTML-Tags in Schlüsseln: 63
- Doppelpunkt nicht vor Ziffer: 58
- Zahlreiche Fehler (von 58); einige wenige inhaltlich sinnvoll.
Nicht auswertbar
HTML-Entities in Schlüsseln: 0- Gültige Entities werden zunächst in Einzelzeichen konvertiert und dann dekodiert in die Datenbanktabellen geschrieben.
Absehbare Botläufe
In dieser Reihenfolge innerhalb betroffener Seiten; ggf. Seite nur einmal bearbeien und speichern!
- Kategorie:DIN – Kategorie:Europäische Norm – Kategorie:IEC-Norm
- Doppelpunkt zwischen erster Ziffer und Zifferngruppe durch genau ein Leerzeichen ersetzen.
^([1-9]):+([1-9].*)$
→ Klammer1 Leerzeichen Klammer2
- Numerische Doppelpunkt-Codes, egal ob mit oder ohne #:
- Doppelpunkte am Schlüsselbeginn vor nachfolgender Ziffer durch ein Leerzeichen ersetzen; dabei führenden # ggf. eliminieren, führende Nullen der Zifferngruppe (bis auf letzte Ziffer) eliminieren.
^#?:+0*(0|0[^0-9].*|[1-9].*)$
→ Klammer- 16.270
- Numerische #-Codes
- Überall führenden # vor nachfolgender Ziffer eliminieren, führende Nullen der Zifferngruppe (bis auf letzte Ziffer) eliminieren.
#0*(0|0[^0-9].*|[1-9].*)$
→ Klammer- 56.637
Akzeptable Frequenz: 100.000 Artikel/Monat; 3.000/Tag. Teilweise betreffen die Treffer mehrfach denselben Artikel. Die Umstellung wird sich wohl über eine Woche ziehen. Die fraglichen Artikel sind thematisch gleichartig und werden von denselben Mitarbeitern beobachtet; die Abarbeitungsreihenfolge sollte möglichst homogen über den Zeitraum verteilt sein; also nach pageid bzw. pageid%100 und nicht nach Lemma sortiert sein, oder random.
- Eine Quarry kann für den Botbetreiber erstellt werden, die die unique CSV-Liste der pageid in geeigneter Vorsortierung verfügbar macht.
- Parallel dazu sollen fast eine Dreviertelmillion Personen-Sortierschlüssel entfallen können.
- Vorher wird die Aktion im Kurier bekanntgemacht.
Noch zu analysieren
- Sonderzeichen, die im Sortkey nicht aber im Seitentitel vorkommen:
- Minus: 8.064
- Schrägstrich: 3.490
- Punkt: 2.305
- Apostroph: 793
- → Nicht ASCII-Sonderzeichen