Benutzer:APPER/WikiHistory/Autorenbestimmung
Häufig wünschen sich Leser und Autoren Informationen darüber, wer die Autoren eines Wikipedia-Artikels sind. Die Versionsgeschichte liefert erste Ansätze; da es aber im Schnitt fast 50 Versionen pro Artikel gibt, ist dieser Weg meist mühselig.
Erste Ansätze zum Erkennen, wer sich mit diesem Artikel wirklich beschäftigt hat, gehen meist von der Anzahl der Bearbeitungen aus. Auch der Blick auf den Erstautoren eines Artikels ist häufig sinnvoll. Man stellt sich aber schon die Frage: Wieso wird nicht einfach eine Liste der Autoren mit dem dazugehörigen Artikelanteil angezeigt?
WikiHistory leistet das. Trotzdem sind diese Zahlen mit Vorsicht zu genießen. In diesem Text möchte ich auf die Probleme eingehen.
Probleme bei der Autorenbestimmung
Die Autorenbestimmung ist nur zum Teil ein technisches Problem. Viele Dinge sind einfach schwer in Zahlen darstellbar.
Allgemein wird bei Prozentangaben zur Autorenschaft der Text betrachtet. Besteht der Text aus "Wort1 Wort2" und "Wort1" wurde von Autor 1 geschrieben und "Wort2" von Autor 2 haben beide einen Anteil am Artikel von 50%. Problem: Wie wird mit Leerzeichen umgegangen? Wenn der Artikel zunächst "Wort1" lautete und Autor 2 "Wort2" angehängt hat, hat er ja auch ein Leerzeichen hinzugefügt - hat er dann mehr als 50% beigetragen? WikiHistory ignoriert Leerzeichen und Zeilenumbrüche (es sei denn durch ein neues Leerzeichen wird ein Wort geteilt - dies hat Auswirkungen).
Ein weiteres Beispiel: Ein Autor verlinkt in einem Artikel ein Wort: Aus "Wort1" wird "[[Wort1]]". Wieviel hat dieser Autor zum Artikel beigetragen? WikiHistory entfernt eckige Klammern und ignoriert sie. Anders sieht es aus, wenn auf einen anderen Artikel verlinkt wird: Aus "Wort1" wird "[[Besonderer Artikel|Wort1]]". In diesem Fall werden die Wörter "Besonderer Artikel" dem verlinkenden Autor gutgeschrieben (die Verlinkungsklammern wiederum nicht).
WikiHistory arbeitet also auf einer Liste von Wörtern - Leerzeichen und einige Sonderzeichen werden entfernt und nicht betrachtet. Nun kommt ein technisches Problem, zu dem es verschiedene Ansichten gibt: Es ist technisch aufwändig, sämtliche alten Versionen zu prüfen - ist es möglich, wenn man die Textanteile einer leicht älteren Version hat, daraus die Textanteile der aktuellen Version zu berechnen ohne sich alle älteren Versionen anzuschauen? Ich bin der Meinung, dass dies nicht möglich ist. Beispiel: In einer uralten Version steht ein Abschnitt des Autors 1. Dieser wurde irgendwann entfernt. 20 Versionen später fügt Autor 2 diesen Abschnitt wieder identisch ein. Man muss nun wissen, dass der Text bereits vorhanden war, um ihn korrekt Autor 1 zuordnen zu können. WikiHistory prüft daher immer die aktuelle Version gegen alle alten Versionen. Dies macht es technisch aufwändiger, ist meiner Meinung nach aber die einzig vertretbare Option.
Ein großes Problem bei der Betrachtung von Wörtern sind Löschungen: Ein wüster Text voller Werbe-Adjektive wird von Autor 1 eingestellt. Autor 2 macht sich in stundenlanger Arbeit daran, die Wörter zu sortieren und vieles zu streichen. Wieviel Prozent hat Autor 2 beigetragen? Solche Arbeiten können mit diesem Verfahren nicht erfasst werden.
Welche Anteile des Artikels sollen überhaupt beachtet werden? WikiHistory betrachtet sämtliche Wörter, auch Syntax. Eine Entfernung von Kategorien, Infoboxen, Bild-Dateinamen etc. wäre sicher möglich, aber auch diese Teile gehören zum Artikel. Dies bringt aber auch wieder Probleme mit: Ändert jemand (nebenbei) die Syntax von "File:" auf "Datei:" wird diesem Autor dieses Wort zugeschrieben, obwohl er urheberrechtlich nichts geleistet hat. Auch dieses Verhalten wäre durch umfangreiche Spezialfall-Behandlungen änderbar, aber ich habe mich entschieden, keine Spezialfälle zu betrachten, da diese immer Konfliktpotenzial haben.
Was weiterhin nicht erfasst wird, sind andere Arbeiten an Artikeln: Beispielsweise aktive Sichtungen und Verschiebungen - und natürlich mühsam in stundenlangen Diskussionen gefundene Kompromisse. Jeder Revert ist sinnvoll, und Vandalenjäger leisten unschätzbare Arbeit - im ermittelten Artikelanteil spiegelt sich das nicht wider.
Bei der Betrachtung von Wörtern stellt sich die Frage, wie mit Rechtschreibkorrekturen umgegangen wird. Wieviel Prozent hat der Autor beigetragen, der aus "Wrot1" "Wort1" macht? Der Algorithmus von WikiHistory misst dem Korrektor hier zuviel Anteil zu: Das korrigierte Wort wird ihm zugeschlagen.
Warum trotzdem?
Im letzten Abschnitt habe ich die Probleme der Autorenbestimmung dargelegt. Wieso habe ich trotzdem WikiHistory entwickelt?
Die Ergebnisse sind - entsprechend der Erklärungen - nie als einzige Wahrheit zu betrachten. Aber sie sind im Großteil der Fälle sinnvollere Einstiegspunkte als die reine Anzahl der Bearbeitungen. Ignoriert man die genauen Zahlen und sieht sie nur im Vergleich zueinander, kann mittels der Ergebnisse sehr gut der oder die Hauptautoren ermittelt werden. Die fast 50 Versionen eines Durchschnittsartikels stammen von knapp 27 Autoren - fast 40% von diesen hat aber keinen ermittelbaren Text zum Artikel beigetragen. Durchschnittlich nur 2,6 Autoren haben mehr als 5% zu einem Artikel beigetragen. Der Autor mit dem größten Textanteil hat im Durchschnitt fast 70% beigetragen, wohingegen der Zweitautor nur 13% beigetragen hat. Einem Durchschnittsartikel lässt sich also fast immer ein einzelner Hauptautor zuordnen. Sucht man einen Ansprechpartner, kann das sehr hilfreich sein.