Benutzer:Aka/Tippfehler entfernt
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Anzahl entfernter Tippfehler pro Monat | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<graph>{"legends":[],"scales":[{"type":"ordinal","name":"x","zero":false,"domain":{"data":"chart","field":"x"},"padding":0.2,"range":"width","nice":true},{"type":"linear","name":"y","domain":{"data":"chart","field":"y"},"zero":true,"range":"height","nice":true},{"domain":{"data":"chart","field":"series"},"type":"ordinal","name":"color","range":["#cccccc"]}],"version":2,"marks":[{"type":"rect","properties":{"hover":{"fill":{"value":"red"}},"update":{"fill":{"scale":"color","field":"series"}},"enter":{"y":{"scale":"y","field":"y"},"x":{"scale":"x","field":"x"},"y2":{"scale":"y","value":0},"width":{"scale":"x","offset":-1,"band":true},"fill":{"scale":"color","field":"series"}}},"from":{"data":"chart"}}],"height":200,"axes":[{"type":"x","title":"Jahr","scale":"x","format":"d","properties":{"title":{"fill":{"value":"#54595d"}},"grid":{"stroke":{"value":"#54595d"}},"ticks":{"stroke":{"value":"#54595d"}},"axis":{"strokeWidth":{"value":2},"stroke":{"value":"#54595d"}},"labels":{"align":{"value":"left"},"angle":{"value":90},"fill":{"value":"#54595d"}}},"grid":false},{"type":"y","title":"Anzahl","scale":"y","format":"d","properties":{"title":{"fill":{"value":"#54595d"}},"grid":{"stroke":{"value":"#54595d"}},"ticks":{"stroke":{"value":"#54595d"}},"axis":{"strokeWidth":{"value":2},"stroke":{"value":"#54595d"}},"labels":{"fill":{"value":"#54595d"}}},"grid":false}],"data":[{"format":{"parse":{"y":"integer","x":"integer"},"type":"json"},"name":"chart","values":[{"y":4,"series":"y","x":2003},{"y":13,"series":"y","x":2004},{"y":5045,"series":"y","x":2005},{"y":55612,"series":"y","x":2006},{"y":17118,"series":"y","x":2007},{"y":46775,"series":"y","x":2008},{"y":45035,"series":"y","x":2009},{"y":34296,"series":"y","x":2010},{"y":52196,"series":"y","x":2011},{"y":44083,"series":"y","x":2012},{"y":36314,"series":"y","x":2013},{"y":84258,"series":"y","x":2014},{"y":36205,"series":"y","x":2015},{"y":76454,"series":"y","x":2016},{"y":64817,"series":"y","x":2017},{"y":49583,"series":"y","x":2018},{"y":47342,"series":"y","x":2019},{"y":108963,"series":"y","x":2020},{"y":76901,"series":"y","x":2021}]}],"width":440}</graph> |
Da ich recht oft gefragt werde, wie ich Tippfehler suche und entferne, habe ich das Vorgehen, meine Beweggründe und Gedanken hier mal etwas ausführlicher abgelegt, um schnell darauf verweisen zu können.
Falsch geschriebene Wörter
Um auf mögliche Falschschreibungen zu kommen, habe ich mir viele tatsächlich in der Wikipedia existierende Tippfehler angesehen und versucht, diese zu kategorisieren und typische Fehler zu abstrahieren. Anhand einer Liste der 10.000 am meisten verwendeten Wörter der deutschen Sprache und mit einigen Zeilen Perl habe ich diese Fehler dann systematisch nachgestellt – also zum Beispiel in jedem Wort nebeneinander liegende Buchstaben vertauscht, um nur einmal eine der vielen Möglichkeiten zu nennen. Damit erhielt ich zwar viele potenzielle Tippfehler, aber auch sehr viele gültige Wörter, welche es galt, auszusortieren. Das Aussortieren ist dabei keine einmalige Aktion, sondern ein ständiger Prozess und passiert, wenn mir beim Suchen und Ersetzen Fälle unterkommen, die eben keine Fehler sind. Umgekehrt nehme ich aber auch Tippfehler von Hand auf, die so einzigartig sind, dass sie sich mit keinem Algorithmus sinnvoll automatisch erstellen lassen, und dennoch in der Praxis passieren. Man schreibt Universität, nicht Universtität, Universtät, Unversität, Univerität, Univeristät, Universiität, Universiät, Univrsität, Unviersität, Uiversität, Universittät, Unniversität, Univesität, Universtiät, Uniwersität, Universiätt, Universitätt, Univversität, Uinversität, Universsität, Unibersität, Universaität, Universitäät, Unuversität, Univetsität, Universitöt, Universitaet, Universitt, Universitäz, Uniersität, Unoversität, Iniversität, Universittä, Univerdität, Unuiversität, Universltät, Univerwität, Ubiversität, Uniiversität, Univärsität, Universdität, Univerisität, Universitiät, Unviversität, UNiversität, Univesitat, Universirät, Universitaät, Univerisät, Univsität, Univeersität, Üniversität, Universitäte, Universitä, Universit, Universitäts, Univerersität, Univertität, Univiversiät, Uniuversität, Univcersität, Univertiät, Univ ersität, Un iversität, universität, Universät, Universistät, Universotät, Universitsität, Umiversität, Universisität, niversität, Unsiversität, Universiotät, Unibversität, Uuniversität, Univertät, Univsersität, Univerrsität, Univesrität, Universoität, Universtätät, Universit#t, Unisversität, UUniversität, Universitäat, Univiversität, Universisät, Universiẗat, Universitãt, Universitåt, Universitât, Univerzität, Univeritöt, Universitä t, Universitätf, Universit‰t, Unifersität, Unkiversität, Universitätr, Universtitä, Universitäöt, Univiersität, Unveristät, UniversitÄt, Univ(ersität), Universitätä, Universitität oder Universit ̈at. Mittlerweile habe ich diese 109 verschiedenen (!) Arten gefunden, dieses Wort falsch zu schreiben. Die Liste gibt es jetzt auch als Video bei TikTok und YouTube.
Suchen
Das Suchen übernehmen einige extra dafür geschriebene und ständig weiterentwickelte Programme, welche mit verschiedenen Herangehensweisen und den oben erstellten Datenbasen arbeiten und an welchen ich stetig "herumschraube". Am Anfang haben diese in etwa 4 Prozent aller Artikel Fehler gefunden. Mittlerweile ist dies "nur" noch in etwa 0,5 Prozent der Fall.
Ersetzen
Das Ersetzen passiert schließlich per Hand – teilweise mit der Unterstützung einiger Zeilen Perl und AutoHotkey –, da es oft zu einem potenziell falschen Wort mehrere in Frage kommende gibt, die tatsächlich gemeint waren. Das ist die eigentliche Schwierigkeit hierbei.
Beispiele: wenn jemand "Geicht" tippte, meinte er dann "Gicht", "Gedicht", "Gericht", "Gesicht", "Gewicht", "Geeicht", einen Herrn Geicht oder doch ganz etwas anderes? Meinte jemand mit "Anzeihen" "Anziehen" oder "Anzeichen"? Wenn jemand "Rechung" schreibt, meinte er "Rechnung" (99% der Fälle) oder doch Rechung Dorje Dragpa? Ist mit "biter" "bitter" gemeint oder befindet sich dies gerade in einem althochdeutschen Satz und ist so richtig? Selbst "Gallerie", "Verson", "Wiederspruch", "alein", "enteckte" oder "Anwort" sind nicht immer falsch. Es gibt tausende solcher Fälle und die Wikipedia ist voll von anderssprachigen Zitaten, Eigennamen und anderen, dem Tippfehler Entfernenden Schwierigkeiten bereitenden Bestandteilen.
Eine vollautomatische Ersetzung geht bei in der deutschen Sprache geschriebenen Texten, die sich nur sehr schwer algorithmisch fassen lassen, deshalb leider nicht. Bots, wie der BWBot, stoßen aus diesem Grund schnell an ihre Grenzen und das Entfernen von Tippfehlern wird auf absehbare Zeit Handarbeit bleiben. Vermeiden lassen sie sich wohl kaum und auch auf dieser Seite ist sicher irgendwo einer versteckt, auch wenn ich den Text dreimal vor dem Absenden durchgelesen habe.
Kein Bot
Es ist also kein Bot, den ich einschalte und dann werkeln lasse, sondern sehr konzentrierte und auf Dauer auch recht anstrengende Fleißarbeit. Nebenbei versuche ich, auch gleich Komma- und Satzbaufehler mit zu entfernen. Und was mir sonst noch so auffällt. Bei aller Vorsicht bitte ich aber um Nachsicht und im Wiederholungsfall um einen Hinweis, wenn mir einmal ein Fehler passiert, welchen ich nicht selbst bemerke.
Ursprünglich war das einmal eine spontane Idee für einen Winternachmittag und sollte nie diese Ausmaße annehmen. Es war eher eine kleine programmiertechnische Herausforderung als der Plan, irgendwann einmal rudelweise Tippfehler zu entfernen. Mittlerweile beschäftigt mich dies und die Optimierung des ganzen Prozesses aber schon seit Weihnachten und etwa ein Drittel meiner Benutzerbeiträge haben ihre Ursache allein darin.
Vielleicht veröffentliche ich die ganzen Algorithmen und zugrunde liegenden Daten irgendwann einmal. Momentan ist das aber noch zu experimentell und unausgereift. Ich bleib' vorerst dran, auch wenn ich langsam "garnicht" gar nicht mehr ersehen kann.
-- aka 22:24, 30. Mai 2006 (CEST)