Benutzer:Stapelüberlauf
Liebe Besucherin, lieber Besucher, ich möchte dir kurz erläutern, wie ich mehr Fehler finde als ich beseitigen kann. Das ist ganz einfach. Ich habe eine (sortierte) Liste aller Wörter, die in Artikeln von de.wikipedia.org vorkommen (words.txt). Darin suche ich Kandidaten, in denen sich aufeinanderfolgende Teile doppeln:
/\(.\{3,\}\)\1/ !d
Das ist ein Befehl für sed, der alle Zeilen (hier: Wörter aus meiner Liste) löscht, in denen sich nicht mindestens drei aufeinanderfolgende Buchstaben unmittelbar darauf wiederholen. Übrig bleibt:
... Destruententätigkeit Desvesvara Detachechements Detallecastrotronha Detektektivgeschichten Deungagelegele Deungungok Deutschlandlandkarte Deutschlandlizenzen ...
Nun lasse ich sed mit h; s/\(.\{3,\}\)\1/\1/; G; s/\n/ /
das Wort nochmal ohne die doppelte Buchstabenfolge links daneben schreiben:
... Destruentätigkeit Destruententätigkeit Desvara Desvesvara Detachements Detachechements Detallecastronha Detallecastrotronha Detektivgeschichten Detektektivgeschichten Deungagele Deungagelegele Deungok Deungungok Deutschlandkarte Deutschlandlandkarte Deutschlandlizen Deutschlandlizenzen ...
Jetzt sind wir nur noch ein sort | join - words.txt
vom Ziel entfernt. Nachdem wir Wortteile entfernt haben, verwenden wir sort, um die von join erwartete alphabetische Reihenfolge zu schaffen. join schaut nach, ob auch die von uns erzeugten Wörter, die links stehen, in Wikipedia (words.txt) vorkommen und lässt nur Zeilen stehen, für die das der Fall ist (oder war [1][2][3]):
... Detachements Detachechements Detektivgeschichten Detektektivgeschichten Deutschlandkarte Deutschlandlandkarte ...
So sind die Tippfehler ziemlich konzentriert. Das Ergebnis umfasst bei mir ca. 9000 Zeilen. Und das ist nur die erste Idee, die ich hatte.