Benutzer:Stapelüberlauf

Liebe Besucherin, lieber Besucher, ich möchte dir kurz erläutern, wie ich mehr Fehler finde als ich beseitigen kann. Das ist ganz einfach. Ich habe eine (sortierte) Liste aller Wörter, die in Artikeln von de.wikipedia.org vorkommen (words.txt). Darin suche ich Kandidaten, in denen sich aufeinanderfolgende Teile doppeln:

/\(.\{3,\}\)\1/ !d

Das ist ein Befehl für sed, der alle Zeilen (hier: Wörter aus meiner Liste) löscht, in denen sich nicht mindestens drei aufeinanderfolgende Buchstaben unmittelbar darauf wiederholen. Übrig bleibt:

...
Destruententätigkeit
Desvesvara
Detachechements
Detallecastrotronha
Detektektivgeschichten
Deungagelegele
Deungungok
Deutschlandlandkarte
Deutschlandlizenzen
...

Nun lasse ich sed mit h; s/\(.\{3,\}\)\1/\1/; G; s/\n/ / das Wort nochmal ohne die doppelte Buchstabenfolge links daneben schreiben:

...
Destruentätigkeit Destruententätigkeit
Desvara Desvesvara
Detachements Detachechements
Detallecastronha Detallecastrotronha
Detektivgeschichten Detektektivgeschichten
Deungagele Deungagelegele
Deungok Deungungok
Deutschlandkarte Deutschlandlandkarte
Deutschlandlizen Deutschlandlizenzen
...

Jetzt sind wir nur noch ein sort | join - words.txt vom Ziel entfernt. Nachdem wir Wortteile entfernt haben, verwenden wir sort, um die von join erwartete alphabetische Reihenfolge zu schaffen. join schaut nach, ob auch die von uns erzeugten Wörter, die links stehen, in Wikipedia (words.txt) vorkommen und lässt nur Zeilen stehen, für die das der Fall ist (oder war [1][2][3]):

...
Detachements Detachechements
Detektivgeschichten Detektektivgeschichten
Deutschlandkarte Deutschlandlandkarte
...

So sind die Tippfehler ziemlich konzentriert. Das Ergebnis umfasst bei mir ca. 9000 Zeilen. Und das ist nur die erste Idee, die ich hatte.

Anonym

Suche

Benutzer:Stapelüberlauf

Namensräume

Mehr

Seitenaktionen

Navigation

Navigation

Mitmachen

Wikiwerkzeuge

Wikiwerkzeuge

Anonym

Suche

Benutzer:Stapelüberlauf

Navigation

Wikiwerkzeuge

Seitenwerkzeuge

Weitere Projekte