Benutzer Diskussion:SirJective/Newpages verdoppelt
Diese Liste wird automatisch erstellt und manuell hochgeladen.
Mit wget wird nachts die Liste der 1000 neuesten Artikel runtergeladen. Die html-Seite wird dann mit sed und uniq so zerhackt, dass die Liste der doppelten Artikel übrigbleibt.
Der Zerschnippelungsteil sieht so aus:
- sed -e '/<li>/!d' n.html|sed -n -e '1p;$p'|sed -e 's/^.*<li>//;s/<a href.*$//;s/^[ ]*//;s/[ ]*$//' -e '1!G;h;$!d' -e '$!N;s/\(.*\)\n\(.*\)/== \1 - \2 ==/' > n.txt
- sed -e '/<li>/!d;s@</a>.*$@@;s@^.*<li>\(.*\) <a.*/wiki/\(.*\). title=.*>@*\1 [http://de.wikipedia.org/wiki/index.php?title=\2\&redirect\=no] @' n.html|sort /+60|uniq -s60 -d>>n.txt
Die erste Zeile beschafft den Zeitpunkt des neuesten und des ältesten neuen Artikels und bastelt daraus die Überschrift. Die zweite Zeile schnippelt die Titel der neuen Artikel aus (einmal in der verlinkbaren und einmal in der lesbaren Form), sortiert diese und sucht die mehrfach vorhandenen Zeilen heraus. Der Zeitpunkt der ersten Erstellung des Artikels wird mit angegeben.
--SirJective 01:28, 18. Jan 2005 (CET)
Werden die Einträge mittlerweile automatisch korrigiert?
Ich wollte grade die Liste abarbeiten, dabei habe ich bei der Überprüfung der ersten Einträge folgendes festgestellt:
Die Einträge sind auf Spezial:Allpages nicht mehrfach eingetragen. Schaut man sich die History der Artikel an, so sieht man allerdings bei eingen Artikeln eine alte Version als letzten Eintrag - auch beim Edit des Artikels erscheint (manchmal) die alte Version im Editfenster.
Es sieht so aus, als ob die Datenbank in den letzten Tagen automatisiert bereinigt wurde, wobei bei einigen Artikeln die History durcheinander gekommen ist. Das paßt zu meiner Beobachtung der letzten Tage, dass mir trotz z.T. massiven Speicherproblemen keine Doppelartikel mehr auf den Special:Newpages aufgefallen sind. Könnte es sein, dass das Problem der Doppelartikel endlich beseitigt ist? Ich wage es kaum zu hoffen ... -- srb ♋ 11:13, 9. Mär 2005 (CET)
- Es sieht ganz danach aus: Die letzte Abfrage der Newpages von gestern Nacht lieferte im Zeitraum von 3. bis 8. März keine doppelten Einträge. Wollen wir hoffen, dass das nicht nur eine Modifikation der Newpages-Abfrage ist... ;) Jedenfalls bekomme ich für diese Liste hier keine Resultate mehr und schließe sie vorerst. --SirJective 20:34, 9. Mär 2005 (CET)