Vorlage Diskussion:Defekter Weblink

aus Wikipedia, der freien Enzyklopädie

Ausgabe eines Schattenlinks zum Auffinden gefundener ungefixter und bereits gefixter URLs / URLs mit problematischen Zeichen

Inzwischen ist der Botlauf fast vollständig (nur noch Artikel aus 2015 fehlen), da würde die Ausgabe von Hilfslinks für die Wartung richtig effizient. Durch die Auslieferung einer nicht sichtbaren URL (<span style="display:none;">) mit einem fixen Präfix lassen sich bereits gefixte URL, wo die Vorlage noch nicht entfernt wurde, oder bestimmte Muster noch nicht gefixter URLs recht effizient finden. Auch für die Problemfälle wären derartige URLs viel effizienter als Kategorien (Was nützt eine kategorisierte Seite wenn etwa in einem Nekrolog 1000 URL vorkommen, hundert davon defekt, und nur eine Handvoll haben irgendwelche Zeichenfehler?)

Beispiel für eine analoges SQL wäre beispielsweise dieses Quarry, hier für das Internet Archive zum Auffinden von URLs, die anderswo bereits als Archiv-URL vorliegen (Quarry 7499):

USE dewiki_p;
SELECT CONCAT('| ',CONCAT('[[',GROUP_CONCAT(pr.page_title SEPARATOR ']], [['),']]'),' || ', farchivepage  ,' || ', el_to) as tableline
FROM externallinks as eur 
   INNER JOIN page as pr on eur.el_from=pr.page_id
   INNER JOIN (SELECT substring(euf.el_to,29+15) as f, CONCAT('[[',GROUP_CONCAT(pf.page_title SEPARATOR ']], [['),']]') as farchivepage, max(euf.el_id) as m_id
        FROM externallinks as euf INNER JOIN page as pf on euf.el_from=pf.page_id
        WHERE el_index LIKE "https://org.archive.web./web/______________/%" 
        and pf.page_namespace=0
        GROUP BY substring(euf.el_to,29+15)      ) as filter on filter.f=el_to

WHERE pr.page_namespace=0 
GROUP BY el_to
ORDER BY m_id DESC              
LIMIT 100
Erklärung: die Subquery "filter" liefert alle URL, durch das Internet-Archive im Artikelsnamensraum vorkommen, sowie eine Liste aller davon betroffen Artikel.
Die Hauptabfrage liefert eine Tabellenzeile, die zu einer betroffenen URL eine Liste alle Lemmata mit Vorkommen der Live-URL und eine Liste aller Lemmata mit korrespondierender Archiv-URL enthalten.
Die Sortierung erfolgt nach Hinzufügen der Archiv-URL absteigend.

Mit einem Präfix à la http://giftbot.invalid/$defekteURL ließen sich analoge SQL-Abfragen basteln, die man recht effizient in Wartungslisten und Botaufträge umsetzen könnte. Im Fall von Fehlern wie seltsame Zeichen könnte man diese ebenso ausgeben, z. B. ltrrtl.giftbot.invalid, pipe.giftbot.invalid,... Mit Hilfe von Quarry oder der Giftbot/weblinksuche wären praktische Wartungslisten kein Problem. Die Vorlage {{Toter Link}} arbeitet schon seit langer Zeit mit solcher Technik. @Giftpflanze, PerfektesChaos, Mabschaaf, Leyo:. (@Leyo,Giftpflanze: ich sehe die Ausgabe solcher Schatten-URLs auch als Ergänzung zu einer Filtermöglichkeit nach defekten Weblinks über die Giftbot/weblinksuche.) Frohes Schaffen — Boshomi ☕⌨☺ Defekte URLs - Hilfe gesucht  15:02, 21. Feb. 2016 (CET)

Hier ein Beispiel das Ergebnis des obigen Quarry:


 Frohes Schaffen — Boshomi ☕⌨☺ Defekte URLs - Hilfe gesucht  15:21, 21. Feb. 2016 (CET)

@Boshomi: Ich kann dazu inhaltlich nicht viel sagen. Formal ist die Diskussion hier auf der Vorlagenseite aber falsch. Wenn Du Dir den Quelltext vorne anschaust, siehst Du, dass die Vorlage nur noch das Modul aufruft. Mehr ist da nicht. Wenn das Modul geändert/erweitert werden soll, muss PC ran, der ist der einzige, der das pflegen kann. Der bessere Diskussionsort wäre wohl Wikipedia:Lua/Werkstatt/Defekter Weblink Bot.--Mabschaaf 21:28, 22. Feb. 2016 (CET)
@Mabschaaf:: Klar liegt das bei PerfektesChaos. Der Nutzen solche Abfragen sollte sich allerdings schon aus dem obigen Beispiel erschließen, das eine recht klare fast vollständig abarbeitbare Wartungsliste ergibt (entweder Original ist tot, dann das Archiv, andernfalls sollen die Archive wieder durch Originallinks ersetzt werden. (Mir ist bewusst, dass diese konkrete Abfrage Datenbanktechnisch schon recht anspruchsvoll ist, immerhin wird über ein gruppiertes Subselect gefiltert, in einer Tabelle mit 20 Mio Datensätzen und einem fast 6stelligen Resultat im Subselect. Allerdings wären die allermeisten der sehr nützlichen Abfragen um 10er-Stufen billiger machbar.) Insbesondere Schattenlinks auf Problem-URLs kosten der Datenbank fast gar nichts, und wenn man sich z. B. auf die Abarbeitung eines speziellen Zeichens beschränkt, ist man mit einer ganzen Kat in den meisten Fällen in recht kurzer Zeit fertig. Siehe mal die Liste, die ich erst im Wartungsbausteinwettbewerb abgeliefert habe. Das war natürlich das Produkt einer systematischen Herangehensweise. Nur möchte ich diese systematische Arbeit möglichst vielen Benutzern ermöglichen.  Frohes Schaffen — Boshomi ☕⌨☺ Defekte URLs - Hilfe gesucht  21:56, 22. Feb. 2016 (CET)
Siehe Quarry:query/7715  Frohes Schaffen — Boshomi ☕⌨☺ Defekte URLs - Hilfe gesucht  18:00, 29. Feb. 2016 (CET)