Vorlage Diskussion:Weblink ohne Linktext

Inline oder nicht Inline

Puh, wird mir gerade erst bei diesem Beispiel klar: Vom Wartungs-/Verwaltungsstandpunkt sicher gut; das Fixen dieser Fehler nach der Markierung mit der Vorlage ist aber deutlich aufwändiger. Wo man vorher im Idealfall nur die eckige Klammer verschieben musste, muss nun die komplette Vorlage wieder entfernt werden, die zudem aus einem Teil vor und einem Teil nach dem Link besteht. Ist es hier tatsächlich hilfreich, den Link zu umschließen ("Inline"), oder würde auch folgende Variante ausreichend sein:

[www.linkohnetext.com/a.pdf {{Weblink ohne Linktext|PDF}}]

In diesem Fall wäre zumindest alles gebündelt. Aber ich bin da gerne anderen Meinungen zugänglich.--Mabschaaf 13:41, 3. Dez. 2012 (CET)

Zum ersten Punkt: Mir war gar nicht bewusst, dass die von Dir vorgeschlagene Variante überhaupt in Verbindung mit der Zuordnung zur Wartungskategorie funktioniert, aber es würde gehen, habe es gerade ausprobiert. Die URL hätte man dann nicht als Parameter (außer man würde sie doppelt führen, was ich aber auch nicht will), dies ist aber verschmerzbar. Was aber ein Riesenvorteil Deiner Variante ist: Die Vorlage generiert keine Brackets, ist in gewisser Weise weniger trickreich, wäre für Nicht-Techniker verständlicher denke ich. Leyos Meinung dazu würde mich auch noch interessieren.

--Cactus26 (Diskussion) 14:06, 3. Dez. 2012 (CET)

Bei der Vorlage:Toter Link führte die Nicht-Inline-Variante zu erheblichen Schwierigkeiten, die Boshomi gerade mühevoll behoben hat. Deshalb sollte man hier gut überlegen, ob es auch Nachteile hat, eben darauf zu verzichten.--Mabschaaf 14:25, 3. Dez. 2012 (CET)

Ich denke auch, dass Mabschaafs Vorschlag die Abarbeitung von Hand begünstigen würde. --Leyo 14:34, 3. Dez. 2012 (CET)

Mabschaaf, Deine Bedenken bzgl. der Nicht-Kapselung (inline) des Links kann ich nachvollziehen, ich finde auch ausgesprochen schade, dass die {{Toter Link}} nicht schon immer schlicht den Weblink kapselt und außer dem Link selbst nichts generiert (damit man sie auch innerhalb Vorlagen, die URLs als Parameter (wie {{Internetquelle}}) haben, verwenden kann). In unserem Fall ist die Sachlage aber tats. anders. Die Vorlage direkt hinter den Link zu stellen, ergibt hier keinen Nachteil, zumindest habe ich keinen gefunden. Leyos und Dein Argument, dass es die Bearbeitung erleichtert, kann ich nachvollziehen. Diese Variante ist in jeder Hinsicht einfacher, je länger ich darüber nachdenke, desto überzeugter bin ich, dass sie die bessere Wahl ist. Eine Frage ist noch, ob der Bot die Vorlage direkt an die URL anschließen soll, oder ob man noch eine Leerzeichen dazwischen einfügt, was der Parser durchaus zulässt. Vermutlich ist es mit Blank besser (s.a. Benutzer:Cactus26/Test), weil es besser lesbar ist.--Cactus26 (Diskussion) 07:53, 4. Dez. 2012 (CET)

Ja, mit Blank ist wohl besser. Du müsstest auf der Vorderseite noch die Beschreibung anpassen. --Mabschaaf 08:24, 4. Dez. 2012 (CET)

Habe ich angepasst. Du darfst gern weitere Verbesserungen/Ergänzungen anbringen, wenn Du magst.--Cactus26 (Diskussion) 08:41, 4. Dez. 2012 (CET)

Wäre es möglich, dass dein Bot bei Einzelnachweisen ohne Text den HTML-Titel ausliest und als Vorschlag ergänzt?

[www.linkohnetext.com/abc.html {{Weblink ohne Linktext|Botvorschlag=Das Test-ABC}}]

Falls der Titel Sinn macht, bräuchte so nur die Vorlage um den Titel gelöscht werden. --Leyo 10:58, 4. Dez. 2012 (CET)

Die Idee ist gut, kam in ähnlicher Weise von PerfektesChaos nahezu gleichzeitig auf meiner B.disk. Ich arbeite daran.--Cactus26 (Diskussion) 12:45, 4. Dez. 2012 (CET)

Die URL muss innerhalb der Einbindung stehen. Begründung ausführlicher unter #Design.
- Es ist Kokolores, die gleiche Information und eine sich womöglich über die gesamte Breite des Bearbeitungsfeldes ringelnde URL zweimal nacheinander anzugeben. Das widerspricht dem Gebot der Redundanzfreiheit und macht es erst recht unübersichtlich.
Durch banales subst/ers verschwinden manuell sofort alle verborgenen Zusatzinformationen, und es bleibt nur der minimale Rest übrig:
- [ URL und dargestellter Minimal-Titel „(PDF)“ ]
Warum die Vorlage:Internetquelle, die selbst einen Titel als Pflichtparameter führt, jemals eine Vorlage für unbetitelte Weblinks einbinden solle, erschließt sich mir nicht.
- Das gilt auch für andere Vorlagen, die ja schon inhaltlich wissen, worum es geht.
- Sollte es trotzdem jemals einen Anwendungsfall geben, in dem innerhalb einer anderen Vorlage nur die URL benötigt wird, gäbe es den etwa aus der Vorlage:Allmusic bekannten Parameter NurURL=ja. Allerdings wird selbst in Vorlage:Literatur bei Online= der vollständig betitelte Link erwartet.

VG --PerfektesChaos 21:51, 4. Dez. 2012 (CET)

Ich kann Dir hier nicht ganz folgen, manches steht überhaupt gar nicht zur Debatte, was den Sachverhalt Vorlagenparameter anbelangt, siehe unten bei Design.--Cactus26 (Diskussion) 09:07, 5. Dez. 2012 (CET)

Ich muss gestehen, dass ich gerade noch mal über eine 3. Variante nachdenke, und zwar eine, die den Weblink kapselt, aber die Brackets nicht generiert, also:

* Link zum Test-ABC [{{Weblink ohne Linktext|URL=www.linkohnetext.com/abc.html|Hinweis=Das Test-ABC}}]

statt (wie augenblicklich implementiert)

* Link zum Test-ABC [www.linkohnetext.com/abc.html {{Weblink ohne Linktext|Hinweis=Das Test-ABC}}]

Nachteil dieser kapselnden Variante ist, dass man die Vorlage nicht einfach hinauswerfen kann sondern durch den Inhalt des Parameters URL ersetzen muss, wenn man nichts ändern will. Vorteil ist, dass Tools wie Template-Tiger die URLs dabeihätten (was immer das bringt). Wie ist es mit der Bedienbarkeit bei Verbesserung?--Cactus26 (Diskussion) 13:52, 6. Dez. 2012 (CET)

Templatetiger ist leider immer weit im Verzug, bringt also in so einem Fall recht wenig. Die gewählte Form ist tatsächlich recht leicht bearbeitbar. Für die Kategorie habe ich einen Absatz in Wikipedia:WikiProjekt_Weblinkwartung/Monitoring eingefügt. (derzeit sind alle Vorlageneinbindungen abgearbeitet) Frohes Schaffen, Boshomi ☕⌨☺ – 06:45, 8. Jan. 2013 (CET)

Dankeschön, feine Sache.--Cactus26 (Diskussion) 09:31, 8. Jan. 2013 (CET)

Plain Links

Eine zweite Frage wäre: warum eigentlich nur Links in der Form [www.linkohnetext.com/a.pdf] markieren und nicht auch "plain links", also www.linkohnetext.com/a.pdf - die sind laut H:L genauso wenig erwünscht (und für spätere Ersetzungen, beispielsweise nach Verschwinden des Linkziels, praktisch unbrauchbar.--Mabschaaf 13:41, 3. Dez. 2012 (CET)

Zum zweiten Punkt: Ich würde vorschlagen, Plain Links erst in einem späteren Schritt zu taggen. Sonst wird die Anzahl an betroffenen Artikeln vorübergehend demotivierend hoch. --Leyo 13:47, 3. Dez. 2012 (CET)

Zu den Plain Links: Sehe es ähnlich wie Leyo, würde uns jetzt überfordern, denke ich, finde sie vom Handling her auch nicht ganz so schlimm, sehen nur blöd aus, wenn die URL nicht kurz und knackig ist.

--Cactus26 (Diskussion) 14:06, 3. Dez. 2012 (CET)

Wenn wir für den ersten Test nur den Katbaum Chemie benutzen, wie von Leyo vorgeschlagen, könnte man direkt beides machen, da die Variante mit Klammern und ohne Text dort jetzt schon praktisch nicht mehr vorkommt (nur noch bei ganz frischen Neueinfügungen in dieser Form, die letzte erstellte Wartungsliste von Benutzer:Reinhard Kraasch ist seit heute morgen leer. Reinhard hatte ich auch hier schon gefragt, ob er wenigstens mal eine Zahl liefern kann, um wieviele Einbindungen es dabei ginge.--Mabschaaf 14:25, 3. Dez. 2012 (CET)

Ich würde die puren Weblinks ungern jetzt mit einschließen, ich möchte sie zunächst zurückstellen:

sie sind weniger schlimm (sie sind nicht kontraintuitiv, weil sie keine mit den Einzelnachweisen verwechselbare Nummern produzieren, auch benötigen sie kein Zielwasser, um den Link anzuklicken), sie sind einfach nur hässlich
es würde mich einige Mühe kosten, sie einzubeziehen, denn die Verwendung von puren Links als Vorlagenparameter ist ja z.B. legal, hier gut von böse zu trennen, würde schon noch einiges an zus. Logik bedeuten.
Zum Katbaum-Chemie s.u.

--Cactus26 (Diskussion) 08:12, 4. Dez. 2012 (CET)

Doch nochmal ein Nachhaken hierzu: Plainlinks sind eine Katastrophe, wenn sie offline gehen und auch keine archivierte Version existiert. Dann hat man praktisch keine Chance, einen Ersatz zu finden. Könntest Du vielleicht einfach mal als ersten Schritt herausfinden, wieviele Plainlinks in der Form <ref>http://www.plainlink.com</ref> (also ohne Vorlageneinbindung, direkt ref-geklammert) unterhalb der Kategorie:Chemie existieren (und dann ggf. eine Artikelliste dazu liefern)? --Mabschaaf 10:45, 30. Dez. 2012 (CET)

Ich schau mal in den nächsten Tagen, was ich da machen kann.--Cactus26 (Diskussion) 08:50, 31. Dez. 2012 (CET)

Ist es nicht so, dass Weblinks immer „nackt“ dargestellt werden, falls vor dem http:// weder ein [ noch ein = (plus ggf. Leerzeichen) steht? --Leyo 12:00, 7. Jan. 2013 (CET)

Deine Regel deckt sich mit meinem Kenntnisstand fast, aber nicht ganz (Pipe bei Stellungsprm. in Vorlagen ist ggf. auch ein nicht zu beanstandender Fall). Ich würde es anders formulieren: Ein Weblink (http...) wird nackt dargestellt, wenn kein "[" davor ist und er nicht Vorlagenparameter ist. Wenn er Vorlagenparameter ist, hängt es davon ab, was die Vorlage damit macht. In den meisten Fällen dürfte ein nackter Weblink als Vorlagenparameter nicht zu beanstanden sein, eine prominente Ausnahme ist allerdings der Online-Parameter von {{Literatur}}.--Cactus26 (Diskussion) 13:23, 7. Jan. 2013 (CET)

Nachtrag: Das größte Problem bei Erweiterung der Funktionalität auf nackte Weblinks ist aber, dass es sehr schwierig ist, herauszufinden wo der Weblink aufhört. Da hat der Wiki-Parser einige bizarre Eigenheiten (s.a. Benutzer:Cactus26/ParserAndExternalLinks).--Cactus26 (Diskussion) 13:30, 7. Jan. 2013 (CET)

Hm, wie wär's, die Vorlage in schwierigen Fällen davor zu setzen? Der Anfang von Plainlinks ist ja wohldefiniert. --Leyo 13:46, 8. Jan. 2013 (CET)

Das ist eine gute Idee, das verhindert zwar nicht, dass ggf. ein paar falwsch positive gemeldet werden, aber es verhindert, dass in diesen Fällen zudem der Link ruiniert wird. Vermutlich bin ich hier auch zu pedantisch, da pure Links typischerweise kaum exotische Zeichen enthalten. Entschuldige, ich habe parallel zu Deinem Beitrag einen neuen Thread aufgemacht.--Cactus26 (Diskussion) 13:53, 8. Jan. 2013 (CET)

Bereich für prototypischen Einsatz

Den Bereich Chemie halte ich für recht ungeeignet, weil er schon abgegrast ist (selber schuld ;-). Mir fallen zwei Strategien ein:

wir suchen einen anderen thematischen Bereich (könnte ja z.B. mal bei den Biologen anfragen, ob Interesse besteht)
wir beziehen uns auf Artikel mit PDF-Links
- grundsätzlich alle mit PDF-Links
- nur die, die linktextlose PDF-Links enthalten

Die erste Variante hat den Vorteil, dass es Redaktionsmitarbeiter gibt, die sich der Sache annehmen und die Fälle bearbeiten. Im anderen Fall ist das nicht so sicher. Die zweite Variante hat den Vorteil, dass bei einem gewissen Prozensatz der Artikel der Bot die Probleme (teilweise oder ganz) selbst beheben kann.--Cactus26 (Diskussion) 08:19, 4. Dez. 2012 (CET)

Ich fände einen Bereich sinnvoll, wo Mabschaaf und ich inhaltlich vertraut sind. Anbieten würde sich wohl ein nicht allzu grosser naturwissenschaftlicher Kategoriebaum (Kategorie:Werkstoff, Kategorie:Mikrobiologie?). Der Biologie-Katbaum ist IMO für den Testlauf zu gross. --Leyo 11:09, 4. Dez. 2012 (CET)

Na gut, ich wäre etwas mutiger gewesen. Wie viele Artikel sind denn in diesen Kat-Bäumen, die nicht auch zu Chemie gehören, was schätzt Du?--Cactus26 (Diskussion) 12:46, 4. Dez. 2012 (CET)

CatScan funktioniert gerade wieder nicht. Es dürften ca. 3600 bzw. 1900 Artikel sein. Wenn's zu wenige Treffer geben sollte, kann man ja problemlos weitere Katbäume abgrasen. --Leyo 13:24, 4. Dez. 2012 (CET)

Kategorie:Physik? Dazu sollte man aber vorher in der dortigen Redaktion anfragen.--Mabschaaf 13:38, 4. Dez. 2012 (CET)

Auch OK. Übernimmst du die Anfrage? --Leyo 14:19, 4. Dez. 2012 (CET)

Done: Wikipedia:Redaktion_Physik/Qualitätssicherung#Weblinks_ohne_Linktext --Mabschaaf 15:31, 4. Dez. 2012 (CET)

Bei den Physikern kam kein Veto, vorgeschlagen wurde, falls ein kleinerer Atikelbestand gewünscht ist, zunächst nur die Kategorie:Biophysik zu bearbeiten. Wenn die anderen Fragen geklärt sind, könnte es also losgehen.--Mabschaaf 09:31, 5. Dez. 2012 (CET)

Da ich mittlerweile doch einiges am Bot erweitert bzw. angepasst habe, ist es wohl sinnvoll, mit so einem kleinen Bestand zu starten. Eine zusätzliche Bootstrap-Schleife kann nie schaden, prima, dass die Physiker da mitziehen.--Cactus26 (Diskussion) 10:06, 5. Dez. 2012 (CET)

Design

Aus den Unterlassungen und Fehlern bei der Vorlage Toter Link und der Aktion „Defekte Weblinks 2012“ sollte gelernt werden.

In der Vorlagen-Doku muss zu Beginn unübersehbar und unmissverständlich herausgestellt werden, dass es sich nur um eine temporäre Vorlage handelt, die nur zu Wartungszwecken und nur vorübergehend in den Seiten stehen soll und von jedem Autor sofort in eine endgültige Formatierung gebracht werden kann und soll.
- Die Namensräume sind mir nicht ganz klar; Haupt-Anwendungsgebiet ist offensichtlich der ANR, aber prinzipiell sind auch Meta-Seiten vorstellbar.
Diese Einbindung soll zunächst nur auf Ebene des Artikeltextes (und innerhalb von <ref>…</ref>) erfolgen, nicht aber in Parametern vorhandener Vorlagen.
- Bei bestimmten namentlich bekannten Vorlagen und Parametern kann eine Einbindung wünschenswert sein (Vorlage:Literatur #Online=) und bei den meisten anderen wäre dies tödlich (Vorlage:Internetquelle #url=).
Die Parameter dürfen nicht redundant zur Umgebung sein (URL).
Die auswertbaren Informationen müssen als Parameter innerhalb der Vorlageneinbindung stehen und dürfen nicht nur im äußeren Kontext verfügbar sein (URL).
Für Zeitstempel ist ein auswertbares Format erforderlich. Hier bietet sich ISO an; insbesondere yyyy-mm. Das Tagesdatum -dd mag man dazuschreiben, ist aber weniger wichtig; für die wesentlichen Vorgänge einer Erreichbarkeit im Web und die Periode eines mehrwöchigen Botlaufs ist es unerheblich.
Informationen, die man beiläufig erhält, sind zur Unterstützung von Detektivarbeit und Auswertung als optionale Parameter in die Vorlageneinbindung zu schreiben, selbst wenn sie für die Leser nicht sichtbar werden und im Moment auch gar nicht in der Vorlagenprogrammierung benutzt werden. Dazu gehören:
- Zeitpunkt der Einfügung dieser Vorlage durch Bot (Jahr-Monat).
  - Aus dem Zeitpunkt lässt sich auch zurückschließen, welcher Bot das war. Mehr als ein Bot wird nicht im selben Monat rumrödeln.
  - Falls tatsächlich einmal gleichzeitig mehrere Bots rummachen, kann jeder spontan mit einem zusätzlichen Namensparameter und einem einzelnen Kennbuchstaben signieren; im Moment bläht das aber die Einbindung nur unnötig auf.
- Zeitpunkt des erfolgreichen technischen Zugriffs (date=)
  - Wäre möglicherweise redundant zu und identisch mit dem Zeitpunkt der Einfügung dieser Vorlage. Dann entfallend.
- Fehlender inhaltlicher Zugriff (404, 500er, mit Tagesdatum)
- Erkannte Unstimmigkeit zwischen MIME und „Pfad-Extension“.
- Größe einer Ressource in kB, wenn nicht HTML
- Bestätigtes Format einer Ressource.
- Bot-erkannter Titel innerhalb der Ressource, etwa HTML oder PDF.
  - Zu PDF siehe BD:Cactus26 #PDF ohne Linktitel.
  - Wikisyntax ist zu escapen: <>[]{}|&
Parameternamen für gleiche Semantik sollten sich an vorhandenen Vorlagen orientieren; so en:template:dead link und Vorlage:Internetquelle und auch, wenn sie sich denn irgendwann mal gefunden haben sollte, Vorlage:Toter Link.
Aus den vorsorglich angegebenen Daten, die nicht direkt in der Programmierung genutzt werden, lassen sich anlassbezogen Auswertungen und Formatierungen generieren.
Aus der URL-Information lässt sich intern die Domain extrahieren.
- Für die Defekten Weblinker hatte ich eine Vorlage geschrieben, die das ermöglicht: Vorlage:ExtractDomain.
- Damit kann ein Fachautor sich alle Einbindungen zu seiner Fachpublikation durch geeignete WhatLinksHere auffindbar machen. Ein oder zwei Dutzend Einbindungen in einem persönlich interessierenden Themengebiet sind eher zu bewältigen und sportlich auf Null zu bringen als eine anonyme Wartungskat mit 20.000 Treffern.
Ein JavaScript kann interaktiv auf Knopfdruck alle in einem markierten Bereich oder in der gesamten Seite vorhandenen Einbindungen dieser Vorlage in einem erweiterten Standardformat substen.
Nach Verweildauer kann man gezielt besonders lange unaufgelöste Einbindungen angehen. Die ersten sechs oder zwölf Monate mögen sich die sogenannten Hauptautoren drum kümmern; nach einem Jahr sind diese wohl auch nicht mehr zu erwarten.
Verwertung vorsorglich gefüllter Parameter ist nicht nur durch unmittelbare Vorlagenprogrammierung möglich, sondern auch über
- den etwas lahmenden templatetiger
- Dump-Analyse
- Skript-Transformation des Quelltextes
- spontan generierte Wartungskategorien, vorübergehende Modifikation der Vorlagenprogrammierung.
Bei einer manuellen Erledigung durch subst/ers verschwinden sofort alle verborgenen Zusatzinformationen aus der Seite, und es bleibt nur der minimale Rest an URL und dargestelltem Minimal-Titel „(PDF)“ übrig.

Die vorstehenden Darlegungen zielen zwar hier auf unbetitelte Weblinks, gelten aber sinngemäß auch für unerreichbare Weblinks.

Die Informationen sind teilweise banal und im Moment des Botlaufs bekannt und leicht auszuwerfen.
- Nachdem erstmal wochenlang ein Botlauf über -zigtausende von Seiten ging, ist es zu spät, sich über vergessene und vernichtete Informationen zu beklagen.

VG --PerfektesChaos 22:01, 4. Dez. 2012 (CET)

Du brauchst Dir keine so großen Sorgen machen. Ich denke, Leyo, Mabschaaf und auch ich verfügen über eine gewisse Erfahrung und brechen nichts übers Knie. Wenn Du unsere Mannschaft mit Deiner Erfahrung auch noch bereichern möchtest, um so besser.

Zu Deinen Punkten:

Vorlagendoku: Kannst Du gerne noch verbessern, werde mich aber zu gegebener Zeit auch noch mal darum bemühen.
Scope ist ausschließlich ANR, Metaseiten kommen mMn nicht in Frage
Einbindung nicht in Parametern anderer Vorlagen. Da liegst Du falsch, was die namenlosen Links betrifft, diese sind auch als Vorlagenparameter Unsinn (siehe z.B. [1] und [2]). Was die puren Links betrifft, stimmt das, was Du sagst, aber auch aus diesem Grund möchte ich die derzeit nicht einbeziehen.
Mit der URL als Parameter oder Nicht-Parameter widersprichst Du Dir ein wenig (oder ich verstehe es nicht), ich sehe darin auch einen Zielkonflikt, aber wir haben das bereits oben diskutiert und uns entschieden: URL ist kein Parameter und das ist auch kaum nachteilig, da die Vorlage immer und überall direkt hinter der URL steht.
Zeitstempel habe ich überlegt, halte ich aber beim Thema "fehlender Linktext" für unnötig, es ist gleichgültig, wie lange der schon fehlt. Auch halte ich für gleichgültig, welcher Bot das wann eingefügt hat.
Beiläufige Information: siehe auch meine B-Disk.: (do one thing and do it well). Ich finde, man müsste so was für alle Weblinks machen, oder man lässt es. Es nur für die linktextlosen zu machen, ist eine fragmenthafte Lösung, die alles komplizierter macht und sicher nicht in ein gutes Gesamtkonzept passt. Fraglos relevant sind:
- Titel (Heurisik, für PDF entspr. Deines Vorschlags)
- Typ (wenn nicht text/html, genaues Format ist noch zu entscheiden)
- Link tot: Diese Information sollte man irgendwie rüberbringen. Das Einfügen von {{Toter Link}} halte ich für unangebracht, da man dafür mMn über mehrere Tage verteilt die Unzugänglichkeit des Links überprüfen müsste, was aber den Rahmen dieses Projekts sprengt, für so etwas braucht es einen dedizierten Bot. (obwohl hier die verwendung von {{Toter Link}} tats. inline ginge. btw.: Ich finde ausgesprochen schade, dass es keine Variante der Vorlage gibt, die den Weblink kapselt, also selbst den Link zurück gibt und somit auch an Stellen einsetzbar ist, an denen der Weblink Vorlagenparameter ist. Kann ich Dich für eine derartige Initiative als Verbündeten gewinnen?)
"Parameter sollen gleich heißen": Kein Problem, man findet für jede Variante ein Vorbild ;-) (Leerzeichen in Parameternamen aber nur über meine Leiche....)
Generierung von Auswertungen aus beiläufig gewonnenen Daten: Wird wesentlich dadurch beeinträchtigt, dass die linktextlosen Links nur eine kleine, wenig repräsentative Teilmenge der Weblinks darstellen. Solche Information sollte Media-Wiki (oder ein Tool auf dem Toolserver oder Wiki labs) gewinnen und an Tabelle Externallinks anhängen.
Domain: Wäre natürlich kein Problem. Hier aber kaum von Interesse, es geht ja nur um den fehlenden Linktext

Außerdem verfolge ich noch ein Ziel: Keep it small and simple. Zugegeben, dieser Spruch ist abgedroschen, wird häufig genutzt und das Gegenteil gemacht.

Aus meiner Sicht die wichtigsten offenen Designentscheidungen:

wie und wann befüllen wir den Parameter "Typ"
wie machen wir auf tote Links aufmerksam?

An der Vorschlagsheursitik für den Linktext arbeite ich.

Viele Grüße --Cactus26 (Diskussion) 08:01, 5. Dez. 2012 (CET)

@PerfektesChaos: Ich glaube, Du hängst hier die Latte viel zu hoch. Die Links sind ja praktisch alle noch erreichbar, lediglich eine "Nachlässigkeit" des Autors, der den Link eingestellt hat, wird markiert und damit automatisert auffindbar gemacht. Deshalb schließe ich mich Cactus26 an: KISS!

Dennoch ist natürlich alles was Du schreibt vollkommen korrekt und wünschenswert für die defekten Weblinks, dort wären Deine Hinweise mM deutlich besser aufgehoben. Dort wird auch jede mögliche Information, die sich automatisiert gewinnen lässt, benötigt, um das Fixen der Links so effizient wie möglich durchführen zu können. Aber Wikipedia Diskussion:WikiProjekt Weblinkwartung verfolgst Du ja sowieso.--Mabschaaf 15:56, 5. Dez. 2012 (CET)

Eine der Lehren aus „Defekte Weblinks 2012“ ist:

Es ist sinnlos und bringt nur Widerstände und endlosen Ärger mit Autoren und Beobachtern, zunächst -zigtausende von „temporären“ Wartungsvorlagen in Artikel oder auf Disku zu schreiben, jedoch kein Konzept zu haben, wie und von wem diese wann wieder abgearbeitet werden. Jedes Provisorium ist von unendlicher Dauer.
- Eine Komponente ist die Nachkontrolle, was nach dem Botlauf 2013 in den folgenden Monaten geschieht. Ich schrieb oben, dass die ersten sechs oder zwölf Monate die sogenannten „Hauptautoren“ und andere Fachautoren „ihre“ Artikel polieren mögen. Danach ist Bilanz zu ziehen. Ergibt sich dabei, dass von 20.000 Bot-eingefügten Wartungsvorlagen 18.000 noch vorhanden sind, ist ein erneuter Botlauf sinnfrei und gibt vermeidbaren Zoff. Andernfalls wären vielleicht nur noch 2.000 Einbindungen in unbetreuten Artikeln übrig, die dann erst einmal gezielt abzuarbeiten wären; zumindest mit Priorität solche, die im enzyklopädischen Text stehen und nicht unter Lit, Weblinks, EN.
- Den „Defekte Weblinks 2012“ ist aber scheinbar noch nicht einmal bekannt, wie viele Artikel eigentlich gefunden wurden; dementsprechend kann man auch nicht sagen, wie viele Seiten inzwischen abgearbeitet wurden. Gerüchten zufolge könnte es vielleicht mal knapp 200.000 Einfügungen gegeben haben.
Der Monat der Einfügung gibt dem menschlichen Bearbeiter einen Hinweis, zu welchem Zeitpunkt eine URL bestimmten Typs noch erreichbar gewesen war. Das ermöglicht Rückschlüsse für die Suche im Web-Archiv. Es ist gleichzeitig diejenige Information, die traditionell bei allgemeinen Weblinks angegeben werden sollte. Wenn es bisher keinen Linktitel gibt, wird das erst recht nicht dabeistehen.
- Ein Botlauf aus 2013 und einer aus 2014 kann sich in methodischen Fragen unterscheiden; für bestimmte Typen von Weblinks anders gearbeitet haben. Hinterher lässt es sich nicht mehr nachvollziehen.
Eines der beiden Hauptprobleme bei den „Defekte Weblinks 2012“ ist, dass sie den Zeitpunkt der Einfügung der Vorlage nicht auseinanderhalten können. Es ist nicht auswertbar bekannt, was ein offenbar älterer GiftBot-Lauf ist, was nicht abgearbeitete Reste von MerlBot sind (wobei die Markierung als MerlBot aber den Rückschluss erlaubt, dass es schon seit Jahren unabgearbeitet herumsteht), zu welchem Zeitpunkt die Einfügung erfolgte.
- Zurzeit scheint eine der Hauptaktivitäten der Beteiligten nicht etwa darin zu bestehen, mit nicht erreichbaren URL geeignet umzugehen, sondern herauszufinden, an welchem Tag die Diskussionsseite zuletzt von irgend jemand aus irgend einem Grund geändert worden war, und dann die Artikel in 5000er-Blöcken nach Tagen sortiert in Kategorien einzugliedern. Das lässt sich aber treffsicherer aus dem Alphabet herleiten.
Die Themen „URL ungeklammert“ und „URL in Klammern ohne Titel“ sind für mich zwei Schritte einer Gesamt-Aktion. Langfristig sollen beide verschwinden, und das grundsätzliche Konzept ist identisch. Welcher Schritt zuerst kommt, ist für mich unerheblich.
- Priorität haben die Weblinks, die mitten im Artikel stehen, während diejenigen unter Lit, Weblinks, ref→EN nachrangig sind. Das muss aber auswertbar zur Bildung temporärer Wartungskat als Parameter vermerkt sein.
Welcher Bot wann mit welchem Funktionsumfang auf welchen Seiten läuft, liegt außerhalb meines Einflusses. Mir geht es jedoch darum, dass im Nachgang die eingefügten temporären Wartungsvorlagen zügig und mit geringem Aufwand sicher in angemessene Formatierung umgewandelt werden können.
Vor dem großen Botlauf sind geeignete simple JavaScript-Funktionen vorzubereiten, durch die systematische Abarbeiter auf Knopfdruck einen markierten Bereich in der angemessenen Weise substen können.
- Die hierfür benötigten Parameter-Informationen bestimmen, was für Informationen der Bot in der Vorlageneinbindung hinterlegen muss. Nach dem Botlauf ist es zu spät.
- Was ich mir im günstigen Fall auf Knopfdruck an geeigneten Stellen vorstelle, ist
  Gefundener Titel (PDF; 13,7 MB; abgerufen Februar 2013)
In der Vorlage:Toter Link war ich bereits tätig gewesen; auch auf der Disku. Die Vorgänge und dortigen Basteleien (siehe history) lassen mich aber für das restliche 2012 von diesen Aktivitäten Abstand nehmen. Ich tue mein eigenes Geraffel well.

Liebe Grüße --PerfektesChaos 10:01, 6. Dez. 2012 (CET)

Danke für Deine Anregungen. Zu den einzelnen Punkten:

Die Vergleichbarkeit dieses Projekts mit "Defekte Weblinks" ist begrenzt. Ich muss gestehen, dass ich mich da herausgehalten habe und nicht versucht habe, Anregungen für Verbesserungen beizutragen. Die Tragweite dieser Sache hier ist sicherlich geringer, es geht hier nicht um funktionale Fehler.
Wann welcher Bot einen Hinweis eingefügt hat, ist hier völlig gleichgültig. Bei einem wiederholten Lauf können die bestehenden Vorlagenverwendungen einfach hinausgeworfen und neu ermittelt werden. Wenn sich ein Botlauf in 2013 und 2014 methodisch unterscheidet, ist zu hoffen, dass der jüngere besser/ausgereifter/umfassender ist, also gibt es kein Problem. Ich kann mir keinen Nutzen vorstellen, der rechtfertigen würde, das ganze hier mit der Eintragung von Bot-Namen und Ausführungszeitpunkt aufzublasen.
Wenn Du den Projektverlauf verfolgst, sollte klar werden, dass die Effizienz und Bewältigbarkeit der manuellen Nacharbeit schon immer im Fokus stand. Dass es keinen Sinn macht, dieses Verfahren über den gesamten Artikelbestand laufen zu lassen und ca. 35000 Artikel zu markieren (schätze so viele gibt es) ohne sich darum zu kümmern, wer das bearbeiten soll, ist hier jedem klar. Eine gewisse Blauäugigkeitsdiskrepanz der Projektteams sollte eigentlich auffallen.
Plain links: Es lohnt sich mMn dann, diese zusätzlich einzubeziehen, wenn dieses Verfahren (also für die geklammerten ohne Titel) auf gewisse Resonanz stößt. Ich halte sie für einen weit geringeren Makel, sie stellen keine Einschränkung dar, was die Usability angelangt.
Es interessiert hier nur indirekt, wo der Weblink steht (bei der Entscheidung, ob eine automatische Korrektur möglich ist). Wie gesagt: Es geht hier nur im linktextlose Links und nicht um Weblinks innerhalb des Artikeltextes, das ist ein anderes Thema, da die linktextlosen nur einen Bruchteil der Weblinks darstellen und auch Weblink mit Linktext im Artikeltext sogar noch "schlimmer" sind als die ohne.
Meiner Einschätzung nach wird in den allermeisten Fällen (>90%) die Bearbeitung darin bestehen, dass die Vorlage nach Prüfung, ob der Hinweis mit dem Text in der Umgebung des Links zusammenpasst, schlicht hinausgeworfen wird und die Brackets verschoben werden. Eine JavaScript-Unterstützung könnte also im automatisierten Hinauswerfen der Vorlage bestehen.

--Cactus26 (Diskussion) 13:44, 6. Dez. 2012 (CET)

Test

Habe mit der aktuelle Implementierung mal einen Testedit für Hinterlegungsordnung gemacht. Anmerkungen:

4 der 13 linktextlosen Links meint der Bot reparieren zu können, alle 4 sind PDF-Links, einen der PDF-Links kann er nicht.
die restlichen 9 werden markiert
für den Parameter Typ präferiere ich, den MIME-Typ verwenden, es sei denn, er ist text/html, dann lasse ich ihn weg.
die Spalte für den Titelvorschlag habe ich mal "Hinweis" genannt
Wenn der Link nicht aufgerufen werden kann (kommt im Test vor), wird als Hinweis "Link vermutlich tot" eingetragen
Nett ist der letzte Fall ("Das .... ist umgezogen"). Was man so alles erfährt, wenn man den Linktext weglässt.

Die getroffenen Designentscheidungen stehen zur Diskussion, inbesondere die Handhabung des Typ-Parameters und das Umgehen mit toten Links. Meinungen?--Cactus26 (Diskussion) 11:16, 5. Dez. 2012 (CET)

Nachtrag: Es gibt übrigens kein Vorschlag für [3] , da ich Linefeeds innerhalb des Title-Tags (mehr oder weniger bewusst) ausgeschlossen habe (weil ich sie ja ersetzten muss), werde mir da was überlegen.--Cactus26 (Diskussion) 11:19, 5. Dez. 2012 (CET)

Damit hier mal eine Rückmeldung kommt: Ich finde die Bearbeitungen gut und absolut geeignet als Grundlage, um manuell die Texte entweder zu bestätigen oder ggf. nach Anpassung zu übernehmen. --Mabschaaf 15:48, 5. Dez. 2012 (CET)

Danke für Deine Rückmeldung. Worüber ich gerade nachdenke: In diesem Bsp. sind die eingesetzten "PDF"-Linktexte eigentlich vergeblich, man wird sie der Einheitlichkeit halber vermutlich nicht verwenden. Sollte man die Lösungsversuche des Bot unterlassen, wenn Fälle übrigbleiben? Das würde vermutlich dazu führen, dass der Bot fast nichts mehr selbst löst, da wo er alle PDF-Links lösen konnte, hat er es ja schon gemacht, nur bei neuen Sachen bestünde noch eine Chance.--Cactus26 (Diskussion) 16:01, 5. Dez. 2012 (CET)

Hmmm, eigentlich ist "PDF" als Linktext doch immer nur eine Krücke, oder? Wenn der Dokumenten-/Webseitentitel vernünftig zitiert ist, so sollte dieser mM auch als Linktext dienen.

Wäre es denn eine vorstellbare Lösung, wenn Du in Fällen, die Du momentan automatisiert ersetzt, nun "Typ=DisplayPDF" (o.ä.) setzt und die Vorlage so programmierst, dass wenn "Typ=DisplayPDF" ist, "PDF" als Linktext angezeigt wird? Alle mit "Typ=DisplayPDF" wären dann in eine eigene Wartungskat einzuordnen, damit die wichtigeren (also die ohne automatische Linktextanzeige) davon getrennt sind.--Mabschaaf 16:12, 5. Dez. 2012 (CET)

Betreffend Einheitlichkeit: IMHO könnten Nicht-PDF-Links mit „(online)“ oder ähnlich als Titel versehen werden. --Leyo 16:23, 5. Dez. 2012 (CET)

Puuuh. Eure Anregungen gegen in entgegengesetzte Richtungen (aber ich schätze sehr, dass ihr euren Standpunkt immer so "ungefiltert" artikuliert). Mabschaafs Idee, die lösbaren PDF-Fälle prophylaktisch zu lösen und dennoch in eine (separate) Warungskat. einzusortieren, wäre technisch möglich, denke ich. Aber ich muss zugeben: Ich will nicht so recht. Es macht die ganze Sache (insbesondere die Vorlage) deutlich komplizierter und nicht mehr so schön simpel wie jetzt. Der Nutzen wäre mMn nicht sonderlich, nur der Leser bekäme im Wartungsstadium bereits "PDF" angezeigt, die Wartungsvorlage wegzueditieren wäre genauso aufwändig, wie wenn man den Fall gar nicht löst (also wie Nicht-PDF behandelt). Interessant finde ich aber, dass Mabschaaf das "PDF" als Krücke sieht. Ich sehe das nicht ganz so pessimistisch und bin da näher bei Leyo, ich finde, in einigen Fällen würde ich es manuell sogar ganz genauso machen. In den Nicht-PDF-Fällen "online" (statt "PDF") reinzuschreiben mag in diesem Test-Beispiel auch ganz gut passen. Aber nicht in allen Fällen, in denen die derzeitige Bot-Heuristik "PDF" reinschreibt, kann man im Nicht-PDF-Fall mit "online" leben, da bin ich mir sicher. Das müsste ich zunächst genau analysieren.

Mein Vorschlag als Kompromiss aus Euren Anregungen:

Ich unterlasse tatsächlich die Lösungsversuche, wenn nicht alles auf einer Seite gelöst werden kann.
Ich suche nach Konstellationen, bei denen Nicht-PDF-Fälle ggf. Bot-mäßig gelöst werden können (für Vorschläge bin ich dankbar)

--Cactus26 (Diskussion) 17:06, 5. Dez. 2012 (CET)

Dein Vorschlag hört sich vernünftig an. Ev. kannst du ja diese Fälle loggen und dann ggf. später halbautomatisch bearbeiten. --Leyo 17:27, 5. Dez. 2012 (CET)

+1 zu Euch beiden; Logfiles sind für den Anfang bestimmt nicht schlecht. Es ist für mich aus der Ferne auch kaum abzuschätzen, wann Dein Bot automatisch ersetzen würde und wann eben nicht. Die Idee mit dem "DisplayPDF" hätte natürlich den Charme, dass man diese Vorlagen irgendwann auch ganz einfach in einem zweiten Lauf ersetzen könnte, wenn sich herausstellt, dass die Vorsicht übertrieben war. Dein Argument, dass die Programmierung sehr viel aufwändiger wird, ist aber sehr nachvollziehbar.--Mabschaaf 17:33, 5. Dez. 2012 (CET)

Habe mir über alles nochmal Gedanken gemacht und die Doku überarbeitet. Um Mabschaafs Wunsch näher zu kommen, ist meine Idee, dass man die lösbaren Fälle bei partieller Lösbarkeit mit dem Hinweis "Autokorrektur möglich" versieht. Ich hatte bislang ohnehin noch nicht über Wiederholungsläufe nachgedacht. Nun könnte man, wenn man wollte, nur die nicht lösbaren Fälle manuell korrigieren und die als autokorrgierbar markierten stehen lassen, der nächste Botlauf würde das dann erledigen. Schaut es Euch mal bitte an:

Erneuter Test Hinterlegungsordnung
Unterschied zu vorigem Lauf (auch ein paar andere Fehlerkorrekturen/Verbesserungen wirken sich hier aus)

--Cactus26 (Diskussion) 10:14, 6. Dez. 2012 (CET)

Schaut gut aus.

Wie würde denn bestimmt, wann ein erneuter Botlauf zur Autokorrektur stattfinden soll? Sobald alle andern Vorlageneinbindungen manuell korrigiert sind? --Leyo 10:59, 6. Dez. 2012 (CET)

Ja, so könnte man es machen. Wenn wir Redaktions/Kategoriebaum-weise den Bot aktivieren, wäre ein guter Zeitpunkt für einen Wiederholungslauf der Zeitpunkt, wenn der Altbestand bewältigt ist. Für den lfd. Bestand braucht man so etwas vermutlich nicht mehr, der dürfte beherrschbar sein. Gegenüber dem Testlauf nehme ich übrigens noch folgende Änderung vor: Bei einem toten Link darauf hinzuweisen, dass er korrigierbar ist, dürfte missverständlich sein, ich werde keinen solchen Hinweis bei toten Links ergänzen.--Cactus26 (Diskussion) 14:41, 6. Dez. 2012 (CET)

Physik

Habe jetzt mal für die Kategorie:Physik einen Trockendurchlauf gemacht (Biophysik lohnt nicht, sind nur 7 Links auf 5 Seiten). Von den 10626 (Nicht-Listen-)Artikeln der Kategorie enthalten 278 linktextlose Links. Das sind ca. 2.6% also etwas mehr als die von mir geschätzten 2.3%. Insgesamt gibt es auf diesen Seiten 485 solche Links, davon wären 9 durch den Bot selbst ausbesserbar (wohl so wenig, da der Bot PDF bereits abgegrast hat). Ich würde vorschlagen, wird lassen den Bot mal diese 278 Seiten markieren. Dann bearbeiten wir sie zusammen und sammeln dadurch Erfahrungen, was wir vlt. noch verbessern können. Vielleicht helfen ja auch ein paar Physiker mit.--Cactus26 (Diskussion) 17:42, 6. Dez. 2012 (CET)

Wäre ev. auch die Hälfte davon (erste ~139 Seiten oder 0–M) genug für einen Testlauf? --Leyo 17:48, 6. Dez. 2012 (CET)

(BK) +1, ja mach mal. Das ist überschaubar.--Mabschaaf 17:49, 6. Dez. 2012 (CET)

Ja, da machen glaube ich schon welche mit... Gruß Kein Einstein (Diskussion) 18:07, 6. Dez. 2012 (CET)

Schön, dann bekommen wir das sicher hin. Es geht los, die Kategorie:Wikipedia:Weblink ohne Linktext sollte sich allmählich mit Physiek füllen.--Cactus26 (Diskussion) 18:34, 6. Dez. 2012 (CET)

Da gab's ein Umlaut-Problem. --Leyo 18:58, 6. Dez. 2012 (CET)

Danke für den Hinweis. Muss ich analysieren. Habe eigentlich schon eine Sonderbehandlung für das encoding, scheint aber in diesem Fall nicht zu funktionieren.--Cactus26 (Diskussion) 19:15, 6. Dez. 2012 (CET)

Deine Testseite ist auch in der Wartungskat. Ist zwar nicht dramatisch, aber vielleicht magst Du in der Vorlage noch ergänzen, dass die Wartungskat nur gesetzt wird, wenn es ein Artikel im ANR ist.--Mabschaaf 19:46, 6. Dez. 2012 (CET)

Noch was (und jetzt wirds kleinlich): Die ZQ lautet u.a. (Bot: 1 Externe Link(s)... - da könntest Du noch ein (r) spendieren.--Mabschaaf 19:49, 6. Dez. 2012 (CET)

Weblinks in Kommentaren (Beispiel) würde ich auslassen. --Leyo 11:25, 7. Dez. 2012 (CET)

Weblinks auf Google Books sind ziemlich häufig. Ev. würde es sich hier eine Spezialbehandlung lohnen. Falls die Seitenzahl in der URL und im Einzelnachweis angegeben ist, so könnte diese verlinkt werden. Die Vorlage:Google Buch einzubauen, wäre wohl zu kompliziert. --Leyo 10:48, 7. Dez. 2012 (CET)

Muss ich schauen. Im Moment bin ich mit der Abarbeitung der aufgetretenen Unzulänglichkeiten noch ausgelastet. Melde mich dazu gleich.--Cactus26 (Diskussion) 11:03, 7. Dez. 2012 (CET)

Folgendes habe ich mittlerweile verbessert:

Den Editkommentar des Bot habe ich weitere Erläuterungen beigefügt (da die IP auf meiner B.Disk. die Sache offensichtlich falsch verstanden hat und sich sofort auf die jede weitere sachliche Diskussion verhindernde Position "Bots sind doof" zurückgezogen hat. Dabei habe ich auch den Plural/Singular-Makel beseitigt (siehe Testedit1, Testedit2)
Die Meldung "Link vermutlich tot" habe ich angepasst in "kein Zugriff möglich am ...." (s.a. obiger Testedit1), Grund vor allem: Bei Brian_Pippard weiß ich bislang nicht, warum der Bot auf [4] einen 401 bekommt (Authentisierungsprb.)
Für das Encoding-Problem (Umlaute) habe ich eine Variante, die nun zumindest in den mir bekannten Fällen funktioniert (siehe [5] , habe aber eine Lsg. versucht, die ohne 2x laden auskommt)
Im Artikel Higgs-Boson hatte der Bot zwar beide Fälle gefunden, aber aufgrund eines Fehlers nur einen markiert.

Bitte kontrolliert meine Änderungen. Nun schaue ich mal nach Google Books.--Cactus26 (Diskussion) 11:26, 7. Dez. 2012 (CET)

Die obigen Verbesserungen sind prima.

Frage: Ein unformatierter Weblink der Art <ref>http://www.plattmaster.de/andeeck.htm</ref> ist auch nicht besonders schön. Sollte das ggf. gleich miterledigt werden? Gruß Kein Einstein (Diskussion) 13:38, 7. Dez. 2012 (CET)

→ #Plain Links --Leyo 13:44, 7. Dez. 2012 (CET)

Danke. Das passt dann so... Kein Einstein (Diskussion) 14:25, 7. Dez. 2012 (CET)

Ich habe mal ein paar der markierten Links abgearbeitet. Eventuell physikspezifisch ist, dass die Links meist Teil eines Einzelnachweises waren oder unter Weblinks am Schluss einer bereits aussagekräftig gestalteten Zeile standen. In beiden Situationen war die Information einfach nur in eine Vorlage:Internetquelle oder eine Vorlage:Literatur mit auszufüllendem online= Feld zusammenzuführen. Der Hinweis aus Eurem Baustein stand daher meist bereits in der Zeile. Euer Vorgehen sieht übrigens sehr sauber aus: der Baustein verschlechtert erstmal keinen Artikel, außerdem habt Ihr das Ganze (beim Physik-Prototypen) angemessen angekündigt. Mein Vorschlag wäre aber, dass Ihr sowohl bei Vorlage:Weblink ohne Linktext, als auch in Kategorie:Wikipedia:Weblink ohne Linktext einen Hinweis für mögliche Abarbeiter einbaut, dass diese mit Vorlage:Internetquelle, Vorlage:Literatur und Vorlage:Google Buch (s.u.) vertraut sein sollten. --Dogbert66 (Diskussion) 18:09, 15. Dez. 2012 (CET)

Danke für die Rückmeldung. Du kannst gerne einen Hinweis auf diese Vorlage in der Dokumentation ergänzen, es sollte aber fakultativ sein, ich würde niemanden zur Nutzung dieser Vorlagen zwingen wollen (ich muss gestehen, dass ich diese Vorlagen selbst nicht verwende, weil bei manchen dieser Vorlagen die Relation Komplexität/Nutzen nicht ideal ist (v.a. {{Internetquelle}}, die teilw. sogar kontraproduktiv ist, da sie die URL nicht kapselt). Bei {{Literatur}} bin ich in dieser Hinsicht durchaus zwiegespalten, bei {{Google Buch}} ist es vlt. sogar nur Unkenntnis/Gewohnheit meinerseits).--Cactus26 (Diskussion) 12:10, 16. Dez. 2012 (CET)

Leer. Kein Einstein (Diskussion) 22:13, 5. Jan. 2013 (CET)

Vielen Dank. In den letzten Tagen ist der Bestand ja dramatisch abgeschmolzen. Ich kenne jetzt gar kein Tool, mit dem ich so einfach nachschauen könnte, wer hier am meisten beigetragen hat---Cactus26 (Diskussion) 10:08, 6. Jan. 2013 (CET)

Autokorrektur für Google books?

Im Prinzip würde das schon gehen, aber nur auf dieselbe einfache Art und Weise wie bei PDFs, wie in diesem Beispiel. Lohnt es sich hier weiteres zu investieren? Spannende Frage auch, wie der Linktext denn sein soll. "Google books", "Google Books", "Google Buchsuche", "Google Bücher", "Google bücher"? Bei Google selbst völlig uneinheitlich. Wobei ich mich mit den eingedeutschten Varianten sehr schwer tue.--Cactus26 (Diskussion) 17:31, 8. Dez. 2012 (CET)

@Cactus26: ich glaube nicht, dass das von Dir erwähnte Edit das ist, worum es Leyo oben ging. Vielmehr glaube ich, dass er wirklich eine automatisierte Einbindung von Vorlage:Google Buch meinte, wie in diesem Edit desselben Beispiels vorgeführt, d.h. das Ersetzen des kompletten Linktext-freien Weblinks durch das einfachere {{Google Buch | BuchID=LdpeoDUgJjMC | Seite=30 | Hervorhebung=doppelte pfeilspitze vektor}}.

Der zu programmierende Algorithmus wäre dann in etwa der folgende: a) Bei der Bearbeitung der Linktext-freie Weblinks Erkennung von "books.google"; b) der URL-Text nach dem "?" (und vor dem "#", falls vorhanden) wird am Delimiter "&" in Einzelstrings zerlegt (split-Funktion), diese werden dann abgearbeitet: b.1) id=LdpeoDUgJjMC aus dem Link wird zu |BuchID=LdpeoDUgJjMC; b.2) pg=PA30 wird zu |Seite=30, ein pg-Text, der nicht mit PA beginnt, wird zu |SeitenID=... (Beispiele siehe unten); b.3) dq=doppelte+pfeilspitze+vektor wird zu |Hervorhebung=doppelte pfeilspitze vektor (ohne "+"-Zeichen) b.4) andere Teilstrings können entfernt werden c) etwaige Fehler oder Zweideutigkeiten müssten in einem Wartungsbaustein resultieren.

Beispiele für |SeitenID=...: a) PP = PrefacePages: Der Verweis auf ein Inhaltsverzeichnis vor der eigentlichen Seitennummerierung wird zu {{Google Buch|BuchID=3X9PAAAAcAAJ|SeitenID=PP33}} und sieht dann so aus: eingeschränkte Vorschau in der Google-Buchsuche. b) PT = Gesamtseitenzahl: eingeschränkte Vorschau in der Google-Buchsuche Seite 40 ist bei 15 Seiten Vorspann als PT55 angegeben. c) RA1-PA811 (Bandnummer): Das Beispiel eingeschränkte Vorschau in der Google-Buchsuche mit Bandnummer hätte laut Vorlagentext auch zu eingeschränkte Vorschau in der Google-Buchsuche umgewandelt werden können. Da beides funktioniert, ist das b.2 im oben beschriebenen Algorithmus aber ausreichend. d) weitere Beispiele findest Du durch Suche nach "SeitenID" im ANR. --Dogbert66 (Diskussion) 16:50, 15. Dez. 2012 (CET)

Danke für Dein Feedback und die Skizzierung des URL-Aufbaus bei Google-Books. Habe mich bislang dieser Frage nicht gestellt, obwohl ich zugeben muss, dass mir nicht ganz unklar war, dass man die Vorlagen-Parameter aus der URL rausparsen können müsste. Die Frage ist: Lohnt der Aufwand? Dafür sind mMn folgende Überlegungen relevant:

Wie viele linktextlose Google-Books-Links gibt es überhaupt? Derzeit gibt es insges. 77230 Google-Book-Links im ANR, auf 41729 Seiten. Bei PDF-Links enthielten etwa 2.7% der Seiten, die PDF-Links enthielten auch linktextlose, wenn man das auf Google-Books überträgt heißt dass, dass es insgesamt ca. 1100 Seiten mit linktextlosen Google-Books-Links gibt.
Das größte Problem bei der Linktextergänzung ist die Sicherstellung, dass sich das mit dem den Link umgebenden Text verträgt. Für PDF habe ich da eine Heuristik mehr oder weniger inkrementell entwickelt, die ich in Teilen selbst schon nicht mehr ganz durchschaue. Ein Beispiel für google-Books wäre Christlieb_Benedict_Funk (bevor die IP sich so freundlich der Sache angenommen hat). Dort stand: "(bei Google Books [...])". Solche Fälle kann man so einfach nicht ersetzen, der Hinweis "Google Books" kann auch einiges weiter vom Link entfernt stehen (zumindest bei PDF war das so).
Wie viele Fälle sind mittels Autokorrektur lösbar? Bei PDF ist mir gelungen, etwa 50% der Fälle lösen zu können. Dies war aber auf der Grundlage, dass die Ersetzung nur dann nicht stattfand, wenn andere linktextlose PDF-Fälle im Artikel waren. Mittlerweile haben wir die Bedingung verschärft (s.o.), es findet keine Autokorrektur statt, wenn irgendein nicht lösbarer linktextloser Link im Artikel verbleibt. Ich würde schätzen, dass es mir gelingen könnte 25% der Googe-Book-Seiten mittels Auto-Korrektur zu lösen. Das wären also 25% von 1100, also 275 Seiten (Edits).
Da die 275 Seiten nur erreichbar sind, wenn ich den Bot über alle linktextlosen Google-Books-Fälle also (41729 Seiten) laufen lasse (die ich zuvor per Datenbankabfrage ermitteln muss), bin ich aufgrund der nicht ganz optimalen Aufand/Nutzen-Relation etwas unentschlossen, ob ich viel in eine solche Heuristik investieren soll. Ich denke darüber nach.
Anders sähe die Sache aus, wenn wir es möglich wäre, die Umstellung auf diese Vorlage auf andere (Linktexte enthaltende) Fälle durch Nutzung der Kein-Text-Variante) auszudehnen. Ich weiß aber nicht, ob das auf Gegenliebe stößt, auch bin ich etwas unentschlossen, ob ich das selbst gut finde.

Das waren meine Gedanken dazu. Was meinst Du? --Cactus26 (Diskussion) 12:01, 16. Dez. 2012 (CET)

Ok, das ist natürlich eine Kosten-Nutzen-Rechnung, die deutlich gegen die Autokorrektur spricht. Aber m.E. hast Du jetzt verstanden, worum es Leyo mit seiner Anmerkung im letzten Abschnitt eigentlich ging. Wichtig wäre mir nur, dass die potentiellen Bearbeiter der Wartungskategorie auf die entsprechenden Vorlagen hingewiesen werden. --Dogbert66 (Diskussion) 14:21, 16. Dez. 2012 (CET)

Mögliche Verbesserung

Hi Cactus26, in Fällen wie diesem (also Verwendung von Vorlagen mit den Parameter URL=/Online=/...) wäre es sinnvoller gewesen, einfach die eckigen Klammern zu entfernen statt mit "ohne Linktext" zu markieren. Kannst Du das evtl. für die Zukunft einbauen? --Mabschaaf 15:35, 3. Jan. 2013 (CET)

Stimmt, das macht gefühlt knapp 10% der gemeldeten Weblinks aus und ist vom Bot beherrschbar. Kein Einstein (Diskussion) 15:52, 3. Jan. 2013 (CET)

In diesem Fall waren die Links redundant zu den DOIs. --Leyo 15:59, 3. Jan. 2013 (CET)

@Leyo: Das mag sein, wird sich aber automatisiert nicht lösen lassen. In solchen Fällen ist natürlich derjenige Benutzer "schuld", der die URL-/Online-Parameter für Abstract-Links nutzt. Ich bin daher dennoch der Meinung, dass ein automatisiertes Entfernen der eckigen Klammern sinnvoll wäre.--Mabschaaf 16:13, 3. Jan. 2013 (CET)

Ich verstehe nicht ganz. Die Klammern entfernen hat ja nicht den gewünschten Effekt, es bewirkt ja bei {{Literatur}}, dass die URL angezeigt wird. Ich müsste also einen Linktext ergänzen (z.B. "[... online]"). Meinst Du das?--Cactus26 (Diskussion)

Ah, Irrtum von mir. Ich bin (ohne zu Testen) davon ausgegangen, dass ein "nackter" Link dazu führt, dass der Inhalt des Parameters "Titel" mit dem Link hinterlegt wird. Das wäre auch mM sinnvoll.--Mabschaaf 19:50, 3. Jan. 2013 (CET)

Frohes Neues! Dürfte ich mir ausbitten, statt des nullsagenden „online“ (jedes Weblink zeigt auf irgendwas, das online ist; das hilft genauso viel oder wenig wie [37]) bei einem Gleichheitszeichen vor der URL den host zu verwenden? Dann bin ich schon mal vorgewarnt, dass mich books.google.com erwartet.

Erfolgreiches 2013 --PerfektesChaos 20:28, 3. Jan. 2013 (CET)

Dir auch ein erfolgreiches Jahr 2013. Bin aber nicht sicher, ob der Host wirklich die bessere Lsg. ist. In der Vorlagen-Dok. von {{Literatur}} wird das "online" ja sogar beispielhaft vorgeschlagen. Man muss auch bedenken, dass hier weniger im Vordergrund steht, wo etwas zu finden ist, sondern dass die betreffende Literatur online zugreifbar ist.--Cactus26 (Diskussion) 09:54, 4. Jan. 2013 (CET)

Das "online" mag man dann verwenden, wenn der Host zu genau der Organisation gehört, die auch aus den sonstigen Literaturangeben ersichtlich ist. Das ist bei books.google.com und etlichen anderen regelmäßig nicht der Fall. Hinterher Informationen zu vernichten kann auch ein manueller Autor machen; ich würde schon gern mit einem Blick durch den Linktitel einen Vorgeschmack davon bekommen, was mich erwartet, vielleicht sogar locken lassen, statt mit der Maus erst über jede einzelne Verlinkung gehen zu müssen und dann in der Statusleiste die URL zusammenzubuchstabieren.

Bestmögliches Wochenende --PerfektesChaos 20:31, 4. Jan. 2013 (CET)

Ich respektiere Deine Einschätzung, teile sie aber nicht, wenn ich den Nutzer-Blickwinkel einnehme. Dann nämlich interessiert mich in diesen Fällen zunächst überhaupt nicht, ob eine Quelle bei google-Books oder sonst wo online einsehbar ist, sondern schlicht, dass sie es ist. Diese Situation gibt es mMn sehr häufig, wenn man thematisch recherchiert, also bei der eigentlichen Artikelarbeit. Und ich finde, den Hostnamen als Linktext auch etwas kontraproduktiv, da er den Überblick erschwert, welche Quellen eines Artikels online verfügbar sind. Und wenn Du ohnehin eine Nachbearbeitung für notwenig hältst, dann können wir es auch beim jetzigen Verfahren lassen. Wünsche Dir auch ein schönes Wochenende.--Cactus26 (Diskussion) 14:21, 5. Jan. 2013 (CET)

Status

Nach den Pilotprojekt Physik möchte ich eine Bestandsaufnahme machen, um die Frage zu beantworten, ob sich eine Weiterverfolgung dieses Verfahrens lohnt und bitte um Feedback. Zunächst eine Zusammenstellung der offenen Verbesserungsmöglichkeiten:

Ausdehnung auch auf "pure Weblinks" (nicht ganz so einfach)
Automatismus für korrigierbare Google Books Links (d.h. keine dies verhindernder Text in der "Umgebung" des Links, bei Verwendung eines festen Linktextes ("Google Books") mittelschwer, bei Einbindung {{Google Buch}} Grenznutzen unklar)
Automatismus für Parameter "Online" von {{Literatur}} für Non-PDF-Links (einfach, keine Einigkeit für zu verwendenden Linktext ("online" vs. Host-Name))

Neben den Meinungen zu den offenen Punkten sind vor allem auch die Erfahrungen bei der Abarbeitung von Interesse. Lohnt sich das, was wir hier gemacht haben? Gibt es weitere Verbesserungsideen?--Cactus26 (Diskussion) 10:22, 6. Jan. 2013 (CET)

Die Frage "Lohnt sich das, was wir hier gemacht haben?" empfinde ich als ketzerisch. Da kannst du ja gleich "Jehova - Jehova" rufen...Kein Einstein (Diskussion) 11:15, 6. Jan. 2013 (CET)

Es war sicher nicht ketzerisch gemeint. Gemeint war: Steht der Nutzen in vernünftiger Relation zu dem von uns erbrachten Aufwand?--Cactus26 (Diskussion) 12:19, 6. Jan. 2013 (CET)

Na da hab ich wohl die <ironie>-Tags vergessen ;-) Kein Einstein (Diskussion) 12:56, 6. Jan. 2013 (CET)

Pure Weblinks sind unschön und geben bisweilen so gar keinen Hinweis auf den Inhalt der verlinkten Seite - problematisch besonders, wenn die Seite dann offline geht. Daher sollte das mit rein.

Beide Automatismen halte ich für gut - immer wieder kam ich mir beim Abarbeiten als Halbautomat vor, das kann ein Bot besser. Und es hängt dann nicht vom konkreten Abarbeiter ab, ob nun (Online) oder der Host-Name eingefügt wird - im Zweifelsfall finde ich Einheitlichkeit wertvoll und für beide Varianten habe ich nur relativ schwache Argumente gesehen. Womit ich sagen will: Welche Variante, ist mir eher wurscht (als Benutzer versuche ich bisweilen Googlebooks zu vermeiden, denn die sammeln in Master-Cookies meine Lesegewohnheiten und beschränken dann evtl. die Einsehbarkeit gewisser Fachbücher für mich, wenn ich sie schon zu oft offen hatte).

Kein Einstein (Diskussion) 11:15, 6. Jan. 2013 (CET)

Die Einbeziehung der puren Weblinks versuche ich anzugehen. Mittlerweile ist mein Bot-Programm allerdings nicht mehr so einfach zu durchschauen, so dass ich mich erstmal wieder reindenken muss (wahrscheinlich schiebe ich es auch deshalb schon so lange vor mir her). Bei diesen puren Links halte Automatismen allerdings nicht für möglich. Bei den zus. Automatismen für linktextlosen Links schaue ich mal, hilfreich wäre hier eine Meinungsäußerung ob es zur Not erstmal auch "Google books" oder "online" als Linktext tut. Das Cookie Prb. bei der Google-Books-Vorschau kenne ich auch, die Absicherung erolgt aber mW für einzelne Bücher und nicht buchübergreifend, insofern kann man auf andere Bücher verweisenden Links bedenkenlos folgen, bislang hat mir auch das Löschen dieser Cookies ggf. auch geholfen.--Cactus26 (Diskussion) 13:39, 8. Jan. 2013 (CET)

Einbeziehen purer Weblinks

Wenn wir neben den namenlosen Links ("[http://...]") auch die puren (bzw. nackten) Links angehen, stellt sich die Frage, ob wir die anders kennzeichnen. Ich schlage vor, für diese dieselbe Vorlage {{Weblink ohne Linktext}} zu verwenden und einen Parameter zur Kennzeichnung (Unterschiedung von namenlosen Links) einzuführen (Vorschläge willkommen). Wo ich unschlüssig bin: Sollen wir eine separate Kategorie einführen? Oder die Kategoriesortierung "missbrauchen"?--Cactus26 (Diskussion) 13:47, 8. Jan. 2013 (CET)

Habe nun die Unterstützung der puren Weblinks soweit gebracht, dass ich mal einen Echtdatentest für möglich halte. Habe mich jetzt doch entschieden, die Kennzeichnung der Einheitlichkeit halber hinten zu machen (kann die problematischen Fälle erkennen, diese werden nicht bearbeitet, nur protokolliert). Habe den Vorlagenparameter pur=ja ergänzt. Kategorie ist dieselbe.

Testedits:

Einen Trockenlauf über den gesamten Katbaum Chemie habe ich auch bereits durchgeführt: Von den 20781 Seiten würden 1552 beanstandet, es gibt 2986 pure und (bereits wieder) 4 namelose ([...]) Links. Bitte um Feedback.--Cactus26 (Diskussion) 18:53, 9. Jan. 2013 (CET)

Nachtrag: Habe doch Leyos oben vorgeschlagene Strategie verwendet: Pure Weblinks liegen dann vor, wenn vor einem Protokollpräfix (http://, https:// ftp://, ...) keines der zeichen "[", "=", "|" steht. Dadurch gehen sicher ein paar durch die Lappen, insbesondere prüfe ich Vorlagenparameter bislang grundsätzlich nicht (war mir bisher zu viel Theater).--Cactus26 (Diskussion) 19:00, 9. Jan. 2013 (CET)

Die Testedits sehen gut aus. Zum weiteren Testen würde ich vorschlagen, erst mal nur einen Teil des Chemie-Katbaums anzugehen.

Wäre es ev. möglich bei Links wie diesem oder diesem den DOI automatisch zu ergänzen?

linkUnlinked.js hat ein Problem mit den {{ direkt nach der URL, aber so schlimm ist das nicht. --Leyo 00:21, 10. Jan. 2013 (CET) PS. Magst du die 4 erwähnten [1]-Links gleich taggen oder angeben?

Man könnte wie urspr. geplant die Vorlage vor den Link stellen, denke, das würde dem Tool helfen. Beim DOI meinst Du, in den Hinweis übernehmen, oder?. Es scheint kein einheitliches Format zu geben, man muss für jede anbietende Site eine separate Heuristik entwickeln, für die häufigen kann ich das aber machen.--Cactus26 (Diskussion) 09:21, 10. Jan. 2013 (CET)

Wenn ein DOI auffindbar ist, könnte man eine Vorlage Cite Journal vorschlagen: {{Weblink ohne Linktext|Cite Journal|url=http://example.org |Hinweis_title =Titel gefunden|Hinweis_author=...|DOI=10.1007/s12109-001-0019-y|...}}; Wenn die Boteinträge passen, braucht man nur die überflüssigen Zeichenketten löschen. Ohne Bearbeitung müsste url im Text sichtbar angezeigt werden. Damit würde sich bei einem Botedit auf der Oberfläche nichts verändern. Frohes Schaffen, Boshomi ☕⌨☺ – 19:28, 10. Jan. 2013 (CET)

Ein paar Anmerkungen:

Ich würde bevorzugen, wenn Du ein Leerzeichen zwischen dem Link und dem {{-Ausdruck einfügst
Bei den letzten beiden Links in Polystyrol steht am Ende ein Punkt. Der könnte mM entfernt werden
Den Parameter PUR würde ich nach vorne ziehen, evtl. auch anders benennen, so dass er auch für die Links mit eckigen Klammern nutzbar ist (also bspw. "Fehlertyp=pur/oT/..." [oT=ohne Text]). Darauf basierend könnte man irgendwann (falls gewünscht) in unterschiedliche Wartungskats einordnen.
Den Parameter "Hinweis" finde ich für die zukünftige Verwendung auch nicht sprechend benannt: Besser wäre mM "Bot-Vorschlag"
Entgegen Boshomis Vorschlag würde ich den Vorschlagstext nicht mit mehrfachen "Hinweis"-Zeichketten füllen, sondern direkt Vorlagenkonform gestalten - also im Idealfall so, dass man beim Nacharbeiten nur noch einmal das "Hinweis=" (bzw. "Bot-Vorschlag=") löschen muss und dann steht eine korrekt befüllte Vorlage Cite Journal (oder welche auch immer)
Der letzte Link in Weihrauch (http://www.ncbi.nlm.nih.gov/pubmed/22545396) würde korrekt schlicht PMID 22545396 lauten - mir ist nicht klar, wieviel Autokorrekturfunktionalität Du einzubauen gewillt bist, aber sowas könnte man natürlich automatisch abfangen - oder mit einem getrennten Botauftrag erledigen.
In diesem Zusammenhang aufgefallen: Bspw. Nesprin - dort werden die Publikationstitel mit dem PMID-Link verlinkt, PMID wird aber auch nochmals getrennt angegeben. Davon scheint es haufenweise Beispiele zu geben, die mM nicht sinnvoll sind - was tun?
Und vielleicht auch noch interessant: Bevacizumab, EN 23 - bitte mal Quelltext anschauen! Irgendwer (vermutlich in enWP) hat doch da schon mal automatisch Texte eingefügt. Sollte man die vielleicht auch mal gezielt suchen? Oder vielleicht magst Du herausfinden, wer der dortige Botbetreiber war um in einen Austausch zu kommen? Ist nur so eine Idee.

--Mabschaaf 01:04, 15. Jan. 2013 (CET)

Ich rücke mal raus. Zu den aufgelaufenen Punkten:

Über die Artikel, die in jüngster Zeit dazugekommenen 4 namenlosen Chemie-Links enthalten, werde ich demnächst den Bot laufen lassen, dann kommen sie in die Kategorie.
Ich werde einen expliziten Parameter DOI einführen. Dafür muss ich jeweils ein spezifisches Suchmuster (mein Problem) für URL-Muster hinterlegen. Bislang vorgesehen:
- http://www.sciencedirect.com/science/article/pii/...
- http://dmd.aspetjournals.org/content/../../...abstract?sid=...

Weitere solche "DOI-liefernden Dokumenten-Hosts" müsst ihr mir bitte nennen, dass ich die Suchmuster entwickeln kann.

ein Leerzeichen zw. Link und "{{" ~~ist mMn technisch nicht möglich (da es das Ergebnis, d.h. den dargestellten Text, beeinflusst)~~ scheint möglich, ganz sicher bin ich mir nicht, ob es nicht irgendwo den dargestellten Text beeinflussen kann. Andere Meinungen?
Punkt hinter ".pdf". Danke für den Hinweis, damit gehört der Punkt zu den "PureTrimmedChars", werde den Bot korrigieren, automatisch entfernen werde ich ihn nicht, fänd ich inkonsequent, korrigiert werden muss der Link so oder so
Fehlertyp: Eine Wartungskat.differenzierung wäre auch beim Status quo möglich. Auf der Hilfeseite habe ich "namenlos" und "pur" als Begriffe verwendet. Ich wollte den Fehlertyp bei den namenlosen eigentlich weglassen, weil jeder zus. Text die Korrektur nicht leichter macht, da er ja hinausgeworfen werden muss. Andererseits ist es so, dass die "puren" Links eindeutig mehr sind als die "namenlosen". Im Moment tendiere ich zu folgedem: Ich führe eine Stellungsparameter ein, also {{Weblink ohne Linktext|pur|Hinweis=xxx}} bzw. {{Weblink ohne Linktext|namenlos|Hinweis=xxx}}. Meinungen?
Parametername "Hinweis" vs. "Bot-Vorschlag". Vorschlag hatte ich bewusst vermieden, da ja auch Texte wie "Autokorrektur möglich" und "kein Zugriff möglich am" vorkommen.
Eine automatische Befüllung einer Cite-Journal-Vorlage scheint mir weit jenseits eines sinnvollen Kosten/Nutzen-Verhältnisses zu stehen.
Automatismus für PMID: Liegt schon im Bereich des möglichen. Ein dedizierter Bot hätte das Problem, dass er ja auch die puren bzw. namenlosen Fälle finden müsste um tätig zu werden, was eben nicht so einfach ist. Die Frage ist, ob man sich die Mühe machen muss, ob in der "Linkumgebung" bereits "PMID" als Text vorkommt. Na ja, denke ich darüber nach. Wobei ich aber um Hilfe bitte: Welche Linksuffixes verhindern eine solche Korrektur (siehe [6], z.B. "ordinalpos=")?
"Bot generated title" in Bevacizumab. Interessant, ein Leidensgenosse. Ich habe versucht herauszufinden, wo das herkommt. Vergeblich, es stammt anscheinend nicht aus dem entspr. englischen Artikel.

--Cactus26 (Diskussion) 14:43, 15. Jan. 2013 (CET)

Nur zum letzten Punkt: Das war mit diesem Edit.--Mabschaaf 15:07, 15. Jan. 2013 (CET)

Ev. wurde tools:~dispenser/view/Reflinks verwendet. --Leyo 15:15, 15. Jan. 2013 (CET)

Nach Nutzung von Wikiblame war ich irgendwie der Auffassung, es müsste per C&P von der engl. Wikipedia kommen. Nun, das ist eine komplett andere Strategie, ein interaktives Tool. Ich glaube nicht, dass es da viele Synergieeffekte geben kann. Allerdings ist es natürlich eine Überlegung wert, welche Strategie welche Vorteile hat, spontan sehe ich mich nicht in der Lage, hier ein fundiertes Urteil abgeben zu können.--Cactus26 (Diskussion) 18:33, 15. Jan. 2013 (CET)

Ich habe in den letzten Wochen eine ganze Menge Weblinks bearbeitet, der entsprechende Kommentar kam öfter mal vor. Dieses Projekt hier hat meine Arbeitsweise beim Abarbeiten der rettbaren mit "Toter Link" markierten Seiten insofern beeinflußt, dass ich nun wenn möglich Titeltexte suche, wo keine vorhanden sind. Der Titel, zumindest in der Bot-Variante sollte möglichst bald überall eingefügt werden. Diese erleichtern das Auffinden von Ersatzlinks erheblich, falls die Seite offline geht. Frohes Schaffen, Boshomi ☕⌨☺ – 21:03, 16. Jan. 2013 (CET)

Habe jetzt folgende Änderungen vorgenommen:

Heuristik/Parameter für DOI ergänzt. Kommt doch ohne Kenntnis der "DOI-Sites" aus. Bitte um Rückmeldung für Fälle, wo eine DOI ermittelbar sein sollte, aber nicht wurde
Parameter Art eingeführt (=namenlos/pur). Wird vorangestellt. Habe mich doch gegen Stellungsparameter entscheiden, Mischmasch von Stellungs- und benannten Parametern ist nie gut.
Blank zw. URL und "{" be puren URL habe ich bisher nicht gemacht
Vorlagendok. habe ich aktualisiert
Habe einen Testlauf mit den bisherigen und zudem allen schon wieder entstandenen namenlosen Chemiefällen gemacht. (Bei der Angabe der Menge der schon wieder existierenden Namenlosen habe ich mich übrigens oben vertan, nicht 4 sondern 47 war richtig.)

Hier die Bot-Edits:

--Cactus26 (Diskussion) 12:03, 17. Jan. 2013 (CET)

Nachtrag: Für die Encoding-Probleme beim Holen des Titels habe ich jetzt noch einen aufwändigeren Workaround, der verlässlicher sein sollte. Für PMID werde ich bei puren Weblinks eine Autokorrektur ergänzen. Ein wenig denke ich darüber nach, ob man pure Weblinks, die als alleiniger Inhalt eines Ref-Tags oder eines Aufzählungselements (Weblinks) stehen, nicht mithilfe des Titels automatisch korrigieren könnte (wenn der Titel brauchbar aussieht, nur was ist "brauchbar"?)--Cactus26 (Diskussion) 19:19, 17. Jan. 2013 (CET)

Schaut Euch z.B. mal das an (das Umlautprb. ist gelöst, mittlerweile Escape ich die Pipes nicht mehr sondern ersetze sie durch "; "). Unter dieser Voraussetzung wären die Titel als Linktexte brauchbar.--Cactus26 (Diskussion) 19:24, 17. Jan. 2013 (CET)

Ermittlung DOI für nicht standard-konforme DOI-Hosts

Als standardkonform gelten Zielseiten, die ein Meta-Tag folgender Form enthalten (z.B. http://dmd.aspetjournals.org/content/36/6/1135.abstract)

Die Attributreihenfolge kann variieren, zudem dürfen weitere Attribute in diesem Tag angegeben sein. Es gibt aber auch Seiten, die dieser Konvention nicht entsprechen. Einziges bisher bekanntes Beispiel:

http://www.sciencedirect.com/science/article/pii/S167265291160125X?np=y

Für solche Seiten wird ein DOI-Link auf dieser Seite gesucht ("http://dx.doi.org/10....) und diesem der DOI entnommen, falls dieser auf diese Weise eindeutig ist. Solche DOI-Hosts müssen explizit im Bot-Programm aktiviert werden, da es sonst zu viele falsch-positive Fälle gibt.--Cactus26 (Diskussion) 14:12, 5. Jun. 2013 (CEST)

Nicht gefundene Links

Hi Cactus, Du könntest Dir hier mal die ENs 4&6 anschauen, die wurden von Deinem Bot nicht erkannt. Evtl. kannst Du da noch an den Schräubchen drehen... Viele Grüße --Mabschaaf 12:11, 17. Jul. 2013 (CEST)

Hm. Hier fehlt der Protokollpräfix, formal (und technisch) sind es damit noch nicht einmal Weblinks. Nur der Präfix "www." legt hier nahe, dass sie als Weblink gemeint sind. Diese einzubeziehen beinhaltet vermutlich wieder ein paar Fallstricke. Beispielsweise hätte man damit die Fälle [http://www.test.com www.test.com] entweder auszuschließen oder ebenfalls als weiteren Spezialfall einzubeziehen (was Du ja ohnehin willst). Mal sehen, vielleicht komme ich dazu einen Testlauf zu machen, um beurteilen zu können, was die Einbeziehung protokollloser Weblinks bedeuten würde.--Cactus26 (Diskussion) 08:51, 18. Jul. 2013 (CEST)

Du könntest ja vielleicht mal ganz gezielt nach protokolllosen Links suchen, die direkt nach dem öffnenden ref stehen, also nach <ref>www. oder <ref name=...>www. - ich halte beides letztlich für Eingabefehler, die sowieso zu korrigieren wären.--Mabschaaf 08:58, 18. Jul. 2013 (CEST)

Das stimmt. Was mich daran stört, ist dass die Abgrenzung zw. aufgedeckten und nicht aufgedeckten Problemen recht willkürlich ist, schon ein <ref>siehe www.... würde nicht aufgedeckt.--Cactus26 (Diskussion) 15:36, 20. Jul. 2013 (CEST)

Naja, nicht aufgedeckte Probleme wird es immer so lange geben, bis irgendjemand darüber stolpert. Deshalb kann man aber schon mal an bekannten Problemen arbeiten, oder?

Aber um den o.g. Spezialfall vielleicht etwas zu verallgemeinern: Vielleicht kannst Du eine Suche stricken, die alle Protokoll-freien Weblinks findet (die ja vermutlich alle nicht von der Wikimedia-Software erkannt werden). Damit werden dann als Falsch-positive ebenfalls die Einträge gefunden, bei denen die Protokoll-freie "URL" als Linkbeschreibung verwendet wird - also genau der Fall, den Du oben beschrieben hast ([http://www.test.com www.test.com]).

Die generellen Fragen wären: Klappt das, wieviel Aufwand ist die Programmierung, wie oft kommt das überhaupt vor? Vielleicht kannst Du ja einfach zunächst mal eine Liste mit ein paar Beispielartikeln erstellen, die man dann näher analysieren kann.--Mabschaaf 12:25, 22. Jul. 2013 (CEST)

Mehr nicht gefundene Links

Hi Cactus26, auch hier hat Dein Bot ein paar Links nicht gefunden - und zwar nackte Links, die von runden Klammern umschlossen waren, wie: (http://www.beispiel.de) Vielleicht kannst Du auch das noch optimieren. Viele Grüße --Mabschaaf 21:41, 6. Aug. 2013 (CEST)

Die schließende Klammer ist ein Problem, hier ist nicht ganz leicht nachzuempfinden, was der Wiki-Parser als zur URL zugehörig erklärt und was nicht (siehe Benutzer:Cactus26/ParserAndExternalLinks). Bisher schon wurden die Fälle, in denen der Bot aufgibt, das korrekte Ende der URL zu finden, in einem Logfile vermerkt (hatte ich Dir unterschlagen). Die meisten dieser Fälle sind geklammerte Links in der Art. Ich bin jetzt aber auf eine Verbesserung gekommen, mit der ich die meisten dieser Fälle abhandeln kann. Wie gewünscht lasse ich den Bot nun nochmal über alle Chemie-Artikel laufen.--Cactus26 (Diskussion) 08:32, 12. Aug. 2013 (CEST)

Der Wiederholungslauf ist nun abgeschlossen. Sind doch schon wieder erstaunlich viele. Habe den Logfile durchgesehen und die wenigen verbliebenen Sonderfälle bereits bearbeitet.--Cactus26 (Diskussion) 11:29, 12. Aug. 2013 (CEST)

Prima, vielen Dank! Ich kümmere mich auch wieder um die Leerung der Kat...--Mabschaaf 21:11, 12. Aug. 2013 (CEST)

Warum?

Lieber Botbetreiber, warum die plötzlich vielen Anmerkungen, z. B. im Artikel Gerhard Hoffmann (Physiker)? Da standen und stehen doch überall Texte dazu. --PaulT (Diskussion) 14:53, 18. Nov. 2013 (CET)

Nicht als Linkbeschriftungen, sondern danach. Nackte Weblinks sollten vermieden werden. --Leyo 15:00, 18. Nov. 2013 (CET)

Vielleicht hilft Dir dieser Edit zum Verständnis, welche Form gewünscht ist.--Mabschaaf 15:03, 18. Nov. 2013 (CET)

Anonym

Suche

Vorlage Diskussion:Weblink ohne Linktext

Namensräume

Mehr

Seitenaktionen

Inhaltsverzeichnis

Inline oder nicht Inline

Plain Links

Bereich für prototypischen Einsatz

Design

Test

Physik

Autokorrektur für Google books?

Mögliche Verbesserung

Status

Einbeziehen purer Weblinks

Ermittlung DOI für nicht standard-konforme DOI-Hosts

Nicht gefundene Links

Mehr nicht gefundene Links

Warum?

Navigation

Navigation

Mitmachen

Wikiwerkzeuge

Wikiwerkzeuge

Anonym

Suche

Vorlage Diskussion:Weblink ohne Linktext

Inline oder nicht Inline

Plain Links

Bereich für prototypischen Einsatz

Design

Test

Physik

Autokorrektur für Google books?

Mögliche Verbesserung

Status

Einbeziehen purer Weblinks

Ermittlung DOI für nicht standard-konforme DOI-Hosts

Nicht gefundene Links

Mehr nicht gefundene Links

Warum?

Navigation

Wikiwerkzeuge

Seitenwerkzeuge

Weitere Projekte