Benutzer Diskussion:PyBot
Überschrift für das Inhaltsverzeichnis
Hi, er zählt die Sätze noch nicht richtig. Ist vielleicht schon aufgefallen. Dort, wo ein Punkt zum Beispiel in einem Datum ist, wirds pro Punkt ein Satz mehr ;-) http://de.wikipedia.org/wiki/Wolfgang_Fortner 5 Sätze gezählt, 3 vorhanden. --Olaf1541 20:13, 8. Jun 2003 (CEST)
- Hallo Olaf, danke für den Hinweis. Ich hatte es schon selbst bemerkt und leider gibt es auch noch viel mehr Situationen, wo es schief geht: "I.", " II." " IX." etc., "St.", "bzw.", "Dr.", "Prof.", "z.B.", "13. März" usw. Der Aufwand eine solche Satztrennung exakt zu machen ist wahrscheinlich zu hoch. Auch die Paragraphenzählung und sogar die Wortzählung ist nicht exakt (z.B. wird en:xyz fälschlicherweise mitgezählt). Exaktheit ist aber auch nicht so wichig, denn es geht mehr um die Größenordnung und die stimmt meistens. -- mkrohn 23:31, 8. Jun 2003 (CEST)
Hallo PyBot, bzw Marco, wie wäre es damit:
Die Seite Fgb zeigt nach Benutzer:Fgb, das ist also extrem störend und überhaupt nicht tolerierbar :-), eine Liste von zu konvertierenden Artikeln findet man hier. Zu ersetzen wäre jeweils Fgb durch Benutzer:Fgb. Keine Ahnung ob das ein sinnvoller Vorschlag ist aber vielen Dank für die Konvertierung der Datumsartikel! Gruß 141.84.26.154 07:40, 29. Mai 2003 (CEST)
- Hallo Fgb, danke für dein Interesse, aber ich fürchte das dies keine geeignete Aufgabe für ein Skript ist. Das Skript umzuschreiben erfordert fast genausoviel Aufwand wie die Konvertierung von Hand (es sind ja nur um die 20 Seiten). Außerdem reagieren manche Wikipedianer allergisch auf Skripte und Bots, d.h. ich fürchte dass du damit auf der deutschen mailingliste nicht durchkommen wirst. Beste Grüße -- mkrohn 11:46, 29. Mai 2003 (CEST)
Hallo Marco,
ich hab mir grade die Testseite angeschaut und festgestellt, dass beim Urheberrechtstest relativ viele false positives auftauchen. Das könnte man vielleicht reduzieren, indem man a) längere Textabschnitte nimmt und/oder b) Textabschnitte um einen Punkt + Leerzeichen herum, damit erwischt man (öfter) zwei halbe Sätze, die über mögliche Urheberrechtsverletzungen mehr aussagen als "Fische, Würmer und Amphibien", "und seine Mutter starb" o. ä. Nur mal so als Anregung --Elian
- Hallo Elian, danke für deine Anregungen. Die Analyse von Textstellen ist sicherlich noch nicht perfekt. Zum einen wird der Text völlig fehlerhaft in Sätze zerlegt (jeder Punkt zählt als Satzende), zum anderen wird keine Analyse gemacht wie geeignet ein Satz für eine Anfrage macht. Viele triviale Wörter wie "der", "sich" etc. sollten nach Möglichkeit vermieden werden. Diese features werden sicherlich noch kommen, aber um einen schnellen Überblick zu bekommen, ob eine Urheberrechtsverletzung vorliegen könnte sollte auch die benutze primitive Methode reichen. Ob es wirklich besser ist den Satz um einen Punkt herum zu wählen weiß ich nicht. 6 Wörter sind in den allermeisten Fällen äußerst zuverlässig, die "Fische, Würmer und Amphibien" z.B. gibt es nichteinmal bei google :-). Vielleicht spiele ich mal damit herum, aber zuerst habe ich noch ein paar andere Dinge auf meiner TODO Liste, die ich gerne umsetzen würde. Vielen Dank für deine Anregungen aber auf jeden Fall. Beste Grüße, Marco -- mkrohn 00:27, 20. Jun 2003 (CEST)
Hallo Marco,
könnte man den PyBot auch dazu verwenden, alle Artikel nach Daten durchzusuchen - um sie dann in den Tages-, Monats- und Jahres-Artikeln nachzutragen? Oder gar, das klingt ja fast ein wenig utopisch, auch gelich zu überprüfen, ob sie dort auch schon eingetragen sind?
Da der PyBot eigentlich auch ein Bot, (Software)-Robot, -Roboter ist, könntest Du darüber auch eine Ergänzung beim Roboter schreiben? Gruss :-) Ilja 12:44, 26. Jun 2003 (CEST)
Hallo Marco,
kann Pybot eine Reihe von Saurischa-Vorkommen in Saurischia konvertieren? Oder geht das per Hand schneller? -- fristu 14:47, 1. Sep 2003 (CEST)
- Hallo, wenn du eine Liste der zu konvertierenden Seiten hast und genau definieren kannst, was geändert werden soll, dann sollte das kein Problem sein. Ob es von Hand einfacher geht, hängt von der Anzahl der zu editierenden Artikel ab und davon wie kompliziert die Änderungen in Python zu realisieren sind (einfaches sucher & ersetzen z.B. ist sehr einfach). Viele Grüße -- mkrohn 15:21, 1. Sep 2003 (CEST)
- Es handelt sich um 22 Saurier-Artikel in denen jeweils ein "i" fehlt. Siehe http://de.wikipedia.org/w/index.php?search=Saurischa&ns0=1&redirs=1&limit=50&offset=0
- Wie muss denn die Liste beschaffen sein? mit Grüßen -- fristu 17:56, 1. Sep 2003 (CEST)
- Die Seite könnte man theoretisch parsen, aber bei 22 Artikeln mit so wenig Änderungen ist der Aufwand mit Pybot viel höher als eine Änderung per Hand. Sorry, aber ich glaube das lohnt sich dann nicht. Viele Grüße -- Marco
Also ich vermisse schon den Bericht über URV! kann man das weiterführen (lassen)? --62.178.228.146 13:21, 10. Okt 2003 (CEST)
moin, benötigt PyBot immer eine liste von artikeln die er bearbeiten soll oder wäre es möglich ihn auch durch die ganze wikipedia zu jagen und _nur_ nach bestimmten strings suchen zu lassen und diese in eine liste einzutragen? also konkret für folgendes problem: Benutzer:AssetBurned/Flugzeuge - AssetBurned 01:43, 4. Apr 2004 (CEST)
- Hallo, Pybot funktioniert zur Zeit nicht richtig, da ich jetzt die code-Basis von [1] mitbenutze. Die ganze Wikipedia kann man damit meines Wissens durchstöbern, ich glaube nur bei der immer noch hohen Serverlast ist es nicht sinnvoll mehr als 70.000 Artikel zu durchsuchen, um dann in vielleicht jedem hundersten eine Änderung zu machen. Wenn du Python programmieren kannst, empfehle ich mal einen Blick auf den obigen link zu werfen. Viele Grüße -- mkrohn 02:06, 4. Apr 2004 (CEST)
Hej Marco,
bei der URV-Analyse sehe ich folgendes Problem: Was ist, wenn der Bot identische oder ähnliche Stellen im WWW findet, sich aber der Seitenbetreiber bei Wikipedia ohne Quellangabe bedient hat? Das könnte auf dauer ein Sterben von den zum Teil exzellenten Artikeln hier zur Folge haben! Oder wie siehst Du das? --80.134.69.253 22:00, 24. Jun 2004 (CEST) (JAAA, morgen hol ich mir auch nen wkikipediaaccount *g*)
- Hallo,
- die Urh-Verletzungen ließen sich vor einigen Monaten - als noch nicht so oft der Inhalt der Wikipedia kopiert wurde - noch ganz gut auffinden. Ich benutze den pybot dafür nicht mehr und weiß daher nicht, ob es immer noch funktionieren würde. Natürlich kann man bestimmte Seiten auch gleich aus der Suche automatisch rausnehmen, wenn bekannt ist, dass diese den Inhalt der Wikipedia kopieren. Ansonsten könnte man noch die entsprechenden Hits auf Verweise zur Wikipedia hin durchforsten, letzlich muss man aber immer noch von Hand prüfen, da gebe ich dir vollkommen Recht. Viel Spaß in der Wikipedia und viele Grüße aus Hannover -- mkrohn 23:03, 24. Jun 2004 (CEST)
- hallo, dieses problem lässt sich, denke ich, gut lösen, indem man am ende des suchstrings "-wikipedia" anhängt. beispiel, beispiel ohne "-wikipedia"
- dabei werden, wenn überhaupt, nur solche mirrors angezeigt, die die lizenzbedingungen verletzen, indem sie wikipedia nicht als quelle erwähnen. grüße, Hoch auf einem Baum 04:03, 27. Aug 2004 (CEST)
- Jup, das ist interessant. Ich wußte gar nicht, dass google das inzwischen(?) kann. Danke für den Hinweis -- mkrohn 11:19, 27. Aug 2004 (CEST)
Wikipedia:Bilder ohne Lizenzangabe
Auf o.g. Seite werden Bilder gelistet, auf deren Bildseiten keine der erlaubten Lizenzen zu finden ist (Public Domain, GNU FDL). Viele Bilder sind aber Karten aus der OpenGeoDB, die alle als GNU FDL freigegeben sind. PyBot könnte da folgendermaßen helfen:
- alle Bilderseiten von Wikipedia:Bilder ohne Lizenzangabe (deren Unterseiten) durchgehen
- wenn ein "opengeodb" auf Bildseite gefunden (nicht case-sensitve)
dann GNU FDL hinzufügen - den Link zur Bildseite von Wikipedia:Bilder ohne Lizenzangabe rausnehmen
Wäre das so möglich? --Jorges 01:58, 31. Aug 2004 (CEST)
- Hallo, leider bin ich zZ mit einem anderen Pybot-Projekt beschäftigt und habe auch noch meine Dissertation zu schreiben, so dass es in den nächsten vier Wochen wohl rein praktisch für mich nicht zu realisieren wäre. Aber frage doch mal Benutzer:Paddy, der hat auch einen Bot und weiß wie dieser funktioniert; vielleicht kann er dir weiterhelfen. Viele Grüße -- mkrohn 02:19, 31. Aug 2004 (CEST)
- OK, ich frage ihn mal. Danke. --Jorges 12:46, 31. Aug 2004 (CEST)
neues Design
Hallöchen, ich finde das neue Design, naja, unübersichtlicher. Vorher konnte man anhand der Farbgebung schnell auf einem Blick sehen, wo man genauer hinschauen muss, das ist jetzt nicht mehr möglich. Drum mein Vorschlag: Mehr Farbe! ;-) --BLueFiSH ✉! 01:25, 21. Dez 2004 (CET)
- O.k. ich werde in den nächsten Tagen mal schauen, was ich tun kann. Die Warnungen ("Text ist sehr kurz" etc.) sollten bald wieder erscheinen. Wenn ich eine Abschätzung für die Wahrscheinlichkeit einer URV habe, könnte ich vielleicht einen roten Balken neben die Links setzen. Würde das helfen? -- mkrohn 11:03, 21. Dez 2004 (CET)
- Ja ds würde sicherlich helfen. Vorher konnte man halt relativ schnell sehen "oh da sind viele roten Zahlen, da muss ich gucken". Es würde wahrscheinlich schon reichen, wenn diese wieder rot sind. Ein Balken, der die überprüften Satzteile mit den gefunden vergleicht, ginge natürlich auch. Viele Grüße --BLueFiSH ✉! 11:06, 21. Dez 2004 (CET)
- Hallo Marco, gute Idee, das neue Layout ist wirklich schick :-) Wie wär´s alternativ mit fettem Grün für "keine" Fundstellen, ist vielleicht nicht ganz so aufdringlich wie lauter rote Links? Beste Grüße von :Bdk: 11:10, 21. Dez 2004 (CET)
- Ich habe jetzt die Ausgabe so geändert, dass die Liste der Fundstellen [1,3,4] in rot angezeigt wird und falls es keine Fundstellen gibt, so wird dies in "grün" angezeigt.
- Vielleicht komme ich dazu in den nächsten Tagen dazu eine Abschätzung für die Wahrscheinlichkeit einer URV zu schreiben. Das Skript ermittelt nämlich noch mehr Informationen, als angezeigt werden, so ist bspw. ein Hit auf einem WP Mirror mit Indiz dafür, dass es sich um keine URV handelt. Ein Hit auf ein Satzteil der 300.000 Treffer bringt ist i.a. nicht viel Wert.
- Danke auf jeden Fall für eure Anregungen -- mkrohn 15:45, 21. Dez 2004 (CET)
Jo, so ist das schon ganz fein jetzt. das blau wirkt auch sehr beruhigend ;-). andere Sache: warum werden eigentlich so wenig Einträge angezeigt? mit jedem F5 drücken werden es weniger. jetzt hab ich grade gar keinen Artikel mehr in der Anzeige. der letzte der eben drin war, war Offensive gegen die Pelzindustrie und der ist von 17:34. da stand dann "letzte Überprüfung: 17:49". Ist der Bot so schlau, dass angeklickte(überprüfte) Artikel automatisch aus der Liste rausgenommen und nur noch nicht angeklickte Artikel angezeigt werden? --BLueFiSH ✉! 17:56, 21. Dez 2004 (CET) P.S.: jetzt werden 2 Artikel angezeigt, welche um 17:42 angelegt wurden. danach gab es aber noch ein Dutzend andere. nach dem Anklicken sind die beiden immer noch in der Liste, also scheint der Bot das doch nicht so zu machen, wie ich es erst gedacht habe. --BLueFiSH ✉! 17:59, 21. Dez 2004 (CET)
- Warum zeitweise Artikel aus der Liste verschwinden verstehe ich nur teilweise. Einigermaßen nachvollziehbar ist es in den Stoßzeiten, in denen viele neue Artikel geschrieben werden. Manchmal kommt der Bot mit dem Lesen der ganzen neuen Artikel nicht nach und zeigt deshalb nur eine reduzierte Anzahl an.
- Im allgemeinen stehe ich jedoch vor einem Rätsel. Das Problem ist mir seit längerm bekannt und ich habe den betreffenden Code auch schon öfters angeschaut, aber ich verstehe einfach nicht, warum die Anzahl manchmal einbricht, auch wenn kaum neue Artikel dazukommen. Als Zwischenlösung kann ich die Länge der Liste wieder von 12 auf 15 setzen, dass sollte die Situation etwas verbessern. -- mkrohn 19:41, 21. Dez 2004 (CET)
CopyScape
Ist es möglich einen Direktlink zu Copyscape mit der aktuell überprüften Seite einzubinden wie es in folgenden Beispiel möglich ist? Das würde auf jeden Fall meine Suche noch etwas vereinfachen, weil ich den PyBot als Anhaltspunkt nehme und dann per CopyScape die Seite gründlich durchleuchte. andere machen das sicher auch so. Viele Grüße --BLueFiSH ✉! 18:32, 29. Dez 2004 (CET)
- Klar, gute Idee. Ich werde heute zwar nicht mehr dazu kommen, aber Morgen sollte ich kurz Zeit dafür haben. Danke für den Vorschlag. -- mkrohn 19:41, 29. Dez 2004 (CET)
"Achtung sehr kurzer Artikel" und ähnliche
Hallo mkrohn
In deiner alten Version fand ich derartige Hinweistexte als sehr hilfreich. Übersehe ich diese nur oder hastdu sie tatsächlich nicht mehr implementiert. Fragt --Aineias © 07:41, 16. Feb 2005 (CET)
- Hallo. Die Warnungen wieder hinzuzufügen sollte nicht schwer sein, aber ich fürchte ich habe dafür in den nächsten drei Monaten keine Zeit :-( Die Chancen sehen danach besser aus :-) -- mkrohn 09:27, 16. Feb 2005 (CET)
Lebt dieser Bot noch?
Hallo zusammen, Dem 'Kontrolliere die Arbeit des Bots' Link folgend, hat der Bot seine Arbeit wohl 2004 eingestellt. Dies ist aber aus der eigentlichen Benutzerseite nicht erkennbar. Ist das so korrekt und so gewünscht? - Warum läuft er denn nicht mehr? Danke. --Fotoms 10:58, 20. Sep. 2011 (CEST)