Wikiup Diskussion:Helferlein/Artikellistengenerator
Wunschliste für den Arbeitslistengenerator
Ich bin mir nicht ganz sicher, inwieweit ich mit der folgenden Liste hier richtig bin. Aber das sind Aspekte, die mir aus meiner Erfahrung mit Qualitätssicherungsmaßnahmen wie den Löschkandidaten auf der einen Seite und meiner Erfahrung mit der Entwicklung von Werkzeugen auf der anderen Seite lohnens- und wünschenswert erscheinen.
- Artikel mit problematischem Zeitbezug. Da gibt es viele Beispiele, etwa Ereignisse, die erst in Kürze geschehen werden und dementsprechend mit „wird“ usw. beschrieben sind, auch nachdem das Ereignis längst Geschichte ist. Ich stelle mir vor, dass solche Abschnitte mit entsprechenden Wortlisten recht zuverlässig auffindbar sein sollten. Ein anderes Beispiel sind Geschichts-Abschnitte, in denen wie in einem Historienroman ein fortlaufender Zeitbezug verwendet wird, der für eine enzyklopädische Darstellung unpassend erscheint. Am schwierigsten zu erkennen sind Abschnitte, die Tatsachen ganz ohne Zeitbezug präsentieren, als ob sie noch gültig wären, obwohl die genannten Fakten Jahre alt und längst überholt sein können.
- Sehr häufig fehlt einfach jegliche Quellenangabe. Ein einfaches formales Indiz kann sein, dass ein Artikel gemessen an der Menge des Textes zu wenige oder gar keine Einzelnachweise enthält. Die Kommentarzeilen aus der Versionsgeschichte könnten für diese Auswertung ebenfalls in Betracht gezogen werden.
- Artikel, die zu stark im Anleitungs- oder Tutorial-Stil verfasst sind und aus zu wenig Text und zu vielen Liste und Quelltextbeispielen bestehen. So etwas findet man häufig in meinem Themenbereich, der Informatik, aber nicht nur dort.
- Artikel mit übermäßigen Formatierungen, etwa Farben, Vorlagen oder schlimmstenfalls veraltetem HTML. So etwas entgleitet sehr schnell der Kontrolle derjenigen Benutzer, die sich damit auskennen und befähigt sind, verantwortungsbewusst mit den zur Verfügung gestellten Mitteln umzugehen. In der Praxis werden Quelltextabschnitte aus anderen Artikeln oder gar aus veralteten HTML-Tutorials im Web zusammen kopiert. Der Code wuchert.
- Für formale Aspekte wie zu kleine oder zu große Artikel würde ich mir einen noch dynamischer angepassten Schwellwert wünschen, der sich nicht nur prozentual aus der Durchschnittsgröße im Suchergebnis ergibt. In meiner Beispielsuche erhalte ich nur 1 große aber rund 100 kleine Seiten. Die Liste würde mich mehr motivieren, wenn ich 10 große und 10 kleine Seiten erhalten würde und/oder wenn ich sie nach der Größe sortieren könnte. Anders formuliert: Ich schlage vor, den Artikeln für jedes Kriterium Minuspunkte zu geben. Zum Beispiel gibt es für bestimmte Wartungsbausteine −10 Punkte, für weniger kritische vielleicht −5 und für zu kleine und zu große Artikel abgestuft nach einer bestimmten Formel um so mehr Punkte, um so stärker die Größe vom Durchschnitt abweicht (logarithmisch?).
- „Keine Bilder“ sollte die Artikelgröße in Betracht ziehen. Bei sehr kurzen Artikeln ist es kein Fehler, dass sie kein Bild haben. Umgekehrt können Artikel sehr schnell „überbildert“ sein.
- Die Größe und Frequenz der Diskussionen zu einem Artikel (auch Archiviertes beachten, etwa indem alle Unterseiten einbezogen werden) dürfte ebenso wie das Artikel-Feedback-Tool deutliche Hinweise liefern.
- Ob ein Artikel verwaist ist.
- Die Länge der Lauftextabschnitte in einem Artikel in Relation zur Menge und Anordnung der Zwischenüberschriften. Problematisch können dabei sowohl zu wenige als auch zu viele Zwischenüberschriften sein. Genauso kann der Lauftext in zu viele kleine oder zu wenige große Absätze untergliedert sein.
- Es lassen sich zahlreiche, immer kleinteiliger werdende formale Kriterien finden, für die wir unter anderem im WikiProjekt Syntaxkorrektur (auf das ich hier sicherheitshalber noch einmal hinweisen möchte) bereits Werkzeuge haben.
--TMg 18:35, 12. Nov. 2012 (CET)
- Hallo TMg, vielen Dank für deine Vorschläge. Hier ist genau der richtige Ort dafür! Wir werden uns die Liste genauer ansehen und überlegen an welchen Stellen wir ansetzen. Ich melde mich dazu wieder. Angelika Adam (WMDE) (Diskussion) 14:45, 13. Nov. 2012 (CET)
Ich habe bemerkt, dass es jetzt einen Filter „Artikel-Feedback“ gibt. Ich sollte dankbar sein, das habe ich unter anderem auf en:Wikipedia:Article Feedback Tool selbst mehrfach gefordert. Leider fällt es mir schwer, meinen Enthusiasmus zu waren, wenn ich sehe, dass so vieles so viel besser gemacht werden könnte.
- Warum weiß niemand davon, dass es diesen Filter jetzt gibt? Insbesondere, warum weiß auf Wikipedia:Artikel-Feedback niemand davon?
- Warum der Schwellwert von 60 %? Warum nicht einfach ein Ranking der am schlechtesten bewerteten Artikel, beginnend mit dem schlechtesten? Das läuft auf meine Punkte-Idee hinaus, die ich oben schon erklärte. Die alphabetische Sortierung (so wie jetzt) gehört als Option dazu, sie aber zur einzigen zu machen, ist in meinen Augen unglaublich viel verschenktes Potential. Selbst wenn man die Punkte gar nicht abstuft sondern nur ganze Punkte vergibt (eine Vorlage beispielsweise kann nur vorhanden sein oder nicht), ergibt sich schon ein Ranking, wenn ein Artikel die Kriterien mehrerer Filter erfüllt. Viele Filter erlauben aber problemlos Abstufungen.
- Ich halte ein weiteres Ranking nach der Anzahl der nicht erledigten und nicht missbräuchlichen Kommentare für interessant. Wo brodeld es am meisten und wo lohnen sich Verbesserungen dementsprechend am ehesten.
- Warum ist diese Funktion nicht Teil des Feedback-Tools? Ich nehme nicht an, dass die Arbeit hier zurück zum Feedback-Tool fließen wird?
--TMg 04:34, 9. Jan. 2013 (CET)
- Hallo TMg, wir haben die Einführung dieses Filters im Rahmen der Umfrage (hier Punkt 2) und Diskussion zum Artikel-Feedback-Tool besprochen und damit auch auf den Wunsch zur Durchsuchbarkeit nach Kategorien reagiert. Mit Hilfe des Arbeitslistengenerators können Listen verbesserungswürdiger Artikel erstellt werden. Der Schwellenwerts von 60 % ermittelt somit Artikel einer Suchmenge, die in der Mehrzahl als „nicht gefunden, was gesucht wurde“ markiert wurden. Du hast natürlich recht, eine alphabetische Sortierung der Ergebnisse ist an dieser Stelle wenig zielführend. Wir werden prüfen, wie wir ein weiteres Ranking vornehmen können. Zu deinem 4. Punkt: Wir sind sehr daran interessiert bereits entwickelte Ergebnisse wieder/weiter zu verwenden. Aus diesem Grund sind beide Unterstützungswerkzeuge auch modular aufgebaut, so dass bereits vorhandene Analysen intergriert werden können. Wir werden natürlich versuchen sinnvolle Erweiterungen auch für das AFT anzuregen und voranzubringen. Es wäre doch wirklich schade um die bereits geleistete und erprobte Arbeit. Wir freuen uns auf weitere Hinweise und Vorschläge!
Viele Grüße Angelika Adam (WMDE) (Diskussion) 13:01, 9. Jan. 2013 (CET)- Das in der Umfrage war ich selbst. ;-) Vielleicht greife ich vor, aber wie soll ohne Dokumentation auf Wikipedia:Artikel-Feedback jemand wissen, dass es diese Möglichkeit gibt? Leider habe ich RENDER jetzt etliche Wochen ignoriert, weil der Arbeitslistengenerator kurz nach meiner ersten Rückmeldung vom November nie wieder funktionierte (zumindest immer dann nicht, wenn ich es versuchte). Auch heute spuckt er wieder nur „controller Default_%7ErenderController name not valid“ aus. Gestern ging er. Bitte versteht mich nicht falsch. Ich bin so streng, weil ich hoffe und möchte, dass dieses Projekt von der Wikipedia-Community akzeptiert und lange genutzt wird. Selbst kleine Schnitzer oder verschenkte Chancen können da ein entscheidendes „Zünglein an der Akzeptanz-Waage“ sein. --TMg 14:42, 9. Jan. 2013 (CET)
- Hallo TMg, danke für den Hinweis! Der Fehler hing mit der URL-Kodierung zusammen und ist jetzt behoben. Hast du die Seite anders aufgerufen, als es gestern funktionierte? (z. B. URL eintippen vs. Aufruf aus Lesezeichen)? Kai Nissen (WMDE) (Diskussion) 19:57, 9. Jan. 2013 (CET)
- Das hab ich mich auch gefragt, konnte es aber nicht eingrenzen. Vielleicht der Proxy hier bei mir. Jetzt geht es. Danke. Und gleich noch ein Hinweis: Aktuell gibt es viele Artikel, die nur ein einziges Feedback haben. Ist das negativ, wird der Artikel schon angezeigt, selbst wenn das Feedback nicht hilfreich war und als erledigt markiert wurde. Kurz: Erledigtes bitte nicht mit in die Berechnung einbeziehen. --TMg 20:11, 9. Jan. 2013 (CET)
- Hallo TMg!
- Zum "Ranking" bzw. Punktesystem: Wähle mal mehrere Filter aus, dann wirst du sehen, dass vor der alphabetischen Sortierung nach der Anzahl der Filter, die etwas gefunden haben, sortiert wird. Das entspricht also schon in etwa deinem Punktesystem, mit einem Punkt pro Filter. Das weiter zu granulieren, halte ich nicht für zielführend. Nach welchen Kriterien soll man die Wichtigkeit der Filter bewerten? Wenn jemand nach kleinen Artikeln ohne Bilder sucht, dann ist eben der NoImages-Filter der wichtigste. Für jemand anderen ist das Template X wichtiger, je nach Kontext der Suche.
- Zur Sortierung nach Anzahl der schlechten Bewertungen beim AFT-Filter: Ok, das ist ein guter Punkt. Der Filter gibt jetzt im Namen die Prozentangabe der "guten" Bewertungen mit aus, dadurch landen die schlechten automatisch oben.
- Dann noch ein Missverständnis: Der AFT-Filter durchsucht die Bewertungen, nicht die Kommentare. Nur Kommentare können als "erledigt" oder "nicht hilfreich" markiert werden, die Bewertungen ändern sich dadurch offensichtlich nicht -- zumindest nicht die Zusammenfassungsfelder in der Datenbank, die der Filter verwendet. Falls es dich interessiert: hier gibt es einen Überblick über das AFT-Datenbankschema, das ist das, was der Filter auslesen kann. Der Filter verwendet momentan im wesentlichen aft_article_feedback_ratings_rollup. Nach Kommentaren statt nach Bewertungen zu filtern, wäre eine Möglichkeit, das wäre dann ein anderer Filter.
- Zur Frage "Warum ein Schwellwert von 60%" (AFT-Filter): Irgendeinen Schwellwert muss man setzen, weil sonst drölfzigtausend Ergebnisse in der Liste auftauchen. Besser wäre es, den Benutzer den Schwellwert auswählen zu lassen. Dazu müsste man Parameter an die Filter übergeben können, das stand mal zur Debatte, ist aber im Moment noch nicht implementiert. Das betrifft auch die andere Frage zum Schwellwert bei kleinen und großen Artikeln: das sind empirische Werte, die bei meinen Suchanfragen recht gute Ergebnisse geliefert haben. Später sollte der Benutzer solche Schwellwerte einstellen können.
- "Keine Bilder": Nein, es ist nicht an sich schon ein "Fehler", wenn eine Seite keine Bilder enthält. Auch bei relativ großen Seiten kann das OK sein! Der TLG soll Hinweise geben, keine Liste von definitiv fehlerhaften Artikeln ausspucken. Vielleicht sollten wir das noch deutlicher hinschreiben. Daher sucht der "Keine Bilder"-Filter nach Artikeln ohne Bilder, unabhängig von der Größe des Textes. Ob das dann ein Mangel ist oder nicht, muss ein Mensch entscheiden. (Wenn du "Große Artikel" und "Keine Bilder" auswählst, erhältst du auch die Schnittmenge, in der ein Mangel recht wahrscheinlich ist. Auch wenn du zusätzlich nach kleinen Artikel suchst, lässt sich die Schnittmenge aus "nicht-kleinen" Artikeln ohne Bilder sehen.)
- Verwaiste Artikel: Dazu hatte ich irgendwann schon einen Filter angefangen, bin nur noch nicht dazu gekommen, den fertig zu stellen. Kommt noch.
- Größe und Frequenz der Diskussionen: halte es für eine gute Idee, dort anzusetzen.
- Allgemein benötigt man für sehr viele deiner Vorschläge effizienten Zugriff auf den aktuellen Text der Seiten. Wir überlegen schon lange, wie wir an den Text der Seiten kommen könnten. Die einzige Schnittstelle für Text ist momentan die Web-API, und wenn wir da ein paartausend Seiten mehrfach parallel abfragen (was bei der Art von kategoriebasierter Suche beim TLG gar keine Seltenheit wäre), dann dauert das erstens stundenlang, und zweitens kommt noch vor Ausgabe der Liste wahrscheinlich ein Serveradmin vorbei und erwürgt uns ;) Deshalb müssen wir uns zur Zeit auf Filter beschränken, die auf Datenbankabfragen basieren, ohne Textanalysen.
- Zum Schluss noch ein Hinweis: Du schreibst, dass dein Themengebiet Informatik ist. Falls du Python kannst, kannst du selbst deinen Wunschfilter implementieren. Der TLG ist freie Software und mit Absicht so aufgebaut, dass man mit relativ geringem Aufwand Filter hinzufügen kann. Ich hatte mal ein Howto dafür angefangen, das sollte einen recht guten Überblick geben, du findest es hier.
- So, ich hoffe ich habe bei der Menge an Ideen und Fragen nichts übersehen. --Johannes Kroll (WMDE) (Diskussion) 16:27, 21. Jan. 2013 (CET)
- Ein paar schnelle Antworten dazu:
- Die jetzige Sortierung nach der Anzahl der Filter ist nur sehr begrenzt hilfreich. In meinen Tests werden höchstens mal ein oder zwei Artikel aufgrund dessen hoch sortiert, die restlichen 1000 bis 10.000 haben jeweils nur „1 Punkt“ und werden entsprechend stur alphabetisch aufgelistet. Manche Filter finden immer extrem viele und andere immer extrem wenige Artikel. Filter wie „Large“ oder „Small“ erwecken den (falschen) Eindruck, dass sie keine Rücksicht auf die durchsuchte Menge nehmen. In meinen Tests finde ich grundsätzlich drei oder vier mit „Large“ aber mehrere hundert mit „Small“. Das ist nicht hilfreich. Warum wird nicht beispielsweise die durchsuchte Artikelmenge nach der Größe sortiert und von oben und unten jeweils 1 % als „Large“ und „Small“ angezeigt?
- Was aktuell völlig fehlt, ist eine Sortierung nach der Artikelgröße bei den Filtern, die sich an der Größe orientieren. Das hat nur bedingt etwas mit meiner Punkte-Idee zu tun. Das Punktesystem ist ein Vorschlag, dieser ganzen Problematik auf eine einheitliche, einfache Art zu begegnen. Jede Art der Wichtung ist besser als die jetzt fast gänzlich fehlende Wichtung.
- Die Wichtungen jedes Filters sollten sich leicht anpassen lassen, beispielsweise projektspezifisch über eine nur von Administratoren zu bearbeitende Seite im MediaWiki:-Namensraum. Idealerweise natürlich individuell konfigurierbar.
- Wer sich nur für einen Filter interessiert, aktiviert auch nur diesen. Dabei stört eine eventuelle Wichtung der Filter untereinander nicht.
- Das war kein Missverständnis sondern ein Vorschlag für eine weitere Filtermöglichkeit. Etwa die Hälfte des Artikel-Feedbacks wird mit einem Kommentar abgegeben. Diese Kommentare werden bewertet. Also ist es möglich, die Menge des noch nicht erledigten und nicht als Missbrauch markierten Feedbacks je Artikel zu zählen. Das muss alles irgendwo in der Datenbank stehen.
- Die Schwellwerte sollten wie schon mehrfach angedeutet nicht starr im Code festgelegt sein sondern sich nach der Anzahl der durchsuchten Artikel und der Anzahl der Fundstellen richten. Auch beim Feedback-Filter sollte beispielsweise immer das schlechteste 1 % der durchsuchten Artikel angezeigt werden. Werden 1000 Artikel durchsucht, sollten die 10 am schlechtesten bewerteten angezeigt werden.
- Dass „der TLG Hinweise geben soll“, ist vollkommen klar. Meine Kritik ist, dass die Hinweise viel zu vage sind und in endlosen alphabetischen Auflistungen untergehen. Es gibt kaum Hilfe, um sich auf „die Spitze des Eisbergs“ zu konzentrieren.
- Es gibt übrigens auch kein System, um eine einmal abgearbeitete Arbeitsliste irgendwie als abgearbeitet zu markieren. Wie du auch sagst muss bspw. ein Artikel ohne Bild nicht unbedingt ein Fehler sein. Der Generator zeigt diesen Artikel trotzdem immer und immer wieder an, selbst wenn er schon von mehreren Benutzern auf Möglichkeiten für die Bebilderung abgeklopft wurde.
- Wie ich schon einmal andeutete, dachte ich zu Beginn, dass es hier gerade um die Analyse der Textinhalte gehen würde. Das hat mich ehrlich gesagt etwas enttäuscht. Daher auch mein Versuch, die Sache mit meinen Kommentaren voran zu bringen.
- Ich kann viel, aber Python? Warum Python? Warum keine Sprache, die man lesen kann?
- --TMg 22:51, 21. Jan. 2013 (CET)
- Falls du das mit "Warum keine Sprache, die man lesen kann" ernst meinst: Python ist im tiobe index unter den ersten 10 der populärsten Programmiersprachen gelistet. Oberhalb von Python gibt es nur noch 2 Sprachen, die für diese Art von Anwendung in Frage kommen würden. Python gehört außerdem zu den 3 Sprachen, die man im allgemeinen für solche Webanwendungen benutzt (PHP, Python, Ruby). Python ist also offensichtlich "eine Sprache, die man lesen kann".
- Warum wird nicht beispielsweise die durchsuchte Artikelmenge nach der Größe sortiert und von oben und unten jeweils 1 % als „Large“ und „Small“ angezeigt?
- Es wird zuerst die Durchschnittsgröße aller durchsuchten Seiten berechnet. Als klein gelten alle Seiten, die weniger als ein Viertel der Durchschnittsgröße haben. Das passt sich automatisch an die durchsuchte Menge an und funktioniert recht gut. Sobald wir benutzerdefinierte Filterparameter haben, wird es noch besser funktionieren, weil dann der Schwellwert (ein Viertel) vom Benutzer angepasst werden kann. Eine "hartkodierte" Prozentgröße will ich nicht nehmen, das wäre ein Rückschritt.
- Deinen Vorschlag zur Sortierung habe ich eingebaut. Jeder Filter hat jetzt die Möglichkeit, einen sortkey mit anzugeben. Aktuell benutzen das die Größenfilter (Small aufsteigend, Large absteigend) und der AFT-Filter (nach Prozent der guten Bewertungen aufsteigend).
- Auch beim Feedback-Filter sollte beispielsweise immer das schlechteste 1 % der durchsuchten Artikel angezeigt werden. Werden 1000 Artikel durchsucht, sollten die 10 am schlechtesten bewerteten angezeigt werden.
- Warum nur 10 anzeigen? Man will doch die unterhalb einem gewissen Wert sehen. Die 10 am schlechtesten bewerteten stehen ohnehin oben, jetzt, wo sie sortiert sind.
- Die jetzige Sortierung nach der Anzahl der Filter ist nur sehr begrenzt hilfreich. In meinen Tests werden höchstens mal ein oder zwei Artikel aufgrund dessen hoch sortiert, die restlichen 1000 bis 10.000 haben jeweils nur „1 Punkt“ und werden entsprechend stur alphabetisch aufgelistet.
- Wenn das stimmt, dann bringt ja auch die von dir vorgeschlagene Gewichtung der Filter untereinander nichts, denn die kann nur funktionieren, wenn mehrere Filter anschlagen.
- Ein System, um eine einmal abgearbeitete Arbeitsliste irgendwie als abgearbeitet zu markieren ist eine gute Idee. Man kann jetzt Filterergebnisse mit Klick auf das kleine "Lämpchen" ausblenden. In zukünftigen Suchen tauchen sie dann nicht mehr auf. Das gilt für *alle* Nutzer; irgendwann soll der TLG vielleicht als Spezial-Seite funktionieren, dann könnte man es auch benutzerabhängig machen. Bis dahin werden wir sehen, wie gut das so funktioniert. Was meinst du?
- Als ich erfahren habe, dass eine Textsuche über die Menge an Artikeln die wir verarbeiten nicht möglich ist, war ich auch erstmal enttäuscht bzw. überrascht. Leider geht es momentan einfach nicht. Wie gesagt, wir suchen nach Möglichkeiten (vielleicht ein eigener Server für solche Zwecke; Textzugriff brauchen viele Tools).
- Vorschlag für erweiterten AFT-Filter behalte ich im Hinterkopf. --Johannes Kroll (WMDE) (Diskussion) 00:06, 1. Feb. 2013 (CET)
- Ein paar schnelle Antworten dazu:
- Hallo TMg!
- Das hab ich mich auch gefragt, konnte es aber nicht eingrenzen. Vielleicht der Proxy hier bei mir. Jetzt geht es. Danke. Und gleich noch ein Hinweis: Aktuell gibt es viele Artikel, die nur ein einziges Feedback haben. Ist das negativ, wird der Artikel schon angezeigt, selbst wenn das Feedback nicht hilfreich war und als erledigt markiert wurde. Kurz: Erledigtes bitte nicht mit in die Berechnung einbeziehen. --TMg 20:11, 9. Jan. 2013 (CET)
- Hallo TMg, danke für den Hinweis! Der Fehler hing mit der URL-Kodierung zusammen und ist jetzt behoben. Hast du die Seite anders aufgerufen, als es gestern funktionierte? (z. B. URL eintippen vs. Aufruf aus Lesezeichen)? Kai Nissen (WMDE) (Diskussion) 19:57, 9. Jan. 2013 (CET)
- Das in der Umfrage war ich selbst. ;-) Vielleicht greife ich vor, aber wie soll ohne Dokumentation auf Wikipedia:Artikel-Feedback jemand wissen, dass es diese Möglichkeit gibt? Leider habe ich RENDER jetzt etliche Wochen ignoriert, weil der Arbeitslistengenerator kurz nach meiner ersten Rückmeldung vom November nie wieder funktionierte (zumindest immer dann nicht, wenn ich es versuchte). Auch heute spuckt er wieder nur „controller Default_%7ErenderController name not valid“ aus. Gestern ging er. Bitte versteht mich nicht falsch. Ich bin so streng, weil ich hoffe und möchte, dass dieses Projekt von der Wikipedia-Community akzeptiert und lange genutzt wird. Selbst kleine Schnitzer oder verschenkte Chancen können da ein entscheidendes „Zünglein an der Akzeptanz-Waage“ sein. --TMg 14:42, 9. Jan. 2013 (CET)
- „Eine ‚hartkodierte‘ Prozentgröße will ich nicht nehmen“. Ich sprach nicht von Größe sondern von Menge.
- Ok; Eine hartkodierte Prozentmenge will ich auch nicht nehmen. --Johannes Kroll (WMDE) (Diskussion) 16:42, 1. Feb. 2013 (CET)
- „Warum nur 10 anzeigen? Man will doch die unterhalb einem gewissen Wert sehen.“ Vielleicht reden wir aneinander vorbei. Mein Punkt ist, dass ich gern mehr als nur einen großen Artikel sehen würde. Das andere Extrem, wenn tausende Artikel angezeigt werden, ist durch die Sortierung gemildert. Vielen Dank dafür.
- Ja, es stimmt wohl, dass der Schwellwert für die großen Artikel nicht bei allen Suchen gut funktioniert. Es wird ein Vielfaches der Standardabweichung genommen, ich glaube 5 oder so. Das funktioniert bei manchen Suchbereichen sehr gut, bei anderen nicht. Deshalb will ich ja möglichst bald benutzerdefinierte Filterparameter haben.
- Das andere "Problem" ist übrigens keines. Wenn der Filter 1000 kleine Seiten findet, dann tut er das deshalb, weil sie nach den verwendeten Kriterien klein sind. Wenn du in einer Kategorie 1000 kleine Seiten findest, sagt das etwas anderes über die Kategorie aus, als wenn du nur 5 findest. --Johannes Kroll (WMDE) (Diskussion) 16:42, 1. Feb. 2013 (CET)
- „Dann bringt ja auch die von dir vorgeschlagene Gewichtung der Filter untereinander nichts, denn die kann nur funktionieren, wenn mehrere Filter anschlagen.“ Nein. Auch hier reden wir offenbar aneinander vorbei. Wie soll ich es anders erklären?
- „Das gilt für alle Nutzer“. Nun, das hat ganz offenkundig Schwächen. Bitte nicht falsch verstehen, als Anfang ist das super! Es muss aber weiter entwickelt werden. Zum einen ist aktuell unklar, ob der Artikel generell ausgeblendet wird, unabhängig vom Filter? Zum anderen kann man ihn aktuell nie wieder einblenden. Ein Vorschlag wäre, die so markierten Artikel trotzdem in jeder Ergebnisliste mit anzuzeigen, aber erst ganz unten, eingeklappt in einem Abschnitt „ausgeblendete Ergebnisse“. Dort kann jeder Benutzer die Markierung wieder zurücknehmen. Auf diese Weise ist auch kein Speichern der Markierungen je Benutzer vonnöten.
- Doch, man kann ihn wieder einblenden. Dafür ist die Checkbox "auch ausgeblendete Ergebnisse anzeigen". Ich sehe grade, es hat im Render-Account nicht funktioniert, ich hatte ein git pull vergessen. Probier es mal jetzt.
- Der Artikel wird für diese Revision und für diesen Filter ausgeblendet. --Johannes Kroll (WMDE) (Diskussion) 16:42, 1. Feb. 2013 (CET)
- „Vielleicht ein eigener Server für solche Zwecke“. Als ich zuerst von dem Projekt hörte, ging ich davon aus, dass das selbstverständlich wäre. Zumindest eine eigene Datenbank. Projekte wie Check Wikipedia kriegen das doch auch hin. Was ich über die Modesprache Python denke (Blockstruktur? Deklarationen? Typisierungen?), führe ich an dieser Stelle mal nicht weiter aus. --TMg 11:11, 1. Feb. 2013 (CET)
- Entschuldige, aber was du persönlich über eine bestimmte Programmiersprache denkst, ist hier auch nicht relevant. --Johannes Kroll (WMDE) (Diskussion) 16:42, 1. Feb. 2013 (CET)
- [1]. --TMg 16:56, 1. Feb. 2013 (CET)
- Ich schreib es hier nochmal: über konkrete Hinweise, was wir verbessern können, freuen wir uns. Wir setzen sie auch um wenn möglich, was wir auch schon getan haben. Dass dir Python nicht gefällt, kann ich nicht ändern. Hätte ich eine andere Sprache genommen, hätte sie einer anderen Person nicht gefallen. Das verstehst du hoffentlich.
- Ob du dich beteiligen willst, ist natürlich deine Sache. --Johannes Kroll (WMDE) (Diskussion) 17:03, 1. Feb. 2013 (CET)
- [1]. --TMg 16:56, 1. Feb. 2013 (CET)
- Entschuldige, aber was du persönlich über eine bestimmte Programmiersprache denkst, ist hier auch nicht relevant. --Johannes Kroll (WMDE) (Diskussion) 16:42, 1. Feb. 2013 (CET)
- „Eine ‚hartkodierte‘ Prozentgröße will ich nicht nehmen“. Ich sprach nicht von Größe sondern von Menge.
Länge der Liste
Moin,
es mag sein, dass der Fehler bei mir liegt, allerdings finde ich kein Häkchen o.ä., das mir hilft: Bei der Generierung der Liste der kurzen Säugetiere wird mir eine sehr kurze Liste von 13 Artikeln angeboten - ich hätte allerdings gern eine, die deutlich länger ist (say 100 Artikel), optimalerweise sogar einstellbar auf eine Mindest-Bytelänge. Übersehe ich etwas? -- Achim Raschka (Diskussion) 08:48, 31. Jan. 2013 (CET)
- Hallo Achim!
- Das kann an 2 Dingen liegen: Leider hat der Toolserver grade Probleme. /tmp ist voll und deshalb ist die Suche bzw. die dewiki-Instanz von graphserv vermutlich unvollständig. Probier es bitte die Tage nochmal, evtl. kriegst du dann eine umfassendere Liste!
- Das andere ist die Berechnung der Liste. Im Moment werden die Artikel als klein betrachtet, die kleiner sind als ein Viertel der Durchschnittsgröße aller durchsuchten Artikel. Der Schwellwert ist zugegeben etwas beliebig, auch wenn er sich an die durchsuchten Artikel anpasst. Deshalb wollen wir in Zukunft einstellbare Parameter für die Filter einbauen. Wir arbeiten dran :-) --Johannes Kroll (WMDE) (Diskussion) 19:21, 31. Jan. 2013 (CET)
- /tmp-Problem wurde gelöst, habe vorhin graphcore neu gestartet. Jetzt sind es 18 Artikel. Ich hoffe wir kommen bald dazu, einstellbare Filterparameter einzubauen, dann kannst du den Schwellwert selber wählen. --Johannes Kroll (WMDE) (Diskussion) 23:28, 31. Jan. 2013 (CET)
- Ich hatte es auf der RENDER-Diskussionsseite schon einmal vorgeschlagen: Keine Prozent sondern eine Menge im Sinne von „zeige mir die 100 kleinsten Artikel“. Eventuell kombiniert mit einer Byte-Schwelle. --TMg 23:47, 31. Jan. 2013 (CET)
- Ich habe es dort beantwortet. Dein Vorschlag wäre ein Rückschritt, weil er immer X Artikel liefern würde, unabhängig davon, ob sie im Verhältnis zum Rest tatsächlich klein sind oder nicht. --Johannes Kroll (WMDE) (Diskussion) 00:22, 1. Feb. 2013 (CET)
- Es sind die 100 kleinsten im Verhältnis zum Rest. Inwiefern wäre das ein Rückschritt? Vor allem, wenn man die Größen sieht und die Liste nach der Größe sortiert ist? Ich habe es schon erklärt: Mein Problem mit der aktuellen Methode ist, dass sie entweder nur ganz wenige Artikel liefert oder gleich tausende. Weder das eine noch das andere empfinde ich als hilfreich. Insbesondere mit den stur alphabetisch sortierten Listen tausender Artikel kann wohl niemand etwas anfangen. Deshalb eine Obergrenze für die Anzahl, wie schon gesagt evtl. kombiniert mit einem zweiten Kriterium. --TMg 10:34, 1. Feb. 2013 (CET)
- Der Filter zeigt die Artikel an, die im Verhältnis zu allen Seiten in der Suche recht klein sind. Er passt sich also an den Suchbereich an. Zum Beispiel wirst du recht viele Artikel über Flugzeugmodelle finden, die recht klein sind. Das ist für diese Suche aber OK, und der Filter wird das "merken". Für eine andere Suche kann die gleiche Artikelgröße schon "klein" sein. Der Filter "merkt" das, weil er sich dynamisch an die Durchschnittsgröße anpasst. Es ist nicht perfekt, was fehlt, ist die Möglichkeit, den Schwellwert selber zu wählen. Daran arbeiten wir.
- Einfach die untersten X Artikel zu nehmen halte ich deshalb für einen Rückschritt, weil der Filter dann *immer* die unteren X ausgeben würde, egal, ob die im Vergleich zum Durchschnitt tatsächlich klein sind oder nicht. Ich habe das oben schon mal erklärt.
- Ich habe nichts dagegen, wenn jemand so einen Filter zusätzlich schreibt, aber er steht nicht oben auf meiner Liste der wichtigen, sinnvollen Dinge, die ich zuerst machen will. Da würde ich vorher noch einen zweiten Größenfilter bauen, der eine einstellbare, feste Größe als Schwellwert nimmt. Falls man die Anpassung an den Durchschnitt aus irgendeinem Grund nicht haben will.
- Auch dafür brauchen wir aber erstmal einstellbare Filterparameter, das kommt also zuerst. --Johannes Kroll (WMDE) (Diskussion) 15:56, 1. Feb. 2013 (CET)
- Noch was: Wenn eine Suche nach kleinen Artikeln 1000 Artikel ausspuckt, dann liegt das daran, dass es wirklich so viele Artikel gibt, die im Verhältnis zum Durchschnitt klein sind. Was erwartest du denn in so einem Fall? Nach den obersten X einfach aufhören? Paging wäre natürlich eine Möglichkeit, klar.
- Und ich verstehe nicht, warum du immer noch auf der angeblichen "sturen alphabetischen Sortierung" herumreitest. Die Filter, die eine Sortierung möglich machen, haben doch jetzt eine Sortierung. Wie soll man bei "Keine Bilder" weiter sortieren - keine, noch keinere? Im Ernst, mach einen Vorschlag. --Johannes Kroll (WMDE) (Diskussion) 16:06, 1. Feb. 2013 (CET)
- Wenn mir auf meine zugegebenermaßen sehr kritischen Beiträge so viel Frust entgegen schlägt und Vorschläge gleich dekonstruiert werden, obwohl sie nur halb verstanden wurden, dann macht es weder Spaß noch Sinn, mich hier weiter zu beteiligen. Von der Sortierung wusste ich beim Schreiben schlicht noch nichts. Vielleicht solltet ihr erst einmal klar stellen, wer hier welche Position einnimmt. --TMg 16:42, 1. Feb. 2013 (CET)
- Dass die Sortierung jetzt drin ist, hatte ich auf der Render-Diskussionsseite geschrieben. Ich dachte, du hättest das schon gelesen, entschuldige.
- Es ist teilweise wirklich etwas frustrierend, weil ich bei deinen Kommentaren nicht sicher bin, ob du eigentlich Verbesserungsvorschläge machst oder dich nur über eine Programmiersprache aufregen willst, die dir persönlich nicht liegt. Solange Vorschläge konkret und konstruktiv sind, freuen wir uns darüber und setzen sie wenn möglich auch um. --Johannes Kroll (WMDE) (Diskussion) 16:57, 1. Feb. 2013 (CET)
- Wenn mir auf meine zugegebenermaßen sehr kritischen Beiträge so viel Frust entgegen schlägt und Vorschläge gleich dekonstruiert werden, obwohl sie nur halb verstanden wurden, dann macht es weder Spaß noch Sinn, mich hier weiter zu beteiligen. Von der Sortierung wusste ich beim Schreiben schlicht noch nichts. Vielleicht solltet ihr erst einmal klar stellen, wer hier welche Position einnimmt. --TMg 16:42, 1. Feb. 2013 (CET)
- Es sind die 100 kleinsten im Verhältnis zum Rest. Inwiefern wäre das ein Rückschritt? Vor allem, wenn man die Größen sieht und die Liste nach der Größe sortiert ist? Ich habe es schon erklärt: Mein Problem mit der aktuellen Methode ist, dass sie entweder nur ganz wenige Artikel liefert oder gleich tausende. Weder das eine noch das andere empfinde ich als hilfreich. Insbesondere mit den stur alphabetisch sortierten Listen tausender Artikel kann wohl niemand etwas anfangen. Deshalb eine Obergrenze für die Anzahl, wie schon gesagt evtl. kombiniert mit einem zweiten Kriterium. --TMg 10:34, 1. Feb. 2013 (CET)
- Ich habe es dort beantwortet. Dein Vorschlag wäre ein Rückschritt, weil er immer X Artikel liefern würde, unabhängig davon, ob sie im Verhältnis zum Rest tatsächlich klein sind oder nicht. --Johannes Kroll (WMDE) (Diskussion) 00:22, 1. Feb. 2013 (CET)
- "Kleine Seiten: Artikel, die eine unterdurchschnittliche Länge haben (im Vergleich zu anderen Artikeln der selben Kategorie)" - mehr erfährt man nicht, weder im tooltip noch hier auf Wikipedia:Helferlein/Artikellisten-Generator und der Satz läßt jede Menge Interpretationspielraum...
- "Im Moment werden die Artikel als klein betrachtet, die kleiner sind als ein Viertel der Durchschnittsgröße aller durchsuchten Artikel." Aha. Und wieso steht das nirgendwo in der Dokumentation?
- Konkreter Verbesserungsvorschlag: Filterfunktionen und Sortierung genauer dokumentieren! --Atlasowa (Diskussion) 23:08, 2. Feb. 2013 (CET)
- Im Tooltip steht "Seite ist sehr klein, verglichen mit der Durchschnitts-Seitengröße im Suchergebnis". Wenn man es genauer erklären will, auch die Standardabweichung bei "Large", wird der Text für einen Tooltip etwas groß. Vielleicht stattdessen ein Textfeld im Frontend einbauen. Ich schreib mal auf die Todo-Liste, dass wir uns darum kümmern. --Johannes Kroll (WMDE) (Diskussion) 18:28, 4. Feb. 2013 (CET)
- Mit "Dokumentation" meine ich vor allem erstmal Wikipedia:Helferlein/Artikellisten-Generator. Da ist viel Platz für genaue Angaben in ganzen Sätzen. 1) Zu "Kleine Seiten", siehe oben. 2) Auch was mit "auch ausgeblendete Ergebnisse anzeigen" gemeint ist, sollte da erklärt werden. Was wird von wem wann ausgeblendet? 3) Erklärt bitte auch den Filter zum Artikel-Feedback. Und bitte keine neuerfundenen Begriffe "Artikelbewertungen" beim TLG benutzen, 2 synonyme Begriffe ("Artikel-Feedback" und "Artikel Rückmeldungen") sind schon mehr als genug. 4) Erklärt bitte beim "Changedetector" die default-Einstellungen und verlinkt dann direkt dort die Info zu den Auswahlmöglichkeiten. Danke! --Atlasowa (Diskussion) 20:14, 4. Feb. 2013 (CET)
- Bessere Dokumentation: point taken. Wie die Filter genau funktionieren, ist wohl wirklich nicht so gut verständlich.
- Artikelbewertungen ist kein "neuerfundener Begriff" (???) sondern die wörtliche Übersetzung des Begriffs "article ratings", der genau so auch vom Article Feedback Tool verwendet wird. Er ist auch nicht synonym zu Artikel-Feedback. --Johannes Kroll (WMDE) (Diskussion) 18:58, 6. Feb. 2013 (CET)
- Ich habe die Filterbeschreibungen auf Wikipedia:Helferlein/Artikellisten-Generator etwas überarbeitet. Außerdem den Schwellwert für den Large-Filter auf 5 runtergesetzt. --Johannes Kroll (WMDE) (Diskussion) 15:04, 11. Feb. 2013 (CET)
- Mit "Dokumentation" meine ich vor allem erstmal Wikipedia:Helferlein/Artikellisten-Generator. Da ist viel Platz für genaue Angaben in ganzen Sätzen. 1) Zu "Kleine Seiten", siehe oben. 2) Auch was mit "auch ausgeblendete Ergebnisse anzeigen" gemeint ist, sollte da erklärt werden. Was wird von wem wann ausgeblendet? 3) Erklärt bitte auch den Filter zum Artikel-Feedback. Und bitte keine neuerfundenen Begriffe "Artikelbewertungen" beim TLG benutzen, 2 synonyme Begriffe ("Artikel-Feedback" und "Artikel Rückmeldungen") sind schon mehr als genug. 4) Erklärt bitte beim "Changedetector" die default-Einstellungen und verlinkt dann direkt dort die Info zu den Auswahlmöglichkeiten. Danke! --Atlasowa (Diskussion) 20:14, 4. Feb. 2013 (CET)
- Im Tooltip steht "Seite ist sehr klein, verglichen mit der Durchschnitts-Seitengröße im Suchergebnis". Wenn man es genauer erklären will, auch die Standardabweichung bei "Large", wird der Text für einen Tooltip etwas groß. Vielleicht stattdessen ein Textfeld im Frontend einbauen. Ich schreib mal auf die Todo-Liste, dass wir uns darum kümmern. --Johannes Kroll (WMDE) (Diskussion) 18:28, 4. Feb. 2013 (CET)
- Ich hatte es auf der RENDER-Diskussionsseite schon einmal vorgeschlagen: Keine Prozent sondern eine Menge im Sinne von „zeige mir die 100 kleinsten Artikel“. Eventuell kombiniert mit einer Byte-Schwelle. --TMg 23:47, 31. Jan. 2013 (CET)
Umlaute
Und noch ein Kommentar:
Wenn ich die oben genannte Anflae als "Link zu dieser Anfrage" verfügbar machen möchte, zerschiesst das Tool das ä in Säugetiere und kann mit dem dann resultierenden Säugetiere nichts mehr anfangen - die Anfrage geht entsprechend ins Leere. Sollte sich wahrscheinlich schnell fixen lassen, oder? -- Achim Raschka (Diskussion) 08:48, 31. Jan. 2013 (CET)
- Der Permalink ist ganz neu eingebaut worden, das Problem mit den Umlauten haben wir wohl übersehen. Ich sage Kai Bescheid. Danke für den Hinweis! --Johannes Kroll (WMDE) (Diskussion) 19:23, 31. Jan. 2013 (CET)
- Ja, war schnell gefixt. Danke für den Hinweis! -- Kai Nissen (WMDE) (Diskussion) 22:07, 31. Jan. 2013 (CET)
ChangeDetector kaputt?
Kann es sein, dass der ChangeDetector-Filter aktuell nie etwas liefert? --TMg 20:45, 31. Jan. 2013 (CET)
- Diese Suche liefert den einen Artikel aus dem ChangeDetector, den ich erwartet hätte... (Achtung je nach Tageszeit ist er morgen nicht mehr im ChangeDetector, und dann natürlich auch nicht mehr im TLG)
- Vielleicht hatte es mit den Toolserver-Problemen vorhin zu tun. --Johannes Kroll (WMDE) (Diskussion) 23:33, 31. Jan. 2013 (CET)
- Dann liegt es vielleicht daran, dass ich den ChangeDetector nicht verstanden habe. Wie kann eine Suche in 21.000 Artikeln kein Ergebnis liefern? --TMg 23:49, 31. Jan. 2013 (CET)
- Weil der ChangeDetector keinen Artikel in dem Bereich gefunden hat, der gestern in mehr als 5 Sprachen, aber nicht in der deutschen, überdurchschnittlich oft editiert wurde. So funktioniert der CD. --Johannes Kroll (WMDE) (Diskussion) 00:27, 1. Feb. 2013 (CET)
- Die Beschreibung laut Tooltip lautet „Seite scheint veraltet zu sein, verglichen mit dem gleichen Artikel in anderen Sprachversionen“. Anhand dessen geht man davon aus, dass Artikel gefunden werden, die deutlich länger nicht mehr bearbeitet wurden als in allen anderen Sprachen. Was du beschreibst, ist etwas ganz anderes. Das ist eher ein Hot Topics-Filter für Seiten, an denen aktuell rund um die Uhr gearbeitet wird. --TMg 10:27, 1. Feb. 2013 (CET)
- Im Tooltip steht "Seite scheint veraltet zu sein, verglichen mit dem gleichen Artikel in anderen Sprachversionen der Wikipedia (ChangeDetector-Daten)." Es wird also auf den ChangeDetector verwiesen, von dem die Daten kommen. Wenn man das Tool kennt, weiß man hoffentlich auch, was es macht. Was wäre dein Vorschlag, um das was der ChangeDetector macht, in einem Tooltip-tauglichen Satz treffender zusammenzufassen? --Johannes Kroll (WMDE) (Diskussion) 16:00, 1. Feb. 2013 (CET)
- Dinge die den ChangeDetector betreffen und nicht den TLG-Filter, bitte in Zukunft hier hin (Beitrag verschoben). --Johannes Kroll (WMDE) (Diskussion) 16:21, 18. Feb. 2013 (CET)
- Im Tooltip steht "Seite scheint veraltet zu sein, verglichen mit dem gleichen Artikel in anderen Sprachversionen der Wikipedia (ChangeDetector-Daten)." Es wird also auf den ChangeDetector verwiesen, von dem die Daten kommen. Wenn man das Tool kennt, weiß man hoffentlich auch, was es macht. Was wäre dein Vorschlag, um das was der ChangeDetector macht, in einem Tooltip-tauglichen Satz treffender zusammenzufassen? --Johannes Kroll (WMDE) (Diskussion) 16:00, 1. Feb. 2013 (CET)
- Die Beschreibung laut Tooltip lautet „Seite scheint veraltet zu sein, verglichen mit dem gleichen Artikel in anderen Sprachversionen“. Anhand dessen geht man davon aus, dass Artikel gefunden werden, die deutlich länger nicht mehr bearbeitet wurden als in allen anderen Sprachen. Was du beschreibst, ist etwas ganz anderes. Das ist eher ein Hot Topics-Filter für Seiten, an denen aktuell rund um die Uhr gearbeitet wird. --TMg 10:27, 1. Feb. 2013 (CET)
- Weil der ChangeDetector keinen Artikel in dem Bereich gefunden hat, der gestern in mehr als 5 Sprachen, aber nicht in der deutschen, überdurchschnittlich oft editiert wurde. So funktioniert der CD. --Johannes Kroll (WMDE) (Diskussion) 00:27, 1. Feb. 2013 (CET)
- Dann liegt es vielleicht daran, dass ich den ChangeDetector nicht verstanden habe. Wie kann eine Suche in 21.000 Artikeln kein Ergebnis liefern? --TMg 23:49, 31. Jan. 2013 (CET)
Dieses Tool wird ab Ende Januar 2020 nicht mehr funktionieren
Ich finde dieses Tool sehr hilfreich. Gibt es einen Ersatz? --Kleinesgruenesmaennchen (Diskussion) 20:13, 17. Jan. 2020 (CET)