Benutzer Diskussion:Stefan Kühn/Check Wikipedia/Archiv/2010/März

aus Wikipedia, der freien Enzyklopädie

Heutige Ausgabe

Moin, in der heutigen Ausgabe des neuen Interface tauchen viele Einträge auf, die schon seit einiger Zeit behoben sind. Kannst du da mal schauen, ob was nicht stimmt? - inkowik 15:34, 1. Mär. 2010 (CET)

Das liegt daran, dass ich den letzten Dump nochmal neu eingespielt habe und der ist schon ein paar Tage alt. -- sk 21:45, 1. Mär. 2010 (CET)
Okay danke. In den Vortagen war es ja wieder ziemlich leer und auf einmal war da wieder viel los. ;) - inkowik 14:14, 2. Mär. 2010 (CET)
Da ja 55.000 offensichtlich bereits erledigte Fehlermeldungen wieder zurückgesetzt wurden (Zuwachs seit letzter Woche), warte ich erst mal bis zum nächsten Dump. (Ich komme mir veralbert vor). -- WOBE3333 11:07, 3. Mär. 2010 (CET)
Sorry, ich wollte niemand veralbern. Das Skript hat halt nicht so gearbeitet wie es geplant war, bzw. die Performance war sehr schlecht. Die Wahl bestand zwischen, komplett neu einladen oder ewigkeiten warten bis die neuen Fehler im Interface angezeigt werden, weil jeder Artikel nochmal live überprüft wird. Deshalb hab ich das Skript am letzten Wochenende erneut umgeschrieben, so das jetzt die Ergebnisse des Dumps direkt in die DB reinfließen. Deshalb werde ich in Zukunft auch nur noch möglichst aktuelle Dumps einspielen, so das nur noch eine Überlappung von wenigen Tagen passiert. Eine andere Alternative sehe ich derzeit nicht. Da ich auch nicht jede Woche für jede Sprache einen neuen Dump einspiele, werden solche kurzen Überlappungsphasen bei jedem Projekt nur alle 2-3 Monate auftauchen. Das heißt, jeden Tag werden ja die neuen Artikel mit gescannt, wenn so ein Fehler gefunden und korrigiert wurde, kann er aber noch 1-3 Tage später im brandneuen Dump enthalten sein. - Ich werde am Wochenende nochmal intensive nachdenken, ob man irgendwie das Problem anders lösen kann. -- 212.111.241.81 11:32, 3. Mär. 2010 (CET)
Das, was mich verärgert hatte, ist nicht der Umbau an sich. Nur derartig gravierende Einschnitte wären besser mit Ankündigung gelaufen und sicher durch einen aktuellen Dump kaum mit diesen Auswirkungen aufgetreten. Ich hatte etliche Fehler auf Null, wenn dort jetzt 100 drinnestehen, muß ich 100 Artikel öffnen und kontrollieren um vielleicht die drei oder vier neuen Fehler zu finden. Selbst wenn der Toolserver superschnell arbeiten sollte (was er leider nicht tut), ist das sinnlose Zeitverschwendung. Ein Klick auf die Mehrfachfehler bringt ein Ergebnis (wenn überhaupt) nicht unter 20 Sekunden - im Normalfall bei 2-3 Minuten. Ich kann nicht einschätzen, wie weit du mit dem Umbau bist, vielleicht solltest du die geplanten und abgeschlossenen Etappen etwas ausführlicher dokumentieren. Gruß -- WOBE3333 12:16, 3. Mär. 2010 (CET)
Sortier doch einfach die Fehler nach dem Datum, dann siehst du die neusten fehler sehr schnell. Wenn du dann alle auf Done schaltest, wird am nächsten Tag nochmal live überprüft. Wenn ich die Überprüfung auch bei den ganz umfangreichen Fehlern automatisch machen würde, dann würde das Wochen dauern. Zumal dewiki ja nicht das einzigste Project ist. - Derzeit komme ich nur mit dem Umbau nur schleppend voran. Zeitmangel ist die Hauptursache. Die Ideen sind da, das Know-How zum größte Teil auch, aber der ursprüngliche Plan der Umsetzung wurde mir durch "MAX_USER = 15" vermasselt. Leider geht das auch nicht zu ändern. Deswegen musste ich auf Plan B ausweichen. Plan B war leider nicht performant genug, weshalb jetzt Plan C dran ist. Wie gesagt, Zeitmangel ist das größte Problem. :-) Ich hoffe ihr habt alle etwas geduld. Zumindestens am nächsten Wochenende hab ich wieder etwas Luft und hoffe mit Plan C gut voranzukommen, dann solle es auch wieder ausführliche Statistiken geben. -- 212.111.241.81 12:44, 3. Mär. 2010 (CET)
Das Sortieren nach Datum ist eine gute Idee - der Haken ist nur, dass im Fenster die Ältesten angezeigt werden; ich muß die also erst wieder einzeln wegklicken, damit die Neuen zu sehen sind.
Natürlich haben wir Geduld (sonst würden wir hier sicher nicht mitmachen), nur, wie gesagt, sinnlose Arbeit muss nicht sein und etwas mehr Performance wär ganz gut. Gruß -- WOBE3333 13:12, 3. Mär. 2010 (CET)
Wieseo werden die ältesten angezeigt? Es gibt doch zwei Pfeile ↑↓! Wenn du auf den ↓ klickst, bekommst du doch die neusten ganz oben. -- 212.111.241.81 13:47, 3. Mär. 2010 (CET)
Die sind so dicht zusammen, da hab ich es als einen Button angesehen und wohl immer auf den Falschen geklickt. pardon :-) -- WOBE3333 14:09, 3. Mär. 2010 (CET)
Dann muss ich da mal ein paar schicke Buttons einbauen. -- 212.111.241.81 14:31, 3. Mär. 2010 (CET)

Unter [1] wird im Moment ein neuer Dump gebacken. Damit könnte das Problem gelöst werden.

Falscher Link

Hallo Stefan, auf http://toolserver.org/~sk/cw/dewiki/index.htm ist der Link zu den Fehlern mit niedriger Priorität falsch. Viele Grüße, Andim 22:47, 4. Mär. 2010 (CET)

Ich werde das heute abend ändern. -- sk 08:56, 5. Mär. 2010 (CET)

Check wikipedia fr

Hi, there is a mistake for the link «low priority». It open «priority_all.htm» Thanks for this great tool. Leag 08:47, 5. Mär. 2010 (CET)

I will change this tonight. -- sk 08:57, 5. Mär. 2010 (CET)
Thanks Leag 08:21, 8. Mär. 2010 (CET)

Priorities

Priorities shown on the new interface do not reflect those on respective translation pages. Is this going to be fixed in the near future? --Superyetkin 16:46, 9. Mär. 2010 (CET)

You are right. I will fix this in the next days. At the moment I don't have the time. -- sk 08:53, 10. Mär. 2010 (CET)

Image description missing error (30)

This is one of the most common errors in all wikipedias; from what I've seen, some even disable it. But I think that error 30 shouldn't be flagged (and certainly not as high priority) if the image is inside a template. At least in the Catalan wikipedia, I've noticed that most of the articles flagged have images inside a template, and the template already has a caption field, so it's a false positive. At the very least, I think that only description-less images outside templates should be high priority; the rest can be flagged as low priority, or just left out, since I don't think they will be looked into. What do you think? --Joancreus 21:41, 5. Mär. 2010 (CET)

The only chance is to split this error. At the moment I don't have time for this. -- sk 21:48, 14. Mär. 2010 (CET)

Falsche Kategoriesortierung

Hallo Stefan! Ich hatte ja schon mal Kategoriesortierungen wie [[Kategorie:Mann|Mann]] angesprochen. Der reguläre Ausdruck von damals ist inzwischen ins Archiv gewandert, er beachtete aber sowieso nicht alle Möglichkeiten und keine Sprachen außer Deutsch. Außerdem sollte es wesentlich einfacher gehen: Wenn ich es richtig sehe, dann enthält $category[$i][2] den Namen der Kategorie ohne Kategorie-Namensraum, $category[$i][3] die Sortierung. Damit sollte die folgende Funktion eigentlich funktionieren:

sub error_xxx_category_equals_sortkey{
	my $error_code = xxx;
	my $attribut = $_[0];
	my $comment = $_[1];
	print $error_code."\n" if ($details_for_page eq 'yes');
	if ($attribut eq 'get_description') {
		$error_description[$error_code][0] = 2;
		$error_description[$error_code][1] = 'Category equals sortkey';
		$error_description[$error_code][2] = 'The sortkey is equal to the name of the category. Probably someone wrote by mistake <nowiki>[[Category:Foo|]]</nowiki>, and the software added the sortkey.';
		$error_description[$error_code][2] = infotext_new_error( $error_description[$error_code][2] );
	}
	if ($attribut eq 'check' and $error_description[$error_code][4] != 0 ) {

		for (my $i = 0; $i <= $category_counter-1; $i++) {
			my $catname = $category[$i][2];
			my $sortkey = $category[$i][3];	

			$catname =~ s/ \(.+\)$// or         #Klammern entfernen
                        $catname =~ s/ (.+)$// or       #Klammern entfernen
                        $catname =~ s/( \(.+\)|)(, .+|)$//; #Komma entfernen

			if ($catname eq $sortkey
                                and $category[$i][4] !~ /\| / #führendes Leerzeichen in Sortierung ist ok
#				and ($page_namespace == 0 or $page_namespace == 104)
				) {
				error_register($error_code, '<nowiki>'.$category[$i][4].'</nowiki>'); 
				#print "\t". $error_code."\t".$title."\t".$category[$i][4]."\n";
				}
		}	
	}
}

Misstraue meinen Perl- und Englisch-Kenntnissen, aber eigentlich müsste es stimmen. --Schnark 09:41, 18. Mär. 2010 (CET)

Habe gerade noch mal die regulären Ausdrücke umgeändert nach dem offiziellen Quelltext (nach "Context links" suchen). Frag mich aber nicht, was das im zweiten Ausdruck für Klammern sind. Bei den or's dazwischen bin ich mir nicht ganz sicher, aber eigentlich müsste damit nach dem ersten Ausdruck ersetzt werden, der etwas ersetzt. --Schnark 10:16, 19. Mär. 2010 (CET)

Hallo Schnark, hatte die letzten Tage viel zu tun. Werde mich diese Woche mal drum kümmern. -- sk 21:55, 28. Mär. 2010 (CEST)

Access to a simple list (erledigtErledigt)

Hi,

I am updating my own tool, WikiCleaner, to help on fixing errors reported by Check Wikipedia. Is there a way to get a simple list of pages for an error number ?

I see that there's things like http://toolserver.org/~sk/cgi-bin/checkwiki/checkwiki.cgi?project=frwiki&view=bots&id=46&offset=0&limit=25, but it returns a HTML page with formatting, not a simple list (text only, one page per line).

It would be a lot simpler to read for me than to have to parse HTML.

Thanks, --NicoV 23:09, 23. Mär. 2010 (CET)

Hi again, I have finally parsed the HTML to retrieve the list. I have made a lot of modifications to my tool to help fixing errors detected by your tool. WikiCleaner know reads the list on the tool server, detect the errors in each page (only a few errors type for the moment, I need to add others), highlight them and give suggestions to the editer, and when the page is saved it calls the done button on the tool server.

I have an other question : is there an URL to gather informations about the configuration of the project for a wikipedia ? (in simple format, easily parseable) I am looking for informations like :

  • which error types are active for a specific wiki (eventually with their priority)
  • the localized label of the error type
  • a localized description of the error type

Thanks, --NicoV 11:09, 28. Mär. 2010 (CEST)

Hi, you can forget my last request, I have found it here. I am quite satisfied with the new version of WikiCleaner. Do you have any suggestion to improve it? --NicoV 19:21, 28. Mär. 2010 (CEST)

Hello NicoV, I had many to do the last days. I will check this in the next days. -- sk 21:58, 28. Mär. 2010 (CEST)

Toolserver performance

In recent times the new interface has become almost unusable from a performance point of view. It now takes longer to mark an edit as 'done' than to fix the problem! And often at peak times the database just times out. Is this just me or is it a wider problem? Can it be fixed? FYI I am mainly working on one of the larger problem categories Square brackets not correct begin. Welsh 10:26, 13. Mär. 2010 (CET)

Hello Welsh, in the last day I have work hard at this problem. I hope I can fix this. I will change the sturcture under the script for a better performence. I have test this with an other project (Personendaten in dewiki) an this is very fast. I hope this will also help at checkwiki. -- sk 11:19, 14. Mär. 2010 (CET)
I have found the problem. There was missing an index. -- sk 21:46, 14. Mär. 2010 (CET)
Thanks, its much faster most of the time and the number of slow transactions is much smaller, but still there. (Particularly when a Software error: DBD::mysql::st execute failed: Got error 5 from storage engine at ./checkwiki.cgi line 905 error is returned.) However, it is now definitely usable again. Welsh 20:57, 15. Mär. 2010 (CET)
Thanks for this comment. I know this last error but I don't know the reason. Most it come with big errors. Maybe I can tune the SQL-Statement. -- sk 21:59, 15. Mär. 2010 (CET)
Performance has declined again. Are you working on this? --Superyetkin 23:20, 21. Mär. 2010 (CET)
I have the same problem when marking individual articles as done (in enwiki). When I mark "all articles" as done, it goes much faster. However, I have also been working on one of the larger lists ("External link with line break") and I don't do them all at once. It would also be nice if we could select multiple articles to be marked as done. Right now, it's either all or just one. --Auntof6 10:12, 5. Apr. 2010 (CEST)
I also see these problems when fixing errors with my tool, WikiCleaner. I have modified it so that calling the "done" button is made in the background, so you can fix the next article without waiting. If you're interested, you can try it. But I still see the mysql errors which prevent it to retrieve a list of pages for an error from time to time. There's also bad performance when retrieving the list of pages for an error when the list is big. --NicoV 18:13, 5. Apr. 2010 (CEST)

Falsche Kategoriesortierung

Hallo Stefan! Ich hatte ja schon mal Kategoriesortierungen wie [[Kategorie:Mann|Mann]] angesprochen. Der reguläre Ausdruck von damals ist inzwischen ins Archiv gewandert, er beachtete aber sowieso nicht alle Möglichkeiten und keine Sprachen außer Deutsch. Außerdem sollte es wesentlich einfacher gehen: Wenn ich es richtig sehe, dann enthält $category[$i][2] den Namen der Kategorie ohne Kategorie-Namensraum, $category[$i][3] die Sortierung. Damit sollte die folgende Funktion eigentlich funktionieren:

sub error_xxx_category_equals_sortkey{
	my $error_code = xxx;
	my $attribut = $_[0];
	print $error_code."\n" if ($details_for_page eq 'yes');
	if ($attribut eq 'get_description') {
		$error_description[$error_code][0] = 2;
		$error_description[$error_code][1] = 'Category equals sortkey';
		$error_description[$error_code][2] = 'The sortkey is equal to the name of the category. Probably someone wrote by mistake <nowiki>[[Category:Foo|]]</nowiki>, and the software added the sortkey.';
		$error_description[$error_code][2] = infotext_new_error( $error_description[$error_code][2] );
	}
	if ($attribut eq 'check' and $error_description[$error_code][4] != 0 ) {

		for (my $i = 0; $i <= $category_counter-1; $i++) {
			my $catname = $category[$i][2];
			my $sortkey = $category[$i][3];	

			$catname =~ s/ \(.+\)$// or         #Klammern entfernen
                        $catname =~ s/ (.+)$// or       #Klammern entfernen
                        $catname =~ s/( \(.+\)|)(, .+|)$//; #Komma entfernen

			if ($catname eq $sortkey
                                and $category[$i][4] !~ /\| / #führendes Leerzeichen in Sortierung ist ok
#				and ($page_namespace == 0 or $page_namespace == 104)
				) {
				error_register($error_code, '<nowiki>'.$category[$i][4].'</nowiki>'); 
				#print "\t". $error_code."\t".$title."\t".$category[$i][4]."\n";
				}
		}	
	}
}

Misstraue meinen Perl- und Englisch-Kenntnissen, aber eigentlich müsste es stimmen. --Schnark 09:41, 18. Mär. 2010 (CET)

Habe gerade noch mal die regulären Ausdrücke umgeändert nach dem offiziellen Quelltext (nach "Context links" suchen). Frag mich aber nicht, was das im zweiten Ausdruck für Klammern sind. Bei den or's dazwischen bin ich mir nicht ganz sicher, aber eigentlich müsste damit nach dem ersten Ausdruck ersetzt werden, der etwas ersetzt. --Schnark 10:16, 19. Mär. 2010 (CET)

Hallo Schnark, hatte die letzten Tage viel zu tun. Werde mich diese Woche mal drum kümmern. -- sk 21:55, 28. Mär. 2010 (CEST)
Noch mal aus dem Archiv geholt. --Schnark 10:47, 28. Mai 2010 (CEST)