Wikiup Diskussion:Technik/Labs/Tools/catscan2

aus Wikipedia, der freien Enzyklopädie

Lua-Fehler in package.lua, Zeile 80: module 'strict' not foundLua-Fehler in package.lua, Zeile 80: module 'strict' not foundWD:LT/catscan2 Ist natürlich nur ein kleiner Anfang. Hoffentlich wird die Suche bald im MediaWiki implementiert. -- Simplicius 20:34, 17. Apr 2006 (CEST)

Etwas Werbung...

Da ich gemerkt habe, das dieses Tool fast nur Powerusern bekannt ist, wollte ich es in der Hilfe etwas "bewerben" (vielleicht nutzen es dann mehr Leute, besonders zum Verbessern von Wartungs-Artikeln). Hat jemand einen Vorschlag, auf welcher Hilfeseite man einen Link und eine Beschreibung einbauen könnte? Eine andere Idee wäre, eine eigene Hilfeseite zum gezielten Verbessern von Artikeln einer Themenkategorie anzulegen, etwa Hilfe:Artikel verbessern. Oder gibts sowas schon? --cordobés ¿? 04:24, 3. Sep 2006 (CEST)

Link zum Tool ist veraltet, funktioniert nicht Jlorenz1@web.de 22:42, 13. Dez. 2006 (CET)

funtionsunfähiger Catscan

Hallo, ich wollte mal fragen, ob jemand weiß, wie lange der Server mit dem Catscan noch funktionsunfähig bleibt (mir und bestimmt auch einigen anderen fehlt nämlich ein wichtiges Werkzeug :-) ). Gruß -- Ra'ike D C V QS 09:23, 14. Dez. 2006 (CET)

CatScan und Infobox-Parameter

Mich würde interessieren, ob es nicht möglich wäre, CatScan um eine Funktion zu erweitern, welche es ermöglicht, Parameter aus Infobox-Vorlagen auszuwerten. Immer mehr Staaten werden mit nationalen Infobox-Vorlagen ausgestattet, die bereits mit zahlreichen Infos gefüttert werden, an die man sonst relativ schlecht ran kommt bzw. man erhält nur schlecht einen Überblick über alles gesammelte. Man könnte somit beispielsweise nach Ortschaften suchen, bei denen die Flächenangaben noch ausständig sind und diese gezielt nachtragen, oder gar ganze Überblicks-Tabellen (evtl. auch von Catscan) erstellen lassen. Wenn sich mal wer Zeit und Mühe nimmt, so soll er diesen Vorschlag im Auge behalten, oder gibt's schon ein ähnliches Programm? Wär bestimmt enorm nützlich, zumal Einträge in der Wikipedia meist dem neuesten Stand entsprechen. Mit Hilfe solcher Tools könnte man viel rascher aktuelle Listen erstellen oder Mankos feststellen... --Capriccio 14:34, 11. Mär. 2007 (CET)

Schnittmengen über beliebig viele Kategorien

Hi, ich wurde aufgefordert "meinen" kleinen Trick hier zu veröffentlichen. Wenn man Schnittmengen von 3 oder mehr Kategorien bilden will, geht das mit CatScan alleine nicht, jedoch habe ich eine Methode mit der man das relativ einfach trotzdem hinbekommt.

Dazu muss man Unix, Linux oder Cygwin (für Windows) zur Verfügung haben.

Vorgehensweise:

  • Man erzeugt diverse Catscans mit Ausgabeformat CSV und speichert das Ergebnis in mehrere lokale Dateien ab
    • bei 3 Kategieren also z.B.
      • den Catscan von Kat:A und Kat:B in Datei "/tmp/catscan/in1.txt"
      • den Catscan von Kat:A und Kat:C in Datei "/tmp/catscan/in2.txt"
    • bei 4 Kategorien
      • den Catscan von Kat:A und Kat:B in Datei "/tmp/catscan/in1.txt"
      • den Catscan von Kat:C und Kat:D in Datei "/tmp/catscan/in2.txt"
    • bei 5 Kategorien
      • den Catscan von Kat:A und Kat:B in Datei "/tmp/catscan/in1.txt"
      • den Catscan von Kat:C und Kat:D in Datei "/tmp/catscan/in2.txt"
      • den Catscan von Kat:A und Kat:E in Datei "/tmp/catscan/in3.txt"
    • und so weiter
  • anschließend lässt man folgendes Shell-Script laufen:
cd /tmp/catscan
files="in*.txt"
count=$(echo $files | wc -w)
awk '{print $2}' $files | 
    sort |
    uniq -c |
    awk -v count=$count ' $1==count {printf "*[[%s]]\015\n",$2} ' |
    tr '_' ' ' > out.txt
  • und erhält als Ergebnis die Datei "/tmp/catscan/out.txt" in der in Wikisyntax die Schnittmenge aus allen Kategorien steht.
  • Diese kann man dann lokal weiterverwenden oder in eine Arbeitsliste mit copy&paste nach Wikipedia hochladen.

Der Code lässt sich sicherlich auch in anderen Scriptsprachen wie Perl darstellen. Das möchten aber bitte andere Leute entsprechend "übersetzen" und ggf. hier posten.

Wie das ganze entstanden ist kann man hier nachlesen. Hier ist ein Beispiel der Schnittmengen der Kategorien Frau US-Amerikaner und Autor zu sehen.

Ich habe außerdem mal lokal eine Schnittmenge aus Kategorie:Frau, Kategorie:Deutscher, Kategorie:Geboren im 18. Jahrhundert, Kategorie:Musik und Kategorie:Literatur gemacht. Also alle deutsche Frauen die im 18. Jahrhundert geboren sind und sowohl etwas mit Musik als auch mit Literatur zu tun hatten. Ergebnis: nur auf eine einzige Frau trifft dies zu: Helmina von Chézy.

Wenn man viel Zeit hat, kann man auch pro Kategorie einen "Full-Scan" machen, also "alle Seiten" anklicken, und dies jeweils in eine extra lokale Datei speichern. Das kann bei großen Kategorien oder Kategorie-Bäumen aber eine ganze Weile dauern bis der Catscan das komplett dargestellt hat. Aber danach kann man ein wenig mit den Eingabedateien spielen, in dem man "manche" für das Script ausschließt in dem man diese Dateien jeweils umbennent oder in ein anderes Verzeichnis verschiebt.

Das Ergebnis einer solchen "Spielerei":

  • ohne Kategorie:Frau; also auch alle deutschen Männer des 18. Jahrhunderts die etwas mit Musik und Literatur zu tun hatten: 37 Stück
  • ohne Kategorie:Deutscher; also alle Frauen aller Nationen des 18. Jahrhunderts die etwas mit Musik und Literatur zu tun hatten: 6 Stück
  • ohne Kategorie:Geboren im 18. Jahrhundert; also alle deutschen Frauen, egal wann geboren, die etas mit Musik und Literatur zu tun hatten: 34 Stück
  • ohne Kategorie:Musik; also alle deutschen Frauen des 18. Jahrhunderts die etwas mit Literatur zu tun hatten: 58 Stück
  • ohne Kategorie:Literatur; also alle deutschen Frauen des 18. Jahrhunderts die etwas mit Musik zu tun hatten: 11 Stück

Die einzelnen Listen habe ich nicht "hochgeladen", denn das waren ja nur Anwendungsbeispiele, kann das aber nachholen falls Interesse besteht.

Keine Ahnung ob und in welcher Form dies auch auf die "Hauptseite" passt.

Also bitte: Kommentare, Meinungen, Kritik, Verbesserungsvorschläge, ...

Gruß --JuTa() Talk 00:40, 5. Okt. 2007 (CEST)


Hab mal ein kleines Perlchen geschrieben - könnt ihr alle gern benutzen, wie ihr wollt: funktioniert mit beliebig vielen Dateien
print "CatScanMerge.pl -- by slartidan\nUsage: perl CatScanMerge.pl <filename1> <filename2>...\n\n";
while ($file = shift and ++$filecnt) {
    open(FILE,$file) or die "Kann Datei '$file' nicht öffnen!";
    while (<FILE>) {
        $articles{(split /\t/)[1]}++;
    }
    close(FILE);
}
foreach $article (sort keys %articles) {
    print $article, "\n" if ($articles{$article} >= $filecnt);
}
Viel Spaß damit --Slartidan 17:22, 11. Dez. 2007 (CET)

Skript bzw. Kategoriensuche per Facetten

Ich habe auch schon mal bei Duesentrieb gefragt, weiss aber nicht mehr den Ort und ob er jemals geantwortet hat. Wo findet man denn das Skript?
Ich würde gerne eine Suchmaske machen, in der man Ort, Zeit, Fach, ein wenig auch die Art des Objekts und ggf. auch einen Wikipedia-Status eingegeben kann - anhand von Vorwahllisten für die entsprechenden Kategorien. – Simplicius 18:44, 11. Dez. 2007 (CET)

Was meinst du mir "das Skript"? Meinst du CatScan selber? - dann gehts hier lang...--Slartidan 16:14, 13. Dez. 2007 (CET)
Ich würde gerne selbst eine Suchmaske bauen mit den besagten Suchmöglichkeiten.
Wie und wo ist sowas möglich? – Simplicius 21:21, 15. Dez. 2007 (CET)

Problem?

Gibt es ein Problem mit CatScan? Seit einigen Tagen funktioniert das bei mir nicht mehr. Liegt das an meinem Rechner oder ist das im Moment außer Betrieb?--Ticketautomat 15:41, 28. Jan. 2008 (CET)

Geht momentan mal wieder nicht. Siehe auch Wikipedia:Fragen_zur_Wikipedia#CatScan --Kungfuman 21:44, 28. Jan. 2008 (CET)
Oh danke. Hätte ich mal drauf schauen sollen.--Ticketautomat 09:35, 29. Jan. 2008 (CET)

Anliegen

Was ich viel wichtiger finde, als die Schnittmenge von n Kategorien, ist dass ich beim Scan einer Kategorie Unterkategorien ausschließen kann. Ich vermute mal, dass das mit einem analogen Skript wie dem Obigen funktioniert? Kann da einer was basteln, wenn er Zeit und Lust hat? Das wäre eine echte Arbeitserleichterung bei der Suche nach neuen Artikeln in den Portalen. MfG -- Ben-Oni 14:28, 20. Mär. 2008 (CET)

mit CatScan V2.0β ist's jetzt möglich kategorien auszuschliessen -> siehe feld: Ausgeschlossene Kategorien. -- Saltose 19:09, 13. Jan. 2010 (CET)

Suche auf Commons

Mir ist aufgefallen, daß man leider auf Commons nicht nach neuen Bildern in bestimmten Kategorien suchen kann. Werden die nicht als neue Seiten interpretiert oder woran liegt das? Gibt es eine alternative Möglichkeit? Ich würde z.B. gerne nach neuen Bildern auf Commons in der commons:Category:Gothic art suchen, also einer sehr großen Kat mit diversen Unterkategorien, bei der man ohne so ein tool nicht den Überblick behält. Stullkowski 15:58, 2. Jul. 2008 (CEST)

Wegen des gleichen Anliegens komme ich auch hierher. Besteht die Möglichkeit, dass Catscan-Tool entsprechend zu erweitern? --Niteshift 11:34, 8. Nov. 2008 (CET)

Neue Artikel

werden vermutlich dann nicht gefunden, wenn es sich um Übersetzungen mit Nachimport handelt. Könnte für Lücken bei den auf Neue Artikel fixierten Benutzern und Listen sorgen. Ist das schon anderen aufgefallen? Gibt's dafür 'ne Abhilfemaßnahme? Ansatz möglicherweise über neue Zuordnung zu Namensraum (die ist ja realiter neu). Oder vielleicht einen geeigneten Hinweis im Interface oder auf anderen adäquaten Seiten (z.B. bei WP:IMP?)? --Pflastertreter 22:19, 8. Dez. 2009 (CET)

Dimension

gebe ich ein: "Deutscher" und "Autor", werden 1.000 Namen mit Vornamen mit A beginnend gezeigt (einige noch mit B). Wo findet man die anderen? Wo findet man die Namen nach Nachname geordnet?-- 100 Pro 14:03, 7. Apr. 2010 (CEST)

CatScan

Wie kam es zu dem Namen „CatScan“? --Seth Cohen 20:47, 11. Dez. 2011 (CET)

Möglicherweise deutet der Name an, dass man Kategorien (Cat) abtastet (Scan). Möglicherweise geht es aber auch um Computertomographie. Oder die Inpiration kam von den Peanuts: 25. Oktober 1981. --Asdert (Diskussion) 16:37, 16. Aug. 2012 (CEST)

Hilfe!

Die Erklärung über die Schnittmengensuche verstehe ich nicht. Was muss ich machen, um eine Liste der Artikel von unter 25jährigen deutschen Schauspielerinnen und Schauspielern zu bekommen? Danke, --Aalfons (Diskussion) 16:02, 7. Mär. 2012 (CET)

Dazu braucht man meines Wissens mehrere Abfragen. Die Kategorie:Schauspieler muss gekreuzt werden mit:
Da die Jahrgangszugehörigkeit sich nicht überlappt, kann man die resultierenden Teil-Listen ohne Doublettenkontrolle zusammenfügen. Eine Kategorie für die Geburtsdekade gibt es nicht. --Non mi tradir (Diskussion) 12:13, 7. Jun. 2012 (CEST)

Die Suche nach einem bestimmten Wort

in allen Seiten einer Kategorie ist offenbar bisher nicht vorgesehen, wäre aber gelegentlich außerordentlich nützlich. Konkretes Beispiel: Ich suche nach dem Wort "erschossen" in allen Seiten der Kategorie:Speziallagerinsasse Gruß -- Dr.cueppers - Disk. 12:05, 5. Sep. 2012 (CEST)

Ich hätte jetzt erwartet, dass man hierzu auch Google verwenden kann, aber die Tests enttäuschen. Der Suchbegriff Kategorien: Speziallagerhäftling erschossen site:de.wikipedia.org bringt natürlich auch Seiten, die das Wort "Speziallagerhäftling" enthalten, auch wenn es sich nicht um die Kategorie:Speziallagerhäftling handelt. Das sind also zu viele Ergebnisse. Beim nächsten Ansatz bin ich davon ausgegangen, dass ein Artikel dieser Kategorie einen Link auf die Webseite dieser Kategorie hat. Mit dem Suchbegriff erschossen site:de.wikipedia.org link:de.wikipedia.org/wiki/Kategorie:Speziallagerhäftling habe ich aber nur noch drei Fundstücke. Artikel wie Justus Delbrück werden nicht gefunden. Nanu? Ist Googles Index zu alt? --Asdert (Diskussion) 14:03, 5. Sep. 2012 (CEST)

Maximale Tiefe?

Ich benutze heute zum ersten Mal CatScan. Was ich brauche ist eigentlich eine komplette Liste aller Unterkategorien einer Spezifischen Kategorie (hier mal Beispiel Fußball). CatScan bricht bei mir aber immer nach ca. 3 Leveln ab, obwohl die Kategorie noch viel tiefer geht... Kann man das irgendwie beheben, oder ist das eine Hürde im Programm? --Benedikt.achatz (Diskussion) 13:30, 20. Sep. 2012 (CEST)

Mit dieser Abfrage komme ich auf 2077 Unterkategorien von Kategorie:Fußball. Da ist auch die Kategorie:Fußballstadion in London aufgeführt, die fünf Ebenen unter Kategorie:Fußball liegt. --Asdert (Diskussion) 16:00, 20. Sep. 2012 (CEST)

Beispiel: Deutsche Geschichte

Ich möchte darauf hinweisen, dass die Abfrage mit dem Fehler: LIMIT 1000 Function: getSubcategories Error: 1317 Query execution was interrupted (sql-s5) endet. Ich weiß aber nicht ob das nur ein temporäres Problem ist. --Peter Littmann (Diskussion) 14:34, 4. Dez. 2013 (CET)

Suche nach Bildern in Commons mit CatScan V2.0β

Ich würde gerne mit CatScan V2.0β nach allen Bildern suchen in der Kategorie "Stolpersteine in Germany" und all ihren Unterkategorien. Der folgende Link nähert das aber nur an, ich kriege nur eine Liste mit Links zu den Unterkategorien, nicht die Bilder selbst:

http://tools.wmflabs.org/catscan2/catscan2.php?language=commons&project=wikimedia&depth=9&categories=Stolpersteine+in+Germany&ns%5B14%5D=1&show_redirects=no&sortby=title&interface_language=de

Außerdem verstehe ich nicht, was darin der Teilstring "&ns[14]=1" bedeutet. Die eckigen Klammern darin machen das Zitieren solcher Links etwas unschön.

Kann mir da jemand weiterhelfen? --Frank C. Müller (Diskussion) 11:33, 24. Mär. 2014 (CET)

Ich hab den Link mal repariert. Siehe dazu Hilfe:Links#Sonderzeichen in URL und Linktitel. --тнояsтеn 12:54, 24. Mär. 2014 (CET)
NS steht für namespace (=Namensraum) und der ist bei deiner Abfrage auf Kategorien gesetzt, daher werden nur solche gefunden. Du musst auf "File" stellen: http://tools.wmflabs.org/catscan2/catscan2.php?language=commons&project=wikimedia&depth=2&categories=Stolpersteine+in+Germany&ns%5B6%5D=1&show_redirects=no&sortby=title&ext_image_data=1&file_usage_data=1&interface_language=de. Dann werden die enthaltenen Dateien gelistet. Geht bei mir allerdings nur bis zu einer Tiefe von 2, ab 3 kommt eine Fehlermeldung. --тнояsтеn 12:59, 24. Mär. 2014 (CET)
Danke! Bei mir kam auch immer ein Fehler, nur ich dachte nicht, dass es an der Tiefe liegt. Der Fehler heißt "Fatal error: Allowed memory size of 100663296 bytes exhausted (tried to allocate 85 bytes) in /data/project/catscan2/public_html/catscan2.php on line 803". Sieht nach Überschreiten von max. 96 MB Memory aus. Da müsste vielleicht mal jemand die Grenze hochsetzen. Freiwillige? (Ob Magnus das wohl liest?) gruß, fcm. --Frank C. Müller (Diskussion) 14:30, 24. Mär. 2014 (CET)

catscan_rewrite

Moins,

Bitte herausfinden, wie das unter wmflabs geht, und dann den Umherirrenden mit der zu verbessernden URL beglücken.

Schöne Feiertage --PerfektesChaos 10:18, 7. Jun. 2014 (CEST)

CatScan2: Bezeichnungen der Kategorien aus dem Kategorienbaum kopieren funktioniert nicht

Ich habe auf der Seite Kategorie:Träger des Bundesverdienstkreuzes den Eintrag „Träger des Bundesverdienstkreuzes am Bande‎“ kopiert und in CatScan eingefügt. Daraus habe ich folgenden Link erhalten: http://tools.wmflabs.org/catscan2/catscan2.php?depth=2&categories=Tr%C3%A4ger+des+Bundesverdienstkreuzes+am+Bande%E2%80%8E&interface_language=de. %E2%80%8E ist wohl ein Zeilenumbruch, der beim Kopieren übernommen wird, der aber dazu führt, dass die Kategorie nicht erkannt wird. CatScan sollte verstehen, dass solche Zeilenumbrüche (und andere Steuerzeichen) nicht zum Namen der Kategorie gehören und sie automatisch entfernen. --BlackEyedLion (Diskussion) 17:22, 26. Okt. 2015 (CET)