Wikiup:WikiCon 2013/Programm/Botpedia

aus Wikipedia, der freien Enzyklopädie

Botpedia. Generierung von Artikeln per Skript: die Zukunft der Wikipedia?

Podiumsdiskussion mit Achim Raschka, Gestumblindi, Holder, Matthiasb, Romaine. Moderation: Ziko.

Historischer Überblick

Präsentation Holder

  • Automatisiertes Übersetzen von Artikeln
  • Rambot auf enwiki, Gemeinden USA, 2002-2004
  • Projekt auf meta: „Botopedia“, 2005/06
  • Projekt auf meta: „ Mass content adding”, 2006
  • Lombardische Wikipedia, rund 100.000 Bot-Artikel wieder gelöscht, 2007
  • Volapük-Wikipedia, Diskussion über Schließung des Projekts, 2007/08
  • Französische Gemeinden, z. B. cawiki, euwiki
  • Gemeinden in Italien, Spanien, Indien, usw.
  • Nlwiki: Tierarten, 2011-1013
  • Lsjbot (sv, ceb, war): Tierarten, 2012/2013
  • Nasko (sv): schwedische Seen, 2013

Mögliche Artikelserien in der Zukunft:

  • Bücher (> 100 Millionen)?
  • Astronomische Objekte (> 1 Milliarde in IAU-Datenbank)?

bot articles on nlwp

Some basics about why bot articles are generally considered ok on the Dutch Wikipedia. (presentation Romaine)

  • On nl-wiki stubs must contain at least 3 facts, we had a voting about it. The generally contain the most basic information: where, country, coordinates, type (Ort, Stadt, Gemeinde, etc), number of inhabitants, administrative localisation, etc.
  • Bot articles are ok as we have our goal to collect the sum of all knowledge, we also had a voting about it.
    • "Stell dir eine Welt vor, in der jeder einzelne Mensch freien Anteil an der Gesamtheit des Wissens hat. Das ist unser Ziel. " (Vision)
    • Also it would have been considered strange that users can create short articles and are allowed, and bots would not. So bots are allowed too.
  • Bot articles aren't just dumped on Wikipedia, but must be included in the complete navigational structure. The bot owner is responsible for the contents, fixing errors, and more, and strives to get the articles as large as possible. There are longer articles and short articles, depending on the availability of information.
  • Bot articles form a good basis, they have less errors than human work, and are then available to be expanded. The also enlighten the workload of users.
  • If a bot article isn't expanded yet, it still is useful as it enables users to search and find in their own language and continue through interwikilinks and coordinates, easier to find more information.
  • Also bot articles help us with mapping: to get all government levels complete and being able to get a clear overview of them.
  • Also for maintenance bot articles are much welcome. We have tried getting links to the right articles, bot before and after the creation of bot articles. Creation bot articles afterwards doubled our work as we had too fix too many bad links. Creating bot articles first enabled us to link instantly to the right article.
  • There are older encyclopaedias (in book form) that have less information per lemma.

Anmerkungen/Gedanken Cactus26

Nach Präsentationen/Diskussion, Versuch einer differenzierten Betrachtung:

  • Die Vielgestaltigkeit der Bereiche mit bot-generierten Artikel (Anm. Ziko, biologische Taxa, Orte, astronomische Objekte, ...) ist trügerisch, es handelt sich immer um Bereiche, in denen es eine reichhaltige, maschinell auswertbare Datenbasis gibt.
  • Diese Datenbanken "auszuschlachten" kann erhebliche Asymmetrie im Artikelbestand erzeugen (zufälliger Artikel in Schweden mit hoher Wahrscheinlichkeit ein Insekt...)
  • Vervollständigungen eines Themenbereichs (z.B. die Gemeinden eines Landes) stellen einen Gewinn für den Leser dar, da es keine "roten" Links gibt und man sich ohne "Sackgassen" durch ein Themengebiet "durchhangeln" kann.
  • Ein Gewinn für den Leser ergibt sich insbesondere auch, wenn automatisiert ermittelbare Grunddaten von Tools weiterverwertet werden, wie das beispielsweise bei Koordinaten von Orten der Fall ist.
  • Das automatisierte Bereitstellen des Grundgerüsts eines Artikels mit allen "Pflichtdaten" (v.a. Infobox) ist eine Arbeitserleichterung und kann den Autoren lästige Arbeiten abnehmen.
  • Das Anlegen neuer Artikel ist für viele fast eine Art "Ritual" (nicht wenige "sammeln" neu angelegte Artikel), zumindest ist die Erweiterung bzw. Verbesserung eines bestehenden Artikels oftmals viel weniger motivierend als die Schaffung eines neuen Artikels.
  • Bot-Entwickler sollten der für Softwareentwickler typischen Versuchung widerstehen, mit ihrem Code einen möglichst großen "Wirkungsgrad" zu erzielen
  • Die Disziplin, nicht alles technisch mögliche umzusetzen (z.B. Komplettauschlachtung des Katalogs astronomischer Objekte) ist noch in einer zweiten Dimension erforderlich: Man sollte nicht alle verfügbaren Daten zu einem Objekt vorbehaltlos verwenden, um einen bot-generierten Artikel "aufzublasen", sondern es bei einem einfachen Stub belassen. Der Stub wird viel eher Autoren dazu animieren, den Artikel zu erweitern. Es ist somit auch viel besser entscheidbar, welche der (maschinell) verfügbaren Daten einen Gewinn darstellen und welche eher Desinformation erzeugen. (Dieser Gedanke wurde von Gestumblindi in die Diskussion eingebracht, ein Beispiel für einen Artikel, der alle maschinell verfügbaren Daten auszuschöpfen versucht, ist der englischsprachige Artikel zu Balm bei Günsberg. Dieser wurde zwar nicht wirklich durch einen Bot angelegt, dennoch wurde offensichtlich ein zumindest teilautomatisiertes Verfahren zur "Datenaufbereitung" verwendet – so könnten bot-generierte Artikel aussehen. Den Gegenpol, einen einfachen Stub, stellt der rumänische Ort Boteni in der niederländischen Wikipedia dar.)

Im Anschluss an die "eigentliche" Diskussion wurde in einem etwas kleineren Kreis die ausgetauschten Argumente nochmals rekapituliert. Als Konsens möchte ich folgenden Entwurf für eine Liste von Voraussetzungen für bot-generierte Artikel vorschlagen:

  • Es muss sichergestellt sein, dass die Aktualisierung/Wartung dieser Artikel ebenfalls ohne manuelle Eingriffe möglich ist (Beispiel: Einwohnerzahlen bei Orten (Wikidata?), Änderung der biologischen Systematik (Taxobot o.ä.)).
  • Der Artikel sollte keiner manuellen Nacharbeit bedürfen, um ein gültiger Stub zu sein (z.B. passende Wikilinks müssen ergänzt werden).
  • Der thematische Bereich sollte klar abgegrenzt sein und noch eine sinnvolle Gesamtmenge darstellen (alle biologischen Arten bzw. astronomischen Objekte sind in diesem Sinne kein sinnvoller Bereich).
  • Das Fachportal zum Themengebiet sollte die Artikelgenerierung befürworten.
  • Es muss das Ziel sein, in absehbarer Zeit einen Bereich komplett abzudecken; erst wenn dies erreicht ist, sollte ein neuer Bereich angegangen werden.
  • Man sollte der Versuchung widerstehen, alle maschinell verfügbaren Daten auch im Artikel unterzubringen, um scheinbar den Vorwurf "mickriger Stub" zu entkräften. Die Artikel sollten bewusst als Stub angelegt werden und sich auf die in allen Fällen erforderlichen Daten beschränken.