Benutzer:Mathias Schindler/concise/Exposé

aus Wikipedia, der freien Enzyklopädie

Wikipedia-Inhalte zwischen zwei Buchdeckeln

Wikipedia ist derzeit auf dem besten Weg, eine wertvolle Referenz für alle Aspekte des allgemeinen Wissens zu werden. Es ist der erste Versuch, die Vorteile des Internets bei der Erstellung von enzyklopädischen Inhalten sinnig zu nutzen. Sowohl die Wiki-Technologie als auch das Internet als übliches Transportmedium sind derzeit ohne Alternativen für das Projekt als solches. Dies gilt in dieser Schärfe nicht für die Inhalte der Wikipedia. Es sind eine Reihe von Szenarien denkbar, in denen es bessere Wege gibt, Inhalte zu Lesern zu bekommen.

Directmedia Publishing GmbH in Berlin hat einen Weg bereits beschritten und im Herbst 2004 eine CD-ROM mit den Inhalten der deutschsprachigen Wikipedia herausgegeben. Die zweite Auflage, diesmal als DVD, geht noch weiter und bietet für so ziemlich jede Plattform (Linux, Windows, MacOS, Tomeraider, Mobipocket) bis herunter zum PDA/Smartphone einen Zugang zu den Texten.

Ein weiterer vertretbarer Weg, Inhalte zu Lesern zu bekommen, ist das gedruckte Buch. Es ist kein Anachronismus, auch hierüber nachzudenken, ob und in welcher Form man sinnvoll Wikipedia in ein Bücherregal bekommt. In seiner Gänze ist dies derzeit noch eine Utopie und mittelfristig wird man an das Problem stoßen, schlichtweg zu viel Text zu haben. Bis also 35 Bände Wikipedia im Regal stehen, wird noch viel Druckerflüssigkeit die Heidelberger Maschinen herunterfließen.

Egal, was am Ende steht, es bedarf in jedem Fall vielen neuen Techniken sozialer und programmierkünstlerischer Art, die es bis dahin zu entwickeln gilt. Verifikation von Inhalten. Lemmaselektion. Die meisten dieser Herausforderungen existieren unabhängig davon, ob es sich um einen 300-Seiten-Einbänder oder um den Regalstresstester handelt, alleine die Beherrschbarkeit ist eine andere.

Grundsätzlich gibt es zwei grobe Ansätze, aus den Texten der Wikipedia ein gedrucktes Lexikon zu machen:

  1. Der klassische Weg mit Wikipedia als Steinbruch. Er ist personalintensiv, kostenintensiv und basiert auf Erfahrungswerten, die entweder eingekauft oder "im Hause" entwickelt werden müssten. Eine Redaktion wählt eine Lemmaliste aus, verteilt Zeilen auf die Lemma und pickt sich dann aus der Wikipedia die Texte heraus, die dann zu Einträgen verwurstet werden. Die Texte müssten dann noch verifiziert werden, die Ergebnisse stünden erstmal leer im Raum und könnten nur mühsam in die Wikipedia reintegriert werden. Letztlich würde man sich alle Nachteile klassischer Lexika an Land holen und auf so gut wie alle Vorteile der Wikipedia verzichten. Das Ergebnis wäre vielleicht nett, aber es hätte nur noch sehr wenig mit Wikipedia zu tun.
  2. Der Wikipedia-Ansatz. Alle Arbeiten am Text fänden weiterhin in der Wikipedia statt und würde sich neben der Verifikation auf die Formgebung von Artikeln konzentrieren: Jeder Artikel bestünde aus zwei Teilen: ein definitorischen Teil am Anfang und die Langfassung. In die gedruckte Fassung des Einbänders würde ausschliesslich der definitorische Teil übernommen. Die Faustformel lautet hier: Der erste Absatz eines Artikels. Aus dem SQL-Dump der Wikipedia-Daten würde automatisch eine PDF-Version des Textes erstellt und könnte auf Probleme durchgesehen werden, die dann in der Wikipedia selbst gefixt werden. Wenn man nicht alle Artikel haben will oder kann, müsste man mit mathematischen Methoden versuchen, automatisch eine Lemmaliste zu extrahieren. Meines Wissens wurde dieser Ansatz bei noch keinem Buchlexikon so versucht, er wäre völlig neu und mit einer Reihe von Unsicherheiten behaftet.

Es sprechen einige Gründe dafür, zur zweiten Alternative zu neigen. Vor allem, weil viele Ergebnisse über Sprachgrenzen hinweg exportierbar wären. Die nötige Software wäre auch von den französischsprachigen Wikipedianern einsetzbar und auch von en.Wikipedia. Der Vorteil läge insofern auf der Hand, als dass damit auch die Basis der möglichen Entwickler etwas größer wäre und die Sicherung der Qualität über technische Mittel vermutlich besser auf solche Projekte skaliert. Reproduzierbarkeit wäre ein Killerargument. Solange die Inhalte gepflegt werden (und das sollten sie ja eh in der Wikipedia), könnte man jede Woche eine druckbare Version aus dem Computer ziehen. Zwischen Erstellung und Druck lägen nicht mehr Monate, sondern nur noch wenige Tage, wenn man den Review auch dazu noch auf viele Schultern verteilt und den administrativen Overhead so tief wie möglich hängt.

Wichtig bleibt die Frage: Wäre ein vielleicht 2000 Seiten starkes Lexikon mit drei Spalten im Ouartformat überhaupt ansatzweise zu irgendetwas brauchbar? Das wären plusminus 8 Millionen Wörter, also fast ein Drittel der Brockhaus-Enzyklopädie. Je nach Einsatz von Bildern schwanken diese Zahlenspiele dann doch erheblich. Wer schonmal in den Brockhaus-10 Bänder geschaut hat, wird feststellen, daß viele Einträge weit unter dem liegen, was bei uns als Stub laufen würde, etwa:

	"Auxine: [grch.], Pflanzenwuchsstoffe, die
	durch Beeinflussung der Zellstreckung das
	Wachstum fördern."

Das ist wohlgemerkt kein Redirect und als Dreizeiler auch nicht der kleinste deren Artikel.

Die Wikipedia-Einbänderentsprechung (erster Absatz des Artikels in der Version vom 27. März) wäre:

	"Auxine sind eine Gruppe von natürlichen  
	und synthetischen Wachstumsregulatoren mit 
	multipler Wirkung auf Wachstums- und
	Differenzierungsprozesse bei den höheren 
	Pflanzen. Die natürlich vorkommenden
	pflanzlichen Auxine gehören zu den 
	Phytohormonen."

In der Summe ist es also ein völlig realistisches Vorhaben, über den Weg des ersten Absatzes einmal einen Teil der Wikipedia zu drucken und zu verkaufen. Auch eine lizenzkonforme Umsetzung ist dabei möglich und sollte immer bedacht werden.

Realisierung

Sollte man sich dazu entschließen, die "Wikipedia kompakt" als Projekt in Angriff zu nehmen, liefe dies auf folgende Arbeitsschwerpunkte hinaus:

  1. Gewinnung einer brauchbaren Lemmaliste
    a) mit einer Gewichtungsangabe für
    wichtige Artikel
    b) Speziallisten von Artikeln, die Mustern
    folgen, etwa Städte und Länder
  2. Verifikation der Inhalte, die nachher gedruckt werden
    a) Fixes für Wikipedia-Artikel, die diesem
    Muster derzeit nicht folgen
  3. Technik
    a) Schaffung eines möglichst kurzen Releasezyklusses
    b) Umgang mit Spezialfällen
    c) Umsetzung der Inhalte in ein Druckformat

Darüber hinaus wäre noch unglaublich viel Arbeit zu leisten, von der möglichst viel in der Wikipedia selbst geschehen müsste. Zu jedem Arbeitsschwerpunkt könnte man noch Feinheiten besprechen; so kann etwa die Lemmaliste stabilisiert werden, indem man freie Lemmalisten findet und als Indizdafür nimmt, daß ein Artikel valide ist.

Der zeitliche Rahmen läge so bemessen, daß man nicht in Verlegenheit käme, aufgrund von Druck Abstriche zu machen. Man könnte es in Phasen einteilen:

 0%__________________________50%_______________________100%
a ##########xxxxxx......
b     ........#################xxxxxxxxxxxxx............
c          ......xxxxxxx################################  
d               ....####################################


a) Erstellung der Entwicklungsschleife, 
b) Lemmaselektion 
c) Arbeit an den Artikelabsätzen 
d) Konvertierung in ein Druckausgabeformat

Die Entwicklungsschleife bestünde am Anfang aus der denkbar dümmsten Routine: Nehme alle Artikel und gib den ersten Absatz heraus und packe die Artikel untereinander.

Wenn diese Schleife steht, kann man sich um die (vielen, vielen) Feinheiten kümmern und anfangen, mit der Lemmaselektion unerwünschte Artikel herauszufischen.

Die Hoffnung ist, durch die Ergebnisse der Entwicklungsschleife möglichst gezielt zu den Artikeln zu kommen, die noch nicht über einen vernünftigen definitorischen Absatz verfügen. Dies könnte auch teilweise über regelbasierte Listenerstellung gehen ("Liste aller Artikel, deren erster Absatz nicht das Lemma enthält", "Liste aller Artikel, deren erster Absatz kürzer als 10 Wörter ist" usw...).

Da dies ein verhältnismäßig langfristiges Projekt (und so gut wie völliges Neuland) ist, sollte es möglichst schnell Zwischenergebnisse geben, die klarmachen, wohin die Reise geht (Auch wenn das Ziel dieser Reise selbst nur ggf. das Zwischenergebnis ist). Dazu gehört, den jeweiligen Stand möglichst als PDF und möglichst regelmäßig zu verbreiten. Alle Zwischenergebnisse und hergestellten Werkzeuge werden frei zugänglich gemacht.

Der Einbänder wäre ein exzellenter Testballon, um einzelne neuere Ideen einmal zwanglos ausprobieren zu können. Dazu zählt natürlich auch eine öffentliche Errata, die alle gemeldeten Fehler der gedruckten Auflage auflistet. Darüber hinaus sind Shortcuts denkbar, also http://wpkompakt1.directmedia.de/seite/312 mit einer Auflistung aller Lemmata dieser Seite 312 in der veröffentlichten Form, in der aktuellen Form, im Diff, in der Langform etc darzustellen. Das gilt natürlich auch für Weblinks und Literaturhinweise.

Zusammenfassung des Projektes in Kernpunkten:

  • Wikipedia ist ein Projekt zur Erstellung einer Enzyklopädie
  • Wikipedia Kompakt ist ein Projekt zum Druck eines kleinen Teiles von Wikipedia-Inhalten
  • Wikipedia Kompakt ist kein Fork
  • Wikipedia Kompakt ist ein Projekt zum Gewinnen von Erfahrungswerten für kommende Druckprojekte


Mögliche Einwände

  1. Die deutschsprachige Wikipedia ist noch nicht so weit, gedruckt zu werden.
    Stimmt. Wer die komplette Wikipedia drucken will und sich nicht blamieren will, der hat einiges an Arbeit vor sich. Ein Teil dieser Arbeit wird auch dafür fällig werden, die Texte der deutschsprachigen Wikipedia in eine druckfähige Form zu bringen. Es ist ein gewollter Nebeneffekt, daß damit auch die Qualität der Wikipedia-Texte gesteigert wird.
  2. Dieses Projekt ist finanziell zum Scheitern verurteilt, lasst es bleiben.
    Das Projekt wird vollständig von Directmedia Publishing ausgetragen, die Wikipedia bzw. Wikimedia Foundation ist weder finanziell noch inhaltlich beteiligt. Einzig und allein die Inhalte kommen von den Wikipedia-Servern. Änderungen, die als sinnig erachtet werden, bleiben dort bestehen. Directmedia Publishing geht davon aus, mit diesem Projekt auch Geld im Rahmen der lizenzkonformen Nutzung der Inhalte zu verdienen. Der Verlag hat deutlich gemacht, daß ein Teil der Erlöse auch Wikimedia zugute kommt.
  3. Die Regel mit dem ersten Absatz ist vollkommen untauglich, relevante Inhalte herauszufischen und als Buch aufzubereiten.
    Stimmt, die Regel klingt ersteinmal äußerst gewagt. Grundsätzlich kann man sich ihr aber von beiden Seiten nähern: Verbesserung der Algorithmen, um jeweils bei einem Wikipedia-Artikel an der "richtigen" Stelle abzuschneiden und zum anderen durch das Informbringen der Wikipedia-Inhalte.
  4. Hier soll für ein kommerzielles Projekt im Livetext der Wikipedia herumgearbeitet werden, das geht doch nicht.
    Vielleicht sollte man das ein wenig aufdröseln. Im Livetext der Wikipedia sollen die Faktenverifizierung stattfinden, stilistische Korrekturen und die Erhöhung der Lesbarkeit der Artikel. Der NPOV ist ohne Ausnahme bindend. Wer sich die Exzellenten Artikel der Wikipedia ansieht wird feststellen, daß der jeweils erste Absatz einen völlig brauchbaren geschlossenen Definitionstext des ganzen Themas bietet. Das, was für das Einbänderprojekt gebraucht wird, ist völlig deckungsgleich mit dem Ideal eines guten Wikipedia-Artikels. Sollte dies einmal nicht der Fall sein, hat sich das Einbänderprojekt an der Wikipedia-Vorgabe zu richten.
    Wikipedia fragt nicht nach den Intentionen, warum jemand in der Wikipedia editiert. Maßstab ist die Frage, ob die Änderungen gut, sachlich richtig und NPOV sind oder nicht. Es ist mit den Prinzipien der Wikipedia vereinbar, wenn jemand die Texte in eine (gewollte) Form bindet, um sie später wieder selbst zu nutzen.
  5. Warum gerade zuerst auf Deutsch? Englisch ist doch schon so viel weiter
    Die erste Idee für eine Kurzausgabe der Wikipedia kam tatsächlich aus den USA und ist noch nicht begraben worden. Jimmy Wales hatte dazu Gespräche mit einem recht bekannten Verlag für IT-Themen, der auch eine gewisse Zuneigung für freie Software entwickelt hat. Das Projekt wurde im Sommer 2004 vorgestellt und hat sich seitdem nicht sonderlich weiterentwickelt. Das heisst nicht, daß dieses Projekt gestorben ist, es hat einfach derzeit offenbar keine Priorität. Die deutschsprachige Wikipedia hat in der Vergangenheit schon des Öfteren mal recht innovative Wege beschritten, die sich anderen Sprachen zur Nachahmung empfehlen. Es wäre von Anfang an gewollt, daß die Ergebnisse des deutschsprachigen Kompakt-Projektes auch in anderen Sprachen genutzt werden.
  6. Eine gedruckte Wikipedia wäre nicht mehr änderbar. Fehler würden die Reputation von Wikipedia auf Dauer beschädigen
    Wikipedia setzt auf Transparenz bei der Erstellung von Texten. Die große Vorlaufzeit bei dem Projekt zum Druck einer Kompaktausgabe böte die Chance und die Pflicht, faktisch jeden Satz auf Richtigkeit hin abzuklopfen. Darüber hinaus müsste eine öffentliche Errata existieren, um dauerhaft glaubwürdig erscheinen zu können. Auch auf die Gefahr hin, daß beim ersten Versuch der ein oder andere Monsterfehler durch das Sieb fällt. Fehlerfreiheit ist ein nicht wegzudiskutierendes Ziel, das niemals völlig erreicht werden wird. Umgekehrt ist so ein Projekt sehr wohl in der Lage, die Glaubwürdigkeit der Wikipedia zu steigern, wenn es mit Sorgfalt durchgeführt wird.
  7. Eine gedruckte Wikipedia böte keinen Mehrwert gegenüber der digitalen Version
    Die Haptik eines Buches ist unschlagbar und solange TFT-Bildschirme unter 600dpi Auflöung haben, Computer ihre Gedenkminute zum Booten einfordern und außerdem noch Strom fressen, wird es immer eine Gruppe von Menschen geben, die ein Buch auch nur einer schönen PDF-Seite vorziehen.
  8. Die bekannten Lizenzprobleme bei der Print-Nutzung würden überdurchschnittlich ins Gewicht fallen (außer man findet einen Weg, automatisiert den/die Einleitungs-Autoren zu ermitteln)