Benutzer:Mathias Schindler/concise

aus Wikipedia, der freien Enzyklopädie

In einem Wort

Wikipedia-Einbänder.

In einem Satz

Die automatisierte Erstellung eines einheitlich gestalteten Dokuments mit dem Layout unter den Vorgaben klassischer Nachschlagewerke mit den Lemmata der Wikipedia in einer verkürzten Form.

Datei:Mockup-concise.png
10-Minuten-SchnellSchnell

Rationale

Wikipedia ist derzeit in einer gruseligen Form. Es existieren Links aus dem normalen Artikelraum in den Wikipedia-Raum, es existieren Layout-Versuche mit eingebautem HTML, die "browseroptimiert" sind. Es existieren keine einheitlichen Linien für Siehe-auch-Links.

Der einzige derzeit halbwegs einheitliche Textteil besteht aus dem Definitionsteil der Artikel, also dem jeweils ersten (Ab-)Satz.

Dieses Projekt soll zusammen mit dem Dossier-Projekt und den Anstrengungen für einen wiki2xml-Parser das Bewußtsein für die Vereinheitlichung der Form der Texte und die Medienunabhängigkeit der Texte stärken. Am Ende soll ein "Serviervorschlag" in Form eines wohlgeformten PDFs vorliegen, das in dieser Form eigentlich zu einer Druckerei gehen könnte (Dies ist der Anspruch, wohlgemerkt). Erfahrungen dieses Projektes sollen gesammelt werden und in die Pflege und Glättung der bestehenden Artikel zurückwandern. Darauf aufbauende Projekte sind erwünscht.

Das kann man auch nochmal in viele Worte packen.

Format

  • Dreispaltiges Layout
  • Lemma fett, Definition
  • linksoben: erstes Lemma der Seite
  • rechtsoben: letztes Lemma der Seite
  • unten/außen: Seitenzahl
  • Keine Wiki/Interwiki/Hyperlinks (Errata/Current-Link)

Probleme

  • Die mangelnde Form der Einträge wird störende Einträge bescheren.
  • Probleme, unerwünschte Lemmata (BKL, Listen) zu erkennen
  • Relevanzproblem. "Wichtige" Artikel werden genauso lang sein wie Randthemen
  • /Länge. Auch in der gekürzten Form wird es schwer sein, eine Kürzung auf ein Buch zu erlauben.
  • Brauchbarkeit. Zu kurz für ein Lexikon, zu lang für ein Wörterbuch
  • Zeichensatzprobleme: Phonetische Angaben, Non-Latin, right-to-left-Text
  • Einzelne BKL sind schwer zu erkennen.
  • LeserInnen würden Personen unter "Nachname, Vorname" erwarten. Die Umstellung ist nicht trivial

Vorteile

  • Beherrschbare Probleme
  • Einzelne Ansätze für Lösungen existieren bereits
  • Die Ergebnisse werden wiederverwendbar sein
  • Das Projekt könnte selbst ausgebaut werden (siehe Probleme)
  • Es ist sehr eng an die Wikipedia angelehnt
  • Es könnte Spaß machen

Durchführung

Version 0.1

  • Erster Absatz
  • Enfernung von Tabellen, Bildern, Überschriften
  • Kürzung auf 50-Wort-Regel
  • brauchbares Datenformat (to be discussed..)
  • Erzeugung des PDFs
  • Lizenzverpflichtungen erfüllen (Autorennamen...)

Mögliche weitere Features

  • Ersetzung des Lemmas im Erklärungstext durch Anfangsbuchstabe + Punkt.
  • Automatische Gewinnung von Listen von Seiten mit formalen Mängeln
  • Umwandlung der 50-Wort-Regel in eine x-Zeilen-Regel
  • Verweissystem auf andere Begriffe
  • weitere Kürzungen von gängigen Begriffen

Zukunftsmusik

  • Auswahl von prominenten Artikeln, die eine größere Definition verdienen (Backlinks, Artikellänge?)
  • Auswahl von prominenten Artikeln, die ein Bild auf der Seite verdienen.

Die Open-Office.org-Vision

OpenOffice.org hat sich in den letzten Jahren zu einer durchaus netten Softwaresammlung entwickelt und beherrscht Layoutfunktionen, die vielleicht recht nütlich sein könnten. Hinzu kommt, daß Openoffice.org XML als internes Dateiformat nutzt. Wenn man also schon strukturierte Daten aus der Wikipedia hat, könnte es möglich sein, diese recht gut in ein oOo-Dokument zu bringen. Ob Openoffice ein 2600 Seiten starkes Dokumen verkraften kann, kann ich schwer sagen. Im Zweifelsfall müsste man dann in Blöcken arbeiten. Der saubere PDF-Export von OpenOffice.org ist dann noch ein besonderes goodie. Jede andere Lösung über LaTeX oder Adobe-Produkte wäre auch einmal auszutesten.

Unterseiten

Linksektion