Wikiup:DVD/Digibib/Rohdaten
aus Wikipedia, der freien Enzyklopädie
< Wikiup:DVD | Digibib
Auf der DVD der Wikipedia-Distribution sind einige Daten dabei, die sich gut für Untersuchungen verwenden lassen. An dieser Stelle ein wenig Reverse Engineering mit Unterstützung von Directmedia.
Verzeichnisstruktur
DVD
- Autoren
- AutKurz.txt: Quellenangabe (vermutliche Hauptautoren). Zeilenweise pro Artikel: Titel, Autoren (per @ getrennte Liste), IPCount (Anzahl anonymer Autoren).
- AutLang.txt: Bearbeitungsgeschichte eines jeden Artikels (jeweils eine Liste mit allen Bearbeitungsschritten und den Feldern Datum/Zeit, Autor, minorflag, Kommentar).
- AutLang.idx: Indexdatei zum Zugriff auf AutLang.txt
- Data
- Coverm84.bmp: Cover der DVD (klein)
- Index.htx: Hashtabelle
- Index.set: Nicht benötigt.
- Index.wlx: Wortliste mit diversen Zeigern
- Tree.dka: Verzeichnisstruktur (u.A. alle Artikeltitel). Zeilenweise und per Leerzeichen eingerückt (Achtung: die Artikeltitel von Personenartikeln sind permutiert)
- lemmata.txt: Artikeltitel#LemmatagruppeSeite Lemmatagruppe ist dabei "A" für Sachartikel und "B" für Personenartikel.
- DigiBib.txt: ini-Datei mit Einstellungen der DVD
- Index.plx: Reverse Index
- Index.ttx: Sequentielle Wortnummern
- Text.dki: Die gesamten Texte der Wikipedia (komprimiert)
- tabelle0.tab: Personendaten, internes Format. Hier als Tab-getrennte Textdatei.
- db
- Gindex.dbz: Passwordgeschützes Zip-Archiv mit Covern, Inhaltsverzeichnissen und Lemmatalisten aller Titel der Digitalen Bibliothek. Die Unterverzeichnisse DB001/Data bis TYP09/Data enthalten jeweils vier Dateien: CovermXY.bmp (wobei XY eine Zahl), lemmata.txt, tree.dki und tree.idx. Installiert man die Wikipedia auf die Festplatte und wählt "auch Suchinformationen anderer Bände", werden diese Dateien im Klartext in entsprechende Unterverzeichnisse entpackt. Hat nichts mit der Wikipedia zu tun.
- HTML
- HTML.dat: Virtuelles Verzeichnis mit hintereinandergepappten HTML-Dateien
- HTML.idx: Index-Datei zum Zugriff auf HTML.dat. Zeilenweisen: Dateiname Position Länge. Die Dateinamen sind von ta000000.html bis ta038748.html durchnummeriert. Dabei handelt es sich höchstwahrscheinlich um die in die Artikel eingebundenen Tabellen.
- Images: Alle Bilder in einer Datei
- linux: Programmdateien
- PDA: Daten im Mobipocket Reader Format
CD
- images alle Bilder (2.378 Dateien, 22MB)
- ...der Rest scheint nicht direkt verarbeitbar (durch Knoppix/Lamppix komprimiert)
XML
Die Quelldaten sind online erhältlich. Da der Generator der Digibib es nicht allzu genau nimmt, hat der Dump2Digibib-Konverter es auch nicht allzu genau genommen... Teilweise gibt es überlappende Tags. Wenn jemand wirklich wohlgeformte Daten braucht, bitte an Vlado wenden.