Wikiup:Personendaten/DPA-Test

aus Wikipedia, der freien Enzyklopädie

Vor einer Weile hat uns die Deutsche Presse-Agentur (dpa) einen Datensatz zu Testzwecken gegeben. Darin enthalten ist ein Monat Meldungen aus den 12 Landesdiensten der dpa. Es sind 32.000 Meldungen aus dem Mai 2010. Die Art der Texte reicht von Tagesvorschauen, Fernsehprogrammen und Autorenstücken bis zu längeren Meldungen von Tagesereignissen. Die Texte aus diesem Datensatz stehen nicht unter einer freien Lizenz, sind aber dennoch sehr spannend für diverse Anwendungsfälle. Auf dieser Seite beschreiben wir ein paar der Experimente, die mit diesen Meldungen gefahren wurden:

  1. Ein Personendatenmatchingtool von APPER, das auf das Personendatenmatching aufbaut, wie es für die Bundesarchiv-Kooperation entwickelt wurde. Aus diesem Personendatenmatching wir eine BEACON-Datei erzeugt (http://toolserver.org/~apper/dpa/dpa_beacon.txt), deren Ziel im Moment auf dem Toolserver liegt (Beispiel).
  2. Magnus Manske hat einen Demonstrator entwickelt, der die Vermashung von dpa- und Wikipedia-Inhalten zeigt: granDPA.

Was soll markiert werden?

  • Nur Einzelpersonen (also z.B. die Scorpions oder Gebrüder Grimm nicht)
  • Keine Namen in Körperschaften (Max-Planck-Institut, FC Carl Zeiss Jena)
  • Keine implizierten Namen ("Sagte der 19jährige"). Auch dann, wenn aus dem vorherigen Text ersichtlich ist, welche konkrete Person es sein soll
  • Fiktive Personen - und wenn ja, alle? (Törleß, Niedrig und Kuhnt, Anna Broda, Dornröschen...)
  • Keine Personen in Straßennamen
  • Einheitliche Vorgehensweise bei Mehrfachnennungen (jedes von 17 "Merkel" im Artikel markieren, schadet nicht und erlaubt später ggf. NEAR-Abfragen)
  • Akademische Titel mitmarkieren? Dr. optional oder nein?, Prof. nein.
  • Keine Markierung von implizierten Personen, wie etwa "sagte er am Montag"
  • Bei Formulierungen wie "Jule und Udo Kilimann" wird Jule einzeln markiert und dann Udo Kilimann. Später in der Zuweisung kann der Textstring "Jule" dann manuell einem evtl. vorhandenen Artikel Jule Kilimann zugewiesen werden (wenn "Jule" nicht ein freistehender Künstlername ist.
  • Diskussionswürdig: Individuelle Tiere (Eisbär Knut, Balu)
  • Was tun mit Päpsten?
    • Ordens-, Kuenstler-, Beruehmte Decknamen ("Willy Brandt", padeluun) werden getaggt. Benedikt MDXXII. wird als Benedikt MDXXII. getaggt.
  • erwähnte dpa-Angestellte sollten erwähnt werden, es sind echte Einzelpersonen, die im übrigen hin und wieder auch einen GND-/Wikipedia-Eintrag haben.
  • Wird ein Name gebeugt ("In Günther Jauchs Hütte" oder "Im Jauch'schen Anwesen") wird der Name in seiner ungebeugten Form markiert. Folgende Zeichen wie Genitiv-s oder Diminuitiv- oder andere Suffixe werden nicht markiert.

Verbesserungsvorschläge / Feature Requests

  • Fußballergebnistabellen [1] herausfiltern
    • Bei Handballergebnistabellen von konkreten Spielen stehen viele Namen
    • Alle Meldungen der Kategorie Fußball/*/Ergebnisse/ automatisch abfertigen mit "keine Namen" gefunden
  • Sonstige wiederkehrende Meldungen ohne Namen [2] herausfiltern
    • Meldungen mit " dpa wünscht einen guten Morgen und einen erfolgreichen Tag!" nicht anzeigen
  • Signalwörter wie "sagte", "erklärte", "monierte", "forderte", "bemängelte" farblich hervorheben, weil da oft Namen dabeistehen.
  • Die roten und grünen buttons müssen größer werden!
    • Vielleicht die komplette Markierung als Button (links rot, rechts grün).
  • Ein Modus, wo man nur Meldungen komplett ohne Vorschläge oder nur welche mit mindestens einem Vorschlag bekommt.
  • Chronologischer Modus bzw. Landes- oder Themenmodus.
  • Statistiken, Statistiken, Statistiken :)
  • Gerade türkische Namen (hier unter anderem Fussballer) werden erstaunlich häufig nicht erkannt. Sinnvolle Abhilfe?
  • Wenn man einen Namen in einem Artikel tagged, sollten alle anderen Vorkommen des gleichen Namens im Artikel auch automatisch getagged werden.
  • dpa scheint eine andere Zählweise für "Absätze" zu haben (bei solchen Meldungen, die auf alten aufbauen). Vielleicht vereinheitlichen mit der Zählweise des Programms.
    • Ich vermute, dass die DPA deine keine "normierte" Zählung hat (wenn ich mir das Durcheinander der Formatierungen allgemein so anschaue).
  • Artikel, die neuere Fassungen von alten sind, bieten Redundanz bei der Namenserkennung und später beim Personentaggen
  • Fernsehprogramm-Meldungen mit 50 Namen bringen mich um.
  • Eigentlich sollte es ja fuer das Script messbar sein, wenn ein eigener Vorschlag entfernt wird. D.h. die Liste der unpassenden Vornamen kann ohne eine manuelle Erfassung auf dieser Seite erstellt werden.
  • Unfallmeldungen beinhalten (fast???) nie Namen
  • Namen, nach denen "Haus", "Straße", "Café" oder "Stiftung" folgt, sollten nicht markiert werden
  • Automatische Markierung von Nachnamen bei Fußballstatistiken (immer gleiche Text-/Zeichenstruktur, i.d.R. nur Nachnamen, manchmal noch abgekürzte Vornamen) [3]

Gelöst, sobald Namenszusammenfassung:

  • Option, offensichtlich falsche Namen "Angel Merkel" in der Seitenleiste manuell zu korrigieren. Das würde auch bei den "halben Namen bei Zeilenumbruch" helfen.
  • Status der Fertigstellung nach zwei Kriterienfacetten: Datum und Landesdienst. Ich weiss aus frueheren Projekten, wie verfuehrerisch es ist, wenn 95% von einem Bundesland fertig sind und man nur noch 10 Minuten braucht, um gezielt diese abzuschliessen. Motivation, Motivation, Motivation :). -- Mathias Schindler (WMDE) 14:01, 22. Okt. 2011 (CEST)
  • Jr. und Sr. automatisch mit markieren
  • Anderes Projekt, aber: Könnte man das Gleiche nicht auch mit den erwähnten Ortsnamen machen?
    • Es bieten sich zwei neue Klassen an: (Gebiets-)Körperschaften und Geographika einerseits sowie Schlagwörter andererseits, da die erste Zeile mit /Kriminalität/Kirchen/ meist zu inhaltsarm ist.

Fehler / Probleme

  • Markierung bei Zeilenumbruch mit mehreren Leerzeichen ist nicht möglich bzw. fehlerhaft [4], [5]
    • Scheint ein Bug im Firefox zu sein, dort gemeldet, solange durch ein Workaround gefixt.
  • dpa-Mitarbeiter im nicht zur Veröffentlichung bestimmten Teil können, wenn sie nicht automatisch markiert wurden, nicht manuell markiert werden - Fehlermeldung "Innerhalb einer Markierung ist keine weitere Markierung möglich, bitte zunächst die alte Markierung löschen" (z.B. [6], [7])/ "Matthias Hoenig" lässt sich hier (letzte Zeile) nicht taggen. Kann hier den Namen in der letzten Zeile nicht markieren.
  • Fehlerhafte automatische Markierung bei mit / getrennten Namen (Wort nach dem / wird noch zum ersten Namen gezählt, der zweite nicht erkannt [8])
  • [9]: Angela Merkel (automatisch markiert) wird nach Klick auf grünen Haken im Kästchen rechts angezeigt, während Tusk nicht markiert werden kann.
  • Darstellungsproblem bei langen Zeilen in dpa-Meldungen [10], 27708
  • Bei diesem Eintrag ist das Markieren von Luis van Gaal um ein Zeichen verrutscht. Ebenso der automatische Erkennung. Einfach auf grün klicken hätte funktioniert, Markieren nur mit einem zusätzlichen Leerzeichen rechts. Hier das Gleiche mit Christoph Scheurer.
  • Markieren von Klaus Wowereit bei http://toolserver.org/~apper/dpa/persontagging.php?id=201 funktioniert nicht.
  • Phase 2-Bug in http://toolserver.org/~apper/dpa/persontagging.php?id=14992. Wenn man zuerst Hoeness markiert und dann den Vornamen/Nachnamen, werden die beiden Stellen nicht konsolidiert
    • Problem liegt daran, dass in den DPA-Meldungen am Anfang ein nicht druckbares Zeichen ist, in diesem Fall direkt vorm ersten "Hoeneß". Opera/Firefox zeigen dort ein Symbol an, Chrome nicht. Markiert man beginnend mit dem "H", funktioniert es, markiert man aber beginnend mit dem Zeilenanfang (bei Chrome kein sichtbarer Unterschied), ist da das merkwürdige Zeichen davor (und das ist in "Dieter Hoeneß" nicht). Da das Zeichen dazu führt, dass die Seite nicht xhtml-konform ist, wollte ich es sowieso noch durch ein Leerzeichen ersetzen. Mach ich demnächst.
  • Durch Uhrzeiten unterbrochene Namen [11]
  • Phase II: Namen + Genitiv-s werden nicht automatisch konsolidiert (http://toolserver.org/~apper/dpa/persontagging.php?id=7164)
    • Evtl. nur den Namen ohne Genitiv-s markieren?
      • Markiert werden sollte nur der ungebeugte Namensteil, dennoch wäre es schick, wenn das Skript dem Anwender hier auf halber Strecke entgegen käme.
  • Bei Fernsehprogrammen wird oft "Regie" als Nachname markiert (korrigiert, wird aber erst bei einer erneuten Vorschlagsberechnung anschlagen)

Namen von Personen, die nicht als solche erkannt werden

Fälschlicherweise als Personen markiert