Themenentdeckung und -verfolgung

aus Wikipedia, der freien Enzyklopädie
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 18. Dezember 2021 um 15:41 Uhr durch imported>GünniX(73068) (Archivlink geprüft).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

Das Forschungsfeld der Themenentdeckung und -verfolgung[1] (

Topic Detection and Tracking

, TDT; auch

event-based information organization

) befasst sich mit der Entwicklung von Technologien, die es ermöglichen, Nachrichten aus dem Fernsehen, dem Internet oder Radio zu erfassen und diese dann in einzelne Meldungen zu trennen und in bestimmte Themengebiete oder ein Themengebiet einzuordnen. Sie finden zum Beispiel beim Nachrichtendienst Google News Anwendung.

Die Forschung wurde von der DARPA mit dem Ziel vorangetrieben, Nachrichtenanalysten den Umgang mit der wachsenden Informationsflut zu erleichtern.

Im Gegensatz zur traditionellen Aufgabe des Information Retrieval wird kein eindeutiger Informationsbedarf eines Suchenden vorausgesetzt, sondern das Erkennen neuer Themen angestrebt.

Das Problem wird in fünf Aufgaben unterteilt[2]

  1. Segmentierung: Trennung von Texten in einzelne Meldungen
  2. Themenentdeckung: Identifizierung neuer Themengebiete und Gruppierung der Meldungen nach Themengebiet
  3. Cluster-Erkennung: Einteilung eingehender Meldungen nach Themengebieten
  4. Themenverfolgung: Finden weiterer Meldungen zu einem Themengebiet
  5. Link-Erkennung: Bestimmung, ob zwei zufällig gewählte Meldungen sich mit einem gemeinsamen Themengebiet befassen

Zur Bewältigung der Aufgaben werden Techniken des Information Retrieval, des Text Mining und der Computerlinguistik eingesetzt.[3]

Einzelnachweise

  1. Themenentdeckung und -verfolgung (Memento vom 25. Juli 2014 im Internet Archive), Publikation von Wolfgang G. Stock

Literatur

  • James Allan (Hrsg.): Topic Detection and Tracking. Event-based Information Organisation. Kluwer, Boston MA u. a. 2002, ISBN 0-7923-7664-1 (Kluwer International Series on Information Retrieval 12).