Thematische Suche
Als thematische Suche (engl. „Topic Search“ oder „Thematic Search“) wird im Bereich der Informationstechnologie eine spezielle Form der semantischen Suche bezeichnet, bei der die Nutzer im Web, in einer digitalen Bibliothek oder in einem lokalen Archiv nach Dokumenten suchen, die sich mit einem bestimmten Thema beschäftigen.
Hintergrundwissen
Beispielsweise können Benutzer daran interessiert sein, alle Dokumente zum Themenbereich „Herzkrankheiten“ (oder „Kriminalität“, „Astronomie“, „Nachkriegszeit“ etc.) zu finden. Suchmaschinen, die rein „stichwortbasiert“ arbeiten, können solche Dokumente nur dann finden, wenn das erwünschte Thema selbst wörtlich als Begriff im Text auftritt. Dies ist jedoch oft nicht der Fall: Viele interessante Texte behandeln einen speziellen Bereich oder Teilaspekt des betrachteten Themas, ohne dieses explizit zu nennen. So liefert ein Fachartikel über Vorhofflimmern interessante Informationen zu den Themen „Gesundheit“ oder „Herzkrankheiten“, auch wenn diese Wörter selbst im Text nicht auftreten. Ähnlich gehört ein Bericht über Galaxien zum Themenbereich „Astronomie“, auch wenn dieser Begriff nicht erwähnt ist. Übliche Volltext-Suchmaschinen sind nicht in der Lage, automatisiert Stichwörter dazugehörigen Themen zuzuordnen. Viele themenrelevante Dokumente werden darum schlicht nicht gefunden. Bessere Möglichkeiten bieten spezielle Suchtechniken und -Umgebungen, die thematische Zusammenhänge zwischen unterschiedlichen Begriffen systematisch erfassen und bei der Beschreibung von Dokumentinhalten im Suchindex und bei der Beantwortung von Nutzeranfragen mit berücksichtigen.
Die thematische Suche überträgt die durch Systematiken und Kataloge geprägte traditionelle Bibliothekssuche auf die computergesteuerte Welt digitaler Archive, Bibliotheken, Foren und Plattformen und erweitert und bereichert diese mit neuen Interaktionsformen. Fast alle Formen der Recherche in elektronischen Textbeständen, die über eine reine Stichwortsuche hinausgehen, stellen eine Form der thematischen Suche dar, wobei eine Kombination mit stichwortbasierter Suche durchaus sinnvoll sein kann. Beispielsweise mag es für einen Konzern interessant sein, alle Meldungen zum Themenbereich „Umwelt“ zu finden, in denen er erwähnt ist. Eine politische Partei könnte sich dafür interessieren, in welchen Presseartikeln zum Thema „Internet“, „Wirtschaft“ oder „Sozialbereich“ sie genannt wurde, und welche Artikel zum selben Themenbereich andere Parteien erwähnen. Ist der Zusammenhang zwischen Dokumenten und den dort auftretenden Themen in einer Suchmaschine elektronisch erfasst, so kann den Nutzern ein Überblick angeboten werden, welche Themen mit welcher Relevanz im erfassten Dokumentenbestand auftreten, interessante Dokumente können dann durch Navigation in Themenhierarchien gefunden werden. Eine Spezialform dieses visuellen thematischen Zugriffs stellen thematische „Tag Clouds“ (s. u.) dar. Sind die Meldungen oder Dokumente – wie bei Nachrichtenkollektionen – überdies mit Zeitstempeln versehen, so kann auch der zeitliche Verlauf der Wichtigkeit der Themen dargestellt werden. Je mehr im Hinblick auf die Nutzerinteressen die Gewinnung eines Überblicks, die Analyse vorhandener Themen unter verschiedenen Blickwinkeln und das Erkennen von Beziehungen zwischen Themen, unterschiedlichen Dokumenten und Quellen in den Vordergrund rücken, desto weniger stellt die Interaktion eine „Suche“ im eigentlichen Sinn dar, allgemeiner kann man daher von einem „thematischen Zugriff“ auf Inhalte sprechen.
Thematische Verschlagwortung, Tagging und Begriffswolken
Um eine thematische Suche zu ermöglichen, werden Beiträge und Artikel in vielen Internetforen manuell nach Themen verschlagwortet und mit Tags versehen. Beim „Social Tagging“ vergeben die Benutzer selbst die Tags. Oft werden den Nutzern zur visuellen Navigation im Dokumentenbestand dann „Tag Clouds“ präsentiert, die häufig vergebene Themen anzeigen. Das Anklicken eines Themas führt dann auf relevante Dokumente. Sofern alle Dokumente mit einer ausreichenden Anzahl qualitativ guter Tags versehen sind, ergibt sich dadurch eine interessante und intuitiv leicht verständliche Form der thematischen Suche. In der Praxis erweist sich die manuelle Verschlagwortung aber auch oft als unzureichend, da viele Dokumente ungetaggt bleiben. Werden dennoch Tag Clouds eingesetzt, bleibt das Ergebnis meist hinter den Erwartungen zurück.
Um von manuell vergebenen Labels unabhängig zu sein und alle Texte mitzuberücksichtigen, stellen primitivere Arten von Begriffswolken lediglich die häufigsten oder auffallendsten Begriffe der zugrundeliegenden Textsammlung dar. Hierbei werden dann allerdings nur Begriffe erfasst, die wörtlich im Text auftreten. Unterschiedliche Begriffe, die häufig gemeinsam auftreten, werden in den Wolken näher zueinander platziert. Das hierdurch vorgespielte „Weltwissen“, das den Zufälligkeiten der Dokumentkollektion entspringt, entpuppt sich bei näherer Betrachtungsweise jedoch oft als fragwürdig.
Eine vollautomatische thematische Verschlagwortung und Annotation von Dokumenten, die auf echtem Weltwissen beruht, ist mit höherem Aufwand verbunden. Sie kann durch die Verwendung spezieller semantischer Netze mit computerlinguistischer Fundierung erreicht werden. In solchen Netzen werden Stichwörter, Namen und Phrasen explizit thematischen Bereichen zugeordnet, wobei diese in Gestalt einer umfangreichen Themenhierarchie nach Ober- und Unterthemen geordnet sind. Mit dem Auftreten der Stichwörter in den Texten werden dann unter Rückgriff auf das im Netz gespeicherte Wissen auch die Themen der Dokumente erkannt. Um allgemein anwendbar zu sein, müssen erfasste Stichwörter und die Themenhierarchie eine enzyklopädische Abdeckungsbreite haben. Es gibt im Internet bereits Services zur vollautomatischen thematischen Verschlagwortung von Textdokumenten, die auf diesem Prinzip beruhen.
Verwandte Verfahren
Die thematische Suche, bzw. allgemeiner der thematische Zugriff, stellt eine spezielle Form der „semantischen Suche“ dar. Als verwandte Verfahren bzw. Problemstellungen sind vor allem die folgenden zu nennen:
- Verfahren zur Ermittlung der semantischen Nähe von Begriffen
- Diese Verfahren ermitteln die Verwandtschaft von Stichwörtern, ohne die Begriffe jedoch mit einer Themenhierarchie in Verbindung zu bringen. Ein bekanntes Beispiel ist „Latent Semantic Indexing“. Neuere Ansätze beruhen darauf, das in der Wikipedia implizit vorhandene Wissen zur Beziehung zwischen unterschiedlichen Themen und Begriffen automatisch zu extrahieren und so nutzbar zu machen. Einige bekannte Ansätze sind:
- Klassische Thesauri
- orden das Vokabular eines Fachgebiets nach Ober- und Unterbegriffen und ähnlichen Relationen, sie beinhalten oft auch eine einfache thematische Taxonomie. Allerdings sind die meisten Thesauri für den Einsatz in allgemeinen Suchmaschinen thematisch und fachlich zu eingeschränkt.
- Formale Ontologie
- Formale Ontologien werden in der medizinischen Informatik und in vielen anderen Bereichen zur automatisierten Analyse von Texten eingesetzt. Sie erfassen spezielle Relationen zwischen Konzepten und Instanzen, wobei die Auswahl dieser Relationen vom modellierten Fachgebiet abhängt.
- Textklassifikation
- Bei der Dokumentenklassifikation werden Dokumente automatisch in unterschiedliche Klassen sortiert. Die vorgegebenen Klassen entsprechen oft bestimmten Themen (Sport, Politik …), typischerweise wird jedoch hierbei eine relativ kleine Auswahl von Themen verwendet, die nicht hierarchisch geordnet sind.
- Story-Tracking
- Beim Story-Tracking werden auch über einen längeren Zeitraum medienübergreifend Artikel und Beiträge verfolgt, die sich mit einer ganz bestimmten Meldung befassen.
Literatur
- Gabrilovich, Markovitch: Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis. Januar 2007, S. 1606–1611 (Online).
- Strube, Ponzetto: WikiRelate! Computing Semantic Relatedness Using Wikipedia. Juli 2006 (Online).
- Chernov, Iofciu, Nejdl, Zhou: Extracting Semantic Relationships between Wikipedia Categories. Oktober 2013 (Online).
- Brunner: Intelligente semantische Netze im Bereich Textklassifikation. Meidenbauer, 2009, ISBN 978-3-89975-693-7.
- Zesch, Müller, Gurevych: Using Wiktionary for Computing Semantic Relatedness. Januar 2008.
- Schulz: Der thematische Zugang zu Archiven und Dokumentbeständen – Grundprinzip und erweiterte Recherchemöglichkeiten. (PDF; 637 kB) Abgerufen am 1. Januar 2013.
- Ringlstetter: Pimp my ECM – thematische Suche für intelligentes ECM. (PDF; 313 kB) Abgerufen am 1. Januar 2013.