Relevance Feedback

aus Wikipedia, der freien Enzyklopädie

Das Relevance Feedback-Verfahren findet im Information-Retrieval Anwendung, einer Teildisziplin der Informatik und der Informationswissenschaft. Es beschreibt ein Verfahren zur schrittweise verlaufenden Verbesserung von Suchergebnissen einer textbasierten Suche (z. B. von Suchmaschinen).

Motivation

Ein Problem für heutige Suchmaschinen sind die oft viel zu kurzen Suchanfragen. Im Mittel gehen diese kaum über 2 Wörter hinaus. Dies führt zu einer hohen Anzahl mehrdeutiger Anfragen. Ein weiteres Problem sind Ungenauigkeiten / Unschärfen bei der Inhaltserschließung der Dokumente. Besondere Motivation gewinnt das Relevance Feedback aus dem Multimedia Information Retrieval, da hier zwischen Suchanfrage und Dokument häufig ein Medienbruch zu überwinden ist, indem etwa eine textuell definierte Suchanfrage auf Bilddaten anzuwenden ist. Das Relevance Feedback trägt dazu bei, diese Probleme zu entschärfen, da das System zunehmend bessere Hypothesen über die Anforderungen aufbauen kann, die der Nutzer an relevante Dokumente stellt.

Grundidee

Die Idee besteht darin, die Relevanz bereits gefundener Dokumente für die Suche ähnlicher Dokumente einzusetzen. Daher auch das Wort Relevance Feedback, denn es beschreibt eine Informationsrückkopplung über das Ergebnis vorangegangener Suchen. Das Relevance Feedback baut dabei auf vorhandene Suchverfahren auf (Probabilistisches Modell oder Vektorraummodell).

Verfahren

  1. Anhand einer initialen Suchanfrage Q extrahiert das Retrievalsystem eine erste Dokumentenmenge aus dem Dokumentenraum.
  2. Der Nutzer kennzeichnet dann in der Suchergebnismenge besonders relevante (positives Feedback) und eventuell auch irrelevante Dokumente (negatives Feedback).
  3. Das Retrievalsystem berechnet aufgrund dieser Information
    • im Vektorraummodell eine neue Suchanfrage Q', deren Vektor den relevanten Dokumenten ähnlicher und den irrelevanten Dokumenten unähnlicher ist als Q,
    • im Probabilistischen Modell neue bedingte Wahrscheinlichkeiten, die den Zusammenhang zwischen dem Auftreten von Termen im Indexat und der Relevanzeinschätzung repräsentieren.
  4. Das Retrievalsystem führt den Suchschritt mit der neuen Suchanfrage Q' (Vektorraummodell) bzw. wieder mit Q aber auf der Basis der neuen Wahrscheinlichkeitsschätzungen (Probabilistisches Modell) erneut aus und findet eine neue Dokumentenmenge, die den Interessen des Nutzers besser entsprechen sollte.
  5. Die neuen Dokumente werden dem Nutzer präsentiert.
  6. Dieser kann erneutes Feedback geben (Rückkehr zu Schritt 2).

So wird das Suchergebnis Schritt für Schritt verbessert.

Nachteile

Ein Nachteil des Relevance Feedback liegt in dem Aufwand, den die wiederholten Relevanzeinschätzungen dem Nutzer abverlangen.

Blind Relevance Feedback

Das Blind Relevance Feedback (oder auch bekannt als Pseudo Relevance Feedback) beseitigt diese Nachteile des manuellen Relevance Feedback, bringt aber andere Nachteile mit sich. Die Relevanz der Suchanfrage wird nicht manuell vom Nutzer gekennzeichnet, sondern automatisch (daher der Name "Blind"). Das Suchsystem assoziiert automatisch eine Relevanz für die jeweiligen Ergebnisdokumente, woraufhin dann die Suchanfrage per Query Expansion automatisch erweitert wird, und eine neue Ergebnisliste mit der erweiterten Suchanfrage generiert wird. Da bei diesem Verfahren kein manueller Eingriff mehr nötig ist, sind die Ergebnisse für den Nutzer meist zu ungenau.

Literatur

  • Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: Introduction to Information Retrieval, Cambridge University Press, 2008, ISBN 0521865719.