Tf-idf-Maß

aus Wikipedia, der freien Enzyklopädie

Das Tf-idf-Maß (von englisch term frequency ‚Vorkommenshäufigkeit‘ und

inverse document frequency

inverse Dokumenthäufigkeit‘) ist ein statistisches Maß, das im Information Retrieval zur Beurteilung der Relevanz von Termen in Dokumenten einer Dokumentenkollektion eingesetzt wird.

Mit der so errechneten Gewichtung eines Wortes bezüglich des Dokuments, in welchem es enthalten ist, können Dokumente als Suchtreffer einer wortbasierten Suche besser in der Trefferliste angeordnet werden, als es beispielsweise über die Termfrequenz allein möglich wäre.

Vorkommenshäufigkeit

Die Vorkommenshäufigkeit (auch Suchwortdichte genannt) Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{\#}(t,D)} gibt an, wie häufig der Term Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle t} im Dokument Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle D} vorkommt. Ist beispielsweise das Dokument Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle D_i} der Satz

Das rote Auto hält an der roten Ampel.

dann ist Fehler beim Parsen (Konvertierungsfehler. Der Server („https://wikimedia.org/api/rest_“) hat berichtet: „Cannot get mml. Server problem.“): {\displaystyle \operatorname {\#} ({\text{rot}},D_{i})=2.}

Um eine Verzerrung des Ergebnisses in langen Dokumenten zu verhindern, ist es möglich, die absolute Vorkommenshäufigkeit zu normalisieren. Dazu wird die Anzahl der Vorkommen von Term in Dokument durch die maximale Häufigkeit eines Terms in geteilt und man erhält die relative Vorkommenshäufigkeit .

Andere Ansätze verwenden die Boolesche Häufigkeit (d. h., es wird nur geprüft, ob das Wort vorkommt oder nicht), oder eine logarithmisch skalierte Häufigkeit.

Inverse Dokumenthäufigkeit

Die inverse Dokumenthäufigkeit misst die Spezifität eines Terms für die Gesamtmenge der betrachteten Dokumente. Ein übereinstimmendes Vorkommen von seltenen Begriffen ist für die Relevanz aussagekräftiger als eine Übereinstimmung bei sehr häufigen Wörtern (z. B. "und" oder "ein").

Die inverse Dokumentfrequenz Fehler beim Parsen (Konvertierungsfehler. Der Server („https://wikimedia.org/api/rest_“) hat berichtet: „Cannot get mml. Server problem.“): {\displaystyle \operatorname {idf} (t)} eines Terms hängt nicht vom einzelnen Dokument, sondern vom Dokumentkorpus (der Gesamtmenge aller Dokumente im Retrievalszenario) ab:

Hier ist die Anzahl der Dokumente im Korpus und die Anzahl der Dokumente, die Term beinhalten.

TF-IDF

Das Gewicht eines Terms Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle t} im Dokument Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle D} ist dann nach TF-IDF das Produkt der Termhäufigkeit mit der inversen Dokumentenhäufigkeit (Spärck Jones, 1972):

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{tf}.\operatorname{idf}(t,D) = \operatorname{tf}(t,D) \cdot \operatorname{idf}(t) }

In den meisten Anwendungen dürfte es sinnvoll sein, dass ein vielfaches Vorkommen eines Terms nicht auch in gleichem Maße zur Relevanz beiträgt. In der Praxis wird der TF-Wert daher in der Regel normalisiert.

TF-LAG-IDF

Die Analyse der Zeitabhängigen Relevanz von Termen wird durch das Konzept des TF-LAG-IDF möglich. Das Gewicht Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{tf}.\operatorname{lag}.\operatorname{idf}(t,J,n,D)} eines Terms Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle t} im Dokument Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle D} und Jahr Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle J} mit Lag Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n} ist nach TF-LAG-IDF das Produkt der Termhäufigkeit mit der verzögerten inversen Dokumenthäufigkeit:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \operatorname{tf}.\operatorname{lag}.\operatorname{idf}(t,J,n,D) = \operatorname{tf}(t,J,D) \cdot \operatorname{lag-idf}(t,J-n) }

Um eine Division durch Null zu vermeiden wird das LAG-IDF Gewicht auf einen hohen Wert festgelegt, wenn die Dokumenthäufigkeit gleich Null ist.[1]

Literatur

  • Spärck Jones, Karen (1972) "A statistical interpretation of term specificity and its application in retrieval", Journal of Documentation 23(1): 11-21.
  • Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison-Wesley, Harlow u. a. 1999, ISBN 0-201-39829-X, S. 29–30.

Einzelnachweise

  1. Martin G. Moehrle, Michael Wustmans, Jan M. Gerken: How business methods accompany technological innovations - a case study using semantic patent analysis and a novel informetric measure: How business methods accompany technological innovations. In: R&D Management. Band 48, Nr. 3, Juni 2018, S. 331–342, doi:10.1111/radm.12307.