Normalisierte Google-Distanz
Einer Theorie nach kann die normalisierte Google-Distanz (engl. normalized Google distance, kurz NGD) als statistische Größe für die semantische Nähe zweier Begriffe oder semantischer Konzepte dienen. Sie wird über die Anzahl der Treffer ermittelt, die für zwei in die Suchmaschine Google eingegebene Begriffe gefunden werden, sprich die Anzahl der Dokumente, welche beide Begriffe enthalten. Die NGD liegt normalerweise zwischen 0 und 1, je geringer sie ist, desto enger hängen zwei Begriffe zusammen.
Ermittlung
Gibt man einen Begriff, beispielsweise „Pferd“, in die Suchmaschine Google ein, erhält etwa 12.300.000 indexierte Seiten (Stand: September 2007). Für einen weiteren Begriff, zum Beispiel „Reiter“, sind es 13.900.000 Seiten. Kombiniert man die Begriffe, werden etwa 1.690.000 Seiten gefunden. Für das gemeinsame Auftreten der Begriffe „Pferd“ und „Bart“ werden zwar immer noch 262.000 Seiten aufgeführt, es ist jedoch deutlich, dass „Pferd“ und „Reiter“ enger zusammenhängen. Daraus ergibt sich eine bestimmte Wahrscheinlichkeit für das gemeinsame Auftreten dieser Begriffe. Im Vergleich zur Gesamtmenge der indexierten Seiten (etwa 8.000.000.000) ergibt dies die NGD.
Man definiert folgende Formel für die NGD zweier Begriffe und [1]:
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle NGD(x,y) = \frac{\max[{\log f(x),\log f(y)]}-\log f(x,y)}{\log M-\min[{\log f(x), \log f(y)}]}}
Wobei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f(x)} die Anzahl der Treffer für einen gewissen Begriff Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle x} und Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle M} die Gesamtanzahl der indexierten Seiten benennt. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle NGD(x,y)} ist nicht definiert für den Sonderfall Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle f(x)=f(y)=0} . Die NGD von „Pferd“ und „Reiter“ beträgt ungefähr 0,307, die NGD von „Pferd“ und „Bart“ ungefähr 0,700.
Praktische Anwendungsbereiche
Die niederländische Wissenschaftler Paul Vitanyi und der amerikanische Wissenschaftler Rudi Cilibrasi glauben, mit diesem Verfahren einer Künstlichen Intelligenz die Bedeutung von Begriffen automatisch beibringen zu können. Eine von Cilibrasi entwickelte Open-Source-Software mit dem Namen Complearn konnte mit Hilfe der NGD bereits Farben von Zahlen trennen oder niederländische Maler anhand der Titel ihrer Werke gruppieren.
Weitere mögliche Anwendungen wären etwa auch in einer Übersetzungssoftware zu finden.
Verwandte Verfahren
Ein anderes Verfahren zum Messen der Distanz zweier Informationen, die normalisierte Informationsdistanz (engl. normalized information distance, kurz NID) wurde bereits zuvor von Paul Vitanyi eingeführt, welches die Nähe der Vergleichsobjekte anhand ihrer Eigenschaften analysiert.
Einzelnachweise
- ↑ Vitanyi, Cilibrasi: Automatic Meaning Discovery Using Google (arxiv:cs/0412098v3)