Diskussion:Ground Truth

aus Wikipedia, der freien Enzyklopädie

Der Artikel ist noch recht kurz. Ausserdem fehlen noch Quellenangaben. Der englische Artikel zum Thema (http://en.wikipedia.org/wiki/Ground_truth) kann evtl. als Vorlage dienen, Quellenangaben fehlen dort jedoch auch.

Neben der Bedeutung im Bereich "Kartographie" vermisse ich Informationen zur Bedeutung einer "Ground-Truth" im Bereich Information-Retrieval; sowas wie:

Ground-Truth (Information-Retrieval)

Eine Ground-Truth im Sinne des Information-Retrievals bezeichnet die Klassifikation einer Testdatenbank mit ein er zugehörigen Menge an Anfragen. Für jedes Dokument in der Testdatenbank ist hierbei festgelegt, ob es bezüglich jeder einzelnen Anfrage relevant oder unrelevant ist.

Eine Ground-Truth im Sinne des Information-Retrievals findet Anwendung bei der Bewertung von Informationssystemen. Insbesondere die üblichen Qualitäts-Maße wie Precision und Recall (Recall und Precision) machen vom Wissen um eine Ground-Truth gebrauch.

Eine der bedeutensten Testkollektion im Bereich des Text-Retrievals wird von der "Text REtrival Conference" (TREC [1]) gepflegt. -- Ahoeck 12:47, 2. Feb. 2009 (CET)

Im Bereich der Texterkennung (OCR) wird der Begriff ebenfalls verwendet und steht dort für den perfekt erfassten Referenztext, der beispielsweise für Qualitätsmessungen verwendet werden kann. --Stefan Weil (Diskussion) 09:49, 20. Apr. 2017 (CEST)

Goldstandard

Es fehlt auch der Querverweis zum Goldstandard (https://de.wikipedia.org/wiki/Goldstandard_%28Verfahren%29). Um mal beim Beispiel der Klassifizierung Mais- oder Sonnenblumenfeld zu bleiben: Angenommen, ich entwickele eine Bildverarbeitungsanwendung, die anhand von Fotos die darauf erkannten Pflanzen in Sonnenblumen oder Mais klassifiziert. Zur Erstellung der Fotos gehe ich in ein Sonnenblumenfeld und schieße 20 Fotos. Dann das gleiche im Maisfeld. Damit möchte ich auch die Ergebnisse meiner Anwendung überprüfen: Da ich vorher weiß, welche Pflanzen auf den Fotos sind, habe ich eine Ground Truth. Wenn ich dagegen anschließend anhand der 40 zufällig sortierten Bilder mit menschlichem Expertenblick die Bilder klassifiziere, habe ich einen Goldstandard, da manche Bilder unscharf sein könnten, oder der Bildinhalt nicht ausreichende Details zeigt, um eine eindeutige Klassifizierung vornehmen zu können. Dadurch entstehen also im Goldstandard tendenziell mehr Fehler als bei der Ground Truth, bei der auch Fehler entstehen können, da zufällig die eine Maispflanze im Sonnenblumenfeld fotografiert wurde. Wie auch im englischen Artikel Gold Standard (https://en.wikipedia.org/wiki/Gold_standard_%28test%29) erwähnt, gibt es keine scharfe Trennung der Begriffe, häufig wird in Artikeln auch der Begriff Ground Truth verwendet, wenn eigentlich Goldstandard gemeint ist. (Disclaimer: Das ist nur meine eigene Erfahrung/Einschätzung, leider habe ich auch keine Quellen parat.)