Diskussion:Information Retrieval

aus Wikipedia, der freien Enzyklopädie

Quelle falsch verwendet

Satz im Artikel: Information Retrieval [ˌɪnfɚˈmeɪʃən ɹɪˈtɹiːvəl] (IR) bedeutet Information abzurufen.[1] Quelle [1] definiert das de fakto nicht. Mir ist bewusst, dass das eine korrekte Übersetzung ist, aber wenn überhaupt, ist "Gegenstand des Information Retrieval ist die Suche nach Dokumenten. Traditionell handelt es sich dabei um Textdokumente." die erste Definition im Dokument. Später führt die Quelle noch andere Definitionen auf und untersucht diese etwas.

-> bitte Definition umschreiben oder die Quelle entfernen

Generell ist der Artikel sehr lang und führt nur eine Quelle explizit auf... (nicht signierter Beitrag von 2A00:B580:A000:0:5C3E:C278:326C:16C4 (Diskussion) 14:50, 13. Aug. 2019 (CEST))

irreführender Satz

16.05.2013 Folgender Satz: Beim Information Retrieval geht es darum, bestehende Informationen aufzufinden, nicht neue Strukturen zu entdecken (wie beim Knowledge Discovery in Databases, zu dem das Data-Mining und Text Mining gehören).

Dieser suggeriert, das Data-Mining und Text-Mining nichts mit IR zutun haben, was jedoch fachlich falsch ist! Tatsächlich baut Text-Mining auf IR auf, bitte beheben! (nicht signierter Beitrag von 5.28.77.29 (Diskussion) 15:06, 16. Mai 2013 (CEST))

dieser "künstliche" Anglizismus "information retrieval" muss nicht sein (erledigt)

Schon im Brockhaus von 1970 findet sich eine Begriffsbestimmung wie in diesem Artikel, allerdings in einem Abschnitt mit der Überschrift
Informationserschließung, engl. information retrieval.
Die Idee ist keineswegs neu und auch der englische Begriff Jahrzehnte alt. Die andersprachigen Wikipedias verwenden doch schließlich auch ein Lemma ihrer eigenen Sprache, pourquoi pas ici? Because we're so very cool this way? Bullshit!
217.236.196.82 11:30, 11. Jan. 2010 (CET)

it:Information Retrieval. Grazie e arrividerci, Fossa?! ± 13:03, 11. Jan. 2010 (CET)
in 20 von 22 andersprachigen Wikipedias wird ein Lemma der eigenen Sprache verwendet; mea culpa - das hätte ich wohl direkt ganz, ganz genau schreiben sollen ;) 217.236.196.82 14:18, 11. Jan. 2010 (CET)
Den Nagel auf den Kopf getroffen: Bei diesen englischen Begriffen geht es einzig um scheinbare coolness. Besonders verbreitet ist das in der Informatik. Dort werden die englischen Begriffe selbst dann verwendet, wenn sich die banale wörtliche Übersetzung ins Deutsche geradezu aufdrängt (wie in diesem Beispiel :-). --87.78.200.154 19:28, 12. Mai 2010 (CEST)
aaaah - der Brockhaus von 1970 - DAS ändert natürlich alles. Im Ernst:
Kollegen, wikipedia ist eine Enzyklopädie. Wir benennen ein Lemma in aller Regel so, wie es der häufigere Sprachgebrauch ist. das ist nun mal "Information retrieval": "Infoationserschließung hat gerade mal 12.100 google-Treffer. Ein klarer Beleg, dass dieses Wort unüblich ist.
die Frage ist doch: an wem soll sich eine Enzyklopädie orientieren in punkto Sprachgebrauch? ...etwa am Fernsehen?! An der Bild-Zeitung?
(nicht auf Sie bezogen) aber allgemein ist es besonders amüsant einen Haufen schlecht verdauter englischer IT-Begriffe von Leuten zu hören, die von Informatik keine Ahnung haben; wenn z.B. jemand von totaler it-security schwafelt ... die Worte Information, Sicherheit usw. findet man gewiss schon im Brockhaus von 1900 (was sie natürlich unmöglich macht) ... wie sagte schon Einstein? Man soll die Dinge so einfach wie möglich ausdrücken. 79.230.180.207 15:05, 16. Okt. 2011 (CEST)
Wer das englische Wort verwendet, wird häufiger verstanden - und seltener ausgelacht - als jemand, der das deutsche Pendant verwendet. --Neun-x 12:02, 11. Jun. 2011 (CEST)
PS off topic: wer eine Denglish-Allergie hat , wende sich an den Verein Deutsche Sprache - oder an die nächste Parkuhr ...
PS2 : Mittels Weiterleitung werden beide Begriffe gefunden. EOD
on-topic, yeah right, you almost hit the nail on the head, well almost; even monkeys have the ability to laugh ... like they say ... ignorance is a bliss
PS if you don't like English language postings, just complain in Denglisch; EOD for real 79.230.180.207 15:08, 16. Okt. 2011 (CEST)

7- Tupel

> Ein Information Retrieval System IRS [...] kann formal als 7-Tupel beschrieben werden [...]

Ich finde nicht, dass eine solche formale Beschreibung und der ganze Wurst von Abkürzungen zum Verständnis beiträgt (bei Vektorraum-Retrieval habe ich das schon herausgenommen). Normale Sätze und Aufzählungslisten reichen doch aus, sofern es sich nicht gerade um mathematische Definitionen handelt. -- Nichtich 14:32, 20. Nov 2003 (CET)


Ich habe mal alles, was ich für überflüssig halte herausgenommen:


Ein Information Retrieval System (IRS) ist eine Spezialisierung eines Informationssystems und besteht aus folgenden Teilen :

  • Eine Indexierungsfunktion mit der die Dokumente auf Dokumentrepräsentation abgebildet werden
  • Eine Indexierungsfunktion mit der die Suchanfragen (Queries) auf Queryräsentationen abgebildet werden
  • Eine Retrievalfunktion die auf eine Suchanfrage eine Teilmenge von Dokumentrepräsentationen liefert
  • Eine Rankingfunktion, die eine Teilmenge von Dokumentrepräsentationen mit Hilfe einer Suchanfrage nach Relevanz ordnet

Die Möglichkeit des Relevanz-Feedback ist hierbei noch nicht berücksichtigt.



Ich weiss nicht so genau, ob die Einordnung von IR bei der Computerlinguistik so gluecklich ist. Wir hatten zwar auch information retrieval in einer Computerlinguistik-Vorlesung, aber soweit ich es weiss, haben sich die IR-Leute immer von der Computerlinguistik abgegrenzt.

So viel linguistische Methoden werden da auch nicht unbedingt verwendet ...


Ich stimme zu. IR hat Bezüge zur Computerlinguistik (wie auch zu Informationssystemen, dem Machinellen Lernen oder auch der Statistik und Wahrscheinlichkeitsrechnung), ist aber kein Bereich der Computerlinguistik. -- Henrik 11:43, 13. Jul 2003 (CEST)

Weitere verwandte Artikel habe ich im Portal:BID zusammengefasst. -- Nichtich 19:12, 10. Okt 2003 (CEST)

Bitte in "Information-Retrieval" umbenennen! (abgelehnt / sachlich falsch)

Umbenennen! Auch eingedeutschte Begriffe schreibt man mit Bindestrich, wenn es sich dabei um Nomen handelt. 82.82.129.22 17:44, 24. Nov 2003 (CET)


"Eingedeutscht" würde etwa bedeuten, dass man "Informationsretrieval" sagt. "Information Retrieval" ist nach wie vor ein englisches Wort und kann auch so geschrieben werden, meine ich. DirkLuckhardt 09:40, 9. Dez 2003 (CET)

Ja, bin auch der Meinung, dass es noch kein deutscher Begriff ist, und deshalb "Information Retrieval" heißt.
--zeno 11:32, 9. Dez 2003 (CET)

Die obige Aussage stimmt so nicht. Gemäß dem §37(1) und dem §45(2) der amtlichen Regelung der deutschen Rechtschreibung werden aus Substantiven zusammengesetzte Fremdwörter in der deutschen Sprache entweder zusammen geschrieben oder über einen Bindestrich getrennt. Somit sind nur "Informationretrieval" und "Information-Retrieval" korrekt. Benutzer:Dominik_Kuropka 10:20, 3. Juni 2004 (CET)

dem stimme ich zu. Wäre es ein englisches Wort, so müsste man es information retrieval schreiben. Das Lehnwort mit Bindestrich und groß. Stern 13:15, 2. Jul 2004 (CEST)
´Meiner Meinung nach ist "Informationsrückgewinnunng" kein gebrächlicher deutscher Begriff. Deshalb wäre ich für die Umbennung des Artikels in "Information Retrieval" (ohne Bindestrich).

--Christoph Demmer 10:21, 24. Feb 2006 (CET)

Sehe ich auch so, zumindest in der Information wird immer von "Information Retrieval" geredet. Informationsrückgewinnunng (wieso rück?) kennt kein Mensch, Google liefert 297 Treffer im Vergleich zu ungefähr 524.000 Seiten auf Deutsch für "Information Retrieval". Wenn niemand begründete Einwände hat, werde ich den Artikel demnächst umbenennen. --Krissie 16:28, 24. Mär 2006 (CET)

Merkwürdig finde ich nun doch, dass offensichtlich das Angloamerikanische noch gerade als "natürlichsprachlich" genug gilt, unser Deutsch zu verhundsen. Denn das "retrieving" (eigentlich Zurücktreiben/Beitreiben; denn 're-trieve' hat eine Querverbindung zu plattdeutschem 'drieve' = treiben). 'Natürlichsprachlich' ist übrigens auch ein zusammengestoppeltes Unwort; denn alle gesprochenen Sprachen sind natürlich; wenn man es im Gegensatz zu Komputoren-'Sprachen' meint, muss das Wort mindestens mit Bindestrich geschrieben werden. Und statt "retrieval" usw. kann man in einem deutschen Titel vielleicht sage und schreibe die romanische Form der Nutzung eines Genitivs oder Präpositioneinbindung anwenden, also: "Rückgewinnung von Daten". - Meint man mit "natürlichsprachlich" jedoch einen Gegensatz zu "künstlichsprachlich" oder

"plansprachlich", 

dann will man wohl von Anfang an Informationen, die in oder über Esperanto, Linguna usw. vielleicht irgendwo verloren gegangen worden sind (weil jemandem nicht passend, man sieht irgendwelche eigene Felle wegschwimmen), auf gar keinen Fall wieder zurückgewinnen, zurückholen ins Internetz und zu Netzbibliotheken und dergleichen Speicherungen. Also wohl der Versuch, die Noosfäre der Menschheit unter Kontrolle zu kriegen, wobei man eine "klitzekleine Kleinigkeit" vergessen hat: Die Noosfäre der Menschheit bzw. aller Menschheiten des Kosmos wird NICHT von unseren Datenträgern aufgezeichnet und bewahrt oder bzw. verschüttet oder weggebuttert etc. pp., sondern in ganz anderer Dimension niedergelegt, die wir als Menschilein gar nicht erreichen können, bzw. auf jeden Fall nicht "ausradieren" und "manipulieren" können. Ich erinnere an den zunächst als Häretiker eingestuft gewesenen, aber dann wieder rehabilitierten Filosofen Teilhard de Chardin. So kann man denn auch nicht folgenden Eintrag bei diversen Foren (wo dort lustig dat 'offtrieving' (das Verschwindenlassen von Daten) im Gange ist, verschwinden machen, auch wenn einem die Völkerverständigungs-Drohung, die in der Luft liegt, nunmal absolut gar nicht genehm sein sollte: Das Erlebnis der Voelkerverstaendigung wird insbesondere vermittelt durch eine neutrale, vergleichsweise sehr leichte und logische Verkehrssprache, eine Zweitsprache für alle, wie es jedes Jahr die Esperantofreunde (trotz ihres alten Esperanto) neu erleben auf ihren diversen Kongressen und internationalen Treffen sowie durch ihre internationale Korrespondenz. Denn eine gemeinsame Sprache impliziert schon an und für sich die Voraussetzung der auslandfreundlichen Einstellung, der Anerkennung der Menschen anderer Völker als Menschen und nicht mehr als ferne, unverständliche (oder gar unverständige) ggfs. exotische Subjekte, oft genug in den eigenen Gedanken eher bei wilden Tieren angesiedelt als bei der zivilisierten Welt, wobei man letztere vornehmlich nur mit dem eigenen Vaterland identifiziert. Eine gemeinsame Sprache und eine durch sie ermöglichte leichte Verständigung aller Menschen, wie durch Linguna, dem verbesserten und erweiterten Nachfolger des Alt-Esperanto, bedeutet auch das Zusammenbrechen des Meinungsmonopols und der Meinungsmache durch nationalstaatliche Regierungen und deren sie kniefällig anbetenden Journalistenschaft bzw. der ihnen hörigen Medienzaren im Öffentlich-Rechtlichen und darüber hinaus. Die Menschen können dann ganz schnell herausfinden, was wirklich los ist in der Welt, die gemeinsame leichte Zweitsprache ist ebenso wichtig also wie der Buchdruck, das Telefon, das Radio, das Fernsehen und das welt-weite Webnetz "Internet" und die Bildrechnerwelt. Der schnelle Austausch von Mitteilungen, Briefen, Nachrichten, Bändern, Kassetten, Disketten wird durch eine gemeinsame neutrale Zweitsprache aller erst richtig virulent, hochaktiv. Das Vermittlermonopol der zwischengeschalteten Meinungssteuerung durch Kommentatoren und Korresponenten der Zeitungen und Sender fällt flach. Das beeinflusst dann auch deren Berichterstattung in Richtung auf mehr Wahrheitsliebe und Gewissenhaftigkeit. Die ganze Erde wird dann in diesem Sinn eine einzige Nation, die Nation Planet Erde, Terra-1. Das planetarische Zeitalter beginnt. Eine Erde - Eine Sprache - Eine Menschheit (Unu terra - unu Língua - unu humanitea!). Das war keine leere Fanfare. Es ist zugleich die Posaune von Jericho, die zum Einsturz der Mauern der Jahrtausende zwischen den Völkern führt!

Linguna ante portas.

Es hat übrigens zu Zeiten des Kalten Krieges schon von manchen den pessimistischen Satz gegeben, dahs Deutschland niemals mehr zusammenwachsen werde, eine Wiedervereinigung unmöglich sei. Denn eine gemeinsame Sprache - hier die des deutschen Volkes - sei nicht ausreichend, um die wirtschaftlichen und blockpolitischen Sperrmauern und den Eisernen Vorhang (z.B. in Deutschland) zu überwinden. Und genauso sei es auch mit der Welt als ganzer. Esperanto werde niemals die Welt wieder vereinen können, selbst wenn es allgemein angenommen und sich mächtig verbessert hätte. So hiess es damals. Und man war ganz stolz darauf, endlich der Esperanto-"Ideologie" von der einen Erde, wie man sich ausdrückte das Genick gebrochen zu haben durch ein eklatantes Gegenbeispiel unüberwindlichen Zerwürfnisses TROTZ gemeinsamer Sprache. An diesem Gegenbeispiel konnte man sich gar nicht genug delektieren. Nun, Deutschland ist

wiedervereinigt, 

ohne einen einzigen Kanonenschuss. Der Eiserne Vorhang, er ist nicht mehr. Die Gemeinsamkeit hat über das Trennende gesiegt. Die gemeinsame Sprache war mächtiger als alles andere. Die Verbindung eines Volkes untereinander konnte man nicht auf Dauer zertrennen, man konnte sie zu keiner Zeit je zertrennen. Die Sprache - das Wort - hat gesiegt. Das Primat des Wortes, das Primat der Idee war stärker. Und genauso wird die ganze Erde zusammenwachsen, nach und nach, Bastion um Bastion, sofern wir nur wollen, wenn die gemeinsame Sprache als Zweitsprache, als allen zugängliche neutrale und von allen leicht erlernbare Verkehrssprache ihren Siegeszug antritt, - dann gibt es kein Halten mehr. Völker hört die Signale! - Und die Weltrevolution wird friedlich sein oder gar nicht. Diese Wahrheit wird siegen. ---hdito ~*~ Das war ein Diskussionsbeitrag von BluaMauritius, 2006-07-06

- Na, da ist ja jemand etwas über´s Ziel hinausgeschossen. :-) Hat ja schon eher Essaycharakter... Ukrueger 22:46, 16. Jan. 2007 (CET)
oder ein Pamphlet ("eine Schrift, in der sich jemand engagiert, überspitzt und polemisch zu einem wissenschaftlichen, religiösen oder politischen Thema äußert") ? Oder ist ihm der Himmel auf den Kopf gefallen ?? --Neun-x 12:20, 11. Jun. 2011 (CEST)

noch was Sprachliches

Ganz neu war mir eine Mehrzahlbildung des Wortes "Informationsbedarf". Jedesmal, wenn ich "Informationsbedarfe" gelesen habe, empfand ich ein leises Unbehagen. Ist das ein Fachbegriff der Dokumentationswissenschaft, oder kann man das vielleicht korrigieren? Nichts für ungut/No bad feelings...

Jedenfalls laut google selten gebrauchtes Wort. --Neun-x 12:23, 11. Jun. 2011 (CEST)

Inhaltsverzeichnis

Die Einleitung sollte maximal aus den ersten 3 sätzen bestehen, dann muss das ihvz folgen, so weit unten macht es keinen sinn. da ich mich bei dem them a aber nicht wirklich auskenne, trau ich mich nicht über die überarbeitung.

Frank n stein 15:31, 21. Jan. 2007 (CET)

Formeln für Ausbeute und Präzision

Ich fände es besser, wenn die Formeln für Ausbeute und Präzision, wie im englischen Artikel zu Information Retrieval dargestellt werden. --Stevie mu 14:00, 22. Jul. 2010 (CEST)

Oder zumindest ein Link auf die Seite Recall und Precision einfügen. Ich würde es aber besser finden, wenn die Bilder der Formeln direkt in den Hautptext eingefügt werden --Stevie mu 15:41, 22. Jul. 2010 (CEST)

Inzwischen beides erledigt. -- UKoch (Diskussion) 16:59, 19. Mär. 2012 (CET)

Falsche Aussage im Abschnitt Recall und Precision

Meiner Meinung nach ist folgende Aussage falsch: "Recall und Precision verhalten sich umgekehrt proportional zueinander."

Die Precision definiert sich doch als das Verhältnis zwischen der Gesamtzahl der auf eine Anfrage vom System als relevant präsentierten Dokumente und der Anzahl der tatsächlich relevanten Dokumente innerhalb dieser Ergebnismenge. Der Recall definiert sich hingegen über das Verhältnis der Gesamtzahl aller für eine Anfrage relevanten Dokumente der Dokumentmenge und der Anzahl der vom System im Anfrageergebnis präsentierten relevanten Dokumente. Beide Größen haben in der Regel gar nichts miteinanner zu tun, stehen also auch in keiner Abhängigkeit zueinander, weder direkt noch indirekt.

--Keevan 07:34, 29. Dez. 2010 (CET)


Jein, Precision bestraft die "false positive" und Recall die "false negative", die fn kann ich auf 0 kriegen, indem ich zu viele (alle) Dokumente als relevent betrachte, die fp kann ich auf 0 kriegen, indem ich kein Dokument als relevent betrachte. Man kann also entweder die Precision oder den Recall einfach "optimieren" und dadurch das Andere verschlechtern. Darum gibt es auch den F-Score der Beides miteinander verrechnet. Das sie sich umgekehrt proportional verhalten ist zwar falsch, man kann sie aber so optimieren (eines verbessern, dadurch verschlechtern sich das andere) und von einander unabhängig sind sie nicht. -- 129.206.218.178 19:07, 20. Apr. 2011 (CEST)
Habe ich jetzt berichtigt. -- UKoch (Diskussion) 17:01, 19. Mär. 2012 (CET)

Abgrenzung Information Retrieval / Data Mining

Dazu würde ich mir einen Satz in der Einleitung wünschen. Nach dem Motto "besser als nichts" habe ich Data Mining fürs Erste unter "Siehe auch" eingefügt --Neun-x 11:34, 10. Jun. 2011 (CEST)

Dann wäre noch eher eine Abgrenzung zum Text Mining sinnvoll. fossa net ?! 11:58, 10. Jun. 2011 (CEST)
Habe einen entsprechenden Satz (zu Data Mining) als Vorschlag in die Einleitung eingearbeitet. Bloß weil das Paradebeispiel für IR die Textsuche ist, halte ich Text Mining hier für nicht mehr relevant. Es gibt auch Bildersuche und ähnliches. Es wäre aber ganz gut im weiteren Artikel anzusprechen dass im IR zum Teil natürlich Verfahren aus dem Data Mining -- beispielsweise die Clusteranalyse oder eben Text Mining -- verwendet werden. Wobei es hier oftmals um effiziente Speicherung oder Ergebnis-Präsentation geht, nicht die eigentlichen IR-Aspekte. Dito für andere Bereiche, wie der Computerlinguistik. Diese ist natürlich wichtig für Text-IR, dient aber im Wesentlichen als ein Datenvorverarbeitungsschritt für das eigentliche IR. --Chire 15:38, 11. Jun. 2011 (CEST)

Theoriefindung - Blege

Hallo, hier sind sehr wenige Quellen angegeben - das ist schade. Woher stammt die Info, dass die Signale eine Information enthielten? Welche Information wurde da gesendet? Bei Sputnik steht nur:

"Der 83,6 kg schwere Erdtrabant enthielt ein Thermometer und einen Funksender, der 21 Tage aktiv war und ein Kurzwellensignal (20,005 MHz und 40,003 MHz) ausstrahlte. Damit wollte man beweisen, dass es möglich ist, künstliche Objekte im Weltraum zu orten" Sollte man die fehlenden Quellen mit einem Baustein würdigen? --Stefan3 (Diskussion) 11:21, 28. Nov. 2019 (CET)