Diskussion:Bayesscher Spamfilter

aus Wikipedia, der freien Enzyklopädie

"Lemma" (deutsch: Artikelbezeichnung)

Ich möchte mich nicht um Kleinigkeiten streiten und daher kein Fass aufmachen mit Umleitung des Artikels und so - nur die kurze Bemerkung: "bayesscher Filter" ist eine selten verwendete Bezeichnung. Meistens spricht man von Bayes-Filter (vgl. im Artikel: "Markow-Filter". Und wenn schon das Adjektiv, dann wenigstens richtig: bayes'scher Filter (vgl. Bayes'sches Netz). Schließlich ist die Verwendung des Neutrums für Filter ja wohl auch nur was für Leute, für die auch Service (Dienstleistung, nicht Geschirr - da ist das nämlich korrekt) im Neutrum stehen muss. Na ja. Vicki Reitta 23:40, 9. Feb. 2010 (CET)

Ich habs mal verschoben, aber den nicht erforderlichen Apostroph weggelassen. Vgl. auch Wikipedia:Namenskonventionen#Von Personennamen abgeleitete Adjektive und Eigennamen. Wenn die Bezeichnung Bayes-Filter häufiger ist, dann verschiebe es ruhig dahin.-- Bergi 13:31, 24. Dez. 2010 (CET)
gudn tach!
Fil|ter, der, fachspr. meist: das; [...] (duden - duw). vgl. auch Kalman-Filter.
ich verschiebe zurueck. gegen Bayes-Filter haette ich uebrigens nichts. -- seth 16:19, 1. Jan. 2011 (CET)

Stil und Inhalt

Der bayessche Filter (auch als bayesischer Filter bezeichnet), sie rechnen mit bedingten Wahrscheinlichkeiten: Von charakteristischen Wörtern in einer E-Mail (Ereignis) wird auf die Eigenschaft, Spam (Email) zu sein (Ursache), geschlossen.

Sorry, aber mit diesem Einleitungssatz kann ich echt nichts anfangen. Auf was bezieht sich das "sie rechnen"? Für eine Einleitung ist der Satz IMHO viel zu kompliziert geschrieben. Was spricht gegen die bisherige Einleitung?

Das entscheidende Risiko besteht für den User, dass ihm eine reguläre Mail durch die Lappen geht, also die falsch-positive Fälle. Für einen Privatmann, der mit Whitelists arbeitet, kann dies noch hinnehmbar sein, jedoch riskieren Firmen demgegenüber, dass wichtige Anfragen von Neukunden verlorengehen.

Durch die Lappen geht? Für eine Enzyklopädie klingt das aber ein bischen salopp, oder?

Was hat diese Passage mit dem Bayesschen Filter zu tun? Soll begründet werden, warum Bayessche Filter anderen Spamfiltern vorzuziehen sind?

Das Filtern auf statistischen Grundlagen ist im Grunde eine Art Text-Klassifikation. Eine Anzahl von Forschern der angewandten Linguistik, die sich mit dem "Lernen von Maschinen" befassen, haben sich bereits diesem Problem gewidmet. In jüngerer Zeit versuchen Spammer durch das Einfügen zufälliger Zitate aus der Weltliteratur (evtl. in weißer Schrift oder als Meta-Tag.)

Forscher haben sich mit diesem Problem beschäftigt. Aussage? Inwiefern ist dies von Bedeutung? Und wie passt das zum anschließenden Satz? Dessen Sinn ich im Übrigen auch nicht so ganz verstehe.

Ich hatte das schonmal geändert, was jedoch ohne Begründung rückgängig gemacht wurde. Auf einen Edit-War hab ich keine Lust, könnte sich jemand anders das mal ansehen? Danke. Grüße, --Ich hab hunga 14:04, 3. Okt 2004 (CEST)

2.

statistische Methoden des englischen Mathematikers Thomas Bayes (ca. 1702 - 1761), um Texte in verschiedene Kategorien einzuteilen. Er findet Anwendung in der Bekämpfung unerwünschter E-Mails, die auch als Spam bezeichnet werden.

Diese Version beschreibt nur, und erklärt nix, v.a. die Personalisierung "Thomas Bayes (ca. 1702..." ist IMHO entbehrlich.--^°^

Artikel deutlich schlechter

Die Erwähnung von Thomas Bayes erklärt, woher der Filter seinen Namen hat. Die neue Einleitung ist im ersten Satz grammatikalisch falsch (erst Singular dann Plural). Den zweiten Satz versteht man etwa beim dritten Durchlesen, er ist also nur etwas für leidensbereite Studenten ... Der Ausdruck Lappen gehört mehr ins satirische und warum der Privatmann Whitelists und nicht Blacklists verwendet, verstehe ich auch nicht. Den letzten Absatz empfinde ich als reines Gelaber. Fazit: der Artikel ist meines Erachtens deutlich schlechter und unverständlicher geworden.--Koala 02:11, 4. Okt 2004 (CEST)

Beinahe hätte ich es übersehen: der Bayessche Filter arbeitet nicht mit Whitelists bzw. Blacklists, da er die Emails nach dem Inhalt ihres Textes und nicht nach dem Absender sortiert. Der Satz gehört in einen anderen Artikel, jedenfalls nicht hierhin. Da war ein echter Experte am Werk ... --Koala 11:32, 4. Okt 2004 (CEST)


Ein Edit-War sollte hier vermieden werden, die Version von Ich hab Hunga wurde durch Nerd deutlich verschlimmbessert. Jetzt sind es keine vollständigen Sätze mehr und der Lesefluss geht verloren. Das Lemma des vorherigen Artikels war um Längen besser. Aus meiner Sicht ist es zur Vermeidung eines Edit-War nötig, dass Nerd ein Revert akzeptiert und den Artikel sinnvoll ergänzt, wobei ergänzen nun mal nicht komplett umschreiben bedeutet. --Friese 19:06, 13. Okt 2004 (CEST)

Der Edit-War ist ja schon in Gange. Ich fände es gut, wenn sich Nerd mal zu meinen Einwänden äußert. Das hin- und herändern des Artikels bringt ja keine Klärung. (Zumindest wird Thomas Bayes jetzt wieder erwähnt.) -- Viele Grüße Koala 00:11, 16. Okt 2004 (CEST)


Dieses statistisches Filtern, zuerst vorgeschlagen 1998 am AAAI-98 Workshop on Learning for Text Categorization

Von wem wurde der Vorschlag gemacht? In welchem Paper? Bitte ordentlich zitieren! Autor, Titel, Konferenz oder Journal und Jahr sind echte Minimalanforderungen an ein wissenschaftliches Zitat. Gruesse, Matthias

Struktur erl.

Der Bayes-Filter ist zuerst mal eine mathematische Methode. Ich finde der mathematische Teil sollte von der Anwendung als email-Filter getrennt werden. -- 790 07:58, 19. Jun 2005 (CEST)

Vor allem finden Bayes-Filter nicht nur - wie der Artikel glauben macht - im Rahmen der Spam-Abwehr Anwendung, sondern beispielsweise auch in der Robotik uva.

Ich schließe mich meinen Vorrednern an: Der Bayes-Filter darf nicht mit Spamfilter gleichgesetzt werden! --89.15.57.79 23:29, 6. Feb. 2008 (CET)

Ich bin auch der Meinung und habe einen Überarbeiten Baustein eingefügt! --Flamingi 12:57, 13. Sep. 2010 (CEST)

Ich sehe vor allem, dass sich dieser Artikel mit dem Artikel Bayes-Klassifikator überschneidet. Die Spam-Geschichte sollte nicht in beiden Artikeln stehen. Wenn es sich um 2 verschiedene Dinge handelt, sollte es separiert sein. --82.83.102.36 12:43, 25. Jan. 2011 (CET)

Habe den Spamanteil hierher verschoben. Das ist nur ein Beispiel für einen Bayes-Klassifikator.
Dieser Abschnitt kann archiviert werden. biggerj1 (Diskussion) 08:22, 1. Okt. 2021 (CEST)

Anwendungsgebiet "Spionage-Software"

Lt. eines Artikels des Spiegel (http://www.spiegel.de/netzwelt/technologie/0,1518,380880,00.html bzw. http://www.heise.de/tr/) baut die Analyse-Software zu Mustererkennung in unstrukturierten Daten (E-Mails, Telefonate etc.) der britischen Firma Aungate (eine Tochterfirma der Autonomy) mit ihrem Herzstück der Dynamic Reasoning Engine (DRE) auf Verknüpfung von Ereigniswahrscheinlichkeiten auf. Daher wird die Software angeblich von zahlreichen Konzernen zur Vermeidung von Industriespionage und durch Geheimdienste zur Aufspürung von Terrorzellen genutzt.

Vielleicht kann/will jmd., der in der Materie eher zu Hause ist als ich, das irgendwie einarbeiten...

Bayes- und Kalman-Filter

Auf der Suche nach einer verständlichen Herleitung des Kalman-Filters als Spezialfall des Bayes-Filters habe ich mir den Artikel hier durchgelesen, leider aber dazu nichts gefunden. Die englische Seite erwähnt den Zusammenhang knapp ([1]). Oder ist der Unterschied "Bayes" und "Bayessches"? In der englischen Wiki existieren nämlich ebenfalls diese beiden Artikelnamen, wobei der eine (Bayes) dann eine Weiterleitung auf oben verlinkten Artikel ist. Könnte da mal jemand Licht ins Dunkel bringen, etwa mit einem Satz wie "hier geht es um das Bayessche Filter zur Klassifikation, nicht zu verwechseln mit dem Bayes-Filter zur rekursiven Zustandsschätzung ..."?

-- 78.53.220.23 18:56, 10. Jul. 2011 (CEST)

Gute Frage! Die Antwort ist: der Bayesscher Spamfilter ist ein Bayes-Klassifikator (mit diskretem Output). Der Kalman-Filter ist ein Bayes-Filter im eigentlichen Sinn und wird zur (kontinuierlichen) Zustandsschätzung benutzt. biggerj1 (Diskussion) 18:58, 28. Sep. 2021 (CEST)

Mathematische Grundlagen

Guten Tag,

(Entschuldigung für mein Deutch, ich bin französich). Die Formeln von der deutschen Fassung sind ... falsch. Siehe die englische Seite, oder die viele Quellen. --MathsPoetry (Diskussion) 08:00, 1. Mär. 2012 (CET)

Zu Lingustiklastig

Der Kalman-Filter, der Particle-Filter und der Bayessche Histogram Filter sind einzelne Implementierungen des Bayesschen Filters. In diesem Artikel ist allerdings keine Rede davon. Der Artikel ist zu sprachverarbeitungslastig. Kein Wunder, dass der Artikel in der englischsprachigen Wikipedia auf: http://en.wikipedia.org/wiki/Bayesian_spam_filtering verweist statt auf http://en.wikipedia.org/wiki/Bayesian_filtering verweist. (nicht signierter Beitrag von 87.168.41.113 (Diskussion) 17:45, 30. Nov. 2014 (CET))

Willst Du ernsthaft bei einem so kurzen Artikel kritisieren, dass darin zu viel Sprachverarbeitung besprochen wird? ... (nicht signierter Beitrag von 91.40.91.221 (Diskussion) 18:05, 30. Nov. 2014 (CET))

Lemma

Richtig muss es "Bayes'scher Filter" heißen, analog zu Hertz'scher Dipol und Gauß'sche Glockenkurve. Siehe Apostroph: "... zwingend den Genitiv von Eigennamen verdeutlicht, die im Nominativ bereits auf einen s-Laut (geschrieben: -s, -ss, -ß, -tz, -z, -x, -ce) enden".--Mideal (Diskussion) 13:48, 17. Mär. 2015 (CET)

Wo sind die Diskussionen zur aktuellen Verschiebung?

Es gibt einen (inzwischen zurückgezogenen) Verschiebewunsch, ohne irgendwelche Hinweise auf eine Diskussion hier. Dann wurde der Filter auf ein für mich völlig absurdes Neutrumlemma verschoben, wo wurde das aktuell diskutiert? Es heißt afaik noch immer der Filter, nicht das Filter. Es drängt sich der Eindruck auf, hier wird ohne Diskussion, aus dem Bauch eineiger weniger heraus, wild hin- und hergeschoben. Die veralteten Diskussionen ober rechtfertigen jedenfalls nichts. Grüße vom Sänger ♫ (Reden) 12:15, 22. Nov. 2015 (CET)

Wenn es um Mathematik geht, ist es das Filter. Wenn es um Kaffee geht, ist es der Filter. --JvA43 (Diskussion) 12:19, 22. Nov. 2015 (CET)
Mag ja sein, aber warum hast Du ohne jegliche Diskussion hier einfach zwei Verschiebeanträge (den anderen beim zugehörigen Gleichgewicht) gestellt, bei dem hier sogar noch behauptet, es gäbe eine Diskussion, was klar falsch ist, oder wo war sie? Und komm nicht mit uraltem Mist von vor etlichen Jahren, das zählt nicht. Grüße vom Sänger ♫ (Reden) 12:23, 22. Nov. 2015 (CET)
Wieso ist das klar falsch, Mist und zählt nicht? --JvA43 (Diskussion) 12:29, 22. Nov. 2015 (CET)
Es zählt nicht, weil es veraltet ist. Ob's richtig oder falsch ist, weiß ich nicht, es wurde jedenfalls nicht als Grundlage für Verschiebungen damals genommen, also war's wohl falsch. Oder auch nicht. Aktuell ist jedenfalls überhaupt nichts gesagt worden, also gab's auch keine Veranlassung für irgendwelche persönlich gewünschten Verschiebungen. Grüße vom Sänger ♫ (Reden) 12:34, 22. Nov. 2015 (CET)
PS: Der letzte unwidersprochene Beitrag möchte übrigens der Filter haben, und Apostroph. Grüße vom Sänger ♫ (Reden) 12:36, 22. Nov. 2015 (CET)
So schnell veraltet die deutsche Sprache nicht. Wenn du, nach deiner Aussage, nicht weißt ob es richtig ist, warum beteiligst du dich dann an der Diskussion? --JvA43 (Diskussion) 12:38, 22. Nov. 2015 (CET)
Ich habe sie angestoßen, eine Beteiligung an etwas nicht vorhandenem ist nicht möglich. Es gab bislang keine Diskussionen, ich habe die Verschiebewünsche auf der BEO und diese daher gesehen, ging aber bisher unbesehen davon aus, es gäbe eine Diskussion, schließlich wart ihr ja auch zu zweit. Nach Deinem umstrittenen Rückzug dort habe ich dann mal hingesehen, und musste feststellen, das es weder hier noch beim Gleichgewicht eine Diskussion gab, aber hier trotzdem gegen den letzten Diskussionsbeitrag und mein Sprachempfinden einfach so verschoben worden ist, ohne Diskussion, weil mensch es kann. Zwar nicht die im Antrag gewünschte Verschiebung, aber trotzdem ein nirgends besprochener Aktionismus. da habe ich halt den Absatz hier begonnen, um ggf. wenigstens im Nachhinein Gründe zu erfahren. Grüße vom Sänger ♫ (Reden) 12:53, 22. Nov. 2015 (CET)
Wenn du etwas als "klar falsch, Mist und zählt nicht" bezeichnest, dann ist es offenbar vorhanden :) --JvA43 (Diskussion) 13:01, 22. Nov. 2015 (CET)
Ja, irgendwo in der Historie mal angesprochen und offensichtlich, da nix passiert ist, verworfenes gab es.
  • Klar falsch war Deine Behauptung laut Diskussionsseite des Artikels -- JvA43 (Diskussion) 20:35, 19. Nov. 2015 (CET) im Verschiebewusch, weil das hier eben nicht gerade diskutiert wurde.
  • Mist geht nur zusammen mit alter, weil es eben lange überholte olle Kamellen waren, alter Mist eben.
  • Und weil sie eben lange überholt waren, zählen sie nicht als aktuelle Diskussion.
Also noch mal die Frage: Wo ist die aktuelle Diskussion, die Dich veranlasst hat, die beiden Verschiebeanträge zu stellen? Grüße vom Sänger ♫ (Reden) 13:10, 22. Nov. 2015 (CET)
(3M) @Sänger, JvA43: Es ist im mathematischen/ingenieurswissenschaftlichen Bereich definitiv das Filter, auch in diesem Kontext. Quelle: Jedes Fach-/Lehrbuch zum Thema Filtertheorie/Nachrichtentechnik/Signalverarbeitung. Verschiebung also völlig gerechtfertigt und sogar geboten, da das alte Lemma schlicht falsch ist. --CaZeRillo (Diskussion) 21:07, 24. Nov. 2015 (CET)
Zufällig gesehen. Gucken wir in den Duden: Filter, der oder das. Hier wegen des Mathematikbezugs das Filter. Gruß --Ama von und zu (Diskussion) 22:24, 24. Okt. 2016 (CEST)

Keine Ahnung, wo ihr diese "Informationen" her habt, aber Filter (Mathematik) verwendet "der Filter". Ich habe es daher auf das übliche "der Filter" geändert, alles andere hört sich doch seltsam an. --TheRandomIP (Diskussion) 14:02, 21. Dez. 2017 (CET)

Link bei Weblinks

Hallo! Bei den Weblinks ist eine Seite mit einem Beispiel verlinkt. Leider sind die dort aus dem Latex erzeugten Graphiken sehr schwer zu verstehen. Die Zeilenumbrüche passen gar nicht, so dass es kaum klar wird, wie das berechnet wird. Der obere Teil geht ja noch, aber unterhalb von "Ein Beispiel" sind die ersten beiden Latex-Graphiken einfach nur ein Durcheinander. Ich hab mir das im Firefox angeguckt und in Chromium, beide zeigen das selbe Chaos an. Im Internet-Archiv ist nur eine Version vom Januar 2021 zu finden und die zeigt ebenfalls dieses Durcheinander.

Gibt es da keine bessere Seite? --Wurgl (Diskussion) 21:30, 7. Jul. 2021 (CEST)