Benutzer:Limdul/Test

aus Wikipedia, der freien Enzyklopädie

Der bayessche Filter (auch als bayesischer Filter bezeichnet) rechnet mit bedingten Wahrscheinlichkeiten: Von charakteristischen Wörtern in einer E-Mail (Ereignis) wird auf die Eigenschaft, Spam (E-Mail) zu sein (Ursache), geschlossen; der Name leitet sich vom englischen Mathematiker Thomas Bayes (etwa 1702 - 1761) ab.

Funktionsweise

Bayes'sche Filter sind "lernend" (teilweise auch "selbstlernend") und setzen auf Worthäufigkeiten in bereits vom Benutzer erhaltenen und klassifizierten E-Mails. Ein bayesscher Filter wird durch seinen Benutzer trainiert, indem dieser seine E-Mails in erwünschte (Ham) und unerwünschte (Spam) einteilt. Das Verfahren beruht auf dem Satz von Bayes. Kommt das Wort Sex in 5% aller Spam E-Mails und in 0.1% aller Ham E-Mails vor und sind im Schnitt 10% aller E-Mails Spam, dann gilt: Enthält eine neue E-Mail das Wort Sex, so ist sie mit Wahrscheinlichkeit von ca. 85% Spam. Nun wird dies für alle Wörter, die in der E-Mail vorkommen gemacht. Aus den Wahrscheinlichkeiten wird dann die Endwahrscheinlichkeit für für berechnet. Dafür gibt es mehrere Vorgehensweisen. TODO

Vorteile

Die Trefferquote des Filters ist, vernüftiges Training vorausgesetzt, sehr gut. TODO: Bild Allerdings ist es anzuraten, den Filter mit den eignen E-Mails zu trainieren und nicht mit irgendwelchen E-Mails aus dem Netz. Dadurch ist der Filter auf den eigenen E-Mail Verkehr trainiert und dort besonders wirksam. Dies erschwert es auch Spammern den Filter zum umgehen, da sie ihre E-Mails so aufbauen müssten, wie eine normale E-Mail des Benutzer. Da jedoch zwei verschiedene Benutzer unterschiedlichen E-Mail Verkehr haben, ist dies nicht so einfach möglich.

Nachteile

Ohne ein Vernünftiges Training ist der Filter nicht nur wirkungslos, sondern im schlimmsten Fall sogar schädlich. Ist er zu schlecht trainiert, so erzeugt er zuviele False Positives.





Dieses statistisches Filtern, zuerst vorgeschlagen 1998 am AAAI-98 Workshop on Learning for Text Categorization und weiter bekanntgemacht durch einen einflussreichen Artikel von Paul Graham, soll vorhersagen, ob eine E-Mail Spam ist oder nicht. Der Filter wird von vielen Antispam-Programmen benutzt und ist beispielsweise im E-Mail-Client Mozilla Thunderbird implementiert.


Statistische Gegenmaßnahmen basieren auf Wahrscheinlichkeits-Methoden, abgeleitet vom Bayes-Theorem.

Die Versender von Spam sehen aber auch nicht tatenlos zu: Lange sinnlose Texte sollen die Wahrscheinlichkeitsrechnung des Filters überlisten. Die Werbebotschaften werden in Bildern untergebracht, damit sie der Filter nicht findet.

Das entscheidende Risiko besteht für den User, dass ihm eine reguläre Mail durch die Lappen geht, also die falsch-positiven Fälle. Für einen Privatmann, der zusätzlich mit Whitelists arbeitet, kann dies noch hinnehmbar sein, jedoch riskieren Firmen demgegenüber, dass wichtige Anfragen von Neukunden verlorengehen.

Das Filtern auf statistischen Grundlagen ist im Grunde eine Art Text-Klassifikation. Eine Anzahl von Forschern der angewandten Linguistik, die sich mit dem "Lernen von Maschinen" befassen, haben sich bereits diesem Problem gewidmet. In jüngerer Zeit versuchen Spammer durch das Einfügen zufälliger Zitate aus der Weltliteratur (evtl. in weißer Schrift oder als Meta-Tag unlesbar) die statistischen Maßnahmen auszutricksen.

Siehe auch: bayesscher Wahrscheinlichkeitsbegriff

Programme mit bayesschem Filter

Weblinks