Benutzer:AstraJ99/Markow-Spamfilter

aus Wikipedia, der freien Enzyklopädie

Der Markow-Spamfilter stellt eine Erweiterung des Bayes-Spamfilters dar.

Grundlegende Funktionsweise

Anstelle von einzelnen Wörtern betrachtet der Markow-Spamfilter Sequenzen von Wörtern (im Folgenden Tokens). Dazu wird über den zu untersuchenden Text ein Fenster einer bestimmten Länge gelegt und anschließend über den gesamten Text iteriert. Abhängig von der Länge des Fensters erhält die untersuchte Sequenz eine Gewichtung. Somit haben längere Sequenzen einen höheren Einfluss auf die Spamwahrscheinlichkeit des gesamten Textes im Vergleich zu kürzeren Sequenzen.

Da ein Spam- und ein Ham-Korpus notwendig sind, müssen E-Mails anfangs jeweils manuell als Spam oder als erwünscht klassifiziert werden. Diese Korpora werden bei weiterer Nutzung erweitert und somit wird der Spamfilter immer genauer, klassifiziert E-Mails also immer besser.

Mathematischer Hintergrund

Sequenzen

Zunächst muss eine Menge von Separatortokens festgelegt werden, beispielsweise . Hier werden die Tokens also durch Leerzeichen getrennt. Nun kann der gesamte Text (in diesem Fall die E-Mail) in einzelne Tokens unterteilt werden.

Es gelten folgende Begriffsdefinitionen[1]:

  • Eine -Sequenz ist eine Kette von aufeinanderfolgenden Tokens , jeweils separiert durch einen Token . Gelte zur Veranschaulichung , dann wäre „X Y Z“ eine -Sequenz, „X Y ? Z“ hingegen keine Sequenz.
  • Ein -Term ist eine Kette von Tokens, wobei Tokens ignoriert werden. „X Y ? Z“ wäre also, ebenso wie „X Y Z“, ein -Term.

Die -Sequenz enthält Teilterme, bei „X Y Z“ also „X“, „Y“, „Z“, „X Y“, „X Z“ und „Y Z“.

Die Anzahl der -Terme einer -Sequenz lässt sich durch für bestimmen.

Gewichtung

Nun muss den Sequenzen der Länge eine Gewichtung zugewiesen werden. Dabei sollte die Gewichtung einer -Sequenz größer als die Summe der Gewichtungen aller Teilterme sein [2]:

Das Exponential Superincreasing Model (ESM) hat sich insbesondere mit der Fensterlänge 5 als genaue Gewichtungsmethode erwiesen [3], da es in dieser Konfiguration bei der Klassifizierung von Texten verhältnismäßig wenige Fehler aufweist [4].

Es ergibt sich folgende Formel: .[5] [6] [7]

Damit ergeben sich für Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle 1\le n\le5} folgende Gewichtungen:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle n} Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle w(n)}
1 1
2 4
3 16
4 64
5 256

Weitere Definitionen und Annahmen

Im Folgenden sei definiert:

  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle N_{SeqSpam} \sim} Anzahl der Vorkommen von der betrachteten Sequenz im Spam-Korpus
  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle N_{SeqHam} \sim} Anzahl der Vorkommen von der betrachteten Sequenz im Ham-Korpus
  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle N_{Seq} \sim} Anzahl der Vorkommen von der betrachteten Sequenz in beiden Korpora, definiert durch Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle N_{Seq}=N_{SeqSpam}+N_{SeqHam}}
  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle L_{Fenster} \sim} verwendete Fensterlänge bzw. Länge der Sequenz in Tokens
  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle L_{FensterMax} \sim} maximale Fensterlänge (hier Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle 5} )

Die folgenden Konstanten wurden experimentell ermittelt[8] und sorgen dafür, dass bisher selten oder nicht aufgetretene Sequenzen neutral bewertet werden können:

  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle c_1=0,5}
  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle c_2=16}
  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle c_3=1}

Für die a-priori-Spamwahrscheinlichkeit gilt Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(Spam)=0,5} und damit auch Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(Spam)=P(Ham)} . Diese Annahme, auch als „Unvoreingenommenheit“ bezeichnet, hat sich bewährt, da so eigentlich erwünschte, aber als Spam klassifizierte E-Mails vermieden werden[9].

Formeln für die Spamwahrscheinlichkeiten

Bei Sequenzen

Die Formel zur Berechnung der Spamwahrscheinlichkeit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(Spam|Sequenz)} für die betrachtete Sequenz lautet[8]:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(Spam|Sequenz)=c_1+\frac{(N_{SeqSpam}-N_{SeqHam})*w(L_{Fenster})}{c_2*(N_{Seq}*w(L_{FensterMax})+c_3)}}

Für die Hamwahrscheinlichkeit gilt:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(Ham|Sequenz)=1-P(Spam|Sequenz)}

Bei gesamten Texten (Emails)

Die Spamwahrscheinlichkeit für die gesamte betrachtete E-Mail lässt sich wie folgt berechnen[10]:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(Spam|E-Mail)=P(Spam)*\prod_{i=1}^{N_{Seq}} P(Spam|Sequenz_i)}

Analog gilt für die Hamwahrscheinlichkeit:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(Ham|E-Mail)=P(Ham)*\prod_{i=1}^{N_{Seq}} P(Ham|Sequenz_i)}

Bewertung des Ergebnisses

Nun gibt es verschiedene Möglichkeiten, das Ergebnis zu bewerten.

Eine Möglichkeit ist ein Quotient aus Spam- und Hamwahrscheinlichkeit der E-Mail[9]:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Q(E-Mail)=\frac{P(Spam|E-Mail)}{P(Ham|E-Mail)}}

Mit einem Prädikat wie Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \forall x(Email(x) \land ((Q(x))^2*100>b) \Rightarrow Spam(x))} lässt sich dann nach eigenen Bedürfnissen, zum Beispiel Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle b=140} , eine E-Mail als Spam oder Ham klassifizieren.

Beispiel zum besseren Verständnis

Für das folgende Beispiel werden die Konstanten wie im vorherigen Abschnitt angegeben genutzt.

Gegeben sei folgende E-Mail Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle bspEmail=} "hi ich wollen kaufen Porsche Cayman S was letzte Preis ??"

Durch Unterteilung der E-Mail in Tokens mit Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle S=\lbrace\text{˽}\rbrace} ergibt sich folgende Darstellung:

Position 1 2 3 4 5 6 7 8 9 10 11
Wert hi ich wollen kaufen Porsche Cayman S was letzte Preis ??

Legt man nun das fünf Tokens umfassende Fenster über die ersten fünf Tokens der E-Mail und schiebt es über die kompletten E-Mail, ergeben sich folgende Sequenzen mit jeweiligen Fensterlängen:

Sequenz Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Sequenz_1} Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Sequenz_2} Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Sequenz_3}
Wert hi ich wollen kaufen Porsche Cayman S was letzte Preis ??
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle L_{Fenster}} 5 5 1

Nehme man nun an, Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Sequenz_1} sei 100 Mal in Spam-Emails vorgekommen und 0 Mal in Ham, Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Sequenz_2} 30 Mal in Spam und 0 Mal in Ham sowie Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Sequenz_3} 500 Mal in Spam und 0 Mal in Ham.

Dann ergeben sich folgende Häufigkeiten der Sequenzen in Spam- und Ham-Emails:

Sequenz Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Sequenz_1} Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Sequenz_2} Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Sequenz_3}
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle N_{SeqSpam}} 100 30 500
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle N_{SeqHam}} 0 0 0

Dann ergeben sich folgende Spam- und Hamwahrscheinlichkeiten für die einzelnen Sequenzen:

  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(Spam|Sequenz_1)=c_1+\frac{(N_{Sequenz_1Spam}-N_{Sequenz_1Ham})*w(L_{FensterSequenz_1})}{c_2*(N_{Sequenz_1}*w(L_{FensterMax})+c_3)}=0,5+\frac{(100-0)*256}{16*(100*256+1)}=0,562498}


  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(Ham|Sequenz_1)=1-P(Spam|Sequenz_1)=1-0,562498=0,437502}


  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(Spam|Sequenz_2)=c_1+\frac{(N_{Sequenz_2Spam}-N_{Sequenz_2Ham})*w(L_{FensterSequenz_2})}{c_2*(N_{Sequenz_2}*w(L_{FensterMax})+c_3)}=0,5+\frac{(30-0)*256}{16*(30*256+1)}=0,562492}


  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(Ham|Sequenz_2)=1-P(Spam|Sequenz_2)=1-0,562492=0,437508}


  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(Spam|Sequenz_3)=c_1+\frac{(N_{Sequenz_3Spam}-N_{Sequenz_3Ham})*w(L_{FensterSequenz_3})}{c_2*(N_{Sequenz_3}*w(L_{FensterMax})+c_3)}=0,5+\frac{(500-0)*1}{16*(500*256+1)}=0,500244}


  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(Ham|Sequenz_3)=1-P(Spam|Sequenz_3)=1-0,500244=0,499756}


Damit lassen sich nun Spam- und Hamwahrscheinlichkeit der gesamten E-Mail berechnen:

  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(Spam|bspEmail)=P(Spam)*P(Spam|Sequenz_1)*P(Spam|Sequenz_2)*P(Spam|Sequenz_3)=0,5*0,562498*0,562492*0,500244=0,079139}


  • Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle P(Ham|bspEmail)=P(Ham)*P(Ham|Sequenz_1)*P(Ham|Sequenz_2)*P(Ham|Sequenz_3)=0,5*0,437502*0,437508*0,499756=0,047829}


Der Quotient aus Spam- und Hamwahrscheinlichkeit der gesamten E-Mail Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Q(bspEmail)=\frac{P(Spam|bspEmail)}{P(Ham|bspEmail)}} beträgt Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \frac{0,079139}{0,047829}=1,654605} .

Um nun das Prädikat bestimmen zu können, wird der Quotient vorbereitet:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (Q(bspEmail))^2*100=1,654605^2*100 \approx 273}

Wendet man das Prädikat nun an, zeigt sich, dass es sich bei dieser E-Mail um Spam handelt:

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle Email(bspEmail) \land ((Q(bspEmail))^2*100>b) \Rightarrow Spam(bspEmail)}

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle true \land (273>140) \Rightarrow Spam(bspEmail)}

Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle true \land true \Rightarrow Spam(bspEmail)} Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \curvearrowright} bspEmail ist eine Spam-Email.

Vorteil gegenüber dem "reinem" Bayes-Spamfilter

Da die untersuchten Sequenzen abhängig von ihrer Länge eine Gewichtung erhalten, wird ein Problem des Bayes-Spamfilters kompensiert: die Annahme, dass die einzelnen Tokens eines Textes stochastisch unabhängig sind. In der Regel ist es Fakt, dass Tokens nicht zufällig, sondern in einem Kontext aneinandergereiht werden.

Je nach dem Verfahren, welches man zum Aufteilen eines Textes in Tokens verwendet, kann so auch die Grammatik eines zu untersuchenden Textes die Spamwahrscheinlichkeit beeinflussen.

Ignoriert man beispielsweise keine Satzzeichen, sondern sieht diese als Bestandteil eines Tokens (zum Beispiel „Preis?“) oder als eigene Tokens (zum Beispiel „????“), ergibt sich für die Spamwahrscheinlichkeit ein Unterschied.

Beispielsweise sollte der Sequenz „was ist letzte Preis ????“ eine höhere Spamwahrscheinlichkeit als „Was wäre der letzte Preis?“ zugemessen werden.

Einzelnachweise

  1. Shalendra Chhabra, William S. Yerazunis, Christian Siefkes: Spam Filtering using a Markov Random Field Model with Variable Weighting Schemas, S. 2, abgerufen am 27. November 2019 (PDF; 78,3 KB, englisch)
  2. Shalendra Chhabra, William S. Yerazunis, Christian Siefkes: Spam Filtering using a Markov Random Field Model with Variable Weighting Schemas, S. 2 f., abgerufen am 27. November 2019 (PDF; 78,3 KB, englisch)
  3. Shalendra Chhabra, William S. Yerazunis, Christian Siefkes: Spam Filtering using a Markov Random Field Model with Variable Weighting Schemas, S. 4, Table 4. Accuracy (%) per 5000 test messages With Varying Window Sizes, abgerufen am 27. November 2019 (PDF; 78,3 KB, englisch)
  4. Shalendra Chhabra, William S. Yerazunis, Christian Siefkes: Spam Filtering using a Markov Random Field Model with Variable Weighting Schemas, S. 4, Figure 1. Errors in the Tested Models with Variable Neighborhood Windows, abgerufen am 27. November 2019 (PDF; 78,3 KB, englisch)
  5. Shalendra Chhabra, William S. Yerazunis, Christian Siefkes: Spam Filtering using a Markov Random Field Model with Variable Weighting Schemas, S. 3, Table 2. A Summary of Tested Models with their Weighting Sequences, abgerufen am 27. November 2019 (PDF; 78,3 KB, englisch)
  6. Shalendra Chhabra, William S. Yerazunis, Christian Siefkes: Spam Filtering using a Markov Random Field Model with Variable Weighting Schemas, S. 4, Table 3. Example Subphrases and Relative Weights with the Models Tested, abgerufen am 27. November 2019 (PDF; 78,3 KB, englisch)
  7. William S. Yerazunis: The Spam-Filtering Accuracy Plateau at 99.9% Accuracy and How to Get Past It., 18. Januar 2004, abgerufen am 27. November 2019 (englisch)
  8. a b Shalendra Chhabra, William S. Yerazunis, Christian Siefkes: Spam Filtering using a Markov Random Field Model with Variable Weighting Schemas, S. 3, abgerufen am 27. November 2019 (PDF; 78,3 KB, englisch)
  9. a b S. Ritterbusch, Arbeitsgruppe: Numerische Simulation, Optimierung und Hochleistungsrechnen: Die Mathematik des Bayes Spamfilters - S. Ritterbusch, Website der Fakultät für Mathematik des Karlsruher Institut für Technologie (KIT), abgerufen am 20. November 2019
  10. Tu Bao Ho, David Cheung, Huan Liu: Advances in Knowledge Discovery and Data Mining. Springer Verlag, Berlin/Heidelberg 2005, ISBN 978-3-540-26076-9, S. 651