Normalisierung (Text)

aus Wikipedia, der freien Enzyklopädie

Unter Normalisierung von Text versteht man das Überführen in eine andere Form, bei der nur die für den gewünschten Kontext relevanten Informationen beibehalten werden. Je nach Anwendung kann die Normalisierung ganz unterschiedlich ablaufen.

Beispiele

Einige Zeichensätze, insbesondere Unicode, ermöglichen die Darstellung eines Zeichens auf unterschiedliche Arten. In Anwendungen ist meist aber nur eine der möglichen Formen erwünscht, sodass die Normalisierung den Text in diese Form überführen muss. Speziell für Unicode gibt es vier Möglichkeiten für diese Normalisierung.

Bei der Erstellung eines Suchindex muss die Normalisierung je nach Erwartung des Benutzers unterschiedliche Anforderungen erfüllen. Einige Möglichkeiten sind:

  • Satzzeichen können entfernt werden.
  • Zeichen mit Akzenten können durch ihren Grundbuchstaben ersetzt werden. Ebenso kann ä durch ae und ß durch ss ersetzt werden.
  • Alle Zeichen können in Großbuchstaben umgewandelt werden.
  • Zeichen aus anderen Alphabeten können transliteriert werden.

Einige dieser Anforderungen können mit Hilfe des Unicode Collation Algorithm erfüllt werden.

Um Spoofing zu verhindern, also zum Beispiel die Möglichkeit, dass sich in einem Internetforum zwei Benutzer anmelden können, deren Namen identisch aussehen, müssen bei der Normalisierung visuell ähnliche Zeichen durch dasselbe Zeichen ersetzt werden. Es könnte also sowohl die Ziffer 1, als auch der Kleinbuchstabe l durch den Großbuchstaben I ersetzt werden.

Für die Sprachsynthese müssen Zahlen, Sonderzeichen und Abkürzungen – teilweise abhängig vom Kontext – aufgelöst werden, um korrekt vorgelesen zu werden.

Weblinks