Intelligent Word Recognition

aus Wikipedia, der freien Enzyklopädie

Intelligent Word Recognition (IWR) bezeichnet einen Seitenzweig der OCR-Technik (Texterkennung über Mustererkennungsverfahren). Sie soll Schriften erkennen, die mit herkömmlichen OCR-Verfahren nicht übersetzbar sind, wie Fließhandschriften, Unterschriften, arabische Schrift etc.

Herkömmliche OCR übersetzt Einzelzeichen, die der OCR-Engine über Bildvorverarbeitungsschritte geliefert werden. Zusammenhängende Schriften lassen sich jedoch nicht zuverlässig in Einzelteile als mögliche Buchstabenkandidaten zerlegen. IWR kombiniert mehrere Methoden und gleicht die Ergebnisse mit einem Wörterbuch ab.

Analyse des gesamten Wortes: Die Buchstaben, aus denen sich ein Wort zusammensetzt, geben einem Wort einen charakteristischen Umriss. In Klassifikatoren abgelegte Wörterbücher liefern mögliche Wortkandidaten.

Zerlegung von möglichen Buchstaben oder Silben: Wörter lassen sich an charakteristischen Stellen zerlegen. Auch hierfür liefern Klassifikatoren mögliche Silbenkandidaten.

Wörterbuchabgleich: Die Kombination der Ergebnisse durch charakteristische Umrisse und Wortteile minimieren die Anzahl der Kandidaten im Hauptwörterbuch.

Nutzbarkeit und Grenzen der Technik

Die Nutzbarkeit dieser Technik beschränkt sich auf eindeutig definierte Feldbereiche. Sie wurde zum Beispiel von einem französischen Hersteller für Texterkennungssysteme für Scheck-Lesesysteme entwickelt, deren Layout ein Feld für den ausgeschriebenen Zahlungsbetrag enthält, das einen Fließtext ermöglicht.

Für dieses Feld steht eine eingeschränkte Wortliste zu Verfügung, so dass umfassend trainierte Klassifikatoren zuverlässige Ergebnisse liefern können.

Die Grenzen von IWR sind durch den Umstand gegeben, dass Handschriften stark variieren. Und je größer das zugrunde liegende Wörterbuch ist, desto größer wird die Wahrscheinlichkeit, dass keine eindeutigen Ergebnisse mehr lieferbar sind.

Siehe auch