PAGE (XML)

aus Wikipedia, der freien Enzyklopädie

PAGE (Page Analysis and Ground truth Elements) ist ein XML-Standard für die Kodierung von gescannten Dokumenten[1]. Er ist mit dem ALTO-Format vergleichbar und ermöglicht es, die Organisation und Struktur einer Seite und ihrer Inhalte wiederzugeben.

PAGE XML kann verwendet werden, um zu beschreiben:

  • Seiteninhalte (Regionen, Textzeilen, Wörter, Glyphen, Lesereihenfolge, Textinhalt …).
  • die Auswertung der Layoutanalyse (Auswertungsprofile, Auswertungsergebnisse …)
  • die Bildaufteilung des Dokuments (Ausschneidungsraster).

Das Format wurde 2010 vom Pattern Recognition & Image Analysis Lab (PRIMA) an der Salford University in Manchester entwickelt.

Das Schema wurde für die Verwendung in Verbindung mit automatischen Segmentierungs- und Transkriptionstechniken (OCR und HTR (automatische Erkennung von Handschriften)) konzipiert: PAGE soll jeden einzelnen Schritt der Verarbeitungskette für die Analyse von Bilddokumenten unterstützen (von der Bildverbesserung über die OCR bis hin zur Layoutanalyse).

Das PAGE XML-Schema wird insbesondere als Export- und Importformat von Software für die automatische Transkription wie eScriptorium[2] und Transkribus[3] verwendet. Es ist auch ein Exportformat, das von Kraken verwendet wird, einem schlüsselfertigen OCR-System, das für Dokumente in historischen und nicht-lateinischen Schriftzeichen optimiert ist[4].

Weblinks

Einzelnachweise