hebOCR

aus Wikipedia, der freien Enzyklopädie
hebOCR

Hocr-logo.png
Hocr-bialik-1.png
Basisdaten

Entwickler Yaacov Zamir
Aktuelle Version 0.11-rc1
(2011-01-15)
Betriebssystem Linux (macOS)
Programmiersprache C, C++, Python
Kategorie Texterkennungssoftware
Lizenz GPL 3 (Freie Software)
https://github.com/yaacov/hebocr

hebOCR (ehemals HOCR) ist eine freie Texterkennungssoftware für hebräische Schrift von Yaacov Zamir. Sie ist besonders für alte religiöse Texte und Poesie vorgesehen. Sie ist als freie Software auch mitsamt dem Quelltext unter der GPL veröffentlicht. Der Kern der Software ist die Programmbibliothek libhocr, die in C und C++ geschrieben ist. Dazu gibt es zwei Benutzerschnittstellen: das von Yuval Tanny mit Python und GTK+ erstellte hocr-gtk, das eine graphische Oberfläche bietet, und das Kommandozeilenprogramm hocr, das mehr Fähigkeiten hat und zur Automatisierung gedacht ist. Mit qHocr existiert auch eine (externe) Qt-basiertes, graphisches Frontend. Zur Bibliothek gibt es eine Python- und eine Perl-Anbindung, über die sie beispielsweise per Skript gesteuert werden kann.

hebOCR kann Texte mit Nikud verarbeiten, was für hebräische Poesie sehr wichtig ist, und mit komplexen Seitengestaltungen umgehen. Über GTK+ kann die Reihe der Bilddateiformate gelesen werden, die GTK+ unterstützt (einschließlich PNG, JPEG, TIFF, BMP). Weiterhin kann es mit einem Vorverarbeitungsschritt Schräglagen des Textes automatisch erkennen und ausgleichen, mit Flecken in der Vorlage umgehen und auch sehr dunkle, helle oder farbstichige Vorlagen verarbeiten. Erkennungsergebnisse werden mit UTF-8-Kodierung als einfacher ASCII-Text oder in das HTML-basierte hOCR-Format ausgegeben.

Die erste Version (0.2.0) wurde am 14. August 2005 veröffentlicht.[1] Anfang Dezember 2005 wurde hocr 0.4.6 in den unstable-Zweig der Linux-Distribution Debian aufgenommen[2] und im selben Monat in den testing-Zweig übernommen[3]; in Ubuntu finden sich hocr-Pakete ab der Version vom Juni 2006 (Dapper Drake).[4]

Weblinks

Commons: HOCR – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise

  1. hocr.berlios.de/documentation/html (Memento des Originals vom 10. Juli 2009 im Internet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/hocr.berlios.de
  2. packages.qa.debian.org/h/hocr/news/20051211T224905Z.html
  3. packages.qa.debian.org/h/hocr/news/20051223T220806Z.html
  4. launchpad.net/ubuntu/+source/hocr