OCR

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.
Zur Navigation springen Zur Suche springen

OCR ist eine Abkürzung für Optical Character Recognition. Man versteht darunter das maschinelle Umsetzen von bildlich dargestelltem Text (Scans) in Testdaten. Es gibt sowohl kommerzielle als auch quelloffene Programme für OCR. Das wohl bekannteste quelloffene OCR-Programm ist Tesseract.

Eine umfassende Erklärung, wie OCR funktioniert, findet sich u. a. auf diesen Webseiten:

OCR bei genealogy.net

Aufgrund der großen Datenmengen scheint es in vielen Fällen verlockend, OCR einzusetzen. Die Werbeversprechen der Herstellern (95% Genauigkeit) hören sich erfolgversprechend an. Leider sieht es in der Praxis anders aus. Aus folgenden Gründen lässt sich für unsere Art von Dokumenten OCR nicht besonders gut einsetzen:

  • Die von den Herstellern angegebene Genauigkeit bezieht sich auf die Zeichengenaugikeit. Die Wortgenauigkeit ist deutlich geringer. Beträgt z.B. die Zeichengenauigkeit 95%, so wird ein Wort mit sieben Buchstaben mit nur noch bei 70%[1]. Es gibt eine umfangreiche Studie, die zu dem Ergebnis kommt, dass schon in diesem Fall komplettes Abtippen effizienter als OCR mit anschließendem Korrekturlesen ist.
  • Die Probleme mit der Zeichengenauigkeit kann man mit Hilfe von Grammatikanalyse und eines Wörterbuchs umgehen. Das funktioniert aber nur bei "normalem" Text, z.B. Tagebüchern, Manuskripten oder Briefen. Bei Familien- und Ortsnamen funktioniert es nicht, da es davon zu viele gibt und kein grammatikalischer Zusammenhang zu umgebenden Wort da ist. Aber gerade diese beiden Informationen sind für uns die wichtigsten.
  • Die Erkennungsrate bei Frakturschrift ist geringer als die der heute üblichen Antiqua-Schrift.
  • OCR-Programme sind auf Dokumentenarten wie Zeitungsartikel oder Literatur optimiert. Mit Tabellenstrukturen, wie man sie z.B. in Ortsverzeichnissen vorfindet, kommt OCR sehr schlecht zurecht.
  • Bei Handschrifterkennung muss man derzeit mindestens 100 Seiten eines Autors von Hand abtippen, bevor die Handschrift maschinell gelesen werden kann. Das ist also nur bei sehr umfangreichen Werken eines einzelnen Autors machbar. Bei einer Quelle mit ständig wechselnder Handschrift (z.B. Kirchenbuch oder Standesamtsurkunden) funktioniert es nicht. Auch liegt die Genauigkeit bei lediglich 70-80% - vermutlich die Zeichengenaugikeit.



  1. 0,95^7=0,7