OCR

Automatische Texterkennung – OCR bei Theaterzetteln

Theaterzettel Theater an der Wien 1831 "Das Gespenst auf der Bastey" (Quelle: Österreichisches Theatermuseum / Bibliothek)

Theaterzettel beinhalten eine Fülle von stück- und aufführungsspezifischen Informationen, wie  Programme und Spielplanänderungen, SchauspielerInnen, Mitwirkende und sonstige Hinweise, die es für die Forschung zugänglich zu machen gilt. Aufgrund der Fülle dieser Informationen wäre die Erschließung dieser Texte im Volltext wünschenswert. OCR-Software bietet eine gute Möglichkeit, Volltexte zu generieren, jedoch ergeben sich insbesondere bei dieser Objektgruppe besondere Probleme:

Frakturschrift als dominierende Schriftart im 19. Jahrhundert
Qualität der Scanvorlage: vergilbt und stockfleckig, gewellt
Zierrahmen
Unterschiedliche Schriftgrößen
Verwendung unterschiedlicher Schriftarten und Sprachen
Text in mehreren Spalten – Verschachteltes Layout
Hoher Prozentsatz an Namen
Keine Computer-Wörterbücher mit historischer Rechtschreibung

Ergebnisse eines OCR-Versuches mit Frakturerkennung

OCR-Testergebnis: Texterkennung - Rahmen - Schriftgrößen - Textlayout

Entgegen unserer Annahme werden Zierrahmen als graphische Elemente größtenteils erkannt und ausgeblendet.

Unterschiedliche Schriftgrößen und –formatierungen werden weitgehend der Vorlage entsprechend nachempfunden, jedoch werden Überschriften häufig nicht als Text erkannt, wenn sie gesperrt gedruckt sind.

Die Textdarstellung in mehreren Spalten stellte überraschenderweise für die OCR-Software kein Problem dar, teilweise wurden sogar Trennlinien wiedergegeben.

Das größte Problem für OCR-Software stellt die Frakturschrift dar, die vom 16. Jahrhundert bis zum Beginn des 20. Jahrhunderts die vorherrschende Schriftart im deutschsprachigen Raum für Druckschriften war. Zum Beispiel führen die Verwendung von Ligaturen und die Verlängerung des Buchstaben „s“ zu Verwechslungen mit anderen. Künstlerisch gestaltete Anfangsbuchstaben führen häufig zu Fehlinterpretationen. Gelegentlich wurden auf einem Theaterzettel unterschiedliche Schriftarten (Fraktur und Antiqua) verwendet, etwa bei Gastspielen ausländischer Theatertruppen und bei der Angabe von Originaltiteln. Bei diesen Beispielen wird deutlich, wie schwierig Frakturschriften im Gegensatz zu ungebrochenen Schriften von OCR-Programmen zu interpretieren ist.

Theaterzettel aus der Zeit der französischen Besetzung Wiens (1809) - Burgtheater. Die Eroberung und Besetzung Wiens durch Napoleon spiegelt sich auch in Theaterzetteln wider: Von Mai bis November 1809 waren die Theaterzettel zweisprachig, wie dieses Beispiel zeigt.

Zur Texterkennung muss die Software auf Wörterbücher zurückgreifen, in denen sich in der Regel aber weder Einträge für Namen oder historische Schreibweisen finden, welche gerade bei Theaterzetteln einen hohen Prozentsatz des Textinhalts ausmachen.  Außerdem erlaubt die Software nur die Einstellung einer Sprache und Schriftart. Bei Mischformen kann nur die jeweils eingestellte richtig erkannt und interpretiert werden.

Da die Fehlerquote auch bei Software mit Frakturerkennung immer noch sehr hoch ist, stellt sich zum gegenwärtigen Zeitpunkt die Frage, ob das händische Abtippen der Theaterzettel nicht effektiver wäre, als die Korrektur des OCR-Textes. Zusammenfassend lässt sich sagen, dass OCR-Software für historische Theaterzettel derzeit noch eher ungeeignet ist, jedoch gibt es einige Projekte, die sich mit der Verbesserung der Zugänglichkeit von historischen Texten auseinandersetzen.

Schriftartenvergleich (Quelle: ÖNB) Auffällig dabei war, dass Antiqua im Gegensatz zu Fraktur sehr gut erkannt wurde.

Links:

IMPACT
Abbey historic OCR
Fraktur (Wikipedia)

Die Kommentarfunktion ist geschlossen.