Handschriften und Historische Drucke

Pilotprojekt zum OCR-Einsatz bei der Digitalisierung der Funeralschriften der Staatsbibliothek zu Berlin

Das von der Deutschen Forschungsgemeinschaft für 12 Monate geförderte Pilotprojekt sollte die Möglichkeiten und Chancen des Einsatzes von Software zur automatischen Zeichenerkennung bei frühneuzeitlichen Drucken aus dem deutschsprachigen Raum ausloten. Projektinhalt bildeten eingehende Testszenarien von zwei unterschiedlich angelegten OCR-Softwareprodukten. Sie sollten nach möglichst einheitlichen und damit vergleichbaren Gesichtspunkten getestet und bewertet werden. Beide Produkte wurden auf OCR-Erkennungsqualität sowie Konfigurations- und Optimierungsmöglichkeiten hin untersucht und verglichen. Ebenso im Fokus standen gattungsspezifische Ansätze zur Erschließung der frühneuzeitlichen Leichenpredigt bzw. Funeralschrift. 

Im Pilotprojekt wurden von 2010 bis 2012 die OCR-Produkte folgender Anbieter getestet: 

  • B.I.T. Bureau Ingénieur Tomasi SARL Toulouse -
    Software: B.I.T. Alpha
  • Herrmann & Kraemer GmbH und Co-KG Garmisch-Partenkirchen - Software: HKOCR auf Basis der ABBYY FineReader Engine 9

In zwei Arbeitspaketen kam die jeweilige Software für Fraktur-OCR zum Einsatz. Es sollten die Vor- und Nachteile der jeweiligen Softwarelösung sowie ggf. spezielle Anwendungsszenarien ermittelt werden. In enger Zusammenarbeit mit den Anbietern fand ein Training der entsprechenden OCR an ausgewählten Beständen statt. Parallel dazu sollte das von der Staatsbibliothek entwickelte Metadatenmodell an einigen Beispielen praktisch angewendet und im Zusammenspiel mit der OCR getestet werden.

Im einzelnen wurden neben Aussagen zur Erkennungsqualität/ Textqualität Einschätzungen getroffen zu Binarisierungsqualität, Bild-, Wort- und Zeichensegmentierung, Nutzung von Zeichenbibliotheken/Alphabeten, Nutzung von Wortbibliotheken/ Wörterbüchern, Dokumentation der jeweils gewählten Parameter und Einstellungen sowie zur Bereitstellung von Trainingsergebnissen zur späteren Weiterverwendung durch die Bibliothek.

Um die am besten geeignete Konfiguration der jeweiligen Software zu ermitteln, wurde versucht, das Material entsprechend zu gruppieren. In einer ersten Phase lag der Schwerpunkt zunächst auf Funeralschriften eines einzigen Autors, erschienen in einem bestimmten Verlag. Der Vorteil lag hier im überschaubaren Zeitraum ihrer Veröffentlichung sowie ihrer gemeinsamen drucktechnischen Herkunft. Grundsätzlich wurde angestrebt, Bestandsgruppen zu definieren, die vergleichbare Schriften bzw. Layouteigenschaften haben. Herangezogen wurden hierbei neben der Seitengestaltung vor allem Schriftarten, Drucktypen und Schriftgrößen sowie die Druckqualität der Vorlagen.  

Besondere Herausforderungen ergaben sich durch die ständige Varianz von Schriften und Typen innerhalb eines Textes und sogar innerhalb eines Wortes, durch die z.B. bei der Angabe der Bibelstellen und anderer Zitate verwandten Abkürzungen und außerdem durch Marginalien, die meist sehr klein gesetzt und nicht immer klar vom Haupttext abgegrenzt sind. Schließlich enthalten Leichenpredigten häufig Zitate in griechischen und hebräischen Lettern.

Literatur / Vorträge:

Federbusch, M.: OCR für Drucke der Frühen Neuzeit? Erfahrungen und Perspektiven am Beispiel von Funeralschriften
In: Bibliotheksdienst 49(2015)7. S. 713-724

Federbusch, Maria: OCR-Einsatz bei Funeralschriften
In: Dickhaut, Eva-Maria (Hg.): Leichenpredigten als Medien der Erinnerungskultur im europäischen Kontext. Stuttgart: Steiner, 2014 (Leichenpredigten als Quelle historischer Wissenschaften Bd 5), S. 315-328

Federbusch, Maria: OCR für Drucke der Frühen Neuzeit? Erfahrungen, Perspektiven und Kooperationsmöglichkeiten am Beispiel von Funeralschriften. Vortrag, Bibliothekartag, Bremen, 05.06.2014

Federbusch, Maria:  OCR-Einsatz bei der Volltexterfassung von Quellen der Frühen Neuzeit. Eine Fallstudie anhand von Funeralschriften aus dem Bestand der Staatsbibliothek zu Berlin : Vortrag auf der DTA-/CLARIN-D-Konferenz Historische Korpora für die Geistes- und Sozialwissenschaften.
Vortrag, BBAW Berlin, 18.02.2013

Federbusch, Maria: Praxistest zweier OCR-Softwareprodukte am Beispiel ausgewählter Funeralschriftenbestände der SBB,  Konferenz "Historische Dokumente auf dem Weg zum digitalen Volltext".
Vortrag, BSB München, 12.10.2011