Historische Drucke

Pilotprojekt zum OCR-Einsatz bei der Digitalisierung der Funeralschriften der Staatsbibliothek zu Berlin

Das von der Deutschen Forschungsgemeinschaft für 12 Monate geförderte Pilotprojekt soll die Möglichkeiten und Chancen des Einsatzes von Software zur automatischen Zeichenerkennung bei frühneuzeitlichen Drucken aus dem deutschsprachigen Raum ausloten.

Trainingsszenario mit HKOCR

Projektinhalt bilden eingehende Testszenarien von zwei unterschiedlich angelegten OCR-Softwareprodukten. Sie sollen nach möglichst einheitlichen und damit vergleichbaren Gesichtspunkten getestet und bewertet werden. Beide Produkte werden auf OCR-Erkennungsqualität sowie Konfigurations- und Optimierungsmöglichkeiten hin untersucht und verglichen. Ebenso im Fokus stehen gattungsspezifische Ansätze zur Erschließung der frühneuzeitlichen Leichenpredigt bzw. Funeralschrift. 

Im Pilotprojekt werden die OCR-Produkte folgender Anbieter getestet: 

Regionen einer Seite - Markierung mit HKOCR

In zwei Arbeitspaketen kommt die jeweilige Software für Fraktur-OCR zum Einsatz. Es sollen die Vor- und Nachteile der jeweiligen Softwarelösung sowie ggf. spezielle Anwendungsszenarien ermittelt werden. In enger Zusammenarbeit mit den Anbietern findet ein Training der entsprechenden OCR an ausgewählten Beständen statt. Parallel dazu soll das von der Staatsbibliothek entwickelte Metadatenmodell an einigen Beispielen praktisch angewendet und im Zusammenspiel mit der OCR getestet werden.

Im einzelnen werden neben Aussagen zur Erkennungsqualität/ Textqualität Einschätzungen getroffen zu Binarisierungsqualität, Bild-, Wort- und Zeichensegmentierung, Nutzung von Zeichenbibliotheken/Alphabeten, Nutzung von Wortbibliotheken/ Wörterbüchern, Dokumentation der jeweils gewählten Parameter und Einstellungen sowie zur Bereitstellung von Trainingsergebnissen zur späteren Weiterverwendung durch die Bibliothek.

Segmentierung von Zeichen - B.I.T.

Um die am besten geeignete Konfiguration der jeweiligen Software zu ermitteln, wird versucht, das Material entsprechend zu gruppieren. In einer ersten Phase liegt der Schwerpunkt zunächst auf Funeralschriften eines einzigen Autors, erschienen in einem bestimmten Verlag. Der Vorteil liegt hier im überschaubaren Zeitraum ihrer Veröffentlichung sowie ihrer gemeinsamen drucktechnischen Herkunft. Grundsätzlich wird angestrebt, Bestandsgruppen zu definieren, die vergleichbare Schriften bzw. Layouteigenschaften haben. Herangezogen werden hierbei neben der Seitengestaltung vor allem Schriftarten, Drucktypen und Schriftgrößen sowie die Druckqualität der Vorlagen.  

Besondere Herausforderungen ergeben sich durch die ständige Varianz von Schriften und Typen innerhalb eines Textes und sogar innerhalb eines Wortes, durch die z.B. bei der Angabe der Bibelstellen und anderer Zitate verwandten Abkürzungen und außerdem durch Marginalien, die meist sehr klein gesetzt und nicht immer klar vom Haupttext abgegrenzt sind. Schließlich enthalten Leichenpredigten häufig Zitate in griechischen und hebräischen Lettern.

Stufen der Erkennungssicherheit - B.I.T.

Durch die inhaltliche Ausrichtung sowie regionale und zeitliche Schwerpunkte des Bestandes (Funeralschriften des 17. und beginnenden 18. Jahrhunderts vornehmlich aus dem mitteldeutschen Raum) ergeben sich weitere Optimierungsmöglichkeiten. Beispielhaft wird im Projekt ein Wörterbuch aufgebaut, das sich aus Wörtern speist, die in den Funeralschriften  verwendet wurden, aber auch die Thesauri der Forschungsstelle für Personalschriften Marburg (THELO und THEPRO) sowie eine Liste historischer Krankheitsbezeichnungen des Vereins für Computergenealogie integriert.  

Die Ergebnisse des Pilotprojektes sollen realistische Möglichkeiten zur automatisierten Volltexterfassung größerer Funeralschriftenbestände, aber auch für zukünftige Massendigitalisierungsprojekte aus dem Bereich der frühneuzeitlichen Drucke insgesamt eröffnen. 

 

Gefördert durch die