Flexibles Arbeiten mit OCR4all - Massenvolltextdigitalisierung von Drucken mithilfe von OCR-D und hochqualitative Transkription von Handschriften

Florian Langhanki, Maximilian Wehner, Konstantin Baierer, Lena Hinrichsen, Christian Reul
2022 Zenodo  
"Die automatisierte Texterkennung von historischen Drucken und Handschriften stellt eine anspruchsvolle Aufgabe bei der Entwicklung modularer wie flexibler OCR-/HTR-Workflows dar. Besonders Forschungsfelder wie Text Mining oder Sentiment Analysis haben die Schwierigkeiten einer Textdigitalisierung entsprechender Materialien bei gleichzeitigem Bedarf großer Textmengen zur Anwendung quantitativer Analyseverfahren erkannt. Auch im Kontext hochqualitativer Volltexterfassungen digitaler Editionen
more » ... teht großer Bedarf an intuitiv und komfortabel zu bedienender Software. Die an der Universität Würzburg entwickelte Software OCR4all nimmt neben den formulierten Anforderungen entsprechender Workflowsysteme die Ausrichtung auf einen geisteswissenschaftlichen Nutzer:innenkreis für sich in Anspruch. Durch die baldige Unterstützung der im Rahmen von OCR-D entwickelten Lösungen wird nun die Anwendung im Spannungsfeld einer Massenvolltextdigitalisierung und einer hochqualitativen Erfassung historischer Texte möglich. Der Workshop bietet einen umfassenden Einstieg ins Thema der OCR und HTR historischer Materialien. Teilnehmende werden in die Nutzung von OCR4all eingeführt und dazu befähigt, auf Grundlage anspruchsvoller Ausgangsmaterialien hochqualitative Textdaten zu generieren." Ein Beitrag zur 8. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2022 Kulturen des digitalen Gedächtnisses.
doi:10.5281/zenodo.6328078 fatcat:5udzilmijnez3cjtbziynmmfcy