Unconstrained recognition of offline Arabic handwriting using generative and discriminative classification models [article]

Moftah M. Elzobi, Abbas Omar, Ayoub Al-Hamadi, Martin-Luther Universität, Universitäts- Und Landesbibliothek Sachsen-Anhalt
2018
I would like to thank my supervisor Prof. Dr.-Ing. habil. Ayoub Al-Hamadi for his guidance and relentless support over the course of this PhD. His commitment of research inspires me over all these years and motivates me to do my best. I am grateful to Prof. Dr. A. Omar and Prof. Dr. A. A. Farag for accepting to review my thesis. I would like to thank my colleagues in NIT research group for their countless stimulating conversation and invaluable technical advices. Special thanks to my family for
more » ... ks to my family for their infinite support and understanding. ii Abstract Despite extensive research conducted over the past three decades, a fact-proof solution to the problem of offline Arabic handwriting is still elusive. Moreover, most of the current solutions that are usually specific to a particular personal handwriting or to a certain font, deliver recognition results that are fraught with problems and errors. As a consequence, the development of efficient OCR software that is capable of transcribing Arabic handwriting into a searchable text is still an active area of research. On the other hand, in the current digital age, it is evident that information resources that are not properly digitized will simply become inaccessible. The main objective of our research, in this thesis is to investigate and develop effective recognition approaches for offline Arabic handwriting that are applicable in unconstrained OCR's environments. Furthermore, we contend that carefully designed and adequately annotated datasets are a vital prerequisite for any unconstrained OCR's solutions. Therefore, we have developed IESK-arDB, a new multi-purpose Arabic handwriting database. It is publicly available and contains more than 6000 word images each groundtruthed with segmentation information, and 285 pages of 14th century historical manuscripts that are transcribed into text files, and a page-by-page line-by-line alignment is enforced. A letter frequency has analysis showed that the database iii iv exhibits letter frequencies very similar to that of large corpora of digital text, which proves the database usefulness. Additionally, and since manually creating handwriting databases is a cost and time prohibitive process, a handwriting synthesis approach is proposed. And about 28000 online handwritten letter samples are collected from several writers and used to build 100 Active Shape Models (ASM). ASMs are then used to generate unique letter representations in order to simulate the various handwriting styles. The developed system is used to create more than 12000 synthesized samples that have been added to the database. It has been concluded that handwritten word segmentation is a fundamental step in building any general purposes OCR system. Hence, one of our contributions in this thesis is the proposal of a new topological segmentation methodology. It starts by performing a connected-component analysis in order to resolve subwords overlapping. Then, topological feature based segmentation is carried out to split the word into a set of presumed letters. The proposed approach has been successfully tested on IESK-arDB and IFN-ENIT databases, aching very promising results that indicate the efficiency of the suggested approach. Informative and non-redundant features, typically, facilitate the subsequent recognition process. In this thesis, we propose a robust yet simple approach for extracting two sets of shape descriptor features that have a number of desirable characteristics, e.g. less expensive in extraction and in processing, efficiently capture letter global shape characteristics, invariant to stroke width and less sensitive to handwriting distortions (e.g. skew and slant). It has even been argued that recognition is one of the most essential phases in any OCR system. Generally speaking, there is a wide spectrum of current solutions for this problem. Those solutions can be probabilistic, non-probabilistic, or may adopt generative or discriminative modeling approach. Unlike the mainstream approaches addressing the problem, in this dissertation, firstly, we propose a generative HMMs based approach that is built on top of an explicit segmentation module. Thanks to a threshold model that is constructed v by ergodically connecting all letters models, the suggested approach is capable to detect false segmentation and non-letter segments. The approach is validated on two different databases with satisfactory results. Furthermore, and because of the strong performance that the discriminative CRFs and its extension HCRFs recently showed in several pattern recognition fields. We introduced those two approaches to the problem of offline Arabic handwriting recognition. For training, testing, and performance comparison purposes of all proposed recognition approaches the IESK-arDB and IFN-ENIT databases are used. The achieved results indicate the superiority of discriminative approaches, where HCRFs achieved the best performance followed by CRFs. ------------- Zusammenfassung Trotz mehr als zwei Jahrzehnten intensiver Forschung im Gebiet der arabischen Offline-Handschrifterkennung, steht eine zufriedenstellende Lösung bisher noch immer aus. Sogar spezifische Ansätze für einzelne Schreiber oder bestimmte Schriftarten sind problematisch und fehlerbehaftet. Bis heute existiert daher keine OCR-Software, welche es ermöglichen würde, arabische Handschrift zuverlässig in digitalen Text zuüberführen. Andererseits ist es im Kontext des digitalen Zeitalters ersichtlich, dass nicht angemessen digitalisierte Quellen zunehmend unzugänglich werden. Der wesentliche, in dieser Dissertation zusammengefasste Forschungsschwerpunkt besteht in der Erforschung und Entwicklung von effektiven Ansätzen zur Offline-Erkennung arabischer Handschrift für den Einsatz in allgemeinen OCR-Umgebungen. Sorgfältig konzeptionierte und adäquat annotierte Datensammlungen sind typischerweise Voraussetzung für effiziente, allgemeine OCR-Lösungen. Daher haben wir die IESK-arDB entwickelt, eine neue Vielzweck-Datenbank arabischer Handschrift. Die Datenbank ist frei verfügbar und umfasstüber 6.000 Abbildungen von Wörtern sowie der zur Validierung von Vorverarbeitung, Segmentierung und Erkennung erforderlichen Grundwahrheiten. Weiterhin sind 285 Seiten historischer Dokumente aus dem 14. Jahrhundert beinhaltet, denen aus Unicode-Textseiten bestehende, zeilengetreue Grundwahrheiten beiliegen. Durch vii viii Analyse der Buchstabenhäufigkeit wurde gezeigt, dass die Häufigkeiten der Buchstaben der IESK-arDB jener umfassender digitaler Textdatenbanken entspricht, und somit nützlich für allgemeine Anwendungszwecke ist. Aufgrund der mit manuell erstellten Datenbanken verbundenen Kosten, wird ein Ansatz zur Synthese von Handschrift vorgestellt. Um die 28.000 handschriftlichen Online-Buchstabenproben wurden von verschiedenen Schreibern gesammelt und verwendet, umüber 100 Active-Shape-Models (ASMs) zu erstellen. Die ASMs werden benötigt, um unikale Buchstabenrepräsentationen zur Simulation verschiedener Schreibstile zu generieren. Das entwickelte System wurde eingesetzt, umüber 12.000 synthetische Proben zu erstellen, welche zur Datenbank hinzugefügt wurden. Segmentierung handschriftlicher Wörter ist ein fundamentaler Schritt beim Erstellen aller OCR Systeme, die für allgemeine Zwecke eingesetzt werden sollen. Daher stellen wir als wesentlichen Beitrag zur Forschung eine topologiebasierte Segmentierungsmethode vor. Zunächst wird durch eine Analyse zusammenhängender Komponenten das Problemüberlappender Unterwörter gelöst. Anschließend wird, basierend auf topologischen Merkmalen, eine Segmentierung des Wortes in Buchstaben durchgeführt. Dieser Ansatz wurde mit vielversprechenden, auf seine Effizienz hinweisenden Ergebnissen an der IESK-arDB-sowie der IFN-ENIT-Datenbank getestet. Informative, nichtredundante Merkmale begünstigen typischerweise den anschlieenden Erkennungsprozess. In dieser Dissertation wird ein robuster aber dennoch einfach gehaltener Ansatz zur Extraktion zweier Shape Deskriptoren vorgestellt. Diese weisen eine Reihe erwünschter Eigenschaften auf. So lassen sie sich z.B. mit geringem Aufwand extrahieren und verarbeiten und sind, da die globale Buchstabengestalt erfasst wird, invariant gegenüber der Strichdicke sowie weniger empfindlich gegenüber in Handschrift auftretenden Deformationen wie Schriftneigung oder -schräge. Erkennung stellt offenkundig eine der wichtigsten Phasen jedes OCR Systems ix dar. Allgemein steht ein weites Spektrum verschiedener probabilistischer und nichtprobabilistischer -auf generativen oder diskriminativen Modellen basierender -Lösungsansätze zur Verfügung. Im Gegensatz zu den gängigen Lösungsätzen wird in dieser Dissertation erstmal ein generativer Hidden-Markov-Model (HMM) basierter Ansatz vorgeschlagen, der an ein Modul expliziter Segmentierung anschließt. Ein Schwellwert-Modell, konstruiert durch ergodische Verknüpfung aller Buchstabenmodelle, ermöglicht es, Segmentierungsfehler und nicht Buchstaben Segmente zu detektieren. Der Ansatz wurde anhand zweier Datenbanken mit zufriedenstellenden Ergebnissen validiert. Ein weiterer Ansatz basiert auf diskriminativen Conditional-Random-Fields (CRFs), die neuerdings eine hohe Performanz in diversen Bereichen der Mustererkennung erzielen. Beide Ansätze werden hinsichtlich ihres Einsatzes für arabische Handschrifterkennung untersucht. Zum Trainieren, Testen und zum Vergleichen der Performanz von CRFs, HCRFs und HMMs wurden die IESK-arDB sowie die IFN-ENIT Datenbanken eingesetzt. Die Ergebnisse weisen auf dieÜberlegenheit der diskriminativen Ansätze hin, wobei HCRFs gefolgt von CRFs die beste Performanz aufweisen. -------------
doi:10.25673/4590 fatcat:ewgowrv6abg6nldscxgt6kdoeu