U-AIDA : a customizable system for named entity recognition, classification, and disambiguation [article]

Mohamed Amir Yosef, Universität Des Saarlandes, Universität Des Saarlandes
2016
Recognizing and disambiguating entities such as people, organizations, events or places in natural language text are essential steps for many linguistic tasks such as information extraction and text categorization. A variety of named entity disambiguation methods have been proposed, but most of them focus on Wikipedia as a sole knowledge resource. This focus does not fit all application scenarios, and customization to the respective application domain is crucial. This dissertation addresses the
more » ... problem of building an easily customizable system for named entity disambiguation. The first contribution is the development of a universal and flexible architecture that supports plugging in different knowledge resources. The second contribution is utilizing the flexible architecture to develop two domain-specific disambiguation systems. The third contribution is the design of a complete pipeline for building disambiguation systems for languages other than English that have poor annotated resources such as Arabic. The fourth contribution is a novel approach that performs fine-grained type classification of names in natural language text. i Kurzfassung Das Erkennen und die Disambiguierung von Entitäten wie etwa Personen, Organisationen oder Orte in natürlichsprachigem Text sind wertvolle Hilfsmittel für zahlreiche linguistische Aufgaben Biespielanwendungen sind Informationsextraktion oder die Kategorisierung von Texten. In diesem Kontext sind eine Vielzahl von Verfahren zur Disambiguierung erforscht worden. Allerdings basieren die meisten dieser Verfahren lediglich auf dem aus Wikipedia extrahierbaren "Wissen". Diese Fokussierung eignet sich jedoch keineswegs für alle Anwendungsszenarien, weshalb eine Anpassung an die jeweils vorliegende Anwendungsdomäne besonders wichtig ist. Diese Dissertation befasst sich daher mit dem Entwurf eines Universell einsetzbaren und individuell konfigurierbaren Systems zur Disambiguierung von Entitätsnamen. Der erste Beitrag dieser Arbeit ist die Entwicklung einer universell einsatzfähigen und anpassbaren Architektur, die das Einbinden unterschiedlicher Wissensquellen ermöglicht. Darauf aufbauend wird die Flexibilität der vorgestellten Architektur mittels zweier domänen-spezifischer Anwendungen belegt. Darüber hinaus wird die Vielseitikeit des Verfahrens durch den Entwurf eines kompletten Verarbeitungsprozess für resourcenarme Sprachen am Beispiel der arabischen Sprache gezeigt. Abschließend wird ein neuartiger Ansatz zur feingranularen Typisierung von benannten Entitäten in natürlichsprachigem Text vorgestellt. ii Summary Discovering mentions of named entities such as people, events, location or organizations and linking them to canonical entities registered in a knowledge resource is a valuable asset in many linguistic tasks such as semantic search and information extraction. The English Wikipedia is the most widely used knowledge resource in the literature for performing named entity disambiguation. However, the English Wikipedia is only suitable for disambiguating general English text such as English news articles. Developing a disambiguation system for other domains and languages requires major adaptation to fit the specific application scenarios. In addition, the Wikipedia editions for many languages, such as Arabic, are an order of magnitude smaller than the English Wikipedia. Therefore, it is crucial to exploit cross-language evidences to enrich the non-English resources. Finally, some names cannot be disambiguated because they denote entities that do not exist in the underlying knowledge resource. This dissertation makes the following contributions to address the problem of building a universal and customizable disambiguation system. U-AIDA Architecture: We developed a universal architecture called U-AIDA for building named entity disambiguation solutions. The architecture is flexible and supports plugging in multiple knowledge resources to be used as the underlying repository for named entities. U-AIDA can be easily customized to fit various application scenarios. Domain-Specific Disambiguation Systems: We leveraged the flexibility of U-AIDA architecture to build two domain-specific systems. The first is developed to handle German documents from the German National Library. It combines a general-purpose knowledge base with a domain-specific knowledge base developed by the German National Library. The second system is geared towards social streams. It considers Twitter as a use case and accordingly adapts different components of U-AIDA. Disambiguating non-English Text: We designed a complete pipeline for building named entity disambiguation systems capable of processing text of languages with poor annotated resources such as Arabic. We exploited cross-language evidences to enrich these poor resources with the English counterpart. In addition, we incorporated statistical machine translation techniques to translate some of the English resources into the target language. We implemented the system within the U-AIDA framework and tested it on Spanish, Italian and Arabic. Experiments showed up to 8% improvement in precision and recall after applying our data enrichment techniques for the Arabic languages. For Spanish and Italian the improvement was around 4% because of their relatively richer Wikipedias. iii Named Entity Classification: Texts from recent news article may contain newly emerging entities that are unknown to the named entity disambiguation system. We developed a machine-learning based approach, called HYENA, to classify names of entities under a fine grained hierarchy of 505 semantic types. We tested our system on different data sets and compared it to state-of-the-art systems. HYENA outperformed other systems on various data sets. In addition, we conducted an extrinsic study on named entity disambiguation to analyze the reduction in search space when applying type-based pruning on the candidate list. Our experiments showed that 17% reduction in search space could be achieved with only 2% drop in precision. iv Zusammenfassung Das Erkennen und die Disambiguierung von Entitäten wie etwa Personen, Organisationen oder Orte in natürlichsprachigem Text sind wertvolle Hilfsmittel für zahlreiche linguistische Aufgaben. Die englische Version der Online-Enzyklopädie Wikipedia ist dabei die am häufigsten verwendete Quelle für die Disambiguierung. Allerdings ist die englischsprachige Wikipedia im wesentlichen "nur" dazu geeignet, englische Nachrichtenartikel zu disambiguieren. Die Entwicklung eines Disambiguierungssystems für andere Szenarien und/oder Sprachen erfordert daher umfassende Anpassungen an das jeweilige Anwendungsgebiet. Zudem ist Wikipedia in vielen anderen Sprachen, wie z.B. dem Arabischen, um (mehrere) Größenordnungen kleiner als die englische Wikipedia. Von daher ist es oftmals erforderlich, inter-linguale Evidenzen zu nutzen, um Wikipedia für weniger verbreitete Sprachen mit den Quellen aus der englischen Wikipedia zu verknüpfen. Schlussendlich gibt es auch noch benannte Entitäten, die überhaupt nicht disambiguiert werden können, weil zu diesen überhaupt kein Eintrag in der Wissensquelle vorhanden ist. Diese Dissertation befasst sich daher mit dem Entwurf eines Universell einsetzbaren und individuell konfigurierbaren Systems zur Disambiguierung von Entitätsnamen. U-AIDA Architektur: Die universelle U-AIDA Architektur wurde für ein adaptives Disambiguierungssystem dazu entwickelt. Diese Architektur ist flexibel ausgelegt und erlaubt die Einbindung beliebiger Wissensquellen, welche benannte Entitäten enthalten. Zu diesem Zweck kann U-AIDA vielseitig konfiguriert und an nahezu beliebige Anwendungsszenarien angepasst werden. Domänenspezifische Disambigiguierungssysteme: Die Flexibilität von U-AIDA wurde dazu genutzt, um zwei domänenspezische Systeme zu entwickeln. Das rste System wurde dazu verwendet, deutschsprachige Dokumente der deutschen Nationalbibliothek (DNB) zu bearbeiten. Dazu wird eine allgemeine Wissensbasis mit einer bibliothekarischen Wissenquelle der DNB kombiniert. Das zweite System zielt auf soziale Netzwerke ab. Im konkreten Fall handelt es sich dabei um eine Anpassung von U-AIDA zum Monitoring des Twitter-Nachrichtendiensts. Disambiguierung nicht englischsprachiger Texte: Um Texte in ressourcenarmen Sprachen wie etwa dem Arabischen zu disambiguieren, haben wir einen vollständigen Verarbeitungsprozess entwickelt. Dazu wurden inter-linguale Evidenzen genutzt, um Wikipedia für weniger verbreitete Sprachen mit den Quellen aus der englischen Wikipedia zu verknüpfen. Zudem wurden statistische Verfahren des maschinellen Lernens dazu eingesetzt, dedizierte v englischsprachige Ressourcen in die ressourcenarme Sprache übersetzt. Zu diesem Zweck wurde das U-AIDA System in Arabisch, Italienisch und Spanisch getestet und evaluiert. Experimente zeigen dabei bis zu 8% Steigerung in Präzision und Ausbeute für Arabisch. Für Italienisch und Spanisch wurde, bedingt durch deren größeren Ausgangsdatenbestand, immerhin noch eine Verbesserung von nahezu 5% erzielt. Klassifikation benannter Entitäten: Nachrichtenartikel enthalten häufig Entitäten, die aufgrund ihrer erstmaligen Nennung noch nicht in den zugrundeliegenden Wissenbasen registriert sind. Um auch solche Entitäten typisieren zu können, wurde HYENA entwickelt. HYENA basiert auf maschinellem Lernen und ist dazu geeignet, Entitäten in einer feingranularen Hierachie von 505 Typen zu klassifizieren. Das System wurde im Vergleich mit anderen Referenzsystemen evaluiert. Weiterhin wurde HYENA in einer extrinsischen Studie dazu eingesetzt, den Suchraum der Kandidaten bei der Disambiguierung auf die von HYENA vorgegebenen Typen zu reduzieren. Experimente zeigten dass sich bei einer Reduzierung des Suchraums von 17% die Güte der Präzision der Disambiguierung lediglich um 2% reduziert. vi
doi:10.22028/d291-25426 fatcat:ihma2rjiprfzlglxxvbcljssmm