Integrating deep and shallow natural language processing components : representations and hybrid architectures
[article]
Ulrich Schäfer, Universität Des Saarlandes, Universität Des Saarlandes
2007
We describe basic concepts and software architectures for the integration of shallow and deep (linguistics-based, semantics-oriented) natural language processing (NLP) components. The main goal of this novel, hybrid integration paradigm is improving robustness of deep processing. After an introduction to constraint-based natural language parsing, we give an overview of typical shallow processing tasks. We introduce XML standoff markup as an additional abstraction layer that eases integration of
more »
... NLP components, and propose the use of XSLT as a standardized and efficient transformation language for online NLP integration. In the main part of the thesis, we describe our contributions to three hybrid architecture frameworks that make use of these fundamentals. SProUT is a shallow system that uses elements of deep constraint-based processing, namely type hierarchy and typed feature structures. WHITEBOARD is the first hybrid architecture to integrate not only part-of-speech tagging, but also named entity recognition and topological parsing, with deep parsing. Finally, we present Heart of Gold, a middleware architecture that generalizes WHITEBOARD into various dimensions such as configurability, multilinguality and flexible processing strategies. We describe various applications that have been implemented using the hybrid frameworks such as structured named entity recognition, information extraction, creative document authoring support, deep question analysis, as well as evaluations. In WHITEBOARD, e.g., it could be shown that shallow pre-processing increases both coverage and efficiency of deep parsing by a factor of more than two. Heart of Gold not only forms the basis for applications that utilize semanticsoriented natural language analysis, but also constitutes a complex research instrument for experimenting with novel processing strategies combining deep and shallow methods, and eases replication and comparability of results. 3 Zusammenfassung (kurz) Diese Arbeit beschreibt Grundlagen und Software-Architekturen für die Integration von flachen mit tiefen (linguistikbasierten und semantikorientierten) Verarbeitungskomponenten für natürliche Sprache. Das Hauptziel dieses neuartigen, hybriden Integrationparadigmas ist die Verbesserung der Robustheit der tiefen Verarbeitung. Nach einer Einführung in constraintbasierte Analyse natürlicher Sprache geben wir einenÜberblicküber typische Aufgaben flacher Sprachverarbeitungskomponenten. Wir führen XML Standoff-Markup als zusätzliche Abstraktionsebene ein, mit deren Hilfe sich Sprachverarbeitungskomponenten einfacher integrieren lassen. Ferner schlagen wir XSLT als standardisierte und effiziente Transformationssprache für die Online-Integration vor. Im Hauptteil der Arbeit stellen wir unsere Beiträge zu drei hybriden Architekturen vor, welche auf den beschriebenen Grundlagen aufbauen. SProUT ist ein flaches System, das Elemente tiefer Verarbeitung wie Typhierarchie und getypte Merkmalsstrukturen nutzt. WHITEBOARD ist das erste System, welches nicht nur Part-of-speech-Tagging, sondern auch Eigennamenerkennung und flaches topologisches Parsing mit tiefer Verarbeitung kombiniert. Schließlich wird Heart of Gold vorgestellt, eine Middleware-Architektur, welche WHITEBOARD hinsichtlich verschiedener Dimensionen wie Konfigurierbarkeit, Mehrsprachigkeit und Unterstützung flexibler Verarbeitungsstrategien generalisiert. Wir beschreiben verschiedene, mit Hilfe der hybriden Architekturen implementierte Anwendungen wie strukturierte Eigennamenerkennung, Informationsextraktion, Kreativitätsunterstützung bei der Dokumenterstellung, tiefe Frageanalyse, sowie Evaluationen. So konnte z.B. in WHITEBOARD gezeigt werden, dass durch flache Vorverarbeitung sowohl Abdeckung als auch Effizienz des tiefen Parsers mehr als verdoppelt werden. Heart of Gold bildet nicht nur Grundlage für semantikorientierte Sprachanwendungen, sondern stellt auch eine wissenschaftliche Experimentierplattform für weitere, neuartige Kombinationsstrategien dar, welche zudem die Replizierbarkeit und Vergleichbarkeit von Ergebnissen erleichtert. 4 Zusammenfassung (ausführlich) Diese Arbeit beschreibt Grundlagen und Software-Architekturen für die Integration von flachen mit tiefen, linguistikbasierten und semantikorientierten Verarbeitungskomponenten für natürliche Sprache. Das Hauptziel dieser hybriden Integration ist die Verbesserung der Robustheit der tiefen Verarbeitung. Nach einerÜbersicht in Kapitel 1 führen wir in Kapitel 2 allgemeine Begriffe wie tiefe und flache Analyse ein und geben eine Motivation für die vorliegende Arbeit. In Kapitel 3 führen wir kurz in tiefe constraintbasierte Grammatikformalismen für natürliche Sprache ein und stellen die kopfbasierte Phrasenstrukturgrammatik (head-driven phrase structure grammar; HPSG) vor. Wir geben Definitionen für getypte Merkmalsstrukturen und Unifikation an, und beschreiben informell die Arbeitsweise und Ergebnisse (semantische Analyse) eines HPSG-Parsers. Typische Aufgaben flacher Sprachverarbeitungskomponenten wie Tokenisiering, Chunking und Eigennamenerkennung werden in Kapitel 4 beschrieben, um dann auf die Beziehung zwischen flacher Verarbeitung und Dokumentauszeichnungssprachen eingehen zu können. Wir geben einen kurzen Abriss der Geschichte von XML und SGML sowie darauf basierender linguistischer Auszeichnungsstandards wie TEI und (X)CES. Schließlich führen wir den Begriff des Standoff-Markup ein. Kapitel 5 beginnen wir mit einer eingehenden Analyse des Flach-Tief-Integrationsproblems, um dann technische Lösungswege mit Hilfe von Markup-Anfragesprachen wie XPath, XSLT, XQuery, aber auch in der Literatur beschriebenen Anfragesprachen für linguistisch annotierte Korpora aufzuzeigen. Wir begründen unsere Wahl von XSLT als standardisierter und effizienter Transformationssprache für die Online-Integration von Sprachverarbeitungskomponenten und zeigen beispielhaft die Transformation von getypten Merkmalsstrukturen. In Kapitel 6 motivieren wir die Notwendigkeit von Architekturen für Flach-Tief-Integration und leiten zu den drei in den Folgekapiteln beschriebenen Architektur-Frameworksüber. Im Hauptteil der Arbeit stellen wir unsere Beiträge zu drei hybriden Architekturen für die Flach-Tief-Integration vor, welche auf den zuvor beschriebenen Grundlagen aufbauen. SProUT (Kapitel 7) ist ein flaches System, das Elemente tiefer Verarbeitung wie Typhierarchie und getypte Merkmalsstrukturen nutzt. Hauptvorteil des regelbasierten Systems ist neben der flexiblen Konfigurierbeit die strukturierte Ausgabe, welche sich in Anwendungen wie Eigennamenerkennung und Informationsextraktion als vorteilhaft herausstellt. Wir beschränken uns nach einer Einführung in SProUT auf vom Autor entwickelte Teile des Systems wie Formalismus-Typüberprüfung und automatische Evaluation, SProUT ist jedoch auch als (optionaler) Bestandteil des dritten beschriebenen Frameworks, Heart of Gold, von Bedeutung. Wir gehen näher auf die mit SProUT realisierte mehrsprachige Eigennamenerkennung ein und geben eine Evaluation an, welche auf dem MUC-Annotationsschema beruht und state-ofthe-art-Ergebnisse zeigt, wobei die realisierten SProUT -Grammatiken durch ihre 5 strukturierte Ausgabe mehr Information bereitstellen, als durch das MUC-Schema abgebildet wird (z.B. innere Struktur von Personennamen, Zeit-und Ortsangaben). Das Kapitel schließt mit einer Beschreibung der zahlreicher Anwendungen und Projekte in den Bereichen Informationsextraktion, Eigennamenerkennung und opionion mining, in welchen SProUT erfolgreich eingesetzt wurde. WHITEBOARD (Kapitel 8) ist die erste hybride Architektur, welche nicht nur Part-of-speech-Tagging, sondern auch Eigennamenerkennung und flaches topologisches Parsing mit tiefem HPSG-Parsing kombiniert. Wir beschreiben ausführlich die beiden Ausbaustufen der Integration (zunächst part-of-speech tagging und Eigennamenerkennung, später flacher topologischer Parser mit Hilfe einer XSLT-Kaskade). In der Evaluation von WHITEBOARD konnte gezeigt werden, dass durch flache Vorverarbeitung sowohl Abdeckung als auch Effizienz des tiefen Parsers mehr als verdoppelt werden. Eine Anwendung der Architektur im Bereich hybrider Informationsextraktion wird kurz skizziert. In Kapitel 9 schließlich wird Heart of Gold vorgestellt, eine Middleware-Architektur, welche WHITEBOARD hinsichtlich verschiedener Dimensionen wie Konfigurierbarkeit, Mehrsprachigkeit und Unterstützung flexibler Verarbeitungsstrategien generalisiert. Wir beschreiben neben der Middleware selbst auch die wichtigsten integrierten Komponenten für verschiedene Sprachen und beispielhaft Konfigurationen für robustes Parsen von deutschen, englischen und japanischen Texten. Einen besonderen Stellenwert nimmt die neuartige Integration auf Basis des robusten Semantikformalismus RMRS ein, welcher es erlaubt, auch nach dem tiefen Parsen noch auf semantischer Ebene Informationen verschiedener Sprachverarbeitungskomponenten zu einer einheitlichen Struktur zusammen zu fügen. Heart of Gold unterstützt die RMRS-Integration optional, für SProUT -Eigennamen-Grammatiken wird ein Codegenerierungsverfahren vorgestellt, welches automatisch aus den deklarativen Typbeschreibungen XSLT-Code für die Laufzeit-Transformationen nach RMRS erzeugt. Ein weiterer Abschnitt des Kapitels beschäftigt sich mit der Integration von Ontologie-Information in tiefe Satzanalysen. Hier wird ein implementierter Ansatz vorgestellt, welcher mittels XSLT in einem offline-Verfahren aus OWL-Ontologien Lingware-Resourcen für SProUT dergestalt erzeugt, dass im tiefen Parseergebnis Ontologieinformation (bzw. Referenzen darauf) enthalten sind. Wir beschreiben schließlich verschiedene, mit Hilfe von Heart of Gold realisierte Anwendungen wie Kreativitätsunterstützung bei der Dokumenterstellung, automatische Email-Beantwortung im Bereich des customer relationship management und tiefe Frageanalyse bei automatischer Fragebeantwortung auf strukturierten Wissenquellen, sowie entsprechende, anwendungsbezogene Evaluationen. Wir fassen zusammen, dass Heart of Gold aufgrund der generischen Architektur nicht nur Grundlage für semantikorientierte Sprachanwendungen bilden kann, sondern auch eine wissenschaftliche Experimentierplattform für weitere, neuartige Kombinationsstrategien darstellt, welche zudem Replizierbarkeit und Vergleichbarkeit von erzielten Ergebnissen erleichtert. Wir schließen die Arbeit mit einer Zusammenfassung in Kapitel 10 ab. 6
doi:10.22028/d291-25898
fatcat:22sdvtzcsbffhmbxvj6shu6jje