A Flexible Framework for Integrating Annotations from Different Tools and Tag Sets

Christian Chiarcos, -Stefanie Dipper, Michael Götze, Ulf Leser, Anke Lüdeling, Julia Ritz, -Manfred Stede
unpublished
We present a general framework for integrating annotations from different tools and tag sets. When annotating corpora at multiple linguistic levels, annotators may use different expert tools for different phenomena or types of annotation. These tools employ different data models and accompanying approaches to visualization, and they produce different output formats. For the purposes of uniformly processing these outputs, we developed a pivot format called PAULA, along with converters to and
more » ... tool formats. Different annotations are not only integrated at the level of data format, but are also joined on the level of conceptual representation. For this purpose, we introduce OLiA, an ontology of linguistic annotations that mediates between alternative tag sets that cover the same class of linguistic phenomena. All components are integrated in the linguistic information system ANNIS: Annotation tool output is converted to the pivot format PAULA and read into a database where the data can be visualized , queried, and evaluated across multiple layers. For cross-tag set querying and statistical Traitement Automatique des Langues. Volume 49-n˚2n˚2/2008, pages 217 à 246 218 Traitement Automatique des Langues. Volume 49-n˚2n˚2/2008 evaluation, ANNIS uses the ontology of linguistic annotations. Finally, ANNIS is also tied to a machine learning component for semiautomatic annotation. RÉSUMÉ. Dans ce papier, nous présentons une plateforme générale pour intégrer des annotations originaires de nombreux outils différents et employant des ensembles d'étiquettes divers. Quand un corpus fait l'objet d'une annotation multi-niveaux, les annotateurs peuvent profiter d'utiliser plusieurs outils experts différents, chacun adapté aux phénomènes ou types d'annotation envi-sagés. Ces outils employent différents modèles de données (accompagné par de différents mé-thodes de visualisation), et produisent des formats de sortie distincts. Pour permettre de proces-ser ces sorties d'une manière uniforme, nous avons développé un format pivot, appelé PAULA, et des convertisseurs formats des et aux formats originals des outils. Les annotations ne sont pas integrées seulement au niveau de format, mais aussi au niveau de la représentation conceptio-nelle. Pour cela, nous introduisons OLiA, une ontologie des annotations linguistiques, qui met en relation les ensembles d'étiquettes alternatifs qui néanmoins recouvrent le même phénomène linguistique. Tous ces composants sont part du système d'information ANNIS: les données en format de sortie des outils d'annotation sont converties au format pivot PAULA et lues dans une base de données où on peut les visualiser, rechercher et exploiter à travers les multiples niveaux. Pour l'exploitation à travers les ensembles d'étiquettes différents, ANNIS est lié à l'ontologie susmentionnée. En outre, la plateforme comprend un composant export dans un environnement d'apprentissage automatique pour soutenir l'annotation semi-automatique.
fatcat:7t6cagizzrf5rnuauqexj6nqmq