Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos

Leonel Alencar
2009 Calidosco?pio  
RESUMO -Neste artigo, apresentamos o LEXPOR, protótipo de um componente morfológico do português capaz de segmentar e classifi car os constituintes de derivados por meio da sufi xação de -ismo, -iano, -ês e -mente bem como de derivados desses por prefi xação com elementos de origem grega ou latina do tipo de neo-, pseudo-, anti-ou ultra-. Partimos do pressuposto de que uma representação das palavras complexas em termos de morfemas e categorias morfossintáticas não é só relevante na linguística
more » ... nte na linguística de corpus, mas também em outras subáreas da tecnologia do texto, como a extração e a recuperação de informações. Este protótipo consiste de um transdutor lexical que modela o conjunto de palavras que se podem potencialmente construir usando esses afi xos derivacionais. Esse transdutor foi compilado a partir de uma descrição da morfotática e das regras de alternância morfofonológicas e ortográfi cas desse fragmento do léxico, formalizada nas linguagens de programação de estados fi nitos xfst e lexc. A principal característica desse transdutor é a capacidade de realizar análises de neologismos construídos a partir de bases não lexicalizadas, tomadas de empréstimo de outras línguas. Como a utilização de antropônimos estrangeiros é uma das causas principais da extrema produtividade dos afi xos derivacionais que focamos, o LEXPOR oferece uma arquitetura adequada para o desenvolvimento de um anotador automático de corpora do português capaz de preencher as lacunas de corpora como o CETENFolha e do analisador automático do projeto VISL. Em um como outro caso, as análises morfológicas de palavras complexas com os afi xos derivacionais referidos frequentemente são insufi cientemente detalhadas ou simplesmente incorretas. Palavras-chave: derivação, sufi xação, prefi xação, autômatos, transdutores lexicais, morfologia de estados fi nitos, anotação automática de corpora, linguística computacional, linguística de corpus. ABSTRACT -This paper presents LEXPOR, a prototype of a morphological component of Portuguese capable of segmenting and classifying the constituents of complex words resulting from suffi xation of -ismo, -iano, -ês and -mente as well as from prefi xing the words so derived with Greek or Latin prefi xes such as neo-, pseudo-, anti-, or ultra-. We assume that a representation of complex words in terms of morphemes and morphosyntactic categories plays an important role not only in corpus linguistics, but also in other subfi elds of text technology, such as Information Extraction and Information Retrieval. This prototype consists of a lexical transducer modeling the set of words that can potentially be built using these derivational affi xes. This transducer was compiled from a morphotactics and morphophonological description of this lexicon fragment as well as orthographic alternation rules formalized in the xfst and lexc fi nite-state programming languages. Its main feature is the ability to analyze neologisms built from non-lexicalized words borrowed from other languages. Since the use of foreign anthroponyms is one of the main causes of the extreme productivity of the derivational affi xes we focus on, LEXPOR provides an adequate architecture for developing an automatic tagger for Portuguese, capable of overcoming the shortcomings of the CETENFolha corpus and of the parser for the VISL project. In both these cases, morphological analyses of complex words formed with the derivational affi xes mentioned above are often either insuffi ciently detailed or simply incorrect.
doi:10.4013/cld.2009.73.04 fatcat:db4hno5jifbili4yukhrfy2nle