Sobre o uso da gramática de dependência extensível na geração de língua natural: questões de generalidade, instanciabilidade e complexidade [thesis]

Jorge Marques Pelizzoni
A minha mãe e minhas irmãs. Todas ao mesmo tempo porque espero não escrever outra tese de doutorado nesta vida. AGRADECIMENTOS A Deus. À grande pessoa de Maria das Graças Volpe Nunes, que, entre outros, é minha orientadora neste projeto. A ela especialmente pelo exemplo, tolerância e amparo. A Claire Gardent e Denys Duchier, orientadores estrangeiros. A eles especialmente pela boa semente. A Ralph Debusmann, que só conheço de e-mail, mas é como se fosse pessoalmente. A ele especialmente por um
more » ... pecialmente por um trabalho excelente, a colaboração e a simpatia. À minha família, que hoje inclui o Thiago, a Beth, a Lina, o Belha, a Neneza, a Vacucha e a Chuzy. Ao primeiro especialmente pela coragem; e às três últimas pelo antídoto, muitas vezes ministrado em longas sessões de terapia de gatos energéticos. Aos amigos. A todos eles especialmente pelo elo com a sanidade e pelo amor, às vezes à distância, mas sempre correspondido. Não os cito apenas por questões de ordem, pois cabem com folga em poucas linhas. Vocês sabem quem são. À CAPES, CNPq, NILC, ICMC e entes familiares, pelo apoio financeiro. A você. RESUMO A Geração de Língua Natural (GLN) ocupa-se de atribuir forma lingüística a dados em representação não-lingüística (Reiter & Dale, 2000); a Realização Lingüística (RL), por sua vez, reúne as subtarefas da GLN estritamente dependentes das especificidades da língua-alvo. Este trabalho objetiva a investigação em RL, uma de cujas aplicações mais proeminentes é a construção de módulos geradores de língua-alvo na tradução automática baseada em transferência semântica. Partimos da identificação de três requisitos fundamentais para modelos de RLquais sejam generalidade, instanciabilidade e complexidade -e da tensão entre esses requisitos no estado da arte. Argumentamos pela relevância da avaliação formal dos modelos da literatura contra esses critérios e focalizamos em modelos baseados em restrições (Schulte, 2002) como promissores para reconciliar os três requisitos. Nesta classe de modelos, identificamos o recente modelo de Debusmann (2006) -Extensible Dependency Grammar (XDG)e sua implementação  o XDG Development Toolkit (XDK)  como uma plataforma especialmente promissora para o desenvolvimento em RL, apesar de jamais utilizada para tal. Nossas contribuições práticas se resumem ao esforço de tornar o XDK mais eficiente e uma formulação da disjunção inerente à lexicalização adequada à XDG, demonstrando suas potenciais vantagens numa sistema de GLN mais completo. ABSTRACT Natural Language Generation (NLG) concerns assigning linguistic form to data in nonlinguistic representation (Reiter & Dale, 2000) ; Linguistic Realization (LR), in turn, comprises all strictly target language-dependent NLG tasks. This work looks into RL systems from the perspective of three fundamental requirements  namely generality, instantiability, and complexity and the tension between them in the state of the art. We argue for the formal evaluation of models against these criteria and focus on constraint-based models (Schulte, 2002) as tools to reconcile them. In this class of models we identify the recent development of Debusmann (2006)  Extensible Dependency Grammar (XDG)  and its implementation  the XDG Development Toolkit (XDK)  as an especially promising platform for RL work, in spite of never having been used as such. Our practical contributions comprehend a successful effort to make the XDK more efficient and a formulation of lexicalization disjunction suitable to XDG, illustrating its potential advantages in a full-fledged NLG system.
doi:10.11606/t.55.2008.tde-06112008-170545 fatcat:bo6dbt3ljbbk7djw4msfu7eyoa