Winograd schemas in portuguese [thesis]

Gabriela Souza de Melo
O Desafio de Winograd se tornou uma referência em tarefas de resposta textual automatizada e processamento de linguagem natural, tendo sido desenvolvido inicialmente na língua inglesa. De forma a estimular o desenvolvimento do campo de Processamento de Linguagem Natural em português, desenvolvemos um conjunto de Esquemas de Winograd em português. Também adaptamos soluções propostas para a versão do desafio baseada em inglês, de forma a disponibilizarmos um modelo inicial para ser utilizado na
more » ... rsão do desafio baseada em português. Para fazê-lo, criamos um modelo de linguagem treinado sobre um conjunto de documentos da Wikipedia. De forma a avaliar o impacto da variação da capacidade do modelo de linguagem nos resultados para o desafio em português, nós testamos o treinamento do modelo utilizando-se de diversas técnicas que anteriormente levaram a resultados estado-da-arte para tarefas na língua inglesa. Palavras-Chave -Desafio de Winograd, Aprendizagem de Máquina, Inteligência Artificial, Processamento de Linguagem Natural, Aprendizado Profundo. ABSTRACT The Winograd Schema Challenge has become a common benchmark for question answering and natural language processing, having been originally developed in the English language. In order to stimulate the development of Natural Language Processing in Portuguese, we have developed a set of Winograd Schemas in Portuguese. We have also adapted solutions proposed for the English-based version of the challenge so as to have an initial model for usage in its Portuguese-based version. To do so, we created a language model for Portuguese based on a set of Wikipedia documents. In order to evaluate the impact of the increase in the language model capacity in the results for the Portuguese challenge, we tested training of the model with the usage of a myriad of techniques that have previously led to state-of-the-art results for English-based tasks.
doi:10.11606/d.3.2020.tde-14012021-124730 fatcat:etxpnmebzjd67ddg3tu4xacwza