Aplicação de técnicas de mineração de textos para classificação de documentos : um estudo da automatização da triagem de denúncias na CGU [thesis]

Patrícia Helena Maia Alves de Andrade
Agradecimentos Agradeço à minha família pelo apoio. Agradeço ao Professor Marcelo Ladeira pelo esforço e paciência dedicados à este trabalho. Agradeço ao Rommel Carvalho, ao Henrique Rocha e ao Libório pelo incentivo e apoio. Agradeço aos colegas de mestrado e aos colegas da Controladoria Geral da União. Agradeço à CGCID pelos esclarecimentos e parceria neste trabalho. Agradeço pelas contribuições, pela força e pela ajuda neste caminho, ao Márcio A Controladoria Geral da União é o órgão do
more » ... Executivo responsável pelas atividades de controle interno, auditoria pública, correição, prevenção e combate à corrupção e ouvidoria dos gastos públicos do Poder Executivo. Por meio do menu "Denuncias e Manifestações", no portal da CGU, se tem acesso a um formulário para apresentação de denúncias por parte da sociedade. Após cadastradas pelo cidadão as mesmas devem ser triadas e encaminhadas para a coordenação temática da CGU com competência para realizar a apuração. Atualmente essa triagem é feita de forma manual e a denúncia encaminhada para uma dentre as 91 opções de destino pré-determinadas. Essa grande quantidade de categorias é um fator que dificulta a classificação automática de textos. Considerando o acúmulo de denúncias existentes na base atualmente e a chegada de novas denúncias, aliadas ao tempo gasto com a triagem manual, torna-se cada vez mais difícil a análise tempestiva das ocorrências reportadas. Esse contexto pode causar prejuízos financeiros para a Administração Pública Federal além de desmotivar a utilização do canal pelo cidadão. As denúncias cadastradas são provenientes de municípios presentes em todas as Unidades da Federação gerando assim um grande impacto em todo o território nacional. Esta pesquisa tem como objetivo elaborar uma prova de conceito para um modelo para a triagem automática de denúncias na CGU, utilizando mineração de textos. Os melhores resultados foram alcançados utilizando classificação por ranking baseada em Árvore de Huffman. Esta prova de conceito demonstrou a viabilidade de uma triagem de denúncias de forma automática na CGU, sem perda de qualidade em comparação à triagem manual. Palavras-chave: Mineração de textos, Árvore de Huffman, Triagem de Documentos vi Abstract The Office of the Comptroller General (CGU) is the agency of the Federal Government in charge of assisting the President of the Republic in matters related to internal control activities, public audits, corrective and disciplinary measures, corruption prevention and combating and coordinating ombudsman's activities. Through a complaints link of the CGU site, citizens have access to a form to file their complaints. These complaints must be screened and delivered to the coordination of CGU by subject. Nowadays the complaints screening is done manually and they are delivered to one of the 91 coordinating units of CGU. This large amount of categories is more complex in automatic text classification. Considering the complaints storage on the database now and the arrival of new complaints, combined with the time spent on manual sorting, the timely analysis of the reported occurrences it becomes increasingly difficult. This context can cause financial losses to Federal Public Administration as well as discouraging the use of the channel by the citizen. Complaints registered origins are municipalities present in all Brazilian states, generating a great impact on the entire national territory. This research intends to develop a proof of concept for an automatic model of complaints screening, using text mining. The best results were achieved using ranking based on the Huffman Tree algorithm. This proof of concept demonstrated the feasibility of automatical sorting without the loss of quality compared to manual sorting.
doi:10.26512/2015.09.d.21004 fatcat:vpozkyo2enhv5blatvfegyohli