Algoritmos eficientes para análise de campos aleatórios condicionais semi-markovianos e sua aplicação em sequências genômicas [thesis]

Ígor Bonadio
Bonadio, I. Algoritmos eficientes para análise de campos aleatórios condicionais semimarkovianos e sua aplicação em sequências genômicas. Campos Aleatórios Condicionais são modelos probabilísticos discriminativos que tem sido utilizados com sucesso em diversas áreas como processamento de linguagem natural, reconhecimento de fala e bioinformática. Entretanto, implementar algoritmos eficientes para esse tipo de modelo não é uma tarefa fácil. Nesse trabalho apresentamos um arcabouço que ajuda no
more » ... senvolvimento e experimentação de Campos Aleatórios Condicionais Semi Markovianos (semi-CRFs). Desenvolvemos algoritmos eficientes que foram implementados em C++ propondo uma interface de programação flexível e intuitiva que habilita o usuário a definir, treinar e avaliar modelos. Nossa implementação foi construída como uma extensão do arcabouço ToPS que, inclusive, pode utilizar qualquer modelo já definido no ToPS como uma função de característica especializada. Por fim utilizamos nossa implementação de semi-CRF para construir um preditor de promotores que apresentou performance superior aos preditores existentes. Palavras-chave: campos aleatórios condicionais, predição de genes, predição de promotores. iii iv Abstract Bonadio, I. Efficient algorithms for semi-markov conditional random fields and their application for the analysis of genomic sequences. Conditional Random Fields are discriminative probabilistic models that have been successfully used in several areas like natural language processing, speech recognition and bioinformatics. However, implementing efficient algorithms for this kind of model is not an easy task. In this thesis we show a framework that helps the development and experimentation of Semi-Markov Conditional Random Fields (semi-CRFs). It has an efficient implementation in C++ and an intuitive API that allow users to define, train and evaluate models. It was built as an extension of ToPS framework and can use ToPS' probabilistic models as specialized feature functions. We also use our implementation of semi-CRFs to build a high performance promoter predictor.
doi:10.11606/t.45.2018.tde-15102018-193536 fatcat:xzzb4npegjgujlwnj7ab2xv5tu