Aggregation of Similarity Measures for Ortholog Detection: Validation with Measures Based on Rough Set Theory
Reinier Millo Sánchez, Deborah Galpert Cañizares, Gladys Casa Cardoso, Ricardo Grau Ábalo, Leticia Arco García, María Matilde García Lorenzo, Miguel Ángel Fernández Marin
2014
Journal of Computacion y Sistemas
Resumen. En el presente trabajo se propone un algoritmo para la detección de ortólogos que utiliza la agregación de medidas de similitud para caracterizar la relación entre los pares de genes de dos genomas. Las medidas se basan en la puntuación del alineamiento, la longitud de las secuencias, la pertenencia a regiones conservadas y el perfil físico-químico de las proteínas. La fase de agrupamiento sobre el grafo bipartido de similitudes se realiza con el algoritmo de agrupamiento de Markov
more »
... ). Se define una política de asignación de ortólogos a partir de los grupos de homología obtenidos del agrupamiento. La clasificación se valida con los genomas de Saccharomyces Cerevisiae y de Schizosaccharomyces Pombe usando la lista de ortólogos del algoritmo INPARANOID 7.0, con la medida de validación externa ARI. También se aplican medidas de validación empleando la teoría de conjuntos aproximados para medir la calidad con manejo del desbalance de las clases. Palabras clave. Medidas de similitud, genes ortólogos, agrupamiento mcl, asignación de ortólogos, teoría de conjuntos aproximados, desbalance de las clases. Abstract. This paper presents a novel algorithm for ortholog detection that involves the aggregation of similarity measures characterizing the relationship between gene pairs of two genomes. The measures are based on the alignment score, the length of the sequences, the membership in the conserved regions as well as on the protein physicochemical profile. The clustering step over the similarity bipartite graph is performed by using the Markov clustering algorithm (MCL). A new ortholog assignment policy is applied over the homology groups obtained in the graph clustering. The classification results are validated with the Saccharomyces Cerevisiae and the Schizosaccharomyces Pombe genomes with the ortholog list of the INPARANOID 7.0 algorithm with the Adjusted Rand Index (ARI) external measure. Other validation measures based on the rough set theory are applied to calculate the quality of the classification dealing with class imbalance.
doi:10.13053/cys-18-1-2014-016
fatcat:wapn3hrymjczhgnfza7qbuszue