Document clustering via concatenated methods

L. Arco, R. Bello, J.M. Mederos, Y. Perez
2006 Inteligencia Artificial  
Resumen Este trabajo tiene como objetivo mostrar una propuesta de agrupamiento de corpus textuales mediante métodos concatenados y su evaluación a partir de resultados experimentales. Los algoritmos incluidos son Extended Star, SKWIC y Fuzzy SKWIC. El algoritmo Extended Star es considerado un método interno, mientras que los algoritmos SKWIC y Fuzzy SKWIC constituyen los dos métodos exteriores en las dos variantes de concatenación propuestas: Extended Star -SKWIC y Extended Star -Fuzzy SKWIC.
more » ... primer método concatenado emplea una técnica de agrupamiento dura y determinista y el segundo es un método borroso. Es ventajoso usar estos métodos concatenados principalmente cuando se desean realizar procesamientos posteriores a los grupos de documentos creados y cuando no se tiene un conocimiento previo del dominio. Finalmente, se muestra la viabilidad de los métodos concatenados propuestos a partir de la aplicación, a la herramienta CorpusMiner que soporta dichos métodos, de un caso de estudio construido a partir de una colección de la agencia de noticias Reuters. Se evaluó la propuesta utilizando pruebas estadísticas no paramétricas y se demostró que las variantes concatenadas superan los resultados del agrupamiento respecto a los algoritmos originales. Palabras clave: Agrupamiento, Corpus de Documentos, Minería de Textos.
doi:10.4114/ia.v10i30.945 fatcat:lvypgbnatzhvvpk63o43jek66a