Comparative Study of Clustering Algorithms using Overall SimSUX Similarity Function for XML Documents

Damny Magdaleno
2015 Inteligencia Artificial  
A huge amount of information is represented in XML format. Several tools have been developed to store, and query XML data. It becomes inevitable to develop high performance techniques for efficiently analysing extremely large collections of XML data. One of the methods that many researchers have focused on is clustering, which groups similar XML data, according to their content and structures. In previous work, there has been proposed the similarity function OverallSimSUX, that facilitates to
more » ... pture the degree of similitude among the documents with a novel methodology for clustering XML documents using both structural and content features. Although this methodology shows good performance, endorsed by experiments with several corpus and statistical tests, on having had impliedly only one clustering algorithm, K-Star, we do not know the effect that it would suffer if we replaced this algorithm by other with dissimilar characteristics. Therefore to endorse completely the methodology, in this work we make a comparative study of the effects of applying the methodology for the OverallSimSUX similarity function calculation, using clustering algorithms of different classifications. Based on our analysis, we arrived to two important results: (1) The Fuzzy-SKWIC clustering algorithm works best both with methodology and without methodology, although there are not present significant differences respect to the K-Star and G-Star clustering algorithms, according to conclusions achieved by Nemenyi's post-hoc test.; (2) For each analysed algorithm when using the methodology, we obtain better results than when it is not taken into account. Resumen Gran cantidad de información está almacenada en formato XML; varias herramientas se han desarrollado para almacenar y consultar datos en XML. Se hace inevitable crear técnicas para el análisis eficiente de grandes colecciones de estos documentos. Uno de los métodos en que los investigadores se han centrado es en el agrupamiento, basado en la estructura y contenido de los XML. En un trabajo anterior fue propuesta la función de similitud OverallSimSUX, que captura el grado de semejanza entre los documentos, utilizada con una nueva metodología para el agrupamiento de documentos XML utilizando estructura y contenido simultáneamente. Aunque esta metodología mostró buen desempeño, avalado por los experimentos con varios corpus y test estadísticos, al tener implícito un algoritmo de agrupamiento, K-Star; se desconoce el efecto que podría sufrir si se reemplaza este algoritmo por otro con diferentes características. Por tanto para avalar completamente la metodología, en este trabajo se realiza un estudio comparativo de los efectos de aplicar la metodología para el cálculo de la función de similitud OverallSimSUX, usando algoritmos de agrupamiento de diferentes clasificaciones. Basado en el análisis realizado, se arribaron a dos resultados importantes: (1) El algoritmo de agrupamiento Fuzzy-SKWIC obtuvo mejores resultados cuando es usado con la metodología al igual que cuando no es usado con esta, aunque no presenta diferencias significativas respecto a los algoritmos K-Star y G-Star, según el test de Nemenyi; (2) Para cada algoritmo analizado, cuando se utiliza la metodología, se obtienen mejores resultados que cuando no se utiliza la metodología.
doi:10.4114/ia.v18i55.1097 fatcat:4mtnb4flcfcdjdfhor2cazekoe