Improving quality and performance of schema matching in large scale

Fabien Duchateau, Zohra Bellahsene, Mathieu Roche
2008 Ingénierie des Systèmes d'Information  
Schema matching is a crucial task to gather information of the same domain. However, this process is still largely performed manually or semi-automatically, discouraging the deployment of large-scale mediation systems. Indeed, these large-scale scenarii need a solution which ensures both an acceptable matching quality and good performance. In this article, we present the BMatch approach to efficiently match a large number of schemas. The quality aspect is based on the combination of
more » ... al and contextual methods. The performance aspect relies on a B-tree indexing structure to reduce the search space. Finally, experiments with real sets of schemas show that our approach is scalable and outperforms the most referenced matching tools both in quality of matches and performance time. RÉSUMÉ. La découverte de correspondances entre schémas est une étape importante lorsque l'on intégre des informations d'un même domaine. Cependant, ce processus est encore trop souvent effectué manuellement ou au moyen d'approches semi-automatiques. Notre approche Bmatch s'appuie sur une combinaison de mesures terminologiques et d'informations contextuelles pour découvrir des correspondances entre schémas. Par ailleurs, pour être efficace dans un contexte large échelle, nous nous appuyons sur une structure d'indexation B-tree pour réduire l'espace de recherche. Des expérimentations sur des données réelles montrent que notre approche passe bien à l'échelle tout en obtenant globalement une meilleure qualité et de meilleures performances comparativement aux outils de découverte de correspondances de référence. KEYWORDS: semantic similarity, schema matching, BMatch, B-tree index structure, node context, terminological and structural measures. MOTS-CLÉS : similarité semantique, découverte de correspondances entre schmémas, BMatch, structure d'indexation B-tree, contexte d'un noeud, mesures terminologiques et structurelles.
doi:10.3166/isi.13.5.59-82 fatcat:hwli4c6l6zem5kqubnzra3w6bi