Détection de liens d'identité erronés en utilisant la détection de communautés dans les graphes d'identité

Joe RAAD, Wouter BECK, Nathalie Pernelle, Fatiha Saïs, Franck van Harmelen
2018 Ingénierie des Systèmes d'Information  
Différentes études ont montré que les liens d'identité représentés par le prédicat owl: SameAs sont parfois utilisés de façon incorrecte. Dans cet article, nous montrons comment la topologie du réseau des liens d'identité peut être utilisée, en s'appuyant sur des approches de détection de communauté, pour détecter des liens probablement erronés. L'intérêt d'une telle méthode est qu'elle ne nécessite que la connaissances du réseau lui-même. Nous avons évalué notre approche sur une large
more » ... n comportant 558 millions de liens d'identités issus du LOD. Cette évaluation a montré les capacités de notre approche à passer à l'échelle et son efficacité dans la détection de liens incorrects. ABSTRACT. Different studies have observed that the semantic web identity predicate owl:SameAs is sometimes used incorrectly. In this paper, we show how network metrics such as the community structure of the owl:SameAs graph can be used in order to detect such possibly erroneous statements. One benefit of the here presented approach is that it can be applied to the network of owl:SameAs links, and does not rely on any additional knowledge. We evaluate our approach on 558M owl:SameAs statements scraped from the LOD cloud. This evaluation shows the ability of our approach to scale, and its efficiency in detecting erroneous identity links. Ingénierie des systèmes d'information -n o 3-4/2018, 95-118 1.
doi:10.3166/isi.23.3-4.61-88 fatcat:oo37y4kxenadxcteoivk3gcdhi