Modèle de graphe et modèle de langue pour la reconnaissance de scènes visuelles

Trong-Ton Pham, Loïc Maisonnasse, Philippe Muhlen, Eric Gaussier
2010 Document Numérique  
Content-based image indexing and retrieval (CBIR) system needs to consider several types of visual features and spatial information among them (i.e., different point of views) for better image representation. This thesis presents a novel approach that exploits an extension of the language modeling approach from information retrieval to the problem of graph-based image retrieval. Such versatile graph model is needed to represent the multiple points of views of images. This graph-based framework
more » ... s composed of three main stages: Image processing stage aims at extracting image regions from the image. It also consists of computing the numerical feature vectors associated with image regions. Graph modeling stage consists of two main steps. First, extracted image regions that are visually similar will be grouped into clusters using an unsupervised learning algorithm. Each cluster is then associated with a visual concept. The second step generates the spatial relations between the visual concepts. Each image is represented by a visual graph captured from a set of visual concepts and a set of spatial relations among them. Graph retrieval stage is to retrieve images relevant to a new image query. Query graphs are generated following the graph modeling stage. Inspired by the language model for text retrieval, we extend this framework for matching the query graph with the document graphs from the database. Images are then ranked based on the relevance values of the corresponding image graphs. Two instances of the visual graph model have been applied to the problem of scene recognition and robot localization. We performed the experiments on two image collections: one contained 3,849 touristic images and another composed of 3,633 images captured by a mobile robot. The achieved results show that using visual graph model outperforms the standard language model and the Support Vector Machine method by more than 10% in accuracy. Résumé La recherche et l'indexation d'images basée sur le contenu (CBIR) doit prendre en compte plusieurs types de caractéristiques visuelles et d'informations spatiales (i.e. différents points de vues) pour une meilleure représentation de l'image. Cette thèse présente une nouvelle approche qui exploite une extension des modèles de langue pour la recherche d'images basée sur un modèle de graphe. En effet, les graphes sont polyvalents et sont nécessaires pour la représentation des différents points de vues des images. L'implantation de ce modèle est composée de troisétapes principales: L'étape traitement d'image viseà l'extractionà partir d'une image des régions et des points d'intérêts. Elle consisteégalementà numériser les vecteurs caractéristiques associés aux régions ou aux points d'intérêts situés dans l'image. L'étape modélisation de graphe consisteà regrouper les caractéristiques visuelles similaires en "clusters" en utilisant l'algorithme d'apprentissage non supervisé. Les concepts visuels sont générés pour chaque type de caractéristique visuelle. Ensuite, les relations spatiales entre les concepts visuels sont extraites. Enfin, une image est représentée par un graphe visuel composé d'un ensemble de concepts visuels et un ensemble de relations spatiales. L'étape d'appariement de graphe détermine les graphes pertinentsà une requête généréeà partir d'une nouvelle image. Nousétendons les modèles de langue existants pour faire correspondre le graphe requête avec les graphes dans la base de données. Les images sont ensuite classées par la valeur de probabilité associéeà chaque graphe. Deux instances du modèle de graphe visuel ontétéélaborés pour deux applications: la reconnaissance de scène et la localisation d'un robot. Nos expérimentations ont porté sur deux collections : une collection composée de 3849 images touristiques et une autre composée de 3633 images capturées par un robot. Les résultats obtenus montrent que l'utilisation du modèle de graphe visuel surpasse le modèle de langue standard et la méthode machineà vecteurs de support (SVM), de plus de 10% en terme de la précision.
doi:10.3166/dn.13.1.211-227 fatcat:v4vexsghgjgqdhcdiondnsy62q