Del píxel a las resonancias visuales: La imagen con voz propia

Pilar Rosado Rodrigo, Eva Figueras Ferrer, Ferran Reverter Comes
2016 AusArt  
Esta investigación aborda el problema de la detección aspectos latentes en grandes colecciones de imágenes de obras de artista abstractas, atendiendo sólo a su contenido visual. Se ha programado un algoritmo de descripción de imágenes utilizado en visión artificial cuyo enfoque consiste en colocar una malla regular de puntos de interés en la imagen y seleccionar alrededor de cada uno de sus nodos una región de píxeles para la que se calcula un descriptor que tiene en cuenta los gradientes de
more » ... ses encontrados. Los descriptores de toda la colección de imágenes se pueden agrupar en función de su similitud y cada grupo resultante pasará a determinar lo que llamamos "palabras visuales". El método se denomina Bag-of-Words (bolsa de palabras). Teniendo en cuenta la frecuencia con que cada "palabra visual" ocurre en cada imagen, aplicamos el modelo estadístico pLSA (Probabilistic Latent Semantic Analysis), que clasificará de forma totalmente automática las imágenes según su categoría formal. Esta herramienta resulta de utilidad tanto en el análisis de obras de arte como en la producción artística. Palabras-clave: visión artificial; modelo Bag-of-Words; CBIR (Recuperación de imágenes por contenido); pLSA (ANÁLISIS PROBABILÍSTICO DE ASPECTOS LATENTES); palabra visual From pixel to visual resonances: Images with voicesAbstractThe objective of our research is to develop a series of computer vision programs to search for analogies in large datasets—in this case, collections of images of abstract paintings—based solely on their visual content without textual annotation. We have programmed an algorithm based on a specific model of image description used in computer vision. This approach involves placing a regular grid over the image and selecting a pixel region around each node. Dense features computed over this regular grid with overlapping patches are used to represent the images. Analysing the distances between the whole set of image descriptors we are able to group them according to their similarity and each resulting group will determines what we call "visual words". This model is called Bag-of-Words representation Given the frequency with which each visual word occurs in each image, we apply the method pLSA (Probabilistic Latent Semantic Analysis), a statistical model that classifies fully automatically, without any textual annotation, images according to their formal patterns. In this way, the researchers hope to develop a tool both for producing and analysing works of art. Keywords: artificial visión; Bag-of-Words model; CBIR (Content-Based Image Retrieval); pLSA (Probabilistic Latent Semantic Analysis); visual word
doi:10.1387/ausart.16670 fatcat:hvjfuvc2sjftlinylo5a5m3w24