Content-based video copy detection

Juan Manuel Barrios
2009 Proceedings of the seventeen ACM international conference on Multimedia - MM '09  
Resumen La cantidad y el uso de videos en Internet ha aumentado exponencialmente durante loś ultimos años. La investigación académica en tópicos de videos se ha desarrollado durante décadas, sin embargo la actual ubicuidad de los videos presiona por el desarrollo de nuevos y mejores algoritmos. Actualmente existen variadas necesidades por satisfacer y muchos problemas abiertos que requieren de investigación científica. En particular, la Detección de Copias de Video (DCV) aborda la necesidad de
more » ... uscar los videos que son copia de un documento original. El proceso de detección compara el contenido de los videos en forma robusta a diferentes transformaciones audiovisuales. Esta tesis presenta un sistema de DCV llamado P-VCD, el cual utiliza algoritmos y técnicas novedosas para lograr alta efectividad y eficiencia. Esta tesis se divide en dos partes. La primera parte se enfoca en el estado del arte, donde se revisan técnicas comunes de procesamiento de imágenes y búsqueda por similitud, se analiza la definición y alcance de la DCV, y se presentan técnicas actuales para resolver este problema. La segunda parte de esta tesis detalla el trabajo realizado y sus contribuciones al estado del arte, analizando cada una de las tareas que componen esta solución, a saber: preprocesamiento de videos, segmentación de videos, extracción de características, búsqueda por similitud y localización de copias. En relación a la efectividad, se desarrollan las ideas de normalización de calidad de videos, descripción múltiple de contenidos, combinación de distancias, y uso de distancias métricas versus no-métricas. Como resultado se proponen las técnicas de creación automática de descriptores espacio-temporales a partir de descriptores de fotogramas, descriptores de audio combinables con descriptores visuales, selección automática de pesos, y distancia espacio-temporal para combinación de descriptores. En relación a la eficiencia, se desarrollan los enfoques de espacios métricos y tabla de pivotes para acelerar las búsquedas. Como resultado se proponen una búsqueda aproximada utilizando objetos pivotes para estimar y descartar distancias, búsquedas multimodales en grandes colecciones, y uníndice que explota la similitud entre objetos de consulta consecutivos. Esta tesis ha sido evaluada usando la colección MUSCLE-VCD-2007 y participando en las evaluaciones TRECVID 2010 y 2011. El desempeño logrado en estas evaluaciones es satisfactorio. En el caso de MUSCLE-VCD-2007 se supera el mejor resultado publicado para esa colección, logrando la máxima efectividad posible, mientras que en el caso de TRECVID se obtiene una performance competitiva con otros sistemas del estado del arte. i Abstract The amount of digital videos on Internet has grown exponentially over the last few years. Academic research on video topics has developed over many decades, however the current ubiquity of videos pushes the development of new and better algorithms. There are currently many unsatisfied needs and open problems that demand scientific research. In particular, Content-Based Video Copy Detection (CBVCD) addresses the need to retrieve videos in a collection that are copies of some original document. The copy detection process relies exclusively on the audiovisual content, and must be robust to common audiovisual transformations. This thesis details a novel CBVCD system, called P-VCD. The system is founded on the metric space approach and develops many novel algorithms and techniques in order to achieve high effectiveness and efficiency. The thesis is divided into two parts. The first part gives an overview of the area, presents different techniques from image processing and similarity search, analyzes the definition and scope of the CBVCD problem, and summarizes the state-of-the-art on the CBVCD topic. The second part details our approach for CBVCD, following the tasks of the detection process, namely: video preprocessing, video segmentation, feature extraction, similarity search, and copy localization. Regarding effectiveness, we explore the ideas of video quality normalization, multiple content description, combination of distances, and metric versus non-metric distances. In particular, we propose techniques for the automatic creation of spatio-temporal descriptors using frame-based global descriptors, an acoustic descriptor that can be combined with global descriptors, automatic weight selection, and spatio-temporal distance to combine descriptors. Regarding efficiency, we explore the ideas of metric access methods and pivot tables in order to reduce the amount of distance computations. In particular, we propose a novel approximate search that uses pivot objects in order to estimate and discard distance evaluations, a multimodal search in large datasets, and a novel index structure that exploits the similarity between consecutive query objects. This thesis has been evaluated by using the MUSCLE-VCD-2007 dataset and by participating in TRECVID 2010 and 2011. We are very pleased with the performance achieved in both evaluations. In the case of MUSCLE-VCD-2007, the system outperforms the best published result for that dataset, achieving the maximum detection effectiveness, whereas in the case of TRECVID it shows competitive performance with other state-of-the-art systems. ii Dedicado a Solange, Daniel y Elizabeth. iii
doi:10.1145/1631272.1631539 dblp:conf/mm/Barrios09 fatcat:kpjhi2p3orcsrfi444ewana33i