Content-based multimedia information retrieval

Michael S. Lew, Nicu Sebe, Chabane Djeraba, Ramesh Jain
2006 ACM Transactions on Multimedia Computing, Communications, and Applications (TOMCCAP)  
The large amounts of digital media becoming available require that new approaches are developed for retrieving, navigating and recommending the data to users in a way that reflects how we semantically perceive the content. The thesis investigates ways to retrieve and present content for users with the help of contextual knowledge. Our approach to model the context of multimedia is based on unsupervised methods to automatically extract meaning. We investigate two paths of context modelling. The
more » ... irst part extracts context from the primary media, in this case broadcast news speech, by extracting topics from a large collection of the transcribed speech to improve retrieval of spoken documents. The context modelling is done using a variant of probabilistic latent semantic analysis (PLSA), to extract properties of the textual sources that reflect how humans perceive context. We perform PLSA through an approximation based on non-negative matrix factorisation NMF. The second part of the work tries to infer the contextual meaning of music based on extra-musical knowledge, in our case gathered from Wikipedia. The semantic relations between artists are inferred using linking structure of Wikipedia , as well as text-based semantic similarity. The final aspect investigated is how to include some of the structured data available in Wikipedia to include temporal information. We show that a multiway extension of PLSA makes it possible to extract temporally meaningful topics, better than using a stepwise PLSA approach to topic extraction. ii Resumé De store maengder af digitale medier, der er tilgaengelige kraever, at der udvikles nye metoder til at hente, navigere og anbefale disse data til brugere på en måde, der reflekterer hvordan vi forstår indholdet af data. Denne rapport undersøger tilgange til at hente og praesentere indhold for brugere vha. baggrundsviden om data. Vi baserer vores modeller af baggrundsviden i forbindelse med multimedie-data på ikke-superviserede metoder, som kan udtraekke meningen af data automatisk. Vi undersøger to måder at modellere kontekst. Den første del af afhandlingen beskriver, hvorledes vi kan udtraekke mening fra det primaere medie, som i dette tilfaelde er nyhedsudsendelser ved at finde emner fra en stor samling af transskriberet tekst. Vi viser, at denne metode forbedrer søgning i taleoptagelser. Kontekst-modelleringen udføres vha. af en variant af probabilistisk latent semantisk analyse (PLSA), som udtraekker meningen fra tekst, der minder om den måde, som mennesker forstår tekst. Vi undersøger metoder til at implementere PLSA effektivt vha. en approksimation baseret på non-negativ matrix faktorisering (NMF). Anden del af afhandlingen beskaeftiger sig med at beskrive den kulturelle baggrund, der omgaerder musik. Denne viden må udtraekkes fra data, der er udenfor musikken, i vores tilfaelde fra Wikipedia. Vi forsøger at finde semantiske forbindelser mellem kunstnere baseret på link-strukturen i Wikipedia , og gennem semantisk modellering af teksten. Til sidst undersøger vi hvorledes man kan inkludere noget af det strukturerede iv data, som Wikipedia også indeholder. Dette giver mulighed for at finde emner, der indeholder en temporal dimension. Vi viser at en multivejs-variant af PLSA gør det muligt at finde temporalt meningsfulde emner, og at denne globale analyse af data giver bedre resultater end en trinvis modellering af emner. Preface
doi:10.1145/1126004.1126005 fatcat:wrzcdfn72rgzlh2ymbzqgvrfr4