Detecção de cenas em segmentos semanticamente complexos
[thesis]
Bruno Lorenço Lopes
Agradecimentos Agradeço em primeiro lugar a Deus, por ter me iluminado durante todo o desenvolvimento do trabalho, dando a paciência e a inspiração necessária para sua realização. Agradeço também, a meu orientador, pelos infindáveis conselhos e por sua orientação sempre tão pertinente. Agradeço aos professores das matérias realizadas no mestrado, que certamente contribuíram beneficamente para a realização dessa pesquisa. Agradeço aos colegas e amigos do laboratório de pesquisa, que sempre me
more »
... iaram e me deram forças nos momentos de desânimo. Agradeço ao CNPq pelo auxílio financeiro, processo n°134245/2011-3. Agradeço à FAPESP pelo auxílio financeiro, processo n°2011/05238-0, Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP). "As opiniões, hipóteses e conclusões ou recomendações expressas neste material são de responsabilidade do(s) autor(es) e não necessariamente refletem a visão da FAPESP". Resumo Palavras-chave: multimídia, detecção de cenas, descritores visuais, descritores sonoros, Bag of Visual Words i Abstract M any Computational Science areas (Content Personalization and Adaptation, Information Retrieval, among other) benefit from video segmentation in smaller information units. The literature reports lots of techniques and methods, whose goal is to identify these units. One of these techniques' limitations is that they don't handle scene detection in semantically complex segments, which are defined as video snippets that present more than one subject or theme, whose latent semantics can hardly be determined using only one media. Those segments are very relevant, since they are present in multiple video domains as movies, news and even television commercials. This Master's dissertation proposes a video scene segmentation technique able to detect scenes in semantically complex segments. In order to achieve this goal it uses latent semantics extracted by the Bag of Visual Words to group a video segments. This grouping process is based on multimodality, through the visual and aural features analysis, and their results combination using late fusion strategy. This works demonstrates technical feasibility in recognizing scenes in semantically complex segments.
doi:10.11606/d.55.2014.tde-12082014-101301
fatcat:o2oom4vsczdgrgtltpfijwtt64