Uma Comparação Empírica de Métodos de Redução de Dimensionalidade Aplicados a Visualização de Dados
Cláudio J. F. de Medeiros, José Alfredo F. Costa
2008
Learning and Nonlinear Models
Resumo Avanços tecnológicos e redução de custos nos sistemas de aquisição e armazenamento de dados estão oferecendo grandes oportunidades para o desenvolvimento e aplicação de novos métodos de reconhecimento de padrões e mineração de dados. Porém, fatores como tamanho das bases de dados, dimensionalidade, problemas de escalonamento e a necessidade descoberta dos padrões escondidos nas massas de dados acrescentam dificuldades à complexa tarefa de análise de dados. Na maioria dos casos a
more »
... ade do espaço de atributos em tais bases de dados não permite aproximações dedutivas e baseadas em modelos estatísticos tradicionais. Métodos eficientes de redução de dimensionalidade são importantes não apenas para viabilizar a visualização de dados em dimensões adequadas para a percepção humana como também em sistemas automáticos de reconhecimento de padrões, como por exemplo, na eliminação de características redundantes. Este trabalho apresenta comparações qualitativas e quantitativas dos métodos Análise de componentes principais (PCA), projeção de Sammon, redes auto-associativas (RNA-AA), mapas autoorganizáveis (SOM), Isomap e LLE. Todos esses são métodos não-supervisionados de redução de dimensionalidade. Testes foram realizados em bases de dados disponíveis na literatura, Wine, Syntethic Control e Animals. Particularmente, os testes enfocaram projeções bidimensionais Os resultados retratam dois aspectos das projeções em dimensão reduzida: a qualidade das visualizações gráficas obtidas e a quantificação do grau de fidelidade topológica das projeções. Com relação ao segundo aspecto, os autores propõem, neste artigo, dois índices que buscam quantificar a preservação das vizinhanças nas projeções em baixa dimensão. Palavras-Chave: Redução de dimensionalidade; Projeções; Visualização; Mineração de dados; Sistemas Adaptativos. Trabalhos relacionados Há alguns trabalhos relacionados à comparação de métodos de redução de dimensionalidade (RD). Em 1997, Balachander et al [27] apresentaram um estudo comparativo de quatro métodos de RD, três deles não supervisionados (PCA, SOM e rede MLP-AA) aplicados à classificação de padrões. Os resultados foram aferidos de forma indireta, pela taxa de acerto da classificação binária de amostras de uma análise citológica. Em 1998, Backer et al [28] realizaram comparações entre quatro métodos não supervisionados (MDS clássico, projeção de Sammon, SOM e rede MLP-AA) também voltadas para tarefas de classificação. Os testes utilizaram três bases de dados (uma artificial e duas bases de texturas) e novamente os resultados se basearam no percentual de acertos de um classificador k-NN (k vizinhos mais próximos) aplicado aos dados reduzidos. Em 2007, Yin [10] apresentou uma revisão geral dos métodos de redução de dimensionalidade e realizou uma comparação especificamente entre seis deles: PCA, Sammon, SOM, Isomap, LLE e ViSOM (uma variante do SOM). Os experimentos constituíam-se em projetar um conjunto de dados artificial de três para duas dimensões. Os dados tridimensionais de entrada estavam distribuídos uniformemente num manifold contínuo em forma de "S". As comparações basearam-se nas visualizações gráficas dos dados bidimensionais de saída. Em 2008, van der Maaten et al [9] apresentaram um relatório de uma análise comparativa que incluiu doze métodos de redução de dimensionalidade, aplicando-os a cinco bases artificiais e cinco bases naturais. Mais uma vez, a avaliação baseou-se nos erros de generalização de um classificador k-NN, aplicado às projeções fornecidas por cada um dos métodos. Os autores não incluíram, nesse estudo, o algoritmo SOM nem qualquer das suas variantes, como GTM, G-SOM, E-SOM, etc., por não considerá-lo propriamente um método de redução de dimensionalidade.
doi:10.21528/lnlm-vol6-no2-art1
fatcat:xhwlag5z3zg3zkvlcvdaepncd4