UN ALGORITMO GENÉTICO PARA SELECCIÓN DE KERNEL EN ANÁLISIS DE COMPONENTES PRINCIPALES CON KERNELS

J Aurora, Montano Rivas, Sergio Cerrillo
2014 REVISTA INVESTIGACIÓN OPERACIONAL   unpublished
Principal Component Analysis with Kernels (KPCA) is an extension of Principal Component Analysis (PCA which is basically a PCA on the original data after they were sent, via a non-linear transformation, to a space called the feature space. The key for a successful KPCA is to extract directions of maximum variability in the transformed data and then identify these directions with patterns of maximum variability of the original data. However, there are situations for which KPCA is not sufficient
more » ... is not sufficient to detect these directions of maximum variability. In this work we address this problem: we build a convex space of kernels obtained from the set of all convex linear combinations of a fixed set of kernels. In this space we find the optimal kernel defined by that which produces the largest percentage of explained variance by a KPCA. This optimization problem consists of finding the coefficients of the convex linear combination of the optimal kernel. We solve the convex optimization problem with a genetic algorithm. The proposal is illustrated producing a ranking of the 210 municipalities in the State of Veracruz using 10 socioeconomic variables. The proportion of explained variance by the first component of a PCA is 56%. With our proposal, the first principal component of the ACPK extracts 99% of the variability in the feature space. MSC: 62H25 RESUMEN El Análisis de Componentes Principales con Kernels (ACPK) es una extensión del Análisis de Componentes Principales (ACP) que consiste en enviar los datos mediante una transformación no lineal, a otro espacio, llamado el espacio de las características, y realizar el ACP en este espacio. La clave del éxito del ACPK está en lograr la extracción de direcciones de máxima variabilidad en el espacio de las características y luego identificar estas direcciones con las direcciones (no lineales) de variabilidad de los datos en el espacio original. Sin embargo, existen situaciones donde el ACPK no es suficiente para detectar estas direcciones no lineales de máxima variabilidad. En este trabajo construimos un espacio convexo de kernels formado por todas las combinaciones lineales convexas de un conjunto fijo de kernels. En este espacio encontramos el kernel óptimo definido por aquel que proporciona el porcentaje de varianza relativa explicada más alto después de hacer el ACPK. Este problema de optimización se traduce en encontrar los coeficientes de la combinación lineal convexa que determinan el kernel óptimo. El problema de optimización lo resolvemos con un algoritmo genético. La propuesta se ilustra con el ordenamiento que produce el ACPK con el primer componente principal de los 210 Municipios del Estado de Veracruz medidos en 10 indicadores socioeconómicos. La proporción de varianza explicada por el primer componente principal de un ACP es de 56% mientras que con nuestra propuesta, el primer componente principal del ACPK extrae 99% de la variabilidad en el espacio de las características. 1. INTRODUCCIÓN Las técnicas de análisis multivariado funcionan adecuadamente bajo ciertas configuraciones geométricas de los datos. Por ejemplo, en discriminación es ideal que los grupos se puedan separar mediante hiperplanos. En el análisis de componentes principales (ACP) los datos se proyectan ortogonalmente sobre direcciones de máxima variabilidad que sean a la vez ortogonales entre ellas. En este caso el ACP funciona adecuadamente si los datos forman una nube de puntos con forma de hiperelipsoide y las direcciones de máxima variabilidad son los ejes principales del hiperelipsoide determinado por la forma cuadrática definida por la matriz de varianzas y covarianzas de los datos (Johnson et al., 1999). 1 julmontano@uv.mx, sejuarez@uv.mx
fatcat:sskzsck3cjgrrpiedgvrjepkzq