Categorización de textos utilizando análisis stringkernel e indexación semántica latente: Aplicación de textos de propiedades medicinales de plantas

Augusto Cortez Vásquez
2017 Paideia  
Debido a la abundante información existente se hace necesario organizar, mantener y procesar toda información disponible a partir de un conocimiento más profundo del lenguaje. Un clasificador de textos (CT) consiste en etiquetar un texto o documento con una o varias categorías temáticas predefinidas. El enfoque de clasificación considera que dado un conjunto de documentos D y un conjunto de categorías C, encontrar una función haga corresponder a un documento d tomado de D, una categoría
more » ... ada c en C. Para ello realiza un análisis léxico que identifique las subsecuencias de lexemas de d; luego, mediante un análisis stringkernel encuentre el grado de similitud entre dos textos.Dos textos son más similares mientras tengan más subsecuencias en común.
doi:10.31381/paideia.v4i5.913 fatcat:mwpwmsxp6bh5xdztmgxulmph5y