Extraction de l'information implicite par analyse textuelle de sites Web en UNICODE EXTRACTION DE L'INFORMATION IMPLICITE PAR ANALYSE TEXTUELLE DE SITES WEB EN UNICODE

Bernard Dousset, Bernard Dousset
unpublished
Mots-clés : UNICODE, langues étrangères, information implicite, signaux faibles, information semi structurée, fouille de données, fouille de texte. Palabras clave : UNICODE, lenguas extranjeras, información implícita, señales débiles, semi-estructuradas información, minería de datos, minería de texto. Résumé Afin de diversifier les sources d'information que permet de traiter notre plate-forme "Tétralogie" dédiée à la veille stratégique, nous nous proposons de l'adapter, dans un premier temps,
more » ... un premier temps, au traitement de la langue chinoise en nous basant sur son codage informatique en UNICODE. Il est alors possible de travailler sur des segments de texte repérés dans les différents dictionnaires disponibles (généraux ou spécifiques d'un domaine) et que nous pouvons alimenter par le traitement de bases d'information semi structurées et balisées en champs sémantiques : auteurs, mots-clés, organismes, journaux, ... Par la suite, des langues comme le japonais, le coréen, l'arabe seront abordées suivant le même principe, une exploitation multilingue pouvant même être envisagée via l'anglais ou un autre langage pivot. Abstract In order to diversify the sources of information that can handle our platform "Tetralogie" dedicated to the business intelligence, we will adapt, as a first step, treatment of the Chinese language by using computer coding UNICODE. It is then possible to work on text segments identified in the various available dictionaries (general or specific domain) and we can feed the processor databases and semi-structured semantic marked fields: authors, words key agencies, newspapers, ... As a result, languages such as Japanese, Korean, Arabic will be addressed on the same principle, a multilingual exploitation can be seen via the English language or another pivot.
fatcat:wweo3qsmz5fedo4fooibxbgefe