Classification de courriers électroniques. Une approche par apprentissage basée sur des modèles linguistiques

Omar Nouali, Alain Regnier, Philippe Blache
2005 Revue d'intelligence artificielle : Revue des Sciences et Technologies de l'Information  
Nous proposons une double amélioration des systèmes de filtrage de courriels existants. D'une part, en utilisant une méthode d'apprentissage automatique permettant à un système de filtrage d'élaborer des profils utilisateur. D'autre part, nous utilisons un ensemble de connaissances linguistiques sous forme de modèles réduits issues de modèles linguistiques de textes. Dans ce contexte, nous cherchons à évaluer si l'utilisation de connaissances et de traitements linguistiques peut améliorer les
more » ... rformances d'un système de filtrage. En effet, nous utilisons, au-delà des caractéristiques lexicales, un ensemble d'indicateurs sur le message portant sur la structure et le contenu. Ces connaissances sont indépendantes du domaine d'application et la fiabilité repose sur l'opération d'apprentissage. Pour tenter de statuer sur la faisabilité de notre approche et d'évaluer son efficacité, nous l'avons expérimenté sur un corpus de 1 200 messages. Nous présentons les résultats d'un ensemble d'expériences d'évaluation. ABSTRACT. We propose a two-fold improvement to the existing e-mail filtering systems : firstly, by using an automatic learning method which will allow the filtering system to create user profiles. Secondly, we use a set of linguistic information in the form of reduced models, based on linguistic models of texts. In this area we aim to evaluate if using linguistic information and analysis can improve the performance of a filtering system. Indeed, as well as using lexical characteristics, we use a range of indicators based on structure and content of the messages. This information is independent to the application domain and reliability depends on the learning operation. In order to evaluate the feasibility of our approach and its reliability, we have experimented with a corpus of 1200 messages. We present here the results of a set of evaluation experiments. MOTS-CLÉS : filtrage d'information, apprentissage automatique, modèles linguistiques réduits. Professionnel appel a communication, cher collègue, comite de lecture, comite de programme, comite d'organisation, critères de sélection, date limite de soumission, journées d'étude, salutations distinguées, final camera, ready copy, method of submission, notification of acceptance, notification of workshops, notification to authors, organized by, organizing committee, paper submission, paper submission form, selection criteria, submitted papers...
doi:10.3166/ria.19.885-912 fatcat:lb4u7fzalbbobff2arljhlplme