Approches de classification pour le filtrage de documents importants au sujet d'une entité nommée

Ludovic Bonnefoy, Vincent Bouvier, Patrice Bellot
2014 Document Numérique  
Nous souhaitons filtrer un flux de documents web selon qu'ils mentionnent ou non une entité donnée, tout en mesurant l'importance de l'information présente concernant cette entité. Notre approche repose sur l'utilisation de classifieurs prenant en compte des indices comme la fréquence des mentions de l'entité au fil du temps et dans les documents, leurs positions ou encore la présence d'entités liées connues. Notre approche a été évaluée via les tâches "Knowledge Base Acceleration" de TREC 2012
more » ... et 2013, et classée parmi les plus performantes. ABSTRACT. Our aim is to filter a stream of Web documents according to whether they refer or not an entity, while estimating the importance of the information contained about this entity. Our approach relies on the use of classifiers taking into account features such as the frequency of the entity over time and in the documents, their positions and the presence of known related entities. Our approach was evaluated during "Knowledge Base Acceleration" tracks of TREC 2012 and 2013 and has been ranked among the best ones. MOTS-CLÉS : filtrage, entité nommée, TREC KBA, forêt d'arbres décisionnels, classification.
doi:10.3166/dn.17.1.9-36 fatcat:e2yfne4hrbbq3atibagyuqcemy