Attribution automatique de mots clés à des articles scientifiques Un système hybride d'attribution automatique de mots clés aux articles scientifiques Adil El Ghali 1,2 , Kaoutar El Ghali et Daniel Hromada 2,3 1 IBM CAS France, 9 rue de Verdun, 94253 Gentilly 2 LUTIN UserLab, 30, avenue Corentin Cariou, 75930 Paris cedex 19 {elghali,hromada}@lutin-userlab.fr 3 Faculty of Electrical Engineering and Information Technology, Slovak University of Technology in Bratislava Résumé : Nous présentons un système hybride d'attribution automatique des mots-clés à aux articles scientifiques. Le système opère sur trois niveaux: le niveau « morphosyntaxique » où les traitements comme la lemmatisation et le chunking sont effectués; le niveau « sémantique » où les distances entre mots candidats sont mesurées dans l'espace vectoriel construit grâce à la méthode Random Indexing et le niveau le plus « pragmatique » ou plusieurs variables exogènes sont prises en compte par des réseaux bayésiens. Les trois niveaux sont enfin intégrés par un ensemble de règles de production. L'évaluation du système dans le cadre de Défi de Fouille de Textes 2012 attribua au système une F-mesure de 0.9488 dans le cas où une terminologie était fournie et une F-mesure de 0.5874 pour la tâche sans terminologie. Mots-clés : extraction de mots clés, espaces sémantiques, Random Indexing, réseaux bayésien, traitement holistique des données textuelles 1 Introduction Avec l’explosion du nombre de publications scientifiques mises en ligne dans des librairies virtuelles, il devient nécessaire d’offrir aux utilisateurs des moyens de naviguer et de rechercher les articles dont ils ont besoin. Certains scénarios définis dans ce cadre par le W3C 1 nécessitent un module d’attribution de mots-clés à des articles scientifiques. Ce module doit pouvoir annoter les articles en utilisant des termes en provenance de plusieurs thésaurus 2 aussi bien que d’extraire directement les mots-clés du contenu des articles. La tâche d'attribution automatique des mots clés pour un corpus d'articles scientifiques devient 1 http://www.w3.org/2005/Incubator/lld/charter 2 http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Browsing_And_Searching_In_Repositories_With_Different_Thesauri