Classification automatisée : rêve ou réalité ? Analyse critique de l’usage du text mining pour la conception de vocabulaires contrôlés (En cours d’évaluation pour publication) Raphaël Hubain* Seth van Hooland* Ruben Verborgh** *Université libre de Bruxelles Information and Communication Science Department Avenue F. D. Roosevelt, 50 CP 123 B-1050 Brussels, Belgium {rhubain;svhoolan}@ulb.ac.be **Ghent University – iMinds – Multimedia Lab Gaston Crommenlaan 8 bus 201 B-9050 Ledeberg-Ghent, Belgium ruben.verborgh@ugent.be Résumé L’usage du traitement automatique des langues pour la classification et l’annotation docu- mentaire reste aujourd’hui un rêve plus qu’une réalité. Pourtant, plus que jamais, les organi- sations font face à de grandes difficultés dans la gestion de leurs documents. Les vocabulaires contrôlés permettent d’organiser les contenus, mais toutes les organisations ne disposent pas de ressources suffisantes pour en implémenter. Au travers d’une étude de cas dans le secteur pharmaceutique, cet article démontre comment une organisation de taille réduite peut conce- voir un vocabulaire contrôlé et indexer sémantiquement ses contenus, et ce sans dépendance vis-à-vis d’un fournisseur de logiciel, grâce à des outils open source. Les données d’évaluation sont mises à disposition afin d’appliquer la méthodologie à d’autres domaines d’application. Mots clefs Extraction terminologique, Gestion documentaire, ISO 25964, Text mining, Vocabulaires contrôlés, SKOS. Table des matières 1 Introduction 2 2 État de l’art 3 2.1 Gestion documentaire des organisations ........................ 3 2.2 Paradigme et limites de la recherche full-text ..................... 4 2.3 L’alternative des vocabulaires contrôlés ........................ 4 2.4 Le text mining et son utilisation dans le domaine documentaire ........... 5 3 Étude de cas dans l’industrie biopharmaceutique 7 3.1 Contexte .......................................... 7 3.2 Méthodologie ....................................... 7 3.3 Évaluation des résultats ................................. 10 4 Conclusions 11 1