JADT 2004 : 7 es Journées internationales d’Analyse statistique des Données Textuelles Quantité d’information échangée : une nouvelle mesure de la similarité des mots Cédrick Fairon 1 , Ngoc-Diep Ho 2 1 UCL – FLTR – CENTAL – 1348 Louvain-la-Neuve – Belgique 2 UCL – FSA – INMA – 1348 Louvain-la-Neuve – Belgique fairon@tedm.ucl.ac.be, ho@inma.ucl.ac.be Abstract There are a lot of methods for measuring semantic similarity between words that are based on different approaches. This document proposes a method based on the analyses of a dictionary. The definitions of words in the dictionary create a network. Its nodes are the headwords found in the dictionary and its edges represent rela- tions between a headword and the words found in its definitions. The meaning of a word is defined by the total quantity of information, which each element of its definition contributes in. The similarity between two words is defined by the maximal quantity of information exchanged between them through the network. In order to assess the performance, our measure of similarity will be compared with others measures and some applications based on our similarity will be also constructed. Résumé Il existe beaucoup de méthodes pour mesurer la similarité entre mots et ces méthodes se basent souvent sur des approches différentes. La recherche que nous présentons a pour but de proposer une nouvelle méthode basée sur l’analyse d’un dictionnaire. Les définitions du dictionnaire créent un réseau dont les nœuds sont les entrées lexi- cales du dictionnaire, les arcs sont des liens représentants la relation entre une entrée et les mots de ses défini- tions. Le sens d’un mot dépend de la quantité totale d’information que chaque mot dans sa définition va lui communiquer. La similarité entre 2 mots est définie par la Quantité d’Information Echangée (QIE) entre 2 mots, à travers le réseau. Notre mesure de similarité sera comparée avec d’autres mesures et quelques applications basées sur cette mesure seront réalisées. Mots-clés : similarité de mots, extraction de synonymes, filtre sémantique, flot maximal. 1. Introduction Dans les dictionnaires explicatifs comme le Petit Robert, on trouve très souvent des syno- nymes ou des antonymes pour un mot quelconque. Par exemple, le mot « maison » et le mot « logement » sont synonymes, le mot « maison » et le mot « abri » sont aussi synonymes. Mais, comment peut-on dire que la connexion entre « maison » et « logement » est plus forte que celle entre « maison » et « abri » ? La réponse à cette question implique la notion de similarité des mots qui peut se représenter par une valeur scalaire qui définit comment 2 mots se relient. Plus concrètement, si la similarité entre le mot m 1 et le mot m 2 est quantifiée par sim(m 1 , m 2 ), on peut dire que « maison » est plus proche de « logement » que de « abri » si on a sim(maison, logement) > sim(maison, abri) et vice versa. La formalisation et la quantification de la similarité des mots ont été introduites depuis très longtemps. Cela remonte au moins à l’époque d’Aristote (384 – 322 B.C) (Budanisky, 1999), mais ces préoccupations n’avaient pas, jusqu’à il y a peu, trouvé beaucoup d’applications concrètes.