Vers une classification non supervisée basée sur un nouvel indice de connectivité Frédéric BLANCHARD, Michel HERBIN, Philippe VAUTROT CReSTIC-LERI IUT, rue des Crayères, BP 1035, F-51687 Reims Cedex 2, France frederic.blanchard@univ-reims.fr, michel.herbin@univ-reims.fr, philippe.vautrot@univ-reims.fr Résumé – Cet article présente une nouvelle approche pour la classification non-supervisée de données. Cette nouvelle méthode repose sur la construction d’un indice de connectivité et ne fait aucune hypothèse sur la forme des classes ni sur leurs effectifs. L’approche présentée constitue une alternative aux méthodes basées sur l’estimation de densité de probabilité. Abstract – This paper expose a new approach for data clustering. This new method leads on the definition of a new connectivity index. This approach is an alternative technique of density estimation based methods. 1 Introduction La classifi cation non supervisée est un domaine important de l’analyse exploratoire des données. Les développements des méthodes de classifi cation doivent beaucoup à l’évolution des capacités informatiques. L’objectif général de la classifi cation est de déterminer une partition des données (ou une réparti- tion des données en groupements) de sorte que deux données sont soit regroupées, si elles sont très semblables, soit séparées si elles sont assez différentes. Dans l’approche non supervi- sée, l’interprétation dépend naturellement du domaine d’appli- cation, et ces domaines sont nombreux : biologie, médecine, reconnaissance de formes etc... On peut distinguer deux types de méthodes de classifi cation : les méthodes hiérarchiques et les méthodes de partitionnement.[CDG + 89] Parmi les méthodes de partitionnement, de nombreuses tech- niques reposent sur l’estimation de densité de probabilité (par exemple [CM99][EKSX96][HBV96]). Dans [HBV96], Herbin et al. proposent une méthode proche de celle présentée par Hin- neburg et Keim. dans [HK98]. Comme toutes les méthodes ba- sées sur ce principe, on y suppose que les classes sont défi nies à l’aide des zones ayant localement une densité qui présente un maximum. Les maxima locaux de l’estimation de la fonc- tion de densité de probabilité (ou modes) jouent un role simi- laire aux centres dans les algorithmes de type “centres mobi- les” mais contrairement à ce genre de méthodes, aucune hy- pothèse sur les formes des classes n’est émise. Malheureuse- ment, en dépit de leur effi cacité globale, il existe des situa- tions dans lesquelles ces méthodes échouent. En effet, l’esti- mation de la densité de probabilité requiert l’utilisation d’un paramètre de lissage. Si ce paramètre de lissage (fenêtre de lissage ou bandwidth) est trop petit, l’estimation de la den- sité de probabilité est bruitée, particulièrement dans les queues de distribution [Sil86]. Ceci conduit à une surestimation du nombre de modes de la densité [HBV01], tandis qu’un lis- sage trop fort masquera certaines classes. La nécessité d’uti- liser une alternative à cette fonction de densité de probabilité nous a donc amené à construire un indice de connectivité pa- liant les faiblesses sus-citées, tout en conservant l’avantage de non-hypothèse sur les formes des classes. Notre indice de connectivité est une nouvelle fonction dont l’ ”esprit” est proche de la fonction de densité de probabilité. Le principe est le suivant : après avoir déterminé les k plus proches voisins de chaque donnée, on attribue à chaque individu de l’échantillon, le nombre de données pour lesquelles il est un des k plus proches voisins. Autrement dit, les k - ppv déterminent des voisinages pour chaque donnée de l’échantillon, et l’indice de connectivité d’une données est le nombre de voisinages aux- quels elle appartient. On peut alors utiliser cette indice dans un processus de classifi cation, à l’instar de la fonction de densité de probabilité. Cette nouvelle fonction est plus robuste (peu sensible à des points isolés très éloignés) mais ne néglige pas les classes de faible densité. Elle présente donc un grand intéret dans les situations ou l’estimation de la densité conduit à des résultats décevants. Dans la section 2 nous présenterons dans le détail la méthode de construction de l’indice de connectivité. Nous présentons ensuite, dans la partie 3, l’estimation de la densité de probabi- lité dans un contexte de classifi cation. Dans la partie 4, nous comparons l’indice de connectivité avec la de densité de pro- babilité. Enfi n, dans la section 5, une discussion est proposée avant de conclure. 2 Indice de connectivité Défi nissons maintenant l’indice de connectivité. Nos don- nées sont dans un espace métrique F p de dimension p. On défi -