Un algorithme de classification topographique non supervisée à deux niveaux simultanés Guénaël Cabanes, Younès Bennani LIPN-CNRS, UMR 7030, Université de Paris 13 99, Avenue J-B. Clément 93430 Villetaneuse - FRANCE {cabanes, younes}@lipn.univ-paris13.fr Résumé. Une des questions les plus importantes pour la plupart des applica- tions réelles de la classification est de déterminer un nombre approprié de grou- pes (clusters). Déterminer le nombre optimal de groupes est un problème diffi- cile, puisqu’il n’y a pas de moyen simple pour connaître ce nombre sans connais- sance à priori. Dans cet article, nous proposons un nouvel algorithme de classi- fication non supervisée à deux niveaux, appelé S2L-SOM (Simultaneous Two- level Clustering - Self Organizing Map), qui permet de déterminer automati- quement le nombre optimal de groupes, pendant l’apprentissage d’une carte auto-organisatrice. L’estimation du nombre correct de “clusters” est en relation avec la stabilité de la segmentation et la validité des “clusters” générés. Pour mesurer cette stabilité nous utilisons une méthode de sous-échantillonnage. Le principal avantage de l’algorithme proposé, comparé aux méthodes classiques de classification, est qu’il n’est pas limité à la détection de groupes convexes, mais est capable de détecter des groupes de formes arbitraires. La validation expérimentale de cet algorithme sur un ensemble de problèmes fondamentaux pour la classification montre sa supériorité aux méthodes standards de clas- sification à deux niveaux comme SOM+K-Moyennes et SOM+Hierarchical- Agglomerative-Clustering. 1 Introduction La classification non supervisée, ou clustering, est un outil très performant pour la détec- tion automatique de sous-groupes pertinents (ou clusters) dans un jeu de données, lorsqu’on n’a pas de connaissances à priori sur la structure interne de ces données. Les membres d’un même cluster doivent êtres similaires entre eux, contrairement aux membres de clusters dif- férents (homogénéité interne et séparation externe). La classification non supervisée joue un rôle indispensable pour la compréhension de phénomènes variés décrits par des bases de don- nées. Un problème de regroupement peut être défini comme une tâche de partitionnement d’un ensemble d’items en un ensemble de sous-ensembles mutuellement disjoints. La classification est un problème de regroupement qui peux être considéré comme un des plus compétitif en ap- prentissage non-supervisé. De nombreuses approches on été proposées (Jain et Dubes, 1988). Les approches les plus classiques sont les méthodes hiérarchiques et les méthodes partitives.