- 1 - 5 e Colloque transfrontalier CLUSE Risques majeurs: perception, globalosation et management Université de Genève, 21-22 septembre 2000 Axe 2: Management des risques, dispositif de sécurité et principe de précaution Application des méthodes d’apprentissage pour l’étude des risques de pollution dans le Lac Léman. Nicolas GILARDI 1,2 , Alex GAMMERMAN 3 , Mikhail KANEVSKI 2,3 , Michel MAIGNAN 1 , Tom MELLUISH 3 , Craig SAUNDERS 3 , Volodia VOVK 3 1 : Institut de Minéralogie, Université de Lausanne, Lausanne, Suisse 2 : Institut Dalle Molle d’Intelligence Artificielle Perceptive (IDIAP), Martigny, Suisse 3 : Department of Computer Science, Royal Holloway, University of London, Egham, UK 4 : Institute of Nuclear Safety (IBRAE), Moscow, Russia Introduction Depuis quelques années, de nouvelles méthodes d’apprentissage se développent sur la base de la Théorie de l’Apprentissage Statistique (Statistical Learning Theory) de Vapnik et Chervonenkis [Vapnik, 1995]. L’une de ces méthodes, appelée Machine à Vecteur de Support ou SVM (Support Vector Machine) [Cortes et al., 1995], permet de réaliser des estimations en classification (à deux classes ou plus) [Burges, 1998] ou en régression [Smola et al., 1998]. De telles méthodes permettent généralement de s’affranchir de contraintes statistiques sur les données étudiées comme la normalité de la distribution. De plus, elles sont non linéaires ce qui leur donne un pouvoir de généralisation supérieur dans certains cas, aux méthodes de régressions plus classiques. Cependant, ces méthodes, comme beaucoup d’autres, ne permettent pas d’obtenir d’intervalle de confiance sur l’estimation effectuée. Ce problème est résolu par les méthodes de « transduction universelle » développées à l’Université du Royal Holloway [Gammerman et al., 1998]. Sur la base d’une méthode de classification ou de régression quelconque, ces méthodes permettent d’établir une probabilité de dépasser une valeur donnée. Dans ce document, nous présenterons tout d’abord une théorie de la classification avec les SVM puis les résultats de l’utilisation de cette méthode pour l’étude de la pollution des sédiments du Lac Léman. Ensuite, nous expliquerons les grandes lignes du principe de la méthode de transduction développée par les chercheurs du Royal Holloway. Et en conclusion, nous montrerons comment ces deux méthodes peuvent, de par leur principe même, se révéler complémentaires dans le développement de cartes de risque. Théorie des Support Vector Machines Les Support Vector Machines sont une classe d’algorithmes basés sur le principe de minimisation du « risque structurel » décrit par la Théorie de l’Apprentissage Statistique de Vapnik et Chervonenkis [Vapnik, 1995] [Schölkopf et al., 1999].