Chemins de r´egularisation pour la r´egression ν -SVR Gilles Gasso, Karina Zapien, St´ephane Canu LITIS, EA 4108 Avenue de l’Universit´e, BP 76801 Saint-Etienne du Rouvray, France {gilles.gasso, karina.zapien, stephane.canu}@insa-rouen.fr R´esum´e– L’article d´ecrit le calcul des chemins de r´egularistion de l’algorithme ν -SVR. Dans la formulation classique de cet algorithme, l’utilisateur fournit deux hyper-param`etres : ν qui d´etermine la largeur du tube du coˆ ut ǫ-insensible optimis´e par le SVR et le param`etre de r´egularisation λ qui r`egle le compromis entre la r´egularit´e de la fonction de r´egression et l’erreur. L’article pr´esente une fa¸con efficace d’explorer l’ensemble des solutions losrque les hyper-param`etres varient. Abstract – The paper describes the computation of the full paths of the well-known ν -SVR. In the classical method, the user provides two parameters: the regularization parameter λ and ν which settles the width of the tube of the ǫ-insensitive cost optimized by SVR. The paper proposes an efficient way to get all the solutions when ν and λ vary. 1 Introduction L’approche SVR (Support vector regression) est une tech- nique maintenant bien connue pour traiter les probl`emes de r´egression [1]. Elle d´ecoule directement des principes des algorithmes de type machine `a vecteur support. Dans cette approche, on minimise un coˆ ut de type L 1 dit ǫ- insensible (d´efini par max (0, |y − f (x)|− ǫ)) avec une p´e- nalisation ‖f ‖ 2 . Le compromis entre l’erreur et la p´enalit´e sur la r´egularit´e de f est assur´e par un param`etre de r´e- gularisation λ qui est `a choisir. En plus de λ, l’utilisateur doit fournir la valeur ǫ de la largeur du tube. En g´en´eral, pour une application donn´ee, il est diffi- cile de sp´ecifier la bonne valeur de ǫ. Pour contourner ce probl`eme, l’approche ν -SVR a ´et´e introduite et permet la d´etermination automatique de ǫ [1]. De plus 0 ≤ ν ≤ 1a une interpr´etation intuitive car elle d´efinit la borne inf´e- rieure de la proportion du nombre de points supports (ce qui introduit la parcimonie de la fonction de r´egression) et la borne sup´erieure de la proportion de points pouvant ˆetre en dehors du tube. Malgr´e l’interpr´etation qu’on peut associer `a la valeur de ν , son choix automatique par l’uti- lisateur pour une application donn´ee reste probl´ematique. Plusieurs travaux ont ´et´e d´edi´es au choix des deux hyper- param`etres. Certains reposent sur une recherche en grille (grid search) dans l’espace des hyper-param`etres coupl´ee avec l’exploitation de mesures de performances comme le crit`ere de validation crois´ee ou des crit`eres sur les bornes [2] pour aider au choix du bon mod`ele. D’autres m´ethodes font appel `a l’optimisation non-lin´eaire de crit`ere de vali- dation crois´ee par rapport aux hyper-param`etres [3]. Tout r´ecemment de nouvelles approches ont ´et´e´etudi´ees et sont bas´ees sur le calcul du chemin de r´egularisation [4, 5] c’est-` a-dire le calcul d’une fa¸ con rapide de toutes les solutions optimales lorsque le param`etre de r´egularisation varie. En partant d’une solution initiale, les param`etres de la solution suivante sont simplement obtenus en r´esolvant un syst`eme lin´eaire. Compte tenu de l’efficacit´e de ces al- gorithmes, nous proposons ici de les adapter au choix des hyper-param`etres du ν -SVR. Ceci nous conduit `a propo- ser deux chemins de r´egularisation (λ-chemin et ν -chemin) pour explorer l’espace des hyper-param`etres. La suite de l’article d´ecrit le calcul des chemins de r´e- gularisation et leurs tests sur quelques applications. 2 Formulation du ν -SVR On dispose d’un ensemble de N donn´ees d’apprentissage {(x i ,y i ) ∈X× R}. La m´ethode de r´egression ν -SVR est bas´ee sur l’optimisation du coˆ ut ǫ-insensible L(y,f (x)) = max(0, |y − f (x)|− ǫ) repr´esent´e sur la figure 1. 0 0 0.5 1 1.5 2 Résidus : r = y-f(x) Coût ε-insensible I α I 0 I α -ε +ε =1 I α* * I α =1 -2ε -3ε 3ε 2ε Fig. 1 – Illustration du coˆ ut ǫ-insensible La formulation primale du probl`eme s’´ecrit : min f,ǫ,ξ,ξ * λ 2 ‖f ‖ 2 H + νǫ + ∑ N i=1 (ξ i + ξ ∗ i ) s.c. − ǫ − ξ i ≤ y i − f (x i ) ≤ ǫ + ξ ∗ i , ∀i =1,...,N ξ i ≥ 0, ξ ∗ i ≥ 0, ∀i =1,...,N et ǫ ≥ 0 o` u λ est le param`etre de r´egularisation et f (x), la fonction de r´egression suppos´ee appartenir `a un espace de Hilbet `a noyau reproduisant H. Remarquons que dans cette formulation, le param`etre ν varie entre 0 et N au lieu de l’intervalle [0, 1]. Par cons´e- quent, ν d´etermine la borne sup´erieure du nombre de points pouvant se trouver `a l’ext´erieur du tube et une borne inf´erieure sur le nombre de points supports de la fonc- tion de r´egression. Cette derni`ere donn´ee par l’expression f (x)= 1 λ ∑ N i=1 (α ∗ i − α i )k(x i ,x)+b est la solution du pro- bl`eme primal. Dans cette ´equation, k(., .) est la fonction noyau et les α i et α ∗ i repr´esentent les multiplicateurs de Colloque GRETSI, 11-14 septembre 2007, Troyes 1265