Classiﬁeur naïf de Bayes pondéré pour ﬂux de données C. Salperwyck * , V. Lemaire ** , C. Hue ** * Powerspace, 13 rue Turbigo, 75002 Paris ** Orange Labs, 2 avenue Pierre Marzin, 22300 Lannion Résumé. Un classiﬁeur naïf de Bayes est un classiﬁeur probabiliste basé sur l’application du théorème de Bayes avec l’hypothèse naïve, c’est-à-dire que les variables explicatives (X i ) sont supposées indépendantes conditionnellement à la variable cible (C). Malgré cette hypothèse forte, ce classiﬁeur s’est avéré très efﬁcace sur de nombreuses applications réelles et est souvent utilisé sur les ﬂux de données pour la classiﬁcation supervisée. Le classiﬁeur naïf de Bayes né- cessite simplement en entrée l’estimation des probabilités conditionnelles par variable P (X i |C) et les probabilités a priori P (C). Pour une utilisation sur les ﬂux de données, cette estimation peut être fournie à l’aide d’un « résumé super- visé en-ligne de quantiles ». L’état de l’art montre que le classiﬁeur naïf de Bayes peut être amélioré en utilisant une méthode de sélection ou de pondération des variables explicatives. La plupart de ces méthodes ne peuvent fonctionner que hors-ligne car elles nécessitent de stocker toutes les données en mémoire et / ou de lire plus d’une fois chaque exemple. Par conséquent, elles ne peuvent être uti- lisées sur les ﬂux de données. Cet article présente une nouvelle méthode basée sur un modèle graphique qui calcule les poids des variables d’entrée en utilisant une estimation stochastique. La méthode est incrémentale et produit un classi- ﬁeur Naïf de Bayes Pondéré pour ﬂux de données. Cette méthode est comparée au classique classiﬁeur naïf de Bayes sur les données utilisées lors du challenge « Large Scale Learning ». 1 Introduction Pour les données hors-ligne, des méthodes d’extractions de connaissances performantes et éprouvées depuis plusieurs années existent. Différents types de classiﬁeurs ont été proposés : plus proches voisins, bayésien naïf, SVM, arbre de décision, système à base de règles... Mais avec l’apparition de nouvelles applications comme les réseaux sociaux, la publicité en-ligne, les données du Web... la quantité de données et leurs disponibilités ont changé. Les données auparavant facilement disponibles et pouvant tenir en mémoire (données hors-ligne) sont de- venus massives et visibles une seule fois (ﬂux de données). La plupart des classiﬁeurs, prévus pour fonctionner hors-ligne, ne peuvent généralement pas s’appliquer directement sur un ﬂux de données. Depuis les années 2000, l’extraction de connaissances sur ﬂux de données est devenue un sujet de recherche à part entière. De nombreux travaux traitant cette nouvelle problématique ont été proposés (Salperwyck et Lemaire, 2011; Gama, 2010). Parmi les solutions aux problèmes