Identification de documents par classification monoclasse Nicolas Sidère * — Jean-Yves Ramel ** — Sabine Barrat ** — Vincent Poulain D’Andecy *** — Saddok Kebairi *** * INSA Centre Val de Loire, LIEA 6300, 41000 Blois, France ** Université François Rabelais Tours, LI EA 6300, 37200 Tours, France *** IteSoft, Parc d’Andron, Le Séquoia, 30470 Aimargues, France RÉSUMÉ. Utilisée dans un contexte industriel, la classification d’images de documents néces- site le respect de certaines contraintes; par exemple, être confronté à une grande variabilité des documents et/ou du nombre de classes. Dans cet article, nous répondons à ce problème en présentant une nouvelle approche basée sur la spécialisation du vecteur de caractéristiques et d’un classificateur pour chaque classe, contrairement à la majorité des méthodes qui traitent l’ensemble des classes. Cette approche permet alors d’introduire de nouvelles classes sans contraindre le système à un nouvel apprentissage. Pour cela, nous calculons un vecteur de ca- ractéristiques générique qui sera ensuite spécialisé en classant les caractéristiques selon un score de stabilité. Finalement, un classificateur monoclasse de type K plus proche voisins est entrainé en utilisant ce vecteur. Les expérimentations menées révèlent de bons taux de classifi- cation prouvant une adaptabilité de notre système sur des problèmes complexes. ABSTRACT. Document image classification in an industrial context requires to respect some con- straints such as dealing with a large variability of documents and/or number of classes. In this article, we answer this problem by presenting a new methodology focused on an idea of special- izing the features and the classifier for each class, whereas most methods deal with all classes at the same time. The benefit of this approach is to enable the industrial system to introduce a new class without re-training the current classifier. We first compute a generalized vector of features in order to specialize it by ranking the features according a stability score. Finally, a one-class K-nn classifier is trained by using the specific features for a chosen class. Conducted experiments reveal good classification rates proving the ability of our system to deal with a large range of classes of documents. MOTS-CLÉS : Classification d’images de document, Classification monoclasse. KEYWORDS: Document image classification, One-class classification. CIFED 2014, pp. 277–290, Nancy, 18-21 mars 2014