Classification de documents Multimédia : vers une approche générale Ismaïl Biskri, Louis Rompré, Lamri Laouamer & François Meunier LAMIA – DMI - Université du Québec à Trois Rivières, Trois-Rivières (QC), Canada. Abstract In this article, we will present a generalization of numerical classification applied to the text, the image and the sound. The concept of n-grams, which since recent research, gives good results in the identification of the language, lexical clarification, complex terms learning or in the analysis of the analysis of speech, will be privileged to recognize the units of information describing the objects to be classified. This fact enables us to foresee an approach of classification less dependent on certain constraints connected to the support and the encoding of information. Résumé Dans cet article, nous présenterons une généralisation de la classification numérique appliquée au texte, à l’image et au son. La notion de n-grams, qui avec les recherches récentes, donne de bons résultats dans l’identification de la langue, la désambiguïsation lexicale, l’apprentissage des termes complexes ou dans l’analyse de l’oral, sera privilégiée pour reconnaître les unités d’information descriptrices des objets à classifier. Ce qui nous permet d’entrevoir une approche de classification moins dépendante de certaines contraintes reliées au support et à l’encodage de l’information. Mots clés : classification, n-grams, texte, image, son. 1. Introduction L’information de nos jours prend plusieurs formes. La langue, l’encodage, ou le type de l’information deviennent de plus en plus hétérogène. L’information textuelle, peu importe la langue de rédaction, est la plus répandue certes, cependant avec l’essor de l’Internet et des outils multimédias, celle-ci n’est plus la seule à véhiculer la connaissance. Le son et l’image prennent de plus en plus d’importance. Ne dit-on pas que dans certains cas une image vaut mille textes ? Cet état de fait a pour conséquence une nécessité de plus en plus perceptible de développer des outils à même de permettre de traiter l’image et le son, de les indexer, de les retrouver dans une base de données, de reconnaître leur forme, etc. (Goodrum, 2000) (Downie, 1999). Aussi un rapide tour de l’état de l’art nous apprend, par exemple, que l’indexation fait actuellement l'objet de recherches très abondantes dans le domaine de l’analyse de texte, du traitement de l’image, de la vision par ordinateur ou de l’analyse du son. Il est proposé plusieurs méthodes pour associer à un texte, à une image ou à un son un ensemble de descripteurs de son contenu, dans le but de mesurer la ressemblance avec les descripteurs correspondant à une requête. La reconnaissance et la classification ne sont pas en reste. En effet plusieurs recherches leur ont été consacrés avec différentes techniques soit déterministes (symboliques) soit probabilistes (réseaux de neurones et classification) ou même encore des techniques basées sur des transformations mathématiques de morphologie tels que la