JADT 2002 : 6 es Journées internationales d’Analyse statistique des Données Textuelles Condensés de textes par des méthodes numériques Juan-Manuel Torres 1,2,3 , Patricia Velázquez-Morales 2 , Jean-Guy Meunier 3 1 École Polytechnique/DGI – CP 6079 Succ. Centre-ville – H3C3A7 Montréal – Canada 2 ERMETIS/Univ. du Québec – 555 Boul. de l’Université – G7H2B1 Chicoutimi – Canada 3 LANCI/Univ. du Québec – CP 8888 Succ. Centre-Ville – H3C3P8 Montréal – Canada Abstract Since information in electronic form is already a standard, and that the variety and the quantity of information become increasingly large, the methods of summarizing or automatic condensation of texts is a critical phase of the analysis of texts. This article describes Cortex a system based on numerical methods, which allows obtaining a condensation of a text, which is independent of the topic and of the length of the text. The structure of the system enables it to find the abstracts in French or Spanish in very short times. Résumé Étant donné que la variété et la quantité de l’information sous forme électronique deviennent de plus en plus grandes, des méthodes d’obtention de résumés ou de condensation automatique de textes constituent une phase critique de l’analyse de textes. Cet article décrit Cortex, un système basé sur des méthodes numériques qui permet l’obtention d’un condensé d’un texte, qui est indépendant du thème, de l’ampleur du texte et de la façon dont il est écrit. La structure du système lui permet de trouver la condensation de textes multilangues dans des temps très courts. Des applications en français ou espagnol sont présentées et analysées. Keywords: Condensés de textes, résumés automatiques, analyse de textes, catégorisation, méthodes statistiques. 1. Introduction L’information textuelle électronique s’accumule rapidement et en très grande quantité. Alors les documents sont catégorisés d’une façon très sommaire. Le manque de standards est un facteur critique, et tous les analyses des textes (dépistage, exploration, récupération, résumés, etc.) sont des taches extrêmement difficiles (Torres-Moreno et al., 2000). C’est pourquoi des méthodes d’obtention de résumés automatique de textes constituent une phase cruciale de l’analyse de textes. Les méthodes linguistiques sont pertinentes dans ces tâches, mais leur utilisation con- crète demeure encore difficile (en raison de plusieurs facteurs comme l’ampleur, la dynamique des corpus) ou limitée à des domaines restreints (Saggion and Lapalme, 2000). D’un autre côté, des méthodes statistique-neuronales sont de plus en plus utilisées dans plusieurs domaines du traitement de l’information textuelle (Salton, 1971; Salton and McGill, 1983; Deerwester et al., 1990; Leloup, 1997; Veronis et al., 1991; Balpe et al., 1996; Torres-Moreno et al., 2000; Mem- mi et al., 1998; Meunier and Nault, 1997; Memmi and Meunier, 2000). Cet article présente un étude basé sur l’approche vectorielle des textes (Salton and McGill, 1983) pour obtenir des con- densés pertinents de documents. La forme la plus connue et la plus visible de la condensation de textes est le résumé, représentation abrégée et exacte du contenu d’un document (ANSI, 1979). Étant donné que l’état de l’art ne permet d’obtenir que de résumés informatifs (Morris et al., 1999), nos recherches porteront sur l’obtention de ce type de condensés. Nous allons présen- ter un algorithme récemment développé. Il s’agit d’une chaîne de traitement numérique qui