JADT 2000 : 5 es Journées Internationales d’Analyse Statistique des Données Textuelles Nature et formation de classes sémantiques de verbes pour l'extraction de connaissances dans des textes: Esquisse d'une approche statistico-symbolique. Alda Mari (1), Patrick Saint-Dizier (2) (1) EHESS, 9, rue de Mezieres, 75006 Paris France Alda.Mari@ehess.fr (2) IRIT - CNRS, 118 route de Narbonne, 31062 Toulouse France stdizier@irit.fr Abstract In this document we present a method for classifying verb-senses and for associating with each class, of an appropriate granularity, a set of symbolic and statistical elements that allow for an efficient and accurate knowledge extraction procedure from various types of texts. We concentrate here on predicate-argument structures and introduce a method that combines statistical observations with symbolic descriptions. Mots clés: Sémantique lexicale, extraction de connaissances dans des textes, formation de classes de verbes 1. Problématique Notre objectif sur le long terme est l' extraction de connaissances dans des textes, a priori de tout type, mais plutôt ' structurés' tels que des textes scientifiques ou journalistiques. Nous nous intéressons en particulier aux événements relatés dans ces textes, plutôt qu' aux informations `descriptives' . Ces dernières sont en effet souvent représentées par des structures nominales alors que les événements sont essentiellement pris en compte par des prédicats, dont en grande partie des verbes. Notre objectif est donc de pouvoir extraire des structures verbe-arguments dans des textes et de leur associer une représentation sémantique, relativement superficielle, mais qui va nettement au-delà de mot-clés, même structurés. Pour réaliser cet objectif, il faut dans un premier temps mener une réflexion sur la structure des formes prédicatives, dans le cadre d' une théorie du sens ou de la représentation du sens qui soit adéquate par rapport à nos objectifs. Les exigences de l' extraction de connaissances, dans l' état actuel de l' art, nous conduisent à tenter de regrouper les verbes en petites familles ayant des sens et des réalisations linguistiques apparentées. Le but est d' homogénéiser l' extraction des arguments et la représentation du sens produite. En complément, et au préalable, il faut adopter une stratégie pour délimiter les `sens' d' unités lexicales polysémiques. Le travail présenté ici est effectué sur le français et s' appuie sur plusieurs travaux antérieurs menés dans notre laboratoire sur l' analyse et la formation de classes sémantiques de verbes. Notre contribution dans ce document consiste en (1) une prise en compte fine par les biais symboliques et statistiques de la variété des réalisations linguistiques d' un sens de verbe donné (en particulier les formes métonymiques et métaphoriques) afin d' améliorer l' identification des sende ' base' rencontrés dans les textes, (2) une première évaluation de l' intégration symbolique-statistique, loin d' être un phénomène simple,