Des services orientés besoin pour l’exploitation des bases lexicales normalisées Mehdi Ben Abderrahmen*— Fatma Chaâri*— Bilel Gargouri**—Mohamed Jmaiel* *Unité de Recherche ReDCAD ENIS, Rte Sokkra - 3038 Sfax, Tunisie ** Laboratoire MIRACL ISIMS, B.P. 1013 - 3018 Sfax, Tunisie mehdi_frd@yahoo.fr fatmachaari@gmail.com bilel.gargouri@fsegs.rnu.tn mohamed.jmaiel@enis.rnu.tn Résumé Le présent papier s’intéresse à l’exploitation des bases lexicales élaborées selon LMF (Lexical Mark-up Framework), future norme ISO 24613. L’objectif que nous visons est de faciliter la tâche des développeurs des systèmes de TALN (Traitement Automatique des Langues Naturelles) ayant besoin de ressources lexicales. La solution proposée se base sur une approche orientée service qui permet de décharger ces développeurs de tout effort de maîtrise du contenu de la base ou même de la formulation des requêtes. Ces services sont développés selon les besoins des systèmes de TALN. A chaque service correspond un ensemble de requêtes paramétrées et développées avec le langage XQuery, nouveau standard d’interrogation des bases XML. 1. Introduction Le besoin de la majorité des systèmes de TALN en ressources lexicales fait de la composante lexicale l’un des piliers de ce domaine. Ainsi, plusieurs travaux se sont intéressés à la modélisation et la mise en place de telles ressources en essayant de couvrir le maximum des niveaux de traitement et de prendre en charge le multilinguisme [5, 6,13]. Les travaux réalisés ont donné naissance à une diversité de modèles de représentation des bases lexicales [5] (i.e., famille de Princeton, modèles Européens complexes, modèles Européens simples, modèle EDR) implémentées selon différentes techniques (i.e., lexiques simples, bases lexicales relationnelles, bases lexicales XML). Cette diversité minimise les possibilités de réutilisation de ces bases par les systèmes de TALN. En vue de normaliser l’élaboration des bases lexicales en ce qui concerne la conception, le format de description interne et la représentation multilingue, un projet est en cours de validation par le comité de normalisation ISO TC37/SC4 responsable des ressources linguistiques. Ce projet, baptisé LMF (Lexical Markup Framework) [7, 9], propose, partant d’un méta modèle en UML unique pour toutes les langues, une démarche pour la conception de bases XML permettant de représenter les données lexicales multilingues en liaison avec tous les niveaux de traitement des langues. Partant de l’importance de la disponibilité d’outils d’interrogation et d’intégration des bases lexicales dans les systèmes de TALN, et avec l’apparition de LMF, plusieurs travaux s’intéressent actuellement à développer des outils logiciels qui supportent les bases construites selon cette norme. Jusqu’à présent, deux projets ont été annoncés : LEXUS [8, 12] et LIRICS [10] qui utilisent les services Web en vue de favoriser l’interrogation locale et à distance. Ces projets proposent deux types de service, à savoir, la gestion proprement dite de la base et l’interrogation de son contenu. En ce qui concerne ce dernier type, nous constatons que les services sont développés partant du contenu de la base sans considérer les besoins liés aux systèmes de TALN. Ainsi, un développeur d’un tel système ne peut s’en passer de connaître ni le contenu de la base pour choisir le service adéquat ni sa structure puisque les résultats de l’interrogation, qui seront traitées, représentent des extraits de la base (ayant toujours la même structure). Notre travail s’intéresse à l’exploitation des bases de type LMF dans le cadre du développement des systèmes de TALN. L’objectif est de faciliter au maximum la tâche des développeurs de ces systèmes en se basant aussi sur les services Web. L’idée est de fournir des services développés partant des besoins des systèmes de TALN et non pas du contenu de la base. Outre l’avantage de se décharger des opérations de connexion et d’interrogation, le développeur pourra profiter du contenu de la base sans avoir aucune information sur son contenu et sa structure. Ainsi, l’utilisation d’une base lexicale devient complètement transparente. Nous commençons par donner un aperçu sur les outils d’exploitation des bases lexicales avant et après l’apparition de LMF. Ensuite, nous exposons notre approche d’exploitation des bases lexicales de type LMF. Finalement, nous détaillons l’application de notre approche et nous commentons ses résultats expérimentaux. 2. Aperçu sur les outils d'exploitation des bases lexicales Plusieurs outils sont proposés avec des finalités différentes mais partageant un même objectif qui est de rendre une ressource lexicale accessible et exploitable le plus largement possible par la communauté intéressée.