Un analyseur morphologique étendu de l'allemand traitant les formes verbales à particule séparée Jean-Philippe Guilbaud 1 Christian Boitet 2 Vincent Berment 2 (1) CNRS, LIG-campus, 38041 Grenoble Cedex 09 (2) UJF, Université de Grenoble, LIG-campus, 38041 Grenoble Cedex 09 {Jean-Philippe.Guilbaud,Christian.Boitet,Vincent.Berment}@imag.fr RÉSUMÉ________________________________________________________________________ Nous décrivons l’organisation et l'état courant de l’analyseur morphologique de l’allemand AMALD de grande taille couvrant (près de 103000 lemmes et 500000 formes fléchies simples, en croissance) développé dans le cadre du projet ANR-Émergence Traouiero. C’est le premier lemmatiseur de l’allemand capable de traiter non seulement les mots simples et les mots composés, mais aussi les verbes à particules séparables quand elles sont séparées, même par un grand nombre de mots (ex : Hier schlagen wir eine neue Methode für die morphologische Analyse vor). ABSTRACT ______________________________________________________________________ An extended morphological analyzer of German handling verbal forms with separated separable particles We describe the organisation and the current state of the large-scale (nearly 103000 lemmas and 500000 simple inflected forms, growing) morphological analyzer AMALD developed in the framework of the ANR-Émergence Traouiero project. It is the first lemmatizer of German able to handle not only simple and compound words, but also verbs with separable particles when they are separated, even by many words (e.g. Hier schlagen wir eine neue Methode für die morphologische Analyse vor.). MOTS-CLÉS : analyse morphologique, lemmatisation, allemand, verbes à particule séparable KEYWORDS : morphological analysis, lemmatization, German, verbs with separable particles. 1 Introduction En 2008, dans le cadre du projet ANR OMNIA, nous nous sommes réintéressés à l’analyse morphologique (AM) de l’allemand, pour pouvoir faire de la RI (recherche d’information) translingue sur des collections d’images (comme FlickR, Belga News, Picassa ou PanImages) accompagnées chacune d’un petit texte compagnon écrit de façon spontanée dans la langue de l’auteur. Constatant qu’il n’y avait pas d’AM de l’allemand de bonne qualité, libre de droits et assez couvrante, le premier auteur a alors entrepris d’en construire une, en partant du prototype construit pour sa thèse. Le besoin d’une telle AM est apparent dans de nombreuses applications qui exigent plus que de la lemmatisation ou de l’étiquetage morphosyntaxique, et l’allemand est une langue particulièrement importante. De plus, sa morphologie est particulièrement intéressante : système de flexions et de dérivations assez riche et fort ambigu, constructions compositionnelles non bornées, et abondance de formes verbales discontinues (comme er kommt nach… an, pour il arrive après…). Nous discutons d’abord des résultats qu’on attend d’une AM, et des méthodes qu’on peut utiliser pour les produire, sachant qu’il n’y a pas consensus sur ces deux points. Nous faisons ensuite le point sur les AM de l’allemand existantes. Nous présentons ensuite très brièvement les LSPL 1 utilisés pour construire les trois phases de notre nouvelle AM de l’allemand (AMALD), puis décrivons les aspects et les composants principaux de cet analyseur, avant de l’évaluer et de conclure. 1 LSPL = Langage Spécialisé pour la Programmation Linguistique. TALN-RÉCITAL 2013, 17-21 Juin, Les Sables d’Olonne 755 c ATALA