22 ème Traitement Automatique des Langues Naturelles, Caen, 2015 Analyse morphosyntaxique de l'occitan languedocien : l'amitié entre un petit languedocien et un gros catalan Marianne Vergez-Couret 1 Assaf Urieli 1,2 (1) CLLE-ERSS, CNRS, Université de Toulouse 2, 5 allées Antonio Machado, 31058 TOULOUSE cedex 9 (2) Joliciel Informatique SARL, 2 avenue du Cardié, 09000 FOIX marianne.vergez@univ-tlse2.fr, assaf.urieli@univ-tlse2.fr Résumé. Dans cette étude, nous nous intéressons à la question de l'analyse morphosyntaxique de l'occitan. Nous utilisons Talismane, un logiciel par apprentissage supervisé, nécessitant des données annotées pour l'entraînement et optionnellement un lexique. Nous montrons dans cet article, qu'en l'absence de données annotées suffisantes pour l'occitan, il est possible d'obtenir de bons résultats (92%) en utilisant les données d'une langue étymologiquement proche, le catalan. Nous avons utilisé le corpus Ancora (500 000 formes) et un lexique occitan languedocien (250 000 entrées). Utiliser un corpus catalan de taille importante permet une amélioration de +3% par rapport au résultat obtenu avec le seul corpus d'entraînement occitan disponible à ce jour de 2800 formes. Abstract. Pos-tagging the Lengadocian dialect of Occitan: a little Lengadocian befriends a big Catalan. In this study, we examine the question of Occitan POS-tagging. We use Talismane, a supervised machine learning NLP tool, requiring annotated data for training and optionally a lexicon. We show that, with insufficient data for Occitan, it is possible to obtain good results (92%) by using data from an etymologically close language, in this case Catalan. We used the Catalan Ancora corpus (500,000 tokens) and an Occitan Languedocien lexicon (250,000 entries). Using the larger Catalan corpus improved results by +3% with respect to the result obtained using the only Occitan training corpus available to date (2,800 tokens). Mots-clés : traitement automatique des langues peu dotées, occitan, analyse morphosyntaxique Keywords: natural language processing for lesser resourced languages, Occitan, POS-tagging. 1 Introduction Les méthodes les plus couramment employées pour développer des outils de TAL sont à l'heure actuelle des méthodes par apprentissage supervisé quand des données annotées sont disponibles. Nous inscrivons nos travaux dans cette tendance pour l'analyse morphosyntaxique automatique de l'occitan. Il est donc nécessaire de rassembler des lexiques et des corpus annotés. Construire ces ressources requiert des efforts conséquents et des moyens financiers et humains qui font souvent défaut dans le cas des langues peu dotées 1 comme l'occitan. Dans cet article, nous proposons de comparer les résultats obtenus avec un corpus d'entraînement languedocien de petite taille (2800 formes) et un corpus d'entraînement catalan de grande taille (500 000 formes). Le corpus languedocien a l'avantage d'avoir été annoté par nos soins et correspond parfaitement aux besoins d'annotation attendus. Il favorise la qualité au détriment de la quantité. Le corpus catalan que nous utilisons pour cette étude est Ancora (Taulé et al., 2008), un corpus de 500 000 formes annotées. Nous souhaitons évaluer s'il faut, dans la constitution ou l'exploitation de ressources pour l'entraînement d'un analyseur morphosyntaxique, favoriser la qualité ou la quantité des annotations. Pour ce faire, nous avons mis en place plusieurs expériences : a) entraînement avec chacun des deux corpus séparés (après une étape d'harmonisation) ; b) entraînement avec transformation superficielle du corpus catalan avec transposition en occitan des mots les plus fréquents ; c) entraînement avec combinaison des deux corpus en faisant varier le poids attribué au corpus languedocien. 1 Le terme "langues peu dotées" pour les langues disposant de peu ou pas de ressources et d'outils linguistiques informatisées sera utilisé en opposition à "langues très dotées" pour celles qui disposent d'un grand nombre de ressources et d'outils.