Conférence TALN 1999, Cargèse, 12-17 juillet 1999 Identification des cognats et alignement bi-textuel : une étude empirique Olivier Kraif LILLA, Université de Nice Sophia Antipolis, 98 Bd. E. Herriot BP 369 06007 Nice Cedex kraif@lilla.unice.fr http://lilla2.unice.fr Résumé Nous nous intéressons ici aux méthodes d’alignement automatique destinées à produire des corpus bi-textuels, utiles au traducteur, au terminologue ou au linguistique. Certaines techniques ont obtenu des résultats probants en s’appuyant sur la détermination empirique des « cognats » (de l’anglais « cognate »), des mots qui se traduisent l’un par l’autre et qui présentent une ressemblance graphique. Or les cognats sont généralement captés au moyen d’une approximation abrupte, de nature opératoire : on considère tous les 4-grammes (mots possédants 4 lettres en commun) comme cognats potentiels. Aucune étude n’a été faite, à notre connaissance, à propos de la validité de cette approximation. Afin d’en démontrer les possibilités et les limites, nous avons cherché à déterminer empiriquement la qualité de cette simplification, en termes de bruit et de silence (ou de manière complémentaire, de précision et de rappel). Nous avons ensuite essayé de développer un filtrage plus efficace, basé sur l’utilisation des sous-chaînes maximales. Enfin, nous avons corrélé les améliorations du filtrage avec les résultats de l’alignement, en nous basant sur une méthode générale développée par nous : nous avons pu constater un net progrès en terme de rappel et de précision de l’alignement. 1. Introduction Un bi-texte, noté <T1,T2,S,C>, est un corpus constitué de deux textes T1 et T2 dont l’un est traduction de l’autre, doté d’une fonction de segmentation S, permettant de découper les deux textes en unités plus petites (paragraphes, phrases, syntagmes), et d’une fonction de correspondance C permettant d’apparier les segments en relation de traduction (Isabelle, 1992). Ainsi conçu, un corpus bi-textuel constitue un matériel privilégié dont les applications sont intéressantes dans de nombreux domaines : - dans l’apprentissage de la pratique traductionnelle, en tant que réserve d’exemples concrets, sous la forme d’un concordancier bilingue. - dans l'enseignement des langues. - en terminologie différentielle, afin d’observer les équivalences usitées dans la pratique effective à l'intérieur d’un domaine précis. - en linguistique, dans l’étude contrastive des langues vivantes : étude des distributions lexicales, des correspondances morphologiques, des divergences phraséologiques, etc..