Logiciels d'analyse textuelle : vers un format XML-TEI pour l'échange de corpus annotés François Daoust 1 , Yves Marcoux 2 1 Informaticien au Centre ATO de l’Université du Québec à Montréal - Canada 2 Professeur d'informatique à l'École de bibiothéconomie et des sciences de l'information, Université de Montréal – Canada Abstract This article proposes a format for the exchange of textual corpora among text analysis systems. The proposed format follows the recommendations of the Text Encoding Initiative. It has been the object of an agreement in principle reached by the members of the ATONET network of researchers in August 2005. The basic proposal has already been used to develop conversion programs to and from many proprietary formats. An extended proposal, which allows for the cumulation of annotations, could open up new horizons for the future development of text analysis systems. Résumé Cet article présente une proposition de format d'échange de corpus à des fins de traitement par des logiciels de textométrie. Cette proposition, conforme aux recommandations du Text Encoding Initiative, a fait l'objet d'un accord de principe en août 2005 au sein du réseau ATONET. La proposition de base a déja permis de réaliser des passerelles de conversion des formats propriétaires de plusieurs logiciels. La proposition élargie, permettant le cumul des annotations, est susceptible d'orienter le développement futur des logiciels de textométrie. Mots-clés : analyse de texte par ordinateur, lexicométrie, textométrie, normalisation des formats de documents, XML, TEI, ATONET. 1. Contexte Depuis plusieurs années, les chercheurs impliqués dans l'utilisation de l'ordinateur à des fins d'analyse textuelle se réunissent et collaborent en vue de faire connaître leurs outils, méthodes et pratiques d'analyse de texte assistée par ordinateur (ATO). Les communications scientifiques, notamment celles qui ont cours lors des Journées internationales d'analyse des données textuelles (JADT), permettent de saisir la nature complémentaire de plusieurs méthodes et programmes informatiques. Le temps est venu de se donner un cadre précis et concret pour évaluer la portée de ces méthodes et des logiciels qui les supportent, ce qui implique qu’on puisse facilement faire appel aux divers logiciels pour l’analyse d’un même corpus. Pour développer des chaînes de traitement faisant appel à une variété de logiciels, il faut avoir la possibilité de transférer les données d'un logiciel à l'autre à l'autre sans perte des niveaux de description antérieures. Pour ce faire, il faut convenir de formats d'échange de documents électroniques en vue de leur traitement par les divers outils logiciels développés au sein de la communauté des chercheurs en ATO. L'utilisation du langage de balisage XML s'impose naturellement pour cette tâche. XML, rappelons-le, est un langage général de balisage des documents électroniques qui permet de publier, conserver, annoter et transformer des textes JADT 2006 : 8 es Journées internationales d’Analyse statistique des Données Textuelles