Modélisation Pseudo Bidimensionnelle pour la Reconnaissance de Chaînes de Caractères Arabes Imprimés Najoua Ben Amara 1 , Abdel Belaïd 2 et Noureddine Ellouze 3 1 Ecole Nationale d'Ingénieurs de Monastir - 5019 Monastir - TUNISIE 2 Centre de Recherche en Informatique de Nancy, Bâtiment Loria, Campus Scientifique- B.P. 239, 54506 Vandœuvre-Lès-Nancy- France, e_mail : abelaid@loria.fr 3 Ecole Nationale d'Ingénieurs de Tunis, BP. 37, Le Belvédère 1002 Tunis, Tunisie. Résumé Nous décrivons un modèle stochastique de type PHMM-Pseudo 2D Hidden Markov Model-, pour la reconnaissance globale de chaînes de caractères arabes imprimés. Le modèle est appliqué directement sur l'image sans segmentation au préalable. La notion de durée est utilisée à la fois horizontalement et verticalement afin de modéliser respectivement, les ligatures horizontales et ses allongements ainsi que les chevauchements des caractères. L'extension de ces modèles à la reconnaissance de noms de villes tunisiennes, s'appuie sur des règles syntaxiques. Mots clés : ligatures horizontales et verticales, chaînes de caractères, durée, PHMM. 1. Introduction Plusieurs solutions ont été proposées pour la reconnaissance de l'écriture arabe, nous trouvons dans [2] une liste de travaux déjà réalisés. Comme pour toute écriture cursive, des méthodes globales et analytiques ont été testées. Cependant, à cause de certaines caractéristiques de l'écriture arabe (Tableau 1), la solution n'est pas triviale. En effet, l'étude morphologique de l'arabe montre qu'il est difficile d'opérer la reconnaissance au niveau du caractère et ceci pour les raisons suivantes : Le caractère arabe peut avoir jusqu'à 4 formes différentes selon sa position dans le mot. Plusieurs groupes de caractères possèdent le même corps mais un nombre et/ou un emplacement de points diacritiques différents. Ces points se situent au dessus ou au dessous de la ligne de base à des endroits différents dans l'image en fonction du caractère et dans certains cas de sa position dans le mot. Ces points sont sensibles au bruit, ils peuvent être accolés au corps ou souvent confondus avec du bruit. Certains caractères arabes incluent une boucle qui peut avoir différentes formes. La boucle est très souvent bouchée ou ouverte. Toutes ces raisons nous ont conduit à s'orienter vers la chaîne de caractères, qu'il est convenu d'appeler PAW-Piece of Arabic Word-; le PAW peut correspondre au mot ou à la partie du mot. Les PAWs présentent une structure facile à isoler (séparation en composantes connexes, extraction de contours...), ils peuvent occuper différentes positions dans le mot sans pour autant changer de formes. De plus, ils caractérisent toute la morphologie de l'écriture arabe: on y trouve des caractères isolés et des caractères ligaturés. Cependant, les PAWs contiennent des ligatures horizontales et verticales bien spécifiques : Les ligatures horizontales sont variables, elles se traduisent par un allongement de la ligature de base ce qui complique le processus de segmentation. Les ligatures verticales, bien qu'elles soient rares, posent d'importants problèmes lorsqu'elles existent. Le chevauchement vertical des caractères modifie souvent la morphologie de certains d'entre eux et la ligne de base n'est plus horizontale. Au vu de ces problèmes, nous avons opté pour une modélisation globale au niveau du PAW. Cependant, ce choix est pénalisé par le nombre important de PAWs dans le cadre d'un vocabulaire libre : il serait inconcevable d'envisager un