APPROCHE ANALYTIQUE POUR LA MODELISATION DE LA BANDE CENTRALE DE L’ECRITURE ARABE MANUSCRITE Sameh MASMOUDI TOUJ 1 , Najoua ESSOUKRI BEN AMARA 2 , Hamid AMIRI 3 1 Ecole Nationale d’Ingénieurs de Tunis, Sameh.Masmoudi@isetgb.rnu.tn 2 Ecole Nationale d’Ingénieurs de Monastir, Najoua.BenAmara@enim.rnu.tn Laboratoire des Systèmes et Traitement du Signal (LSTS), ENIT Résumé La reconnaissance de l’écriture arabe manuscrite reste encore un défi important à relever à cause des différentes difficultés sous-jacentes. Dans ce travail, nous proposons une approche de reconnaissance de mots manuscrits arabes multi-scripteurs. Une modélisation hybride de type planaire markovienne a été retenue permettant de suivre les variations horizontales et verticales de l’écriture. Dans ce travail, nous nous limitons à l’étude et la modélisation de la bande centrale étant donné sa complexité morphologique et sa richesse en information. Nous avons choisi de modéliser cette zone par un modèle markovien de type analytique afin de suivre de près l’évolution du tracé manuscrit. Des tests de reconnaissance basés uniquement sur le modèle de la zone médiane, ont montré l’efficacité de l’approche retenue. Mots clés : Reconnaissance de l’écriture arabe manuscrite, Modèles de Markov Cachés Planaires, segmentation, approche analytique, zone médiane. 1. Introduction La reconnaissance de l’écriture arabe a connu un essor important durant cette dernière décennie [6,4]. Les différents travaux réalisés reposent sur des approches très variées (structurelles, statistiques, neuronales, géométriques..). Cependant, la reconnaissance de l’écriture arabe manuscrite reste toujours un problème ouvert à cause de sa grande variabilité. Par ailleurs, les Modèles de Markov Cachés ont déjà montré leur capacité d’absorption des variabilités du script notamment dans le cas de la reconnaissance du latin [1,2] et de l’arabe [6,3]. Nous les avons donc choisis afin de modéliser et reconnaître l’écriture arabe manuscrite hors ligne. Une architecture de type planaire a été adoptée afin de modéliser l’information spatiale présente dans les différentes zones de variations logiques du script [10]. Une première étape de segmentation horizontale nous permet de délimiter les cinq bandes logiques de variation verticale de l’écriture arabe. Ces zones correspondant respectivement aux diacritiques supérieurs et inférieurs, aux extensions supérieures et inférieures et à la zone médiane. Une deuxième étape de segmentation à deux niveaux (naturel et vertical), permet d’extraire les différentes entités ou graphèmes associés à chaque bande. Les résultats issus du processus de segmentation sont donc répartis dans les différentes bandes logiques de variation. Chaque classe de graphème présente des spécificités structurelles et morphologiques qui lui sont propres. Nous avons opté alors pour une caractérisation spécifiée, adaptée à la nature de l’information présente dans chaque niveau de variation. Ceci représente d’ailleurs l’une des orientations les plus recommandées en reconnaissance de l’écrit et particulièrement dans le cas de l’arabe [5]. Dans ce travail nous nous intéressons en particulier à la description et la modélisation de la zone médiane qui est omniprésente dans tout tracé manuscrit. Cette zone est à la fois la plus riche en information et la plus complexe. Pour cela, nous avons défini un modèle markovien analytique constitué d’une succession de modèles élémentaires capables de suivre de près les variations de cette zone. Les paramètres de chaque modèle élémentaire sont calculés sur l’ensemble des mots de la base d’apprentissage ce qui nous a permis d’enrichir considérablement les données de l’apprentissage et d’améliorer nettement les performances de reconnaissance. Dans la section suivante, nous rappelons brièvement l’architecture globale du modèle retenu ainsi que la procédure de segmentation. La section 3 concerne la description du modèle markovien analytique adopté pour la zone médiane. Nous terminons enfin par les résultats des expérimentations et la conclusion. 18–21 mars 2004, Monastir (Tunisie) Premier Congrès International de Signaux, Circuits & Systèmes