Localisation du bloc-adresse sur des objets postaux basée sur la coloration hiérarchique de graphe Djamel GACEB Véronique EGLIN Frank LEBOURGEOIS Hubert EMPTOZ LIRIS INSA de Lyon – 20, av. Albert Einstein 69621 VILLEURBANNE CEDEX {djamel.gaceb1,veronique.eglin,flebourg,hubert.emptoz}@insa-lyon.fr Résumé Un système efficace de tri du courrier postal est principalement basé sur une lecture optique correcte de l’adresse de destination sur l’enveloppe. Cependant, le bloc adresse doit être localisé avant l’opération de reconnaissance par l’OCR. Le fait que cette phase ait un grand impact sur les performances globales du système, elle représente la phase la plus importante du processus de lecture. Pratiquement, une bonne localisation mène à un taux de reconnaissance plus élevé. Statistiquement, la principale cause de rejet des courriers est liée à un échec de l’une des étapes de module de localisation du bloc adresse (LBA). Compte tenu des limites couramment utilisées pour la LBA, dépendantes pour la plupart d’une architecture modulaire linéaire, nous proposons dans cet article une architecture robuste basée sur le principe de la coloration hiérarchique de graphe CHG. Notre stratégie consiste à augmenter la cohérence et la performance des différentes étapes du processus de LBA pour réduire au maximum le rejet des courriers et les temps de traitement. Mots clefs Localisation de texte, segmentation de la structure physique, traitement en temps réel, tri de courriers et de documents, coloration des graphes. 1 Introduction Le tri automatique de courrier postal repose sur une lecture optique des adresses indiquées sur les enveloppes à trier, et leur expédition à la bonne destination. Après l’acquisition de l'image de l'enveloppe par une camera CCD, le système de tri doit pouvoir localiser, en temps réel et avec grande précision le bloc-adresse (BA) et l'envoyer à l’OCR 1 . Dans notre application le BA représente la zone d’intérêt contenant l'information vitale pour reconnaître la destination. Par conséquent, toute 1 OCR: (Optical Character Recognition) Reconnaissance Optique de Caractères. adresse mal localisée (et donc mal reconnue) conduit à un rejet immédiat du courrier. Compte tenu du fait que l'adresse de destination est supposée apparaître au coin gauche inférieur pour certains types de courrier, d'autres ne respectant pas cet arrangement strict ne peuvent être convenablement analysés. De plus, la présence de timbres, de marques de la poste, de logos imprimés, d’annonces diverses et autres informations sur le courrier, rend la tâche de localisation plus difficile (Figue 1). Figure 1 - Présence d’objets parasites autour du bloc adresse En générale, un module de localisation du bloc adresse (LBA) se compose de trois parties élémentaires: la binarisation et la détection des composantes connexes, la segmentation de la structure physique de l’image de l’enveloppe, et l’extraction du BA (voir Figure 2). Pratiquement, un dysfonctionnement sur l’une de ces étapes réduit les performances des autres, et par conséquent mène à une localisation imprécise de BA ou à une lecture optique erronée de son texte. Figure 2 – Etapes élémentaires du module LBA