Vers une reconstruction 3D de zones urbaines : mise en correspondance de données Gps, Sig et Vidéo Gaël SOURIMANT , Luce MORIN , Kadi BOUATOUCH Irisa / Inria, Campus Universitaire de Beaulieu, 35042 Rennes Cedex, France gael.sourimant@irisa.fr, luce.morin@irisa.fr, kadi.bouatouch@irisa.fr Résumé – La modélisation en 3D d’environnements urbains est un sujet largement étudié depuis plusieurs années, son attrait étant lié aux applications diverses d’une telle modélisation : navigation virtuelle, réalité augmentée, planification architecturale, etc. L’une des difficultés à ce jour dans ce contexte reste l’acquisition et le traitement de données à grande échelle si l’on cherche à obtenir une reconstruction précise non seulement géométriquement, mais également photométriquement (on veut les véritables textures de chaque bâtiment). Nous présentons dans cet article un système permettant de calculer les positions géo-référencées et les orientations d’images de bâtiments issues de séquences vidéo non calibrées, en tant que préalable indispensable au bon conditionnement de la reconstruction 3D précise d’environnements urbains à grande échelle, notre méthode étant basée sur la fusion de données multimodales, et plus précisément de positions GPS, de modèles 3D polyédriques simples de bâtiments ainsi que de séquences d’images de ces bâtiments. Abstract – 3D reconstruction of urban environments is a widely studied subject since several years, since it can lead to many useful applications: virtual navigation, augmented reality, architectural planification, etc. One of the most difficult problem nowadays in this context is acquisition and treatment of data if very large scale and precise reconstruction is aimed. In this paper we present a system for computing geo-referenced positions and orientations if images of buildings from non calibrated videos. Providing such information is a mandatory step to well conditioned large scale and precise 3D reconstruction of urban areas. Our method is based on the fusion of multimodal datasets, namely GPS measures, video sequences and rough 3D models of buildings. 1 Introduction Le succès récent de Google Earth montre que l’ajout de tex- tures photo-réalistes sur une carte 2 D ajoute beaucoup d’infor- mation pour l’utilisateur par rapport à une carte symbolique tra- ditionnelle. Les fonctionnalités 3 D offertes par cet outil, telles que la navigation ou la représentation en 3 D des bâtiments est une autre raison de son succès. Cependant, les modèles 3 D fournis sont peu réalistes (ce sont des parallélépipèdes gris). Il serait intéressant de pouvoir combiner modèles des 3 D photo- réalistes avec des cartes 2 D texturés avec des images aériennes. La modélisation 3 D d’environnements urbains a d’autres appli- cations, telles que les jeux, le tourisme virtuel, le géo-position- nement ou la réalité virtuelle. Malheureusement, la modélisa- tion manuelle par un graphiste est un processus long qui ne peut être appliqué à la modélisation à grande échelle d’envi- ronnements urbains. Nous présentons un système permettant de calculer des posi- tions et orientations géo-référencées d’images de bâtiments. Notre approche est basée sur la fusion de données multimo- dales, à savoir des images prises au sol de bâtiments acquises avec des mesures GPS, ainsi qu’une base de donnée de type SIG composée d’un ensemble de modèles 3 D de bâtiments dé- crits par leur empreinte au sol et leur élévation. Si ce type de modélisation est pertinent pour une visualisation aérienne, il n’est pas satisfaisant pour une navigation 3 D au niveau du sol. La vidéo et la base SIG contiennent des informations complé- mentaires : la vidéo fournit le photo-réalisme et les détails géo- métriques des bâtiments, tandis que les modèles SIG donnent une géométrie "propre" et complète de la scène, structurée en bâtiments individuels. Des mesures GPS sont également ac- quises de façon synchronisée avec la vidéo. Afin de combiner ces types de données différents, la première étape est de les mettre en correspondance dans le même système de coordon- nées. La mise en correspondance est de fait le point sensible du système, étant donnée qu’elle requiert des correspondances géométriques entre des données de type tout à fait différent. Au cours des dernières années, de nombreuses méthodes pour la reconstruction de zones urbaines ont été développées, mais peu d’entre elles traitent à la fois le problème d’une recons- truction photoréaliste contenant les détails géométriques des façades et le problème d’une reconstruction à grande échelle. Dans le projet MIT City Scanning [8], des images hémisphé- riques calibrées sont utilisées pour extraire des plans corres- pondant aux façades, qui sont alors raffinés et texturés en uti- lisant des techniques de reconnaissance des formes et de vi- sion par ordinateur. Dans le projet UrbanScape [1], un système complètement automatique pour une reconstruction temps-réel et précise à partir de flux vidéos est présenté, en utilisant à la fois le CPU et le GPU. Le projet 4 D Cities [6] cherche à créer des modèles 3 D variant avec le temps à partir d’une collec- tion d’images prises d’endroit différents, à des époques égale- ment différentes. Dans le cadre du projet Fast 3 D City Model Generation [2], le centre-ville de Berkeley est reconstruit pré- cisément en utilisant une caméra laser verticale pour mesurer la structure de bâtiments, une caméra laser horizontale pour le calcul de pose, et une caméra vidéo pour texturer les modèles obtenus, le tout étant monté et synchronisé sur un véhicule. La principale limitation de ces approches est qu’elles nécessitent des équipements très spécifiques et lourds pour l’acquisition des données.