XXIIIèmes Journées d’Etude sur la Parole, Aussois, 19-23 juin 2000 121 Modélisation articulatoire linéaire 3D d'un visage pour une Tête Parlante Virtuelle Pascal Borel, Pierre Badin, Lionel Revéret, Gérard Bailly ICP - UMR 5009 CNRS / INPG / Université Stendhal 46, av. Félix Viallet, 38031 Grenoble Cedex 1, France Tél.: ++33 (0)476 57 48 27 - Fax: ++33 (0)476 57 47 10 Mél: borel@icp.inpg.fr - http://www.icp.inpg.fr ABSTRACT This article presents 3D linear articulatory models of the face (skin and lips) for speech, based on articulatory measures extracted from video images of a French speaker. Linear statistical analysis of the 3D coordinates of lower jaw incisor, flesh-points on the skin and lip geometry has allowed to extract five degrees of freedom that account for about 96 % of the total variance of the data. Two jaw parameters correspond to jaw height and advance, while three lip / skin parameters correspond to lip protrusion, lip separation and lip height. A linear model of face controlled by these parameters has then been developed and integrated in the ICP Virtual Talking Head. The RMS reconstruction error obtained reconstructing the face with the model is about 0.1 cm. 1. INTRODUCTION La modélisation articulatoire linéaire a été largement utilisée pour décrire le mouvement des articulateurs internes de la parole tels que la langue ou le conduit vocal ([Mer73] ; [Mae79]). Plus récemment, [Beau96] ont développé un modèle articulatoire médiosagittal de conduit vocal basé sur un film cinéradiographique tourné sur un sujet PB. Ce modèle a ensuite été généralisé à la troisième dimension en utilisant des données IRM obtenues sur le même sujet ([Bad98]). Nous avons ici adopté une approche similaire pour développer un modèle articulatoire linéaire 3D de visage à partir de données vidéos acquises sur le sujet PB. Ainsi, les modèles des différents articulateurs de la parole (internes et externes) pourront être intégrés dans une véritable "Tête Parlante Virtuelle" et contrôlés par un même jeu de paramètres articulatoires (cf. [Bad00]). Les applications d'un tel avatar sont nombreuses : communication multimodale (labiophone), synthèse audiovisuelle à partir du texte, aide à l'apprentissage des langues, etc. 2. DONNÉES ARTICULATOIRES La présente approche consiste à extraire les degrés de liberté des organes par analyse statistique linéaire des mesures articulatoires réalisées sur un corpus soigneusement conçu. Dans un souci de cohérence avec les données IRM de conduit vocal acquises par [Bad98], nous avons utilisé le même corpus, à savoir les 10 voyelles orales du français et les consonnes [p t k f s l] en contexte symétrique [a i u], soit un total de 34 articulations soutenues. 2.1. Acquisition des images vidéo Le visage du locuteur a été filmé de face et de profil sous des conditions contrôlées d'éclairage. Un miroir incliné à 45° a permis d'obtenir ces deux vues sur une même image vidéo. 32 points spécifiques de la peau ont été repérés par des petites billes de plastique collées sur le visage (cf. figure 1). D'autre part, les lèvres ont été maquillées en bleu afin de bien discerner le vermillon des lèvres du reste de la peau. Enfin, une éclisse mandibulaire a été fixée à la mâchoire inférieure du sujet afin de suivre les déplacements sous-jacents de la mandibule. Figure 1: Exemple d'image du visage pour un /a/. Notons également que la correspondance entre les deux vues a été calibrée grâce à un objet 3D de dimensions connues, permettant ainsi une reconstruction 3D stéréoscopique des données. 2.2. Extraction des mesures articulatoires Le dépouillement des images acquises vise à en extraire les différentes données nécessaires au développement du modèle. Ces données sont de trois types : (1) points 3D de peau obtenus par reconstruction stéréoscopique des 32 billes collées sur le visage ; (2) points 3D de lèvres acquis en appliquant la méthode de mesure labiale présentée dans [Rev98] : un maillage ajuste globalement la forme des lèvres selon la position de 30 points de contrôle 3D ;