Méthodes denses d’interpolation de mouvement pour le codage vidéo distribué monovue et multivue Thomas MAUGEY , Wided MILED , Marco CAGNAZZO , Béatrice PESQUET-POPESCU TELECOM ParisTech, CNRS LTCI, Département de Traitement du Signal et des Images 46 rue Barrault, 75634 Paris Cedex 13, France {maugey, miled, cagnazzo, pesquet}@telecom-paristech.fr Résumé – Les travaux présentés dans cet article traitent d’un ensemble de méthodes d’interpolation d’images appliquées au contexte du codage vidéo distribué monovue et multivue. Ces méthodes, fondées sur des champs de vecteurs denses, peuvent être utilisées aussi bien pour des estimations dans le sens des vues que pour des estimations dans le sens temporel. Nous comparons, dans cet article, ces méthodes denses à celles par bloc classiquement utilisées en codage vidéo distribué. Abstract – This work is about a set of methods for dense image interpolation in the framework of monoview and multiview distributed video coding. The interpolation techniques can be used for multiview video, both in the case of temporal and in the case of inter-view interpolation. The proposed dense disparity and motion estimation methods have been compared to classical block-based ones by carrying out several experiments whose results validate the dense vector approach. 1 Introduction Plusieurs solutions pratiques du codage vidéo distribué, per- mettant de supprimer l’étude de la corrélation entre trames à l’encodeur, sont apparues il y a quelques années. Une de ces approches, proposée par Stanford [1], est celle adoptée dans ces travaux. Dans le schéma de codage correspondant, la sé- quence vidéo est divisée en des trames clé (TC) et des trames Wyner-Ziv (TWZ). Les trames clés sont transmises grâce à un codage intra (par exemple H.264 intra) et sont utilisées au dé- codeur pour générer une estimation des trames WZ, appelée information adjacente. Cette estimation est corrigée par les bits de parités générés par un turbo-encodage des TWZ. Les per- formances de ce schéma de codage dépendent fortement de la qualité de l’information adjacente : plus elle est proche de la TWZ originale, moins le codeur a besoin de transmettre de bits de parités pour la corriger. Dans un schéma de codage multivue, l’extraction de l’in- formation adjacente au décodeur utilise le champ de mouve- ment entre la trame d’avant et la trame d’après pour l’interpo- lation temporelle et le champ de disparité entre la trame gauche et la trame droite pour l’interpolation intervues. Comme ces champs de vecteurs sont estimés au décodeur et qu’il n’y a pas besoin de les transmettre comme dans un schéma de codage classique, nous proposons d’utiliser une technique d’estimation dense de ces vecteurs de déplacement. Deux méthodes d’esti- mation dense sont ainsi utilisées dans l’objectif d’améliorer la qualité de l’information adjacente par rapport à la méthode de référence DISCOVER, qui s’avère être l’une des plus perfor- mantes actuellement. L’idée de cette amélioration est de main- tenir la structure d’interpolation de DISCOVER et de rajou- ter deux blocs de raffinement en utilisant l’une des méthodes d’estimation de champs de déplacement denses. La première méthode est fondée sur l’algorithme de Cafforio-Rocca [2] et la deuxième est fondée sur l’approche variationnelle convexe décrite dans [3]. Cet article est structuré comme suit. La section 2 décrit la structure générale de la méthode d’interpolation proposée. Nous détaillerons ensuite dans les section 3 et 4 les deux méthodes de raffinement utilisées. Les résultats expérimentaux sont pré- sentés dans la section 5, et la conclusion est enfin donnée à la section 6. 2 Structure de l’algorithme proposé L’algorithme d’interpolation proposé dans le cadre de ce tra- vail est fondé sur la structure du codeur DISCOVER, auquel on rajoute deux blocs de raffinement effectuant une estimation dense et précise des champs de vecteur. Le schéma général de l’algorithme est représenté dans la figure 1. Les blocs en traits pleins correspondent à ceux existants dans la méthode DISCO- VER, et ceux en traits pointillés sont ceux que nous nous pro- posons de rajouter. Les deux images en entrée, notées I 1 et I 2 , correspondent à deux trames clés acquises à deux instants dif- férents ou de deux points de vues différents. Après un filtrage spatial passe-bas, un premier champ de vecteur u a entre I 1 et I 2 est généré grâce à une estimation monodirectionnelle (MD), basée sur une simple opération de recherche par bloc. Ensuite une opération de raffinement est effectuée dont il résulte un champ u b = f 1 (u a ). Le champ u b est utilisé ensuite, par l’es- timateur bidirectionnel (BD) de DISCOVER, pour générer les champs de vecteurs, u c 1 et u c 2 , entre la TWZ et les deux TC. Ces champs sont régularisés à l’aide d’un filtre médian. Un dernier