Identification de signaux audio par appariement de chaˆ ınes erome Leboss´ e 1 , Luc Brun 2 , Jean Claude Paill` es 1 1 France T´ el´ ecom R&D 42 rue des Coutures, BP 6243, 14066 CAEN Cedex 4, France 2 GREYC UMR 6072, ENSICAEN 6 Boulevard du Mar´ echal Juin, 14050 Caen, France (1){jerome.lebosse,jeanclaude.pailles}@orange-ftgroup.com (2)luc.brun@greyc.ensicaen.fr esum´ e– Le fingerprint audio est un court r´ esum´ e d’un document audio calcul´ e` a partir des propri´ et´ es du signal. Comme l’empreinte digitale humaine, le fingerprint audio permet d’identifier un document audio parmi un lot de candidats sans en d´ eduire aucune autre caract´ eristique. Dans cet article, nous proposons une m´ ethode d’extraction de fingerprint bas´ ee sur une nouvelle ethode de segmentation adaptative du signal. La combinaison d’une m´ ethode d’appariement de chaˆ ıne avec un pr´ e-filtrage par q-grams permet d’identifier un extrait audio inconnu et de d´ ecider si cet extrait est une version d´ eriv´ ee d’un fingerprint pr´ ealablement calcul´ e et stock´ e ou si aucun fingerprint de la base de donn´ ee de correspond ` a l’extrait d’entr´ ee. Abstract – An Audio fingerprint is a small digest of an audio file computed from its main perceptual properties. Like human fingerprints, audio fingerprints allow to identify an audio file among a set of candidates without retrieving any other characteristics. We propose in this paper a fingerprint extraction algorithm based on a new audio segmentation method. The identification task is performed by using string matching algorithms combined with a q-grams filtration to decide if an input signal is a derived version of a stored fingerprint or if no database fingerprint corresponds to the input signal. 1 Introduction Une empreinte audio est un court code qui permet de retrouver rapidement un document ´ eventuellement alt´ er´ e (compression, d´ ecalages, ...) dans une base de donn´ ees. Le document alt´ er´ e est appel´ e un d´ eriv´ e du document origi- nal [4]. Notons que deux chansons d’un mˆ eme auteur ne sont pas co-d´ eriv´ ees. De mˆ eme, une reprise d’une chanson n’est g´ en´ eralement pas un co-d´ eriv´ e de l’original. Les m´ e- thodes d’identification doivent pouvoir identifier un signal ` a partir d’un court extrait. Il est donc n´ ecessaire de calcu- ler des valeurs caract´ eristiques (sous-empreintes) tout au long du signal. Ce genre de m´ ethode peut ˆ etre utilis´ e pour diverses ap- plications comme l’archivage, la surveillance r´ eseau, ou la gestion des droits d’auteurs o` u nous nous sommes inves- tis. Notre id´ ee est de stocker automatiquement, au sein de l’ordinateur personnel, les fingerprints de chaque morceau de musique acquis l´ egalement. Ensuite, lorsque l’utilisa- teur souhaite ´ ecouter un document audio compress´ e ou grav´ e sur un CD, le fingerprint est calcul´ e en parall` ele ` a la lecture et compar´ e avec ceux stock´ es. Si le fingerprint est identifi´ e, la lecture continue. Sinon, l’´ ecoute est stopp´ ee. Cette application implique donc une tr` es faible sensibilit´ e du fingerprint envers tous les types de compression (mp3, ogg, wma, ...). Le fingerprint doit aussi ˆ etre identifi´ e` a partir d’extraits de 5s pris ` a n’importe quel moment de la lecture, impliquant une robustesse aux d´ ecalages tem- porels. De plus, la taille du fingerprint et la rapidit´ e de calcul et de reconnaissance sont des crit` eres d´ eterminants pour une utilisation sur ordinateurs familiaux ou mobiles. Dans cet article, nous commencerons par rappeler notre ethode de calcul de fingerprint en Section 2 et expo- serons ensuite notre nouvelle m´ ethode de reconnaissance d’extraits musicaux. La robustesse et l’efficacit´ e de cette ethode seront d´ emontr´ es ` a travers les exp´ erimentations de la Section 4. 2 efinition du fingerprint Les m´ ethodes de d´ efinition d’empreintes sont en g´ en´ e- ral bas´ ees sur une d´ ecomposition du signal en fenˆ etres de tailles fixes avec recouvrement. Ce type de m´ ethode [3] est sensible aux d´ ecalages du signal induits par la s´ election al´ eatoire de l’´ echantillon pris pour l’identification. D’un autre cˆ ot´ e, la d´ efinition d’intervalles ` a l’aide d’une seg- mentation du signal de type onsets [2] est peu sensible aux d´ ecalages mais ne permet d’assurer la d´ etection d’un nombre suffisant d’intervalles sur un court ´ echantillon (ty- piquement 5 secondes) pour garantir une identification ro- buste du signal. Notre id´ ee est donc de combiner les avantages de ces deux approches en d´ efinissant une nouvelle m´ ethode de segmentation qui soit ` a la fois robuste aux alt´ erations telles que le d´ ecalage ou la compression et qui fournisse un nombre suffisant d’intervalles pour identifier le signal ` a partir d’un court ´ echantillon. Cette m´ ethode repose sur la d´ etection de positions particuli` eres dans le signal tem- porel :. Cette technique de segmentation peut ˆ etre d´ ecompos´ ee en 3 ´ etapes (Figure 1) : Colloque GRETSI, 11-14 septembre 2007, Troyes 1313