Identiﬁcation de signaux audio par appariement de chaˆ ınes J´ erome Leboss´ e 1 , Luc Brun 2 , Jean Claude Paill` es 1 1 France T´ el´ ecom R&D 42 rue des Coutures, BP 6243, 14066 CAEN Cedex 4, France 2 GREYC UMR 6072, ENSICAEN 6 Boulevard du Mar´ echal Juin, 14050 Caen, France (1){jerome.lebosse,jeanclaude.pailles}@orange-ftgroup.com (2)luc.brun@greyc.ensicaen.fr R´ esum´ e– Le ﬁngerprint audio est un court r´ esum´ e d’un document audio calcul´ e` a partir des propri´ et´ es du signal. Comme l’empreinte digitale humaine, le ﬁngerprint audio permet d’identiﬁer un document audio parmi un lot de candidats sans en d´ eduire aucune autre caract´ eristique. Dans cet article, nous proposons une m´ ethode d’extraction de ﬁngerprint bas´ ee sur une nouvelle m´ ethode de segmentation adaptative du signal. La combinaison d’une m´ ethode d’appariement de chaˆ ıne avec un pr´ e-ﬁltrage par q-grams permet d’identiﬁer un extrait audio inconnu et de d´ ecider si cet extrait est une version d´ eriv´ ee d’un ﬁngerprint pr´ ealablement calcul´ e et stock´ e ou si aucun ﬁngerprint de la base de donn´ ee de correspond ` a l’extrait d’entr´ ee. Abstract – An Audio ﬁngerprint is a small digest of an audio ﬁle computed from its main perceptual properties. Like human ﬁngerprints, audio ﬁngerprints allow to identify an audio ﬁle among a set of candidates without retrieving any other characteristics. We propose in this paper a ﬁngerprint extraction algorithm based on a new audio segmentation method. The identiﬁcation task is performed by using string matching algorithms combined with a q-grams ﬁltration to decide if an input signal is a derived version of a stored ﬁngerprint or if no database ﬁngerprint corresponds to the input signal. 1 Introduction Une empreinte audio est un court code qui permet de retrouver rapidement un document ´ eventuellement alt´ er´ e (compression, d´ ecalages, ...) dans une base de donn´ ees. Le document alt´ er´ e est appel´ e un d´ eriv´ e du document origi- nal [4]. Notons que deux chansons d’un mˆ eme auteur ne sont pas co-d´ eriv´ ees. De mˆ eme, une reprise d’une chanson n’est g´ en´ eralement pas un co-d´ eriv´ e de l’original. Les m´ e- thodes d’identiﬁcation doivent pouvoir identiﬁer un signal ` a partir d’un court extrait. Il est donc n´ ecessaire de calcu- ler des valeurs caract´ eristiques (sous-empreintes) tout au long du signal. Ce genre de m´ ethode peut ˆ etre utilis´ e pour diverses ap- plications comme l’archivage, la surveillance r´ eseau, ou la gestion des droits d’auteurs o` u nous nous sommes inves- tis. Notre id´ ee est de stocker automatiquement, au sein de l’ordinateur personnel, les ﬁngerprints de chaque morceau de musique acquis l´ egalement. Ensuite, lorsque l’utilisa- teur souhaite ´ ecouter un document audio compress´ e ou grav´ e sur un CD, le ﬁngerprint est calcul´ e en parall` ele ` a la lecture et compar´ e avec ceux stock´ es. Si le ﬁngerprint est identiﬁ´ e, la lecture continue. Sinon, l’´ ecoute est stopp´ ee. Cette application implique donc une tr` es faible sensibilit´ e du ﬁngerprint envers tous les types de compression (mp3, ogg, wma, ...). Le ﬁngerprint doit aussi ˆ etre identiﬁ´ e` a partir d’extraits de 5s pris ` a n’importe quel moment de la lecture, impliquant une robustesse aux d´ ecalages tem- porels. De plus, la taille du ﬁngerprint et la rapidit´ e de calcul et de reconnaissance sont des crit` eres d´ eterminants pour une utilisation sur ordinateurs familiaux ou mobiles. Dans cet article, nous commencerons par rappeler notre m´ ethode de calcul de ﬁngerprint en Section 2 et expo- serons ensuite notre nouvelle m´ ethode de reconnaissance d’extraits musicaux. La robustesse et l’eﬃcacit´ e de cette m´ ethode seront d´ emontr´ es ` a travers les exp´ erimentations de la Section 4. 2 D´ eﬁnition du ﬁngerprint Les m´ ethodes de d´ eﬁnition d’empreintes sont en g´ en´ e- ral bas´ ees sur une d´ ecomposition du signal en fenˆ etres de tailles ﬁxes avec recouvrement. Ce type de m´ ethode [3] est sensible aux d´ ecalages du signal induits par la s´ election al´ eatoire de l’´ echantillon pris pour l’identiﬁcation. D’un autre cˆ ot´ e, la d´ eﬁnition d’intervalles ` a l’aide d’une seg- mentation du signal de type onsets [2] est peu sensible aux d´ ecalages mais ne permet d’assurer la d´ etection d’un nombre suﬃsant d’intervalles sur un court ´ echantillon (ty- piquement 5 secondes) pour garantir une identiﬁcation ro- buste du signal. Notre id´ ee est donc de combiner les avantages de ces deux approches en d´ eﬁnissant une nouvelle m´ ethode de segmentation qui soit ` a la fois robuste aux alt´ erations telles que le d´ ecalage ou la compression et qui fournisse un nombre suﬃsant d’intervalles pour identiﬁer le signal ` a partir d’un court ´ echantillon. Cette m´ ethode repose sur la d´ etection de positions particuli` eres dans le signal tem- porel :. Cette technique de segmentation peut ˆ etre d´ ecompos´ ee en 3 ´ etapes (Figure 1) : Colloque GRETSI, 11-14 septembre 2007, Troyes 1313