Les systèmes du LIA pour les tâches de segmentation et de suivi: SES, SRL, SVL N. Scheffer, D. Istrate, C. Fredouille, J.-F. Bonastre, LIA UAPV, Avignon, FRANCE (nicolas.scheffer,dan.istrate,corinne.fredouille,jfb)@lia.univ-avignon.fr Abstract Ce papier décrit les systèmes de segmentation et de suivi du Laboratoire d’Informatique d’Avignon (LIA) présentés lors de la campagne d’évaluation ESTER 2005. Cette campagne a per- mis une première validation de ces systèmes étant données les performances obtenues tout à fait satisfaisantes. Les systèmes présentés sont entièrement basés sur la plateforme open-source ALIZE, dédiée à la Reconnaissance Automatique du Locuteur. 1. Introduction La première campagne ESTER d’Evaluation des Systèmes de Transcription Enrichie d’émissions Radiophoniques a eu lieu en Janvier 2005, proposant d’une part des tâches de transcrip- tion automatique (TTS et TTR) et d’autres part des tâches de segmentation et suivi d’événements telles que le suivi d’évé- nements sonores (SES), la segmentation et le regroupement en locuteurs (SRL) et le suivi de locuteurs (SVL). Par ailleurs, une tâche de détection des entités nommées a été également propo- sée. Le Laboratoire Informatique d’Avignon (LIA) a participé activement à cette campagne, proposant un système pour cha- cune des tâches proposées. L’objectif de ce papier est de présenter un descriptif des sys- tèmes du LIA pour les tâches de segmentation et de suivi ainsi que les performances de ces derniers sur les corpus de déve- loppement - ESTER DEV Phase II noté Dev dans la suite du papier - et d’évaluation - ESTER TEST Phase II noté Eva - disponibles durant la campagne. Tous ces systèmes ont été entièrement développés sur la plateforme ALIZE dédiée à la Reconnaissance Automatique du Locuteur [1]. Ce toolkit a été développé par le LIA dans le cadre du projet Technolangue/AGILE/ALIZE, financé par le ministère français de la recherche. Des informations sur la plateforme ALIZE sont disponibles à l’adresse sui- vante : http ://www.lia.univ-avignon.fr/heberges/ALIZE. Les codes sources et programmes utilisés au cours de cette évalua- tion seront prochainement disponibles à cette même adresse, en licence de type GPL. Les sections 2, 3 et 4 sont dédiées aux descriptions des diffé- rents systèmes liés aux tâches SES, SRL et SVL respectivement. Leurs performances sont présentées et discutées dans les sec- tions 5, 6 et 7. Une conclusion générale sur la participation à cette évaluation est finalement fournie en section 8. 2. Description du système SES 2.1. Tâche SES La tâche de suivi d’événéments sonores consiste à détecter de manière automatique les portions de signal dans lesquels un événement particulier est présent. Les événements à suivre sont ici la musique (en présence ou non de parole) et la parole (en présence ou non de musique). Le système de suivi d’événements sonores (SES) du LIA repose sur une segmentation en macro-classes acoustiques, utilisée par d’autres systèmes du LIA tels que : le système de suivi de lo- cuteurs (tâche SVL), le système de segmentation/regroupement en locuteurs (tâche SRL) et le système de transcription automa- tique (tâches TRS et TTR). 2.2. Système de segmentation en macro-classes Système de base Le système de segmentation en macro-classes acoustiques re- pose sur une segmentation hiérarchique à deux niveaux : – Durant la première étape, une segmentation pa- role+musique, parole bande large, parole bande étroite (téléphone) et non parole est appliquée sur le signal (une émission complète). Quatre modèles MS, S, T et M sont utilisés lors de cette segmentation, représen- tant respectivement les conditions parole+musique, pa- role bande large, parole bande étroite et non parole. Ce processus de segmentation repose, ici, sur un décodage Viterbi, appliqué sur un HMM ergodique à quatre états (modèles MS, S, T et M). – La deuxième étape se focalise sur une détection du genre, durant laquelle chaque segment parole (MS, S, T ) issu de la phase précédente est étiqueté soit homme soit femme. Cette détection s’appuie sur le même principe de décodage que l’étape précédente, associé à des modèles dépendants du genre et de la classe acoustique du segment traité. Ainsi, les modèles SF et SH représentent respectivement des segments de parole (parole bande large et parole+musique) produits par des femmes et des hommes, TF et TH des segments de parole téléphonique femmes et hommes. Finalement, la sortie du décodage est soumise à un ensemble d’heuristiques (règles sur la durée minimale des seg- ments par exemple) permettant d’affiner la segmentation. Spécifications du systèmes Tous les modèles utilisés lors des différentes phases de segmentation sont des mixtures de gaussiennes (GMM)