XXIVèmes Journées d'Étude sur la Parole, Nancy, 24-27 juin 2002 XYZ Spécialisation automatique de modèles acoustiques Georges Linares, Serigne Gueye, Loïc Lefort, Philippe Michelon, Pascal Nocera Laboratoire d’Informatique d’Avignon LIA, Avignon, France Tél.: ++33 (0)4 90 84 35 20 - Fax: ++33 (0)4 90 84 35 01 Mél: georges.linares@lia.univ-avignon.fr - http://www.llia.univ-avignon.fr ABSTRACT In this paper, we present a method for automatic generation of acoustic models from simple generic models. This method use the internal structure of non- contextual acoustic models in order to build new specialized states which are supposed to modelize specific patterns of a phoneme. The proposed technique use temporal information for state splitting. This method is compared to a maximum likelihood based approach. Our experiments show that this last criterion leads to better performance. Nevertheless, unsupervised model splitting seems to be less efficient than model specialization based on a priori knowledge. 1.INTRODUCTION Les modèles acoustiques utilisés dans les systèmes de reconnaissance "état de l'art" sont d'une grande complexité, de l'ordre de plusieurs millions de paramètres. Ils modélisent des phonèmes contextuels qui peuvent partager des paramètres à différents niveaux (gaussiennes, états, transitions, etc..). Ce partage permet de réduire la complexité globale des modèles et de résoudre les éventuels problèmes d'estimation liés à la taille ou à la représentativité des corpus d'apprentissage ([You92], [Hwa93]). Il est généralement réalisé au niveau des GMM, les états "logiques" des modèles contextuels étant regroupés en un nombre réduit d'états "physiques" effectivement estimés. Différentes approches ont étés évaluées pour déterminer la classification optimale des états ; la majorité des systèmes actuels utilisent des arbres de décision dont les feuilles sont des états partagés et les noeuds des questions relatives au contexte linguistique du phonème modélisé. Le jeu de questions utilisé est évidement assez déterminant pour la qualité des modèles obtenus, mais aussi pour la taille finale des modèles. De nombreuses équipes ont adopté une approche mixant des questions linguistiques formulées par des experts et des questions générées automatiquement à partir d'un critère d'entropie ou de perte de vraisemblance ([Beu98]). Ce type de méthodes permet d'obtenir des résultats très concluants en terme de taux de reconnaissance et de réduction de la complexité des modèles, dès lors que les ressources disponibles (corpus, mémoire, processeur, etc.) sont suffisantes. Les systèmes de reconnaissance embarqués mettent à disposition des décodeurs des ressources souvent limitées, incompatibles avec la dimension des modèles utilisés dans les systèmes de laboratoire. Dans ce papier, nous évaluons une approche non- supervisée susceptible d'améliorer la qualité des modèles non-contextuels au prix d'une très faible augmentation de leur complexité. Le principe de cette méthode est d’utiliser les probabilités de transitions entre les composantes gaussiennes des modèles pour adapter leur structure aux données. Ce mécanisme d’extension automatique des modèles est détaillé dans la première partie de cet article, puis comparé à une méthode de subdivision plus classique, basée sur un critère de maximum de vraisemblance. 2.SUBDIVISION HIÉRARCHIQUE DE MODÈLES 2.1 Principe Les modèles standards sont entraînés sur l'ensemble des exemples du corpus d'apprentissage, indépendamment du contexte phonétique, du locuteur ou des différentes sources de variabilités (canal de transmission, conditions d'acquisition, etc.). La modélisation de ces formes très variables conduit à une certaine généralité des modèles et nécessite l'utilisation d'un grand nombre de gaussiennes, dont certaines vont représenter des modes particuliers (locuteur masculin/féminin, contexte linguistique, etc.). Le principe de la méthode que nous proposons est d'isoler ces différents modes par l'étude de la structure interne des modèles, puis de créer des modèles spécialisés à partir du modèle générique initial. 2.2 Bipartition de modèles Notre objectif est d’extraire automatiquement des types de réalisations distincts. La méthode que nous proposons repose sur l’hypothèse que les modèles multi-gaussiens qui composent le MMC générique résultent du mélange de modèles mono-gaussiens à priori inconnus. Pour chercher ces modèles à partir du modèle générique appris, nous commençons par le décomposer en un graphe ergodique dont chaque noeud correspond à une gaussienne du modèle initial. Nous cherchons ensuite une subdivision optimale de l’ensemble de ces composantes gaussiennes. Cette subdivision nous permet enfin de recomposer un modèle classique, composé d’états multi-gaussiens partiellement connectés. L’algorithme de spécialisation comporte donc 4 étapes principales qui correspondent à ce mécanisme général de décomposition et recomposition.