GRABACIÓN DE UNA BASE DE DATOS BILINGÜE EUSKERA/CASTELLANO PARA VERIFICACIÓN DE LOCUTOR Iker Luengo, Eva Navas, Iñaki Sainz, Ibon Saratxaga, Jon Sánchez, Igor Odriozola, Juan José Igarza, Inmaculada Hernáez AhoLab Signal Processing Group. Departamento de Electrónica y Telecomunicaciones. Universidad del País Vasco (UPV/EHU). Alda. Urquijo s/n, 48013 Bilbao. {ikerl, eva, inaki, ibon, ion, igor, jigarza, inma}@aholab.ehu.es RESUMEN Los grupos de investigación de procesado del habla que trabajan con lenguas minoritarias han de afrontar una serie de dificultades a la hora de grabar nuevas bases de datos orales para esas lenguas, tales como la falta de recursos previos, la escasez de personas que hablan el idioma de forma fluida y la dificultad de encontrar financiación para el proyecto. Algunas veces es posible aprovechar campañas de grabación para otros proyectos y extenderlos de tal forma que se incluyan grabaciones en esa lengua minoritaria para cada donante que lo domine. De esta forma se puede grabar una nueva base de datos con poco esfuerzo, ya que la campaña de grabación a sido preparada y financiada de antemano. Usando esta misma técnica se ha creado una nueva base de datos bilingüe euskera/castellano, gracias a la cual se está llevando a cabo un estudio sobre sistemas de verificación bilingües en estos idiomas. En el presente artículo se describe la base de datos resultante así como las dificultades encontradas durante su grabación. 1. INTRODUCCIÓN Hoy en día muchos sistemas requieren de algún mecanismo de autenticación de usuario para evitar fraudes o accesos no autorizados. La mayoría de estos sistemas utilizan una autenticación basada en claves, pero estas claves se pueden olvidar o robar. Actualmente los métodos de autenticación biométrica son la mejor alternativa, ya que proporcionan una verificación extremadamente segura y precisa [1]. Además, las características biométricas no se pueden perder ni olvidar, y son muy difíciles de imitar. Este tipo de autenticación se utiliza en la actualidad en sistemas como ordenadores portátiles con control de acceso mediante huella digital o acceso a edificios mediante geometría de la mano. La voz es una característica biométrica no intrusiva, que tiene un alto grado de aceptabilidad y que es apropiada para sistemas de verificación a larga distancia sobre redes de datos y voz. Para el desarrollo de estos sistemas de autenticación basados en voz, es necesario contar con bases de datos orales con grabaciones de diferentes locutores. Como método de autenticación biométrica, la verificación de locutor ha de decidir si una persona es o no quien dice ser, utilizando para ello una o más señales de voz de esta persona [2]. En un sistema de verificación de locutor general se pueden distinguir dos módulos: El módulo de entrenamiento (que genera un modelo para cada usuario del sistema) y el módulo de pruebas (que decide si una señal de voz ha sido producida por un locutor específico) [3][4]. Generalmente se supone que el idioma de las señales de entrenamiento y prueba es el mismo. Pero en entornos multilingües es deseable que los usuarios del sistema de verificación puedan utilizar cualquiera de los idiomas que conozcan para acceder al sistema, sin notar diferencias apreciables en el funcionamiento del mismo. Por ello, en los últimos años, varios grupos de investigación han centrado su atención en sistemas de reconocimiento de locutor en entornos multilingües, donde los modelos pueden ser entrenados utilizando un idioma y las pruebas ser realizadas en otro [5][6]. Este entorno multilingüe añade algunas dificultades al sistema de verificación. Por un lado, la diferencia entre los idiomas de entrenamiento y prueba provoca una reducción de la precisión del sistema [7]. Por otro, las diferencias entre los idiomas del modelo de locutor y el modelo de locutor universal en un sistema de verificación de locutor GMM provoca también un aumento de los errores [8]. El País Vasco es un ejemplo de este tipo de entornos multilingües, en el que conviven dos idiomas oficiales, el euskera y el castellano. El euskera es un idioma minoritario, y por tanto, existe una falta de recursos lingüísticos en este idioma [9]. Concretamente, no existe ninguna base de datos oral pública disponible para el desarrollo de sistemas de verificación en este idioma. — 195 — V Jornadas en Tecnología del Habla