¿Podrían los ordenadores detectar emociones cuando les hablamos? C. Rincon, R. Barra, J. M. Lucas, J. M. Montero, J. Macias-Guarasa, L.F. D’Haro, F. Fernández, R. San-Segundo, J.Ferreiros, R. Córdoba, J.M. Pardo {carmenr, barra, juanmak, juancho, macias, lfdharo, efhes, lapiz, jfl, cordoba, pardo}@die.upm.es Abstract — Este trabajo describe un conjunto de experimentos sobre identificación de emociones en busca de completar la inteligencia emocional de un robot guía dentro del entorno de un museo. Los experimentos se centran en el reconocimiento de emociones en dos idiomas (castellano y alemán), así como posibilidad de reconocer las emociones independientemente del idioma. Los resultados inducen a que sería factible detectar emociones tales como la tristeza o el enfado del visitante. I. INTRODUCCIÓN En el proyecto ROBINT, se ha diseñado un robot autónomo con capacidad para servir de guía en un museo como el de las Ciencias Príncipe Felipe de Valencia. Dicho robot, además de las capacidades de navegación que le permiten moverse por el recinto, incorpora un reconocedor de habla independiente del locutor, un sistema de comprensión automática de habla y un conversor texto-habla para poder guiar a sus visitantes humanos de una manera lo más natural posible. Para poder realizar un sistema que resulte aún más empático y atractivo para los visitantes, se ha dotado al robot de capacidad para modular su voz de acuerdo con su estado emocional, siendo así el robot capaz de simular por medio del habla que se encuentra triste, alegre, enfadado o sorprendido, y no sólo en un estado neutro o estándar. Sin embargo, para poder incorporar las emociones de una manera más integral en el comportamiento del robot, sería necesario dotarlo de capacidad para detectar emociones en la voz de sus visitantes y, sobre todo, en la voz del personal del museo que lo acompañe o supervise. Por ello en este artículo hemos llevado a cabo experimentos de identificación de emociones en la voz. II. DESCRIPCIÓN DE LAS BASES DE DATOS Para la evaluación del sistema desarrollado emplearemos dos bases de datos actuadas en diferentes idiomas, castellano y alemán. La razón por la que empleamos estas bases de datos es para intentar descubrir características propias de la emoción manifestadas en la voz, que sean independientes del idioma. A. Spanish Emotional Speech (SES) SES es la base de datos en castellano, descrita en [2]. Está formada por tres sesiones de grabación de habla con emociones interpretadas por un único actor masculino. Cada sesión de grabación incluye treinta palabras (2 minutos), quince frases cortas (7 minutos) y cuatro párrafos (39 minutos), interpretando cuatro emociones primarias (alegría, enfado en frío y sorpresa) y voz interpretada según el estado neutro. El texto interpretado no posee ningún contenido emocional intrínseco. Esta base de datos fue parcialmente etiquetada fonética y prosódicamente de forma semiautomática. B. Berlin Database of Emotional Speech (EMODB) EMODB es la base de datos en alemán, descrita en [3]. Está formada por una o dos sesiones de grabación de habla con emociones interpretadas por diez actores (cinco hombres y cinco mujeres). Cada sesión incluye diez frases (cinco cortas y cinco largas, obteniendo un total de 24,5 minutos), interpretando seis emociones (alegría, enfado en caliente, tristeza, aburrimiento, asco y miedo) y voz interpretada según el estado neutro. EMODB dispone de 24,5 minutos de voz distribuidos de manera no homogénea entre los distintos actores y las distintas emociones. Esta base de datos está etiquetada fonéticamente, pero no prosódicamente. III. DESCRIPCIÓN DEL SISTEMA El sistema automático de identificación de emociones empleado, lo podemos dividir en cuatro fases principales. La primera de ellas sería la de parametrización, en la cual se extraeran características representativas de la voz. El estado emocional del individuo es transmitido parcialmente mediante cambios en la expresión facial. Estos cambios traen consigo la modificación del tracto vocal, provocando así variaciones en la señal de voz. Debido a esto, hemos utilizado los MFCC (Mel Frecuency Cepstrum Coefficients), ampliamente utilizados en tecnología del habla, como características representativas del tracto vocal. La siguiente fase es opcional, se trata de la normalización de dichas características, intentando reducir la variabilidad inter- locutor y del canal de audio. Esta normalización resulta interesante en los vectores obtenidos a partir de la base de datos EMODB, que es multilocutor. Aplicaremos técnicas de normalización basadas en la media (CMN – Cepstral Mean Normalization), en la varianza (CVN – Cepstral Variance Normalization) o en ambas (CMN + CVN). En la fase de entrenamiento, se genera un modelo para cada una de las emociones a partir de los vectores de características. El entrenamiento está basado en un modelo de mezcla de gausianas (GMM – Gaussian Mixture Model) [4]. Finalmente, en la fase de clasificación, se decide a qué emoción pertenece un ejemplo de voz recibido como entrada del sistema. Se ha