ADQUISICIÓN Y EVALUACIÓN DE UN CORPUS DE DIÁLOGOS MEDIANTE UNA TÉCNICA DE GENERACIÓN AUTOMÁTICA DE DIÁLOGOS David Griol, Lluís F. Hurtado, Emilio Sanchis, Encarna Segarra Departament de Sistemes Informàtics i Computació Universitat Politècnica de València. E-46022 València, Spain {dgriol,lhurtado,esanchis,esegarra}@dsic.upv.es RESUMEN En este trabajo presentamos una aproximación para adqui- rir un corpus de diálogos mediante la interacción de un si- mulador de usuario y un simulador de gestor de diálogo. Inicialmente se define una selección aleatoria de respues- tas para el funcionamiento de ambos módulos, evaluán- dose automáticamente el diálogo adquirido mediante la definición de un conjunto de condiciones de parada. Las probabilidades de las respuestas seleccionadas tras simu- lar con éxito un diálogo se incrementan previamente a una nueva simulación. De este modo, es posible obtener un modelo de diálogo sin la necesidad de disponer de un cor- pus de diálogos para la tarea. En el artículo se resumen los resultados de la aplicación de esta metodología para la adquisición de un corpus de diálogos para el proyecto EDECÁN. 1. INTRODUCCIÓN El aprendizaje de modelos estadísticos que permitan desarrollar los diferentes módulos de un sistema de diá- logo ha despertado durante la última década el interés de la comunidad científica [1] [2]. Aunque en la literatura pueden encontrarse modelos para el diseño de gestores de diálogo basados en la definición por parte de un experto de un conjunto de reglas, durante los últimos años se han desarrollado aproximaciones basadas en el aprendizaje de un modelo estadístico que define el comportamiento del gestor de diálogo [3] [4] [5]. En este campo, hemos desarrollado una aproximación para gestionar el diálogo utilizando un modelo estadístico aprendido a partir de un corpus de diálogos [6]. Reciente- mente se ha llevado a cabo la adaptación de este modelo para desarrollar un gestor de diálogo en el marco del pro- yecto EDECÁN [7]. El éxito de las aproximaciones estadísticas depende del tamaño y la calidad del corpus de diálogos utilizado para realizar el aprendizaje del modelo. La adquisición y etiquetado de un corpus de diálogos con un número sufi- ciente de diálogos para entrenar un buen modelo requiere Este trabajo se ha desarrollado en el marco del proyecto EDECÁN subvencionado por el MEC y FEDER número TIN2005-08660-C04-02. un esfuerzo considerable. Una solución para este proble- ma consiste en el desarrollo de un módulo que simule las respuestas del usuario. En este campo se han desarrollado durante los últimos años diferentes técnicas para modeli- zar el comportamiento del usuario [8] [9] [10] [11]. En este artículo, presentamos una aproximación pa- ra adquirir un corpus de diálogos mediante la interacción de un simulador de usuarios y un simulador de gestor de diálogo. La aproximación propuesta se basa en la selec- ción aleatoria de las respuestas del usuario y del sistema. Los únicos parámetros que se requieren para la adquisi- ción son la definición de la semántica de la tarea (es decir, el conjunto de posibles actos de diálogo de usuario y de sistema) y un conjunto de condiciones que permitan des- cartar automáticamente los diálogos que no alcanzan el objetivo definido. Hemos utilizado esta técnica para ad- quirir un corpus para una de las tareas definidas en el pro- yecto EDECÁN. La tarea EDECÁN-UPV consiste en el diseño de un interfaz oral para reservar y proporcionar información sobre las instalaciones deportivas en nuestra universidad. El corpus obtenido mediante la técnica de simulación automática se ha evaluado utilizándolo para el entrena- miento de nuestro gestor de diálogo estadístico. El gestor de diálogo aprendido se ha evaluado utilizando un conjun- to de diálogos persona-persona proporcionados por el per- sonal del Área de Deportes de la Universidad Politécnica de Valencia. Este corpus está compuesto por 150 diálogos (873 turnos de usuario). De este modo, en estos diálogos han participado usuarios que deseaban realmente realizar las diferentes consultas que proporcionará el sistema de forma automática. 2. DEFINICIÓN DE LA SEMÁNTICA DE LA TAREA EDECAN-UPV De forma similar a la utilizada en muchos otros sis- temas de diálogo, la notación seleccionada en la tarea EDECAN-UPV para la representación de los turnos de usuario y de sistema se basa en la utilización de actos de diálogo. — 167 — V Jornadas en Tecnología del Habla