Desarrollo de un modelo para la s´ ıntesis de voz irregular basado en par´ ametros ac´ usticos Gabriel A Alzamendi †,§ , Gast´ on Schlotthauer †,§ , Hugo L Ruﬁner ‡,§ y Mar´ ıa E Torres †,‡,§,* † Laboratorio de Se˜ nales y Din´ amicas no Lineales; Facultad de Ingenier´ ıa; Universidad Nacional de Entre R´ ıos ‡ Centro de I+D en Se˜ nales, Sistemas e Inteligencia Computacional; Facultad de Ingenier´ ıa y Ciencias H´ ıdricas; Universidad Nacional del Litoral § Consejo Nacional de Investigaciones Cient´ ıﬁcas y T´ ecnicas E-mail: * metorres@santafe-conicet.gov.ar Resumen. La se˜ nal de voz normal presenta irregularidades intr´ ınsecas necesarias para que se perciba “natural”. Cuando existen patolog´ ıas estas irregularidades aumentan volvi´ endose m´ as evidentes, incluso para un o´ ıdo no entrenado. Los par´ ametros ac´ usticos que las cuantiﬁcan son ´ utiles en la pr´ actica m´ edica para caracterizar la voz y detectar patolog´ ıas. Aqu´ ı se propone un modelo para la s´ ıntesis de voz irregular que permite ﬁjar dos par´ ametros ac´ usticos, habitualmente empleados en la pr´ actica m´ edica, relacionados con las perturbaciones instant´ aneas en la amplitud y el periodo fundamental: Shimmer y Jitter. Se genera la se˜ nal gl´ otica artiﬁcial a partir de un tren de pulsos equi-espaciados, modiﬁcando la amplitud y periodo de cada pulso y aplicando a la se˜ nal resultante un ﬁltro lineal autorregresivo equivalente al del tracto vocal, obteniendo as´ ı una se˜ nal de voz sint´ etica. Se desarrollaron modelos para la perturbaci´ on de la amplitud y del periodo a partir de m´ etodos estad´ ısticos sencillos. Mediante algoritmos de predicci´ on lineal se gener´ o el ﬁltro del tracto vocal usando voces reales. Se gener´ o un conjunto de se˜ nales y se analiz´ o el desempe˜ no del modelo. Las se˜ nales sintetizadas resultaron morfol´ ogicamente similares a las voces reales, aunque a´ un distan de percibirse como naturales. Los valores de las medidas de Shimmer y Jitter obtenidos coincidieron mayoritariamente con los valores te´oricos. Sin embargo, se observ´ o que el Jitter se aleja del comportamiento ideal para valores peque˜ nos debido a la frecuencia fundamental y a la naturaleza temporal discreta de las se˜ nales sintetizadas. Los resultados sugieren que el modelo desarrollado es ´ util para generar voces artiﬁciales, tanto sanas como patol´ogicas, para un amplio rango de valores de los indicadores de Shimmer y Jitter. 1. Introducci´ on A lo largo del tiempo, el estudio y modelado de los mecanismos intervinientes en la generaci´ on de la voz ha sido un campo en constante investigaci´ on que ha abarcado diversas ´ areas de las ciencias y puntos de vistas inter-disciplinarios, debido a la gran complejidad y diversidad de elementos que participan. Los ejes principales en los que se centra son el an´ alisis de las estructuras anat´ omicas y los fen´ omenos involucrados en el proceso del habla, considerando su comportamiento din´ amico y relaciones estructurales [1, 2]. Los avances alcanzados han permitido el desarrollo de nuevas t´ ecnicas y m´ etodos empleados en campos muy diversos. En [3] se detallaron m´ etodos para el reconocimiento de hablantes, considerando adem´ as sus posibles aplicaciones. En [4, 5] se analizaron estrategias para mejorar la calidad de las voces artiﬁciales XVIII Congreso Argentino de Bioingeniería SABI 2011 - VII Jornadas de Ingeniería Clínica Mar del Plata, 28 al 30 de septiembre de 2011