Um Conjunto de Visemas para uma Cabeça Falante do Português do Brasil José Mario De Martino, Léo Pini Magalhães Faculdade de Engenharia Elétrica e de Computação Universidade Estadual de Campinas, Campinas, SP, Brasil martino@dca.fee.unicamp.br, leopini@dca.fee.unicamp.br Resumo A leitura orofacial, também denominada leitura labial, pode ser descrita como a técnica que procura facilitar a compreensão da fala às pessoas com capacidade auditiva diminuída, complementando a informação auditiva deficiente com a informação visual, associada à articulação das palavras, disponível na face do falante. A leitura orofacial pode ser um importante recurso de comunicação, principalmente para os deficientes auditivos parciais que já tenham adquirido a fala. Este trabalho, apresenta resultados parciais do desenvolvimento de uma cabeça falante para o Português do Brasil. Pretende-se que esta cabeça falante possa ser utilizada para o treinamento, aprendizado, avaliação e aperfeiçoamento do ensino da técnica de leitura orofacial. No artigo é apresentada a metodologia adotada para a definição de um conjunto de visemas para o Português do Brasil. Os visemas são representações visuais das realizações sonoras da fala, que, aos moldes dos fonemas, têm função distintiva e identificadora. O conjunto de visemas proposto contempla o fenômeno de coarticulação adjacente antecipatória e perseveratória e será utilizado como referência para a animação da cabeça falante. 1. Introdução A comunicação através da fala é efetuada principalmente, quando não exclusivamente, através da percepção e interpretação da informação acústica produzida e modulada pela movimentação articulatória do trato vocal. Não obstante, as pistas visuais induzidas na face do locutor por esta movimentação articulatória podem contribuir para a percepção da fala. A constatação de que a inteligibilidade da fala em situação de degradação do sinal acústico por ruído pode ser melhorada através da observação da face do locutor [1], atesta a participação das pistas visuais no processo de percepção. Em geral, é assumido que as indicações da face não participam significativamente na percepção da fala até que o canal acústico falhe, e nestas situações de degradação do sinal sonoro, a falha é compensada pela informação visual. Assim, pode ser entendido que a informação fornecida pelas pistas visuais da face é redundante, pelo menos parcialmente, à informação transportada pelo sinal acústico. Extrair das pistas visuais da face informações lingüísticas é denominado de leitura orofacial, ou ainda leitura labial. A leitura orofacial é praticada, em maior ou menor grau, por todos, mesmo que de forma inconsciente [2]. Por outro lado, a ruptura da coerência visual-auditiva da fala pode levar à percepção distorcida e incorreta da mensagem transmitida, como revelado pelo denominado efeito McGurk [3]. No experimento realizado por McGurk, imagens de vídeo de um locutor articulando os fonemas /gA/ foi dublada com o áudio de /bA/. O resultado foi percebido pela maioria da população de teste como / dA/. O efeito McGurk indica a importância de contemplar com fidedignidade os aspectos articulatórios da produção da fala que dão origem às pistas visuais apresentadas na face quando da implementação da cabeça virtual falante, que inerentemente tem a intenção de explorar o canal visual para a comunicação. Os sons da fala são produzidos pela modificação controlada do fluxo de ar pulmonar. Estas modificações são efetuadas principalmente pelo posicionamento das pregas vocais, do véu palatino, da língua, da mandíbula e dos lábios. Grande parte destes movimentos articulatórios ocorre no interior da cavidade oral sem que seja possível a sua visualização. Conseqüentemente, o contraste visual dos segmentos é reduzido a um conjunto mais restrito de parâmetros do que o conjunto das possibilidades articulatórias, tornando a percepção visual menos capacitada para a discriminação entre segmentos do que a percepção auditiva. Assim, na percepção visual da fala, os padrões de movimentação articulatória visualmente contrastáveis acabam por ser associados a mais de um segmento sonoro da língua. Notadamente, o vozeamento e a nasalidade apresentam efeito acústico marcante, porém não permitem o contraste visual [4]. Segmentos sonoros que não são possíveis de serem diferenciados visualmente são denominados de homofemas (homo + (morf)ema). Um padrão visual de movimentação articulatória representante de um grupo homofemas é denominado visema. Uma das questões principais deste trabalho é, além da identificação de um grupo de homofemas para o português do Brasil, o estabelecimento de visemas para os grupos de homofemas identificados. A identificação de homofemas está associada à identificação e contraste de diferentes padrões visíveis de movimentação articulatória. O grau de contraste