Animação Facial 2D Sincronizada com a Fala Integrada a Conversor Texto Fala Paula D. Paro Costa , José Mario De Martino (Orientador) Departamento de Engenharia de Computação e Automação Industrial (DCA) Faculdade de Engenharia Elétrica e de Computação (FEEC) Universidade Estadual de Campinas (Unicamp) Caixa Postal 6101, 13083-970 – Campinas, SP, Brasil {paula,martino}@dca.fee.unicamp.br Abstract – Talking heads animation systems found many applications in natural human-machine interfaces. This article describes the implementation of a talking head based on a 2D facial animation system integrated with a text-to-speech synthesizer for Brazilian Portuguese. The implementation starts with a recorded audiovisual corpus of an actor, from which audio track is analyzed and face images are acquired and processed to create an image database. An animation synthesis module will be responsible for processing and selecting from database key- frames for final animation based on relevant information to guarantee correct representation of speech articulatory movements dynamic. Image morphing technique will be applied to guarantee smooth transition between key-poses. Keywords – Talking head, 2D facial animation 1. Introdução Sistemas de animação facial sincronizados com a fala (talking heads) são capazes de reproduzir os mecanismos de comunicação face-a-face com os quais estamos naturalmente familiarizados e podem ser utilizados em interfaces homem-máquina como alternativa a interfaces do tipo WIMP (Windows, Icons, Menus e Pointing device). Este artigo apresenta o projeto de imple- mentação de uma talking head a partir do desen- volvimento de um sistema de animação facial 2D foto-realista integrado a conversor texto-fala para o português do Brasil. Este projeto encontra-se atu- almente em desenvolvimento no Departamento de Engenharia de Computação e Automação Industrial da FEEC/Unicamp e conta com a parceria da Fun- dação CPqD. Em sistemas de animação facial 2D foto- realistas a animação é produzida pelo apropriado se- quenciamento, concatenação e apresentação de ima- gens fotográficas capturadas de uma face real. Por utilizar fotografias, este tipo de sistema reproduz de maneira inerentemente foto-realista a riqueza de detalhes e as nuances das características estáticas observadas em uma face. Por outro lado, a cor- reta reprodução da dinâmica dos movimentos faci- ais destaca-se como a principal problemática a ser abordada no projeto e implementação deste tipo de sistema. Para sistemas talking heads em particular, é de fundamental importância a correta reprodução dos movimentos articulatórios associados à produ- ção da fala [1], [4]. Neste artigo é apresentada a abordagem proposta para o desenvolvimento e implementação do projeto (Seção 2.) seguida da descrição de algu- mas das atividades iniciais já concluídas (Seção 3.). Conclui-se citando algumas das próximas etapas de desenvolvimento. 2. Etapas de Desenvolvimento A abordagem proposta para o desenvolvimento do módulo de animação facial 2D inicia-se com a cap- tura de um corpus áudio-visual através do qual é possível extrair imagens de posturas labiais corres- pondentes à produção de diferentes sons da fala (visemas). Segue-se então uma etapa de processa- mento das imagens e análise da trilha de áudio ex- traídas do corpus. O conjunto de imagens processa- das, em combinação com as informações fornecidas pela análise do áudio, permitem a formação de um banco de dados e imagens que será utilizado pelo módulo de animação facial 2D. Após a etapa de geração do banco de da- dos e imagens, é possível implementar o sistema de síntese. A partir de um texto de entrada, o con- versor texto-fala sintetizará o áudio correspondente. Neste projeto é utilizado o conversor texto-fala de- senvolvido pela Fundação CPqD [2], que fornecerá ao módulo de animação facial 2D, informações fo- néticas temporizadas do áudio sintetizado. A par- tir dessas informações, o módulo de animação irá selecionar no banco de dados e imagens, a melhor sequência de quadros para a animação. Levando- se em consideração o universo restrito de amostras,