REVISTA DE TECNOLOGIA DA INFORMAC ¸ ˜ AO E COMUNICAC ¸ ˜ AO, VOL.7, NO 2, AGOSTO DE 2017 49 T´ ecnica de Segmentac ¸˜ ao Multidimensional de Fala Raissa Bezerra Rocha †§ , Wamberto Jos´ e Lira de Queiroz *§ e Marcelo Sampaio de Alencar *§ * Universidade Federal de Campina Grande – UFCG, Campina Grande, Brasil † Universidade Federal de Sergipe – UFS, S˜ ao Crist´ ov˜ ao, Brasil § Instituto de Estudos Avanc ¸ados em Comunicac ¸˜ oes – Iecom E-mails: {raissa, wamberto, malencar}@iecom.org.br Resumo— A segmentac ¸˜ ao de fala ´ e uma etapa importante em v´ arias aplicac ¸˜ oes que envolve o processamento do sinal de voz, como reconhecimento, s´ ıntese e codiﬁcac ¸˜ ao de fala, bem como utilizada como ferramenta para tratamentos fonoaudiol´ ogicos. Este artigo decreve um novo m´ etodo de segmentac ¸˜ ao baseado na observac ¸˜ ao da energia do sinal da voz. Trata-se de um algoritmo dinˆ amico, que divide a locuc ¸˜ ao em multi regi˜ oes e detecta os limiares fon´ eticos pela comparac ¸˜ ao da energia a cada curto segmento da fala com a energia m´ edia de cada regi˜ ao. Para otimizar o desempenho do segmentador, um sistema de reﬁnamento usando o tamanho m´ aximo de cada fonema ´ e proposto. O desempenho do segmentador ´ e aferido por testes objetivos, que indicam que a t´ ecnica proposta fornece resultados competitivos com os encontrados na literatura, apresentando uma taxa de 84,86% de segmentac ¸˜ ao. Palavras-chave— Segmentac ¸˜ ao de fala, energia, sinal de voz. I. I NTRODUC ¸˜ AO A fala ´ e formada pela junc ¸˜ ao de pequenos sons de- nominados fones. Em diversas aplicac ¸˜ oes envolvendo processamento do sinal de voz, a segmentac ¸˜ ao ´ e uma etapa fundamental no desenvolvimento do sistema de fala ou ´ e utilizada para aumentar seu desempenho. Um sistema de segmentac ¸˜ ao de voz tem o objetivo de de- terminar as fronteiras que separam os elementos essenciais da fala, como palavras, s´ ılabas ou fonemas de uma determinada locuc ¸˜ ao. Ele pode ser usado em algoritmos de codiﬁcac ¸˜ ao de voz, como ´ e o caso dos codiﬁcadores fon´ eticos, assim como em sistemas de reconhecimento autom´ atico, s´ ıntese de fala e no aux´ ılio para pacientes em tratamento fonoaudiol´ ogico. De acordo com a literatura, os segmentadores de fala podem ser classiﬁcados de acordo com a presenc ¸a ou ausˆ encia da categoria lingu´ ıstica e observac ¸˜ oes ac´ usticas [1]. Categoria lingu´ ıstica ´ e o conjunto de informac ¸˜ oes lingu´ ısticas, como a transcric ¸˜ ao fon´ etica da locuc ¸˜ ao, que pode ou n˜ ao ser apresentada como entrada para o sistema de segmentac ¸˜ ao. Por outro lado, as observac ¸˜ oes ac´ usticas consis- tem em informac ¸˜ oes extra´ ıdas do sinal de fala, normalmente representadas por um vetor de parˆ ametros, com informac ¸˜ oes do sinal de fala, atribu´ ıdos a janelas de curto intervalo de tempo. Os sistemas de segmentac ¸˜ ao de fala podem ser classiﬁcados como segmentac ¸˜ ao impl´ ıcita ou segmentac ¸˜ ao expl´ ıcita. A segmentac ¸˜ ao impl´ ıcita acontece quando a categoria lingu´ ıstica n˜ ao ´ e considerada no processo de segmentac ¸˜ ao, sendo con- sideradas apenas observac ¸˜ oes ac´ usticas para o sistema gerar Recebido em marc ¸o de 2017. Aceito em julho de 2017 as fronteiras de segmentac ¸˜ ao. A segmentac ¸˜ ao expl´ ıcita uti- liza a transcric ¸˜ ao fon´ etica (informac ¸˜ oes lingu´ ısticas) para gerar as marcas de segmentac ¸˜ ao. Dessa forma, nesse tipo de segmentac ¸˜ ao, as transcric ¸˜ oes fon´ eticas da fala a serem segmentadas devem ser antecipadamente geradas e utilizadas como entrada para o sistema de segmentac ¸˜ ao [2]. Na literatura, a segmentac ¸˜ ao de fala ´ e realizada, por exem- plo, utilizando t´ ecnicas probabil´ ısticas, como os Modelos de Markov Escondidos, al´ em da sua combinac ¸˜ ao com t´ ecnicas como DTW (Dynamic Time Warping), SPM (Score Preditive Model), ou at´ e mesmo usando informac ¸˜ oes visuais da fala, tais como o movimento dos l´ abios, l´ ıngua e dentes [3], [14], [4], [5], [13], [12]. Outros trabalhos tamb´ em prop˜ oem a segmentac ¸˜ ao por meio da observac ¸˜ ao do pitch, detecc ¸˜ ao de envolt´ oria e estudo de regras fon´ eticas [2], [1], [6], [7], [8], [16], [17]. Este artigo apresenta um novo m´ etodo de segmentac ¸˜ ao de fala, com ˆ enfase na divis˜ ao fon´ etica. Trata-se de uma t´ ecnica que secciona a locuc ¸˜ ao em regi˜ oes e observa as variac ¸˜ oes de energia usando como referˆ encia a energia m´ edia de cada regi˜ ao. Para aprimorar o m´ etodo, ´ e implementado um sistema de reﬁnamento, que elimina falsas demarcac ¸˜ oes e localiza fronteiras n˜ ao detectadas anteriormente. Al´ em desta sec ¸˜ ao introdut´ oria, este artigo est´ a dividido em mais trˆ es sec ¸˜ oes. A Sec˜ ao II descreve o m´ etodo de segmentac ¸˜ ao fon´ etica proposto, al´ em do sistema de reﬁ- namento utilizado para o seu aprimoramento. A an´ alise de desempenho da t´ ecnica de segmentac ¸˜ ao, bem como a comparac ¸˜ ao com outros segmentadores para o Portuguˆ es do Brasil est´ a na Sec ¸˜ ao III. Por ﬁm, a Sec ¸˜ ao IV apresenta as conclus˜ oes e trabalhos futuros. II. DESCRIC ¸˜ AO DA T´ ECNICA DE SEGMENTAC ¸˜ AO MULTIDIMENSIONAL DE FALA A t´ ecnica de segmentac ¸˜ ao multidimensional de fala ´ e car- acterizada por permitir obter fronteiras em n´ ıvel fon´ etico por meio da divis˜ ao em m´ ultiplas dimens˜ oes da locuc ¸˜ ao a ser segmentada. Diferentemente dos demais trabalhos encontrados na lite- ratura sobre segmentac ¸˜ ao de fala, que utilizam m´ etodos es- tat´ ısticos, caracterizados pela alta complexidade de algoritmo e uma pr´ evia etapa de treinamentos de modelos ac´ usticos [20], [21], a t´ ecnica multidimensional apresenta um algoritmo de f´ acil implementac ¸˜ ao e n˜ ao requer etapas de pr´ e-processamento do sinal de voz para obtenc ¸˜ ao das fronteiras entre fonemas.