Avaliação de sistemas de extração de relações para a língua Portuguesa pt-BR Evaluation of Relation Extraction Systems for portuguese language pt-BR Caio Guilherme Alvino Cruz Mestrado em Engenharia de Produção e Sistemas Computacionais – MESC, Universidade Federal Fluminense Rio das Ostras, Brasil caiocruz@id.uff.br Leila Weitzel Mestrado em Engenharia de Produção e Sistemas Computacionais – MESC, Universidade Federal Fluminense Rio das Ostras, Brasil leila_weitzel@id.uff.br Resumo — Muitas aplicações na extração de informações, entendimento da linguagem natural, recuperação da informação exigem uma compreensão das relações semânticas entre entidades. Várias abordagens foram propostas para a extração de relações de fontes não estruturadas. Para algumas línguas, como o inglês, há uma extensa pesquisa e literatura. Assim, com base neste cenário este artigo tem como objetivo adaptar e avaliar as ferramentas ReVerb e OpenNLP para o Português pt-BR. Os resultados indicam que o ReVerb ajustado para extrair relações em português é satisfatório. Palavras Chave – extração de relações; processamento de linguagem natural; relações semânticas. Abstract — Many applications in information extraction, natural language understanding, and information retrieval require an understanding of the semantic relations between entities. Several approaches have been proposed for the extraction of relations from unstructured sources. For some languages, such as English, there is extensive research and literature. Thus, based on this scenario, this paper aims to adapt and evaluate the ReVerb and OpenNLP tools for Portuguese pt-BR. The results indicate that the ReVerb adjusted for extracting relations in Portuguese is satisfactory. Keywords – relation extraction; natural language processing; semantic realtions. I. INTRODUÇÃO Nas últimas décadas houve uma rápida proliferação de informações textuais disponíveis, especialmente em formato digital em uma série de repositórios na Internet e Intranets. Extração da Informação (EI) destes repositórios consiste no processo de se analisar textos para obter informações relevantes para algum interesse [1]. A crescente necessidade de aplicações da linguística computacional nessa área fez ressaltar a carência de dados linguísticos de dimensões reais, em particular, de léxicos e gramáticas de grandes coberturas, particularmente no idioma Português pt-BR. O Processamento de Linguagem Natural (PLN) não é uma tarefa trivial, vários problemas são facilmente verificados, como a grande variação morfológica e sintática das unidades lexicais ou a ambiguidade intrínseca da língua. Se, em relação ao tratamento do léxico, os dicionários utilizados não forem adequados tanto com relação à sua cobertura lexical, quanto à formalização e sistematização das classes de palavras (substantivo, verbo, adjetivo, etc.), chamado de Part-Of-Speech, isso afetará não só a análise lexical, mas também todas as fases do processamento. Se, por exemplo, uma palavra não for reconhecida ou não for corretamente identificada, a análise sintática e semântica pode ser comprometida. Para o inglês, existem vários pacotes de programas prontos para extrair informação estruturada, como por exemplo, o OpenNLP [2], que tem como vantagem ser de código aberto e, realizar as principais funções de PLN mas não tem suporte para a língua portuguesa; UIMA [3] que tem suporte para a língua portuguesa, é também capaz de analisar grandes volumes de informações e tem solução de código aberto; NLTK [4] tem suporte para reconhecimento da escrita na língua portuguesa, é uma solução código aberto, todavia não realiza todas as principais tarefas da PLN. ReVerb [5] nativo ao idioma inglês, é código aberto realiza todas as tarefas de PLN. Existem outras ferramentas que ou não são adaptadas ao idioma português pt- BR ou não realizam todas as tarefas da PLN. Assim, baseado no contexto e problemática descrita nos parágrafos anteriores, o objetivo deste artigo é adaptar a ferramenta ReVerb e o OpenNLP ao idioma Português pt-BR e avaliar o desempenho da extração de relações. A avaliação leva em consideração as duas ferramentas atuando juntas no processo de extração das relações. Este artigo está subdivido em seis seções, além da seção de introdução. A Seção II apresente uma breve descrição da área de extração de informação. A Seção III apresenta as ferramentas utilizadas na pesquisa. A seção IV discute os trabalhos relacionados, a seção V descreve a metodologia que foi adotada na pesquisa. A seção VI apresenta os resultados obtidos e por fim a seção VII discute as considerações finais. II. EXTRAÇÃO DE INFORMAÇÃO As técnicas de EI tem como objetivo principal localizar e extrair, de maneira automática, informações relevantes presentes