Extração Automática de Palavras-chave de Textos da Língua Portuguesa Maria Abadia Lacerda Dias, Marcelo de Gomensoro Malheiros Centro Universitário UNIVATES Lajeado – RS – Brasil {mald,mgm}@univates.br Abstract. This paper describes the adaptation of an algorithm for automatic extraction of keywords for Portuguese. Keywords make possible to summarize the contents of a document in a short way, and may be used as an efficient measure of similarity between texts. To identify the keywords we used the freely available KEA algorithm, together with a stemming technique specific to Portuguese and a manually created list of stopwords. Resumo. Este artigo descreve a adaptação de um algoritmo de extração automática de palavras-chave para a Língua Portuguesa. Palavras-chave permitem resumir o conteúdo de um documento de forma sucinta, podendo ser usadas como uma medida eficiente de similaridade entre textos. Para identi- ficar as palavras-chave utilizou-se o algoritmo KEA, livremente disponível, juntamente com uma técnica de radicalização de palavras específica para a Língua Portuguesa e uma lista de stopwords elaborada manualmente. 1. Introdução A motivação inicial para se trabalhar com extração automática de palavras-chave de textos veio da demanda por ferramentas de sumarização para a área de Recuperação de Informações. A importância do estudo de técnicas específicas para a Língua Portuguesa é ressaltada pela dependência da estrutura da língua para tal tipo de tarefa e pela escassez de trabalhos publicados sobre o assunto [Dias-2004]. Pode-se afirmar que palavras-chave fornecem um meio poderoso de filtragem e organização de documentos, pois tornam possível selecionar aqueles que são provavelmente relevantes. Portanto, é de interesse para o processamento de informações o desenvolvimento de métodos para automatizar a obtenção de palavras-chave. Contudo tais informações não são apenas números, mas linguagem humana em forma escrita, e portanto, com uma lógica e coerência específicas da língua utilizada. Não basta apenas ter domínio de ferramentas computacionais como banco de dados e mecanismos de busca, sendo fundamental ter conhecimento também da estrutura e eventualmente do sentido da construção das frases utilizadas, que são específicos para cada língua humana. A área de conhecimento que se dedica ao estudo, tratamento e compreensão da linguagem humana através de tecnologia computacional é denominada Processamento de Linguagem Natural (PLN). Deste campo utiliza-se a técnica de radicalização [Orengo- 2001], que se configura como ferramenta extremamente útil para tratar a linguagem natural, pois permite reduzir as palavras de um texto aos radicais que as compõem, de forma a agrupar por similaridade variações ortográficas que de outra forma passariam como palavras completamente distintas. Outro conceito bastante importante de PLN é o