Uma Linguagem para Auxiliar no Processo de Extração de Informações da Web Gilzamir Ferreira Gomes 1 , André Alves Bezerra 1 1 Departamento de Computação – Universidade Estadual Vale do Acaraú (UVA) Sobral – CE – Brazil gilzamir.gomes@uvanet.br, andreebezerra@gmail.com Abstract. The Information Extraction (IE) consists in obtaining relevant information from specific domain textual corpora. The extraction of template- based information is often used in conjunction with other methods of natural language processing. For use of techniques based on templates, it is necessary to use some tool to find text pattern that satisfies a heuristic or predefined patterns. Generally, researchers have used adhoc techniques for this task. In this paper, we propose a domain specific language to assist in the task description templates. This language has the advantage of being intuitive and extensible with the expressive power of Prolog and Java languages. Resumo. A Extração de Informação (EI) consiste na obtenção de informações relevantes em corpora de textos de domínio específico. A extração de informações baseada em templates é bastante utilizada em conjunto com outros métodos de processamento de linguagem natural. Para utilização de técnicas baseadas em templates, é necessário o uso de alguma ferramenta para encontrar padrões de textos que satisfaçam alguma heurística ou que casem com padrões pré-definidos. Geralmente, os pesquisadores têm utilizado técnicas ad-hoc para esta tarefa. Neste artigo, é proposta uma linguagem de domínio específico para auxiliar na tarefa de descrição de templates. Esta linguagem tem vantagem de ser intuitiva e de poder ser estendida com o poder de expressividade das linguagens Prolog e Java. 1. Introdução Há uma enorme quantidade de dados disponíveis na web atual, contudo, a maioria destes dados está disponível em formatos desestruturados, em linguagem natural, ou formatos semi estruturados, como tabelas em páginas HTML ( HiperText Markup Language). Há dois problemas fundamentais na forma como a web disponibiliza informações atualmente: primeiro, a forma como os dados estão disponíveis dificulta a interoperabilidade entre aplicativos; segundo, há uma dificuldade inerente na interpretação dos dados por máquinas, como por exemplos, diferenciar entre bala, um projétil e bala, um doce. A Web Semântica [Berners-Lee et. al. 2001] é um conjunto de tecnologias e padrões que acompanham a evolução da web para possibilitar interoperabilidade entre aplicações e a descrição semântica dos dados da web. Contudo, a aplicação da web semântica ainda está restrita a domínios específicos, apesar da existência de projetos que visam à construção de uma base de conhecimento para web semântica a partir dos dados disponíveis na web, como o projeto Read the Web [Mitchell 2009]. Read the Web é um projeto que visa a construção de um sistema que executa