ESIG 2002 • VII Encontro de Utilizadores de Informação Geográfica • USIG • Tagus Park, 13-15 de Novembro GeoCensus Extracção de Informação Geográfica da Web MACEDO, Joaquim e SANTOS, Maribel Yasmina RESUMO O sistema GeoCensus tem como objectivo a extracção de informação geográfica da Web. Através da colecta exaustiva (para já apenas uma amostra significativa) de páginas Web existentes em Portugal, o sistema localiza geograficamente os servidores que hospedam as páginas colectadas. A localização geográfica das páginas pode ser realizada usando diferentes fontes de informação, nomeadamente a localização geográfica dos servidores Web que hospedam as páginas, os nomes geográficos extraídos do seu conteúdo e a localização geográfica das páginas adjacentes na topologia da Web. Estas fontes diferentes de evidência geográfica podem ser usadas, de forma combinada ou isolada, para localizar geograficamente as audiências das páginas (público alvo). A utilização de diferentes fontes de informação permite uma maior abrangência do sistema de localização geográfica, uma vez que uma grande parte das páginas não têm informação geográfica explícita ou apresentam poucos relacionamentos (nós de entrada e saída) na topologia da Web. Desta forma, a localização duma página pode ser determinada quer pela informação explícita que contém, quer pelas relações que estabelece na topologia Web (páginas que referencia ou em que é referenciada) e também pela localização geográfica do servidor Web em que está hospedada. Caso as diferentes fontes de evidência existam, a sua combinação pode permitir aumentar o eficácia do sistema. Este artigo apresenta o sistema GeoCensus , descrevendo os diversos componentes que integram a sua arquitectura e ainda as diferentes tecnologias utilizadas na sua concretização. São ainda sistematizadas as diversas heurísticas para cálculo estimado do âmbito geográfico das páginas. Para já, é apenas explorada a localização geográfica dos servidores que hospedam as páginas e as ligações entre as páginas estabelecidas pelas referências. São apresentados resultados ilustrativos com toda a informação necessária para o cálculo do âmbito geográfico das páginas. PALAVRAS-CHAVE: World Wide Web, Localização Geográfica, Exploração de Dados. 1 INTRODUÇÃO A W orld W ide W eb (Web) constitui uma importante fonte de informação para uma população cada vez maior de utilizadores em todo o Mundo. O seu crescimento exponencial, aliado à sua arquitectura distribuída e descentralizada, coloca inúmeros desafios à localização de informação relevante quer interrogando motores de busca quer navegando em catálogos ou classificados. Uma técnica importante de redução do espaço de procura e estruturação de grandes volumes de informação é a referenciação geográfica de conteúdos Web. Esta técnica torna-se cada vez mais importante com o crescente acesso à Internet e à Web através de computadores nómadas. O trabalho descrito neste artigo, enquadrado no projecto GeoCensus , tem como objectivo a extracção de informação geográfica da Web. A única fonte de informação utilizada é para já a informação publicamente acessível. A localização geográfica do conteúdo das páginas e do seu público alvo é conseguida pela combinação (ou utilização isolada) de diferentes fontes de evidência geográfica, nomeadamente a localização geográfica dos computadores hospedeiros, os identificadores geográficos explícitos ou implícitos no seu conteúdo e os relacionamentos estabelecidos na topologia Web.