InDeCS: Utilizando Descritores em Ciências da Saúde (DeCS) para Classificação de Websites com Conteúdo na Área da Saúde Alex Esteves Jaccoud Falcão 1 , Felipe Mancini 1 ,Thiago Martini da Costa 1 , Anderson Diniz Hummel 1 , Daniel Sigulem 2 , Ivan Torres Pisa 2 1 Programa de Pós-graduação em Informática em Saúde, Universidade Federal de São Paulo (UNIFESP) 2 Departamento de Informática em Saúde, UNIFESP Introdução O conteúdo da internet tem crescido vertiginosamente [1]. Atualmente estima-se que existem cerca de 181 milhões de websites com conteúdos bastante diversificados 1 . As ferramentas de busca têm tido um papel primordial na recuperação de informações na internet. O Google, por exemplo, que se tornou o maior e mais utilizado mecanismo de busca no mundo [2]; é uma excelente ferramenta para se encontrar informações de uso geral. A área de saúde merece atenção especial. O Centro de Estudos sobre as Tecnologias da Informação e da Comunicação 2 mostrou que no ano de 2007 cerca de 32% das atividades de usuários na web no Brasil estavam relacionadas à procura de informações nesta área. Segundo Kaselman [3], a dificuldade em recuperar informações na área de saúde é latente. Em seu estudo, vinte usuários foram expostos a um caso clínico cujo diagnóstico era angina, utilizando a ferramenta de busca Medline Plus 3 . Os usuários identificaram erroneamente a doença como infarto agudo do miocárdio, sendo apontado pelos autores como causa desse equívoco o nível de conhecimento dos usuários na área de doenças cardíacas e o fato de que a ferramenta de busca não retornava informações relevantes. Considerando que 32% das buscas efetuadas na web em 2007 foram relativas à área de saúde, os usuários que buscam páginas web sobre saúde serão beneficiados por métricas ou algoritmos que diminuam a quantidade de páginas que não fazem parte deste contexto. O objetivo deste trabalho é realizar um estudo exploratório com o intuito de criar um método de classificação automática de páginas web entre saúde e não saúde, sendo este um importante passo no aprimoramento dos buscadores específicos na área de saúde. Metodologia 1 NetCraft, http://www.netcraft.com. 2 CETIC, http://www.cetic.br. 3 http://www.nlm.nih.gov/medlineplus. O presente estudo foi conduzido em três etapas, conforme apresentado na Figura 1. Na primeira etapa foram selecionados arbitrariamente pelos autores 524 endereços de páginas web; seus conteúdos foram classificados como saúde ou não- saúde, considerando o ponto de vista dos autores, e 608 provenientes do Manual Merck de Saúde 4 . Este dicionário foi selecionado para o projeto porque utiliza um vocabulário popular voltado para a saúde da família e está disponível integralmente na web. Figura 1 - Fluxo para cálculo do InDeCS. Na segunda etapa foi calculado um fator de similaridade dos termos do conteúdo das páginas web em relação aos Descritores de Ciência em Saúde (DeCS) 5 . O DeCS é um vocabulário estruturado, baseado em coleções de termos organizados para facilitar o acesso à informação [4]. O Centro Latino-americano e do Caribe de Informação em Ciências da Saúde (BIREME) 6 utiliza o DeCS na indexação de artigos de revistas científicas, livros, anais de congressos, relatórios técnicos e outros tipos de material [5]. Finalmente, utilizando os conjuntos de dados calculados de similaridade, foram ajustados parâmetros de classificadores automatizados com auxilio da ferramenta para mineração de dados Weka [6]. Foram escolhidos para classificação os algoritmos de vizinhos mais próximos (VMP), redes neurais artificiais (RNA) e regressão logística (Logística). Para o VMP utilizou-se o algoritmo IBK com 9 vizinhos e métrica linear de distância definida pelo algoritmo LinearNN; para RNA utilizou-se Multilayer Perceptron, taxa de aprendizagem 0,3, momentum 0,2, 1 neurônio para cada entrada, 7 neurônios na camada intermediaria e 500 rodadas para treinamento; e para regressão logística foi 4 http://www.manualmerck.net. 5 DECS, http://decs.bvs.br. 6 BIREME, http://www.bireme.br. Composição da base de dados Cálculo de similaridade Classificação automática