Caractérisation des contenus de l’Internet en santé : l'exemple CISMeF Aurélie Névéol 1,2 , Lina F. Soualmia 1,2 , Alexandrina Rogozan 2 , Magaly Douyère 1 , Benoît Thirion 1 , Stéfan J. Darmoni 1,2 1 Equipe CISMeF, L@STICS, CHU & Faculté de Médecine de Rouen 1, rue de Germont , 76031 Rouen Cedex {lina.soualmia, magaly.douyere, benoit.thirion, stefan.darmoni}@chu-rouen.fr 2 Laboratoire PSI CNRS FRE-2645, INSA & Université de Rouen Place Emile Blondel, BP-68 , 76131 Mont Saint Aignan {aneveol, arogozan}@insa-rouen.fr Résumé Nous présentons ici une méthode de caractérisation de ressources de l’Internet utilisée dans le catalogue de santé CISMeF. Nous expliquons l’intérêt de cette caractérisation pour les différents types d'utilisateurs, et explicitons les techniques employées pour rendre ces informations accessibles et donc exploitables par l’homme et par la machine. Les travaux en cours au sein de l’équipe CISMeF s’orientent maintenant vers la description et l’indexation automatique des ressources et l’exploitation des données de caractérisation pour la recherche d’information. 1. Contexte A l'heure actuelle, Internet est une source d'information importante dans tous les domaines, et en particulier celui de la santé. Les utilisateurs rencontrent d'énormes difficultés pour trouver précisément ce qu'ils cherchent dans la pléthore de documents mis à leur disposition. Les moteurs de recherche généralistes comme Google restent impuissants à résoudre ce problème car ils proposent souvent une sélection de documents trop large, ou encore mal ciblée. De plus, les utilisateurs sont livrés à eux même pour évaluer la qualité et le degré de confiance des documents qu’ils consultent. Dans ce contexte, le catalogue CISMeF (Catalogue et Index des Sites Médicaux Francophones) créé en 1995, répertorie et indexe les ressources d'information institutionnelles de santé en langue française afin d'y permettre un accès rapide et précis [1]. Les ressources indexées par CISMeF sont d'une grande diversité, tant au niveau des types de documents sélectionnés (recommandations de pratique clinique, cours, informations pour les patients, …) que de leur format (site ou page Web, document pdf, …). Le catalogue contient à l'heure actuelle 13,642 ressources, et il est mis à jour au rythme de 50 nouvelles ressources en moyenne indexées chaque semaine. L'ajout d'une nouvelle ressource au catalogue s'effectue en quatre étapes: le recensement des ressources potentielles par une veille quotidienne, la sélection des ressources selon des critères de qualité précis, la description et l'indexation, et la mise en ligne de notices descriptives. 2. Notice CISMeF Contenu d’une Notice CISMeF Les notices CISMeF contiennent plusieurs types d’information : Une présentation contenant des informations générales sur le contenu et la qualité de la ressource : le titre, le nom du ou des auteurs, un résumé succinct, la source, le niveau de preuve, le type de ressource. Une classification contenant des informations détaillées sur le contenu de la ressource : la liste des spécialités médicales, et des mots clés (ou paires mot clé / qualificatif) MeSH. Le MeSH est le thésaurus de référence du domaine biomédical, développé par la National Library of Medecine américaine pour la base documentaire Medline [2]. La terminologie CISMeF « encapsule » le MeSH avec les concepts de « métatermes » et « type de ressource » détaillés dans [3] Des informations pratiques sur la ressource: l’URL, le format, la langue, le type d’accès (libre, restreint, payant), la date de consultation...