Dépister efficacement de l’information dans une banque documentaire : L’exemple de MEDLINE Samir Abdou * , Jacques Savoy * , Patrick Ruch ** * Institut interfacultaire d'informatique Université de Neuchâtel, rue Emile Argand 11, 2007 Neuchâtel (Suisse) Samir.Abdou@unine.ch, Jacques.Savoy@unine.ch ** Hôpitaux universitaires de Genève, Service d'informatique médicale Université de Genève, 1211 Genève 4 (Suisse) Patrick.Ruck@sim.hcuge.ch RÉSUMÉ. Cette communication évalue et compare l’efficacité du dépistage de l’information de dix modèles (probabiliste, modèle de langue, approches vectorielles) à l'aide d’un sous- ensemble de notices bibliographiques extraites de la banque documentaire MEDLINE. Cette évaluation est complétée par l’analyse de l’efficacité de trois enracineurs (stemmers). L’impact des descripteurs MeSH, manuellement sélectionnés pour chaque notice, complète cette analyse. Enfin nous avons conçu deux nouvelles approches d’expansion automatique des requêtes, l’une générale l’autre spécifique et nous les avons évalués en les comparant au modèle proposé par Rocchio. ABSTRACT. Based on a relatively large subset representing one third of the MEDLINE collection, this paper evaluates ten different IR models (probabilistic, language model and vector-space approaches) using three different stemmers. The impact that manually assigned descriptors (MeSH headings) have on retrieval effectiveness is also evaluated. Finally, we propose both a new general blind-query expansion and a domain-specific query expansion scheme and compare them with the classic Rocchio approach. MOTS-CLÉS : Recherche d’information ; évaluation ; modèle probabiliste ; modèle de langue ; expansion automatique de requêtes ; indexation manuelle. KEY WORDS: Information retrieval; evaluation; probabilistic model; language model; blind query expansion; biomedical IR; manually indexing. 1. Introduction Grâce à Internet, un nombre croissant d’usagers ont un accès facilité aux grandes banques documentaires à l’exemple de l’INIST (www.inist.fr) pour la France. Au lieu de couvrir toutes les sciences et la technologie, certains fournisseurs se limitent