Indexation et appariement de documents cliniques avec le modèle vectoriel Khadim Dramé 1, 2 Ibrahima Diop 1, 2 Lamine Faty 1, 2 Birame Ndoye 1 (1) Université Assane Seck de Ziguinchor, Diabir, Ziguinchor, Sénégal (2) Laboratoire d’Informatique et d’Ingénierie pour l’Innovation, Ziguinchor, Sénégal khadim.drame@univ-zig.sn, ibrahima.diop@univ-zig.sn, lamine.faty@univ-zig.sn, b.ndoye5360@zig.univ.sn RÉSUMÉ Dans ce papier, nous présentons les méthodes que nous avons développées pour participer aux tâches 1 et 2 de l’édition 2019 du défi fouille de textes (DEFT 2019). Pour la première tâche, qui s’intéresse à l’indexation de cas cliniques, une méthode utilisant la pondération TF-IDF (term frequency – inverse document frequency) a été proposée. Quant à la seconde tâche, la méthode proposée repose sur le modèle vectoriel pour apparier des discussions aux cas cliniques correspondants ; pour cela, le cosinus est utilisé comme mesure de similarité. L’indexation sémantique latente (latent semantic indexing – LSI) est également expérimentée pour étendre cette méthode. Pour chaque méthode, différentes configurations ont été testées et évaluées sur les données de test du DEFT 2019. ABSTRACT Indexing and matching clinical documents using the vector space model. In this paper, we present the methods that we developed to participate in tasks 1 and 2 of the 2019 edition of the french text mining challenge (DEFT 2019). For the first task, which focuses on the indexing of clinical cases, a method using TF-IDF weighting (term frequency - inverse document frequency) has been proposed. For the second one, the proposed method is based on the vector space model to match discussions with corresponding clinical cases; for this, the cosine is used as similarity measure. The latent semantic indexing (LSI) is also used to extend this method. For each method, different configurations were tested and evaluated on the test data of DEFT 2019. MOTS-CLÉS : indexation, modèle vectoriel, TF-IDF, indexation sémantique latente, similarité sémantique, cas cliniques. KEYWORDS: indexing, vector space model, TF-IDF, latent semantic indexing, semantic similarity, clinical cases. 1 Introduction Le défi fouille de textes (DEFT) est une campagne d’évaluation visant à promouvoir le développement de méthodes et d’applications dans le domaine du traitement automatique de langues naturelles (TALN). Dans son édition de 2019, il s’intéresse à l’analyse de cas cliniques ; il comporte trois tâches traitant essentiellement l’indexation, la recherche et l’extraction d’informations à partir de textes biomédicaux (Grabar et al., 2019). Khadim Dramé, Ibrahima Diop, Lamine Faty et Birame Ndoye 91 DEFT@PFIA 2019