Repérage de marqueurs pouvant conduire à l'extraction automatique de la thématique d'un texte en Arabe standard Mourad Loukam* , Djamila Hammouche*, Fatma Zohra Belkredim* * Natural Language Processing Team, LMA Laboratory, Faculty of Sciences, Hassiba Benbouali University of Chlef, Algeria mourad.loukam@univ-chlef.dz Résumé—Nous nous intéressons à l'extraction de connaissances à partir d'un texte non structuré en Arabe standard. L'extraction de la thématique d'un texte figure parmi les résultats importants de nos travaux. Dans cet article, nous montrons comment la recherche de quelques marqueurs peut aider à l'extraction automatique de la thématique du texte. Mots clés —Text mining, Arabe standard, marqueur sémantique, extraction. I. INTRODUCTION Le text mining est une discipline qui s'occupe de la fouille de connaissances et leur extraction à partir de textes non structurés [1]. Elle peut s'allier avec d'autres disciplines comme le traitement du langage naturel, la recherche d'informations, la classification de textes, le clustering, ...etc pour proposer des solutions à problèmes divers comme : l'extraction d'informations de veille technologique dans des textes du domaine financier, l'extraction d'éléments significatifs à partir de dépêches ou articles de presse, ...etc [2]. Nous nous intéressons à l'extraction de connaissances à partir d'un texte non structuré en Arabe standard. L'extraction de la thématique du texte constitue un résultat partiel important pour nos travaux. Dans cet article, nous montrons comment la recherche de quelques marqueurs peut aider à l'extraction automatique de la thématique du texte. II. ARRIÈRE PLAN L'objet de notre projet est l'analyse d'un texte en Arabe standard en vue d'en extraire des connaissances (mots clés, termes, concepts) qui permettent de reconstituer au mieux la sémantique contenue dans le texte et aussi d'en construire une signature sémantique. L'extraction de la thématique du texte fait partie des résultats partiels importants que nous visons. Nous entendons par "thématique d'un texte", le sujet principal que véhicule le texte, par exemple "sport", "économie", "politique", ...etc. Elle est différente de la "catégorie de textes", qui elle regroupe des textes ayant la même nature, par exemple : les "articles de presse", les "articles scientifiques", les "textes littéraires", ...etc. La figure 1 donne l'exemple d'un article de journal (quotidien "Echourouk" du 20 Mars 2014) dont le thème pourrait être "économie".               2014 ! "#$  %&’ ()*+, -$ . /  01 23 0#14+ ’ .05+# 6& "7+ ! 89  0+3:  ;< ,$ 01 )+: . -= >?  .&$ : ! @$3 +  A  3 ! .B* 23 01 )+:, 0#14+# -  C5+: #’ /  01 .D7&  C/ ,+, E*  8F1 G)$ %H I &1  C/ ,+ ’A1  1J7 41 K!  L$ 05+ #’ %&’M ()*+ N7+ I&1 O 9, P"+1 P"4F1 . (#+*  P’ Q/+ J$  R+$    >3 N# J 5 #’ S)7  , 89  C5+: TE1 , I&1 O U’ VF1 (#+*1 W  0"1 6IX .UWF+ A"Y >1   U< >?W+ ! Z  ’ ,*1 0J+ C5+: (#+*1 [! UY 01 &3 . Echourouk, le Jeudi 20 Mars 2014 Fig. 1. Exemple d'un texte de thème "économie". La figure 02 résume l'architecture générale du système d'analyse et d'extraction projeté. L'entrée du système est un texte en Arabe standard non structuré; c'est à dire un texte libre ne contenant pas de zones préformatées. La sortie est un ensemble de connaissances permettant de rendre au mieux la sémantique du document. Le schéma fait apparaitre deux sous-systèmes essentiels : celui des "ressources linguistiques" et celui de "l'apprentissage": – Les ressources linguistiques comprennent les mots clés, les concepts, les mots vides, ...etc. – Le sous-système d'apprentissage vise à implémenter les algorithmes d'apprentissage les plus connus (SVM, HMM, Kmeans, ...etc) . Séminaire National d’Informatique de Biskra, 20-22 Janvier 2015 SNIB’2015 46