22 ème Traitement Automatique des Langues Naturelles, Caen, 2015 ...des conférences enﬁn disons des causeries... Détection automatique de segments en relation de paraphrase dans les reformulations de corpus oraux Natalia Grabar 1 Iris Eshkol-Taravella 2 (1) CNRS UMR 8163 STL, Université Lille 3, 59653 Villeneuve d’Ascq, France natalia.grabar@univ-lille3.fr (2) CNRS UMR 7270 LLL, Université d’Orléans, 45100 Orléans, France iris.eshkol@univ-orleans.fr Résumé. Notre travail porte sur la détection automatique des segments en relation de reformulation paraphrastique dans les corpus oraux. L’approche proposée est une approche syntagmatique qui tient compte des marqueurs de reformu- lation paraphrastique et des spéciﬁcités de l’oral. Les données de référence sont consensuelles. Une méthode automatique fondée sur l’apprentissage avec les CRF est proposée aﬁn de détecter les segments paraphrasés. Différents descripteurs sont exploités dans une fenêtre de taille variable. Les tests effectués montrent que les segments en relation de paraphrase sont assez difﬁciles à détecter, surtout avec leurs frontières correctes. Les meilleures moyennes atteignent 0,65 de F- mesure, 0,75 de précision et 0,63 de rappel. Nous avons plusieurs perspectives à ce travail pour améliorer la détection des segments en relation de paraphrase et pour étudier les données depuis d’autres points de vue. Abstract. ...des conférences enﬁn disons des causeries... Automatic detection of segments with paraphrase relation in spoken corpora rephrasings. Our work addresses automatic detection of segments with paraphrastic rephrasing relation in spoken corpus. The proposed approach is syntagmatic. It is based on paraphrastic rephrasing markers and the speciﬁcities of the spoken language. The reference data used are consensual. Automatic method based on machine learning using CRFs is proposed in order to detect the segments that are paraphrased. Different descriptors are exploited within a window with various sizes. The tests performed indicate that the segments that are in paraphrastic relation are quite difﬁcult to detect. Our best average reaches up to 0.65 F-measure, 0.75 precision, and 0.63 recall. We have several perspectives to this work for improving the detection of segments that are in paraphrastic relation and for studying the data from other points of view. Mots-clés : Corpus oraux, Paraphrase, Reformulation, Marqueur de reformulation paraphrastique, Apprentissage supervisé. Keywords: Spoken Corpora, Paraphrase, Reformulation, Paraphrastic Reformulation Marker, Supervised Learn- ing. 1 Introduction La paraphrase joue un rôle important dans la langue. Ceci justiﬁe en particulier la conception de la langue comme d’un système de paraphrasage par certains linguistes (Melˇ cuk, 1988). Voilà quelques exemples de contextes où la paraphrase se relève importante : – Dans les cours de langues, on demande souvent aux élèves de paraphraser des expressions ou des phrases aﬁn de contrôler leur maîtrise de la langue, qu’elle soit maternelle ou étrangère ; – De la même manière, il est possible de contrôler la compréhension d’une idée. Les premiers exercices de paraphrasage aurait ainsi apparus en effectuant l’exégèse des textes anciens : des textes sacrés (Bible, Coran, Tora) d’abord, et ensuite des textes théologiques, philosophiques ou scientiﬁques. Notons que la production d’explications ou de commentaires sur ces textes occupe toujours une place importante en philosophie, théologie et philologie des langues anciennes ; – De manière plus naturelle, les locuteurs recourent à la paraphrase pour préciser leurs pensées et les transmettre au mieux à leurs interlocuteurs. Dans ce cas, la paraphrase découle de l’activité de reformulation. Notons que l’écriture