52 Conférence TALN 1998, Paris, 10–12 juin 1998 Extraction stochastique d’arbres d’analyse pour le modèle DOP Jean-Cédric Chappelier et Martin Rajman EPFL – DI-LIA, Écublens, CH-1015 Lausanne, Suisse {chaps, rajman}@lia.di.epfl.ch Résumé Dans le cadre des approches à base de grammaires faiblement sensibles au contexte 1 , cette contribution passe en revue le problème de l’extraction de l’arbre d’analyse le plus probable dans le modèle du Data-Oriented Parsing (DOP) (Bod, 1995). Une démonstration formelle de l’utilisabilité des méthodes Monte-Carlo est donnée, puis une technique d’échantillonnage con- trôlée est développée permettant de garantir que l’arbre d’analyse sélectionné est bien (avec un certain seuil de conﬁance ﬁxé a priori) l’arbre d’analyse le plus probable au sens du modèle DOP. 1. Introduction L’analyse syntaxique guidée par les données (Data-Oriented Parsing ou DOP) (Bod, 1995) constitue aujourd’hui une des voix de recherche prometteuses dans le cadre des approches à base de grammaires faiblement sensibles au contexte 1 . Elle correspond à une mise en œuvre spéciﬁque des grammaires probabilistes à substitution d’arbres et présente, à ce titre, plusieurs différences importantes avec le modèle usuel des grammaires stochastiques (SCFG 2 ). En partic- ulier, et à la différence des SCFG, il n’y a pas dans le cadre du modèle DOP une correspondance bi-univoque entre un arbre d’analyse et la façon de produire cet arbre par la grammaire (par ex- emple une liste de sous-arbres) 3 . La conséquence fondamentale de cet état de fait est qu’à la différence des SCFG, trouver l’arbre d’analyse le plus probable devient un problème NP-difﬁcile (Sima’an, 1996). Seule la dérivation la plus probable peut être trouvée en un temps polynômial. Une solution possible consiste alors à chercher l’arbre d’analyse le plus probable, non plus par une méthode exacte mais par échantillonnage statistique au sein de la forêt des dérivations. Cependant, pour qu’une telle technique soit effectivement opérationnelle, il est nécessaire que les probabilités servant à échantillonner la forêt des dérivations soient (1) elles-mêmes 1. « mildly context-sensitive grammars » 2. pour « Stochastic Context-Free Grammars » 3. et ceci malgré la convention consistant à réécrire systématiquement en premier la feuille non-terminale la plus à gauche.