published in BULAG, PCUF, Besançon, 1998, 193-218. IMMORTAL: HOW TO DETECT MISSPELLED FROM UNKNOWN WORDS Rodolfo Delmonte°, Emanuele Pianta* * I.R.S.T. - Povo (Trento) °Ca' Garzoni-Moro, San Marco 3417 Università "Ca Foscari" 30124 - VENEZIA Tel. 39-41-2578464/52/19 E-mail: delmont@unive.it - ftp site: ftp.unive.it ABSTRACT Nous présentons des données préliminaires pour un détecteur-correcteur d'erreurs orthographiques et grammaticales automatique en italien, une langue riche en morphologie. Nous affirmons que la morphologie joue un rôle fondamental dans la création de ces outils et nous basons notre hypothèse sur le résultat de l'analyse d'un corpus d'italien contemporain qui s'élève environ à 1 million de mots. L'analyse a été générée en différentes phases, que nous examinerons en détail, avec un analyseur morphosyntaxique qui s'appelle Immortal (cfr. Delmonte, Pianta 1996). Ce système produit à la fin un etiquéttage lexical avec 100 étiquettes, un nombre proche de ceux qui produits pour les autres langues. Le système génère automatiquement une lemmatisation pour chaque mot et il a un correcteur orthographique et grammatical. Les processus de correction automatique sont basés sur la reconnaisance des morphèmes et de la structure syllabique de l'italien; il travail à partir d'une base de données de 4000 erreurs réelles detectées dans l'analyse du corpus et à partir d'autre sources qui ont étés classées de façon à pouvoir détecter ce type d'erreurs. Afin de produir des candidats utilisables - plutôt que de solutions fausses - pour corriger les mots erronés, il nous a semblé que le découpage morphologique et syllabique constituait une solution faisable. La correction grammaticale a été dévelopée en augmentant une grammaire libre du contexte représentée en forme d'un RTR. 1. INTRODUCTION For morphologically rich languages like Italian, processes like spelling checking and correction must be soundly based on linguistically generated morphological analysis. We experimented this approach with the analysis of big corpora of approximately 1 million words and on a first run of the tagger, it failed for approximately 5% of the total: at least one word over 20 constituted what can be labelled as unknown (out-of-vocabulary) word. In POS taggers which rely on the notion of dictionary made up of a word list of the domain, guesses will be based on the surrounding words. In our experiment, which is discussed at length here below, we instructed the system to tell real errors apart from new words which do not appear in the current dictionary. This task requires adequately constrained linguistic knowledge in order not to overgenerate in case the word is actually misspelled. Most systems available today can generate spelling-checking information if not correction for an increasing number of languages (see Kukich; Oflazer and other authors in the references section). Italian is not yet in the list. Italian is not an agglutinative language like Finnish nor a morphologically poor language like English. On the contrary, from the data presented below, we may assume that Italian morphology - including both inflectional and derivational, is a very powerful tool for disambiguation (for German, see Luengen).