CORPORA DI ITALIANO L2: DIFFICOLTÀ DI ANNOTAZIONE E TRASCRIZIONE ALLARGATA LAURA ATZORI, NICOLETTA CHIAPEDI e STEFANIA SPINA ∗ The spoken Italian L2 Corpus of the University for Foreigners Perugia has been created with the intent to focus both on the study of second language acquisition and on the improvement of teaching Italian as a foreign language methods. The first part of our Corpus has undergone different stages of development; particularly important is the transition from the transcription phase and XML manual annotation of data to its automatic annotation: since it is extremely difficult to train the software to automatically recognize the learner’s interlanguage, it has been adopted a method based on an “widened” transcription, characterized by a first stage of manual treatment of data in which audio recordings are manually transcribed together with the linguistic, contextual and structural annotation. A taxonomy of the main problematic features of interlanguage productions, based on the observation of Chinese learner’s data, has been created in order to set up unambiguous criteria for transcription. 1 Il Corpus parlato di italiano L2 Il progetto di ricerca Osservatorio sull'italiano di stranieri e sull’italiano all’estero, avviato dall'Università per Stranieri di Perugia nel 2001, ha l'obiettivo di raccogliere e analizzare in modo sistematico dati empirici sull’apprendimento dell’italiano L2 in contesto guidato. Per far sì che tali dati possano costituire un punto di riferimento per la comunità scientifica nella ricerca sull'italiano L2 è stata varata nel 2004 la costituzione del Corpus parlato di italiano L2. Seguendo Granger (2004), il corpus è progettato con il duplice obiettivo di servire da supporto agli studi sull'acquisizione dell'italiano come L2 e a quelli sulla didattica dell'italiano lingua non materna. Per quanto riguarda la linguistica acquisizionale, l'approccio è quello definito da Granger Contrastive Interlanguage Analysis (CIA): la disponibilità di corpora omogenei e annotati secondo standard internazionali permette di confrontare sistematicamente sia le produzioni di parlanti non nativi con quelle di parlanti nativi, sia la lingua di parlanti non nativi con diverse L1, per identificare i tratti comuni ad apprendenti diversi e quelli invece specifici di apprendenti con particolari L1 (Granger, 2002: 12-13; Tono, 2003). Per la didattica dell'italiano L2 il lavoro svolto sul Corpus parlato di italiano L2 non ha per il momento adottato un approccio tradizionale basato sull'annotazione automatica degli errori, definita Computer-aided error analysis secondo la terminologia introdotta da Dagneaux, Denness, Granger (1998); tale approccio, seppure in grado di fornire indicazioni preziose sugli errori più frequenti prodotti da apprendenti con specifiche L1, ha finora incontrato sensibili difficoltà nel definire una tassonomia generale dei possibili errori, attraverso la quale addestrare un tagger ad annotare automaticamente, su basi probabilistiche, gli errori degli apprendenti. L'approccio fin qui adottato è piuttosto rivolto a studiare l'impatto dei tratti specifici dell'interlingua sulle applicazioni di natural language processing, e il potenziale di tali applicazioni nella creazione di strumenti per la didattica dell'italiano L2, come correttori ortografici specifici per apprendenti L2, software per la scrittura assistita, applicazioni di intelligent tutoring per la misurazione automatica della complessità lessicale o sintattica di un testo, ecc 1 . Secondo la classificazione di Granger (2002), il Corpus parlato di italiano L2 è un learner corpus ∗ Università per Stranieri di Perugia. La strutturazione e i contenuti generali del presente contributo sono stati creati congiuntamente da Laura Atzori, Nicoletta Chiapedi e Stefania Spina; la redazione dei singoli paragrafi è così suddivisa: Stefania Spina (par. 1-5, 7,8); Laura Atzori (par. 6.1); Nicoletta Chiapedi (par. 6). 1 Questo approccio che mira a collegare la ricerca sul trattamento automatico delle lingue con le applicazioni alla didattica delle L2 si è consolidato in questi ultimi tre-quattro anni; dal 2003, l'Association for Computational Linguistics dedica, all'interno del suo convegno annuale, un workshop specifico al tema Innovative Use of NLP for Building Educational Applications.