98 Conservazione e fruizione di banche dati letterarie: l’archivio della poesia italiana dell’Otto/Novecento di Giuseppe Savoca Antonio Di Silvestro 1 , Christian D’Agata 2 , Giuseppe Palazzolo 3 , Pietro Sichera 4 1 Università degli Studi di Catania - silvanto [at] unict.it 2 Università degli Studi di Catania - christian.dagata [at] studium.unict.it 3 Università degli Studi di Catania – giuseppe.palazzolo [at] unict.it 4 CNR-ISTC – pietro.sichera [at] istc.cnr.it ABSTRACT In un periodo nel quale si va sempre più verso l’interoperabilità delle banche dati, in particolare di quelle letterarie, si pone il problema di ovviare al rischio di obsolescenza degli archivi testuali dei decenni precedenti, assicurando non solo la corretta migrazione dei dati nelle nuove piattaforme ospitanti, ma anche la loro persistenza digitale. È una questione che interessa l’Archivio della poesia italiana dell’Otto/Novecento, ideato negli anni ’80 da Giuseppe Savoca presso l’Università di Catania, a cui l’interazione tra gli elementi lemmatizzati e la loro codifica in XML-TEI offrirà continuità e nuove potenzialità di consultazione e interrogazione. PAROLE CHIAVE FAIR principles, lemmatizzazione concordanziale, vocabolario poetico italiano, data retrieval, archivi digitali. INTERVENTO 1. INTRODUZIONE In Se una notte d’inverno un viaggiatore ([4]) Lotaria dà una delle prime descrizioni letterarie dell’applicazione di processi elettronici alle pratiche di critica del testo. «La lettura elettronica mi fornisce una lista delle frequenze, che mi basta scorrere per farmi un’idea dei problemi che il libro propone al mio studio critico». Tra i modelli di letture e di misletture che l’autore si diverte a censire, quello presentato da Lotaria è la parodia dell’uso delle concordanze nella critica letteraria. Il roman zo di Calvino viene pubblicato nel 1979 e cita espressamente gli Spogli elettronici dell’italiano letterario contemporaneo ([2]). Negli stessi anni, a Catania, Giuseppe Savoca elabora programmi e metodi informatici di spoglio lessicale, con il supporto di un software proprietario. Lo studioso riesce a delegare a un sistema IBM/AS400 un’operazione altamente artigianale quale la realizzazione di una concordanza lemmatizzata, in un periodo nel quale, con l’eccezione di alcune pregiate concordanze cartacee (ad es. quella del Canzoniere petrarchesco realizzata dall’Accademia della Crusca ([11])) e dell’opera fondamentale di Padre Busa ([3]) a circolare erano soprattutto formari bruti, con pochissimi dati o inferenze di tipo statistico, di non secondaria importanza nell’interpretazione dei testi letterari. Il processo computazionale che sta alla base delle concordanze lemmatizzate prodotte da Savoca e dalla sua équipe di ricerca ha prodotto finora degli output cartacei dotati di esaustività (le concordanze comprendono infatti anche i lemmi sinsemantici – articoli, preposizioni, congiunzioni) e di strumenti di studio statistico assai ricchi e diversificati 1 . L’esito più prestigioso di questa operazione editoriale è confluito nel Vocabolario della poesia italiana del Novecento [8]. Tuttavia, le stampe cartacee non riuscivano a tenere il passo con l’incremento quantitativo e qualitativo dell’archivio, dove intanto confluivano anche i poeti ‘minori’, nonché i corpora costituiti dalle traduzioni poetiche. Inoltre, l’ingresso di aut ori del Sette/Ottocento (Parini, Foscolo, Manzoni, il Leopardi ‘puerile’) e di una nuova concordanza del Canzoniere petrarchesco ([10]) rendevano l’archivio elettronico un paradigma esemplare della storia della poesia italiana da Petrarca al Novecento. Un simile patrimonio necessita di essere preservato e messo a disposizione della comunità scientifica nazionale e internazionale. Esigenze di calcolo, modalità di visualizzazione innovative e aggiornamento delle metodologie sia informatiche quanto linguistiche consentono, e in un certo senso obbligano, la migrazione di questi dati verso sistemi diversi, adottando anche un punto di vista computazionale moderno e portando il progetto verso la riusabilità e l’interoperabilità. È il nucleo dei principi FAIR ([13]): l’obiettivo non è più la semplice gestione corretta dei dati (da un 1 Tutte le più significative concordanze dei poeti dell’Otto/Novecento (da Leopardi a Montale, da D’Annunzio a Pavese) sono sta te ospitate nella prestigiosa collana “Strumenti di Lessicografia Letteraria Italiana” dell’editore Olschki, che ha finora stampato quasi trenta volumi di concordanze e studi teorici ad esse collegati. Si ricordano in particolare la prima su Gozzano ([7]) e il volume teorico e metodologico Lessicografia letteraria e metodo concordanziale ([9]).