Categorizzazione automatica di testi utilizzando Reti RBF Modificate G.M. Di Nunzio, A. Micarelli Dipartimento di Informatica e Automazione Laboratorio di Intelligenza Artificiale Universit`a degli Studi “Roma Tre” Via della Vasca Navale, 79 00146, Roma, Italia Contact e-mail: airamoigroig@yahoo.it Sommario In questo articolo viene presentato un sistema di categoriz- zazione di testi basato su un metodo di classificazione innovativo chiamato ModRadial. Tale metodo rappresenta le categorie di documenti come delle liste ordinate di RBF monodimensionali. Questa nuova metodologia si ispira alle reti RBF, soprattutto per l’attivazione delle funzioni radiali, modificandone in ma- niera sostanziale, la parte relativa all’addestramento per risolvere il problema della Text Categorization. In particolare, il posizionamento e la modellazione delle RBF viene fatta in un unico passo e non ` e necessario un secondo passo per il calcolo dei pesi della rete. I risultati ottenuti sia utilizzando la collezione standard Reuters-21578, che un insieme di pagine HTML recuperate da Yahoo! Directory, sono stati superiori alla media dei sistemi analoghi in letteratura. 1 Introduzione Durante gli ultimi anni, il problema della categorizzazione di testi automatica ha gua- dagnato una posizione prominente nel campo dei sistemi di informazione, dovuta alla sempre pi` u crescente disponibilit` a di documenti sul Web. La Text Categorization (TC) viene applicata oggi in molti contesti che vanno dall’indicizzazione di documenti basa- ta su dizionari controllati, al filtraggio di documenti, alla catalogazione gerarchica di documenti Web e, pi` u in generale, in tutti quei compiti di gestione e organizzazione di documenti di testo. Negli anni ‘90 l’approccio alla TC ha visto il paradigma del Machine Learning pren- dere il sopravvento su quello di tipo Knowledge Engineering. In questo nuovo paradigma, un processo induttivo costruisce il categorizzatore automatico di testi “imparando”, da un insieme di documenti pre-classificati, le caratteristiche rappresentative delle categorie di interesse. In questo articolo presentiamo la sperimentazione relativa ad un nuovo metodo di addestramento per un sistema categorizzazione di documenti chiamato ModRadial (Mo- dified Radial Basis Function Network). Come il nome stesso suggerisce, questo metodo prende spunto dai princ` ıpi delle Reti RBF, modificandoli in maniera sostanziale per trovare una soluzione innovativa al problema della TC. In effetti, delle reti RBF rimane solo l’idea di attivazione delle funzioni Radiali. Le principali differenze riguardano la