Inferenza statistica basata su dati prodotti mediante procedure di record linkage Andrea Tancredi, Giuseppina Guagnano, Brunero Liseo ∗ Dipartimento di studi geoeconomici, linguistici, statistici e storici per l’analisi regionale Universit` a di Roma “La Sapienza 20 aprile 2004 Key words: Abbinamento esatto, Metodi MCMC, Modelli lineari. 1 Introduzione Il record linkage (RL), o abbinamento esatto, ` e una tecnica algoritmica volta ad integrare (e quindi abbinare) le informazioni che, pur essendo contenute in archivi differenti, siano attribuibili alla stessa unit` a statistica, non identificabile mediante un codice univoco esente da errori. L’esigenza di ricorrere a tecniche di integrazione da fonti diverse, indotta dall’aumentato bisogno di informazioni su larga scala, ` e via via crescente nel tempo e si avverte nei settori pi` u disparati. Ad esempio, nell’ambito delle statistiche ufficiali, il RL ` e un passo fondamentale per stimare la dimen- sione di una popolazione mediante metodi di ‘cattura-ricattura’, soprattutto quando la popolazione obiettivo sia difficilmente osservabile (un esempio tipico ` e costituito dalla popolazione degli immi- grati non regolari presenti nei paesi della Comunit` a Europea) e siano frequenti le differenze nelle variabili di identificazione, tra un archivio e l’altro. Un altro tipo di applicazione, particolarmente rilevante per gli Istituti di Statistica, consiste nella possibilit` a di integrare le informazioni rac- colte mediante un’indagine campionaria con quelle contenute negli archivi amministrativi, al fine di migliorare la copertura dell’indagine (incrementando, cio` e, il tasso di risposta). L’integrazione di dati da fonti diverse ` e altres` ı importante in ambito epidemiologico, dove il RL ` e comunemente usato in studi longitudinali per accertare gli effetti di alcuni fattori di rischio; in tal senso, l’ac- curatezza nel classificare i risultati delle indagini pu` o essere descritta facendo ricorso agli usuali termini epidemiologici di sensitivit` ae positive predictive value. In generale, l’abbinamento di due (o pi` u) archivi di dati pu` o essere di interesse, per le seguenti due finalit` a: ∗ Corresponding author: Dipartimento di studi geoeconomici, statistici e storici per l’analisi regionale, Universit`a di Roma “La Sapienza, Via del Castro Laurenziano, 9 I-00161 Roma, Italia; e-mail: brunero.liseo@uniroma1.it 1