SISTEMAS DE REGRESIONES POSIBILÍSTICAS: UNA ALTERNATIVA PARA LA INFERENCIA ECOLÓGICA Sergio Donoso Nicolás Marín M. Amparo Vila UTEM Santiago de Chile – Chile sdonosos@vtr.net Dpto. de Ciencias de la Computación e I.A. – Universidad de Granada 18071 – Granada – España {nicm, vila}@decsai.ugr.es Resumen Esta investigación presenta cómo utilizar la regresión posibilística para funciones de pertenencia no simétrica, agrupándolas en un sistema de regresiones, de forma que se puedan incorporar las restricciones propias de cada problema. Se incorpora la minimización de funciones cuadráticas como una manera de hacer ver más claramente la estimación de la incertidumbre que tienen incorporados los datos. Se muestra como aplicar esta metodología en el caso de la inferencia ecológica, en particular en la estimación de las matrices de transición electoral. Varios ejemplos muestran las bondades de la alternativa propuesta Palabras Clave: regresión posibilística, sistema de regresiones, función de pertenencia no simétrica, función de pertenencia truncada, inferencia ecológica, matriz de transición electoral, minimización de funciones cuadráticas. 1 INTRODUCCIÓN La primera formulación de la regresión difusa data de 1982 [10]. Muchos trabajos han ido enriqueciendo esta metodología. En esta investigación se propone ampliar su uso de una sola regresión a un conjunto de regresiones, que llamamos sistema de regresiones posibilisticas. Para facilitar la práctica de la regresión difusa, se pone énfasis en las funciones de pertenencia no simétrica y en la minimización de funciones cuadráticas. La inferencia ecológica [8] tiene como objetivo la estimación de conductas individuales a partir de datos agregados. Un ejemplo lo constituye las preferencias partidistas de los electores entre dos procesos electorales. Esta conducta no es conocida dado el carácter secreto del sufragio, aunque es evidente la gran utilidad que tiene su estimación para la ciencia política en general y los estudios electorales en particular. La inferencia ecológica constituye un problema estadístico que ha sido tratado durante más de medio siglo, sin que se hayan obtenido resultados concluyentes hasta la fecha. Dado que este problema es muy complejo desde el punto de vista estadístico, los estudios que pueden encontrarse en la literatura se han centrado en la estimación de tablas 2x2 [5, 8, 9]. 2 REGRESION POSIBILISTICA La ecuación (1) muestra el modelo lineal múltiple de la regresión probabilística: Y i = β 0 + β 1 X 1i +.....+ β m X mi + ε i (1) para n observaciones, en que los coeficientes β son desconocidos. Este modelo fue reformulado por Tanaka [10] para valores Y y X crisp y coeficientes de regresión β difusos con función de pertenencia triangular simétrica A i =(a i ,c i ). En este nuevo enfoque, el error aleatorio ε i es reemplazado por la imprecisión en los coeficientes a estimar, resultando el siguiente problema de programación lineal: Minimizar ∑(∑ c j |X ij |), para j=0,...,n; i=1,...,m (2) sujeto a la condición posibilística, de que los extremos de la función de pertenencia de la estimación contengan a la función de pertenencia del dato Y i : Y i Ċ Y ~ i lo que se expresa formalmente mediante el siguiente conjunto de desigualdades: ∑a i X ij + (1 – h) ∑c i |X ij | ≥ y i ; i=1,..., n (3) - ∑ a i X ij + (1 – h) ∑ c i |X ij | ≥ - y i ; i=1,..., n (4) c i ≥ 0 ; i=0,....,m (5) con un grado h de creencia para Y i estimado, tal que µ (Y i ) ≥ h (6) XII CONGRESO ESPAÑOL SOBRE TECNOLOGÍAS Y LÓGICA FUZZY 479