Reportes Técnicos en Ingeniería del Software. 8(1): 17-23 ISSN 1667-5002. © CAPIS-EPG-ITBA (http://www.itba.edu.ar/capis/rtis) Identificación de Hábitos de Uso de Sitios Web Utilizando SOM Martinelli, D. 1 , Merlino, H. 1,2 , Britos, P. 2,1 , García-Martínez, R. 2,1 1 Laboratorio de Sistemas Inteligentes. Facultad de Ingeniería. Universidad de Buenos Aires 2 Centro de Ingeniería del Software e Ingeniería del Conocimiento. Escuela de Postgrado. ITBA hmerlino@programmer.net, rgm@itba.edu.ar RESUMEN En este artículo se muestra la utilidad de la aplicación de SOM en el proceso de descubrimiento de patrones de la identificación de hábitos de uso de sitios web, estudiando las transformaciones necesarias a realizar en los datos de los logs de acceso de los servidores web para utilizarlos como señales de entrada de la red neuronal, luego, los patrones descubiertos se analizaran en orden a su comprensión y explicación 1. Introducción Se denomina Explotación o Minería de Datos al conjunto de técnicas y herramientas aplicadas al proceso no trivial de extraer y presentar conocimiento implícito, previamente desconocido, potencialmente útil y humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de describir de forma automatizada modelos previamente desconocidos, predecir de forma automatizada tendencias y comportamientos [1], [2], [3], [4]. La aplicación de las técnicas de Explotación de Datos en la Web, llamada en inglés Web Data Mining o sintéticamente Web Mining, es definida como el estudio de las técnicas de Data Mining que automáticamente descubren y extraen información desde la Web [5]. La identificación de hábitos de uso de sitios web, conocida en inglés como Web Usage Mining, consiste en el proceso de aplicar técnicas de explotación de datos para el descubrimiento de patrones de uso en paginas web [6], [7]. Ésta utiliza los datos registrados en los logs de acceso de los servidores web, donde se registra el comportamiento de navegación de los usuarios. Este comportamiento toma la forma de una secuencia de vínculos (links) seguidos por el usuario, produciendo una sesión [8], [9], [10]. Con la identificación de hábitos de uso de sitios web se busca: (a) entender el comportamiento de navegación del usuario, permitiendo adaptar los sitios web a sus necesidades; (b) obtener la información para la personalización de los sitios, (c) realizar mejoras en el sistema, (d) modificar el sitio acorde a los patrones descubiertos, (e) realizar inteligencia del negocio y (f) caracterizar el uso del sitio web por los usuarios. Mediante estas acciones se busca: (a) atraer nuevos clientes, (b) retener a los clientes actuales, (c) realizar campañas de promociones efectivas y (d) encontrar la mejor estructura lógica del espacio web [11]. La identificación de hábitos de uso de sitios web consiste de tres etapas: (a) preprocesamiento, (b) descubrimiento de patrones, y (c) análisis de patrones [12]. El pre-procesamiento consiste en convertir la información de uso contenida en los logs (registro de las paginas solicitadas por los clientes a un servidor), realizando previamente una limpieza de los mismos, en una abstracción de datos necesaria para el descubrimiento de patrones. En esta etapa se identifican a los usuarios y al conjunto de sesiones de usuario. La etapa siguiente es el descubrimiento de patrones mediante diversas técnicas disponibles, como por ejemplo, el análisis estadístico, el descubrimiento de reglas de asociación, el agrupamiento, la clasificación y los patrones secuenciales. La última etapa del proceso completo de identificación de hábitos de uso de sitios web es el análisis de los patrones encontrados en la etapa anterior, filtrando reglas o patrones no interesantes, y utilizando métodos visualización útiles para su análisis, realizando proyecciones dinámicas, filtros, zoom y distorsiones interactivas sobre los gráficos generados [13], [14].