Reportes Técnicos en Ingeniería del Software. 8(1): 17-23
ISSN 1667-5002. © CAPIS-EPG-ITBA (http://www.itba.edu.ar/capis/rtis)
Identificación de Hábitos de Uso de Sitios Web Utilizando SOM
Martinelli, D.
1
, Merlino, H.
1,2
, Britos, P.
2,1
, García-Martínez, R.
2,1
1
Laboratorio de Sistemas Inteligentes. Facultad de Ingeniería. Universidad de Buenos Aires
2
Centro de Ingeniería del Software e Ingeniería del Conocimiento. Escuela de Postgrado. ITBA
hmerlino@programmer.net, rgm@itba.edu.ar
RESUMEN
En este artículo se muestra la utilidad de la aplicación de SOM en el proceso de
descubrimiento de patrones de la identificación de hábitos de uso de sitios web, estudiando las
transformaciones necesarias a realizar en los datos de los logs de acceso de los servidores web
para utilizarlos como señales de entrada de la red neuronal, luego, los patrones descubiertos se
analizaran en orden a su comprensión y explicación
1. Introducción
Se denomina Explotación o Minería de Datos al
conjunto de técnicas y herramientas aplicadas al proceso
no trivial de extraer y presentar conocimiento implícito,
previamente desconocido, potencialmente útil y
humanamente comprensible, a partir de grandes conjuntos
de datos, con objeto de describir de forma automatizada
modelos previamente desconocidos, predecir de forma
automatizada tendencias y comportamientos [1], [2], [3],
[4].
La aplicación de las técnicas de Explotación de Datos
en la Web, llamada en inglés Web Data Mining o
sintéticamente Web Mining, es definida como el estudio
de las técnicas de Data Mining que automáticamente
descubren y extraen información desde la Web [5].
La identificación de hábitos de uso de sitios web,
conocida en inglés como Web Usage Mining, consiste en
el proceso de aplicar técnicas de explotación de datos para
el descubrimiento de patrones de uso en paginas web [6],
[7]. Ésta utiliza los datos registrados en los logs de acceso
de los servidores web, donde se registra el comportamiento
de navegación de los usuarios. Este comportamiento toma
la forma de una secuencia de vínculos (links) seguidos por
el usuario, produciendo una sesión [8], [9], [10].
Con la identificación de hábitos de uso de sitios web se
busca: (a) entender el comportamiento de navegación del
usuario, permitiendo adaptar los sitios web a sus
necesidades; (b) obtener la información para la
personalización de los sitios, (c) realizar mejoras en el
sistema, (d) modificar el sitio acorde a los patrones
descubiertos, (e) realizar inteligencia del negocio y (f)
caracterizar el uso del sitio web por los usuarios. Mediante
estas acciones se busca: (a) atraer nuevos clientes, (b)
retener a los clientes actuales, (c) realizar campañas de
promociones efectivas y (d) encontrar la mejor estructura
lógica del espacio web [11]. La identificación de hábitos
de uso de sitios web consiste de tres etapas: (a)
preprocesamiento, (b) descubrimiento de patrones, y (c)
análisis de patrones [12].
El pre-procesamiento consiste en convertir la
información de uso contenida en los logs (registro de las
paginas solicitadas por los clientes a un servidor),
realizando previamente una limpieza de los mismos, en
una abstracción de datos necesaria para el descubrimiento
de patrones. En esta etapa se identifican a los usuarios y al
conjunto de sesiones de usuario.
La etapa siguiente es el descubrimiento de patrones
mediante diversas técnicas disponibles, como por ejemplo,
el análisis estadístico, el descubrimiento de reglas de
asociación, el agrupamiento, la clasificación y los patrones
secuenciales.
La última etapa del proceso completo de identificación de
hábitos de uso de sitios web es el análisis de los patrones
encontrados en la etapa anterior, filtrando reglas o patrones
no interesantes, y utilizando métodos visualización útiles
para su análisis, realizando proyecciones dinámicas,
filtros, zoom y distorsiones interactivas sobre los gráficos
generados [13], [14].