Instituto Politécnico Nacional Centro de Investigación en Computación ________________________________________________________________________________________________________ _____________________________________________________________________________________________________ Laboratorio de Sistemas de Información repor_te.doc 24-Ago-1998 1 CLASIFICACIÓN SUPERVISADA INDUCCIÓN DE ARBOLES DE DECISIÓN, ALGORITMO k-d Alfonso García, agarcia@geminis.cic.ipn.mx Gilberto L. Martínez, lluna@geminis.cic.ipn.mx Gustavo Núñez, gnunez@pollux.cic.ipn.mx Adolfo Guzmán, aguzman@pollux.cic.ipn.mx Centro de Investigación en Computación (CIC), Instituto Politécnico Nacional (IPN) Resumen. El descubrimiento de conocimiento en base de datos (Knowledge Discovery in Database, KDD) y la minería de datos (Data Mining, DM) a partir de grandes bases de datos es una tecnología reciente para el análisis automático de grandes colecciones de información. En este artículo, se presenta el desarrollo de un nuevo algoritmo de clasificación supervisada para la minería de datos, el cual genera un árbol de decisión llamado k-dimensional (k-d), en este árbol, cada nodo es expandido, eligiendo el atributo que tiene menos confusión. Aquí el concepto de confusión se formaliza en base a la matriz de aprendizaje, la cual se obtiene directamente del conjunto de entrenamiento, los datos se describen por una colección finita de caracteristicas o atributos. El concepto de confusión permite generar arboles de decisión más eficientemente que la mayoría de los algoritmos reportados en la literatura. Así mismo, se ha comprobado, experimentalmente que el arbol k-d, con conjuntos de entrenamiento suficientemente grandes clasifica, al menos tan bien, como otros algoritmos. Además, se presenta una implementación del algoritmo y un procedimiento sencillo para calcular su eficiencia. Palabras Claves. Descubrimiento de conocimiento, minería de datos, clasificación, clasificación supervisada, clasificación no supervisada, sistema experto, árboles de decisión, bases de datos 1. Introducción El problema de la clasificación de objetos definidos por atributos, es uno de los enfoques más basicos del aprendizaje automático El método de clasificación basado en árboles de decisión [17], [18], ha sido utilizado con éxito en el aprendizaje automático. Los árboles de decisión reconstruyen a partir de un conjunto de ejemplos. La calidad de un árbol construido depende de tanto la exactitud de la clasificación y el tamaño del árbol. El método usa una muestra de datos llamada generalmente conjunto de entrenamiento para formar un árbol de decisión. Si el árbol no clasifica correctamente todos los objetos, una selección de las excepciones es adicionada a los subconjuntos de entrenamiento y el proceso continua hasta que el subconjunto correcto de decisión se encuentra. La salida eventual es un árbol en el cual cada hoja lleva un nombre de clase, y cada nodo interior específica un atributo con una correspondiente rama a cada posible valor de este atributo. Existen dos tipos de clasificaciones, cuando el experto indica las clases en las que debe dividirse el dominio se llama clasificación supervisada; cuando el procedimiento de clasificación genera automaticamente las clases, sin intervención del experto, se llama clasificación no supervisada. Una de las principales tareas de minería de datos, es la de agrupar datos identificando grupos o regiones densamente populares, de acuerdo a algunas medidas de distancia o semejanza, en un gran, conjunto de datos multidimensional y poco estructurado. El agrupamiento de datos identifica los lugares de dispersión y de acumulamiento, y con esto se descubren patrones o importante de distribución de dichos conjuntos. Este es evidentemente un problema de clasificación no supervisada. La Clasificación Supervisada de datos, es el proceso que se lleva a cabo para encontrar propiedades comunes entre un conjunto de datos y clasificarlos dentro de diferentes clases, de acuerdo a un modelo de clasificación. El objetivo de la clasificación es primero desarrollar una descripción o modelo para cada clase usando las características disponibles en los datos. Tales descripciones de las clases son entonces usadas para clasificar futuros datos de prueba en la base de datos o para desarrollar mejores descripciones (llamadas reglas de descripción) para cada clase en la base de datos. Las aplicaciones de la clasificación incluyen diagnóstico médico, predicción de rendimiento, mercadotecnia selectiva, por nombrar unas cuantas. La referencia obligada en clasificación supervisada es el algoritmo ID-3 [17] este usa un