U-array: Extensão da U-matrix para Mapas Auto-Organizáveis com Espaço de Saída 3-D José Alfredo Ferreira Costa 1 e Márcio Luiz de Andrade Netto 2 1 Departamento de Engenharia Elétrica – Centro de Tecnologia Universidade Federal do Rio Grande do Norte - 59.072-970 - Natal - RN 2 Dept. de Engenharia de Computação e Automação - Faculdade de Engenharia Elétrica e de Computação Universidade Estadual de Campinas - 13083-970 - Campinas - SP E-mails: alfredo@dee.ufrn.br, marcio@dca.fee.unicamp.br Abstract – The self-organizing map (SOM) has been widely used as a software tool for visualization of high- dimensional data. Important SOM features include information compression while trying to preserve topological and metric relationship of the primary data items. As the SOM networks are used extensively for data display, usually the output grid is 2-D. The assumption of topological preservation in SOM is not true for many data mappings involving dimension reduction. With the automation of cluster detection in SOM, higher output dimensions can be used in problems involving discovery of classes in multidimensional data. This paper presents the U-array as an extension of the U-matrix for 3-D SOM output grids. The algorithm uses the watershed transform as well as a heuristic approach for determining the image markers to perform volume segmentation. Examples of automatic class discovery using U-arrays are also presented. 1. Introdução Análise de agrupamentos (ou classificação automática) tem como objetivo descobrir a estrutura (classes de um determinado conjunto de dados não rotulados, X = {x 1 , x 2 , …, x n }, onde cada objeto (ou amostra) x i , i = 1, …, n, é descrito por p variáveis (atributos ou características). Apesar do processo ser autônomo, i.e., não supervisionado, na maioria das abordagens o usuário tem grande influencia sobre o resultado final do processo através da escolha de parâmetros iniciais. Além disso, a maioria dos métodos, por exemplo estatísticos como o Expectation-Maximization (EM) [2] impõem geometrias pré-estabelecidas aos agrupamentos, além de possuírem custo computacional elevado. O SOM – self-organizing map – é o modelo de redes neurais competitivas em maior uso na atualidade, e têm sido em uma gama de aplicações, incluindo agrupamento e visualização dados multidimensionais [3-5]. O método mais comum de visualização da estrutura de classes no SOM 2-D é através da U-matrix, que representa distâncias entre neurônios vizinhos na forma de uma superfície, ou imagem U(x, y). As relações entre os neurônios vizinhos são vistas na superfície U(x, y) como vales e montanhas. Porém, a segmentação automática dos agrupamentos de neurônios, representando as classes de padrões em um SOM treinado normalmente é uma tarefa complexa. Costa e Netto [4] apresentaram um método de segmentação do SOM usando técnicas de morfologia matemática sobre a U-matrix. O resultado do algoritmo são regiões conectadas de neurônios rotuladas, e que definem no espaço de entrada geometrias complexas e não paramétricas. O método foi aplicado a diversos conjuntos de dados com formatos e dimensões variadas [1,4-5]. Recentemente Vesanto e Alhoniemi [6] descreveram o uso de técnicas de agrupamentos hierárquicos para aglomerar neurônios, porém há muita iteração do usuário com o resultado final obtido. Em [7], Costa e Netto apresentaram um método de segmentação do SOM utilizando a idéia de particionamento de grafos, através da eliminação de conexões (arestas) inconsistentes entre neurônios vizinhos. Tanto o número de agrupamentos quanto os membros das classes são determinados automaticamente pelo algoritmo. Aplicações com sucesso do algoritmo foram também obtidas por Silva et al [8] na área de detecção de fragmentos urbanos utilizando dados geoespaciais. Uma das premissas principais da qual os métodos citados dependem é da preservação topológica efetuada pelo SOM. Em casos onde a dimensionalidade do espaço de entrada é elevado, geralmente ocorrem distorções no mapa, e o resultado da detecção de clusters pelos algoritmos fica comprometida. Este artigo apresenta o U-array como uma extensão da U-matrix para mapas com espaço de saída 3-D. A vantagem de se trabalhar com mapas com maiores espaços de saída é exatamente diminuir a interferência da redução da dimensionalidade nas distorções obtidas no processo automático de extração de classes do SOM. Como dispomos de métodos automáticos de extração de classes [1,4-9] não há necessidade de visualização. U-arrays de dimensão qualquer poderiam ser aplicados. Este trabalho mostra o caso 3-D e ilustra com um conjunto de dados onde duas classes são não linearmente separáveis.