X Congresso Brasileiro de Inteligˆ encia Computacional (CBIC’2011), 8 a 11 de Novembro de 2011, Fortaleza, Cear´ a c  Sociedade Brasileira de Inteligˆ encia Computacional (SBIC) REDES NEURAIS ARTIFICIAIS APLICADAS A PROBLEMAS DE CLASSIFICAC¸ ˜ AO HIER ´ ARQUICA MULTIRR ´ OTULO Ricardo Cerri, Rodrigo C. Barros e Andr´ e Carlos P. L. F. de Carvalho Departamento de Ciˆ encias de Computac¸˜ ao - Universidade de S˜ ao Paulo - S˜ ao Carlos - ICMC/USP {cerri,rcbarros,andre}@icmc.usp.br Resumo – Em problemas de classiﬁcac¸˜ ao hier´ arquica multirr´ otulo, cada exemplo pode ser classiﬁcado em duas ou mais clas- ses simultaneamente, diferentemente de problemas de classiﬁcac¸˜ ao convencionais. Adicionalmente, as classes envolvidas nesses problemas s˜ ao estruturadas em uma hierarquia, que pode ser uma ´ arvore ou um grafo ac´ıclico direcionado (DAG). Dessa forma, um exemplo pode ser atribu´ıdo a dois ou mais caminhos de uma estrutura hier´ arquica formada por centenas e at´ e milhares de classes, diﬁcultando muito o problema de classiﬁcac¸˜ ao. Muitos m´ etodos tˆ em sido propostos para solucionar tais problemas, alguns deles utilizando um ´ unico classiﬁcador para lidar com todas as classes simultaneamente (m´ etodos globais), e outros utili- zando v´ arios classiﬁcadores para decompor o problema original em v´ arios subproblemas (m´ etodos locais). Este trabalho prop ˜ oe um m´ etodo local para classiﬁcac¸˜ ao hier´ arquica multirr´ otulo utilizando redes neurais artiﬁciais. O m´ etodo ´ e chamado HMC- LMLP (Hierarchical Multi-Label Classiﬁcation with Local Multi-Layer Perceptron), e utiliza uma rede Multi-Layer Perceptron (MLP) associada a cada n´ıvel da hierarquia. As predic¸˜ oes feitas em um n´ıvel s˜ ao ent˜ ao utilizadas como entrada para outra MLP respons´ avel pelas predic¸˜ oes no pr´ oximo n´ıvel. S˜ ao utilizados dois algoritmos para o treinamento das MLPs, o algoritmo Back- propagation e o algoritmo Resilient back-propagation. Adicionalmente, al´ em da medida de erro convencional, uma medida de erro espec´ıﬁca para problemas multirr´ otulo ´ e utilizada para o treinamento das redes. O m´ etodo ´ e comparado com outros dois m´ etodos locais considerados estado da arte para problemas de classiﬁcac¸˜ ao hier´ arquica multirr´ otulo, utilizando conjuntos de dados relacionados ` a predic¸˜ ao de func¸˜ oes de prote´ınas. De acordo com os resultados experimentais, o m´ etodo proposto obteve resultados preditivos competitivos, o que sugere as redes neurais artiﬁciais como alternativas promissoras para tratar problemas de classiﬁcac¸˜ ao hier´ arquica multirr ´ otulo. Palavras-chave – Aprendizado de m´ aquina, redes neurais, classiﬁcac¸˜ ao hier´ arquica multirr´ otulo, predic¸˜ ao de func¸˜ oes de prote´ınas. 1 INTRODUC¸ ˜ AO Na maioria dos problemas de classiﬁcac¸˜ ao descritos na literatura, um classiﬁcador atribui apenas uma classe a um dado exem- plo, e as classes envolvidas no problema n˜ ao s˜ ao estruturadas hierarquicamente. Entretanto, em muitos problemas de classiﬁcac¸˜ ao reais, como por exemplo a predic¸˜ ao de func¸˜ oes de prote´ınas, classes podem ser divididas em subclasses ou agrupadas em su- perclasses. Nesses casos, as classes formam uma estrutura hier´ arquica, geralmente uma ´ arvore ou um grafo ac´ıclico direcio- nado (DAG). Esses problemas s˜ ao conhecidos na literatura de Aprendizado de M´ aquina (AM) como problemas de classiﬁcac¸˜ ao hier´ arquica, no qual exemplos s˜ ao atribu´ıdos a classes associadas a n ´ os pertencentes a uma hierarquia. Duas abordagens principais tˆ em sido utilizadas para tratar problemas de classiﬁcac¸˜ ao hier´ arquica, chamadas local (top-down) e global (one-shot). A abordagem local utiliza algoritmos de classiﬁcac¸˜ ao convencionais para formar uma ´ arvore de classiﬁcado- res, que s˜ ao ent˜ ao utilizados de maneira top-down para a classiﬁcac¸˜ ao de exemplos. Inicialmente, a classe mais gen´ erica de um exemplo ´ e predita. Essa classe ´ e localizada no primeiro n´ıvel hier´ arquico, e ´ e ent˜ ao utilizada para reduzir o conjunto de poss´ıveis classes do exemplo no pr´ oximo n´ıvel, ou seja, somente as subclasses da classe predita no primeiro n´ıvel s˜ ao utilizadas para o treinamento no segundo n´ıvel. Assim, quando um exemplo ´ e atribu´ıdo a uma classe n˜ ao folha da hierarquia, ele ´ e posteriormente classiﬁcado em uma subclasse dessa classe. Uma desvantagem do m´ etodo local ´ e que, conforme a hierarquia ´ e percorrida em direc¸˜ ao ` as folhas, erros de classiﬁcac¸˜ ao s˜ ao propagados para os n´ıveis mais profundos, a n˜ ao ser que algum procedimento seja adotado para evitar esse problema. De acordo com Silla e Freitas [2], o aspecto mais importante da abordagem local ´ e que a hierarquia de classes ´ e conside- rada utilizando informac¸˜ oes locais de diferentes maneiras. Baseado na maneira com que essas informac¸˜ oes s˜ ao utilizadas, trˆ es principais diferentes grupos de m´ etodos locais podem ser deﬁnidos: m´ etodos que utilizam um classiﬁcador local por n´ o, um classiﬁcador local por n ´ o pai, e um classiﬁcador local por n´ıvel. No primeiro grupo, um classiﬁcador bin´ ario ´ e treinado para cada n´ o da hierarquia de classes, exceto para o n´ o raiz. O segundo grupo treina um classiﬁcador multi-classe para cada n´ o pai da hi- erarquia, ou ent˜ ao utiliza alguma t´ ecnica decomposicional com classiﬁcadores bin´ arios, como o um-contra-todos [3] ou Support Vector Machines (SVM) [4], para fazer a distinc¸˜ ao entre suas subclasses. O ´ ultimo grupo treina um classiﬁcador multi-classe para cada n´ıvel hier´ arquico, sendo cada classiﬁcador respons´ avel pelas predic¸˜ oes em seu n´ıvel correspondente. H´ a tamb´ em muitos problemas de classiﬁcac¸˜ ao nos quais os dados s˜ ao estruturados de maneira mais complexa, pois al´ em das classes serem estruturadas em uma hierarquia, um exemplo pode pertencer a mais de uma classe em um mesmo n´ıvel hier´ arquico. Esses problemas s˜ ao conhecidos como problemas de classiﬁcac¸˜ ao hier´ arquica multirr ´ otulo, e s˜ ao muito comuns, por exemplo, em 1