Aprendizado de M´ aquina Simb ´ olico para Minerac ¸˜ ao de Dados Maria Carolina Monard 1 e Ronaldo Cristiano Prati 1 1 Laborat´ orio de Inteligˆ encia computacional (LABIC) Instituto de Ciˆ encias Matem´ aticas e de Computac ¸˜ ao (ICMC) Universidade de S˜ ao Paulo (USP) - Campus de S˜ ao Carlos Av. do Trabalhador S˜ ao-carlense, 400. Caixa Postal 668, CEP 13561-970 ao Carlos (SP), Brasil. {mcmonard,prati} at icmc usp br Resumo. Aprendizado de m´ aquina ´ e uma poderosa ferramenta para a extrac ¸˜ ao de padr˜ oes ocultos em conjuntos de dados. Por esse motivo, aprendizado de aquina ´ e utilizado com freq¨ encia em minerac ¸˜ ao de dados. Dentre os m´ etodos de aprendizado de m´ aquina destacam-se os m´ etodos simb´ olicos, pois eles tˆ em a capacidade de descrever os padr˜ oes extra´ ıdos em uma linguagem compre- ens´ ıvel para os usu ´ arios. Neste trabalho ´ e feita uma introduc ¸˜ ao a algoritmos de aprendizado de m´ aquina simb´ olico mais comumente utilizados em minerac ¸˜ ao de dados. Tamb´ em s˜ ao descritos alguns pontos importantes sobre a avaliac ¸˜ ao dos classificadores induzidos por esses algoritmos, bem como v´ arias medidas que podem ser utilizadas para avaliar individualmente as regras que constituem esses classificadores. Finalmente, ´ e apresentado um compˆ endio de referˆ encias bibliogr´ aficas e links comentados, os quais podem ser consultados como o ob- jetivo de se complementar e aprofundar nos diversos temas tratados neste tra- balho. 1 Introduc ¸˜ ao Nos dias atuais — e cada vez mais — pessoas e organizac ¸˜ oes (empresas, instituic ¸˜ oes ublicas, escolas, centros de pesquisa, etc.) produzem e acessam uma grande quantidade de dados e informac ¸˜ oes a respeito delas mesmas e de seus ambientes, os quais encontram- se armazenados eletronicamente. Esses dados e informac ¸˜ oes tˆ em o potencial para serem utilizados para predizerem o comportamento de caracter´ ısticas e tendˆ encias interessantes a respeito dos dados, mas at´ e agora esse potencial n˜ ao tem sido completamente explo- rado (Giudici, 2003). Essa carˆ encia ´ e particularmente acentuada nas ´ areas de neg´ ocios e cient´ ıfica, nas quais um melhor aproveitamento desse potencial de predic ¸˜ ao pode levar a ganhos financeiros e importantes descobertas. Avanc ¸os em diferentes campos da computac ¸˜ ao podem ajudar a diminuir essa la- cuna. Primeiramente, o desenvolvimento de software e hardware oferecem cada vez maior poder computacional a custos menores, melhorando a capacidade de se coletar e arma- zenar dados, e tamb´ em permitindo uma melhor organizac ¸˜ ao desses dados em estruturas que permitem acesso f´ acil e disponibilidade quase que instantˆ anea em diferentes partes do globo (Witten et al., 1999). Em segundo lugar, pesquisas principalmente nas ´ areas de estat´ ıstica — especialmente estat´ ıstica computacional e estat´ ıstica multivariada — e