1 Proposta de um modelo de classificac ¸˜ ao de padr˜ oes baseado no sistema imune: uma aplicac ¸˜ ao para a identificac ¸˜ ao de SPAM Thiago dos Santos Guzella, Joaquim Quinteiro Uchˆ oa, Tomaz A. Mota Santos e Walmir Matos Caminhas Resumo—Neste artigo, ´ e proposto um modelo de classificac ¸˜ ao de padr˜ oes baseado no sistema imune. Esse modelo, denominado IA-AIS (Innate and Adaptive Artificial Immune System), ´ e baseado na Teoria de Selec ¸˜ ao Clonal e em componentes dos sistemas imune inato e adapta- tivo, tais como macr´ ofagos, linf´ ocitos B e T. O modelo proposto foi im- plementado para classificac ¸˜ ao de SPAM (mensagens de e-mail comerci- ais n˜ ao solicitadas, enviadas em massa e automaticamente). Em testes realizados, foram obtidas taxas de acerto superiores a 98% na distinc ¸˜ ao entre SPAM e mensagens leg´ ıtimas. Para efeito de comparac ¸˜ ao, os re- sultados foram confrontados com os obtidos a partir do Modelo Bayesi- ano de classificac ¸˜ ao tamb´ em implementado. Index Terms—Classificac ¸˜ ao de textos, Identificac ¸˜ ao de SPAM, Sis- tema Imunol´ ogico Artifical, Aprendizado de M ´ aquina, Reconhecimento de Padr˜ oes I. I NTRODUC ¸˜ AO Recentemente, tem-se observado um significativo au- mento na quantidade de SPAM em circulac ¸˜ ao na rede mun- dial de computadores. Por SPAM, entende-se como sendo todas as mensagens de e-mail comerciais - pois geralmente anunciam os mais diversos tipos de produtos - n˜ ao solicita- das, enviadas em massa e automaticamente - pois s˜ ao envia- das sem o consentimento do destinat´ ario, em grandes quanti- dades e usando programas de computador para a sua gerac ¸˜ ao e envio autom´ atizado. Essas mensagens causam preju´ ızos e incˆ omodo a diversas entidades e usu´ arios, principalmente pelo tempo gasto na sua remoc ¸˜ ao e o consumo de recursos computacionais para a sua entrega. Por outro lado, o Sistema Imune Humano inspirou o de- senvolvimento Sistemas Imunol´ ogicos Artificiais (SIAs [1] e [2]), com especial foco na ´ area de seguranc ¸a computacional ([3], [4]). Algumas similariedades entre SPAM e os micro- organismos combatidos pelo sistema imune podem ser facil- mente identificadas: • assim como qualquer organismo vivo, os padr˜ oes de SPAM est˜ ao mudando constantemente, atrav´ es da Thiago dos Santos Guzella ´ e aluno do sexto per´ ıodo do Curso de Graduac ¸˜ ao em Engenharia El´ etrica pela Universidade Federal de Minas Ge- rais; e-mail: tguzella@cpdee.ufmg.br Joaquim Quinteiro Uchˆ oa ´ e professor do Departamento de Ciˆ encia da Computac ¸˜ ao da Universidade Federal de Lavras; e-mail: joukim@ginux.ufla.br Tomaz A. Mota Santos ´ e professor do Laborat´ orio de Bioqu´ ımica e Imunologia de Parasitos da Universidade Federal de Minas Gerais; e-mail: tomaz@icb.ufmg.br Walmir Matos Caminhas ´ e professor do Departamento de En- genharia El´ etrica da Universidade Federal de Minas Gerais; e-mail: caminhas@eee.ufmg.br grafia alternativa de palavras (por exemplo, “FR33” ao inv´ es de “FREE”), similar a um processo de variac ¸˜ ao antigˆ enica descrito em [5]. Outras t´ ecnicas, como o uso de coment´ arios HTML para dificultar a extrac ¸˜ ao de texto e at´ e mesmo a falsificac ¸˜ ao de cabec ¸alhos, para dificultar o rastreamento do reme- tente, s˜ ao usadas; • essas mensagens podem ser identificadas pelo seu conte´ udo - mais especificamente, pelo seu texto, as- sunto e tags HTML -, da mesma forma com que padr˜ oes patogˆ enicos s˜ ao reconhecidos pelo sistema imune. Desse modo, torna-se interessante explorar a possibilidade do uso de um sistema imunol´ ogico artificial para a resoluc ¸˜ ao desse problema. II. O SISTEMA I MUNE HUMANO Segundo [6], o sistema imune humano pode ser dividido em dois sub-sistemas: Sistema imune inato: formado por c´ elulas imediata- mente dispon´ ıveis para a resposta a uma limitada variedade de pat´ ogenos, que s˜ ao identificados por padr˜ oes que n˜ ao ocorrem em c´ elulas do corpo. ´ E composto pelas barreiras epiteliais, as c´ elulas NK (natural killer), c´ elulas dendr´ ıticas e macr´ ofagos; Sistema imune adaptativo: ´ e capaz de identificar inva- sores nunca antes encontrados, e inclui os linf´ ocitos B e T. Os primeiros s˜ ao capazes de secretar an- ticorpos, mol´ eculas capazes de reagir ` a ant´ ıgenos; os ´ ultimos s˜ ao respons´ aveis por regular e estimu- lar a resposta de c´ elulas B e eliminar c´ elulas do nosso pr´ oprio corpo infectadas por estes agentes. O sistema imune adaptativo possui uma mem´ oria, aperfeic ¸oando a resposta a um ant´ ıgeno a cada con- tato com ele. A Teoria de Selec ¸˜ ao Clonal, proposta em [7], ´ e um modelo que tenta explicar o meca- nismo de criac ¸˜ ao e manutenc ¸˜ ao dessa mem´ oria imu- nol´ ogica. Esses dois sub-sistemas n˜ ao atuam independentemente um do outro: a imunidade inata produz prote´ ınas de sinalizac ¸˜ ao, chamadas citocinas, que levam induzem inflamac ¸˜ ao e esti- mulam c´ elulas da imunidade adaptativa. Al´ em do mais, os TLRs (Toll-like Receptors) [8], mol´ eculas produzidas por