Uma Estrat´ egia de Encaminhamento de Pacotes Baseada em Aprendizado por Reforc ¸o para Redes Orientadas a Conte ´ udo Ian V. Bastos 1 , Victor C. M. Sousa 1 e Igor M. Moraes 1 1 Laborat´ orio M´ ıdiaCom, PGC-TCC Instituto de Computac ¸˜ ao - Universidade Federal Fluminense Niter´ oi, Rio de Janeiro, Brasil ianvilar@id.uff.br, vcmsousa@id.uff.br ,igor@ic.uff.br Abstract. This paper proposes a packet forwarding strategy for ICN. Our pro- posal is based on reinforcement learning techniques and aims at balancing the exploration of new paths and data acquired from previous exploitations. The output interfaces of a node are classiﬁed according to the content retrieval time and all interests that share the same preﬁx with contents previously forwarded are sent through the interface with the lowest mean retrieval time. The path ex- ploration is probabilistic. Each node sends the same interest through the best interface and through another interface chosen at random simultaneously. The goal is to retrieve the content by using the best path found until present mo- ment and at the same time explore copies that are recently stored in the cache of nearest nodes. Simulation results shows that the proposed strategy reduces up to 28% the number of hops traversed by received contents and up to 80% the interest load per node in comparison to other forwarding strategies. Resumo. Esse artigo prop˜ oe uma estrat´ egia de encaminhamento de pacotes para redes orientadas a conte´ udo. A proposta usa a t´ ecnica de aprendizado por reforc ¸o, cuja ideia principal ´ e realizar um balanc ¸o entre explorar novos caminhos e se aproveitar da informac ¸˜ ao adquirida durante explorac ¸˜ oes ante- riores. As interfaces s˜ ao classiﬁcadas com base no tempo de recuperac ¸˜ ao dos conte´ udos e todo interesse com o mesmo preﬁxo para um conte´ udo j´ a encami- nhado ´ e enviado pela interface com o menor tempo de recuperac ¸˜ ao m´ edio. A explorac ¸˜ ao ´ e realizada probabilisticamente, na qual cada n´ o envia o mesmo in- teresse para a interface melhor classiﬁcada e tamb´ em para uma outra interface escolhida aleatoriamente. O objetivo ´ e fazer com que o conte´ udo seja entregue pelo melhor caminho encontrado at´ e o momento e ao mesmo tempo explorar c´ opias que possam ter sido armazenadas em caches ainda mais pr ´ oximos recen- temente. Os resultados de simulac ¸˜ ao mostram que a estrat´ egia proposta reduz o n´ umero de saltos cerca de 28% em cada n´ o e 80% a carga de interesses tamb´ em por n´ o em determinados cen´ arios quando comparada ` as outras estrat´ egias de encaminhamento. 1. Introduc ¸˜ ao Existe um conﬂito conceitual entre a r´ apida expans˜ ao da distribuic ¸˜ ao de conte ´ udos e a arquitetura orientada ` a conex˜ ao da Internet atual. Os usu´ arios atualmente est˜ ao mais interessados no conte ´ udo em si do que na localizac ¸˜ ao ou na identiﬁcac ¸˜ ao de quem o envia.