Evaluaci´ on de t´ ecnicas de aprendizaje de maquina para la identificaci´ on de im´ agenes de edificios hist´ oricos de la ciudad del Cusco basado en Bag-Of-Words y Redes Neuronales Convolucionales Jeanfranco David Farfan-Escobedo Escuela Profesional de Ingenier´ ıa Inform´ atica y de Sistemas Universidad Nacional de San Antonio Abad del Cusco, Peru Email: jeanfrancodfe@gmail.com Abstract—Actualmente existen muchas t´ ecnicas de aprendizaje de aquina efectivas durante la tarea de clasificaci´ on. Sin embargo, existe la necesidad de identificar que t´ ecnica destaca por encima del resto. Por consiguiente, es necesario evaluar un conjunto de t´ ecnicas de aprendizaje de m´ aquina en un escenario desafiante. En particular, el escenario seleccionado en este trabajo corresponde al reconocimiento de edificios a partir de im´ agenes, para ello es necesario evaluar t´ ecnicas de aprendizaje de m´ aquina que resuelvan este tipo de problemas de una manera m´ as precisa. Se propone evaluar t´ ecnicas de aprendizaje de m´ aquina como Support Vector Machine, Random Forest, Neuronal Network y K- Nearest Neighbod, a partir de m´ etodos basados en Bag-of-Words y Redes Neuronales Convolucionales, para obtener vectores de caracter´ ısticas efectivos y realizar un reconocimiento de edificios preciso. Por ´ ultimo, se espera que los resultados permitan una mejor comprensi´ on de las t´ ecnicas de aprendizaje de m´ aquina aplicado al problema del reconocimiento de edificios de la ciudad del Cusco. Keywords—Deep Learning, Aprendizaje de aquina, Re- conocimiento de Edificios, Bag-of-Words, Redes Neuronales Con- volucionales, Transfer Learning I. I NTRODUCCI ´ ON El reconocimiento de im´ agenes se ha convertido en uno de los desaf´ ıos ms discutidos en los ´ ultimos aos. En particular, esto se debe a la amplia gama de aplicaciones, por ejemplo, Robots de navegaci´ on, veh´ ıculos aut´ onomos, realidad aumen- tada y otros. Con el desarrollo de enfoques de aprendizaje profundo, la investigacin sobre reconocimiento de edificios se ha vuelto ms intensivo[1]. El reciente ´ exito de aplicaciones que utilizan t´ ecnicas de aprendizaje de m´ aquina genera una necesidad, identificar que ecnica destaca por encima del resto. Sin embargo, la verdadera dificultad de estas t´ ecnicas radica en el escenario de prueba. En particular, en este trabajo el escenario seleccionado es el re- conocimiento de im´ agenes de edificios hist´ oricos de la ciudad del Cusco, De igual modo, uno de los desaf´ ıos mas importantes es diferencias edificios hist´ oricos visualmente similares (por ejemplo, im´ agenes de iglesias), As´ ı mismo, muchos eventos son realizados en la ciudad del Cusco tales como el Inti Raymi, Corpus Christi y otros; estos eventos generan oclusiones. Es decir, objetos transitorios(personas, veh´ ıculos y otros) ocultan la imagen de an´ alisis. Por lo visto anteriormente se muestra que los m´ etodos m´ as utilizados al abordar problemas como el estilo arquitectonico, reconocimiento visual de lugares y el reconocimiento de objetos a partir de la base de datos ImageNet son Bag-of- words y Redes Neuronales Convolucionales. As´ ı mismo, para identificar de forma precisa edificios hist´ oricos de la ciudad del Cusco existe la necesidad de comparar estos m´ etodos. De forma similar, se utiliza un conjunto de m´ etricas de aprendizaje (Accuracy, Recall, Precisi´ on y F1 Score)[2] para evaluar un grupo de t´ ecnicas de aprendizaje de m´ aquina (Support Vector Machine, Random Forest, k Nearest Neighbor y Neural Network), para identificar la t´ ecnica m´ as adecuado durante esta tarea. Adem´ as, con la finalidad de apoyar a la comunidad cient´ ıfica de visi ´ on computacional, se recolecto una base de datos de im´ agenes de edificios hist´ oricos de la ciudad del Cusco; estas im´ agenes presentan desaf´ ıos como: rotaci´ on, condiciones de iluminaci´ on variada, capturas de diferentes angulos, oclusiones y otros. De esta forma, esta es la primer base de datos de edificios hist´ oricos de la ciudad del Cusco que sera utilizada con fines de investigaci´ on sin costo alguno. La construcci´ on del conjunto de datos para la fase de entrenamiento y prueba exig´ ıa recolectar im´ agenes de edifi- cios hist´ oricos de la ciudad del Cusco. Sin embargo, por el arduo trabajo que esta tarea representa, se limita el n´ umero de edificios hist´ oricos de inter´ es a 14, estos son: La Casa del Inca Garcilaso de la Vega, La Catedral del Cusco, La Compania de Jes´ us, El Coricancha, El Cristo Blanco, El Templo de la Merced, El Mural de Historial Inca, La Paccha de Pumaqchupan, La Pileta de San Blas, El Monumento del Inca Pachacutec, Sacsayhuaman, La Iglesia de San Francisco, La Iglesia de San Pedro y La Iglesia de Santo Domingo. As´ ı mismo, durante el proceso de clasificaci´ on de im´ agenes de edificios hist´ oricos, se limita el n´ umero de t´ ecnicas de aprendizaje de m´ aquina, estos son: Support Vector Machine, Neural Network, K-Nearest Neighbors y Random Forest. De forma similar, el numero de metricas a utilizar se limita a 4, estas son: Accuracy, Recall, Precision y F1 Score.