An´ alisis de emociones en tweets utilizando t´ ecnicas de Machine Learning Mario Iv´an Ortiz Vel´ azquez Centro Nacional de Investigaci´on y Desarrollo Tecnol´ ogico, Tecnol´ ogico Nacional de M´ exico, Cuernavaca, Morelos, M´ exico La miner´ ıa y an´ alisis de sentimientos son ramas de estudio que se desprenden del Procesamiento de Lenguaje Natural (PLN) y del Machine Learning (ML). Teniendo un permanente ﬂujo de datos a trav´ es de las redes sociales, as´ ı como de distintas plataformas, se ha convertido en una prioridad el an´ alisis, clasiﬁcaci´ on y uso de los datos generados por los millones de usuarios que a diario producen nuevo contenido, con el subsecuente objetivo de generar soluciones, a trav´ es de la transformaci´on de estos datos dispersos en informaci´ on ´ util para su implementaci´ on en alg´ un campo de estudio especiﬁco, como en este es el PLN. En este trabajo se realiza la propuesta para el desarrollo de un clasiﬁcador de emociones, a partir de un corpus de datos compuesto enteramente por textos obtenidos de la red social twitter, en forma de mensajes cortos. Se plantea el uso de una clasiﬁcaci´ on de polaridad de los textos para determinar, en forma de categor´ ıas generales, cu´ ales de ellos apelan a emociones positivas, cuales a negativas y neutrales. Otro componente importante a considerar, es que se busca evaluar la validez del modelo que se propone en este trabajo, con el ﬁn de que se pueda entrenar para recibir, en el futuro, textos no incluidos en el corpus original de entrenamiento, y realizar la clasiﬁcaci´ on de polaridad de forma autom´ atica. I. INTRODUCCI ´ ON A diario se producen cantidades enormes de datos inform´ aticos, gran parte de ellos por medio de las redes sociales y la interacci´ on que los usuarios tienen entre s´ ı, o con contenido de diferente naturaleza, como lo es la informaci´ on econ´ omica, pol´ ıtica, cultural, publicitaria, social, etc. Con base en la interacci´ on que realizan los usuarios, se pueden realizar una serie de an´ alisis, desde el punto de vista del PLN y PL incluyendo el an´ alisis y miner´ ıa de emociones, tambi´ en conocido miner´ ıa de sentimientos, para clasiﬁcar y evaluar el pensamiento general, o especiﬁco [1], de un conjunto de usuarios hacia un t´opico en espec´ ıﬁco, como el an´ alisis de los precios manejados en los mercados ﬁnancieros, o la respuesta de una parte de la poblaci´on hacia un hecho indignante, solo por poner un par de ejemplos. La miner´ ıa de emociones se enfoca en la detecci´ on de los elementos que componen un argumento, para poder analizarlos, clasiﬁcarlos, evaluarlos y, ﬁnalmente, interpretarlos. En el caso de los argumentos que contie- nen en su estructura palabras que evocan emociones, es necesario realizar el an´ alisis de dichos elementos, para realizar una clasiﬁcaci´on correcta y, en consecuencia, interpretar de manera razonable las premisas para determinar y cuantiﬁcar el tama˜ no de la carga emocional que contiene el texto. El an´ alisis de sentimientos se centra en el an´ ali- sis de textos y estados generados por las personas, principalmente a trav´ es de internet, y se enfoca de la detecci´ on de opiniones sobre un objeto en particular o sobre ciertos aspectos determinados, por medio de la ubicaci´ on de las opiniones [2]. Se alimenta de datos generados en una variedad de formatos, como lo son las im´agenes, textos, audios o videos. En el caso de los textos, originalmente se consideraron como la base para esta clase de an´ alisis, debido a que la cantidad de informaci´ on existente en este formato es masiva, por lo tanto, gran parte de las investigaciones se enfocan en el procesado de este formato de datos, y en el caso de la clasiﬁcaci´on de emociones se hace uso tambi´ en de la Ling¨ u´ ıstica Computacional (LC), en diferentes niveles de aplicaci´on, para determinar un resultado concreto. En este trabajo se realiza la propuesta de realizar el an´ alisis de las emociones contenidas en tweets a partir de la clasiﬁcaci´on de la polaridad de palabras con una alta carga emocional, entendiendo una emoci´ on o sentimiento es deﬁnido como una actitud, o un juicio, provocado por un hecho [3]. Las principales contribuciones que busca el desarrollo de este trabajo son las siguientes: • Proponer un enfoque para la clasiﬁcaci´on de tweets con el ﬁn de etiquetar la polaridad del mensaje, con base en su carga emocional, a partir de mensajes textuales. • Hacer uso de un conjunto de datos previamente ge- nerado [4]. Denominado conjunto de datos de an´ ali- sis de tiempo (T4SA), est´a compuesto de aproxi- madamente 1 mill´ on de tweets en ingl´ es para los cuales se busca desarrollar una clasiﬁcaci´on textual del sentimiento. • Se busca determinar la polaridad a partir de un modelo emocional m´as complejo, no solo a la pola- ridad simple que clasiﬁca los tweets como positivos, neutros o negativos.