An´ alisis de emociones en tweets utilizando t´ ecnicas de Machine Learning Mario Iv´an Ortiz Vel´ azquez Centro Nacional de Investigaci´on y Desarrollo Tecnol´ ogico, Tecnol´ ogico Nacional de M´ exico, Cuernavaca, Morelos, M´ exico La miner´ ıa y an´ alisis de sentimientos son ramas de estudio que se desprenden del Procesamiento de Lenguaje Natural (PLN) y del Machine Learning (ML). Teniendo un permanente flujo de datos a trav´ es de las redes sociales, as´ ı como de distintas plataformas, se ha convertido en una prioridad el an´ alisis, clasificaci´ on y uso de los datos generados por los millones de usuarios que a diario producen nuevo contenido, con el subsecuente objetivo de generar soluciones, a trav´ es de la transformaci´on de estos datos dispersos en informaci´ on ´ util para su implementaci´ on en alg´ un campo de estudio especifico, como en este es el PLN. En este trabajo se realiza la propuesta para el desarrollo de un clasificador de emociones, a partir de un corpus de datos compuesto enteramente por textos obtenidos de la red social twitter, en forma de mensajes cortos. Se plantea el uso de una clasificaci´ on de polaridad de los textos para determinar, en forma de categor´ ıas generales, cu´ ales de ellos apelan a emociones positivas, cuales a negativas y neutrales. Otro componente importante a considerar, es que se busca evaluar la validez del modelo que se propone en este trabajo, con el fin de que se pueda entrenar para recibir, en el futuro, textos no incluidos en el corpus original de entrenamiento, y realizar la clasificaci´ on de polaridad de forma autom´ atica. I. INTRODUCCI ´ ON A diario se producen cantidades enormes de datos inform´ aticos, gran parte de ellos por medio de las redes sociales y la interacci´ on que los usuarios tienen entre s´ ı, o con contenido de diferente naturaleza, como lo es la informaci´ on econ´ omica, pol´ ıtica, cultural, publicitaria, social, etc. Con base en la interacci´ on que realizan los usuarios, se pueden realizar una serie de an´ alisis, desde el punto de vista del PLN y PL incluyendo el an´ alisis y miner´ ıa de emociones, tambi´ en conocido miner´ ıa de sentimientos, para clasificar y evaluar el pensamiento general, o especifico [1], de un conjunto de usuarios hacia un t´opico en espec´ ıfico, como el an´ alisis de los precios manejados en los mercados financieros, o la respuesta de una parte de la poblaci´on hacia un hecho indignante, solo por poner un par de ejemplos. La miner´ ıa de emociones se enfoca en la detecci´ on de los elementos que componen un argumento, para poder analizarlos, clasificarlos, evaluarlos y, finalmente, interpretarlos. En el caso de los argumentos que contie- nen en su estructura palabras que evocan emociones, es necesario realizar el an´ alisis de dichos elementos, para realizar una clasificaci´on correcta y, en consecuencia, interpretar de manera razonable las premisas para determinar y cuantificar el tama˜ no de la carga emocional que contiene el texto. El an´ alisis de sentimientos se centra en el an´ ali- sis de textos y estados generados por las personas, principalmente a trav´ es de internet, y se enfoca de la detecci´ on de opiniones sobre un objeto en particular o sobre ciertos aspectos determinados, por medio de la ubicaci´ on de las opiniones [2]. Se alimenta de datos generados en una variedad de formatos, como lo son las im´agenes, textos, audios o videos. En el caso de los textos, originalmente se consideraron como la base para esta clase de an´ alisis, debido a que la cantidad de informaci´ on existente en este formato es masiva, por lo tanto, gran parte de las investigaciones se enfocan en el procesado de este formato de datos, y en el caso de la clasificaci´on de emociones se hace uso tambi´ en de la Ling¨ u´ ıstica Computacional (LC), en diferentes niveles de aplicaci´on, para determinar un resultado concreto. En este trabajo se realiza la propuesta de realizar el an´ alisis de las emociones contenidas en tweets a partir de la clasificaci´on de la polaridad de palabras con una alta carga emocional, entendiendo una emoci´ on o sentimiento es definido como una actitud, o un juicio, provocado por un hecho [3]. Las principales contribuciones que busca el desarrollo de este trabajo son las siguientes: • Proponer un enfoque para la clasificaci´on de tweets con el fin de etiquetar la polaridad del mensaje, con base en su carga emocional, a partir de mensajes textuales. • Hacer uso de un conjunto de datos previamente ge- nerado [4]. Denominado conjunto de datos de an´ ali- sis de tiempo (T4SA), est´a compuesto de aproxi- madamente 1 mill´ on de tweets en ingl´ es para los cuales se busca desarrollar una clasificaci´on textual del sentimiento. • Se busca determinar la polaridad a partir de un modelo emocional m´as complejo, no solo a la pola- ridad simple que clasifica los tweets como positivos, neutros o negativos.