A Preliminary Study on the Applied Machine Learning for Detection of the Predominant Factor of Big Five Personality Test Caio Christian da Rocha caiochristian28@gmail.com CEFET/RJśCampus Petrópolis Diogo Fagundes Pereira diogofagundes.psi@gmail.com FASE Andre Felipe de Almeida Monteiro andre.monteiro@cefet-rj.br CEFET/RJśCampus Petrópolis ABSTRACT Nowadays, the importance of mental health has become an increa- singly relevant theme. Psychological assessments are part of the daily life of clinical psychologists in order to identify possible is- sues to be explored. Therefore, this work presents a preliminary study which aims to evaluate the accuracy of machine learning algorithms for the detection of the predominant factor of big fve personality test. Real answers from a dataset were considered in the computational experiments, and two machine learning algorithms were evaluated: the K-Nearest Neighbors (KNN) and the K-means. Results show that both algorithms could accurately detect the pedo- minant factor of the big fve test, and KNN obtained better results than the other algorithm. KEYWORDS Machine learning, Big five, KNN, Kśmeans 1 INTRODUÇÃO Atualmente, técnicas de aprendizado de máquina estão por toda parte. Elas são usadas em pesquisas do Google para defnir padrões de usuários através da mineração de dados, são usadas em classif- cação de imagens para a detecção de objetos e pessoas, na predição de doenças como o câncer, na classifcação de textos, e até em car- ros autônomos de modo que aprendam rotas e desafos do tráfego urbano. No ano de 2018 foi noticiado o desenvolvimento de um algo- ritmo capaz de detectar a possibilidade de suicídios a partir de textos escritos. Este estudo utilizou textos da escritora britânica Virginia Woolf, antes dela cometer suicídio. Assim como no referido exemplo, é de interesse neste trabalho estudar de que maneira o aprendizado de máquina pode auxiliar na detecção de possíveis problemas psicológicos em indivíduos e na realização de um apoio ao diagnóstico. 1.1 Trabalhos Relacionados Em [1], os autores desenvolveram uma ferramenta para auxílio na avaliação psicológica de crianças. Mais especifcamente, os autores consideram a avaliação do desenho da fgura humana, e usam apren- dizado profundo (deep learning) para identifcar possíveis problemas de saúde mental, em testes de triagem infantil. Um esquema de aprendizado baseado em imagens do cérebro uti- lizado em [2] tenta caracterizar persistência e remissão de TDAH em jovens que outrora, quando crianças, tenham sido diagnosticados Felipe da Rocha Henriques felipe.henriques@cefet-rj.br CEFET/RJśCampus Petrópolis com tal transtorno. Ainda sobre TDAH, os autores de [3] aplicam aprendizado de máquina em uma plataforma de aprendizado virtual para inferir sobre indicadores de TDAH. 1.2 Objetivos e Contribuições Este trabalho traz alguns resultados preliminares acerca do uso de dois algoritmos de aprendizado de máquina na detecção do fator preponderante do teste de personalidade Big Five [4]. Segundo [5], índices altos de alguns dos fatores, como o neuroticismo, por exem- plo, podem sugerir propensão a sofrimentos psicológicos. Para os experimentos computacionais, os algoritmos KNN (KśNearest Neighbors)[6] e o Kśmeans [7] foram avaliados, considerando uma base de dados reais disponível na Internet. Os resultados iniciais apresentaram uma boa acurácia de detecção do fator preponderante, tendo o KNN obtido melhores resultados. 2 FUNDAMENTAÇÃO TEÓRICA 2.1 O Teste Big Five O teste de personalidade Big Five [4] apresenta cinco marcadores de personalidade presentes em indivíduos. Através deste teste, que se dá por um conjunto de perguntas, conseguimos identifcar traços de personalidade que se apresentam através de percentis. Cada percentil quantifca um determinado traço (ou marcador) de perso- nalidade. Os marcadores indicados para os traços de personalidades, de acordo com [4], são os seguintes: (1) Surgency: Extroversão; (2) Agreeableness: Socialização; (3) Conscientiousness: Realização; (4) Emotional Stability: Neuroticismo; (5) Openness: Abertura. 2.2 Algoritmos de Aprendizado de Máquina Nesta seção, apresentaremos brevemente os dois algoritmos de aprendizado de máquina considerados para os experimentos com- putacionais realizados neste estudo preliminar. Um deles é chamado de algoritmo supervisionado, em que ao inserirmos dados de entrada e, após o processamento desses dados e dos resultados serem apresentados, é necessária a comparação entre a resposta obtida e a resposta esperada referente aos dados de entrada. Tendo o resultado dessa comparação, o algoritmo toma a decisão do que se deve fazer para que a acurácia do algoritmo aumente.