Comparison of Stylometric Attributes for Writing Authorship Identification: A Case Study of Guimar ˜ aes Rosa versus Clarice Lispector Raido Lacorte Galina 1 , Diego do Nascimento Rodrigues Flores 2 , Karin S. Komati 3 1 Programa de P ´ os-graduac ¸˜ ao em Ciˆ encia de Dados com Big Data 2 Diretoria de Ensino 3 Programa de P ´ os-graduac ¸˜ ao em Computac ¸˜ ao Aplicada (PPComp) Campus Serra do Instituto Federal do Esp´ ırito Santo (Ifes) Serra – ES – Brasil raido.l.g@hotmail.com, {diego.flores, kkomati}@ifes.edu.br Abstract. When a writer expresses himself, he must decide among a wealth of choices, such as which words/expressions to use or how to punctuate his wri- ting. These choices define the writer’s individual characteristics and stylometry is the quantitative study of such writing style. This paper aims to identify the books of writers with well-defined writing styles, Guimar˜ aes Rosa and Clarice Lispector, by means of lexical attributes found in their texts: letter frequency, word frequency and TF-IDF. Attributes are compared using the Euclidean dis- tance, cosine similarity and Jaccard similarity index. The results show that by using the set of words with Jaccard similarity index it was possible to separate the books according to authorship. Resumo. Quando um escritor se expressa, deve se decidir entre uma s´ erie de es- colhas, tais como quais palavras/express˜ oes usar ou como deve ser a pontuac ¸˜ ao da leitura. Essas escolhas definem as caracter´ ısticas individuais do escritor e a estilometria ´ e a estudo quantitativo desse estilo de escrita. A proposta deste tra- balho ´ e conseguir identificar os livros de dois escritores com estilos bem defini- dos, Guimar˜ aes Rosa e Clarice Lispector, por meio dos atributos l´ exicos de seus textos: frequˆ encia de letras, frequˆ encia de palavras e TF-IDF. A comparac ¸˜ ao dos atributos ´ e feita pela distˆ ancia euclidiana, similaridade cosseno e simila- ridade de Jaccard. Os resultados mostram que o uso do conjunto de palavras com similaridade de Jaccard foi poss´ ıvel separar os livros por sua autoria. 1. Introduc ¸˜ ao Estilometria ´ e o campo da lingu´ ıstica que analisa textos a partir de atributos mensur´ aveis [Juola 2013]. Os atributos mensur´ aveis podem ser, por exemplo: as frequˆ encias de letras, as frequˆ encias de palavras, o comprimento das palavras, o comprimento das sentenc ¸as, o uso de palavras incomuns e uso de sequˆ encia de palavras [Venˇ ckauskas et al. 2015]. O conjunto de caracter´ ısticas obtido definir´ a o estilo de cada autor. Assim, a estilometria ´ e frequentemente usada para atribuir autoria a documentos anˆ onimos ou que est˜ ao sob contestac ¸˜ ao de autoria.