Proposta recebida em Abril 2016 e aceite para publica¸c˜ ao em Junho 2016. Compila¸c˜ ao de Corpos Compar´ aveis Especializados: Devemos sempre conﬁar nas Ferramentas de Compila¸c˜ aoSemi-autom´aticas? Compiling Specialised Comparable Corpora. Should we always trust (Semi-)automatic Compilation Tools? Hernani Costa Universidade de M´ alaga hercos@uma.es Isabel D´ uran Mu˜ noz Universidade de M´ alaga iduran@uma.es Gloria Corpas Pastor Universidade de M´ alaga g.corpas@uma.es Ruslan Mitkov Universidade de Wolverhampton r.mitkov@wlv.ac.uk Resumo Decis˜ oes tomadas anteriormente ` acompila¸c˜ ao de um corpo compar´ avel tˆ em um grande impacto na forma em que este ser´ a posteriormente constru´ ıdo e analisado. Diversas vari´ aveis e crit´ erios externos s˜ ao normalmente seguidos na constru¸ c˜ ao de um corpo, mas pouco se tem investigado sobre a sua distribui¸c˜ ao de similaridade textual interna ou nas suas vantagens qualitativas para a investiga¸c˜ ao. Numa tentativa de preencher esta lacuna, este artigo tem como objetivo apresentar uma metodologia simples, contudo eﬁci- ente, capaz de medir o grau de similaridade interno de um corpo. Para isso, a metodologia proposta usa diversas t´ ecnicas de processamento de linguagem natural e v´ arios m´ etodos estat´ ısticos, numa tentativa bem sucedida de avaliar o grau de similaridade entre documentos. Os nossos resultados demonstram que a utiliza¸ c˜ ao de uma lista de entidades comuns e um conjunto de medidas de similaridade distribucional s˜ ao suﬁcientes, n˜ ao s´ o para descrever e avaliar o grau de similaridade entre os documentos num corpo compar´ avel, mas tamb´ em para os classiﬁcar de acordo com seu grau de semelhan¸ca e, consequentemente, melhorar a qualidade do corpos atrav´ es da elimina¸c˜ ao de documentos irrelevantes. Palavras chave corpos compar´ aveis, lingu´ ıstica computacional, medi- das de similaridade distribucional, compila¸c˜ ao manual e semi-autom´ atica. Abstract Decisions at the outset of compiling a comparable corpus are of crucial importance for how the cor- pus is to be built and analysed later on. Several variables and external criteria are usually followed when building a corpus but little is been said about textual distributional similarity in this context and the quality that it brings to research. In an attempt to fulﬁl this gap, this paper aims at presenting a simple but eﬃcient methodology capable of measuring a corpus internal degree of relatedness. To do so, this methodology takes advantage of both available natural language processing technology and statistical methods in a successful attempt to access the related- ness degree between documents. Our ﬁndings prove that using a list of common entities and a set of dis- tributional similarity measures is enough not only to describe and assess the degree of relatedness between the documents in a comparable corpus, but also to rank them according to their degree of relatedness within the corpus. Keywords comparable corpora, computational linguistics, dis- tributional similarity measures, manual and semi- automatic compilation. 1Introdu¸c˜ ao O EAGLES — Expert Advisory Group on Lan- guage Engineering Standards Guidelines (EA- GLES, 1996) deﬁne “corpos compar´ aveis” da seguinte forma: “Um corpo compar´ avel ´ e aquele que seleciona textos semelhantes em mais de um idioma ou variedade. Devido ` a escassez de exemplos de corpos compar´ aveis, ainda n˜ ao existe um acordo sobre a sua similaridade.” Desde o momento em que esta deﬁni¸ c˜ ao foi criada em 1996, muitos corpos compar´ aveis fo- ram compilados, analisados e utilizados em v´ arias disciplinas. This work is licensed under a Creative Commons Attribution 3.0 License Linguam´ atica — ISSN: 1647–0818 Vol. 8 N´ um. 1 - Julho 2016 - P´ ag. 3–19