Identiﬁcac ¸˜ ao de Express ˜ oes Multipalavra em Dom´ ınios Espec´ ıﬁcos Aline Villavicencio 1,2 , Carlos Ramisch 1,3 , Andr´ e Machado 1 , Helena de Medeiros Caseli 4 , Maria Jos´ e Finatto 5 1 Instituto de Inform´ atica, Universidade Federal do Rio Grande do Sul (Brasil) 2 Department of Computer Sciences, Bath University (Inglaterra) 3 GETALP – Laboratoire d’Informatique de Grenoble, Universit´ e de Grenoble (Franc ¸a) 4 Departmento de Ciˆ encia da Computac ¸˜ ao, Universidade Federal de S˜ ao Carlos (Brasil) 5 Instituto de Letras, Universidade Federal do Rio Grande do Sul (Brasil) {avillavicencio,ceramisch,ammachado}@inf.ufrgs.br, helenacaseli@dc.ufscar.br, mfinatto@terra.com.br Resumo Express˜ oes Multipalavra (EM) s˜ ao um dos grandes obst´ aculos para a obtenc ¸˜ ao de sistemas mais precisos de Processamento de Linguagem Natural (PLN). A cobertura limitada de EM em recursos lingu´ ısticos pode impactar negativamente o desempenho de tarefas e aplicac ¸˜ oes de PLN e pode levar ` a perda de informac ¸˜ ao ou a problemas de comunicac ¸˜ ao, especialmente em dom´ ınios t´ ecnicos, em que EM s˜ ao particularmente frequen- tes. Este trabalho investiga algumas abordagens para a identiﬁcac ¸˜ ao de EM em corpora t´ ecnicos com base em medidas de associac ¸˜ ao, informac ¸˜ oes morfossint´ aticas e de alinhamento lexical. Primeiramente, examina-se a inﬂuˆ encia de alguns fatores sobre o seu desempenho, tais como fontes de informac ¸˜ ao para a identiﬁcac ¸˜ ao e avaliac ¸˜ ao. Se, por um lado, as medidas de associac ¸˜ ao enfatizam revocac ¸˜ ao, por outro, o m´ etodo de alinha- mento centra-se em precis˜ ao. Neste trabalho, prop˜ oe-se uma abordagem combinada que une os pontos fortes das diferentes abordagens e fontes de informac ¸˜ ao utilizando um algoritmo de aprendizado de m´ aquina para produzir resultados mais robustos e precisos. A avaliac ¸˜ ao autom´ atica dos resultados mostra que o desempenho do m´ etodo combinado ´ e superior aos resultados individuais das abordagens associativa e baseada em alinha- mento para a extrac ¸˜ ao de EM de portuguˆ es e inglˆ es. Al´ em disso, ´ e discutida a efetividade de cada um desses m´ etodos para a identiﬁcac ¸˜ ao de EM espec´ ıﬁcas em comparac ¸˜ ao com EM de dom´ ınio gen´ erico. O m´ etodo proposto pode ser usado para auxiliar o trabalho lexicogr´ aﬁco, fornecendo uma lista de candidatos a EM. 1 Introduc ¸˜ ao A cobertura dos recursos lexicais tem um impacto signiﬁcativo sobre o desempenho de muitas tarefas e aplicac ¸˜ oes de Processamento de Linguagem Na- tural (PLN), e nesse sentido, muitas pesquisas tˆ em se dedicado ` a proposic ¸˜ ao de m´ etodos para auto- matizar a aquisic ¸˜ ao lexical. Nos ´ ultimos anos, al- guns desses trabalhos tˆ em se centrado em um con- junto de fenˆ omenos para os quais recursos lexicais s˜ ao particularmente carentes de cobertura, entre os quais destacam-se as Express˜ oes Multipalavra (EM) (Baldwin, 2005; Villavicencio et al., 2007). Essas express˜ oes podem ser deﬁnidas como combinac ¸˜ oes de palavras que apresentam idiossin- crasias lexicais, sint´ aticas, semˆ anticas, pragm´ aticas ou estat´ ısticas (Sag et al., 2002), e incluem, entre outros fenˆ omenos, verbos frasais (carry up, consist of ), verbos de suporte (tomar um banho, dar uma caminhada), compostos (carro de pol´ ıcia, bode ex- piat´ orio) e express˜ oes idiom´ aticas (engolir o sapo, nadar contra a corrente). EM s˜ ao muito numerosas dentro de uma l´ ıngua e, segundo Biber et al. (1999), podem corresponder de 30% a 45% do inglˆ es falado e 21% da linguagem acadˆ emica. De acordo com Jac- kendoff (1997), as EM tˆ em a mesma ordem de mag- nitude, no l´ exico de um falante nativo, do n´ umero de palavras simples. No entanto, essas proporc ¸˜ oes s˜ ao provavelmente subestimadas se considerarmos a linguagem de um dom´ ınio espec´ ıﬁco na qual: (i) o vocabul´ ario especializado e a terminologia especiali- zada v˜ ao ser compostos, na sua maior parte, por EM (aquecimento global, sequenciamento de prote´ ınas, lit´ ıase renal crˆ onica) e (ii) que novas EM est˜ ao sendo constantemente introduzidas na linguagem (melhora- mento gen´ etico, gripe su´ ına). Os problemas causados pela cobertura limitada dos recursos lexicais podem ser ilustrados, por exem- plo, no contexto de um analisador sint´ atico. Em uma amostra aleat´ oria de 20.000 sentenc ¸as do British Na- tional Corpus (Burnard, 2007), a baixa cobertura de EM no l´ exico utilizado resultou em 8% dos erros cometidos pelo analisador sint´ atico (Baldwin et al., 2004), mesmo com uma gram´ atica de ampla cober- This work is licensed under a Creative Commons Attribution 3.0 License Linguam´ atica — ISSN: 1647–0818 Vol. 2 N´ um. 1 - Abril 2010 - P´ ag. 15–34