CORPUS DE CONTEXTOS DEFINITORIOS: UNA HERRAMIENTA PARA LA LEXICOGRAFÍA Y LA TERMINOLOGÍA Gerardo Sierra, Rodrigo Alarcón, César Aguilar, Alberto Barrón, Valeria Benítez e Itzia Baca {gsierram,ralarconm,caguilar,lbarronc,vbenitezr,ibacai}@ii.unam.mx Instituto de Ingeniería, UNAM Torre de Ingeniería, Basamento Ciudad Universitaria México 04510, D.F. RESUMEN Un corpus de contextos definitorios (CCDs), más allá de ser concebido como un mero repositorio de documentos, es una herramienta valiosa para la terminología y la lexicografía, ya que puede facilitar el proceso de extracción de unidades tales como términos y definiciones. Así, la propuesta que aquí se presenta expone el diseño y desarrollo del CCDs que contiene tales unidades, las cuales han sido obtenidas de corpus de textos técnicos de diversas áreas temáticas. Del mismo modo, se explica la metodología empleada y el desarrollo de las herramientas y aplicaciones previstas para este corpus. 1 Introducción Los corpus textuales son ampliamente utilizados por la terminología, la lexicografía y algunas otras áreas de investigación, en cuestiones tales como frecuencia y conteo de palabras, análisis de concordancias y otras labores similares que son útiles para distinguir, por ejemplo, las diferencias del sentido de una palabra. Con todo, en algunos casos el tratamiento de dichos corpus no resulta suficiente para ubicar la relación que se da entre términos y definiciones dentro de un texto especializado, de modo que pueda clarificarse el significado de tal término en un determinado contexto. En años recientes, se han formulado diversas investigaciones orientadas al reconocimiento y clasificación de términos y definiciones —de manera manual o automática—, entre las cuales se pueden mencionar la búsqueda sistemática de contextos ricos en conocimiento (ing. Knowledge-Rich Contexts) por parte de Pearson [1998] y Meyer [2001], el trabajo sobre la extracción de información metalingüística por parte de Rodríguez [2004], así como el uso de enunciados definitorios (fr. énoncés définitoires) realizadas por Auger [1997] y Rebeyrolle [2000]. Siguiendo esta línea de trabajo, el Grupo de Ingeniería Lingüística de la UNAM (GIL) ha formulado la noción de contexto definitorio (CD), la cual servirá como base para la edificación de un Corpus de Contextos Definitorios (CCDs). Dicho corpus es una herramienta valiosa para la terminología, la lexicografía, la extracción de información y la minería de textos, ya que apoya a la construcción de diccionarios electrónicos onomasiológicos y semasiológicos, la elaboración de bancos terminológicos, el diseño de ontologías, además de agilizar la búsqueda automática de términos y definiciones, por sólo mencionar algunas aplicaciones. Este trabajo presenta la siguiente distribución: en primer lugar se definirá la noción de CD y se describirán los elementos que lo conforman. En segundo lugar, se explicará la metodología empleada para la extracción de CDs del Corpus Técnico del IULA.