INFOSUR - Nro 2 - Agosto 2008 95 Técnicas de clustering para inducción de categorías sintácticas en un corpus de español Clustering techniques for induction of syntactic categories onto a Spanish corpus Fernando Balbachan, Diego Dell’Era Facultad de Filosofía y Letras, Universidad de Buenos Aires Buenos Aires, Argentina fernando_balbachan@yahoo.com.ar , diego.dellera@gmail.com Abstract Among statistical models for Natural Language Processing (NLP) approaches, clustering techniques have turned of interest to both computational linguistics and psycholinguistics, as a plausible solution on how a grammar can be acquired completely from scratch (from a tabula rasa). We propose this current research as one of the first systematic clustering experiments on large corpora in Spanish, which presents substantial improvements with respect to previous work (Redington et al. 1998). Its short-term goal is to empirically demonstrate that distributional information is a powerful tool for the induction of syntactic categories. Our heuristics includes a Decreasing Frequency Profile (Ćavar et al. 2004), mutual information (Shannon 1948), and K-means algorithm (Manning and Schütze 1999) in order to find out, in a non-arbitrary non-aprioristic fashion, syntactic cues that will later provide the foundations for the vector space modelization. We will thus obtain clusters of a reasonable purity and evidence for semantic bootstrapping. At long term, we will plan to profit from the results by working with translinguistic evidence and studying the feasibility for inducing more refined syntactic rules. Keywords: clustering, distributional information, induction of syntactic categories, semantic bootstrapping Resumen Como parte de los modelos estadísticos de aproximación al Procesamiento de Lenguaje Natural (PLN), las técnicas de clustering han venido atrayendo la atención convergente de la lingüística computacional y de la psicolingüística, como una solución plausible al problema de la adquisición de una gramática a partir de una tabula rasa. La presente investigación se enmarca en dicho paradigma y se propone como uno de los primeros intentos sistemáticos de clustering para grandes corpora en español que incorpora sustanciales mejoras respecto de trabajos anteriores (Redington et al. 1998). La meta a corto plazo es demostrar empíricamente que la información distribucional es una poderosa herramienta para la inducción de juicios de pertenencia de ítems lexicales a categorías sintácticas. En particular, se recurre a una heurística de Decreasing Frequency Profile (Ćavar et al. 2004), información mutua (Shannon 1948) y al algoritmo K-means (Manning y Schütze 1999) para una identificación no arbitraria y no apriorística de marcas sintácticas que han de sentar las bases del posterior modelado vectorial con clusters de razonable pureza y evidencia de facilitación semántica temprana. A más largo plazo se espera sacar provecho de los resultados obtenidos,