Syntactische annotatie voor het Corpus Gesproken Nederlands ( CGN) Ton van der Wouden, Heleen Hoekstra, Michael Moortgat, Bram Renmans en Ineke Schuurman versie van 9 juli 2002 Abstract The paper discusses the syntactic annotation for the Spoken Dutch Corpus, a Dutch/Flemish cooperation project to build an annotated corpus of about one thousand hours of continuous speech, which amounts to 10 million words. After a brief introduction to the project, we discuss the kind of syntactic annotations we envisage (dependency structures) and the way they are created (semi-automatically). We mention some peculiarities of spoken language, and we finish with a discussion of some of the kinds of questions the corpus may help answering. 1 Inleiding Dit artikel besteedt aandacht aan de syntactische annotatie ten behoeve van het Corpus Gesproken Nederlands (in het vervolg meestal CGN). In de tweede paragraaf worden doel en opzet van het CGN besproken, alsmede de plaats van de syntactische annotatie daarin. In de derde paragraaf bespreken we het soort syntactische struc- turen dat het CGN oplevert. In de tamelijk technische vierde paragraaf gaan we in op de uitgangspunten van de syntactische analyse, en in de vijfde op de praktische implementatie van het proces. In de zesde paragraaf bespreken we een aantal specifieke problemen verbonden aan het ontleden van gesproken taal. In de zevende en laatste paragraaf tenslotte worden enkele voorbeelden behandeld van typen vragen die taalkundigen altijd over het Nederlands hadden willen stellen en die nu met behulp van een syntactisch geannoteerd corpus van het gesproken Nederlands niet alleen gesteld maar misschien ook daadwerkelijk beantwoord kunnen worden. 1 2 Het Corpus Gesproken Nederlands Het Corpus Gesproken Nederlands is een samenwerkingsproject van een aantal Nederlandse en Vlaamse universiteiten (Goedertier et al. 2000; Oostdijk 2000a; Oostdijk 2000b). Het project, dat wordt gefinancierd door NWO en FWO en beheerd door de Taalunie, is begonnen in juni 1998 en heeft een looptijd van vijf jaar. Het einddoel is een geannoteerd corpus van ongeveer duizend uur lopende spraak, wat neerkomt op zo’n tien miljoen woorden. 2 Het CGN is bedoeld als een bron, een nieuw soort bron, van informatie voor taalkundig onderzoek en voor taal- en spraaktechnologie. Om deze verschillende doelgroepen optimaal te kunnen bedienen, wordt het cor- pusmateriaal verzameld in uiteenlopende communicatieve situaties, waaronder spontane dialogen, telefoon- gesprekken, vraaggesprekken, discussies, debatten, lezingen, nieuwsuitzendingen en voorgelezen literatuur. Tweederde van het materiaal is afkomstig uit Nederland, eenderde uit het Nederlands sprekende gedeelte van 1 Deze publicatie is tot stand gekomen in het kader van het project “Corpus Gesproken Nederlands” met financiële steun van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) en de Vlaamse Overheid. Dit artikel is ten dele een vertaling annex samenvatting van gedeelten van Hoekstra et al. (2001b) en van Hoekstra et al. (2001a). 2 Meer informatie over het project en over de distributie van het materiaal via de website http://www.lands.let.kun.nl/cgn. 1