Speech Communication 9 (1990) 351-356 351 North-Holland SPEECH DATABASE DEVELOPMENT AT MIT: TIMIT AND BEYOND Victor ZUE, Stephanie SENEFF, and James GLASS Spoken Language Systems Group, Laborato;qvfor Computer Science. Massachusetts lnstimte of Technology. Cambridge, Massachusetts 02139, U,S.A. Revised 22 March 1990 Abstract. Automatic speech recognition by computers can provide the most natural and efficient method of communication between humans and computers. While in recent years high performance speech recognition systems are beginning to emerge from research institutions, scientists unequivocally agree that the deployment of speech recognition systems into realistic operating environments will require many hours of speech data to help us model the inherent variability in the speech signal. This paper describes the experiences of researchers at MIT in the collection of two large speech databases which have somewhat complementary objectives. The TIMI'rdatabase was designed to be task and speaker-independent, and is suitable for general acoustic-phonetic research. The VOVA~iER database, on the other hand, was intended for development and evaluation of a system which incorporates both speech and natural language processing. This database is particularly valuable as a source of spontaneous utterances elicited in a realistic goal-oriented environment. Zusammenfassung. Die automatische Spracherkennung mit Hilfe von Rechnern wird in der Lage sein, uns die nattMichste und effizienteste Methode der Mensch-Maschine-Kommunikation zur VerfiJgung zu stellen. Nachdem seit emigen Jahren hochwertige Spracherkennungssysteme aus den Forschungsinstituten hervorzugehen beginnen, sind sich die Wissenschaftler mehr oder weniger dartiber einig, daB die Anpassung der Spracherkennungssysteme an eine realistische Betriebsumgebung zahlreiche Stunden akustischen Sprachmaterials ben6tigt, um die gesamte Variationsbreite des Sprachsignals in den Griff zu bekommen. Der vorliegende Beitrag beschreibt die Erfahrungcn der Wissenschaftler am MIT mit der Erstellung zweier grof3er akustischer Sprachdatenbanken, die in gewisser Weise komplementS.ren Zwecken dienen. Die HMH-Datenbank wurde als aufgaben- und sprecherunabhfingige Datenbasis entwickelt und ist for allgemeine akustisch-phonetische Unter- suchungen geeignet. Auf der anderen Seite ist die vo~'A(;ER-Datenbank zur Entwicklung und Evaluierung eines Systems gedacht, das die Verarbeitung nattirlicher Sprache sowohl auf der akustischen als aueh auf der textlichen Ebcne umfal3t. Diese Datenbank ist besonders wertvoll als Sammlung spontaner Augerungen. die unter rcalistischen, zielorientierten l.!mgebungsbedingungen entstanden sind. R4sum& La reconnaissance automatique de la parole par des ordinateurs peut fournir le moyen de communication homme machine le plus naturel et le plus efficace. Bien que ces dernieres anndes des systemes de reconnaissance tres performants aient dejs. 6nlergd des centres de recherche, les scientifiques s'accordent unanimement 5. dire que le ddploiement de systemes de reconnaissance de la parole dans un environnement de travail rdel va ndcessiter de nombreuses heures de donnees de parole pour pouvoir moddliser la variabilit6 inherente au signal de parole. Nous decrivons les experiences des chercheurs du MIT en ce qui concerne la creation de deux grandes bases de donnees de parole ayant des objectifs quelque peu complementaires: d'une part, la base de donnees T~M~ crdde de maniere ~ etre inddpendante de la t~che et du locuteur et adaptde 5. des recherches gdndrales dans le domaine acoustico-phondtique, et d'autre part, la base de donn¢,es VOYAGt:R, destinee au ddveloppement et 5. l'6valuation d'un syste:me incorporant 5. la fois le traitement de la parole e~: du langage natural. Cette dernibre base de donndes est particulibrernent utile comme source de phrases spontanees induites dans un environnement rdaliste et eibl4. Keywords. Speech corpora, speech database, speech recognition. 1. Introduction Over the past five years, researchers at MIT have participated in several efforts devoted to the collection of speech databases. The development of databases is considered crucial because the acoustic realizations of phonemes depend on complex interactions among a multitude of fac- tors. These factors can be phonetic (meaning that the realization of one phoneme may be severely 0167-6393/90/$03.50 © 1990--Elsevier Science Publishers B.V. (North-Holland)