Speech Communication 9 (1990) 351-356 351
North-Holland
SPEECH DATABASE DEVELOPMENT AT MIT: TIMIT AND BEYOND
Victor ZUE, Stephanie SENEFF, and James GLASS
Spoken Language Systems Group, Laborato;qvfor Computer Science. Massachusetts lnstimte of Technology. Cambridge,
Massachusetts 02139, U,S.A.
Revised 22 March 1990
Abstract. Automatic speech recognition by computers can provide the most natural and efficient method of communication
between humans and computers. While in recent years high performance speech recognition systems are beginning to
emerge from research institutions, scientists unequivocally agree that the deployment of speech recognition systems into
realistic operating environments will require many hours of speech data to help us model the inherent variability in the
speech signal. This paper describes the experiences of researchers at MIT in the collection of two large speech databases
which have somewhat complementary objectives. The TIMI'rdatabase was designed to be task and speaker-independent, and
is suitable for general acoustic-phonetic research. The VOVA~iER database, on the other hand, was intended for development
and evaluation of a system which incorporates both speech and natural language processing. This database is particularly
valuable as a source of spontaneous utterances elicited in a realistic goal-oriented environment.
Zusammenfassung. Die automatische Spracherkennung mit Hilfe von Rechnern wird in der Lage sein, uns die nattMichste
und effizienteste Methode der Mensch-Maschine-Kommunikation zur VerfiJgung zu stellen. Nachdem seit emigen Jahren
hochwertige Spracherkennungssysteme aus den Forschungsinstituten hervorzugehen beginnen, sind sich die Wissenschaftler
mehr oder weniger dartiber einig, daB die Anpassung der Spracherkennungssysteme an eine realistische Betriebsumgebung
zahlreiche Stunden akustischen Sprachmaterials ben6tigt, um die gesamte Variationsbreite des Sprachsignals in den Griff
zu bekommen. Der vorliegende Beitrag beschreibt die Erfahrungcn der Wissenschaftler am MIT mit der Erstellung zweier
grof3er akustischer Sprachdatenbanken, die in gewisser Weise komplementS.ren Zwecken dienen. Die HMH-Datenbank
wurde als aufgaben- und sprecherunabhfingige Datenbasis entwickelt und ist for allgemeine akustisch-phonetische Unter-
suchungen geeignet. Auf der anderen Seite ist die vo~'A(;ER-Datenbank zur Entwicklung und Evaluierung eines Systems
gedacht, das die Verarbeitung nattirlicher Sprache sowohl auf der akustischen als aueh auf der textlichen Ebcne umfal3t.
Diese Datenbank ist besonders wertvoll als Sammlung spontaner Augerungen. die unter rcalistischen, zielorientierten
l.!mgebungsbedingungen entstanden sind.
R4sum& La reconnaissance automatique de la parole par des ordinateurs peut fournir le moyen de communication homme
machine le plus naturel et le plus efficace. Bien que ces dernieres anndes des systemes de reconnaissance tres performants
aient dejs. 6nlergd des centres de recherche, les scientifiques s'accordent unanimement 5. dire que le ddploiement de systemes
de reconnaissance de la parole dans un environnement de travail rdel va ndcessiter de nombreuses heures de donnees de
parole pour pouvoir moddliser la variabilit6 inherente au signal de parole. Nous decrivons les experiences des chercheurs
du MIT en ce qui concerne la creation de deux grandes bases de donnees de parole ayant des objectifs quelque peu
complementaires: d'une part, la base de donnees T~M~ crdde de maniere ~ etre inddpendante de la t~che et du locuteur et
adaptde 5. des recherches gdndrales dans le domaine acoustico-phondtique, et d'autre part, la base de donn¢,es VOYAGt:R,
destinee au ddveloppement et 5. l'6valuation d'un syste:me incorporant 5. la fois le traitement de la parole e~: du langage
natural. Cette dernibre base de donndes est particulibrernent utile comme source de phrases spontanees induites dans un
environnement rdaliste et eibl4.
Keywords. Speech corpora, speech database, speech recognition.
1. Introduction
Over the past five years, researchers at MIT
have participated in several efforts devoted to the
collection of speech databases. The development
of databases is considered crucial because the
acoustic realizations of phonemes depend on
complex interactions among a multitude of fac-
tors. These factors can be phonetic (meaning that
the realization of one phoneme may be severely
0167-6393/90/$03.50 © 1990--Elsevier Science Publishers B.V. (North-Holland)