Ein r¨ uckw¨ artskompatibles r¨ aumliches Telefonkonferenzsystem mit automatischer Sprechergruppierung Jens Ahrens, Alexander Raake, Sascha Spors, Jitendra Ajmera Deutsche Telekom Laboratories, Ernst-Reuter-Platz 7, 10587 Berlin, Deutschland Email: {jens.ahrens, alexander.raake, sascha.spors, jitendra.ajmera}@telekom.de Einleitung Die Verwendung von herk¨ ommlicher Telefontechnik in Kommunikationsszenarien wie Telefonkonferenzen f¨ uhrt zu verminderter Verst¨ andlichkeit der Teilneh- mer und vermindertem Komfort. Die Hauptursachen daf¨ ur liegen in dem Verlust der r¨ aumlichen Merkma- le und der reduzierten Bandbreite der Signale. Die ¨ Ubertragung mehrerer paralleler Sprachsignalstr¨ ome zu einem Empf¨ anger erm¨ oglicht hingegen eine r¨ aumliche Wiedergabe eines solchen Szenarios. Die bedeutendsten Vorteile liegen dann in der vereinfachten Identiﬁkation sowie der vereinfachten Unterscheidbarkeit der einzelnen Sprecher durch den H¨ orer [1]. Wir schlagen ein System vor, das automatische Spre- cheridentiﬁzierung mit anschließender r¨ aumlicher Darbietung des entsprechend segmentierten Signals kombiniert. Dadurch wird R¨ uckw¨ artskompatibilit¨ at zu bestehenden ¨ Ubertragungstechniken wie dem klassischen Festnetz gew¨ ahrleistet, die die parallele ¨ Ubertragung mehrerer Sprachkan¨ ale nicht erlauben. Im Endger¨ at werden Sprecherwechsel detektiert, Sprecher identiﬁ- ziert, und das Signal wird entsprechend segmentiert. Die einzelnen Sprecher werden dann in einer virtuellen auditiven Umgebung r¨ aumlich verteilt wiedergegeben. Dieses kombinierte System wurde implementiert mit dem Ziel, die Identiﬁkation der Sprecher f¨ ur den H¨ orer zu erleichtern. Um dieses Ziel zu evaluieren, wurde die F¨ ahigkeit der H¨ orer verglichen, die einzelnen Stimmen bei diotischer Wiedergabe, sowie r¨ aumlicher Wiedergabe mit automatischer bzw. fehlerfreier Segmentierung zu identiﬁzieren. Signalsegmentierung und Sprechergrup- pierung Zur Erkennung von Sprecherwechseln und zur Grup- pierung der Sprecher verwenden wir das Bayesian Information Criterion (BIC), wie in [3, 4] vorgeschlagen. Aus dem Gesamtsignal werden alle 10 ms Merkmals- vektoren mit relativ kleiner Fensterbreite extrahiert. Das Problem der Detektion der Sprecherwechsel ist als Hypothesentest formuliert. Die Nullhypothese stellt die Annahme dar, dass sich zwischen zwei aufeinander folgenden Merkmalsvektoren kein Sprecherwechsel be- ﬁndet. Die Hypothese wird mittels der Betrachtung von Sprechermodellen, welche auf diesen Merkmalsvektoren trainiert wurden, angenommen oder verworfen. Die Sprechergruppierung verl¨ auft ebenso, wobei aber l¨ angere Fenster von Merkmalsvektoren und Sprechermo- delle mit mehr Parametern betrachtet werden. Binaurale Wiedergabe Eine einfache M¨ oglichkeit der r¨ aumlichen Darbietung stellt die binaurale Wiedergabe ¨ uber Kopfh¨ orer dar, die hier verwendet wurde. Dabei werden dem Signal Merk- male aufgepr¨ agt, die das menschliche Geh¨ or zur Lokali- sation benutzt. Zu diesen Merkmalen geh¨ oren u.a. Lauf- zeitunterschiede zwischen den Ohren sowie speziﬁsche spektrale Merkmale [2]. Der H¨ orer nimmt dann eine vir- tuelle Schallquelle wahr, deren Position ¨ uber die Wahl der Lokalisationsmerkmale gesteuert werden kann. Im vorliegenden Fall wurden die einzelnen Signalsegmente mit den entsprechenden kopfbezogenen Raumimpulsan- worten (Binaural Room Impulse Response, BRIR) f¨ ur die gew¨ unschte Position gefaltet. Die hierbei verwende- ten Impulsantworten wurden in einem Aufnahmestudio mittels eines Kunstkopfes gemessen. Evaluierung Das System wurde sowohl objektiv als auch subjektiv evaluiert, wobei sich die objektive Evaluierung auf den Sprechersegmentierungs-/-gruppierungsalgorithmus beschr¨ ankte. Als Testsignale wurden zuf¨ allige Aufz¨ ahlungen von Ziﬀern in deutscher Sprache von verschiedenen Sprechern aus der VeriDat Datenbasis [5] verwendet. Es wurde ein Beispiel mit zwei Sprechern und jeweils zwei Beispiele mit drei und vier Sprechern vorbereitet. Die Bandbreite der Signale betrug 4 kHz, die L¨ ange der Zusammenstellungen jeweils ungef¨ ahr eine Minute. Objektive Evaluierung der Sprecher- identiﬁkation/-gruppierung Die f¨ unf Testbeispiele enthalten insgesamt 48 Spre- cherwechsel, welche alle vom System korrekt detek- tiert wurden. Dar¨ uber hinaus meldete das System zw¨ olf zus¨ atzliche Sprecherwechsel, von welchen die meisten durch den Gruppierungsalgorithmus ignoriert wurden. Nach der Gruppierung blieben 46 Sprecherwechsel, wo- bei zwei davon inkorrekt waren. Zwei Sprecherwechsel wurden also nicht erkannt. Insgesamt betr¨ agt die Perfor- manz des Gruppierungsalgorithmus 88,20%, d.h. 88,20% der Verarbeitungsbl¨ ocke wurden korrekt zugeordnet. Perzeptive Evaluierung Die f¨ unf Testbeispiele wurden in zuf¨ alliger Reihenfol- ge auf drei verschiedene Arten dargeboten: (1) diotisch