P ERFORMANZUNTERSUCHUNGEN ZUR S TIMMKONVERTIERUNG Oliver Jokisch, Hamurabi Gamboa Rosales TU Dresden, Institut f¨ ur Akustik und Sprachkommunikation oliver.jokisch@tu-dresden.de Kurzfassung: Es haben sich unterschiedliche Verfahren zur Stimmkonvertierung etabliert, um die angestrebte Charakteristik eines Zielsprechers zu modellieren und dabei eine m¨ oglichst nat¨ urliche Sprachsignalqualit¨ at zu gew¨ ahrleisten. Der Bei- trag stellt H¨ orexperimente f¨ ur vier Stimmkonvertierungsmethoden vor, bei denen die H¨ oranstrengung, die allgemeine Sprachqualit¨ at und die ¨ Ahnlichkeit zur Ziel- stimme bewertet werden. Die subjektive ¨ Ahnlichkeitsbewertung wird mittels ei- ner objektiven Abstandsmessung auf Basis der logarithmierten Spektralverzerrung ¨ uberpr¨ uft. Der praktische Einsatz des Konvertierungsverfahrens erfordert dar¨ uber hinaus eine geeignete Performanz bez ¨ uglich des Laufzeitverhaltens sowie der Spei- chernutzung. Der Beitrag diskutiert das Laufzeitverhalten auf Basis verschiedener Parametrisierungen einer ausgew¨ ahlten Stimmkonvertierungsmethode im Kontext typischer Einsatzbedingungen. Dabei wird der Einﬂuss der Rechenressourcen, der Konvertierungsparameter sowie der Trainingseinstellungen getestet. Der ermittelte Echtzeitfaktor der nicht-optimierten Konvertierungsmethode ist f¨ ur viele kommer- zielle Anwendungen ungeeignet. 1 Einf ¨ uhrung In der Literatur werden sehr unterschiedliche Verfahren zur Stimmkonvertierung (engl. Voice Conversion, VC) beschrieben. Die Stimmkonvertierung – oft auch als Sprechertransformation bezeichnet – strebt die zielgerichtete Ver¨ anderung der Stimme eines Quellsprechers an. Das Konvertierungsergebnis soll dabei m¨ oglichst exakt der Stimme eines bestimmten Zielsprechers entsprechen. Damit grenzt sich die Stimmkonvertierung von Methoden der allgemeinen Stimm- umwandlung (engl. Voice Transformation, VT) oderdes Voice Morphing (VM) ab. Das Konzept der Stimmumwandlung stammt urspr¨ unglich aus der Text-to-Speech-Synthese und zielte auf die Generierung zus¨ atzlicher Synthesestimmen durch meist regelbasierte Modiﬁka- tionen von Parametern vorhandener Sprecherdatenbasen. Je nach Einsatzbereich und Konvertierungsziel werden Algorithmen zur Sprecheranpassung, z. B. die Vokaltraktl¨ angen-Normalisierung, sowie Methoden zur Anpassung weiterer Stimm- qualit¨ ats- oder prosodischer Parameter angewendet bzw. kombiniert. Teilweise werden dialek- tale oder fremdsprachliche Merkmale manipuliert. Bei den meisten Stimmkonvertierungsver- fahren ist ein vorheriges Training auf Basis von Referenzdaten oder mit Stimmbeispielen der Quell- und Zielstimme erforderlich. Die algorithmischen Entwicklungen und Experimente kon- zentrieren sich in der Regel darauf, die angestrebte Charakteristik der normalisierten Stimme oder eines Referenzsprechers zu modellieren bzw. eine hohe perzeptive Sprachsignalqualit¨ at zu erzielen, da diese Faktoren ¨ uber eine erfolgreiche Anwendung von Stimmkonvertierung ent- scheiden. Der praktische Einsatz in der Spracherkennung und -synthese, im Medienbereich so- wie im Spielesektor erfordert dar ¨ uber hinaus eine geeignete Performanz bez ¨ uglich des Laufzeit-