Statistische Verbesserung von Sprachausgabe aus einem Text-To-Speech-Synthesesystem

    公开(公告)号:DE112012002524T5

    公开(公告)日:2014-03-13

    申请号:DE112012002524

    申请日:2012-06-28

    Applicant: IBM

    Abstract: Ein Verfahren wird zur Verbesserung von Sprache beschrieben, die durch ein statistisches Text-to-Speech-(TTS-)System synthetisiert wird, das eine parametrische Darstellung von Sprache in einem Raum von akustischen Funktionsvektoren verwendet. Das Verfahren beinhaltet: Definieren einer parametrischen Familie von Korrektur-Transformationen, die in dem Raum der akustischen Funktionsvektoren betrieben wird und von einem Satz Verbesserungsparameter abhängt; und Definieren einer Verzerrungsangabe eines Funktionsvektors oder einer Vielzahl von Funktionsvektoren. Das Verfahren beinhaltet ferner: Empfangen eines Funktionsvektors, der durch das System ausgegeben wird; und Erzeugen einer Instanz der Korrektur-Transformation durch: Berechnen eines Referenzwerts der Verzerrungsangabe, der einem statistischen Modell der phonetischen Einheit zuzuschreiben ist, die den Funktionsvektor aussendet; Berechnen eines Ist-Werts der Verzerrungsangabe, der Funktionsvektoren zuzuschreiben ist, die durch das statistische Modell der phonetischen Einheit ausgesendet werden, die den Funktionsvektor aussendet; Berechnen der Verbesserungsparameterwerte, die von dem Referenzwert der Verzerrungsangabe, dem Ist-Wert der Verzerrungsangabe und der parametrischen Korrektur-Transformation abhängen; und Ableiten einer Instanz der Korrektur-Transformation, die den Verbesserungsparameterwerten aus der parametrischen Familie der Korrektur-Transformationen entspricht. Die Instanz der Korrektur-Transformation kann auf den Funktionsvektor angewendet werden, um einen verbesserten Funktionsvektor bereitzustellen.

    Statistical enhancement of speech output from statistical text-to-speech synthesis system

    公开(公告)号:GB2507674A

    公开(公告)日:2014-05-07

    申请号:GB201400493

    申请日:2012-06-28

    Applicant: IBM

    Abstract: A method is described for enhancement of speech synthesized by a statistical text-to-speech (TTS) system employing a parametric representation of speech in a space of acoustic feature vectors. The method includes: defining a parametric family of corrective transformations operating in the space of the acoustic feature vectors and dependent on a set of enhancing parameters; and defining a distortion indictor of a feature vector or a plurality of feature vectors. The method further includes: receiving a feature vector output by the system; and generating an instance of the corrective transformation by: calculating a reference value of the distortion indicator attributed to a statistical model of the phonetic unit emitting the feature vector; calculating an actual value of the distortion indicator attributed to feature vectors emitted by the statistical model of the phonetic unit emitting the feature vector; calculating the enhancing parameter values depending on the reference value of the distortion indicator, the actual value of the distortion indicator and the parametric corrective transformation; and deriving an instance of the corrective transformation corresponding to the enhancing parameter values from the parametric family of the corrective transformations. The instance of the corrective transformation may be applied to the feature vector to provide an enhanced feature vector.

    Statistische Verbesserung von Sprachausgabe aus einem Text-To-Speech-Synthesesystem

    公开(公告)号:DE112012002524B4

    公开(公告)日:2018-05-30

    申请号:DE112012002524

    申请日:2012-06-28

    Applicant: IBM

    Abstract: Verfahren zur Verbesserung von Sprache, die durch ein statistisches Text-to-Speech- (TTS-) System (300; 400; 500) synthetisiert wird, das eine parametrische Darstellung von Sprache in einem Raum von akustischen Funktionsvektoren verwendet, wobei das Verfahren aufweist:Definieren einer parametrischen Familie von Korrektur-Transformationen, die in dem Raum der akustischen Funktionsvektoren betrieben wird und von einem Satz Verbesserungsparameter abhängt (601);Definieren einer Verzerrungsangabe eines Funktionsvektors oder einer Vielzahl von Funktionsvektoren (602);Empfangen eines Funktionsvektors, der von dem System ausgegeben wird (603);Erzeugen einer Instanz der Korrektur-Transformation (604) durch:Berechnen eines Referenzwerts der Verzerrungsangabe, der einem statistischen Modell der phonetischen Einheit zuzuschreiben ist (605);Berechnen eines Ist-Werts der Verzerrungsangabe, der dem Funktionsvektor zuzuschreiben ist, der durch das statistische Modell der phonetischen Einheit ausgesendet wird, die den Funktionsvektor aussendet (606);Berechnen der Verbesserungsparameterwerte, die von dem Referenzwert der Verzerrungsangabe, vom Ist-Wert der Verzerrungsangabe und von der parametrischen Familie der Korrektur-Transformationen abhängig sind (607);Ableiten einer Instanz der Korrektur-Transformation, die den Verbesserungsparameterwerten aus der parametrischen Familie der Korrektur-Transformationen entspricht; undAnwenden der Instanz der Korrektur-Transformation auf den Funktionsvektor, um einen verbesserten Funktionsvektor bereitzustellen (608); undVerwenden des verbesserten Funktionsvektors in einer Signalverlaufsynthese von Sprache (728).

    Statistical enhancement of speech output from A statistical text-to-speech synthesis system

    公开(公告)号:GB2507674B

    公开(公告)日:2015-04-08

    申请号:GB201400493

    申请日:2012-06-28

    Applicant: IBM

    Abstract: A method, system and computer program product are provided for enhancement of speech synthesized by a statistical text-to-speech (TTS) system employing a parametric representation of speech in a space of acoustic feature vectors. The method includes: defining a parametric family of corrective transformations operating in the space of the acoustic feature vectors and dependent on a set of enhancing parameters; and defining a distortion indictor of a feature vector or a plurality of feature vectors. The method further includes: receiving a feature vector output by the system; and generating an instance of the corrective transformation by: calculating a reference value of the distortion indicator attributed to a statistical model of the phonetic unit emitting the feature vector; calculating an actual value of the distortion indicator attributed to feature vectors emitted by the statistical model of the phonetic unit emitting the feature vector; calculating the enhancing parameter values depending on the reference value of the distortion indicator, the actual value of the distortion indicator and the parametric corrective transformation; and deriving an instance of the corrective transformation corresponding to the enhancing parameter values from the parametric family of the corrective transformations. The instance of the corrective transformation may be applied to the feature vector to provide an enhanced feature vector.

Patent Agency Ranking