Cuantificación de la frecuencia fundamental para el reconocimiento de voz distribuido

    公开(公告)号:ES2395717T3

    公开(公告)日:2013-02-14

    申请号:ES04708630

    申请日:2004-02-05

    Abstract: Un método para un sistema de procesamiento de información para cuantificar la información de la frecuenciafundamental de audio, que comprende: capturar audio que representa una trama numerada de una pluralidad de tramas numeradas; calcular una clase de trama, en la que una clase es una cualquiera de entre una clase sonora y una clasesorda; si la trama es una clase sonora, calcular una frecuencia fundamental para la trama; si la trama es una trama numerada par y una clase sonora, calcular una palabra clave de una primera longitudcuantificando la frecuencia fundamental de la trama de manera absoluta; si la trama es una trama numerada par y una clase sorda, calcular una palabra clave de la primera longitud queindique una trama de clase sorda; si la trama es una trama numerada impar y una clase sonora, y al menos una de las tres tramasinmediatamente anteriores a la trama es fiable, calcular una palabra clave de una segunda longitudcuantificando la frecuencia fundamental de la trama diferencial que hace referencia a una frecuenciafundamental cuantificada de la trama fiable anterior más cercana, en la que la primera longitud es mayor que lasegunda longitud; si la trama es una trama numerada impar y una clase sonora, y cada una de las tres tramas inmediatamenteanteriores a la trama no es fiable, calcular una palabra clave de la segunda longitud cuantificando la frecuenciafundamental de la trama de manera absoluta; y si la trama es una trama numerada impar y una clase sorda, calcular una palabra clave de la segunda longitudque indique una trama de clase sorda; en el que una trama numerada par es fiable si es una clase sonora, y en el que una trama numerada impar esfiable si es una clase sonora y la frecuencia fundamental de la trama se cuantifica de manera absoluta o secuantifica de manera diferencial en referencia a una frecuencia fundamental de la trama inmediatamenteanterior.

    Statistische Verbesserung von Sprachausgabe aus einem Text-To-Speech-Synthesesystem

    公开(公告)号:DE112012002524T5

    公开(公告)日:2014-03-13

    申请号:DE112012002524

    申请日:2012-06-28

    Applicant: IBM

    Abstract: Ein Verfahren wird zur Verbesserung von Sprache beschrieben, die durch ein statistisches Text-to-Speech-(TTS-)System synthetisiert wird, das eine parametrische Darstellung von Sprache in einem Raum von akustischen Funktionsvektoren verwendet. Das Verfahren beinhaltet: Definieren einer parametrischen Familie von Korrektur-Transformationen, die in dem Raum der akustischen Funktionsvektoren betrieben wird und von einem Satz Verbesserungsparameter abhängt; und Definieren einer Verzerrungsangabe eines Funktionsvektors oder einer Vielzahl von Funktionsvektoren. Das Verfahren beinhaltet ferner: Empfangen eines Funktionsvektors, der durch das System ausgegeben wird; und Erzeugen einer Instanz der Korrektur-Transformation durch: Berechnen eines Referenzwerts der Verzerrungsangabe, der einem statistischen Modell der phonetischen Einheit zuzuschreiben ist, die den Funktionsvektor aussendet; Berechnen eines Ist-Werts der Verzerrungsangabe, der Funktionsvektoren zuzuschreiben ist, die durch das statistische Modell der phonetischen Einheit ausgesendet werden, die den Funktionsvektor aussendet; Berechnen der Verbesserungsparameterwerte, die von dem Referenzwert der Verzerrungsangabe, dem Ist-Wert der Verzerrungsangabe und der parametrischen Korrektur-Transformation abhängen; und Ableiten einer Instanz der Korrektur-Transformation, die den Verbesserungsparameterwerten aus der parametrischen Familie der Korrektur-Transformationen entspricht. Die Instanz der Korrektur-Transformation kann auf den Funktionsvektor angewendet werden, um einen verbesserten Funktionsvektor bereitzustellen.

    Statistical enhancement of speech output from statistical text-to-speech synthesis system

    公开(公告)号:GB2507674A

    公开(公告)日:2014-05-07

    申请号:GB201400493

    申请日:2012-06-28

    Applicant: IBM

    Abstract: A method is described for enhancement of speech synthesized by a statistical text-to-speech (TTS) system employing a parametric representation of speech in a space of acoustic feature vectors. The method includes: defining a parametric family of corrective transformations operating in the space of the acoustic feature vectors and dependent on a set of enhancing parameters; and defining a distortion indictor of a feature vector or a plurality of feature vectors. The method further includes: receiving a feature vector output by the system; and generating an instance of the corrective transformation by: calculating a reference value of the distortion indicator attributed to a statistical model of the phonetic unit emitting the feature vector; calculating an actual value of the distortion indicator attributed to feature vectors emitted by the statistical model of the phonetic unit emitting the feature vector; calculating the enhancing parameter values depending on the reference value of the distortion indicator, the actual value of the distortion indicator and the parametric corrective transformation; and deriving an instance of the corrective transformation corresponding to the enhancing parameter values from the parametric family of the corrective transformations. The instance of the corrective transformation may be applied to the feature vector to provide an enhanced feature vector.

    Statistische Verbesserung von Sprachausgabe aus einem Text-To-Speech-Synthesesystem

    公开(公告)号:DE112012002524B4

    公开(公告)日:2018-05-30

    申请号:DE112012002524

    申请日:2012-06-28

    Applicant: IBM

    Abstract: Verfahren zur Verbesserung von Sprache, die durch ein statistisches Text-to-Speech- (TTS-) System (300; 400; 500) synthetisiert wird, das eine parametrische Darstellung von Sprache in einem Raum von akustischen Funktionsvektoren verwendet, wobei das Verfahren aufweist:Definieren einer parametrischen Familie von Korrektur-Transformationen, die in dem Raum der akustischen Funktionsvektoren betrieben wird und von einem Satz Verbesserungsparameter abhängt (601);Definieren einer Verzerrungsangabe eines Funktionsvektors oder einer Vielzahl von Funktionsvektoren (602);Empfangen eines Funktionsvektors, der von dem System ausgegeben wird (603);Erzeugen einer Instanz der Korrektur-Transformation (604) durch:Berechnen eines Referenzwerts der Verzerrungsangabe, der einem statistischen Modell der phonetischen Einheit zuzuschreiben ist (605);Berechnen eines Ist-Werts der Verzerrungsangabe, der dem Funktionsvektor zuzuschreiben ist, der durch das statistische Modell der phonetischen Einheit ausgesendet wird, die den Funktionsvektor aussendet (606);Berechnen der Verbesserungsparameterwerte, die von dem Referenzwert der Verzerrungsangabe, vom Ist-Wert der Verzerrungsangabe und von der parametrischen Familie der Korrektur-Transformationen abhängig sind (607);Ableiten einer Instanz der Korrektur-Transformation, die den Verbesserungsparameterwerten aus der parametrischen Familie der Korrektur-Transformationen entspricht; undAnwenden der Instanz der Korrektur-Transformation auf den Funktionsvektor, um einen verbesserten Funktionsvektor bereitzustellen (608); undVerwenden des verbesserten Funktionsvektors in einer Signalverlaufsynthese von Sprache (728).

    Statistical enhancement of speech output from A statistical text-to-speech synthesis system

    公开(公告)号:GB2507674B

    公开(公告)日:2015-04-08

    申请号:GB201400493

    申请日:2012-06-28

    Applicant: IBM

    Abstract: A method, system and computer program product are provided for enhancement of speech synthesized by a statistical text-to-speech (TTS) system employing a parametric representation of speech in a space of acoustic feature vectors. The method includes: defining a parametric family of corrective transformations operating in the space of the acoustic feature vectors and dependent on a set of enhancing parameters; and defining a distortion indictor of a feature vector or a plurality of feature vectors. The method further includes: receiving a feature vector output by the system; and generating an instance of the corrective transformation by: calculating a reference value of the distortion indicator attributed to a statistical model of the phonetic unit emitting the feature vector; calculating an actual value of the distortion indicator attributed to feature vectors emitted by the statistical model of the phonetic unit emitting the feature vector; calculating the enhancing parameter values depending on the reference value of the distortion indicator, the actual value of the distortion indicator and the parametric corrective transformation; and deriving an instance of the corrective transformation corresponding to the enhancing parameter values from the parametric family of the corrective transformations. The instance of the corrective transformation may be applied to the feature vector to provide an enhanced feature vector.

Patent Agency Ranking