-
公开(公告)号:DE112020003449T5
公开(公告)日:2022-04-07
申请号:DE112020003449
申请日:2020-08-17
Applicant: IBM
Inventor: AUDHKHASI KARTIK , SAON GEORGE ANDREI , TUESKE ZOLTAN , KINGSBURY BRIAN , PICHENY MICHAEL ALAN
Abstract: In einem Ansatz zum Soft-Forgetting-Training trainieren ein oder mehrere Computerprozessoren ein erstes Modell unter Verwendung eines oder mehrerer Trainingsstapel, wobei jeder Trainingsstapel des einen oder mehrerer Trainingsstapel einen oder mehrere Informationsblöcke aufweist. Der eine oder mehrere Computerprozessoren lösen als Reaktion auf ein erfolgtes Ausführen des Trainierens des ersten Modells ein Trainieren eines zweiten Modells aus unter Verwendung des einen oder mehrerer Trainingsstapel. Der eine oder mehrere Computerprozessoren jittern eine zufällige Blockgröße für jeden Informationsblock für jeden der ein oder mehreren Trainingsstapel für das zweite Modell. Der eine oder mehrere Computerprozessoren rollen das zweite Modell über einen oder mehrere sich nicht überlappende, zusammenhängende, gejitterte Informationsblöcke aus. Der eine oder mehrere Computerprozessoren reduzieren als Reaktion auf das Ausrollen des zweiten Modells eine Überanpassung des zweiten Modells durch Durchführen einer Zwillingsregularisierung.
-
公开(公告)号:DE112021006221T5
公开(公告)日:2023-10-05
申请号:DE112021006221
申请日:2021-11-26
Applicant: IBM
Inventor: KURATA GAKUTO , SAON GEORGE ANDREI , KINGSBURY BRIAN
Abstract: Es wird ein durch einen Computer implementiertes Verfahren zum Anpassen eines Wandlers eines rekurrenten neuronalen Netzwerks (RNN-T) bereitgestellt. Das durch einen Computer implementierte Verfahren umfasst Synthetisieren von Audiodaten einer ersten Domäne aus Textdaten einer ersten Domäne und Einfügen der synthetisierten Audiodaten einer ersten Domäne in einen trainierten Codierer des Wandlers eines rekurrenten neuronalen Netzwerks (RNN-T) in einem Ausgangszustand, wobei der Codierer unter Verwendung der synthetisierten Audiodaten einer ersten Domäne und der Textdaten einer ersten Domäne aktualisiert wird. Das durch einen Computer implementierte Verfahren umfasst weiterhin Synthetisieren von Audiodaten einer zweiten Domäne aus Textdaten einer zweiten Domäne und Einfügen der synthetisierten Audiodaten einer zweiten Domäne in den aktualisierten Codierer des Wandlers eines rekurrenten neuronalen Netzwerks (RNN-T), wobei das Vorhersagenetzwerk unter Verwendung der synthetisierten Audiodaten einer zweiten Domäne und der Textdaten einer zweiten Domäne aktualisiert wird. Das durch einen Computer implementierte Verfahren umfasst weiterhin Zurücksetzen des aktualisierten Codierers in den Ausgangszustand.
-
公开(公告)号:AU2021414510B2
公开(公告)日:2023-10-05
申请号:AU2021414510
申请日:2021-11-26
Applicant: IBM
Inventor: KURATA GAKUTO , SAON GEORGE ANDREI , KINGSBURY BRIAN
IPC: G10L15/16
Abstract: A computer-implemented method for customizing a recurrent neural network transducer (RNN-T) is provided. The computer implemented method includes synthesizing first domain audio data from first domain text data, and feeding the synthesized first domain audio data into a trained encoder of the recurrent neural network transducer (RNN-T) having an initial condition, wherein the encoder is updated using the synthesized first domain audio data and the first domain text data. The computer implemented method further includes synthesizing second domain audio data from second domain text data, and feeding the synthesized second domain audio data into the updated encoder of the recurrent neural network transducer (RNN-T), wherein the prediction network is updated using the synthesized second domain audio data and the second domain text data. The computer implemented method further includes restoring the updated encoder to the initial condition.
-
公开(公告)号:DE112021004199B4
公开(公告)日:2025-03-20
申请号:DE112021004199
申请日:2021-09-10
Applicant: IBM
Inventor: KURATA GAKUTO , SAON GEORGE ANDREI
Abstract: Auf einem Computer implementiertes Verfahren zum Trainieren von Modellen, wobei das Verfahren umfasst:Trainieren (220) eines zweiten durchgängigen neuronalen Spracherkennungsmodells, das über eine bidirektionale Codierfunktion (520) verfügt, um dieselben Symbole aus einem Ausgabewahrscheinlichkeits-Gitter des zweiten durchgängigen neuronalen Spracherkennungsmodells auszugeben wie aus einem Ausgabewahrscheinlichkeits-Gitter eines trainierten ersten durchgängigen neuronalen Spracherkennungsmodells, das über eine unidirektionale Codierfunktion (420) verfügt; undErstellen eines dritten durchgängigen neuronalen Spracherkennungsmodells, das über eine unidirektionale Codierfunktion (420) verfügt, indem das dritte durchgängige Spracherkennungsmodell als Schüler in einem Wissensdestillations-Verfahren unter Verwendung des trainierten zweiten durchgängigen neuronalen Spracherkennungsmodells als Lehrer trainiert (230) wird, wobei das erste und das dritte durchgängige neuronale Spracherkennungsmodell Ausgabedaten von einer RNN-Umsetzungsfunktion in einem Datenstrom übertragen, und das zweite durchgängige neuronale Spracherkennungsmodell die Ausgabedaten offline bereitstellt.
-
公开(公告)号:AU2021414510A1
公开(公告)日:2023-06-22
申请号:AU2021414510
申请日:2021-11-26
Applicant: IBM
Inventor: KURATA GAKUTO , SAON GEORGE ANDREI , KINGSBURY BRIAN
IPC: G10L15/16
Abstract: A computer-implemented method for customizing a recurrent neural network transducer (RNN-T) is provided. The computer implemented method includes synthesizing first domain audio data from first domain text data, and feeding the synthesized first domain audio data into a trained encoder of the recurrent neural network transducer (RNN-T) having an initial condition, wherein the encoder is updated using the synthesized first domain audio data and the first domain text data. The computer implemented method further includes synthesizing second domain audio data from second domain text data, and feeding the synthesized second domain audio data into the updated encoder of the recurrent neural network transducer (RNN-T), wherein the prediction network is updated using the synthesized second domain audio data and the second domain text data. The computer implemented method further includes restoring the updated encoder to the initial condition.
-
-
-
-