Abstract:
Durch einen Computer realisiertes Verfahren, aufweisend:ein Erhalten (S110) eines Frequenzspektrums von Audiosignaldaten durch einen Prozessor;ein Extrahieren (S150) von periodischen Anzeichen aus dem Frequenzspektrum durch den Prozessor;ein Eingeben der periodischen Anzeichen und Komponenten des Frequenzspektrums in ein neuronales Netz durch den Prozessor;ein Schätzen (S210) von Klangidentifizierungsinformationen aus dem neuronalen Netz durch den Prozessor,wobei das neuronale Netz ein faltendes neuronales Netz oder ein tiefes neuronales Netz ist,wobei das Eingeben in das neuronale Netz ein Eingeben der periodischen Anzeichen in eine zweite Schicht oder eine darauffolgende Schicht des neuronalen Netzes beinhaltet.
Abstract:
Vorrichtung zur Extraktion von Sprachmerkmalen, wobei die Vorrichtung Folgendes umfasst:eine erste Differenzberechnungseinheit (600, 700, 800) zum Empfangen eines Spektrums für jede einer Mehrzahl von Frequenzgruppen eines Sprachsignals, wobei das Sprachsignal für jede Frequenzgruppe in Rahmen segmentiert ist, und zum Berechnen, für jeden Rahmen jeder Frequenzgruppe, einer Differenz des Spektrums zwischen fortlaufenden Rahmen für die Frequenzgruppe als ein Delta-Spektrum; undeine erste Normierungseinheit (605, 710, 810) zum Ausführen einer Normierung des Delta-Spektrums für jeden Rahmen jeder Frequenzgruppe durch Dividieren des Delta-Spektrums durch eine Funktion des mittleren Spektrums, welches durch einen Mittelwert von Spektren über alle Sprache darstellenden Rahmen gegeben ist.
Abstract:
Bereitgestellt werden ein durch einen Computer realisiertes Verfahren und eine Vorrichtung. Das Verfahren beinhaltet ein Erhalten eines Frequenzspektrums von Audiosignaldaten durch einen Prozessor. Das Verfahren beinhaltet des Weiteren ein Extrahieren von periodischen Anzeichen aus dem Frequenzspektrum durch den Prozessor. Das Verfahren beinhaltet außerdem ein Eingeben der periodischen Anzeichen und Komponenten des Frequenzspektrums in ein neuronales Netz durch den Prozessor. Das Verfahren beinhaltet zusätzlich ein Schätzen von Klangidentifizierungsinformationen aus dem neuronalen Netz durch den Prozessor.
Abstract:
Eine Technik zum Extrahieren von Merkmalen, die in Bezug auf Störsignale, Mehrfachreflexion und dergleichen robuster sind, wird bereitgestellt. Eine Vorrichtung zur Extraktion von Sprachmerkmalen enthält Differenzberechnungsmittel zum Empfangen eines Spektrums eines Sprachsignals, das in Rahmen segmentiert ist, als eine Eingabe, und zum Berechnen einer Differenz des Spektrums zwischen fortlaufenden Rahmen (eine Differenz in dem linearen Bereich) für jeden Rahmen als ein Delta-Spektrum und Normierungsmittel zum Ausführen einer Normierung des Delta-Spektrums für den Rahmen durch Dividieren des Delta-Spektrums durch eine Funktion eines mittleren Spektrums. Eine Ausgabe der Normierungsmittel ist als ein Delta-Merkmal definiert.
Abstract:
This invention provides a technique for extracting, from audio signals, features that are stronger due to noises and/or reverberations. An audio feature extracting apparatus comprises: difference calculating means operative to receive the spectra of framed audio signals to calculate, as a delta spectrum, the difference in spectrum between each frame and each of the respective preceding and following frames (the difference in linear region); and normalizing means operative to divide the delta spectrum by an average-spectrum function, thereby normalizing the delta spectrum for each frame. The outputs of the normalizing means are used as delta features.
Abstract:
Problem Eine Aufgabe der vorliegenden Erfindung besteht darin, eine neuartige Technik zur Rauschminderung auf der Grundlage von Modellen für die Spracherkennung bereitzustellen. Problemlösungsmittel Die vorliegende Erfindung erzeugt in einer Rauschkompensation auf der Grundlage von Modellen ein Wahrscheinlichkeitsmodell, das als Produkt der Wahrscheinlichkeitsverteilung eines Diskrepanzvektors g (bzw. der reinen Sprache x) dargestellt ist, wobei der beobachtete Wert y als Faktor und die Wahrscheinlichkeitsverteilung des Diskrepanzvektors g (bzw. der reinen Sprache x) mit dem Konfidenzindex &bgr; für jedes Band als Faktor auftreten, führt eine MMSE-Schätzung am Wahrscheinlichkeitsmodell durch und schätzt einen Schätzwert reiner Sprache x^. Demzufolge beeinflusst jedes Band das Ergebnis der MMSE-Schätzung, wobei das Ausmaß des Beitrags mit seinem Konfidenzniveau übereinstimmt. Ferner gilt, dass der Ausgabewert umso mehr zum beobachteten Wert hin verschoben wird, je höher das Signal/Rausch-Verhältnis der beobachteten Sprache ist. Demzufolge wird die Front-End-Ausgabe optimiert.
Abstract:
An objective of the present invention is to provide a new technique of noise alleviation of a model base in voice recognition. In noise correction of a model base, the present invention generates a probability model which is represented as the product of the probability distribution of a mismatch vector (g) (or a clean voice (x)) with an observed value (y) as a factor and a probability distribution of a mismatch vector (g) (or a clean voice (x)) with a reliability index (β) for each band as a factor, executes MMSE estimation on the probability model, and estimates a clean voice estimate value (x^). As a result, each band has an effect on the result of the MMSE estimate with a degree of contribution corresponding to the size of the reliability thereof. Furthermore, as the SNR of the observed voice increases, the output value thereof shifts toward the observed value, and as a result, the output of the front end is optimized.
Abstract:
A speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program. A speech feature extraction apparatus includes: first difference calculation module to: (i) receive, as an input, a spectrum of a speech signal segmented into frames for each frequency bin; and (ii) calculate a delta spectrum for each of the frame, where the delta spectrum is a difference of the spectrum within continuous frames for the frequency bin; and first normalization module to normalize the delta spectrum of the frame for the frequency bin by dividing the delta spectrum by a function of an average spectrum; where the average spectrum is an average of spectra through all frames that are overall speech for the frequency bin; and where an output of the first normalization module is defined as a first delta feature.
Abstract:
PROBLEM TO BE SOLVED: To provide a technique for extracting features even more robust to reverberations, noises, and the like from a speech signal.SOLUTION: A speech feature extraction apparatus is configured to: receive, as an input, values obtained by adding a spectrum of each frame of a speech signal segmented into frames to an average spectrum that is the average of spectra over all frames that are overall speech; and, for each frame, multiply said values by weights of a mel filter bank to sum up the products, apply the discrete cosine transform to the logarithm of the sum, and calculate, and define as a delta feature, the difference in the discrete cosine transform between former and later frames.