Verfahren und Vorrichtung zur Klangidentifizierung anhand periodischer Anzeichen

    公开(公告)号:DE112017006049B4

    公开(公告)日:2022-06-30

    申请号:DE112017006049

    申请日:2017-12-15

    Applicant: IBM

    Abstract: Durch einen Computer realisiertes Verfahren, aufweisend:ein Erhalten (S110) eines Frequenzspektrums von Audiosignaldaten durch einen Prozessor;ein Extrahieren (S150) von periodischen Anzeichen aus dem Frequenzspektrum durch den Prozessor;ein Eingeben der periodischen Anzeichen und Komponenten des Frequenzspektrums in ein neuronales Netz durch den Prozessor;ein Schätzen (S210) von Klangidentifizierungsinformationen aus dem neuronalen Netz durch den Prozessor,wobei das neuronale Netz ein faltendes neuronales Netz oder ein tiefes neuronales Netz ist,wobei das Eingeben in das neuronale Netz ein Eingeben der periodischen Anzeichen in eine zweite Schicht oder eine darauffolgende Schicht des neuronalen Netzes beinhaltet.

    Vorrichtung zur Extraktion von Sprachmerkmalen, Verfahren zur Extraktion von Sprachmerkmalen und Programm zur Extraktion von Sprachmerkmalen

    公开(公告)号:DE112010003461B4

    公开(公告)日:2019-09-05

    申请号:DE112010003461

    申请日:2010-07-12

    Applicant: IBM

    Abstract: Vorrichtung zur Extraktion von Sprachmerkmalen, wobei die Vorrichtung Folgendes umfasst:eine erste Differenzberechnungseinheit (600, 700, 800) zum Empfangen eines Spektrums für jede einer Mehrzahl von Frequenzgruppen eines Sprachsignals, wobei das Sprachsignal für jede Frequenzgruppe in Rahmen segmentiert ist, und zum Berechnen, für jeden Rahmen jeder Frequenzgruppe, einer Differenz des Spektrums zwischen fortlaufenden Rahmen für die Frequenzgruppe als ein Delta-Spektrum; undeine erste Normierungseinheit (605, 710, 810) zum Ausführen einer Normierung des Delta-Spektrums für jeden Rahmen jeder Frequenzgruppe durch Dividieren des Delta-Spektrums durch eine Funktion des mittleren Spektrums, welches durch einen Mittelwert von Spektren über alle Sprache darstellenden Rahmen gegeben ist.

    Klangidentifizierung anhand periodischer Anzeichen

    公开(公告)号:DE112017006049T5

    公开(公告)日:2019-09-12

    申请号:DE112017006049

    申请日:2017-12-15

    Applicant: IBM

    Abstract: Bereitgestellt werden ein durch einen Computer realisiertes Verfahren und eine Vorrichtung. Das Verfahren beinhaltet ein Erhalten eines Frequenzspektrums von Audiosignaldaten durch einen Prozessor. Das Verfahren beinhaltet des Weiteren ein Extrahieren von periodischen Anzeichen aus dem Frequenzspektrum durch den Prozessor. Das Verfahren beinhaltet außerdem ein Eingeben der periodischen Anzeichen und Komponenten des Frequenzspektrums in ein neuronales Netz durch den Prozessor. Das Verfahren beinhaltet zusätzlich ein Schätzen von Klangidentifizierungsinformationen aus dem neuronalen Netz durch den Prozessor.

    VORRICHTUNG ZUR EXTRAKTION VON SPRACHMERKMALEN,VERFAHREN ZUR EXTRAKTION VON SPRACHMERKMALEN UND PROGRAMM ZUREXTRAKTION VON SPRACHMERKMALEN

    公开(公告)号:DE112010003461T5

    公开(公告)日:2012-07-26

    申请号:DE112010003461

    申请日:2010-07-12

    Applicant: IBM

    Abstract: Eine Technik zum Extrahieren von Merkmalen, die in Bezug auf Störsignale, Mehrfachreflexion und dergleichen robuster sind, wird bereitgestellt. Eine Vorrichtung zur Extraktion von Sprachmerkmalen enthält Differenzberechnungsmittel zum Empfangen eines Spektrums eines Sprachsignals, das in Rahmen segmentiert ist, als eine Eingabe, und zum Berechnen einer Differenz des Spektrums zwischen fortlaufenden Rahmen (eine Differenz in dem linearen Bereich) für jeden Rahmen als ein Delta-Spektrum und Normierungsmittel zum Ausführen einer Normierung des Delta-Spektrums für den Rahmen durch Dividieren des Delta-Spektrums durch eine Funktion eines mittleren Spektrums. Eine Ausgabe der Normierungsmittel ist als ein Delta-Merkmal definiert.

    AUDIO FEATURE EXTRACTING APPARATUS, AUDIO FEATURE EXTRACTING METHOD, AND AUDIO FEATURE EXTRACTING PROGRAM

    公开(公告)号:GB2485926A

    公开(公告)日:2012-05-30

    申请号:GB201202741

    申请日:2010-07-12

    Applicant: IBM

    Abstract: This invention provides a technique for extracting, from audio signals, features that are stronger due to noises and/or reverberations. An audio feature extracting apparatus comprises: difference calculating means operative to receive the spectra of framed audio signals to calculate, as a delta spectrum, the difference in spectrum between each frame and each of the respective preceding and following frames (the difference in linear region); and normalizing means operative to divide the delta spectrum by an average-spectrum function, thereby normalizing the delta spectrum for each frame. The outputs of the normalizing means are used as delta features.

    Rauschminderungsverfahren, Programmprodukt und Vorrichtung

    公开(公告)号:DE112013000942T5

    公开(公告)日:2014-12-24

    申请号:DE112013000942

    申请日:2013-02-08

    Applicant: IBM

    Abstract: Problem Eine Aufgabe der vorliegenden Erfindung besteht darin, eine neuartige Technik zur Rauschminderung auf der Grundlage von Modellen für die Spracherkennung bereitzustellen. Problemlösungsmittel Die vorliegende Erfindung erzeugt in einer Rauschkompensation auf der Grundlage von Modellen ein Wahrscheinlichkeitsmodell, das als Produkt der Wahrscheinlichkeitsverteilung eines Diskrepanzvektors g (bzw. der reinen Sprache x) dargestellt ist, wobei der beobachtete Wert y als Faktor und die Wahrscheinlichkeitsverteilung des Diskrepanzvektors g (bzw. der reinen Sprache x) mit dem Konfidenzindex &bgr; für jedes Band als Faktor auftreten, führt eine MMSE-Schätzung am Wahrscheinlichkeitsmodell durch und schätzt einen Schätzwert reiner Sprache x^. Demzufolge beeinflusst jedes Band das Ergebnis der MMSE-Schätzung, wobei das Ausmaß des Beitrags mit seinem Konfidenzniveau übereinstimmt. Ferner gilt, dass der Ausgabewert umso mehr zum beobachteten Wert hin verschoben wird, je höher das Signal/Rausch-Verhältnis der beobachteten Sprache ist. Demzufolge wird die Front-End-Ausgabe optimiert.

    Noise alleviation method, program, and device

    公开(公告)号:GB2513812A

    公开(公告)日:2014-11-05

    申请号:GB201415522

    申请日:2013-02-08

    Applicant: IBM

    Abstract: An objective of the present invention is to provide a new technique of noise alleviation of a model base in voice recognition. In noise correction of a model base, the present invention generates a probability model which is represented as the product of the probability distribution of a mismatch vector (g) (or a clean voice (x)) with an observed value (y) as a factor and a probability distribution of a mismatch vector (g) (or a clean voice (x)) with a reliability index (β) for each band as a factor, executes MMSE estimation on the probability model, and estimates a clean voice estimate value (x^). As a result, each band has an effect on the result of the MMSE estimate with a degree of contribution corresponding to the size of the reliability thereof. Furthermore, as the SNR of the observed voice increases, the output value thereof shifts toward the observed value, and as a result, the output of the front end is optimized.

    SPEECH FEATURE EXTRACTING APPARATUS, SPEECH FEATURE EXTRACTING METHOD, AND SPEECH FEATURE EXTRACTING PROGRAM

    公开(公告)号:GB2485926B

    公开(公告)日:2013-06-05

    申请号:GB201202741

    申请日:2010-07-12

    Applicant: IBM

    Abstract: A speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program. A speech feature extraction apparatus includes: first difference calculation module to: (i) receive, as an input, a spectrum of a speech signal segmented into frames for each frequency bin; and (ii) calculate a delta spectrum for each of the frame, where the delta spectrum is a difference of the spectrum within continuous frames for the frequency bin; and first normalization module to normalize the delta spectrum of the frame for the frequency bin by dividing the delta spectrum by a function of an average spectrum; where the average spectrum is an average of spectra through all frames that are overall speech for the frequency bin; and where an output of the first normalization module is defined as a first delta feature.

    Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program
    10.
    发明专利
    Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program 有权
    语音特征提取装置,语音提取方法和语音特征提取程序(SPEECH FEATURE EXTRACTION PROGRAM

    公开(公告)号:JP2013178575A

    公开(公告)日:2013-09-09

    申请号:JP2013109608

    申请日:2013-05-24

    CPC classification number: G10L15/02 G10L15/20 G10L25/24

    Abstract: PROBLEM TO BE SOLVED: To provide a technique for extracting features even more robust to reverberations, noises, and the like from a speech signal.SOLUTION: A speech feature extraction apparatus is configured to: receive, as an input, values obtained by adding a spectrum of each frame of a speech signal segmented into frames to an average spectrum that is the average of spectra over all frames that are overall speech; and, for each frame, multiply said values by weights of a mel filter bank to sum up the products, apply the discrete cosine transform to the logarithm of the sum, and calculate, and define as a delta feature, the difference in the discrete cosine transform between former and later frames.

    Abstract translation: 要解决的问题:提供一种用于从语音信号中提取对于混响,噪声等更加鲁棒的特征的技术。解决方案:语音特征提取装置被配置为:作为输入接收通过添加 将分割成帧的语音信号的每个帧的频谱分解为平均频谱,该平均频谱是作为整个语音的所有帧的频谱的平均值; 并且,对于每个帧,将所述值乘以呃滤波器组的权重以对产物进行求和,将离散余弦变换应用于和的对数,并计算并定义为离散余弦差的Δ特征 在前后帧之间进行转换。

Patent Agency Ranking