NEURONALNETZWERKBASIERTE ZEIT-FREQUENZMASKENSCHÄTZUNG UND STRAHLFORMUNG ZUR SPRACHVORVERARBEITUNG

    公开(公告)号:DE102019110272A1

    公开(公告)日:2019-11-21

    申请号:DE102019110272

    申请日:2019-04-18

    Applicant: INTEL CORP

    Abstract: Es werden Techniken zur Vorverarbeitungsverbesserung eines Sprachsignals bereitgestellt. Eine Methodik, die die Techniken gemäß einer Ausführungsform implementiert, beinhaltet Durchführen einer Enthallungsverarbeitung an Signalen, die von einem Array von Mikrofonen empfangen werden, wobei die Signale Sprache und Rauschen umfassen. Das Verfahren beinhaltet auch Erzeugen von Zeit-Frequenz-Masken (TFMs) für jedes der Signale. Die TFMs geben die Wahrscheinlichkeit an, dass eine Zeit-Frequenz-Komponente des mit diesem TFM-Element assoziierten Signals Sprache enthält. Die TFM-Erzeugung basiert auf einer Anwendung eines rekurrenten Neuronalnetzwerks an den Signalen. Das Verfahren beinhaltet ferner Erzeugen von Lenkvektoren basierend auf Sprachkovarianzmatrizen und Rauschkovarianzmatrizen. Die TFMs werden eingesetzt, um Sprachkomponenten der Signale zur Berechnung der Sprachkovarianz zu filtern und Rauschkomponenten der Signale zur Berechnung der Rauschkovarianz zu filtern. Das Verfahren beinhaltet ferner Durchführen einer Strahlformung an den Signalen basierend auf den Lenkvektoren, um das verbesserte Sprachsignal zu erzeugen.

    Ultraschallangriffsdetektion unter Verwendung von tiefem Lernen

    公开(公告)号:DE102019218259A1

    公开(公告)日:2020-07-02

    申请号:DE102019218259

    申请日:2019-11-26

    Applicant: INTEL CORP

    Abstract: Ein Mechanismus, ein Verfahren und ein computerlesbares Medium zum Verbessern von sprachfähigen Vorrichtungen. Das Verfahren umfasst ein Empfangen eines Audiostroms aus einem oder mehreren Mikrofonen und eines Segmentierungssignals aus einem Schlüsselwortdetektor, das einen Ort eines detektierten Schlüsselworts innerhalb des Audiostroms angibt, durch einen Ultraschallangriffsdetektor einer sprachfähigen Vorrichtung, ein Vorverarbeiten eines segmentierten Abschnitts des Audiostroms, der das detektierte Schlüsselwort enthält, durch den Ultraschallangriffsdetektor, um ein Spektrogramm zu erhalten, und ein Ausführen eines Klassifizierers mit neuronalem Netz durch den Ultraschallangriffsdetektor unter Verwendung des Spektrogramms als Eingabe, wobei der Klassifizierer mit neuronalem Netz echte menschliche Sprache von Intermodulationsverzerrungsprodukten, die aus Ultraschallangriffen auf die sprachfähige Vorrichtung resultieren, unterscheidet.

    Detektion eines akustischen Ereignisses basierend auf der Modellierung einer Sequenz von Ereignisunterabschnitten

    公开(公告)号:DE102018127773A1

    公开(公告)日:2019-06-13

    申请号:DE102018127773

    申请日:2018-11-07

    Applicant: INTEL CORP

    Abstract: Es werden Techniken zur Detektion eines akustischen Ereignisses bereitgestellt. Eine Methodik, die die Techniken gemäß einer Ausführungsform implementiert, beinhaltet Extrahieren von akustischen Merkmalen aus einem empfangenen Audiosignal. Die akustischen Merkmale können zum Beispiel ein oder mehrere Kurzzeit-Fourier-Transformation-Frames oder andere Spektralenergiecharakteristiken des Audiosignals beinhalten. Das Verfahren beinhaltet außerdem Anwenden eines trainierten Klassifizierers bei den extrahierten akustischen Merkmalen, um akustische Ereignisunterabschnitte des Audiosignals zu identifizieren und zu bezeichnen und Bewertungen, die mit den Unterabschnitten assoziiert sind, zu erzeugen. Das Verfahren beinhaltet ferner Durchführen einer Sequenzdecodierung der akustischen Ereignisunterabschnitte und assoziierten Bewertungen, um akustische Zielereignisse von Interesse basierend auf den Bewertungen und der zeitlichen Ordnungssequenz der Ereignisunterabschnitte zu detektieren. Der Klassifizierer wird an akustischen Ereignisunterabschnitten trainiert, die durch nicht überwachte Subspace-Clustering-Techniken erzeugt werden, die bei Trainingsdaten angewendet werden, die akustische Zielereignisse beinhalten.

Patent Agency Ranking