3차원 기하정보를 이용한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
    11.
    发明公开
    3차원 기하정보를 이용한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 有权
    语音识别系统和使用3D几何信息的方法

    公开(公告)号:KR1020140100743A

    公开(公告)日:2014-08-18

    申请号:KR1020130013854

    申请日:2013-02-07

    CPC classification number: G10L15/063 G10L15/24

    Abstract: The present invention relates to a method and a system for recognizing a voice using three-dimensional geometry information. The voice recognition system comprises a learning module and a recognizing module. The learning module generates a recognition unit using three-dimensional geometry information for study and three-dimensional features for study extracted from the information. The recognizing module applies the three-dimensional geometry information acquired from a physical target related or belonged to a voice or three-dimensional features extracted from the geometry information to the recognition unit, and conducts voice recognition. The method and the system for recognizing a voice according to the present invention, recognizes a voice using three-dimensional geometry information on lips, a part around the lips, or one or more arbitrary regions of a human body in speech. Also, final voice recognition is conducted by combining two-dimensional features and sound features, and three-dimensional features and sound features in speech, and by combining recognition result of the two-dimensional features or sound features, or recognition result of the three-dimensional geometry information or three-dimensional features in speech. Therefore, the accuracy of voice recognition is improved.

    Abstract translation: 本发明涉及使用三维几何信息识别语音的方法和系统。 语音识别系统包括学习模块和识别模块。 学习模块使用三维几何信息生成识别单元,用于学习和从信息中提取的三维特征。 识别模块将从与几何信息提取的语音或三维特征相关或属于的物理目标获取的三维几何信息应用于识别单元,并进行语音识别。 根据本发明的用于识别语音的方法和系统使用在嘴唇上的三维几何信息,嘴唇周围的一部分或人体的一个或多个任意区域来识别声音。 此外,通过组合二维特征和声音特征,语音中的三维特征和声音特征,以及通过组合二维特征或声音特征的识别结果或三维特征或声音特征的识别结果来进行最终语音识别, 立体几何信息或言语中的三维特征。 因此,提高了语音识别的准确性。

    신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법
    12.
    发明授权
    신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법 有权
    基于时间延迟和信号衰减的估计,混响环境中的盲源分离方法

    公开(公告)号:KR101243897B1

    公开(公告)日:2013-03-20

    申请号:KR1020110061697

    申请日:2011-06-24

    Abstract: 본 발명에 따르는 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법은, 본 발명의 암묵 음원 분리 방법은, 둘 이상의 마이크로부터의 혼합신호들을 입력받는 단계; 상기 혼합신호들을 STFT(Short Time Fourier Transform)하여 시간-주파수 영역의 혼합신호들로 변환하는 단계; STFT된 혼합신호들에 대해, 주파수별 감쇄 및 시간 지연 값에 대한 초기화를 수행하고, 초기화된 주파수별 감쇄 및 시간 지연 값이 수렴되도록 학습시키고, 학습된 주파수별 감쇄 및 시간 지연 값을 토대로 주파수별 이진 마스크를 생성하고, 상기 주파수별 이진 마스크를 이용하여 주파수별로 신호를 분리하고, 상기 주파수별로 분리된 신호들에 대해 상관 계수를 구하여 주파수별로 분리된 신호들에 대한 순서를 맞추는 단계; 상기 순서가 맞춰진 신호들을 ISTFT(Inverse Short Time Fourier Transform)하여 시간 영역의 음원 신호들로 복원하는 단계;를 구비한다.

    DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치 및 방법
    13.
    发明授权
    DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치 및 방법 有权
    使用DCICA执行基于DNN的特征增强的语音识别设备和方法

    公开(公告)号:KR101720514B1

    公开(公告)日:2017-04-11

    申请号:KR1020160023335

    申请日:2016-02-26

    Abstract: 본발명에따르는 DCICA를이용한 DNN 기반특징향상을수행하는음성인식장치는, 다수의마이크로부터입력되는마이크입력신호들을각각입력받아 STFT(Short-Time Fourier Transform) 처리하는다수의 STFT; 상기다수의 STFT 처리부가출력하는 STFT 처리된마이크입력신호들을입력받아 DCICA 처리를이행하며, 타겟추정신호와잡음추정신호를생성하는 DCICA(Direction of arrival(DOA) Constrained Independent Component Analysis(ICA))부; 상기 STFT 처리된마이크입력신호들중 어느하나인제1마이크입력신호와, 상기 DCICA부가출력하는타겟추정신호와잡음추정신호를입력받아 LMPSC(logarithmic mel-frequency power spectral coefficient) 처리하여스펙트럴형태로변환하여출력하는다수의 LMPSC 처리부; 상기 LMPSC 처리부가출력하는스펙트럴형태로변환되어출력되는제1마이크입력신호와타겟추정신호와잡음추정신호를입력받아특징강화된최종타겟추정신호를생성하는 DNN 기반 FE(DNN-Based Feature Enhancement) 처리부; 및상기최종타겟추정신호를제공받아음성인식을수행하는 ASR(Automatic Speech Recognition) 처리부;로구성됨을특징으로한다. 또한상기방법은, 상기 DCICA부가출력하는잡음추정신호의스케일을가변하는스케일링부; 상기스케일링부가출력하는스케일링된잡음추정신호를입력받아 LMPSC 처리하여스펙트럴형태로변환하여출력하는 LMPSC; 및상기 LMPSC가출력하는스펙트럴형태로변환된스케일링된잡음추정신호와상기 DCICA가출력하는타겟추정신호를입력받아 HMM(hidden markov model) 기반 FE 처리하여특징강화된타켓추정신호를생성하여상기 DNN 기반 FE 처리부로제공하는 HMM 기반 FE 처리부;를더 구비하며, 상기 DNN 기반 FE 처리부는상기제1마이크입력신호와상기특징강화된타켓추정신호와상기잡음추정신호를입력받아특징강화된최종타겟신호를생성하며, 상기 DNN 기반 FE 처리부로입력되는상기제1마이크입력신호와상기특징강화된타켓추정신호와상기잡음추정신호는스펙트럴형태임을특징으로한다.

    Abstract translation: 用于使用DCICA根据本发明,多个STFT来接收和处理来自多个微STFT的麦克风输入信号的输入的每个类型(短时傅立叶变换)执行基于DNN特征增强语音识别装置; 和实施DCICA过程接收STFT经处理的麦克风输入信号向所述多个STFT处理单元输出,该目标估计信号和DCICA的(到达方向(DOA)约束独立成分分析(ICA)),用于产生噪声估计信号部分 。 该STFT并将处理后的麦克风输入信号中的任何一个摄取一个麦克风输入信号,接收目标估计信号和所述噪声估计信号到DCICA相加后的输出通过处理(对数梅尔频率功率频谱系数)LMPSC转换为频谱形状 输出LMPSC的多个LMPSC处理单元; 第一麦克风输入信号和目标估计信号和基于DNN FE(基于DNN特征增强)接收所述噪声估计信号,以产生增强的特征是输出的最终目标估计信号被转换成LMPSC处理单元输出的频谱形状 处理器; 以及ASR(自动语音识别)处理器,用于通过接收最终目标估计信号来执行语音识别。 该方法还可以包括:缩放单元,用于改变DCICA输出的噪声估计信号的比例; LMPSC通过治疗LMPSC频谱形状转换接收缩放的噪声估计信号输出到缩放的输出部; 和LMPSC失控力方面缩放的转换成桶形式噪声估计信号和所述通过接收信号HMM(隐马尔可夫模型)估计DCICA失控力目标和对基础FE过程产生增强的目标估计信号采用了DNN到 用于接收第一麦克风输入信号,特征增强的目标估计信号和噪声估计信号以提供最终增强的目标信号, 并且输入到基于DNN的FE处理器的第一麦克风输入信号,特征增强的目标估计信号和噪声估计信号处于频谱形式。

    3차원 기하정보를 이용한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
    14.
    发明授权
    3차원 기하정보를 이용한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 有权
    使用3D几何信息的语音识别系统和方法

    公开(公告)号:KR101442211B1

    公开(公告)日:2014-10-16

    申请号:KR1020130013854

    申请日:2013-02-07

    CPC classification number: G10L15/063 G10L15/24

    Abstract: 본 발명은 3차원 기하정보를 이용하여 음성 인식하는 방법 및 시스템에 관한 것이다. 상기 음성 인식 시스템은 학습 모듈 및 인식 모듈을 구비하여, 학습 모듈은 학습용 3차원 기하정보 또는 이들로부터 추출된 학습용 3차원 특징을 이용하여 인식기를 생성한다. 상기 인식 모듈은 음성에 연관되거나 종속된 물리적 대상로부터 획득한 3차원 기하정보 또는 이로부터 추출된 3차원 특징을 상기 인식기에 적용하여 음성 인식하는 것을 특징으로 한다.
    본 발명에 따른 음성 인식 시스템 및 방법은 발화시의 입술 및 주변, 또는 인체의 임의의 하나 이상의 영역에 대한 3차원 기하정보를 이용하여 음성 인식하는 것을 특징으로 하며, 더 나아가 발화시의 2차원 특징 또는 음향 특징과 3차원 기하정보 또는 3차원 특징을 결합하여 음성 인식하거나, 발화시의 2차원 특징 또는 음향 특징에 의한 인식 결과와 3차원 기하정보 또는 3차원 특징에 의한 인식 결과를 결합하여 최종적으로 음성 인식함으로써 음성 인식의 정확도를 향상시키는 것을 특징으로 한다.

    음성 인식 장치 및 음성 인식 방법
    15.
    发明授权
    음성 인식 장치 및 음성 인식 방법 有权
    语音识别装置和语音识别方法

    公开(公告)号:KR101353936B1

    公开(公告)日:2014-01-27

    申请号:KR1020120030718

    申请日:2012-03-26

    Abstract: 음성 인식 장치가 개시된다. 본 음성 인식 장치는, 사용자를 촬상한 복수의 이미지 및 음원을 입력받는 입력부, 복수의 이미지 각각에서 사용자의 입술 영역을 검출하는 검출부, 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성하는 돌출맵 생성부, 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득하는 정보 취득부. 취득된 움직임 정보를 기초로 입력된 음원에 대한 음성 인식을 수행하는 음성 인식부, 및, 음성 인식의 결과를 출력하는 출력부를 포함한다.

    하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
    16.
    发明公开
    하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 有权
    基于使用谐波频率依赖的独立矢量分析的鲁棒语音识别方法和使用该方法的系统

    公开(公告)号:KR1020130125014A

    公开(公告)日:2013-11-18

    申请号:KR1020120048380

    申请日:2012-05-08

    CPC classification number: G10L15/20 G10L15/02 G10L19/0017 G10L19/26 G10L21/02

    Abstract: A robust speech recognition system according to the present invention improves a sound source by using an MPDR beamformer in a pre-processing process, applies an HIVA learning algorithm to the composed signals of the improved sound source signals and noise signals, and extracts a feature vector of the sound source signals. The speech recognition system applies a non-holonomic constraint and a minimal distortion principle when performing the HIVA learning algorithm to minimize signal distortion and improve convergence of a non-mixing matrix. In addition, the speech recognition system checks for missing features in the learning process by using an improved sound source and a noise sound source and compensates for the same. By the aforementioned features, the robust speech recognition system provides a system resistant to noise on the basis of an independent vector analysis algorithm using harmonic frequency dependency. [Reference numerals] (200) Signal input unit;(210) Signal converting unit;(220) Pre-processing unit;(230) Sound source extracting unit;(246) Mask generating unit;(248) Loss property compensation output unit;(250) DCT converting unit;(260) Voice recognition unit;(AA,BB) Log unit

    Abstract translation: 根据本发明的鲁棒语音识别系统通过在预处理过程中使用MPDR波束形成器改进声源,对改进的声源信号和噪声信号的合成信号应用HIVA学习算法,并提取特征向量 的声源信号。 当执行HIVA学习算法时,语音识别系统应用非完整约束和最小失真原理,以最小化信号失真并改善非混合矩阵的收敛。 此外,语音识别系统通过使用改进的声源和噪声声源来检查学习过程中的缺失特征并对其进行补偿。 通过上述特征,鲁棒的语音识别系统在使用谐波频率依赖性的独立矢量分析算法的基础上提供了抗噪声系统。 (200)信号输入单元(210)信号转换单元;(220)预处理单元;(230)声源提取单元;(246)掩码生成单元;(248)损失特性补偿输出单元; (250)DCT转换单元;(260)语音识别单元;(AA,BB)对数单元

    음성 인식 장치 및 음성 인식 방법
    17.
    发明公开
    음성 인식 장치 및 음성 인식 방법 有权
    语音识别装置和语音识别方法

    公开(公告)号:KR1020130108894A

    公开(公告)日:2013-10-07

    申请号:KR1020120030718

    申请日:2012-03-26

    CPC classification number: G10L15/25 G06K9/00228

    Abstract: PURPOSE: A device and method for recognizing a voice are provided to easily recognize the voice with accurately identifying a juncture in which a speaker speaks. CONSTITUTION: A device for recognizing a voice includes an input part (110), a detecting part (150), a saliency map generating part (160), an information obtaining part (170), a voice recognizing part (180), and an output part (120). The input part is inputted with multiple photographed images and sound sources, and a user is included in the photographed images. The detecting part detects the lip regions of a user from the respective images. The saliency map generating part generates dynamic saliency maps for the lip regions. The information obtaining part obtains motion information for a lip using the dynamic saliency maps. The voice recognizing part recognizes a voice for the sound sources based on the motion information for the lip. The output part outputs a result from recognizing the voice. [Reference numerals] (110) Input part; (120) Extracting unit; (130) Storage unit; (140) Location determination unit; (160) Saliency map generating part; (170) Information obtaining part; (180) Voice recognizing part; (190) Control unit; (200) Face detecting unit; (300) Lips detecting unit

    Abstract translation: 目的:提供用于识别语音的装置和方法,以容易地识别语音,准确地识别说话者所说的交点。 构成:用于识别语音的装置包括输入部分(110),检测部分(150),显着图生成部分(160),信息获取部分(170),语音识别部分(180)和 输出部分(120)。 输入部分输入多个拍摄的图像和声源,并且用户被包括在拍摄的图像中。 检测部件从各图像检测用户的唇部区域。 显着性图生成部分产生唇区的动态显着图。 信息获取部分使用动态显着图获得唇的运动信息。 语音识别部分基于唇部的运动信息来识别声源的声音。 输出部分输出识别声音的结果。 (附图标记)(110)输入部; (120)提取单元; (130)存储单元; (140)位置确定单元; (160)显着图生成部分; (170)信息获取部分; (180)语音识别部分; (190)控制单元; (200)面部检测单元; (300)嘴唇检测单元

Patent Agency Ranking