하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
    31.
    发明公开
    하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 有权
    基于使用谐波频率依赖的独立矢量分析的鲁棒语音识别方法和使用该方法的系统

    公开(公告)号:KR1020130125014A

    公开(公告)日:2013-11-18

    申请号:KR1020120048380

    申请日:2012-05-08

    CPC classification number: G10L15/20 G10L15/02 G10L19/0017 G10L19/26 G10L21/02

    Abstract: A robust speech recognition system according to the present invention improves a sound source by using an MPDR beamformer in a pre-processing process, applies an HIVA learning algorithm to the composed signals of the improved sound source signals and noise signals, and extracts a feature vector of the sound source signals. The speech recognition system applies a non-holonomic constraint and a minimal distortion principle when performing the HIVA learning algorithm to minimize signal distortion and improve convergence of a non-mixing matrix. In addition, the speech recognition system checks for missing features in the learning process by using an improved sound source and a noise sound source and compensates for the same. By the aforementioned features, the robust speech recognition system provides a system resistant to noise on the basis of an independent vector analysis algorithm using harmonic frequency dependency. [Reference numerals] (200) Signal input unit;(210) Signal converting unit;(220) Pre-processing unit;(230) Sound source extracting unit;(246) Mask generating unit;(248) Loss property compensation output unit;(250) DCT converting unit;(260) Voice recognition unit;(AA,BB) Log unit

    Abstract translation: 根据本发明的鲁棒语音识别系统通过在预处理过程中使用MPDR波束形成器改进声源,对改进的声源信号和噪声信号的合成信号应用HIVA学习算法,并提取特征向量 的声源信号。 当执行HIVA学习算法时,语音识别系统应用非完整约束和最小失真原理,以最小化信号失真并改善非混合矩阵的收敛。 此外,语音识别系统通过使用改进的声源和噪声声源来检查学习过程中的缺失特征并对其进行补偿。 通过上述特征,鲁棒的语音识别系统在使用谐波频率依赖性的独立矢量分析算法的基础上提供了抗噪声系统。 (200)信号输入单元(210)信号转换单元;(220)预处理单元;(230)声源提取单元;(246)掩码生成单元;(248)损失特性补偿输出单元; (250)DCT转换单元;(260)语音识别单元;(AA,BB)对数单元

    음성 인식 장치 및 음성 인식 방법
    32.
    发明公开
    음성 인식 장치 및 음성 인식 방법 有权
    语音识别装置和语音识别方法

    公开(公告)号:KR1020130108894A

    公开(公告)日:2013-10-07

    申请号:KR1020120030718

    申请日:2012-03-26

    CPC classification number: G10L15/25 G06K9/00228

    Abstract: PURPOSE: A device and method for recognizing a voice are provided to easily recognize the voice with accurately identifying a juncture in which a speaker speaks. CONSTITUTION: A device for recognizing a voice includes an input part (110), a detecting part (150), a saliency map generating part (160), an information obtaining part (170), a voice recognizing part (180), and an output part (120). The input part is inputted with multiple photographed images and sound sources, and a user is included in the photographed images. The detecting part detects the lip regions of a user from the respective images. The saliency map generating part generates dynamic saliency maps for the lip regions. The information obtaining part obtains motion information for a lip using the dynamic saliency maps. The voice recognizing part recognizes a voice for the sound sources based on the motion information for the lip. The output part outputs a result from recognizing the voice. [Reference numerals] (110) Input part; (120) Extracting unit; (130) Storage unit; (140) Location determination unit; (160) Saliency map generating part; (170) Information obtaining part; (180) Voice recognizing part; (190) Control unit; (200) Face detecting unit; (300) Lips detecting unit

    Abstract translation: 目的:提供用于识别语音的装置和方法,以容易地识别语音,准确地识别说话者所说的交点。 构成:用于识别语音的装置包括输入部分(110),检测部分(150),显着图生成部分(160),信息获取部分(170),语音识别部分(180)和 输出部分(120)。 输入部分输入多个拍摄的图像和声源,并且用户被包括在拍摄的图像中。 检测部件从各图像检测用户的唇部区域。 显着性图生成部分产生唇区的动态显着图。 信息获取部分使用动态显着图获得唇的运动信息。 语音识别部分基于唇部的运动信息来识别声源的声音。 输出部分输出识别声音的结果。 (附图标记)(110)输入部; (120)提取单元; (130)存储单元; (140)位置确定单元; (160)显着图生成部分; (170)信息获取部分; (180)语音识别部分; (190)控制单元; (200)面部检测单元; (300)嘴唇检测单元

    피드 포워드 네트워크를 이용하는 독립 벡터 분석에 따른 블라인드 소스 분리 방법 및 장치

    公开(公告)号:KR1020120133038A

    公开(公告)日:2012-12-10

    申请号:KR1020110051512

    申请日:2011-05-30

    Inventor: 박형민 오명우

    Abstract: PURPOSE: A method for separating a blind source according to independent vector analysis by using a feed forward network and a device thereof are provided to resolve a problem according to independency between frequencies without heuristic technology. CONSTITUTION: An ST(Short-Time) Fourier transformer(100) converts mixed signals of a TD(Time-Domain) into mixed signals of an FD(Frequency-Domain). An FF unmixing filter network(104) separates the mixed signals of the FD into source signals. An inverse ST Fourier transformer(105) converts the separated source signals into source signals of the TD. An MPDR beam-former(102) receives the mixed signals of the FD from the ST Fourier transformer. The MPDR beam-former generates predetermined mixed signals of the FD. The MPDR beam-former provides the generated mixed signals of the FD to the FF unmixing filter network. [Reference numerals] (100) ST Fourier transformer; (102) MPDR beamformer; (104) FF unmixing filter network; (105) Reverse ST Fourier transformer

    Abstract translation: 目的:提供一种根据独立向量分析通过使用前馈网络及其设备分离盲源的方法,以便根据频率之间的独立性解决问题,而无需启发式技术。 构成:ST(短时间)傅里叶变换器(100)将TD(时域)的混合信号转换为FD(频域)的混合信号。 FF解混合滤波器网络(104)将FD的混合信号分离成源信号。 逆ST傅立叶变换器(105)将分离的源信号转换成TD的源信号。 MPDR波束成形器(102)从ST傅立叶变换器接收FD的混合信号。 MPDR波束成形器产生FD的预定混合信号。 MPDR波束成形器将所产生的FD混合信号提供给FF解混合滤波器网络。 (参考数字)(100)ST傅立叶变换器; (102)MPDR波束形成器; (104)FF混合滤波网; (105)反向ST傅里叶变换器

    음향 채널 추정에 기반한 음원 위치 탐지 방법
    34.
    发明授权
    음향 채널 추정에 기반한 음원 위치 탐지 방법 有权
    基于声道估计的声源定位方法

    公开(公告)号:KR101021800B1

    公开(公告)日:2011-03-17

    申请号:KR1020090026233

    申请日:2009-03-27

    Inventor: 박형민 조지원

    Abstract: 본 발명은 음향 채널 추정에 기반한 음원 위치 탐지 방법에 관한 것이다. 상기 음향 채널 추정에 기반한 음원 위치 탐지 방법은, (a) 적응 채널 필터를 초기화하는 단계; (b) 각 센서로부터 신호들을 입력받는 단계: (c) 각 센서로부터 입력된 신호들을 이전에 갱신된 적응 채널 필터들을 통과시킨 후, 상기 통과된 신호들 간의 차이에 따른 오류 신호를 검출하는 단계: (d) 상기 오류 신호를 이용하여 음원과 각 센서들 사이의 적응 채널 필터들을 다채널 최소 평균 제곱법에 의해 갱신하는 단계: (e) 갱신된 적응 채널 필터를 실제 채널 필터의 선험적 정보를 이용하여 최종 갱신하는 단계: (f) 적응 채널 필터로부터 직접경로의 시간 지연을 파악하고 센서간 시간 지연 차이로부터 음원 위치를 추정하는 단계: 를 구비하고, 상기 (e)단계에서 적응 채널 필터를 갱신할 때 음향 채널 특성을 적용한다. 상기 음향 채널 특성은 채널 필터 계수들이 '성김(sparsity)' 분포를 갖는 특성을 이용함으로써, 보다 더 정확하게 직접경로의 시간 지연을 추정할 수 있게 된다.
    음원 위치 탐지, 음향 채널, 추정

    클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치
    39.
    发明公开
    클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치 有权
    基于群集丢失特征重构的掩蔽估计方法和设备

    公开(公告)号:KR1020150026634A

    公开(公告)日:2015-03-11

    申请号:KR1020130105728

    申请日:2013-09-03

    Abstract: 본 발명에 따르는 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법은, 관찰신호를 입력받아 관심음원을 검출하는 단계; 상기 관찰신호와 상기 관심음원을 제공받아 주파수별 SIR을 산출하는 단계; 상기 주파수별 SIR를 토대로 주파수마다 상이한 문턱값을 가지는 이진 마스크를 추정하는 단계;를 구비함을 특징으로 한다.

    Abstract translation: 根据本发明,用于基于簇的丢失特征恢复算法的掩模估计方法包括:接收观测信号的输入并检测感兴趣的声源的步骤; 接收观测信号和感兴趣的声源并按频率计算SIR的步骤; 以及基于所述SIR频率来估计针对每个频率具有不同阈值的二进制掩码的步骤。

    3차원 기하정보를 이용한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
    40.
    发明公开
    3차원 기하정보를 이용한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 有权
    语音识别系统和使用3D几何信息的方法

    公开(公告)号:KR1020140100743A

    公开(公告)日:2014-08-18

    申请号:KR1020130013854

    申请日:2013-02-07

    CPC classification number: G10L15/063 G10L15/24

    Abstract: The present invention relates to a method and a system for recognizing a voice using three-dimensional geometry information. The voice recognition system comprises a learning module and a recognizing module. The learning module generates a recognition unit using three-dimensional geometry information for study and three-dimensional features for study extracted from the information. The recognizing module applies the three-dimensional geometry information acquired from a physical target related or belonged to a voice or three-dimensional features extracted from the geometry information to the recognition unit, and conducts voice recognition. The method and the system for recognizing a voice according to the present invention, recognizes a voice using three-dimensional geometry information on lips, a part around the lips, or one or more arbitrary regions of a human body in speech. Also, final voice recognition is conducted by combining two-dimensional features and sound features, and three-dimensional features and sound features in speech, and by combining recognition result of the two-dimensional features or sound features, or recognition result of the three-dimensional geometry information or three-dimensional features in speech. Therefore, the accuracy of voice recognition is improved.

    Abstract translation: 本发明涉及使用三维几何信息识别语音的方法和系统。 语音识别系统包括学习模块和识别模块。 学习模块使用三维几何信息生成识别单元,用于学习和从信息中提取的三维特征。 识别模块将从与几何信息提取的语音或三维特征相关或属于的物理目标获取的三维几何信息应用于识别单元,并进行语音识别。 根据本发明的用于识别语音的方法和系统使用在嘴唇上的三维几何信息,嘴唇周围的一部分或人体的一个或多个任意区域来识别声音。 此外,通过组合二维特征和声音特征,语音中的三维特征和声音特征,以及通过组合二维特征或声音特征的识别结果或三维特征或声音特征的识别结果来进行最终语音识别, 立体几何信息或言语中的三维特征。 因此,提高了语音识别的准确性。

Patent Agency Ranking