DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치 및 방법
    31.
    发明授权
    DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치 및 방법 有权
    使用DCICA执行基于DNN的特征增强的语音识别设备和方法

    公开(公告)号:KR101720514B1

    公开(公告)日:2017-04-11

    申请号:KR1020160023335

    申请日:2016-02-26

    Abstract: 본발명에따르는 DCICA를이용한 DNN 기반특징향상을수행하는음성인식장치는, 다수의마이크로부터입력되는마이크입력신호들을각각입력받아 STFT(Short-Time Fourier Transform) 처리하는다수의 STFT; 상기다수의 STFT 처리부가출력하는 STFT 처리된마이크입력신호들을입력받아 DCICA 처리를이행하며, 타겟추정신호와잡음추정신호를생성하는 DCICA(Direction of arrival(DOA) Constrained Independent Component Analysis(ICA))부; 상기 STFT 처리된마이크입력신호들중 어느하나인제1마이크입력신호와, 상기 DCICA부가출력하는타겟추정신호와잡음추정신호를입력받아 LMPSC(logarithmic mel-frequency power spectral coefficient) 처리하여스펙트럴형태로변환하여출력하는다수의 LMPSC 처리부; 상기 LMPSC 처리부가출력하는스펙트럴형태로변환되어출력되는제1마이크입력신호와타겟추정신호와잡음추정신호를입력받아특징강화된최종타겟추정신호를생성하는 DNN 기반 FE(DNN-Based Feature Enhancement) 처리부; 및상기최종타겟추정신호를제공받아음성인식을수행하는 ASR(Automatic Speech Recognition) 처리부;로구성됨을특징으로한다. 또한상기방법은, 상기 DCICA부가출력하는잡음추정신호의스케일을가변하는스케일링부; 상기스케일링부가출력하는스케일링된잡음추정신호를입력받아 LMPSC 처리하여스펙트럴형태로변환하여출력하는 LMPSC; 및상기 LMPSC가출력하는스펙트럴형태로변환된스케일링된잡음추정신호와상기 DCICA가출력하는타겟추정신호를입력받아 HMM(hidden markov model) 기반 FE 처리하여특징강화된타켓추정신호를생성하여상기 DNN 기반 FE 처리부로제공하는 HMM 기반 FE 처리부;를더 구비하며, 상기 DNN 기반 FE 처리부는상기제1마이크입력신호와상기특징강화된타켓추정신호와상기잡음추정신호를입력받아특징강화된최종타겟신호를생성하며, 상기 DNN 기반 FE 처리부로입력되는상기제1마이크입력신호와상기특징강화된타켓추정신호와상기잡음추정신호는스펙트럴형태임을특징으로한다.

    Abstract translation: 用于使用DCICA根据本发明,多个STFT来接收和处理来自多个微STFT的麦克风输入信号的输入的每个类型(短时傅立叶变换)执行基于DNN特征增强语音识别装置; 和实施DCICA过程接收STFT经处理的麦克风输入信号向所述多个STFT处理单元输出,该目标估计信号和DCICA的(到达方向(DOA)约束独立成分分析(ICA)),用于产生噪声估计信号部分 。 该STFT并将处理后的麦克风输入信号中的任何一个摄取一个麦克风输入信号,接收目标估计信号和所述噪声估计信号到DCICA相加后的输出通过处理(对数梅尔频率功率频谱系数)LMPSC转换为频谱形状 输出LMPSC的多个LMPSC处理单元; 第一麦克风输入信号和目标估计信号和基于DNN FE(基于DNN特征增强)接收所述噪声估计信号,以产生增强的特征是输出的最终目标估计信号被转换成LMPSC处理单元输出的频谱形状 处理器; 以及ASR(自动语音识别)处理器,用于通过接收最终目标估计信号来执行语音识别。 该方法还可以包括:缩放单元,用于改变DCICA输出的噪声估计信号的比例; LMPSC通过治疗LMPSC频谱形状转换接收缩放的噪声估计信号输出到缩放的输出部; 和LMPSC失控力方面缩放的转换成桶形式噪声估计信号和所述通过接收信号HMM(隐马尔可夫模型)估计DCICA失控力目标和对基础FE过程产生增强的目标估计信号采用了DNN到 用于接收第一麦克风输入信号,特征增强的目标估计信号和噪声估计信号以提供最终增强的目标信号, 并且输入到基于DNN的FE处理器的第一麦克风输入信号,特征增强的目标估计信号和噪声估计信号处于频谱形式。

    반향필터 추정방법, 반향제거필터 추정방법 및 이를 이용한 단일채널 반향제거방법
    32.
    发明授权
    반향필터 추정방법, 반향제거필터 추정방법 및 이를 이용한 단일채널 반향제거방법 有权
    反演滤波器估计方法和滤波器估计方法,以及使用DEREVERBERATION滤波器的单通道语音分析方法

    公开(公告)号:KR101558397B1

    公开(公告)日:2015-11-23

    申请号:KR1020140062476

    申请日:2014-05-23

    Inventor: 박형민 지민선

    CPC classification number: H04R3/02 G10L2021/02082 H04M9/082

    Abstract: 본발명에따르는단일채널에대한음성반향제거를위한반향필터추정방법에있어서, 반향필터의확률밀도함수에대한선험적정보를입력받아, 상기반향필터의확률밀도함수를토대로반향필터의사후확률밀도함수의로그값을산출하는단계; 상기반향필터의사후확률밀도함수의로그값을최대화하여반향필터를추정하는단계;를구비함을특징으로한다.

    Abstract translation: 根据本发明,用于估计用于单个信道的用于语音回波去除的回波滤波器的方法包括以下步骤:接收关于回波滤波器的概率密度函数的先验信息,并且测量后验概率的对数值 基于回波滤波器的概率密度函数的回波滤波器的密度函数; 并通过使回波滤波器的后验概率密度函数的对数值最大化来估计回波滤波器。

    최적 계층적 블록 매칭 방법 및 시스템, 이를 이용한 영상 정합 방법 및 영상 압축 방법
    33.
    发明授权
    최적 계층적 블록 매칭 방법 및 시스템, 이를 이용한 영상 정합 방법 및 영상 압축 방법 有权
    优化分层块匹配的方法与系统,基于优化分层块匹配的图像注册和视频压缩方法

    公开(公告)号:KR101550665B1

    公开(公告)日:2015-09-07

    申请号:KR1020140036362

    申请日:2014-03-27

    Inventor: 제창수 박형민

    Abstract: 본 발명에 따른 최적 계층적 블록 매칭(optimized hierarchical block matching, OHBM) 방법 및 시스템은, 계층적 블록 매칭에서, 계산량(computational cost)과 정확도(accuracy)를 최적화하도록 영상 피라미드(image pyramid)의 레이어 수(number of layers)와 두 인접 레이어(two consecutive layers) 사이의 해상도 비(scale factor), 즉 단위 해상도 비(unit scale factor)를 결정하여 계층적 블록 매칭을 수행하는 것을 특징으로 한다. 또한 본 발명에 따른 최적 계층적 블록 매칭 방법 및 시스템은 정확도를 향상시키기 위하여 두 입력 영상의 각 채널의 평균과 표준편차를 이용하여 두 입력 영상 간의 컬러 차이를 고속으로 보정하는 컬러 보정(color alignment, CA) 단계(혹은 컬러 보정부)를 더 포함하기도 한다. 또한 본 발명에 따른 영상 정합(image registration) 방법은, 두 영상에 대해 상기 최적 계층적 블록 매칭 방법 또는 시스템을 이용하여 최적 계층적 블록 매칭을 수행하고, 그 결과를 이용하여 소정의 기하 모델(geometric transformation model)에 기반을 둔 하나 이상의 기하 변환 파라미터를 추정하고, 상기 추정된 기하 변환 파라미터를 이용하여 두 입력 영상 중 하나 이상을 기하 변환하는 것을 특징으로 한다. 또한 본 발명에 따른 최적 계층적 블록 매칭을 이용한 영상 압축 방법은 영상 프레임 간 또는 스테레오스코픽 3D(stereoscopic 3D, S3D) 영상이나 다시점 3D(multiview 3D) 영상의 경우에는 좌우 영상 간 혹은 서로 다른 시점(viewpoint)의 영상 간 모션 보정을 위한 모션 추정의 속도를 획기적으로 향상시키기 위하여 상기 최적 계층적 블록 매칭 방법 또는 시스템을 이용하는 것을 특징으로 한다.

    Abstract translation: 本发明涉及优化的分层块匹配(OHBM)方法和系统,以及图像配准方法和图像压缩方法。 根据本发明的实施例的OHBM方法和系统通过确定作为两个连续层之间的比例因子的单位比例因子和图像金字塔的层数来优化精度和计算成本来执行分层块匹配 分层块匹配。

    반향 환경에서의 음성특징 향상방법 및 장치
    34.
    发明公开
    반향 환경에서의 음성특징 향상방법 및 장치 有权
    语音特征增强方法和装置在混响环境中

    公开(公告)号:KR1020150015990A

    公开(公告)日:2015-02-11

    申请号:KR1020130092139

    申请日:2013-08-02

    Inventor: 박형민 조지원

    CPC classification number: G10L21/02 G10L15/20

    Abstract: A speech feature enhancement method in a reverberation environment according to the present invention initializes model error statics and log mean energy of a room impulse response (RIP) through an approximate modeling process for the reverberation environment, determines an enhanced LMPSCs estimation formula based on the initialized model error statics and log mean energy of RIP, estimates the LMPSCs estimation formula with regard to an observation signal based on the enhanced LMPSCs estimation formula, calculates and updates the log mean energy of the RIP based on the observation signal, the model error statics, and the enhanced LMPSCs, and determines the enhanced LMPSCs estimation formula based on the updated model error statics and log mean average of the RIP. The present invention includes a first step of determining the enhanced LMPSCs estimation method in consideration of a frequency dependent reverberation and a second step of improving the speech feature of an input signal according to the LMPSCs estimation method in consideration of the frequency dependent reverberation.

    Abstract translation: 根据本发明的混响环境中的语音特征增强方法通过用于混响环境的近似建模过程初始化房间脉冲响应(RIP)的模型误差静态和对数平均能量,基于初始化的LMPSC估计公式确定增强的LMPSC估计公式 RIP的模型误差静态和对数平均能量,基于增强的LMPSC估计公式估计关于观测信号的LMPSC估计公式,基于观测信号计算和更新RIP的对数平均能量,模型误差静态, 和增强的LMPSC,并且基于RIP的更新的模型误差静态和对数平均值来确定增强的LMPSC估计公式。 本发明包括考虑到频率相关混响来确定增强型LMPSC估计方法的第一步骤和考虑到频率依赖性混响的根据LMPSC估计方法改进输入信号的语音特征的第二步骤。

    3차원 기하정보를 이용한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
    35.
    发明授权
    3차원 기하정보를 이용한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 有权
    使用3D几何信息的语音识别系统和方法

    公开(公告)号:KR101442211B1

    公开(公告)日:2014-10-16

    申请号:KR1020130013854

    申请日:2013-02-07

    CPC classification number: G10L15/063 G10L15/24

    Abstract: 본 발명은 3차원 기하정보를 이용하여 음성 인식하는 방법 및 시스템에 관한 것이다. 상기 음성 인식 시스템은 학습 모듈 및 인식 모듈을 구비하여, 학습 모듈은 학습용 3차원 기하정보 또는 이들로부터 추출된 학습용 3차원 특징을 이용하여 인식기를 생성한다. 상기 인식 모듈은 음성에 연관되거나 종속된 물리적 대상로부터 획득한 3차원 기하정보 또는 이로부터 추출된 3차원 특징을 상기 인식기에 적용하여 음성 인식하는 것을 특징으로 한다.
    본 발명에 따른 음성 인식 시스템 및 방법은 발화시의 입술 및 주변, 또는 인체의 임의의 하나 이상의 영역에 대한 3차원 기하정보를 이용하여 음성 인식하는 것을 특징으로 하며, 더 나아가 발화시의 2차원 특징 또는 음향 특징과 3차원 기하정보 또는 3차원 특징을 결합하여 음성 인식하거나, 발화시의 2차원 특징 또는 음향 특징에 의한 인식 결과와 3차원 기하정보 또는 3차원 특징에 의한 인식 결과를 결합하여 최종적으로 음성 인식함으로써 음성 인식의 정확도를 향상시키는 것을 특징으로 한다.

    하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
    36.
    发明公开
    하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 有权
    基于使用谐波频率依赖的独立矢量分析的鲁棒语音识别方法和使用该方法的系统

    公开(公告)号:KR1020130125014A

    公开(公告)日:2013-11-18

    申请号:KR1020120048380

    申请日:2012-05-08

    CPC classification number: G10L15/20 G10L15/02 G10L19/0017 G10L19/26 G10L21/02

    Abstract: A robust speech recognition system according to the present invention improves a sound source by using an MPDR beamformer in a pre-processing process, applies an HIVA learning algorithm to the composed signals of the improved sound source signals and noise signals, and extracts a feature vector of the sound source signals. The speech recognition system applies a non-holonomic constraint and a minimal distortion principle when performing the HIVA learning algorithm to minimize signal distortion and improve convergence of a non-mixing matrix. In addition, the speech recognition system checks for missing features in the learning process by using an improved sound source and a noise sound source and compensates for the same. By the aforementioned features, the robust speech recognition system provides a system resistant to noise on the basis of an independent vector analysis algorithm using harmonic frequency dependency. [Reference numerals] (200) Signal input unit;(210) Signal converting unit;(220) Pre-processing unit;(230) Sound source extracting unit;(246) Mask generating unit;(248) Loss property compensation output unit;(250) DCT converting unit;(260) Voice recognition unit;(AA,BB) Log unit

    Abstract translation: 根据本发明的鲁棒语音识别系统通过在预处理过程中使用MPDR波束形成器改进声源,对改进的声源信号和噪声信号的合成信号应用HIVA学习算法,并提取特征向量 的声源信号。 当执行HIVA学习算法时,语音识别系统应用非完整约束和最小失真原理,以最小化信号失真并改善非混合矩阵的收敛。 此外,语音识别系统通过使用改进的声源和噪声声源来检查学习过程中的缺失特征并对其进行补偿。 通过上述特征,鲁棒的语音识别系统在使用谐波频率依赖性的独立矢量分析算法的基础上提供了抗噪声系统。 (200)信号输入单元(210)信号转换单元;(220)预处理单元;(230)声源提取单元;(246)掩码生成单元;(248)损失特性补偿输出单元; (250)DCT转换单元;(260)语音识别单元;(AA,BB)对数单元

    피드 포워드 네트워크를 이용하는 독립 벡터 분석에 따른 블라인드 소스 분리 방법 및 장치

    公开(公告)号:KR1020120133038A

    公开(公告)日:2012-12-10

    申请号:KR1020110051512

    申请日:2011-05-30

    Inventor: 박형민 오명우

    Abstract: PURPOSE: A method for separating a blind source according to independent vector analysis by using a feed forward network and a device thereof are provided to resolve a problem according to independency between frequencies without heuristic technology. CONSTITUTION: An ST(Short-Time) Fourier transformer(100) converts mixed signals of a TD(Time-Domain) into mixed signals of an FD(Frequency-Domain). An FF unmixing filter network(104) separates the mixed signals of the FD into source signals. An inverse ST Fourier transformer(105) converts the separated source signals into source signals of the TD. An MPDR beam-former(102) receives the mixed signals of the FD from the ST Fourier transformer. The MPDR beam-former generates predetermined mixed signals of the FD. The MPDR beam-former provides the generated mixed signals of the FD to the FF unmixing filter network. [Reference numerals] (100) ST Fourier transformer; (102) MPDR beamformer; (104) FF unmixing filter network; (105) Reverse ST Fourier transformer

    Abstract translation: 目的:提供一种根据独立向量分析通过使用前馈网络及其设备分离盲源的方法,以便根据频率之间的独立性解决问题,而无需启发式技术。 构成:ST(短时间)傅里叶变换器(100)将TD(时域)的混合信号转换为FD(频域)的混合信号。 FF解混合滤波器网络(104)将FD的混合信号分离成源信号。 逆ST傅立叶变换器(105)将分离的源信号转换成TD的源信号。 MPDR波束成形器(102)从ST傅立叶变换器接收FD的混合信号。 MPDR波束成形器产生FD的预定混合信号。 MPDR波束成形器将所产生的FD混合信号提供给FF解混合滤波器网络。 (参考数字)(100)ST傅立叶变换器; (102)MPDR波束形成器; (104)FF混合滤波网; (105)反向ST傅里叶变换器

    음향 채널 추정에 기반한 음원 위치 탐지 방법
    38.
    发明授权
    음향 채널 추정에 기반한 음원 위치 탐지 방법 有权
    基于声道估计的声源定位方法

    公开(公告)号:KR101021800B1

    公开(公告)日:2011-03-17

    申请号:KR1020090026233

    申请日:2009-03-27

    Inventor: 박형민 조지원

    Abstract: 본 발명은 음향 채널 추정에 기반한 음원 위치 탐지 방법에 관한 것이다. 상기 음향 채널 추정에 기반한 음원 위치 탐지 방법은, (a) 적응 채널 필터를 초기화하는 단계; (b) 각 센서로부터 신호들을 입력받는 단계: (c) 각 센서로부터 입력된 신호들을 이전에 갱신된 적응 채널 필터들을 통과시킨 후, 상기 통과된 신호들 간의 차이에 따른 오류 신호를 검출하는 단계: (d) 상기 오류 신호를 이용하여 음원과 각 센서들 사이의 적응 채널 필터들을 다채널 최소 평균 제곱법에 의해 갱신하는 단계: (e) 갱신된 적응 채널 필터를 실제 채널 필터의 선험적 정보를 이용하여 최종 갱신하는 단계: (f) 적응 채널 필터로부터 직접경로의 시간 지연을 파악하고 센서간 시간 지연 차이로부터 음원 위치를 추정하는 단계: 를 구비하고, 상기 (e)단계에서 적응 채널 필터를 갱신할 때 음향 채널 특성을 적용한다. 상기 음향 채널 특성은 채널 필터 계수들이 '성김(sparsity)' 분포를 갖는 특성을 이용함으로써, 보다 더 정확하게 직접경로의 시간 지연을 추정할 수 있게 된다.
    음원 위치 탐지, 음향 채널, 추정

Patent Agency Ranking