독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법

    公开(公告)号:KR101802444B1

    公开(公告)日:2017-11-29

    申请号:KR1020160089966

    申请日:2016-07-15

    Inventor: 박형민 조지원

    Abstract: 본발명은독립벡터분석및 재추정된반향필터파라메터를이용한베이시안특징향상시킨음성인식장치및 방법에관한것이다. 상기음성인식방법은, (a) 외부로부터입력된복수개의음성신호들을단구간푸리에변환하여각각주파수영역의신호로변환하여출력하는단계; (b) 상기주파수영역의음성신호들을독립벡터분석하여 IVA 타겟음성신호와 IVA 노이즈신호를추정하는단계; (c) 상기독립벡터분석에의해추정된 IVA 타겟음성신호로부터 HMM-based BFE 하여음성특징을추출하는단계; (d) 상기 IVA 타겟음성신호를이용하여상기독립벡터분석에의해추정된 IVA 노이즈신호를스케일링한후 스케일링된 IVA 노이즈신호로부터노이즈특징을추출하는단계; (e) 상기음성특징및 반향필터파라메터의초기설정값을이용하여 HMM-based BFE 하여음성특징을강화시켜초기음원신호를추정하는단계; (f) 상기노이즈특징과상기추정된초기음원신호를이용하여반향필터파라메터를재추정하는단계; (g) 상기재추정된반향필터파라메터를이용하여상기음성특징을다시강화시켜음원신호를최종추정하는단계; 를구비한다.

    마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템
    12.
    发明授权
    마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템 有权
    基于主动形状模型的LIP形状估计方法和使用路径映射的系统

    公开(公告)号:KR101621304B1

    公开(公告)日:2016-05-16

    申请号:KR1020140178965

    申请日:2014-12-12

    CPC classification number: G06T7/0002 G06T7/0004 G06T7/155 G06T7/75 G06T7/90

    Abstract: 본발명은마우스맵을이용한능동형태모델기반입술형태추정방법및 시스템에관한것으로서, 보다바람직하게는얼굴검출부가외부로부터입력받은영상내 얼굴영역을검출하는단계; 마우스맵변환부가마우스맵(mouth map)을통해초기형태의입술영역을변환하고, 변환된초기형태의입술영역을앞서검출한상기얼굴영역내 존재하는입술영역의상부에중첩시켜적어도하나의랜드마크(landmark)를생성하는단계; 위치검색부가상기랜드마크에대한능동형태모델을생성하기위한최적의위치를검색하는단계; 능동형태모델생성부가검색된최적의위치로상기랜드마크를이동시켜상기랜드마크에대한능동형태모델을생성하는단계; 및주성분표시부가상기적어도하나의랜드마크에대한능동형태모델을정렬하여상기능동형태모델별주성분(principal components) 정보를표시하는단계; 및영상표시부가상기랜드마크에대한능동형태모델을영상으로표현하여상기입력받은영상내 입술형태를추정하는단계;를포함한다. 이러한구성에의해, 본발명의마우스맵을이용한능동형태모델기반입술형태추정시스템은영상속 얼굴또는그 일부에대해색차(chrominance) 성분을이용하여입술등 붉은영역이도드라지게하는마우스맵을사용하여컬러영상으로부터마우스맵을얻고, 이들능동형태모델에적용하여입술형태를보다정확하게추정할수 있는효과가있다.

    Abstract translation: 本发明涉及一种基于活动形式模型的唇形估计方法和使用口图的系统,更期望地包括:面部检测单元检测从外部输入的图像内的面部区域的步骤; 口图转换单元通过口贴图转换初级形状的唇部区域,并通过将检测到的脸部区域中的唇部区域的上侧的主要形状的唇部区域重叠而产生一个或多个界标的步骤; 位置搜索单元搜索最佳位置以产生关于地标的活动形式模型的步骤; 活动形式模型生产单元通过将地标移动到搜索到的最佳位置来产生关于地标的活动形式模型的步骤; 主成分显示单元通过主动形式模型显示关于至少一个地标的活动形式模型来显示主成分信息的步骤; 以及图像显示单元将关于地标的活动形式模型表示为图像并估计输入图像内的唇形的步骤。 通过该组合,使用本发明的口图的基于活动形状模型的唇形估计方法系统可以通过使用口贴图来获得口图,该口贴图通过使用唇形等来读取区域 关于图像或其一部分中的面部的色度分量,并且可以通过将口图应用于活动形式模型来准确地估计唇部形状。

    반향 환경에서의 음성특징 향상방법 및 장치
    13.
    发明授权
    반향 환경에서의 음성특징 향상방법 및 장치 有权
    语音特征增强方法和装置在混响环境中

    公开(公告)号:KR101506547B1

    公开(公告)日:2015-03-30

    申请号:KR1020130092139

    申请日:2013-08-02

    Inventor: 박형민 조지원

    Abstract: 본 발명에 따르는 반향 환경에서의 음성특징 향상방법은, 반향 환경에 대한 대략적인 모델링을 통해 RIR(Room Impulse Response)의 로그 평균 에너지 와 모델 에러 스테이스틱스 를 초기화하고, 초기화된 RIR의 로그 평균 에너지 와 모델 에러 스테이스틱스 를 토대로 향상된 LMPSCs 추정식을 결정하고, 그 향상된 LMPSCs 추정식에 따라 관찰신호 에 대한 향상된 LMPSCs 를 추정하고, 상기 향상된 LMPSCs 와 모델 에러 스테이스틱스 와 관찰신호 를 토대로 상기 RIR의 로그 평균 에너지 를 산출하여 갱신하고, 그 갱신된 RIR의 로그 평균 에너지 와 모델 에러 스테이스틱스 를 토대로 향상된 LMPSCs 추정식을 결정하여, 주파수 종속 반향을 고려하여 향상된 LMPSCs 추정방식을 결정하는 제1단계; 상기 주파수 종속 반향을 고려하여 LMPSCs 추정방식에 따라 입력신호의 음성특징을 향상하는 제2단계;를 특징으로 한다.

    음성신호의 특징정보를 이용한 흥미점수 산출 시스템 및 방법, 그를 기록한 기록매체
    14.
    发明授权
    음성신호의 특징정보를 이용한 흥미점수 산출 시스템 및 방법, 그를 기록한 기록매체 有权
    利息分数计算系统和方法采用语音信号特征数据,记录媒体记录程序的利息分数计算方法

    公开(公告)号:KR101499606B1

    公开(公告)日:2015-03-09

    申请号:KR1020130053176

    申请日:2013-05-10

    Abstract: 본 발명에 따르는 음성신호의 특징정보를 이용한 흥미점수 산출 시스템에 있어서, 질의를 위한 음성신호를 입력받아 특징정보를 검출하고, 상기 질의를 위한 음성신호의 특징정보를 수집된 음성신호들과 그에 대해 미리 설정된 점수정보들을 회귀분석 학습하여 생성한 흥미점수 산출함수에 따라 연산하여 흥미점수를 산출하는 제어장치; 상기 흥미점수 및 상기 흥미점수 산출함수를 저장하며, 상기 제어장치의 프로그램 수행을 위해 요구되는 저장영역을 제공하는 메모리부; 및 상기 제어장치의 제어에 따라 음성신호를 제공받아 특징정보를 생성하는 음성신호의 특징정보 검출부;를 구비함을 특징으로 한다.

    하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
    15.
    发明授权
    하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 有权
    基于独立向量分析的鲁棒语音识别方法采用谐波频率依赖性和系统使用方法

    公开(公告)号:KR101361034B1

    公开(公告)日:2014-02-11

    申请号:KR1020120048380

    申请日:2012-05-08

    Abstract: 본 발명에 따른 강한 음성 인식 시스템은 전처리(pre-processing) 과정인 MPDR 빔포머를 사용하여 음원을 향상시킨 후, 향상된 음원 신호들과 노이즈 신호들의 합성신호에 대하여 HIVA 학습 알고리즘을 적용하여 음원 신호에 대한 특징 벡터를 추출하는 것을 특징으로 한다. 상기 음성 인식 시스템은 신호 왜곡을 최소화시키고 언믹싱 매트릭스에 대한 컨버전스를 향상시키기 위하여, HIVA 학습 알고리즘을 수행함에 있어서, non-holonomic constraint와 최소 왜곡 원칙(Minimal Distortion Priciple; 이하 'MDP'라 한다)을 적용하는 것을 특징으로 한다. 또한, 상기 음성 인식 시스템은 향상된 음원과 노이즈 음원을 이용하여 학습 과정에서 손실된 특징들(Missing Features)을 파악하고 이를 보상하는 것을 특징으로 한다. 전술한 특징들에 의하여, 본 발명에 따른 강한 음성 인식 시스템은 하모닉 주파수 의존성을 이용한 독립 벡터 분석 알고리즘을 기반으로 하여 노이즈 등에 강한 시스템을 제공하게 된다.

    반향 환경에서의 영교차 기반 다음원 국지화 방법 및 장치
    16.
    发明授权
    반향 환경에서의 영교차 기반 다음원 국지화 방법 및 장치 有权
    在混响环境中的基于过零的多源定位装置

    公开(公告)号:KR101073632B1

    公开(公告)日:2011-10-14

    申请号:KR1020100017069

    申请日:2010-02-25

    Abstract: 본발명은다음원국지화장치에관한것이다. 다음원국지화장치는, 외부로부터신호를수신하는제1 및제2 신호수신부; 상기제1 및제2 신호수신부로부터제공되는신호를사전에설정된주파수대역별로분리하여각 채널로출력하는제1 및제2 필터뱅크; 상기제1 필터뱅크의각 채널로부터출력된신호의포락선정보를이용하여반향시간을추정하는반향시간추정부; 상기반향시간을이용하여반향이없는시작구간을검출하는시작구간추정부; 영교차점을기반으로하는 ITD를추정하는 ITD 추정부; 상기채널들로부터출력된신호들에대한신호대 잡음비(SNR)를검출하는 SNR 추정부; 시작구간및 SNR들을이용하여상기 ITD들중 신뢰성있는 ITD들을선택하는 ITD 선택부; 상기 ITD 선택부에의해선택된 ITD들을방향각으로변환시키는방향각변환부; 상기방향각변환부로부터출력된방향각에추정된 SNR 가중치로누적시켜히스토그램을생성하고, 상기히스토그램을이용하여음원의방향을추출하는음원방향추출부; 를구비한다. 상기반향시간추정부, 시작구간추정부, ITD 추정부, SNR 추정부, ITD 선택부및 방향각변환부는제1 필터뱅크의모든채널에각각구비되고, 모든방향각변환부로부터출력된방향각정보들은음원방향추출부로제공되어반향환경에서의음원방향을추출한다.

    반향 환경에서의 영교차 기반 다음원 국지화 방법 및 장치
    17.
    发明公开
    반향 환경에서의 영교차 기반 다음원 국지화 방법 및 장치 有权
    复原环境中的基于零交叉的多源本地化设备

    公开(公告)号:KR1020110097296A

    公开(公告)日:2011-08-31

    申请号:KR1020100017069

    申请日:2010-02-25

    Abstract: 본 발명은 다음원 국지화 장치에 관한 것이다. 다음원 국지화 장치는, 외부로부터 신호를 수신하는 제1 및 제2 신호 수신부; 상기 제1 및 제2 신호 수신부로부터 제공되는 신호를 사전에 설정된 주파수 대역별로 분리하여 각 채널로 출력하는 제1 및 제2 필터 뱅크; 상기 제1 필터 뱅크의 각 채널로부터 출력된 신호의 포락선 정보를 이용하여 반향 시간을 추정하는 반향 시간 추정부; 상기 반향 시간을 이용하여 반향이 없는 시작 구간을 검출하는 시작 구간 추정부; 영교차점을 기반으로 하는 ITD를 추정하는 ITD 추정부; 상기 채널들로부터 출력된 신호들에 대한 신호 대 잡음비(SNR)를 검출하는 SNR 추정부; 시작 구간 및 SNR들을 이용하여 상기 ITD들 중 신뢰성있는 ITD들을 선택하는 ITD 선택부; 상기 ITD 선택부에 의해 선택된 ITD들을 방향각으로 변환시키는 방향각 변환부; 상기 방향각 변환부로부터 출력된 방향각에 추정된 SNR 가중치로 누적시켜 히스토그램을 생성하고, 상기 히스토그램을 이용하여 음원의 방향을 추출하는 음원 방향 추출부; 를 구비한다. 상기 반향 시간 추정부, 시작 구간 추정부, ITD 추정부, SNR 추정부, ITD 선택부 및 방향각 변환부는 제1 필터 뱅크의 모든 채널에 각각 구비되고, 모든 방향각 변환부로부터 출력된 방향각 정보들은 음원 방향 추출부로 제공되어 반향 환경에서의 음원 방향을 추출한다.

    DUET 를 기반으로 한 관심 음원 향상 방법
    18.
    发明公开
    DUET 를 기반으로 한 관심 음원 향상 방법 有权
    基于渐变刺激和估计技术的目标语音增强方法

    公开(公告)号:KR1020110089782A

    公开(公告)日:2011-08-09

    申请号:KR1020100009326

    申请日:2010-02-01

    Inventor: 박형민

    Abstract: PURPOSE: A target speech enhancement method based on degenerated unmixing is provided to apply a real application without estimating time delay coefficient without the number of sound source signal. CONSTITUTION: A first channel signal and a second channel signal are converted into time-frequency function(200). A histogram about a parameter is generated by estimating the parameter of a first channel signal and a second channel signal(210). An initial value of the parameter is set up about interest sound source through a histogram(220).

    Abstract translation: 目的:提供一种基于退化解混合的目标语音增强方法来应用实际应用,而不需要估计没有声源信号数量的延时系数。 构成:第一通道信号和第二通道信号被转换成时频功能(200)。 关于参数的直方图是通过估计第一信道信号和第二信道信号(210)的参数而产生的。 通过直方图(220)设置关于兴趣声源的参数的初始值。

    음성인식 장치 및 음성인식 장치의 동작방법

    公开(公告)号:KR102244967B1

    公开(公告)日:2021-04-27

    申请号:KR1020190068439

    申请日:2019-06-11

    Abstract: 본발명의실시예에따른음성인식학습장치는영상입력부, 영상처리부및 컨볼루션뉴럴네트워크를포함할수 있다. 영상입력부는입력영상을수신할수 있다. 영상처리부는미리정해진제1 시간간격동안의입력영상에포함되는입술영상및 입술의정해진위치에상응하는랜드마크의주변영상에해당하는패치영상을각각 N(N은자연수)개의프레임들로나눌수 있다. 컨볼루션뉴럴네트워크는입술영상을 N개의프레임들로나눈프레임입술영상및 패치영상을 N개의프레임들로나눈프레임패치영상에기초하여입술의모양에상응하는음성정보를학습할수 있다. 본발명에따른음성인식장치에서는화자의입술영상뿐만아니라, 입술의정해진위치에배치되는랜드마크의주변영상인패치영상을이용하여컨볼루션뉴럴네트워크(Convolution Neural Network, CNN)를학습시킴으로써음성인식성능을향상시킬수 있다.

    재귀적 최소 제곱 기법을 이용한 온라인 CGMM에 기반한 방향 벡터 추정을 이용한 음원 방향 추정 방법

    公开(公告)号:KR102236471B1

    公开(公告)日:2021-04-05

    申请号:KR1020180010037

    申请日:2018-01-26

    Inventor: 박형민 이서영

    Abstract: 본발명은음원방향추정방법에관한것이다. 상기음원방향추정방법은, 복수개의마이크들로부터입력된입력신호들을이용하여음원의방향에해당하는방향벡터(steering vector)를추정하는방법에관한것으로서, (a) 음성과잡음이섞인신호가 CGMM 모델을따른다고가정하여, 비용함수로나타낸로그우도함수를구하는단계; (b) 매시간프레임마다재귀적으로상기로그우도함수의값을최대화시키는방향으로로그우도함수의변수(parameter) 값들을추정하는식을구하는단계; (c) 매시간프레임마다재귀적으로공분산행렬을추정하는단계; (d) 상기추정된공분산행렬을이용하여재귀적으로방향벡터(steering vector)를추정하는단계; 를구비하여입력신호들로부터음원의방향벡터를추정한다.

Patent Agency Ranking