-
公开(公告)号:KR101280253B1
公开(公告)日:2013-07-05
申请号:KR1020080131761
申请日:2008-12-22
Applicant: 한국전자통신연구원
IPC: G10L15/20 , G10L15/10 , G10L21/0272 , G10L19/00
CPC classification number: H04R3/005 , H04R27/00 , H04R2430/03
Abstract: 본 발명은 음원 분리 방법 및 그 장치에 관한 것으로, 한 개의 클러스터를 처리하기 위하여 해당 클러스터가 포함하는 주파수 성분의 신호 특성에 적합한 확률 분포 함수를 분리 알고리즘에 적용함으로써 클러스터별로 높은 분리 성능을 얻을 수 있다. 또한, 본 발명은 통합된 주파수 영역의 신호를 역 푸리에 변환을 통하여 다시 시간영역의 신호로 복원할 수 있고, 독립적으로 처리된 클러스터를 통합하기 위하여 분리 과정에서 본질적으로 생기는 채널 뒤섞임 문제와 스케일링 문제를 해결할 수 있다.
주파수, 분리, 암묵 신호 분리, 채널, 푸리에-
公开(公告)号:KR1020130068196A
公开(公告)日:2013-06-26
申请号:KR1020110134836
申请日:2011-12-14
Applicant: 한국전자통신연구원
IPC: G10L15/14
Abstract: PURPOSE: A clustering apparatus which uses a voice recognition error confusion matrix and a method thereof are provided to improve the discrimination and reliability of a sound model by detecting 'high frequency error pairs which have a frequent voice recognition result error' and clustering the sound model based on a detection result. CONSTITUTION: A sound model generator(100) receives training voice data and generates a sound model. A voice recognition unit(110) performs a voice recognition based on the generated sound model, an inputted test, and user voice data. An error confusion matrix configuration unit(120) configures a confusion matrix with 'error pairs which are extracted through a comparison of the voice recognition result and enterprise data. A state clustering unit(101a) performs the state clustering of the sound model based on 'high extraction frequency error pairs which are extracted from a high frequency error pair extractor(130). [Reference numerals] (100) Sound model generator; (101a) State clustering unit; (110) Voice recognition unit; (120) Error confusion matrix configuration unit; (130) High frequency error pair extractor; (AA) Training voice data; (BB) Test and user voice data; (CC) Transfer data
Abstract translation: 目的:提供一种使用语音识别误差混淆矩阵及其方法的聚类设备,通过检测“具有频繁语音识别结果误差的高频误差对”和聚合声音模型来提高声音模型的辨别和可靠性 基于检测结果。 构成:声音模型发生器(100)接收训练声音数据并产生声音模型。 语音识别单元(110)基于生成的声音模型,输入的测试和用户语音数据来执行语音识别。 错误混淆矩阵配置单元(120)配置具有通过语音识别结果和企业数据的比较提取的错误对的混淆矩阵。 状态聚类单元(101a)基于从高频误差对提取器(130)提取的高抽取频率误差对执行声音模型的状态聚类。 (附图标记)(100)声音模型发生器; (101a)状态聚类单元; (110)语音识别单元; (120)错误混淆矩阵配置单元; (130)高频误差对提取器; (AA)培训语音数据; (BB)测试和用户语音数据; (CC)传输数据
-
公开(公告)号:KR101253610B1
公开(公告)日:2013-04-11
申请号:KR1020090091867
申请日:2009-09-28
Applicant: 한국전자통신연구원
IPC: G10L21/0272 , G10L21/0208 , G10L15/20
Abstract: 본 발명은 사용자의 음성을 이용한 위치 추적 장치 및 그 방법에 관한 것으로, 입력되는 2채널의 음원 신호를 각각의 음원별로 분리하는 음원 분리부에 의해 분리된 각각의 음원 신호로부터 산란 잡음을 제거하고, 음원 위치 추적을 위해 잔여 신호 성분을 강조하도록 필터링하는 스테레오 위너 필터부, 사용자의 음성을 인식하고, 음성 인식 결과에 대한 신뢰도를 측정하는 음성 인식부, 상기 음성 인식부로부터의 음성 인식 결과와 음성 인식 결과에 대한 신뢰도에 근거하여 타겟 채널을 선택하는 채널 선택부, 타겟 채널의 신호 및 간섭 채널의 신호를 분석하여 음원 위치를 추적하는 음원 위치 추적부를 포함한다. 본 발명에 따르면, 암묵적 음원 분리 기술, 스테레오 위너 필터 기술, 음성인식 및 발화검증 기술, 음원 위치 추적 기술을 유기적으로 통합함으로써, 보다 정확하고 주변 환경에 강인한 사용자 음성 위치 추적이 가능한 이점이 있다.
-
公开(公告)号:KR101233655B1
公开(公告)日:2013-02-15
申请号:KR1020090123354
申请日:2009-12-11
Applicant: 한국전자통신연구원
Abstract: 영어 이해도가 다른 다양한 회의 참석자들에게 회의에 언급되는 주요 키워드들을 이해할 수 있도록 다양한 언어로 통역해 주는 음성인식 기반 국제회의 통역 장치 및 방법을 제시한다. 제시된 음성인식 기반 국제회의 통역 장치는 다자간 회의에 참가하는 회의 참가자의 사용 언어를 포함하는 회의 참가자 정보를 회의 참가자별로 미리 등록하는 회의 참가자 정보 등록부; 회의 참가자별로의 발표 내용에 따른 핵심어를 미리 등록하고, 회의 참가자의 발표에 수반하는 음성을 미리 등록된 핵심어를 기반으로 인식하여 핵심어 형태의 음성인식 결과를 출력하는 음성 인식부; 및 핵심어 형태의 음성인식 결과를 분석하여 미리 등록된 회의 참가자별로의 사용 언어에 대응되는 타겟 언어로 변환하여 출력하는 언어 번역부를 포함한다. 국제 회의 발표자에게는 자유로운 모국어 구사가 가능하도록 하고, 참석자들에게는 모국어로 통역된 텍스트 데이터 또는 합성음을 제공해 줌으로써, 원활한 국제 회의 진행 및 참석자들의 회의 내용에 대한 이해도를 높일 수 있다.
-
公开(公告)号:KR101229108B1
公开(公告)日:2013-02-01
申请号:KR1020090128386
申请日:2009-12-21
Applicant: 한국전자통신연구원
Abstract: 본 발명은 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법에 관한 것으로, 음성신호 입력 시 인식된 단어를 분석하여, 상기 단어와 상기 단어에 대한 반음소를 갖는 반단어로부터 해당 단어의 음소와 반음소에 대한 음소 세그먼트 정보를 추출하는 음소 세그먼트 정보 추출기, 추출된 상기 음소 및 상기 반음소에 대한 우도값(likelihood)을 계산하고, 상기 우도값으로부터 로그-우도 비율을 계산하는 우도값 계산기, 상기 음소와 상기 반음소의 로그-우도 비율에 따라 상기 인식된 단어에 대응하는 문턱값을 계산하는 문턱값 계산기, 및 상기 문턱값과 상기 우도값 계산기에 의해 산출된 로그-우도 비율을 비교하여, 그 결과에 따라 음성 인식 결과를 출력하거나 차단하는 비교기를 포함한다. 본 발명에 따르면, 음성인식 결과에 대한 단어 기반의 발화 검증 시스템에서 인식되는 단어별로 서로 다른 신뢰도 문턱값을 적용함으로써 안정적인 발화 검증 성능을 얻는 효과가 있다.
-
公开(公告)号:KR1020120066523A
公开(公告)日:2012-06-22
申请号:KR1020100127898
申请日:2010-12-14
Applicant: 한국전자통신연구원
IPC: G10L15/18
Abstract: PURPOSE: A voice recognition system for personal customized natural language is provided to create various voice searching services through vocalization of the natural language. CONSTITUTION: A voice recognition system comprises: a control unit(123) which provides a customized model to a voice recognition unit(143) in case that a user is registered and controls provision of the customized model in cast that the user is not registered; and a service processing unit(133) which controls updating locutionary act and voice recognition result in case that the user agrees the result.
Abstract translation: 目的:提供个人定制自然语言的语音识别系统,通过自然语言的发声来创建各种语音搜索服务。 构成:语音识别系统包括:控制单元,其在用户注册的情况下向语音识别单元(143)提供定制模型,并控制用户未注册的定制模型的提供; 以及在用户同意结果的情况下控制更新定位动作和语音识别结果的服务处理单元(133)。
-
公开(公告)号:KR101082840B1
公开(公告)日:2011-11-11
申请号:KR1020080125433
申请日:2008-12-10
Applicant: 한국전자통신연구원
IPC: G10L99/00
Abstract: 본발명은음성과잡음신호분리방법및 그장치에관한것으로, 음원의통계적정보를이용하는음원분리기술과음원의공간적정보를활용하는빔포밍기술을두개이상의마이크로폰을갖춘시스템에사용할경우음성신호와잡음신호를보다효과적으로분리할수 있게되며, 결과적으로잡음환경에서녹음된신호로부터잡음신호가제거된깨끗한음성신호를추출할수 있다. 또한, 본발명은암묵신호분리기술에있어서학습과정이불필요하므로계산량이적고잘못된학습으로인한성능저하의염려가없는등, 음원분리의성능을높일뿐만아니라동시에가중치학습단계에서수렴속도를높임으로서계산효율성도제고할수 있으며, 빔포밍기술의경우에도일반적으로알려지지않은잡음원의개수및 위치에관계없이환경에강인하게동작할수 있다.
-
公开(公告)号:KR101072888B1
公开(公告)日:2011-10-18
申请号:KR1020080131239
申请日:2008-12-22
Applicant: 한국전자통신연구원
Abstract: 본발명은채널추정기반변별학습을이용한환경적응방법에관한것으로, 음성인식을다양한환경에적용할때 각환경으로의적응을위한효과적인방법을제공하며, 변별학습기반에서모델적응기법을수용하는방식으로일차적으로변별력을유지하는적응데이터에대해채널특성을찾아모델을변환을수행하고이를이용하여변별학습기법과결합하는방식으로효과적인환경적응을제공할수 있는이점이있다.
-
公开(公告)号:KR101068122B1
公开(公告)日:2011-09-28
申请号:KR1020080126924
申请日:2008-12-15
Applicant: 한국전자통신연구원
Abstract: 본 발명은 음성인식기에서 가비지 및 반단어 모델 기반의 거절 기술에 관한 것으로, 특히 비음성을 거절하기 위한 가비지 모델(garbage model), 음소 유사도에 기반하는 반단어 모델(anti-word model) 구성법, 이들을 통합한 거절 네트워크, 거절 네트워크에 대한 고속 재평가를 위한 인접 프레임 간의 유사도에 근거한 프레임 제거법(frame dropping)을 동원하여 인식된 결과를 거절하는 것을 특징으로 한다. 본 발명에 의하면, 종래 음성인식을 위한 발성사전에 등록되어 있지 않은 미등록 어휘나 비문법적 어휘의 입력뿐만 아니라, 등록되지 않은 음향-음성학적 입력 신호의 입력에 대해 효과적인 거절 기능을 수행할 수 있으며 고속의 거절평가가 가능해짐으로써 인식성공률이나 반응시간에서 음성인식기의 성능 향상을 도모할 수 있다.
음성인식, 거절(rejection), 프레임 제거법, 가비지 모델, 반단어 모델-
公开(公告)号:KR1020110071742A
公开(公告)日:2011-06-29
申请号:KR1020090128386
申请日:2009-12-21
Applicant: 한국전자통신연구원
Abstract: PURPOSE: An utterance verification apparatus based on a word reliability threshold and a method thereof are provided to apply different reliability threshold to each word recognized in a word-based utterance verification system with respect to a voice recognition result. CONSTITUTION: A phoneme segment information extractor(130) extracts phoneme segment information with the analysis of a recognized word. Likelihood value calculators(140,150) calculate an likelihood value for the extracted phoneme and half-phoneme. A threshold calculator(170) calculates a threshold value corresponding to the recognized word. A comparator(190) compares the threshold value with an LLR(Log Likelihood Ratio) calculated by the likelihood value calculator. According to a comparison result, the comparator outputs or secludes a voice recognition result.
Abstract translation: 目的:提供一种基于字可靠性阈值的话语验证装置及其方法,以针对语音识别结果对基于词语的话语验证系统中识别的每个单词应用不同的可靠性阈值。 构成:音素段信息提取器(130)通过识别字词的分析来提取音素段信息。 似然值计算器(140,150)计算提取的音素和半音素的似然值。 阈值计算器(170)计算与所识别的字对应的阈值。 比较器(190)将阈值与由似然值计算器计算的LLR(对数似然比)进行比较。 根据比较结果,比较器输出或隐藏语音识别结果。
-
-
-
-
-
-
-
-
-