-
1.
公开(公告)号:KR20210034486A
公开(公告)日:2021-03-30
申请号:KR1020200110295A
申请日:2020-08-31
Applicant: 한국전자통신연구원
IPC: G10L15/183 , G06N3/04 , G10L15/16
CPC classification number: G10L15/183 , G06N3/04 , G10L15/16
Abstract: 본 발명은 적대적 학습 방법을 이용하여 기존 모델의 정규화를 강화한 새로운 학습 방법을 제시한다. 또한 기존 기술은 워드 임베딩 의존성이 큰 접근 방법으로 특히 단일 의미만을 지닌 워드 임베딩의 문제점을 가지고 있지만, 본 발명은 자가-주의집중 모델을 적용하여 종래 문제점을 해결한다.
-
-
公开(公告)号:KR1020150004513A
公开(公告)日:2015-01-13
申请号:KR1020130077494
申请日:2013-07-03
Applicant: 한국전자통신연구원
IPC: G10L15/02
Abstract: 본 발명에 따른, 음성인식을 위한 특징 추출 장치는, 입력되는 음성신호를 소정 사이즈의 프레임 단위로 분리하는 프레임 형성부; 상기 음성신호의 각 프레임 별로 정적 특징 벡터를 추출하는 정적 특징 추출부; 기저함수 또는 기저벡터를 이용하여, 상기 추출된 정적 특징 벡터의 시간에 따른 변화를 나타내는 동적 특징 벡터를 추출하는 동적 특징 추출부; 및 상기 추출된 정적 특징 벡터와 동적 특징 벡터를 결합하여 특징 벡터 스트림을 구성하는 특징 벡터 결합부를 포함한다.
Abstract translation: 根据本发明,一种用于提取用于语音识别的特征的装置包括:帧形成单元,其将输入的语音信号分成预定大小的帧单位; 静态特征提取单元,其向语音信号的每个帧提取静态特征向量; 动态特征提取单元,其通过使用基函数或基向量来提取表示所提取的静态特征向量随时间的变化的动态特征向量; 以及特征向量组合单元,其组合提取的静态特征向量和提取的动态特征向量,并形成特征向量流。
-
公开(公告)号:KR1020140135358A
公开(公告)日:2014-11-26
申请号:KR1020130055449
申请日:2013-05-16
Applicant: 한국전자통신연구원
IPC: G10L15/183 , G10L15/28
CPC classification number: G10L15/183 , G10L15/26 , G10L15/28
Abstract: 본 발명에 따른 음성 인식 장치는, 입력된 음성에서 인식에 유용한 정보를 추출하여 특징벡터로 변환하는 특징추출부; 소정의 음향모델을 저장하는 음향모델 데이터베이스; 소정의 언어모델을 저장하는 언어모델 데이터베이스; 원어민의 발음모델에 타국인이 범할 수 있는 문법오류에 의해 발생하는 변이 발음이 더욱 포함된 발음모델을 저장하는 발음모델 데이터베이스; 상기 특징벡터를 토대로 상기 음향모델 데이터베이스, 상기 발음모델 데이터베이스, 및 상기 언어모델 데이터베이스를 이용하여 가장 확률이 높은 단어열을 찾는 탐색부; 및 상기 탐색부의 출력을 이용하여 상기 입력된 음성의 인식 결과를 제공하는 인식결과 출력부를 포함하는 것을 특징으로 한다.
Abstract translation: 根据本发明的语音识别装置包括:特征提取部分,从输入的语音中提取对识别有用的信息,并将该信息转换成特征向量; 存储预定声学模型的声学模型数据库; 存储预定语言模型的语言模型数据库; 一种发音模型数据库,存储发音模型,其中由外国人制作的语法错误引起的发音变化被添加到母语者的发音模型中; 搜索部分,通过使用声学模型数据库,发音模型数据库和语言模型数据库,基于特征向量搜索具有最高概率的字串; 以及识别结果输出部分,通过使用搜索部分的输出来提供输入语音的识别结果。
-
公开(公告)号:KR1020140035164A
公开(公告)日:2014-03-21
申请号:KR1020120101690
申请日:2012-09-13
Applicant: 한국전자통신연구원
IPC: G10L15/06
Abstract: One embodiment provides a method operating speech recognition system which includes a step of recognizing at least speech including speech information based on a prior sound model provided from an evaluation data base, a step of sorting correct recognition speeches and incorrect recognition speech among at least on speech, a step of generating the reliability set of the incorrect speeches or the reliability of reference correct speeches formerly obtained by measuring each reliability of the incorrect speeches and each reliability of the correct speeches based on reference incorrect speeches or the reference correct speeches formerly obtained, and a step of obtaining a speech verification parameter including at least one among the number of the incorrect speeches, the incorrect speech reliability, the number of the correct speeches, the correct speech reliability with regard to an arbitrary speech based on the reliability set of the incorrect speeches and the reliability set of the incorrect speech. [Reference numerals] (AA) Start; (BB) End; (S110) Recognizing at least one speech including speech information; (S120) Sorting correct recognition speeches and incorrect recognition speech among at least one speech; (S130) Generating the reliability set of the incorrect speeches or the reliability of reference correct speeche; (S140) Obtaining a speech verification parameter
Abstract translation: 一个实施例提供了一种操作语音识别系统的方法,其包括基于从评估数据库提供的先前的声音模型至少识别包括语音信息的语音的步骤,至少在语音上排列正确的识别语音和不正确的识别语音的步骤 通过基于参考不正确的演讲或以前获得的参考正确的演讲,测量以前通过测量不正确的演讲的每个可靠性和正确演讲的每个可靠性而获得的不正确的演讲的可靠性集合或参考正确讲话的可靠性的步骤,以及 基于不正确的可靠性集,获得语音验证参数的步骤,该语音验证参数包括不正确的演讲的数量,不正确的语音可靠性,正确的演讲的数量,关于任意语音的正确的语音可靠性 演讲和可靠性设置的inco 直言不讳 (附图标记)(AA)开始; (BB)结束; (S110)识别包括语音信息的至少一个语音; (S120)在至少一个演讲中排序正确的识别演讲和不正确的识别语音; (S130)生成不正确演讲的可靠性集或参考正确讲话的可靠性; (S140)获取语音验证参数
-
公开(公告)号:KR1020130068602A
公开(公告)日:2013-06-26
申请号:KR1020110135892
申请日:2011-12-15
Applicant: 한국전자통신연구원
CPC classification number: G10L15/187 , G10L15/02
Abstract: PURPOSE: A pronunciation evaluation device according to a level of pronunciation and a method thereof are provided to inspire a learner by providing a pronunciation evaluation result by variably updating a threshold value according to the level of pronunciation. CONSTITUTION: A voice feature extraction unit(110) extracts voice feature information from a voice signal recognized in a voice recognition unit(100). A voice reliability measurement unit(120) measures a current reliability value of the voice signal using the extracted voice feature information. A threshold update unit(130) updates a threshold value based on a compared result between the measured current reliability value and previously measured reliability value. A pronunciation evaluation providing unit(140) compares the updated threshold value and the current measured reliability value and provides a pronunciation evaluation result. [Reference numerals] (100) Voice recognition unit; (110) Voice feature extraction unit; (120) Voice reliability measurement unit; (130) Threshold update unit; (140) Pronunciation evaluation providing unit; (AA) Sound signal input
Abstract translation: 目的:提供根据发音水平的发音评价装置及其方法,以通过根据发音水平可变地更新阈值来提供发音评估结果来激励学习者。 构成:语音特征提取单元(110)从语音识别单元(100)中识别的语音信号中提取语音特征信息。 语音可靠性测量单元(120)使用所提取的语音特征信息来测量语音信号的当前可靠性值。 阈值更新单元(130)基于所测量的当前可靠性值和先前测量的可靠性值之间的比较结果来更新阈值。 发音评价提供单元(140)比较更新的阈值和当前测量的可靠性值,并提供发音评估结果。 (附图标记)(100)语音识别单元; (110)语音特征提取单元; (120)语音可靠性测量单元; (130)阈值更新单元; (140)发音评估提供单位; (AA)声音信号输入
-
-
公开(公告)号:KR1020170109178A
公开(公告)日:2017-09-28
申请号:KR1020160032897
申请日:2016-03-18
Applicant: 한국전자통신연구원
IPC: G10L19/005 , G10L15/32 , G10L15/18 , G10L19/04 , G10L19/00
Abstract: 본발명의실시예에따른자연어음성인식에서오인식뭉치구간을검출하는방법은, 외부로부터입력된음성으로부터특징벡터를추출하는단계, 상기특징벡터에대하여음향모델과언어모델을사용하여제 1 비터비디코딩을수행하는단계, 상기특징벡터에대하여음향모델과언어모델을사용하여제 2 비터비디코딩을수행하는단계, 그리고상기제 1 비터비디코딩에따라획득된제 1 문자열및 제 1 시간정보와상기제 2 비터비디코딩에따라획득된제 2 문자열및 제 2 시간정보를비교하는단계를포함할수 있다. 상기제 2 비터비디코딩수행시의언어모델에대한가중치는 0일수 있다.
Abstract translation: 一种用于检测在自然语言语音识别一个错误识别的一串间隔,根据本发明的一个实施例方法包括:从来自外部的声音输入中提取特征向量的步骤,通过使用声学模型和关于该特征的语言模型向量的第一维特比 执行解码,该方法中,和第一字符串,并根据通过使用声学模型和语言模型相对于所述特征向量和所述执行第二维特比解码所述第一维特比译码中获得的第一时间信息 并比较根据第二维特比解码获得的第二串和第二时间信息。 执行第二维特比解码时的语言模型的权重可以是零。
-
公开(公告)号:KR101711941B1
公开(公告)日:2017-03-03
申请号:KR1020120146925
申请日:2012-12-14
Applicant: 한국전자통신연구원
IPC: G10L15/01
Abstract: 음성인식시스템에서유사도기반비인식대상단어(OOV: Out-of-Vocabulary) 생성방법에관한것이다. 이러한본 발명의비인식대상단어생성방법은음성평가데이터가준비되면, 단어별음소열을갖는인식대상단어사전을생성하는단계; 음성평가데이터에서비인식대상단어를선정한후, 비인식대상단어와인식대상단어사전에저장된적어도하나의인식대상단어의음소열을비교하여유사도를계산하는단계; 적어도하나의인식대상단어중 유사도가제 1 범위에포함되는인식대상단어를제 1 그룹으로구분하여비인식대상단어사전에추가하고문법을수정하는단계; 및적어도하나의인식대상단어중 유사도가제 2 범위에포함되는인식대상단어를제 2 그룹으로구분하여비인식대상단어사전에추가하는단계를포함하는것을특징으로한다.
Abstract translation: 本发明涉及一种基于语音识别系统中的相似度来生成超出词汇(OOV)的方法。 根据本发明的用于生成OOV的方法包括以下步骤:当准备语音测试数据时,生成要被识别的词汇的词典,其具有每个词汇表具有音素串; 从所述语音测试数据中选择OOV,比较所述OOV的音素字符串和要被识别的至少一个要被识别的词汇表的词汇,并且计算相似度; 将要被识别的具有相似性的词汇分类为包含在要识别的至少一个词汇表中的第一范围内的词汇,将要识别的词汇添加到OOV的词典中,并修改语法; 并且将要被识别的词汇表分类为包含在要识别的至少一个词汇表中的第二范围中的相似性的词汇,并将要识别的词汇添加到OOV的词典中。
-
公开(公告)号:KR1020160115041A
公开(公告)日:2016-10-06
申请号:KR1020150041698
申请日:2015-03-25
Applicant: 한국전자통신연구원
Abstract: 본발명에따른음성인식기반의발음학습장치는비원어민학습자의발음오류를반영한멀티미디어강의콘텐츠를제공하고, 말하기연습을위한발성스크립트를제공하는강의콘텐츠제공부, 발성스크립트를제공받은비원어민학습자의학습자음성신호를수신하고, 수신된학습자음성신호인식을통해인식된음성정보를생성하는음성인식부및 발성스크립트및 인식된음성정보에기초하여발음평가피드백정보를생성하는발음평가부를포함한다.
-
-
-
-
-
-
-
-
-