-
公开(公告)号:KR102223653B1
公开(公告)日:2021-03-05
申请号:KR1020160076806A
申请日:2016-06-20
Applicant: 한국전자통신연구원
Abstract: 본 발명의 일 실시예에 따른 음성 신호 처리 장치는 사용자의 음성 신호를 입력받는 입력부, 상기 사용자의 발화에 기인하는 움직임을 감지해서 상기 사용자의 음성신호 발화구간 식별을 위한 보조 신호를 감지하는 감지부, 상기 사용자로부터 동작 모드의 선택 및 상기 음성 신호와 보조 신호에 대한 프로토콜 적용 방식의 선택 중 적어도 하나에 관한 정보를 입력받는 스위치 및 선택된 상기 동작 모드가 제 1 동작 모드인 경우 상기 음성 신호를 제 1 프로토콜을 이용하여 외부 단말로 전송하고, 선택된 상기 동작 모드가 제 2 동작 모드인 경우 상기 음성 신호 및 보조 신호를 상기 제 1 프로토콜을 이용하여 상기 외부 단말로 전송하거나, 상기 음성 신호 및 보조 신호 별로 상이하게 각각 상기 제 1 프로토콜 및 제 2 프로토콜 중 하나의 프로토콜을 이용하여 상기 외부 단말로 전송하는 신호 처리부를 포함할 수 있다.
-
公开(公告)号:KR101747874B1
公开(公告)日:2017-06-27
申请号:KR1020150094041
申请日:2015-07-01
Applicant: 한국전자통신연구원
Abstract: 본발명은 PC, 또는핸드폰, 스마트폰, PDA, Laptop 등휴대가가능한기기와통신하거나직접자동통역단말기에활용되는자동통역시스템에관한것으로서, 상기자동통역시스템은, 발화자의음성인식용마이크신호, 골도마이크신호및 발화자의제스쳐신호를네트워크를통해전송하고, 네트워크를통해수신된통역결과신호를출력하는웨어러블자동통역입출력장치; 및상기웨어러블자동통역입출력장치로부터네트워크를통해전송된골도마이크신호또는제스쳐신호를이용하여상기음성인식용마이크신호에서음성데이터구간을검출하고, 검출된구간내의음성데이터의음성인식및 통역을수행한후, 통역결과신호를네트워크를통해상기웨어러블자동통역입출력장치로전송하는서버를포함한다.
Abstract translation: 本发明的PC或者移动电话,智能电话,PDA,膝上型计算机等为可用设备和通信或直接同声传译终端利用同声翻译系统上携带,同声翻译系统,通话者的语音识别麦克风信号, 1.一种穿戴式自动解释输入输出装置,用于经由网络发送通话者的骨线麦克风信号和手势信号,并输出通过网络接收到的解读结果信号; 以及使用该骨传导麦克风信号或发送在从可佩戴自动判读的输入和输出装置与所述语音识别网络的手势信号中检测在麦克风信号中的语音数据扇区和所检测到的时间间隔内执行的语音数据的语音识别和解释 以及服务器,用于经由网络将解读结果信号发送到可穿戴式自动解译输入/输出设备。
-
公开(公告)号:KR1020140059545A
公开(公告)日:2014-05-16
申请号:KR1020120126111
申请日:2012-11-08
Applicant: 한국전자통신연구원
IPC: G10L15/14
CPC classification number: G10L15/14 , G10L15/005 , G10L2015/025
Abstract: The present invention relates to a retraining method by complementing insufficient audio data for a particular language and without changing the structure of the acoustic model simultaneously using a joint phone which is included in the multilingual audio data. Speech data for each language must be fully prepared in order to create an acoustic model of a multi-continuous speech recognition device but consumes a lot of costs and time in general. And the present invention can define common phonemes to be used for a phoneme symbol which is acoustically same between multiple languages. Provided is a selective retraining method using the common phoneme in the language which has a large amount of the audio data in order to train the language of insufficient memory on the basis of above.
Abstract translation: 本发明涉及一种通过补充特定语言的不足的音频数据并且不使用包括在多语言音频数据中的联合电话同时改变声学模型的结构的再培训方法。 必须对每种语言的语音数据进行全面准备,以创建多连续语音识别设备的声学模型,但通常会消耗大量成本和时间。 并且本发明可以定义要用于在多种语言之间声学上相同的音素符号的共同音素。 提供了一种选择性再培训方法,其使用具有大量音频数据的语言中的公共音素,以便基于上述来训练不足的存储器的语言。
-
公开(公告)号:KR1020120045582A
公开(公告)日:2012-05-09
申请号:KR1020100107205
申请日:2010-10-29
Applicant: 한국전자통신연구원
IPC: G10L15/14
CPC classification number: G10L15/144 , G10L15/285
Abstract: PURPOSE: A sound model generating apparatus and a method thereof are provided to automatically search for a penalty value about complexity of a sound model of an MDL(Minimum Description Length) standard. CONSTITUTION: A binary tree generating unit(101) generates a binary tree by repetition of Gaussian components in an HMM(Hidden Markov Model) state based on distance standards. An information generating unit(102) generates the maximum scale information of the sound model according to a platform(111) including a sound recognition unit(112). A binary tree reduction unit(103) reduces the binary tree according to the maximum scale information of the sound model.
Abstract translation: 目的:提供一种声音模型生成装置及其方法,以自动搜索关于MDL(最小描述长度)标准的声音模型的复杂度的惩罚值。 构成:二叉树生成单元(101)通过基于距离标准在HMM(隐马尔可夫模型)状态中重复高斯分量来生成二叉树。 信息生成单元(102)根据包括声音识别单元(112)的平台(111)生成声音模型的最大比例信息。 二叉树缩小单元(103)根据声音模型的最大比例信息来减少二叉树。
-
公开(公告)号:KR101805976B1
公开(公告)日:2017-12-07
申请号:KR1020150028913
申请日:2015-03-02
Applicant: 한국전자통신연구원
Abstract: 음성인식장치및 음성인식방법이제공된다. 음성인식방법은입력신호를음향모델데이터로변환하는단계, 상기음향모델데이터를음성모델그룹및 비음성모델그룹으로분리하고상기음성모델그룹에대응하는제1 최대우도및 상기비음성모델그룹에대응하는제2 최대우도를계산하는단계, 상기제1 최대우도및 상기제2 최대우도사이의우도비율에기초하여음성을검출하는단계, 상기음성이검출되기시작한경우에디코더의출력데이터에기초하여발화정지정보를획득하고상기발화정지정보에기초하여상기입력신호를복수의음성구간으로분리하는단계, 상기음향모델데이터의사전확률분포의정보에기초하여상기복수의음성구간각각의신뢰도를계산하는단계및 상기복수의음성구간중에서상기신뢰도가문턱치보다작은음성구간을제거하는단계를포함한다.
Abstract translation: 提供语音识别装置和语音识别方法。 语音识别方法,包括以下步骤:将输入信号转换成声学模型数据,将所述声学模型数据在语音模型组和非语音模型组,并对应于第一最大似然,并且对应于语音模型组非语音模型组, 基于解码器的输出数据基于第一最大似然性和第二最大似然性之间的似然比来计算第二最大似然性, 获得停止信息以及基于所述输入信号分离成多个语音段的先验分布的信息,所述声学模型数据计算所述基于点火停止信息多个声音间隔,每个间隔可靠性的 并且去除多个语音区间中可靠性小于阈值的语音区间。
-
公开(公告)号:KR1020160106270A
公开(公告)日:2016-09-12
申请号:KR1020150028913
申请日:2015-03-02
Applicant: 한국전자통신연구원
Abstract: 음성인식장치및 음성인식방법이제공된다. 음성인식방법은입력신호를음향모델데이터로변환하는단계, 상기음향모델데이터를음성모델그룹및 비음성모델그룹으로분리하고상기음성모델그룹에대응하는제1 최대우도및 상기비음성모델그룹에대응하는제2 최대우도를계산하는단계, 상기제1 최대우도및 상기제2 최대우도사이의우도비율에기초하여음성을검출하는단계, 상기음성이검출되기시작한경우에디코더의출력데이터에기초하여발화정지정보를획득하고상기발화정지정보에기초하여상기입력신호를복수의음성구간으로분리하는단계, 상기음향모델데이터의사전확률분포의정보에기초하여상기복수의음성구간각각의신뢰도를계산하는단계및 상기복수의음성구간중에서상기신뢰도가문턱치보다작은음성구간을제거하는단계를포함한다.
Abstract translation: 根据本发明,提供一种用于识别语音的装置和方法,以执行语音检测和语音部分的选择。 该方法包括以下步骤:将输入信号转换成声音模型数据; 将声音模型数据分离成语音模型组和非语音模型组,并且计算对应于语音模型组的第一最大似然和与非语音模型组对应的第二最大似然; 基于第一和第二最大似然比之间的似然比来检测语音; 当语音开始被检测时,基于解码器的输出数据获取讲话停止信息,并且基于说话停止信息将输入信号划分成多个话音部分; 基于声音模型数据的先验概率分布来计算每个语音段的可靠性; 以及在语音部分中去除具有低于阈值的可靠性的语音部分。
-
公开(公告)号:KR1020160081244A
公开(公告)日:2016-07-08
申请号:KR1020140194777
申请日:2014-12-31
Applicant: 한국전자통신연구원
CPC classification number: G06F17/289 , G10L15/26 , G10L17/14
Abstract: 본발명은자원통역시스템및 이의동작방법에관한것으로, 상기시스템은, 입력되는음성및 텍스트를바탕으로화자적응된음향모델및 입력텍스트와유사문장에적응된언어모델을제공하는개인화모듈; 상기개인화모듈에의해제공되는음향모델및 언어모델을바탕으로, 입력되는음성및 텍스트에대해자동음성인식및 번역을수행하는자동통역모듈; 상기자동통역모듈로부터출력되는음성인식결과와번역결과에대한신뢰도를바탕으로신뢰도값을출력하는신뢰도결정모듈; 및상기음성인식결과, 상기번역결과및 상기신뢰도값을외부표시장치로전송하는서버를포함한다.
Abstract translation: 本发明涉及一种自动解释系统及其操作方法。 自动解释系统包括:个性化模块,其基于输入的语音和文本提供适合于声音模型的扬声器,以及适合于与输入文本类似的句子的语言模型; 自动解释模块,基于由个人化模块提供的声学模型和语言模块,执行关于输入语音和文本的自动语音识别和翻译; 可靠性确定模块,基于从所述自动解释模块输出的语音识别结果和翻译结果的可靠性输出可靠性值; 以及向外部显示装置发送语音识别结果,翻译结果和可靠性值的服务器。
-
公开(公告)号:KR1020130059476A
公开(公告)日:2013-06-07
申请号:KR1020110125405
申请日:2011-11-28
Applicant: 한국전자통신연구원
IPC: G10L15/08
CPC classification number: G10L15/083 , G10L15/187 , G10L15/08 , G10L2015/081
Abstract: PURPOSE: A search space generating method for voice recognition and a system thereof are provided to improve an accuracy of a voice recognition by adding 'a pronunciation heat which is generated by a pronunciation conversion between recognition units' to a search space. CONSTITUTION: A WFST[Weighted Finite State Transducer] coupling unit generates a WFST L·G by a coupling of a WFST G[WFST Grammar] and a WFST L[WFST pronunciation Library] and generates a WFST L'·L·G by a coupling of a WFST L'[WFST pronunciation conversion] and the WFST L·G(310,320). The WFST coupling unit generates a WFST C·L'·L·G by a coupling of a WFST context[WFST C] and the WFST L'·L·G and generates a WFST H·C·L'·L·G by a coupling of a WFST H[WFST Hidden Markov model] and the WFST C·L'·L·G(330,340). A WFST optimization unit optimizes the WFST H·C·L'·L·G(350). [Reference numerals] (310) WFST G and WFST L combination; (320) WFST L' and WFST L·G combination; (330) WFST C and WFST L'·L·G combination; (340) WFST H and WFST C·L'·L·G combination; (350) Optimization; (AA) Start; (BB) End
Abstract translation: 目的:提供一种用于语音识别的搜索空间生成方法及其系统,以通过将由识别单元之间的语音转换产生的发音热量添加到搜索空间来提高语音识别的精度。 构成:WFST [加权有限状态传感器]耦合单元通过WFST G [WFST语法]和WFST L [WFST发音库]的耦合产生WFST L·G,并通过一个WFST L'·L·G生成WFST L' WFST L'[WFST发音转换]与WFST L·G(310,320)的耦合。 WFST耦合单元通过WFST上下文[WFST C]和WFST L'·L·G的耦合产生WFST C·L'·L·G,并通过下式产生WFST H·C·L'·L·G WFST H [WFST隐马尔可夫模型]和WFST C·L'·L·G(330,340)的耦合。 WFST优化单元优化WFST H·C·L'·L·G(350)。 (参考号)(310)WFST G和WFST L组合; (320)WFST L'和WFST L·G组合; (330)WFST C和WFST L'·L·G组合; (340)WFST H和WFST C·L'·L·G组合; (350)优化; (AA)开始; (BB)结束
-
公开(公告)号:KR1020120056086A
公开(公告)日:2012-06-01
申请号:KR1020100117611
申请日:2010-11-24
Applicant: 한국전자통신연구원
CPC classification number: G10L15/14 , G10L15/26 , G10L19/038
Abstract: PURPOSE: An acoustic model adapting method and a voice recognizing device using the same are provided to eliminate a re-study burden of a user about a quantized acoustic model by an embedded voice recognizing machine. CONSTITUTION: An extracting unit(110) extracts features from a waveform corresponding to a voice. The extracting unit generates quantized data. A probability measuring unit(120) applies the quantized data, an adapted network, and a quantized acoustic model to fixed point-applied high-speed computation. The probability measuring unit calculates Gaussian occupancy probability. An adaption unit(130) updates the acoustic model. A voice recognizing unit(150) recognizes the extracted features using the updated acoustic model.
Abstract translation: 目的:提供一种声学模型适应方法和使用其的语音识别装置,以消除用户通过嵌入式语音识别机器对量化声学模型的重新学习负担。 构成:提取单元(110)从对应于声音的波形中提取特征。 提取单元生成量化数据。 概率测量单元(120)将量化数据,适应网络和量化声学模型应用于固定点施加的高速计算。 概率测量单元计算高斯占用概率。 适应单元(130)更新声学模型。 语音识别单元(150)使用更新的声学模型识别所提取的特征。
-
公开(公告)号:KR1020170007114A
公开(公告)日:2017-01-18
申请号:KR1020160076806
申请日:2016-06-20
Applicant: 한국전자통신연구원
Abstract: 본발명의일 실시예에따른음성신호처리장치는사용자의음성신호를입력받는입력부, 보조신호를감지하는감지부, 및제 1 동작모드에서상기음성신호를외부단말로전송하고, 제 2 동작모드에서상기음성신호및 보조신호를동일한프로토콜또는서로다른프로토콜을이용하여상기외부단말로전송하는신호처리부를포함할수 있다.
-
-
-
-
-
-
-
-
-