대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
    21.
    发明公开
    대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법 有权
    基于用于自发语音识别的PSEUDO-MORPHEM的多重发音词典结构方法和系统以及使用结构化系统进行语音识别的方法

    公开(公告)号:KR1020050036303A

    公开(公告)日:2005-04-20

    申请号:KR1020030071937

    申请日:2003-10-15

    Inventor: 강병옥

    Abstract: 본 발명은 대화체 음성에서 빈번하게 나타나는 발음변이를 의사형태소 기반의 대표어휘에 수용하여 확장된 다중 발음사전을 구성하고 대표어휘만을 이용하여 언어모델 및 어휘사전을 구성함으로써, 대화체 연속음성인식의 성능을 향상시키고 정형화된 출력패턴을 얻을 수 있는 다중발음사전 구축 방법 및 시스템과 이를 이용한 대화체 음성인식 방법에 관한 것이다.
    본 발명은 대화체 텍스트 코퍼스로부터 대표음 텍스트 코퍼스와 변이음 텍스트 코퍼스를 각각 추출하는 단계와, 대표음 및 변이음 텍스트 코퍼스 각각에 대해 의사형태소 분석 및 태깅을 수행하는 단계와, 태깅 결과를 어절별로 비교하여 의사형태소 단위의 대표음/변이음 쌍들을 추출하는 단계와, 대표음 코퍼스만의 의사형태소 태깅 결과로부터 대표음 어휘사전을 생성하는 단계와, 대표음 어휘사전과 대표음/변이음 쌍 추출 결과를 통해 다중발음사전 및 대표음 언어모델을 생성하는 단계로 이루어진다.

    다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법
    22.
    发明公开
    다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법 有权
    使用多重发音词典顺序识别对方语音的系统和方法

    公开(公告)号:KR1020040051350A

    公开(公告)日:2004-06-18

    申请号:KR1020020079264

    申请日:2002-12-12

    Inventor: 강병옥

    Abstract: PURPOSE: A system and a method for sequentially recognizing a dialog voice using a multi-pronunciation dictionary are provided to enhance a recognition performance on the sequential dialog voice recognition, obtain a normalized output pattern, and enhance an efficiency of a language model by applying an extended pronunciation dictionary. CONSTITUTION: A sound model database(104) stores the information for a sound model. A language model database stores the information for the language model. A multi-pronunciation dictionary(105) database accepts various kinds of pronunciation variation information. A characteristic extractor(101) extracts/converts only the information useful for recognizing the inputted voice into a characteristic vector. A searcher(102) searches the highest probable word string through a Viterbi algorithm by using the sound model database and the language model database. A recognition result output tool(103) provides a recognition result for the inputted voice.

    Abstract translation: 目的:提供一种用于使用多发音字典顺序识别对话语音的系统和方法,以增强对顺序对话语音识别的识别性能,获得归一化输出模式,并通过应用一种语音模型来提高语言模型的效率 扩展发音词典。 声明模型数据库(104)存储声音模型的信息。 语言模型数据库存储语言模型的信息。 多发音字典(105)数据库接收各种发音变化信息。 特征提取器(101)仅将用于识别输入的声音的信息提取/转换成特征向量。 搜索器(102)通过使用声音模型数据库和语言模型数据库通过维特比算法搜索最高可能的字串。 识别结果输出工具(103)为输入的语音提供识别结果。

    다중 음향공간 GMM을 이용한 음향모델 생성 방법

    公开(公告)号:KR101892095B1

    公开(公告)日:2018-08-28

    申请号:KR1020130119607

    申请日:2013-10-08

    Abstract: 다중음향공간 GMM을이용한음향모델생성방법이개시된다. 본발명에따른다중음향공간 GMM을이용한음향모델생성방법은소량의음성데이터베이스를수집하는단계; 상기음성데이터베이스를이용하여 n개의기존음향모델들에서통계정보를산출하는단계; 상기산출한통계정보및 상기 n개의기존음향모델들의통합규칙(tying rule)을기초로하여최적모델단위를결정하는단계; 상기 n개의기존음향모델들을 1 가우시안혼합모델(1 Gaussian mixture model)과각각혼합하여가우시안혼합수를증가시킨 n개의 n 가우시안혼합모델들을생성하는단계; 상기최적모델단위를상기 n개의 n 가우시안혼합모델들을결합한결과에적용하여최종가우시안혼합모델을생성하는단계; 및상기최종가우시안혼합모델을각 모델단위로구성하는최종음향모델의변별학습결과를기초로하여상기최종가우시안혼합모델간의최적가중치를계산하는단계를포함한다.

    음성 인터페이스를 이용한 IPTV 시스템 및 서비스 방법
    25.
    发明授权
    음성 인터페이스를 이용한 IPTV 시스템 및 서비스 방법 有权
    IPTV系统和服务使用语音接口

    公开(公告)号:KR101289081B1

    公开(公告)日:2013-07-22

    申请号:KR1020090085423

    申请日:2009-09-10

    Abstract: 음성입력 장치, 음성인식을 수행하여 텍스트로 변환하는 음성처리 장치, 질의어 처리 및 컨텐츠 검색 장치, 컨텐츠 제공 장치를 포함하는 음성 인터페이스를 이용한 IPTV 시스템이 제공된다. 음성처리 장치는 음질 향상, 잡음 제거 등의 전처리를 수행하고 특징벡터를 추출하는 음성 전처리부, 음향모델 및 언어모델 데이터베이스, 음향모델과 언어모델을 이용하여 특징벡터를 텍스트로 변환하는 디코딩부를 포함하며, 음향모델 데이터베이스는 각 사용자별로 적응된 개인적응 음향모델과 일반화자 음향모델로 구성되어 사용자별 음성특성을 이용하여 음성을 인식한다. 또한, 사용자 프로파일과 선호도를 저장하여 개인화된 서비스를 제공한다. 사용자에 대한 서비스가 제공될 때마다 음성인식의 결과가 음향모델 데이터베이스와 사용자 프로파일 데이터베이스에 업데이트되어 음성인식 성능 및 개인화된 서비스의 성능이 지속적으로 개선될 수 있다.
    IPTV, 컨텐츠 검색, 음성인식, 개인화 서비스, 음성 인터페이스

    최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법
    26.
    发明公开
    최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법 无效
    基于最大记录比例的创建最佳声学模型的装置及其方法

    公开(公告)号:KR1020130068251A

    公开(公告)日:2013-06-26

    申请号:KR1020110135230

    申请日:2011-12-15

    CPC classification number: G10L15/14 G10L15/063

    Abstract: PURPOSE: An optimal acoustic model generating apparatus of a maximum log likelihood base and a method thereof are provided to reduce a calculation during a performance of a voice recognition by estimating 'an acoustic model which has a Gaussian mixture of optimal number' about each tri-phone unit based on a maximum log likelihood estimation. CONSTITUTION: A state occupation probability calculator(104) calculates an occupation probability of each tri-phone unit state. A state log likelihood calculator(106) calculates a log likelihood of each tri-phone unit state. A decision unit of a ML(Maximum Likelihood) mixture by state(110) maps 'the number of mixtures which have the highest log likelihood' in 'the tri-phone unit state which has respective mixture steps'. An optimal acoustic model generator(112) selects a state model of the mapped mixtures from 'the acoustic model of the tri-phone unit state which has various mixture steps' and generates an acoustic model. [Reference numerals] (100) Mixture increasing unit; (102) Repetitive training unit; (104) State occupation probability calculator; (106) State log likelihood calculator; (108) Mixture increase determining unit; (110) State maximum log likelihood mixture determining unit; (112) Optimum sound model generating unit; (AA) Voice data

    Abstract translation: 目的:提供最大对数似然基础的最佳声学模型生成装置及其方法,以通过估计“关于每个三元组的最佳数量的高斯混合的声学模型”来减少语音识别期间的计算, 基于最大对数似然估计的电话单元。 构成:状态占有概率计算器(104)计算每个三电话单元状态的占用概率。 状态对数似然度计算器(106)计算每个三电话单元状态的对数似然度。 根据状态(110)的ML(最大似然)混合的决策单元将具有最高对数似然性的混合物的数目映射在具有各个混合步骤的三电话单元状态中。 最佳声学模型发生器(112)从“具有各种混合步骤的三电话单元状态的声学模型”中选择映射混合的状态模型并产生声学模型。 (附图标记)(100)混合增加单元; (102)重复训练单位; (104)国家占有概率计算器; (106)状态对数似然计算器; (108)混合物增加确定单位; (110)状态最大对数似然混合判定单元; (112)最佳声音模型生成单元; (AA)语音数据

    음질 향상 장치와 음성 인식 시스템 및 방법
    27.
    发明授权
    음질 향상 장치와 음성 인식 시스템 및 방법 有权
    语音改进装置和语音识别系统及方法

    公开(公告)号:KR101239318B1

    公开(公告)日:2013-03-05

    申请号:KR1020080131369

    申请日:2008-12-22

    CPC classification number: G10L21/0208 G10L15/20 G10L25/48

    Abstract: 본 발명은 이동체, 예컨대 주행 중인 차량 내부 환경에서 사용자 음성인터페이스를 위한 음질향상 및 음성 인식 시스템의 성능 향상을 위한 것으로, 이를 위하여 자동차 운행 속도 레벨을 판단하는 방법과 이를 토대로 입력 음성의 음질을 향상 시키기 위한 음질 향상 방법, 자동차 환경에 특화된 음성 활성 검출(voice activity detection, VAD) 방법, 차량 주행 환경에 특화된 음성의 끝점검출(endpoint detection, EPD) 방법, 자동차 운행 속도 레벨에 따른 음성의 특징추출 방법과 음성인식을 위한 decoding 방법을 각각 제안하고 이를 결합함으로써, 정차 혹은 주행중인 자동차 환경에서 사용자 음성인터페이스를 위한 자동 음성 인식(automatic speech recognition, ASR) 성능을 획기적으로 향상시킬 수 있다.
    자동체 주행환경, 음성인식, 음질 향상 및 보상, 음성활성검출, 끝점검출, 특징추출, 다중모델디코딩

    발음 공간 생성 장치 및 그 방법
    28.
    发明公开
    발음 공간 생성 장치 및 그 방법 无效
    装置和方法,用于产生授权空间

    公开(公告)号:KR1020120054350A

    公开(公告)日:2012-05-30

    申请号:KR1020100115681

    申请日:2010-11-19

    CPC classification number: G10L15/04 G10L15/18

    Abstract: PURPOSE: A pronunciation space formation apparatus is provided to minutely model pronunciation modification rules within a word or between words by applying a probabilistic pronunciation modification rule and expanding a pronunciation space. CONSTITUTION: A pronunciation space generator(110) creates a pronunciation space based on a recognition target word. A pronunciation space expansion unit(120) expands the created pronunciation space in consideration of pronunciation modification rules within a word or between words. A power supply unit(130) supplies a power source to the pronunciation space generator and the pronunciation space expansion unit. A main control unit(140) controls the whole operation of the pronunciation space generator and the pronunciation space expansion unit.

    Abstract translation: 目的:提供一种发音空间形成装置,通过应用概率发音修改规则和扩展发音空间来精细地模拟单词内或单词之间的发音修改规则。 构成:发音空间发生器(110)基于识别目标词创建发音空间。 发音空间扩展单元(120)考虑到单词内或单词之间的发音修改规则来扩展创建的发音空间。 电源单元(130)向发音空间发生器和发音空间扩展单元提供电源。 主控制单元(140)控制发音空间发生器和发音空间扩展单元的整体操作。

    발화 검증 장치 및 그 방법
    29.
    发明授权
    발화 검증 장치 및 그 방법 有权
    UTTERANCE验证装置及其方法

    公开(公告)号:KR101095865B1

    公开(公告)日:2011-12-21

    申请号:KR1020090026297

    申请日:2009-03-27

    Abstract: 본 발명은 입력 음성에 대한 신뢰성 있는 인식 결과를 출력한다는 것으로, 이를 위하여 본 발명은, 입력 음성의 단어에 대한 서브 워드별 우도비를 이용하여 발화 검증을 수행하는 종래 방법과는 달리, 입력 음성 단어에 대한 서브 워드별 우도비에 인식 신뢰도에 따른 우도비 가중치를 적용한 후, 이를 취합하여 단어의 발화 검증을 수행하거나 입력 음성 단어에 대한 서브 워드별 우도비를 이용하여 각 서브 워드별로 부분 발화 검증을 수행한 후, 단어의 전체 발화 검증을 수행함으로써, 입력 음성에 대한 인식 결과의 신뢰도를 향상시킬 수 있는 것이다.
    음성 인식, 우도비, 발화 검증

    리모트 컨트롤러, 입력 인터페이스 제어 장치 및 방법
    30.
    发明授权
    리모트 컨트롤러, 입력 인터페이스 제어 장치 및 방법 有权
    远程控制器,控制输入接口的方法和装置

    公开(公告)号:KR101092364B1

    公开(公告)日:2011-12-09

    申请号:KR1020080131236

    申请日:2008-12-22

    Abstract: 본발명은리모트컨트롤러, 입력인터페이스제어장치및 방법에관한것으로, 리모트컨트롤러의숫자키패드영역및 방향키영역을문자키패드대상으로삼고, 한글의자음과모음을분리하여양손으로입력가능하게하였으며, 점차상용화영역이확대되고있는음성인식을지원할수 있는리모트컨트롤러의구성과화면인터페이스체계를제공하여기존리모트컨트롤러의형상을벗어나지않는범위에서문자및 음성입력을지원하고, 휴대폰과는다르게화면의거리가떨어져있으면서다양한사용자입력이요구되는 IPTV 환경에서의효과적인문자입력체계를위해소수의키 개수로쿼티자판효과를도모하였으며, 음성입력방식을고려하여가젯형태의화면인터페이스를제공하고, 입력키패드는한글입력모드에서자음과모음을분리하여양손입력이용이하게하며, 입력키범위를방향키까지확대하여자판확보를도모하였고, 시프트키체계를도입하여문자입력에편의성을향상시켰으며, 가젯형태의화면인터페이스는한글/영문/숫자/음성입력을모두고려해설계하여각각독립적인입력인터페이스의형태를제시함으로써다양한 IPTV 입력이벤트에활용할수 있도록한 이점이있다.

Patent Agency Ranking