다중 음향공간 GMM을 이용한 음향모델 생성 방법

    公开(公告)号:KR101892095B1

    公开(公告)日:2018-08-28

    申请号:KR1020130119607

    申请日:2013-10-08

    Abstract: 다중음향공간 GMM을이용한음향모델생성방법이개시된다. 본발명에따른다중음향공간 GMM을이용한음향모델생성방법은소량의음성데이터베이스를수집하는단계; 상기음성데이터베이스를이용하여 n개의기존음향모델들에서통계정보를산출하는단계; 상기산출한통계정보및 상기 n개의기존음향모델들의통합규칙(tying rule)을기초로하여최적모델단위를결정하는단계; 상기 n개의기존음향모델들을 1 가우시안혼합모델(1 Gaussian mixture model)과각각혼합하여가우시안혼합수를증가시킨 n개의 n 가우시안혼합모델들을생성하는단계; 상기최적모델단위를상기 n개의 n 가우시안혼합모델들을결합한결과에적용하여최종가우시안혼합모델을생성하는단계; 및상기최종가우시안혼합모델을각 모델단위로구성하는최종음향모델의변별학습결과를기초로하여상기최종가우시안혼합모델간의최적가중치를계산하는단계를포함한다.

    액티브 3D 마이크 그리드 맵을 형성 및 이용하는 서비스 시스템 및 그 동작 방법
    5.
    发明公开
    액티브 3D 마이크 그리드 맵을 형성 및 이용하는 서비스 시스템 및 그 동작 방법 审中-实审
    用于形成和利用有源3D麦克风网格图的服务系统及其操作方法

    公开(公告)号:KR1020170086220A

    公开(公告)日:2017-07-26

    申请号:KR1020160005774

    申请日:2016-01-18

    Abstract: 본발명은액티브 3D 마이크그리드맵을형성및 이용하는서비스시스템및 그동작방법에관한것으로서, 본발명의실시예에따른액티브 3D 마이크그리드맵을형성및 이용하는서비스시스템은다수의스마트기기로부터현재상태정보를수신하는수신부, 수신된상기현재상태정보를기반으로상기다수의스마트기기에대한액티브 3D 마이크그리드맵을형성하는형성부, 및형성된상기액티브 3D 마이크그리드맵을이루는상기다수의스마트기기로부터수신되는소리신호를기반으로기능을동작하는제어부를포함한다.

    Abstract translation: 本发明涉及一种用于形成和使用有源3D麦克风网格地图的服务系统,以及用于形成和使用根据本发明实施例的有源3D麦克风网格地图的服务系统, 接收单元,用于接收当前状态信息;形成单元,用于基于接收到的当前状态信息形成用于多个智能设备的有效3D麦克风网格图;以及声音接收单元 以及用于基于该信号操作功能的控制单元。

    SNS에 기반한 재난 정보 전송 장치 및 방법
    6.
    发明公开
    SNS에 기반한 재난 정보 전송 장치 및 방법 审中-实审
    用于发送与灾难相关的信息的SNS装置和方法

    公开(公告)号:KR1020160123749A

    公开(公告)日:2016-10-26

    申请号:KR1020150054306

    申请日:2015-04-17

    Abstract: SNS에기반한재난정보전송장치및 방법이개시된다. 본발명의일실시예에따른 SNS에기반한재난정보전송장치는사용자주위의소음을인지하고, 상기소음을녹음하는녹음부; 상기소음에기반하여재난이발생하였는지여부를판단하는판단부; 및재난이발생하였다고판단한경우, 상기사용자에상응하는 SNS(Social Network Service)에상기재난과관련된정보를게시하는게시부를포함한다.

    불확실성을 이용한 잡음 환경에서의 음성 인식 방법 및 장치
    8.
    发明公开
    불확실성을 이용한 잡음 환경에서의 음성 인식 방법 및 장치 有权
    语音识别方法与装置在噪声环境中的不确定性

    公开(公告)号:KR1020150049570A

    公开(公告)日:2015-05-08

    申请号:KR1020130130299

    申请日:2013-10-30

    Inventor: 정호영 송화전

    Abstract: 본발명에따른음성인식방법은, 입력된음성신호로부터음성특징을추출하는단계; 상기음성신호의잡음성분을추정하는단계; 상기추정된잡음성분을이용하여상기추출된음성특징을보상하는단계; 상기추출된음성특징, 상기보상된음성특징, 및상기잡음성분을바탕으로, 주어진음향모델을변환하는단계; 및상기보상된음성특징과상기변환된음향모델을이용하여음성인식을수행하는단계를포함하는것을특징으로한다.

    Abstract translation: 根据本发明的用于识别语音的方法包括以下步骤:从输入的语音信号中提取语音特征; 估计噪声信号的噪声分量; 通过使用估计的噪声分量来补偿提取的语音特征; 基于提取的语音特征,补偿的语音特征和噪声分量来转换给定的语音模型; 并通过使用经补偿的语音特征和转换的语音模型来执行语音识别。

    한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법
    9.
    发明授权
    한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법 有权
    为了连续地使用韩国语音识别的混合网络的装置,以及使用该方法生成和减少混合网络的方法

    公开(公告)号:KR101444409B1

    公开(公告)日:2014-09-30

    申请号:KR1020110072813

    申请日:2011-07-22

    Abstract: 음성인식으로 생성되는 래티스 구조를 컨퓨젼 네트워크 구조로 변환하는 과정에서 래티스 링크 확률의 한계치를 설정하여 컨퓨젼 네트워크의 생성 속도를 향상시키도록 한 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법이 제시된다. 제시된 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 이용한 컨퓨젼 네트워크 생성 방법은 음성인식을 통해 생성되는 하나 이상의 래티스를 입력받는 단계; 입력받은 하나 이상의 래티스들 각각의 사후 확률을 연산하는 단계; 연산한 사후 확률을 근거로 래티스에 포함된 노드를 복수의 동치류로 할당하는 단계; 복수의 동치류를 이용하여 컨퓨젼 세트를 생성하는 단계; 및 생성된 컨퓨젼 세트를 근거로 컨퓨젼 네트워크를 생성하는 단계를 포함한다.

    최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법
    10.
    发明公开
    최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법 无效
    基于最大记录比例的创建最佳声学模型的装置及其方法

    公开(公告)号:KR1020130068251A

    公开(公告)日:2013-06-26

    申请号:KR1020110135230

    申请日:2011-12-15

    CPC classification number: G10L15/14 G10L15/063

    Abstract: PURPOSE: An optimal acoustic model generating apparatus of a maximum log likelihood base and a method thereof are provided to reduce a calculation during a performance of a voice recognition by estimating 'an acoustic model which has a Gaussian mixture of optimal number' about each tri-phone unit based on a maximum log likelihood estimation. CONSTITUTION: A state occupation probability calculator(104) calculates an occupation probability of each tri-phone unit state. A state log likelihood calculator(106) calculates a log likelihood of each tri-phone unit state. A decision unit of a ML(Maximum Likelihood) mixture by state(110) maps 'the number of mixtures which have the highest log likelihood' in 'the tri-phone unit state which has respective mixture steps'. An optimal acoustic model generator(112) selects a state model of the mapped mixtures from 'the acoustic model of the tri-phone unit state which has various mixture steps' and generates an acoustic model. [Reference numerals] (100) Mixture increasing unit; (102) Repetitive training unit; (104) State occupation probability calculator; (106) State log likelihood calculator; (108) Mixture increase determining unit; (110) State maximum log likelihood mixture determining unit; (112) Optimum sound model generating unit; (AA) Voice data

    Abstract translation: 目的:提供最大对数似然基础的最佳声学模型生成装置及其方法,以通过估计“关于每个三元组的最佳数量的高斯混合的声学模型”来减少语音识别期间的计算, 基于最大对数似然估计的电话单元。 构成:状态占有概率计算器(104)计算每个三电话单元状态的占用概率。 状态对数似然度计算器(106)计算每个三电话单元状态的对数似然度。 根据状态(110)的ML(最大似然)混合的决策单元将具有最高对数似然性的混合物的数目映射在具有各个混合步骤的三电话单元状态中。 最佳声学模型发生器(112)从“具有各种混合步骤的三电话单元状态的声学模型”中选择映射混合的状态模型并产生声学模型。 (附图标记)(100)混合增加单元; (102)重复训练单位; (104)国家占有概率计算器; (106)状态对数似然计算器; (108)混合物增加确定单位; (110)状态最大对数似然混合判定单元; (112)最佳声音模型生成单元; (AA)语音数据

Patent Agency Ranking