심층 신경망 기반 음성인식 방법 및 그 장치

    公开(公告)号:KR102204975B1

    公开(公告)日:2021-01-19

    申请号:KR1020160008167

    申请日:2016-01-22

    Abstract: 본발명의일면에따른심층신경망기반음성인식방법은, 음성신호를입력받는단계; 상기음성신호를주파수신호로변환하는단계; 상기주파수신호로이루어진벡터신호와가중치벡터(Weight Vector)와의가중치합(Weighted Sum)으로다음단계은닉층(Hidden Layer)의각 노드에대응하는복수의맥스-풀링(Max-Pooling) 입력노드값을구하는단계; 및상기복수의맥스-풀링입력노드값가운데가장큰 값을상기다음단계은닉층의노드값으로결정하는단계;를포함하되, 상기가중치벡터는시간축래핑정도에기초해결정된임계값을기준으로나눠지는프레임인덱스의범위에따라학습에의해미리설정된기준가중치벡터를주파수밴드인덱스, 프레임길이, 및프레임순서중 적어도하나를인수로하여시간축으로압축하여구하는것을특징으로한다

    대어휘 연속 음성 인식 장치 및 방법
    3.
    发明公开
    대어휘 연속 음성 인식 장치 및 방법 审中-实审
    大容量连续语音识别的装置和方法

    公开(公告)号:KR1020160099212A

    公开(公告)日:2016-08-22

    申请号:KR1020150021339

    申请日:2015-02-12

    CPC classification number: G10L15/142 G10L15/063 G10L15/16 G10L21/02

    Abstract: CD-DNN-HMM (Context-Dependent Deep-Neural-Network Hidden-Markov-Model) 알고리즘기반의대어휘연속음성인식장치가제공된다. 상기음성인식장치는, 감마톤필터뱅크신호분석알고리즘기반의제1 특징벡터및 보틀넥알고리즘기반의제2 특징벡터중 적어도하나를이용하여, 학습데이터모델군으로부터입력음성신호에대응하는음향모델-상태레벨정보를추출하는추출부, 및상기추출된음향모델-상태레벨정보에기초하여, 상기입력음성신호의인식결과를제공하는음성인식부를포함할수 있다.

    Abstract translation: 提供了一种基于上下文相关深度神经网络隐马尔可夫模型(CD-DNN-HMM)算法的大量词汇的连续语音识别装置。 语音识别装置包括:提取单元,其通过使用基于伽马滤波器组信号分析算法的第一特征向量和第二特征向量之间的至少一个来提取来自学习数据模型组的与输入语音信号相对应的声学模型状态级别信息, 基于瓶颈算法的第二特征向量; 以及语音识别单元,其基于所提取的声学模型状态级信息提供输入语音信号的识别结果。

    음성인식장치
    4.
    发明公开
    음성인식장치 审中-实审
    声音识别装置

    公开(公告)号:KR1020150054445A

    公开(公告)日:2015-05-20

    申请号:KR1020130136890

    申请日:2013-11-12

    CPC classification number: G10L15/187 G10L15/04 G10L15/18

    Abstract: 실시예는, 음소분포를고려한스크립트(script)를낭독체로발성한사용자음성에대응하는사용자낭독체음성데이터및 이전입력된사용자음성에대응하여누적된사용자자연어음성데이터를상황별로저장한음성데이터베이스, 상기사용자낭독체음성데이터및 상기사용자자연어음성데이터를비교하여, 각음소별모호성(ambiguity)에대한상황별모호성가중치를추출하여, 기설정된화자의낭독체음성데이터및 자연어음성데이터를기반으로미리설정된음향모델에상기상황별모호성가중치를적용하는모호성적용모듈및 발화된사용자음성입력시, 상기모호성적용모듈에의해상기상황별모호성가중치가적용된상기음향모델을기반으로음성인식을수행하며, 상기발화된사용자음성에서상기상황별모호성가중치가설정가중치이상인음소또는음소구간에대하여설정된문맥정보및 분류기파라미터를기반으로음성인식을수행하는디코딩모듈을포함하는음성인식장치를제공한다.

    Abstract translation: 根据本发明的实施例,语音识别装置包括:语音数据库; 模糊应用模块; 和解码模块。 语音数据库根据相应的语音数据库预先存储与用户背景语音相对应的语音的用户背景语音数据和与用户的语音输入对应的用户的累积自然语言语音数据 的情况。 歧义应用模块比较用户的背诵语音数据和自然语言语音数据,以提取关于每个音素的模糊度的各种情况的模糊权重值,并将模糊权重值应用于各种情况下的预设语音模型 基于用户背诵语音数据和自然语言语音数据。 解码模块在接收到来自用户的语音输入时,由歧义应用模块预先基于应用模糊权重值的语音模型运行语音识别操作。 解码模块还基于为用户语音的音素或音素段设置的分类参数和上下文信息执行另一语音识别操作,其具有高于各个情况的预设权重值的模糊权重值。

    다중 음향공간 GMM을 이용한 음향모델 생성 방법
    5.
    发明公开
    다중 음향공간 GMM을 이용한 음향모델 생성 방법 审中-实审
    使用MUILTI-SPACE GAUSSIAN混合模型创建声学模型的方法

    公开(公告)号:KR1020150041289A

    公开(公告)日:2015-04-16

    申请号:KR1020130119607

    申请日:2013-10-08

    CPC classification number: G10L15/14 G10L15/06

    Abstract: 다중음향공간 GMM을이용한음향모델생성방법이개시된다. 본발명에따른다중음향공간 GMM을이용한음향모델생성방법은소량의음성데이터베이스를수집하는단계; 상기음성데이터베이스를이용하여 n개의기존음향모델들에서통계정보를산출하는단계; 상기산출한통계정보및 상기 n개의기존음향모델들의통합규칙(tying rule)을기초로하여최적모델단위를결정하는단계; 상기 n개의기존음향모델들을 1 가우시안혼합모델(1 Gaussian mixture model)과각각혼합하여가우시안혼합수를증가시킨 n개의 n 가우시안혼합모델들을생성하는단계; 상기최적모델단위를상기 n개의 n 가우시안혼합모델들을결합한결과에적용하여최종가우시안혼합모델을생성하는단계; 및상기최종가우시안혼합모델을각 모델단위로구성하는최종음향모델의변별학습결과를기초로하여상기최종가우시안혼합모델간의최적가중치를계산하는단계를포함한다.

    Abstract translation: 公开了一种使用多声空间高斯混合模型(GMM)生成声学模型的方法,包括:收集少量语音数据库; 使用语音数据库从n个现有声学模型计算统计信息; 基于所计算的统计信息和n个现有声学模型的绑定规则确定最优模型单元; 将n个现有声学模型中的每一个与1个GMM混合以产生以高斯混合数增加的n个n个GMM; 通过将最佳模型单元应用于组合n个n个GMM的结果来生成最终GMM; 并基于包括最终GMM的最终声学模型的鉴别学习的结果作为每个模型单元来计算最终GMM中的最优权重。

    발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법
    6.
    发明授权
    발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법 有权
    基于UTTERANCE验证自动处理大量语音数据的装置和方法

    公开(公告)号:KR101444411B1

    公开(公告)日:2014-10-01

    申请号:KR1020110135916

    申请日:2011-12-15

    Abstract: 음성인식시스템을 통해 수집된 대용량 음성 데이터에 대해 자동으로 음성 데이터를 분류하고, 분류된 음성 데이터를 사용하여 음향모델 생성하도록 한 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법이 제시된다. 제시된 발화검증 기반 대용량 음성 데이터 자동 처리 장치는 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특징을 추출하는 추출부; 추출부에서 추출된 음성의 특징과, 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 복수의 대용량 음성 데이터들 각각을 정상 인식 데이터, 비정상 인식 데이터, 판단불가 데이터 중에 하나로 구분하는 발화 검증부; 및 발화 검증부에 의해 구분된 복수의 대용량 음성 데이터들 중에서 판단불가 데이터로 분류된 대용량 음성 데이터들을 음향모델링 데이터로 분류하고, 분류된 음향모델링 데이터를 근거로 음향모델을 생성하는 음향모델링부를 포함한다.

    음성 기반 캡차 방법 및 장치
    7.
    发明公开
    음성 기반 캡차 방법 및 장치 审中-实审
    基于语音识别方法和基于语音的人机识别装置

    公开(公告)号:KR1020140076056A

    公开(公告)日:2014-06-20

    申请号:KR1020120144161

    申请日:2012-12-12

    CPC classification number: G10L15/00 G06F21/31 G06F2221/2133 G10L17/00

    Abstract: Provided is a voice-based completely automated public turing test to tell computers and humans apart (CAPTCHA) method and an apparatus to perform a CAPTCHA procedure using the voice of a human being. The provided method comprises the steps of collecting a plurality of uttered sounds of a user; detecting a start point and an end point of a voice from each of the plurality of collected uttered sounds, and then detecting speech sections; comparing the uttered sounds of the respective detected speech sections with reference uttered sounds, and then determining whether the uttered sounds are correctly uttered; and determining whether the plurality of uttered sounds have been made by an identical speaker if it is determined that the uttered sounds are correctly uttered. Accordingly, the CAPTCHA procedure is performed using the voice of the human being, and thus it can be easily checked whether a human being has personally made a response using a voice online.

    Abstract translation: 提供了基于语音的完全自动化的公共图灵测试,以分辨计算机和人类(CAPTCHA)方法和使用人的声音执行人机验证程序的装置。 所提供的方法包括以下步骤:收集用户的多个发出的声音; 从所述多个收集的发出的声音中的每一个检测语音的起始点和终点,然后检测语音部分; 将各个检测到的语音部分的发出的声音与参考发出的声音进行比较,然后确定发出的声音是否被正确发出; 以及如果确定发出的声音被正确地发出,则确定多个发出的声音是否由相同的扬声器进行。 因此,使用人的声音进行CAPTCHA程序,因此可以容易地检查人是否已经使用在线语音亲自做出了响应。

    음성 인식 장치 및 방법
    9.
    发明授权
    음성 인식 장치 및 방법 有权
    语音识别装置及其方法

    公开(公告)号:KR101329281B1

    公开(公告)日:2013-11-13

    申请号:KR1020100104894

    申请日:2010-10-26

    Abstract: 본 발명에 따른 음성 인식 장치는, 전역 특징 벡터, 전역 어휘 모델, 및 전역 음향 모델로 구성된 전역 데이터베이스부; 복수의 개별 인식부로 구성된 인식부; 상기 각 개별 인식부들에 각기 대응하는 복수의 개별 언어 모델로 구성된 개별 데이터베이스부; 및 상기 각 개별 인식부들의 인식결과를 수집하고 평가하는 수집평가부를 포함하고, 상기 개별 인식부 각각은, 상기 전역 특징 벡터, 상기 전역 어휘 모델, 상기 전역 음향 모델, 및 상기 대응하는 개별 언어 모델만을 이용하여 입력신호를 인식할 수 있다. 본 발명은 음성 인식의 인식 속도를 향상시키고, 언어 모델 적용범위를 제고하는 효과가 있다.

    음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법
    10.
    发明授权
    음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법 有权
    用于过滤基于模型的失真补偿型语音识别噪声的装置及其方法

    公开(公告)号:KR101253102B1

    公开(公告)日:2013-04-10

    申请号:KR1020090092779

    申请日:2009-09-30

    Inventor: 정호영 강병옥

    Abstract: 본 발명은 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 기술에 관한 것으로, 입력된 음성을 일정 길이의 프레임으로 구분하여 각 프레임의 음성 부재 확률을 추정하고, 이를 바탕으로 동적 잡음을 제거하는 필터를 설계하여 얻은 임시 순수 신호에 잔재된 잡음과, 동적 잡음의 부정확한 추정으로 인해 포함된 왜곡을 처리하는 것을 특징으로 한다. 본 발명에 의하면, 1채널 잡음 처리 기술을 통하여 종래의 음성통화 목적으로 사람이 인지하기 좋도록 처리하는 방식과 달리 음성인식을 위한 왜곡을 일으키지 않고, 잡음을 제거함으로써, 시간에 따라 특성이 변하는 동적 잡음을 해결하며, 음성 구간 내에 존재하는 잡음 성분의 제거를 효과적으로 수행할 수 있다.
    음성인식, 잡음처리, 동적잡음 제거, 왜곡 보상, 가우시안 믹스쳐 모델(Gaussian Mixture Model)

Patent Agency Ranking