신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법

    公开(公告)号:KR101844932B1

    公开(公告)日:2018-04-03

    申请号:KR1020140122803

    申请日:2014-09-16

    CPC classification number: G10L15/16

    Abstract: 신호처리알고리즘이통합된심층신경망기반의음성인식장치및 이의학습방법이개시된다. 본발명의일면에따른컴퓨터로구현가능한심층신경망기반음성인식장치에서모델파라미터학습방법은 (a) 시간도메인의음성입력신호에서특징파라미터를추출하기위한신호처리알고리즘을심층신경망기반의신호처리기(signal processing DNN)로변환하는단계; (b) 상기심층신경망기반의신호처리기와심층신경망기반의분류기(classification DNN)을융합하는단계; 및 (c) 상기심층신경망기반의신호처리기및 상기심층신경망기반의분류기가융합된심층학습모델에서모델파라미터를학습하는단계를포함한다.

    음성인식을 위한 특징 추출 장치 및 방법
    4.
    发明公开
    음성인식을 위한 특징 추출 장치 및 방법 有权
    提取语音识别功能的装置和方法

    公开(公告)号:KR1020150004513A

    公开(公告)日:2015-01-13

    申请号:KR1020130077494

    申请日:2013-07-03

    CPC classification number: G10L15/02 G10L15/26

    Abstract: 본 발명에 따른, 음성인식을 위한 특징 추출 장치는, 입력되는 음성신호를 소정 사이즈의 프레임 단위로 분리하는 프레임 형성부; 상기 음성신호의 각 프레임 별로 정적 특징 벡터를 추출하는 정적 특징 추출부; 기저함수 또는 기저벡터를 이용하여, 상기 추출된 정적 특징 벡터의 시간에 따른 변화를 나타내는 동적 특징 벡터를 추출하는 동적 특징 추출부; 및 상기 추출된 정적 특징 벡터와 동적 특징 벡터를 결합하여 특징 벡터 스트림을 구성하는 특징 벡터 결합부를 포함한다.

    Abstract translation: 根据本发明,一种用于提取用于语音识别的特征的装置包括:帧形成单元,其将输入的语音信号分成预定大小的帧单位; 静态特征提取单元,其向语音信号的每个帧提取静态特征向量; 动态特征提取单元,其通过使用基函数或基向量来提取表示所提取的静态特征向量随时间的变化的动态特征向量; 以及特征向量组合单元,其组合提取的静态特征向量和提取的动态特征向量,并形成特征向量流。

    디코딩 정보를 이용한 끝점 검출 장치 및 그 방법
    5.
    发明公开
    디코딩 정보를 이용한 끝점 검출 장치 및 그 방법 无效
    用于使用解码信息检测端点的装置和方法

    公开(公告)号:KR1020130134620A

    公开(公告)日:2013-12-10

    申请号:KR1020120058249

    申请日:2012-05-31

    CPC classification number: G10L15/05 G10L15/04

    Abstract: The present invention provides a device for detecting an end point using decoding information comprising; an end point detector which detects the end point of an audio signal included in a sound signal by receiving the audio signal from the outside; a decoder which produces decoding information by decoding the audio signal; an end point discriminator which extracts reference information which becomes a standard of the determination of an actual end point and determines whether the end point detected in the end point detector is the actual end point among detected end points or not based on the extracted standard information. [Reference numerals] (110) End point detector;(120) Decoder;(130) End point discriminator;(AA) Audio signal input

    Abstract translation: 本发明提供一种使用解码信息检测终点的装置,包括: 端点检测器,其通过从外部接收音频信号来检测包括在声音信号中的音频信号的终点; 解码器,通过解码音频信号产生解码信息; 提取作为实际终点的确定的标准的参照信息的终点鉴别器,根据所提取出的标准信息,判定检测结束点中检测到的终点是否为检测结束点之间的实际终点。 (110)端点检测器;(120)解码器;(130)终点识别器;(AA)音频信号输入

    음성인식 오류 혼돈 행렬을 이용한 클러스터링 장치 및 그 방법
    7.
    发明公开
    음성인식 오류 혼돈 행렬을 이용한 클러스터링 장치 및 그 방법 无效
    使用语音识别错误的混淆矩阵进行聚类的装置和方法

    公开(公告)号:KR1020130068196A

    公开(公告)日:2013-06-26

    申请号:KR1020110134836

    申请日:2011-12-14

    CPC classification number: G10L15/14 G10L15/02

    Abstract: PURPOSE: A clustering apparatus which uses a voice recognition error confusion matrix and a method thereof are provided to improve the discrimination and reliability of a sound model by detecting 'high frequency error pairs which have a frequent voice recognition result error' and clustering the sound model based on a detection result. CONSTITUTION: A sound model generator(100) receives training voice data and generates a sound model. A voice recognition unit(110) performs a voice recognition based on the generated sound model, an inputted test, and user voice data. An error confusion matrix configuration unit(120) configures a confusion matrix with 'error pairs which are extracted through a comparison of the voice recognition result and enterprise data. A state clustering unit(101a) performs the state clustering of the sound model based on 'high extraction frequency error pairs which are extracted from a high frequency error pair extractor(130). [Reference numerals] (100) Sound model generator; (101a) State clustering unit; (110) Voice recognition unit; (120) Error confusion matrix configuration unit; (130) High frequency error pair extractor; (AA) Training voice data; (BB) Test and user voice data; (CC) Transfer data

    Abstract translation: 目的:提供一种使用语音识别误差混淆矩阵及其方法的聚类设备,通过检测“具有频繁语音识别结果误差的高频误差对”和聚合声音模型来提高声音模型的辨别和可靠性 基于检测结果。 构成:声音模型发生器(100)接收训练声音数据并产生声音模型。 语音识别单元(110)基于生成的声音模型,输入的测试和用户语音数据来执行语音识别。 错误混淆矩阵配置单元(120)配置具有通过语音识别结果和企业数据的比较提取的错误对的混淆矩阵。 状态聚类单元(101a)基于从高频误差对提取器(130)提取的高抽取频率误差对执行声音模型的状态聚类。 (附图标记)(100)声音模型发生器; (101a)状态聚类单元; (110)语音识别单元; (120)错误混淆矩阵配置单元; (130)高频误差对提取器; (AA)培训语音数据; (BB)测试和用户语音数据; (CC)传输数据

    사용자 음성을 이용한 위치 추적 장치 및 그 방법
    8.
    发明授权
    사용자 음성을 이용한 위치 추적 장치 및 그 방법 有权
    使用用户语音进行定位的装置及其方法

    公开(公告)号:KR101253610B1

    公开(公告)日:2013-04-11

    申请号:KR1020090091867

    申请日:2009-09-28

    Abstract: 본 발명은 사용자의 음성을 이용한 위치 추적 장치 및 그 방법에 관한 것으로, 입력되는 2채널의 음원 신호를 각각의 음원별로 분리하는 음원 분리부에 의해 분리된 각각의 음원 신호로부터 산란 잡음을 제거하고, 음원 위치 추적을 위해 잔여 신호 성분을 강조하도록 필터링하는 스테레오 위너 필터부, 사용자의 음성을 인식하고, 음성 인식 결과에 대한 신뢰도를 측정하는 음성 인식부, 상기 음성 인식부로부터의 음성 인식 결과와 음성 인식 결과에 대한 신뢰도에 근거하여 타겟 채널을 선택하는 채널 선택부, 타겟 채널의 신호 및 간섭 채널의 신호를 분석하여 음원 위치를 추적하는 음원 위치 추적부를 포함한다. 본 발명에 따르면, 암묵적 음원 분리 기술, 스테레오 위너 필터 기술, 음성인식 및 발화검증 기술, 음원 위치 추적 기술을 유기적으로 통합함으로써, 보다 정확하고 주변 환경에 강인한 사용자 음성 위치 추적이 가능한 이점이 있다.

    음성인식 기반 국제회의 통역 장치 및 방법
    9.
    发明授权
    음성인식 기반 국제회의 통역 장치 및 방법 失效
    解释基于国际会议语音识别的装置和方法

    公开(公告)号:KR101233655B1

    公开(公告)日:2013-02-15

    申请号:KR1020090123354

    申请日:2009-12-11

    Abstract: 영어 이해도가 다른 다양한 회의 참석자들에게 회의에 언급되는 주요 키워드들을 이해할 수 있도록 다양한 언어로 통역해 주는 음성인식 기반 국제회의 통역 장치 및 방법을 제시한다. 제시된 음성인식 기반 국제회의 통역 장치는 다자간 회의에 참가하는 회의 참가자의 사용 언어를 포함하는 회의 참가자 정보를 회의 참가자별로 미리 등록하는 회의 참가자 정보 등록부; 회의 참가자별로의 발표 내용에 따른 핵심어를 미리 등록하고, 회의 참가자의 발표에 수반하는 음성을 미리 등록된 핵심어를 기반으로 인식하여 핵심어 형태의 음성인식 결과를 출력하는 음성 인식부; 및 핵심어 형태의 음성인식 결과를 분석하여 미리 등록된 회의 참가자별로의 사용 언어에 대응되는 타겟 언어로 변환하여 출력하는 언어 번역부를 포함한다. 국제 회의 발표자에게는 자유로운 모국어 구사가 가능하도록 하고, 참석자들에게는 모국어로 통역된 텍스트 데이터 또는 합성음을 제공해 줌으로써, 원활한 국제 회의 진행 및 참석자들의 회의 내용에 대한 이해도를 높일 수 있다.

    단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
    10.
    发明授权
    단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 有权
    基于字特定置信阈值的话音验证装置

    公开(公告)号:KR101229108B1

    公开(公告)日:2013-02-01

    申请号:KR1020090128386

    申请日:2009-12-21

    Abstract: 본 발명은 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법에 관한 것으로, 음성신호 입력 시 인식된 단어를 분석하여, 상기 단어와 상기 단어에 대한 반음소를 갖는 반단어로부터 해당 단어의 음소와 반음소에 대한 음소 세그먼트 정보를 추출하는 음소 세그먼트 정보 추출기, 추출된 상기 음소 및 상기 반음소에 대한 우도값(likelihood)을 계산하고, 상기 우도값으로부터 로그-우도 비율을 계산하는 우도값 계산기, 상기 음소와 상기 반음소의 로그-우도 비율에 따라 상기 인식된 단어에 대응하는 문턱값을 계산하는 문턱값 계산기, 및 상기 문턱값과 상기 우도값 계산기에 의해 산출된 로그-우도 비율을 비교하여, 그 결과에 따라 음성 인식 결과를 출력하거나 차단하는 비교기를 포함한다. 본 발명에 따르면, 음성인식 결과에 대한 단어 기반의 발화 검증 시스템에서 인식되는 단어별로 서로 다른 신뢰도 문턱값을 적용함으로써 안정적인 발화 검증 성능을 얻는 효과가 있다.

Patent Agency Ranking