심층 신경망 기반 음성인식 방법 및 그 장치
    21.
    发明公开
    심층 신경망 기반 음성인식 방법 및 그 장치 审中-实审
    基于深度神经网络的语音识别方法和装置

    公开(公告)号:KR1020170088165A

    公开(公告)日:2017-08-01

    申请号:KR1020160008167

    申请日:2016-01-22

    Abstract: 본발명의일면에따른심층신경망기반음성인식방법은, 음성신호를입력받는단계; 상기음성신호를주파수신호로변환하는단계; 상기주파수신호로이루어진벡터신호와가중치벡터(Weight Vector)와의가중치합(Weighted Sum)으로다음단계은닉층(Hidden Layer)의각 노드에대응하는복수의맥스-풀링(Max-Pooling) 입력노드값을구하는단계; 및상기복수의맥스-풀링입력노드값가운데가장큰 값을상기다음단계은닉층의노드값으로결정하는단계;를포함하되, 상기가중치벡터는학습에의해미리설정된기준가중치벡터를시간축으로압축하여구하는것을특징으로한다

    Abstract translation: 根据本发明的一个方面,提供了一种基于深度语音神经网络的语音识别方法,包括:接收语音信号; 将语音信号转换成频率信号; 矢量信号,并用以下步骤隐藏层(隐蔽层)对应于uigak由汇集(MAX-池)步骤以获得所述输入节点值的频率信号的节点的多个最大的权重向量(权重矢量)与加权和(加权和) 。 和多个最大 - 确定所述合并的输入节点值,以下面的步骤的节点值中的最大值:隐藏;由所述加权矢量是通过学习时间轴,包括压缩到预定的基准的权重向量被获取,但 特征

    음성인식 장치 및 방법
    22.
    发明公开
    음성인식 장치 및 방법 审中-实审
    语音识别装置和方法

    公开(公告)号:KR1020170086214A

    公开(公告)日:2017-07-26

    申请号:KR1020160005755

    申请日:2016-01-18

    Abstract: 본발명에따른심층신경망음향모델에기초한음성인식장치는메모리및 상기메모리에저장된프로그램을실행시키는프로세서를포함하되, 상기프로세서는상기프로그램을실행시킴에따라, 다중집합훈련음성데이터에포함된복수의집합훈련음성데이터각각에대응하는음향모델상태집합을생성하고, 상기음향모델상태집합으로부터다중집합상태클러스터를생성하며, 상기다중집합훈련음성데이터를입력노드로설정하고, 상기다중집합상태클러스터를출력노드로설정하여, 심층신경망구조파라미터를학습하며, 사용자인터페이스를통해사용자의음성및 상기음성의특성정보를입력받으면, 상기다중집합훈련음성데이터중 상기음성의특성정보에대응하는집합훈련음성데이터를입력노드로설정하고, 상기집합훈련음성데이터에대응하는음향모델상태집합을출력노드로설정하여, 상기학습된심층신경망구조파라미터에기초하여사용자의음성을인식한다.

    Abstract translation: 根据本发明的基于深度神经网络声学模型的语音识别设备包括存储器和用于执行存储在存储器中的程序的处理器,其中处理器执行程序以产生多个 生成与每个设置的训练声音数据相对应的一组声学模型状态,从声学模型状态组生成多组状态组,将多组训练声音数据设置为输入节点, 训练数据节点,学习神经网络结构参数,通过用户界面接收用户的语音和语音的特征信息;然后,将多语言训练数据中与语音特征信息对应的训练语音数据集合, 并将与所设置的训练语音数据对应的一组声学模型状态设置到输出节点 任命,并认识基础上,深入学习神经网络结构参数的用户的声音。

    불확실성을 이용한 잡음 환경에서의 음성 인식 방법 및 장치
    23.
    发明授权
    불확실성을 이용한 잡음 환경에서의 음성 인식 방법 및 장치 有权
    用于使用不确定性的噪声环境中的语音识别的方法和设备

    公开(公告)号:KR101740637B1

    公开(公告)日:2017-06-08

    申请号:KR1020130130299

    申请日:2013-10-30

    Inventor: 정호영 송화전

    Abstract: 본발명에따른음성인식방법은, 입력된음성신호로부터음성특징을추출하는단계; 상기음성신호의잡음성분을추정하는단계; 상기추정된잡음성분을이용하여상기추출된음성특징을보상하는단계; 상기추출된음성특징, 상기보상된음성특징, 및상기잡음성분을바탕으로, 주어진음향모델을변환하는단계; 및상기보상된음성특징과상기변환된음향모델을이용하여음성인식을수행하는단계를포함하는것을특징으로한다.

    Abstract translation: 根据本发明的语音识别方法包括:从输入语音信号中提取语音特征; 估计语音信号的噪声分量; 使用估计的噪声分量补偿提取的语音特征; 基于提取的语音特征,补偿的语音特征和噪声分量来转换给定的声学模型; 并使用补偿的语音特征和转换后的声学模型进行语音识别。

    외국어 학습자의 발음 평가 장치 및 방법
    24.
    发明公开
    외국어 학습자의 발음 평가 장치 및 방법 无效
    用于评估外国语言学习者授权的装置和方法

    公开(公告)号:KR1020130068598A

    公开(公告)日:2013-06-26

    申请号:KR1020110135888

    申请日:2011-12-15

    CPC classification number: G09B19/06 G09B5/04 G09B7/04 G10L15/005 G10L15/26

    Abstract: PURPOSE: A pronunciation evaluation device and a method are provided to evaluate foreign language pronunciations using an acoustic model of a foreign language learner, pronunciations generated using a pronunciation model in which pronunciation errors are reflected, and an acoustic model of a native speaker, thereby increasing the accuracy of the pronunciation generated for the sound of the foreign language learner. CONSTITUTION: A pronunciation evaluation device(100) includes a sound input part(110), a sentence input part(120), a storage part(130), a pronunciation generation part(140), a pronunciation evaluation part(150), and an output part(160). The sound input part receives the sound of a foreign language learner, and the sentence input part receives a sentence corresponding to the sound of the foreign language learner. The storage part stores an acoustic model for the sound of the foreign language learner and a pronunciation dictionary for the sound of the foreign language learner. The pronunciation generation part performs sound recognition based on the acoustic model and pronunciation dictionary for the sound of the foreign language learner stored in the storage part. The pronunciation evaluation part detects the vocalization errors by analyzing the pronunciations for the sound of the foreign language learner. The output part outputs the vocalization errors of the foreign language learner detected from the pronunciation evaluation part. [Reference numerals] (110) Sound input part; (120) Sentence input part; (130) Storage part; (140) Pronunciation generation part; (150) Pronunciation evaluation part; (160) Output part

    Abstract translation: 目的:提供一种发音评价装置和方法,以使用外语学习者的声学模型评估外语发音,使用其中反映发音错误的发音模型产生的发音和母语者的声学模型,从而增加 为外语学习者的声音产生的发音的准确性。 发音评价装置(100)包括声音输入部(110),句子输入部(120),存储部(130),发音生成部(140),发音评价部(150) 输出部分(160)。 声音输入部分接收外语学习者的声音,并且句子输入部分接收与外语学习者声音相对应的句子。 存储部分存储外语学习者的声音的声学模型和用于外语学习者的声音的发音词典。 发音生成部基于存储在存储部中的外语学习者的声音的声学模型和发音字典进行声音识别。 发音评价部分通过分析外语学习者的声音发音来检测发音错误。 输出部分输出从发音评价部分检测到的外语学习者的发声错误。 (附图标记)(110)声音输入部; (120)句子输入部分; (130)储存部分; (140)发音生成部分; (150)发音评价部分; (160)输出部分

    한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법
    25.
    发明公开
    한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법 有权
    为了连续地使用韩国语音识别的混合网络的装置以及使用该方法生成和减少混合网络的方法

    公开(公告)号:KR1020130011574A

    公开(公告)日:2013-01-30

    申请号:KR1020110072813

    申请日:2011-07-22

    Abstract: PURPOSE: A confusion network rescoring device for Korean continuous voice recognition, a method for generating a confusion network by using the same, and a rescoring method thereof are provided to improve a generation speed of the confusion network by setting a limit of a lattice link probability in a process for converting a lattice structure into a confusion network structure. CONSTITUTION: A confusion network rescoring device receives on or more lattices generated through voice recognition(S105). The device calculates each posterior probability of the lattices(S110). The device allocates a node included in the lattices to plural equivalence classes based on the posterior probability(S120,S130,S135). The device generates a confusion set by using the equivalence classes(S150,S155). The device generates a confusion network based on the confusion set. [Reference numerals] (AA) Start; (BB,DD,FF,HH,JJ) No; (CC,EE,GG,II,KK) Yes; (LL) End; (S105) Inputting lattices through voice recognition; (S110) Calculating each posterior probability of the lattices; (S115) Inputting SLF?; (S120) Allocating a first node(no) of the lattices to a first equivalence class(NO); (S125) N_i and n_i links exist?; (S130) Allocating an i-th node(n_i) of the lattices to a j-th equivalence class(N_j); (S135) Allocating the i-th node(n_i) of the lattices to a i-th equivalence class(N_i); (S140) Allocating all nodes of the lattices?; (S145) If u∈N_s n_i∈N_t, t=s+1 in e(u->n_i); (S150) Classifying the e(u->n_i) as CS(N_s,N_t); (S155) Classifying the e(u->n_i) as CS(N_k,N_k+1); (S160) Normalizing link probability in an extracted CS sequence; (S165) Adding a Null link, and allocating remaining probability values of a normalized value; (S170) Possibility value of the Null link > possibility value of the other link; (S175) Excluding the CS sequence from a voice recognition result

    Abstract translation: 目的:提供一种用于韩语连续语音识别的混淆网络解密设备,通过使用该方法产生混淆网络的方法及其解决方法,以通过设置网格链路概率的限制来提高混淆网络的生成速度 在将网格结构转换成混淆网络结构的过程中。 构成:混淆网络重新获取装置接收通过语音识别产生的或多个格子(S105)。 该装置计算格子的每个后验概率(S110)。 该设备基于后验概率将包括在格子中的节点分配给多个等价类(S120,S130,S135)。 该设备通过使用等价类产生混淆集(S150,S155)。 该设备基于混淆集产生混淆网络。 (附图标记)(AA)开始; (BB,DD,FF,HH,JJ)否; (CC,EE,GG,II,KK)是; (LL)结束; (S105)通过语音识别输入格子; (S110)计算格子的每个后验概率; (S115)输入SLF? (S120)将格子的第一节点(否)分配给第一等价类(NO); (S125)存在N_i和n_i个链路? (S130)将格子的第i个节点(n_i)分配给第j个等价类(N_j); (S135)将格子的第i个节点(n_i)分配给第i个等价类(N_i); (S140)分配格子的所有节点? (S145)如果u∈N_sn_i∈N_t,则e(u-> n_i)中的t = s + 1; (S150)将e(u-> n_i)分类为CS(N_s,N_t); (S155)将e(u-> n_i)分为CS(N_k,N_k + 1); (S160)在提取的CS序列中归一化链路概率; (S165)添加空链路,分配归一化值的剩余概率值; (S170)空链路的可能值>其他链路的可能值; (S175)从语音识别结果中排除CS序列

    음성 인식 장치 및 방법
    26.
    发明公开
    음성 인식 장치 및 방법 有权
    语音识别装置及其方法

    公开(公告)号:KR1020120043552A

    公开(公告)日:2012-05-04

    申请号:KR1020100104894

    申请日:2010-10-26

    Abstract: PURPOSE: A voice recognition apparatus and a method thereof are provided to increase recognition speed of an input signal and to perform recognition of an input signal in parallel. CONSTITUTION: A global database unit(10) includes a global feature vector(12), a global vocabulary model(14), and a global sound model(16). A recognition unit(20) includes separated recognition units(22a~22n). A plurality of separate recognition units performs voice recognition in parallel. A separate database unit(30) includes separate language models. A collection and evaluation unit(40) collects and evaluates the recognition result of the separate recognition unit.

    Abstract translation: 目的:提供一种语音识别装置及其方法,以增加输入信号的识别速度并且并行执行输入信号的识别。 构成:全局数据库单元(10)包括全局特征向量(12),全球词汇模型(14)和全局声音模型(16)。 识别单元(20)包括分离的识别单元(22a〜22n)。 多个单独的识别单元并行执行语音识别。 单独的数据库单元(30)包括单独的语言模型。 收集和评估单元(40)收集并评估单独识别单元的识别结果。

    심층 신경망 기반 음성인식 방법 및 그 장치

    公开(公告)号:KR102204975B1

    公开(公告)日:2021-01-19

    申请号:KR1020160008167

    申请日:2016-01-22

    Abstract: 본발명의일면에따른심층신경망기반음성인식방법은, 음성신호를입력받는단계; 상기음성신호를주파수신호로변환하는단계; 상기주파수신호로이루어진벡터신호와가중치벡터(Weight Vector)와의가중치합(Weighted Sum)으로다음단계은닉층(Hidden Layer)의각 노드에대응하는복수의맥스-풀링(Max-Pooling) 입력노드값을구하는단계; 및상기복수의맥스-풀링입력노드값가운데가장큰 값을상기다음단계은닉층의노드값으로결정하는단계;를포함하되, 상기가중치벡터는시간축래핑정도에기초해결정된임계값을기준으로나눠지는프레임인덱스의범위에따라학습에의해미리설정된기준가중치벡터를주파수밴드인덱스, 프레임길이, 및프레임순서중 적어도하나를인수로하여시간축으로압축하여구하는것을특징으로한다

    다중 음향공간 GMM을 이용한 음향모델 생성 방법
    28.
    发明公开
    다중 음향공간 GMM을 이용한 음향모델 생성 방법 审中-实审
    使用MUILTI-SPACE GAUSSIAN混合模型创建声学模型的方法

    公开(公告)号:KR1020150041289A

    公开(公告)日:2015-04-16

    申请号:KR1020130119607

    申请日:2013-10-08

    CPC classification number: G10L15/14 G10L15/06

    Abstract: 다중음향공간 GMM을이용한음향모델생성방법이개시된다. 본발명에따른다중음향공간 GMM을이용한음향모델생성방법은소량의음성데이터베이스를수집하는단계; 상기음성데이터베이스를이용하여 n개의기존음향모델들에서통계정보를산출하는단계; 상기산출한통계정보및 상기 n개의기존음향모델들의통합규칙(tying rule)을기초로하여최적모델단위를결정하는단계; 상기 n개의기존음향모델들을 1 가우시안혼합모델(1 Gaussian mixture model)과각각혼합하여가우시안혼합수를증가시킨 n개의 n 가우시안혼합모델들을생성하는단계; 상기최적모델단위를상기 n개의 n 가우시안혼합모델들을결합한결과에적용하여최종가우시안혼합모델을생성하는단계; 및상기최종가우시안혼합모델을각 모델단위로구성하는최종음향모델의변별학습결과를기초로하여상기최종가우시안혼합모델간의최적가중치를계산하는단계를포함한다.

    Abstract translation: 公开了一种使用多声空间高斯混合模型(GMM)生成声学模型的方法,包括:收集少量语音数据库; 使用语音数据库从n个现有声学模型计算统计信息; 基于所计算的统计信息和n个现有声学模型的绑定规则确定最优模型单元; 将n个现有声学模型中的每一个与1个GMM混合以产生以高斯混合数增加的n个n个GMM; 通过将最佳模型单元应用于组合n个n个GMM的结果来生成最终GMM; 并基于包括最终GMM的最终声学模型的鉴别学习的结果作为每个模型单元来计算最终GMM中的最优权重。

    음성 인식 장치
    29.
    发明公开
    음성 인식 장치 审中-实审
    语音识别装置

    公开(公告)号:KR1020140148116A

    公开(公告)日:2014-12-31

    申请号:KR1020130071624

    申请日:2013-06-21

    CPC classification number: G10L17/14 G10L17/02

    Abstract: The present invention provides a speech recognition device and a method thereof. More particularly, to a speech recognition device which estimates a speaker of the speech and using the same, and a method thereof. The speech recognition device of the present invention includes: an input unit for receiving speech; a speaker estimation unit for analyzing the characteristics of the speech, analyzing variation of the speaker for the characteristics and estimating speaker information of the speech; and a speech recognition unit for recognizing the speech by taking into account the speaker information.

    Abstract translation: 本发明提供一种语音识别装置及其方法。 更具体地,涉及一种估计讲话者并使用该语音的语音识别装置及其方法。 本发明的语音识别装置包括:用于接收语音的输入单元; 讲话者估计单元,用于分析语音的特征,分析讲话者的特征变化和估计讲话者的讲话者信息; 以及语音识别单元,用于通过考虑说话者信息来识别语音。

    채널 정규화 장치 및 방법
    30.
    发明授权
    채널 정규화 장치 및 방법 有权
    通道归一化装置和方法

    公开(公告)号:KR101430730B1

    公开(公告)日:2014-08-14

    申请号:KR1020110107136

    申请日:2011-10-19

    Inventor: 정호영 송화전

    Abstract: 본 발명은 실시간 음성 인식을 위한 채널 정규화 장치 및 방법에 관한 것이다. 본 발명은 입력 음성에 대하여 프레임마다 특징 벡터를 추출하는 특징 벡터 추출부, 미리 훈련된 선형 변환 매트릭스를 이용하여 특징 벡터가 추출된 프레임들의 특징 벡터를 변환시키는 특징 벡터 변환부, 및 변환된 특징 벡터를 기초로 음성 인식을 위한 채널 정규화를 수행하는 채널 정규화부를 포함하는 채널 정규화 장치를 제안한다. 본 발명에 따르면, 실시간 음성 인식이 가능해지며, 바이어스 성분 제거와 함께 음성 인식을 위한 변별력도 향상시킬 수 있다.

Patent Agency Ranking