Patent search ap:("한국전자통신연구원") AND inv:"강병옥" Page 11

101.

发明授权
대어휘 연속 음성 인식 장치 및 방법 有权

公开(公告)号：KR101988222B1

公开(公告)日：2019-06-13

申请号：KR1020150021339

申请日：2015-02-12

Applicant: 한국전자통신연구원

Inventor： 이성주 , 강병옥 , 박전규 , 이윤근 , 정훈

IPC: G10L15/14

102.

发明公开
라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법 审中-实审
Title translation: 使用生活语音记录和生活视频日志的增量声学模型和语言模型学习方法

公开(公告)号：KR1020170086233A

公开(公告)日：2017-07-26

申请号：KR1020160005813

申请日：2016-01-18

Applicant: 한국전자통신연구원

Inventor： 강병옥 , 정호영 , 박전규 , 이윤근 , 전형배

IPC: G10L15/18 , G10L15/06 , G10L15/22

Abstract: 라이프음성로그및 라이프영상로그를이용한점증적음향모델및 언어모델학습방법이제공된다. 이방법은사용자가일상생활에서발성하는라이프음성로그와상기라이프음성로그로부터인식된제1 텍스트데이터를누적하여제1 데이터베이스를구축하는단계; 상기구축된제1 데이터베이스를이용하여범용음향모델을학습하는단계; 사용자가일상생활에서시각적으로시인하는라이프영상로그와상기라이프영상로그로부터인식된제2 텍스트데이터를누적하여제2 데이터베이스를구축하는단계; 및상기구축된제2 데이터베이스를이용하여범용언어모델을학습하는단계를포함한다.

Abstract translation: 提供了使用生活语音记录和生活视频记录的增量声学模型和语言模型学习方法。该方法包括以下步骤：通过累积第一语音数据和第一语音数据来构建第一数据库; 使用构建的第一数据库学习通用声学模型; 通过累积从日常生活中的用户视觉识别的生活视频日志和生活视频日志中识别出的第二视频数据来构建第二数据库; 并使用构建的第二个数据库学习通用语言模型。

103.

发明公开
심층신경망 기반 언어모델 보간을 이용한 음성인식 리스코어링 시스템 审中-实审
Title translation: 基于深度神经网络的语言模型插值识别语音识别系统

公开(公告)号：KR1020170083850A

公开(公告)日：2017-07-19

申请号：KR1020160003240

申请日：2016-01-11

Applicant: 한국전자통신연구원

Inventor： 정의석 , 송화전 , 강병옥 , 박전규 , 이윤근 , 전형배

IPC: G10L15/16 , G10L15/02 , G10L15/32 , G10L15/183

Abstract: 본발명은음성인식리스코어링시스템에관한것으로, 상기시스템은, 입력되는사용자발성에대한인식결과로서, 음향모델값과언어모델값을포함하는문장을출력하는음성인식기; 입력되는대용량텍스트를바탕으로토픽언어모델및 어휘들별 벡터값을생성하고, 상기토픽언어모델및 상기벡터값을바탕으로토픽언어모델보간 DNN(Deep Neural Network)를생성하는토픽언어모델보간 DNN 생성부; 상기토픽언어모델보간 DNN을가중치로이용하여, 상기문장을구성하는각 어휘별언어모델확률값들을계산하고, 계산된언어모델확률값들의평균값을새로운언어모델값으로생성하는언어모델보간부; 및상기음향모델값과상기언어모델보간부에의해생성되는언어모델값을통합한값으로인식결과를재정렬하여, 수정된인식결과를생성하는리스코어링부를포함한다.

Abstract translation: 语音识别召回系统本发明涉及一种语音识别召回系统，其包括：语音识别器，用于输出包括声学模型值和语言模型值的语句作为输入的用户话语的识别结果; 基于输入的大量文本生成每个词典的主题语言模型和矢量值，并基于主题语言模型和矢量值生成主题语言模型插值DNN（深度神经网络）部分; 一种语言模型解释器，用于使用主题语言模型插值DNN作为权重计算构成句子的每个词位的语言模型概率值，并生成计算出的语言模型概率值的平均值作为新的语言模型值; 以及召回单元，用于通过整合由语言模型解释器生成的声学模型值和语言模型值来重新识别识别结果，以生成修改的识别结果。

104.

发明授权
비문형적 어휘 모델 기반 음성 인식 방법 有权
Title translation: 一种用于基于句型识别音频信号的方法

公开(公告)号：KR101709188B1

公开(公告)日：2017-03-08

申请号：KR1020120130140

申请日：2012-11-16

Applicant: 한국전자통신연구원

Inventor： 전형배 , 정의석 , 강병옥 , 이윤근 , 박전규 , 강점자

IPC: G10L15/08 , G10L15/183 , G10L15/02

Abstract: 본발명은대화체연속어음성인식을수행함에있어대화체에서나타날수 있는비문법적형태에대해음성인식성능을강인하게해주는음성인식방법에관한것이다. 본실시예에따른비문형적어휘모델기반음성인식방법은입력된음성신호의단위신호의문형적어휘또는비문형적어휘여부를판단하기위하여상기음성신호를미리결정된문형적어휘모델또는비문형적어휘모델과매칭시키는단계; 및상기음성신호의매칭결과를출력하는단계를포함한다. 본발명에따르면, 대화체에서나타나는비문법적인간투어, 반복발성, 머뭇거림부분을제외한나머지부분에서의엔그램언어모델확률값은그대로유지할수 있어해당부분의인식성능을높일수 있는장점을기대할수 있다.

Abstract translation: 音频信号识别方法技术领域本发明涉及一种音频信号识别方法，该方法在执行对话式连续语音识别时，可加强可能在对话中出现的不良形成词模型的音频识别功能。根据本发明的实施例，基于不合格词语模型的音频信号识别方法包括以下步骤：将音频信号与预定的良好形成的词模型或不合格的词模型进行匹配，以确定输入的音频信号是一个不合格的词或形成良好的词; 并输出输入的音频信号的匹配结果。根据本发明，本发明可以提高识别性能，因为可以保持除日常生活对话中发现的简洁风格，重复发声和犹豫等不正常部分之外的语言模型概率值。

105.

发明公开
불완전 사전을 이용한 자연어 음성 인식 방법 审中-实审
Title translation: 使用不完整的语音词典进行自发语音识别的方法

公开(公告)号：KR1020160082150A

公开(公告)日：2016-07-08

申请号：KR1020140194800

申请日：2014-12-31

Applicant: 한국전자통신연구원

Inventor： 강병옥 , 박전규 , 이윤근

IPC: G10L15/183 , G10L15/06

CPC classification number: G10L15/183 , G10L15/06

Abstract: 불완전사전을이용한자연어음성인식방법이개시된다. 본발명의일 면에따른불완전사전을이용한자연어음성인식방법은사용자의음성신호를수신하고, 기생성된음향모델데이터베이스를이용하여상기사용자의음성신호에대한 1차음성인식을수행하는단계, 상기제1 음성인식결과를통해상기음성신호에서발화끊김구간을추정하는단계, 및기 생성된불완전사전데이터베이스로부터상기발화끊김구간의후보단어를획득하여상기음성신호에대한 2차음성인식을수행하는단계를포함하되, 상기불완전사전은어휘의중간에단절된형태의및 통계적으로얻어지는발화오류형태가반영되어음성인식결과중 발화끊김이나잘못된발화로판단되는구간의인식결과에대한후보단어가축적된어휘사전이다.

Abstract translation: 公开了使用不完整字典的自然语言语音识别方法。使用不完整字典的自然语言识别方法包括：通过使用所生成的声学模型数据库，接收用户的语音信号并对用户的语音信号执行第一语音识别的步骤; 用于通过第一语音识别结果估计语音信号中的呼叫断开部分的步骤; 以及从所生成的不完整的字典数据库中获取呼叫断开部分的候选词的步骤，并为语音信号执行第二语音识别。不完整的字典反映了在该字中间断开的类型以及统计获得的呼叫错误类型，并且累积候选字用于确定为呼叫断开的部分的识别结果或来自语音识别结果的错误呼叫。

106.

发明授权
ＩＰＴＶ 방송 시스템, 서버 및 발성목록 생성 장치 有权
Title translation: 互联网协议电视广播系统服务器和用于生成词典的设备

公开(公告)号：KR101606170B1

公开(公告)日：2016-04-01

申请号：KR1020090088629

申请日：2009-09-18

Applicant: 한국전자통신연구원

Inventor： 왕지현 , 정의석 , 강병옥

IPC: H04N7/173 , G10L15/14

Abstract: 본발명은 IPTV(Internet Protocol Television) 방송시스템, 서버및 발성목록생성장치에대하여개시한다. 본발명의일면에따른 IPTV 방송의발성목록생성장치는, 음성인식을통해 IPTV 방송서비스를제공하기위한하나또는그 이상의발성어생성패턴을저장하는패턴데이터베이스; 상기발성어생성패턴을이용하여사용자의음성명령에대응하는음성인식용발성어의발성목록을생성하는발성목록생성부; 상기 IPTV 방송정보데이터로부터추출형핵심어를추출하는구조정보추출부; 상기 IPTV 방송정보데이터로부터사전형핵심어를추출하는비구조정보추출부; 및상기각각추출된핵심어를사용자의발음에가까운자연스러운발성어로가공하여상기발성목록생성부에제공하는발성어정규화부를포함하는것을특징으로한다.

107.

发明公开
음성인식을 위한 특징 추출 장치 및 방법 有权
Title translation: 提取语音识别功能的装置和方法

公开(公告)号：KR1020150004513A

公开(公告)日：2015-01-13

申请号：KR1020130077494

申请日：2013-07-03

Applicant: 한국전자통신연구원

Inventor： 이성주 , 강병옥 , 정훈 , 정호영 , 송화전 , 오유리 , 이윤근

IPC: G10L15/02

CPC classification number: G10L15/02 , G10L15/26

Abstract: 본 발명에 따른, 음성인식을 위한 특징 추출 장치는, 입력되는 음성신호를 소정 사이즈의 프레임 단위로 분리하는 프레임 형성부; 상기 음성신호의 각 프레임 별로 정적 특징 벡터를 추출하는 정적 특징 추출부; 기저함수 또는 기저벡터를 이용하여, 상기 추출된 정적 특징 벡터의 시간에 따른 변화를 나타내는 동적 특징 벡터를 추출하는 동적 특징 추출부; 및 상기 추출된 정적 특징 벡터와 동적 특징 벡터를 결합하여 특징 벡터 스트림을 구성하는 특징 벡터 결합부를 포함한다.

Abstract translation: 根据本发明，一种用于提取用于语音识别的特征的装置包括：帧形成单元，其将输入的语音信号分成预定大小的帧单位; 静态特征提取单元，其向语音信号的每个帧提取静态特征向量; 动态特征提取单元，其通过使用基函数或基向量来提取表示所提取的静态特征向量随时间的变化的动态特征向量; 以及特征向量组合单元，其组合提取的静态特征向量和提取的动态特征向量，并形成特征向量流。

108.

发明公开
사용자 위치정보를 활용한 음성 인식 장치 및 방법 审中-实审
Title translation: 使用用户位置信息识别语音的装置和方法

公开(公告)号：KR1020140077773A

公开(公告)日：2014-06-24

申请号：KR1020120146898

申请日：2012-12-14

Applicant: 한국전자통신연구원

Inventor： 강병옥 , 이윤근

IPC: G10L15/14

CPC classification number: G10L15/14 , G10L15/183 , G10L15/28

Abstract: Disclosed are a device and a method for recognizing a voice using user location information. The device and the method of the present invention are capable of improving performance of a voice recognition service by using user location information to provide customized sound model and language model. The device for recognizing a voice using user location information according to the present invention comprises: a voice receiving unit to receive a user voice to be recognized; a location information identifying unit to identify user location information; a sound model extracting unit to analyze a noise circumstance of the place where a user is located by using the user location information, and extract a sound model corresponding to the noise circumstance from a sound model database; a vocabulary language model extracting unit to extract, from a vocabulary language model database, a vocabulary language model corresponding to the place where the user is located; and a voice recognizing unit to recognize the user voice by using the sound model and the vocabulary language model.

Abstract translation: 公开了一种使用用户位置信息识别语音的装置和方法。本发明的装置和方法能够通过使用用户位置信息提供定制的声音模型和语言模型来提高语音识别服务的性能。根据本发明的用于使用用户位置信息识别语音的设备包括：语音接收单元，用于接收要被识别的用户语音; 位置信息识别单元，用于识别用户位置信息; 声音模型提取单元，通过使用用户位置信息来分析用户所处的位置的噪声环境，并从声音模型数据库中提取与噪声环境相对应的声音模型; 词汇语言模型提取单元，从词汇语言模型数据库中提取与用户所在的地方对应的词汇语言模型; 以及语音识别单元，通过使用声音模型和词汇语言模型识别用户声音。

109.

发明公开
비문형적 어휘 모델 기반 음성 인식 방법 有权
Title translation: 一种用于识别基于声音图案的音频信号的方法

公开(公告)号：KR1020140070703A

公开(公告)日：2014-06-11

申请号：KR1020120130140

申请日：2012-11-16

Applicant: 한국전자통신연구원

Inventor： 전형배 , 정의석 , 강병옥 , 이윤근 , 박전규 , 강점자

IPC: G10L15/08 , G10L15/183 , G10L15/02

CPC classification number: G10L15/083 , G10L15/02 , G10L15/183

Abstract: The present invention relates to an audio signal recognition method which strengthens the audio recognition function for ill-formed word model which may occur in dialogue when performing the dialogical continuous speech recognition. According to an embodiment of the present invention, the audio signal recognition method based on ill-formed word model comprises the following steps: matching an audio signal with a predetermined well-formed word model or ill-formed word model to determine if the inputted audio signal is an ill-formed word or well-formed word; and outputting the matching result of the inputted audio signal. According to the present invention, the present invention can improve the recognition performance since an engram linguistic model probability value can be maintained other than ill-formed parts such as concise style, repeated vocalization, and hesitation which are found in conversation of daily lives.

Abstract translation: 音频信号识别方法技术领域本发明涉及一种音频信号识别方法，该方法在执行对话式连续语音识别时，可加强可能在对话中出现的不良形成词模型的音频识别功能。根据本发明的实施例，基于不合格词语模型的音频信号识别方法包括以下步骤：将音频信号与预定的良好形成的词模型或不合格的词模型进行匹配，以确定输入的音频信号是一个不合格的词或形成良好的词; 并输出输入的音频信号的匹配结果。根据本发明，本发明可以提高识别性能，因为可以保持除日常生活对话中发现的简洁风格，重复发声和犹豫等不正常部分之外的语言模型概率值。

110.

发明公开
음향 모델 생성 방법 및 그 장치 有权
Title translation: 用于产生声学模型的方法及其装置

公开(公告)号：KR1020140059454A

公开(公告)日：2014-05-16

申请号：KR1020120125935

申请日：2012-11-08

Applicant: 한국전자통신연구원

Inventor： 강병옥 , 전형배 , 정호영 , 박전규 , 이윤근

IPC: G10L15/14 , G10L15/06

CPC classification number: G10L15/14 , G10L15/063

Abstract: Disclosed are an acoustic model generation method and a device thereof. According to one embodiment of the present invention, the acoustic model generation method includes: a step of generating an acoustic model using pre-collected training acoustic data; a step of performing tree-based status clustering based on the generated acoustic model and the training acoustic data; a step of forming a status tree through the tree-based status clustering; and a step of generating a final acoustic model using the log acoustic data acquired from the voice of a user and the generated status tree. The step of performing the clustering performs the tree-based status clustering based on the statistical values of context-dependent phonemes acquired from the training acoustic data and on query sets acquired through a phonetic knowledge basis so that it is possible to generate an acoustic model optimized for the actual use environment and accordingly improve voice recognition performance.

Abstract translation: 公开了一种声学模型生成方法及其装置。根据本发明的一个实施例，声学模型生成方法包括：使用预先收集的训练声学数据产生声学模型的步骤; 基于所生成的声学模型和训练声学数据执行基于树状态的聚类的步骤; 通过基于树状态聚类形成状态树的步骤; 以及使用从用户的语音和所生成的状态树获取的对数声学数据来生成最终声学模型的步骤。执行聚类的步骤基于从训练声学数据获取的上下文相关音素的统计值和通过语音知识获取的查询集合来执行基于树状态的聚类，使得可以生成优化的声学模型为实际使用环境，从而提高语音识别性能。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification