-
公开(公告)号:KR1020100073165A
公开(公告)日:2010-07-01
申请号:KR1020080131759
申请日:2008-12-22
Applicant: 한국전자통신연구원
Abstract: PURPOSE: An apparatus and a method for discriminating a speech from music are provided to accurately discriminate a voice from a music for each section by configuring a complex vector value through a similarity test value. CONSTITUTION: A similarity test unit(104) tests voice or music signal similarity for an audio signal by comparing each feature vector value with a voice and music decision model value by feature vector. A complex feature vector extractor(106) constitutes the complex feature vector value based on similarity test value. A voice/music classification unit(108) discriminate a voice or music signal by section from the audio signal by comparing the corresponding voice and music discrimination model with the complex feature vector.
Abstract translation: 目的:提供一种用于区分语音与音乐的装置和方法,以便通过相似性测试值配置复数向量值来准确地区分每个部分的音乐的声音。 构成:相似性测试单元(104)通过将每个特征向量值与特征向量的语音和音乐决策模型值进行比较来测试音频信号的声音或音乐信号相似度。 复杂特征向量提取器(106)基于相似性测试值构成复特征向量值。 语音/音乐分类单元(108)通过将对应的语音和音乐辨别模型与复杂特征向量进行比较,从音频信号逐个区分语音或音乐信号。
-
22.
公开(公告)号:KR1020100067174A
公开(公告)日:2010-06-21
申请号:KR1020080125621
申请日:2008-12-11
Applicant: 한국전자통신연구원
CPC classification number: H04N21/6125 , G10L15/07 , H04N21/42203 , H04N21/42204 , H04N21/4334 , H04N21/4394 , H04N21/472 , H04N21/8405
Abstract: PURPOSE: A meta data searcher, a search method and an IPTV receiving apparatus for using the voice recognition of user uttered data by previously extracting an allomorph about a contents title are provided to search the contents which user desires by using information search functions and voice recognition. CONSTITUTION: A metadata processor(250) processes content meta data to inform data. A metadata storage unit stores content meta data. A voice recognizer(230) performs the voice recognition about firing data. A query processor(240) extracts the search word from the voice-recognized vocabulary. A search processor extracts content meta data corresponding to the search word.
Abstract translation: 目的:提供一种元数据搜索器,搜索方法和IPTV接收装置,用于通过预先提取关于内容标题的变形来使用用户发出的数据的语音识别,以通过使用信息搜索功能和语音识别来搜索用户期望的内容 。 构成:元数据处理器(250)处理内容元数据以通知数据。 元数据存储单元存储内容元数据。 语音识别器(230)执行关于触发数据的语音识别。 查询处理器(240)从语音识别的词汇表中提取搜索词。 搜索处理器提取与搜索词相对应的内容元数据。
-
公开(公告)号:KR1020100062824A
公开(公告)日:2010-06-10
申请号:KR1020090026297
申请日:2009-03-27
Applicant: 한국전자통신연구원
Abstract: PURPOSE: An utterance verification apparatus and a method thereof are provided, which can improve the reliability about the voice recognition result by performing the whole utterance verification about the word after the performance of the partial utterance verification about each sub word. CONSTITUTION: A sub word likelihood ratio calculator(204) calculates the sub word likelihood ratio about the divided sub word. A likelihood ratio weight applying unit(206) applies the weighted value of likelihood ratio according to the recognition reliability to the calculated sub word likelihood ratio. A word likelihood ratio calculator(208) calculates the word likelihood ratio by using the sub word likelihood ratio. A speech verification decision unit(210) decides the output of the word after the utterance verification with the calculated word likelihood ratio.
Abstract translation: 目的:提供一种话语验证装置及其方法,通过在关于每个子字的部分话语验证之后执行关于该单词的整个话语验证,可提高语音识别结果的可靠性。 构成:子字似然比计算器(204)计算关于分割子字的子字似然比。 似然比权重赋予单元(206)将识别可靠性的似然比的加权值应用于计算出的子字似然比。 字似然比计算器(208)通过使用子字似然比来计算字似然比。 语音验证判定单元(210)用所计算的字似然比来确定在话语验证之后的单词的输出。
-
公开(公告)号:KR100930715B1
公开(公告)日:2009-12-09
申请号:KR1020070107705
申请日:2007-10-25
Applicant: 한국전자통신연구원
IPC: G10L15/06 , G10L15/02 , G10L15/183 , G10L15/197
Abstract: A voice recognition method is provided to model various textual language phenomenons into statistical modeling among various knowledge sources. A morpheme is interpreted for a primitive text language corpus consisting of the separate words of Korean(S201). A morpheme language corpus separated is a separate word generated to morpheme. A word trigram which is the language model consisting of a morpheme unigram about a generated morpheme language corpus as described above, and bigram and trigrams is generated(S202). A first N - best recognition candidate to the maximum N is generated for a voice(S204). Recognition result candidates applying a morph-syntactic constraints are revaluated(S205). A second N-best list generated in above step is revaluated(S206). A final N-best list is generated.
Abstract translation: 提供语音识别方法来将各种文本语言现象模型化为各种知识源之间的统计建模。 一个语素被解释为由韩语的单词组成的原始文本语言语料库(S201)。 一个语素语言语料库是一个独立的单词,生成为语素。 生成如上所述的由关于所生成的语素语料库的词素单元构成的语言模型的词三元组,以及生成二元语法和三元语法(S202)。 为语音生成最大N的第一个N最佳识别候选者(S204)。 重新评估应用形态句法约束的识别结果候选(S205)。 在上述步骤中生成的第二个N-最佳列表被重新评估(S206)。 生成最终的N-最佳列表。
-
公开(公告)号:KR100737358B1
公开(公告)日:2007-07-09
申请号:KR1020050069041
申请日:2005-07-28
Applicant: 한국전자통신연구원
IPC: G10L25/93
Abstract: 본 발명이 이루고자 하는 기술적 과제는 음성과 비음성을 보다 명확히 구분함으로써, 음성 인식부의 부하를 낮출 수 있고, 비음성 신호를 음성 신호로 판단하고 음성인식함으로써 발생하는 음성인식의 오류를 줄일 수 있는 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치를 제공하는 것이다.
본 발명은 입력되는 음성 데이터로부터 특징 벡터를 추출하고, 음성/비음성 모델을 이용하여 특징 벡터가 음성에 해당하는 것인지 비음성에 해당하는 것인지 구분하는 음성/비음성 검증부; 및 상기 음성/비음성 검증부가 음성으로 판단한 구간에 대응하는 데이터로부터 음성을 인식하는 음성 인식부를 포함하되, 상기 음성/비음성 검증부는, 상기 입력되는 음성 데이터를 프레임 단위로 나누어 상기 프레임 단위의 음성 데이터로부터 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 중 적어도 어느 하나의 특징 벡터를 추출하며, 상기 음성/비음성 모델을 이용하여 상기 프레임 단위의 음성 데이터에 대하여 음성/비음성 결정을 수행한 후, 연속하는 복수의 프레임의 음성/비음성 결정 값을 창의 길이만큼 버퍼링하여 창 단위로 음성/비음성 결정을 내리는 것을 특징으로 하는 음성 인식 장치를 제공한다.-
公开(公告)号:KR1020060064494A
公开(公告)日:2006-06-13
申请号:KR1020050069041
申请日:2005-07-28
Applicant: 한국전자통신연구원
IPC: G10L25/93
Abstract: 본 발명이 이루고자 하는 기술적 과제는 음성과 비음성을 보다 명확히 구분함으로써, 음성 인식부의 부하를 낮출 수 있고, 비음성 신호를 음성 신호로 판단하고 음성인식함으로써 발생하는 음성인식의 오류를 줄일 수 있는 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치를 제공하는 것이다.
본 발명은 입력되는 음성 데이터로부터 특징 벡터를 추출하고, 음성/비음성 모델을 이용하여 특징 벡터가 음성에 해당하는 것인지 비음성에 해당하는 것인지 구분하는 음성/비음성 검증부; 및 상기 음성/비음성 검증부가 음성으로 판단한 구간에 대응하는 데이터로부터 음성을 인식하는 음성 인식부를 포함하는 음성 인식 장치를 제공한다.-
-
-
公开(公告)号:KR1020170107283A
公开(公告)日:2017-09-25
申请号:KR1020160031050
申请日:2016-03-15
Applicant: 한국전자통신연구원
Abstract: 심층신경망기반의음성인식시스템에서자연어음성인식의성능향상을위한데이터증강방법이개시된다. 심층신경망기반의음성인식시스템에서자연어음성인식의성능향상을위한데이터증강방법은, 자연어발화변이특성중 발화속도변이에대한음성데이터를증강시키는단계와, 상기자연어발화변이특성중 부정확한발음에대한음성데이터를증강시키는단계및 상기발화속도변이와부정확한발음에대하여증강된음성데이터를이용하여심층신경망기반의음성인식시스템을학습하는단계를포함한다. 따라서, 음성인식시스템의성능을향상시킬수 있다.
Abstract translation: 公开了一种用于增强基于深度神经网络的语音识别系统中的自然语言语音识别的性能的数据增强方法。 用于改进的自然语言语音识别性能在深度基于神经网络的语音识别系统,包括加强对所述自然语言话语的变化特性的发声速度变化的声音数据的步骤,对于所述自然语言话语的变化特性的子正确的发音数据增强方法 基于神经网络使用针对语速变化和不正确发音的增强语音数据来增强语音数据并学习语音识别系统。 因此,可以提高语音识别系统的性能。
-
公开(公告)号:KR1020170091903A
公开(公告)日:2017-08-10
申请号:KR1020160012761
申请日:2016-02-02
Applicant: 한국전자통신연구원
IPC: G10L15/16 , G10L15/18 , G10L15/183 , G10L15/30 , G06N3/02
Abstract: 본발명의목적은, 심층신경망계산에소요되는시간을줄임으로써음성인식속도를개선할수 있는, 심층신경망기반의음성인식시스템을제공하는것이다. 이를위해, 본발명에따른심층신경망기반의음성인식시스템은, 각종정보들을입력받는입력부; 프로그램들과정보들을저장하는저장부; 상기입력부를통해입력된정보들을상기프로그램들을이용해처리하는제어부; 및상기제어부에의해처리된결과를출력하는출력부를포함하며, 상기제어부는, 심층신경망의출력노드별오류에영향을미치는정도가큰 노드들을서브그래프로표현하고, 상기노드들을비터디디코딩시에계산한다.
Abstract translation: 本发明的一个目的是提供一种基于神经网络的语音识别系统,它能够通过减少计算神经网络所需的时间来提高语音识别速度。 为此,根据本发明的基于景深神经网络的语音识别系统包括:输入单元,用于接收各种信息; 存储程序和信息的存储单元; 控制单元,用于使用程序处理通过输入单元输入的信息; 并包括用于输出由所述控制单元,其中,对由深度的输出节点处的误差的影响程度的神经网络表示到子图中最大的节点处理的结果的输出,并在搅拌器二时间的节点解码 据计算。
-
-
-
-
-
-
-
-
-