통계 기반의 다중 발음 사전 생성 장치 및 방법
    1.
    发明授权
    통계 기반의 다중 발음 사전 생성 장치 및 방법 有权
    基于统计量生成多个发音词典的装置和方法

    公开(公告)号:KR101333194B1

    公开(公告)日:2013-11-26

    申请号:KR1020110072394

    申请日:2011-07-21

    Abstract: 본 발명에 따른 통계 기반의 다중 발음 사전 생성 장치는, 발화 및 녹음된 음성 신호 파일들과 각각의 음성 신호 파일에 해당하는 단어 수준의 전사문 및 각각의 음성 신호 파일에 해당하는 화자 정보를 포함하는 데이터베이스; 상기 음성 신호 파일, 상기 단어 수준의 전사문, 및 각 단어 별로 복수 개의 발음열을 포함하는 다중 발음 사전으로부터 음성 인식기의 정렬 기능을 이용하여 상기 음성 신호 파일에 포함된 단어에 대하여 상기 다중 발음 사전에서 가장 가까운 발음열을 검출하는 음성-발음열 정렬부; 상기 가장 가까운 발음열의 검출을 상기 데이터베이스에 저장된 음성 신호 파일들과 단어 수준의 전사문에 적용하여 단어와 발음열의 쌍들을 추출하는 단어-발음열 쌍 추출부; 및 상기 추출된 단어와 발음열의 쌍들을 바탕으로 상기 다중 발음 사전의 각 단어 별 발음열들에 대한 통계 정보를 산출하여 저장하는 발음열 통계정보 추출부를 포함하는 것을 특징으로 한다.

    음원 분리 기준 결정 장치와 방법 및 음원 분리 장치와 방법
    2.
    发明公开
    음원 분리 기준 결정 장치와 방법 및 음원 분리 장치와 방법 无效
    用于确定声源的分离标准的装置和方法,以及用于与所述装置分离声源的装置和方法

    公开(公告)号:KR1020130014895A

    公开(公告)日:2013-02-12

    申请号:KR1020110076622

    申请日:2011-08-01

    CPC classification number: G10L21/0232 G10L21/0264

    Abstract: PURPOSE: A sound source division reference determination device and a method thereof are provided to detect a sound source direction in a noise environment by using an ITD(Interaural Time Delay) value and an IID(Interaural Intensity Difference) value. CONSTITUTION: A histogram generator(110) generates a histogram related a sound source direction including the input signal based on an SNR(Signal to Noise Raito) value or an input signal energy value. A noise area detecting unit(120) detects a noise area from an input signal. A sound source division standard determination unit(130) determines a boundary value as a standard value for dividing the sound sources. [Reference numerals] (110) Histogram generator; (120) Noise area detecting unit; (130) Sound source division standard determination unit; (140) First power unit; (150) First main control unit

    Abstract translation: 目的:提供一种声源分配参考确定装置及其方法,用于通过使用ITD(时间间延迟)值和IID(干涉强度差)值来检测噪声环境中的声源方向。 构成:直方图生成器(110)基于SNR(信噪比Ra值)或输入信号能量值生成包括输入信号的声源方向的直方图。 噪声区域检测单元(120)根据输入信号检测噪声区域。 声源分割标准确定单元(130)将边界值确定为用于划分声源的标准值。 (附图标记)(110)直方图生成器; (120)噪声区检测单元; (130)声源分割标准确定单元; (140)第一电源单元; (150)第一主控单元

    자동통역 단말기와 서버, 시스템 및 자동통역 서비스 방법
    3.
    发明公开
    자동통역 단말기와 서버, 시스템 및 자동통역 서비스 방법 无效
    翻译终端和服务器,系统和方法

    公开(公告)号:KR1020110038448A

    公开(公告)日:2011-04-14

    申请号:KR1020090095741

    申请日:2009-10-08

    CPC classification number: G06F17/2854

    Abstract: PURPOSE: An automatic interpretation terminal, a service, a system and method for servicing automatic interpretation are provided to supply rapid and exact interpretation service by directly performing interpretation and relay interpretation by utilizing a plurality of interpretation supporters and providing an interpretation result to a terminal of a user. CONSTITUTION: A communication unit(300) receives interpretation request from a user. The communication unit transmits an interpretation result according to the interpretation request. A interpretation applicant information DB(306) stores a list information of the interpretation supporters capable of performing interpretation as a target language. A server control unit(304) searches interpretation supporter capable of interpreting the request target language.

    Abstract translation: 目的:提供自动解释终端,服务,系统和方法来提供快速准确的口译服务,通过利用多个解释支持者直接进行解释和中继解释,并将解释结果提供给终端 一个用户 构成:通信单元(300)从用户接收解释请求。 通信单元根据解释请求发送解释结果。 解释申请者信息DB(306)存储能够进行解释的解释支持者的列表信息作为目标语言。 服务器控制单元(304)搜索能够解释请求目标语言的解释支持者。

    화자 적응 시스템 및 그 방법
    4.
    发明公开
    화자 적응 시스템 및 그 방법 有权
    用于演讲者适应的方法

    公开(公告)号:KR1020100137873A

    公开(公告)日:2010-12-31

    申请号:KR1020090056120

    申请日:2009-06-23

    Abstract: PURPOSE: A speaker adaptation system and a method thereof are provided to utilize the cumulative variable for obtaining enough statistics for the non-instruction adaptation in voice recognitioin process without performing an adaptation training thereby enabling to gradual adaptation. CONSTITUTION: A characteristic detecting part(110) extracts an eigenvector from a voice signal. A sound model storage(120) stores an acoustic model consisting of a recursive tree. A conversion parameter class determiner(130) produces gaussian posteriori probability of a candidate state based on the eigenvector and the sound model and determines the cumulative variable and a conversion parameter class based on the gaussian posterior probability. A sound model updater(140) produces the conversion parameter based on the conversion parameter class and cumulative variable and renews the acoustic model.

    Abstract translation: 目的:提供一种扬声器适应系统及其方法,以利用该累积变量来获得用于语音识别过程中的非指令适配的足够的统计量,而不进行适应训练,从而能够逐渐适应。 构成:特征检测部(110)从语音信号中提取特征向量。 声音模型存储(120)存储由递归树组成的声学模型。 转换参数类确定器(130)基于特征向量和声音模型产生候选状态的高斯后验概率,并且基于高斯后验概率确定累积变量和转换参数类。 声音模型更新器(140)基于转换参数类和累积变量产生转换参数,并更新声学模型。

    음성 인식 방법
    5.
    发明授权
    음성 인식 방법 有权
    음성인식방법

    公开(公告)号:KR100930715B1

    公开(公告)日:2009-12-09

    申请号:KR1020070107705

    申请日:2007-10-25

    Abstract: A voice recognition method is provided to model various textual language phenomenons into statistical modeling among various knowledge sources. A morpheme is interpreted for a primitive text language corpus consisting of the separate words of Korean(S201). A morpheme language corpus separated is a separate word generated to morpheme. A word trigram which is the language model consisting of a morpheme unigram about a generated morpheme language corpus as described above, and bigram and trigrams is generated(S202). A first N - best recognition candidate to the maximum N is generated for a voice(S204). Recognition result candidates applying a morph-syntactic constraints are revaluated(S205). A second N-best list generated in above step is revaluated(S206). A final N-best list is generated.

    Abstract translation: 提供语音识别方法来将各种文本语言现象模型化为各种知识源之间的统计建模。 一个语素被解释为由韩语的单词组成的原始文本语言语料库(S201)。 一个语素语言语料库是一个独立的单词,生成为语素。 生成如上所述的由关于所生成的语素语料库的词素单元构成的语言模型的词三元组,以及生成二元语法和三元语法(S202)。 为语音生成最大N的第一个N最佳识别候选者(S204)。 重新评估应用形态句法约束的识别结果候选(S205)。 在上述步骤中生成的第二个N-最佳列表被重新评估(S206)。 生成最终的N-最佳列表。

    통계 기반의 다중 발음 사전 생성 장치 및 방법
    7.
    发明公开
    통계 기반의 다중 발음 사전 생성 장치 및 방법 有权
    基于统计量生成多个发音词典的装置和方法

    公开(公告)号:KR1020130011323A

    公开(公告)日:2013-01-30

    申请号:KR1020110072394

    申请日:2011-07-21

    Abstract: PURPOSE: A multi pronunciation dictionary generating device and a method thereof are provided to use source information and calculated frequency by calculating the frequency of candidate pronunciations of vocabularies appearing in a mass voice database and storing the source information. CONSTITUTION: A voice-pronunciation arranging unit(120) detects a pronunciation the closest to a word included in a voice signal file(111) from a multi pronunciation dictionary by using an arrangement function of a voice recognizer. A word-pronunciation pair extracting unit(140) applies the detection of the closest pronunciation to a word level document(112) and voice signal files stored in a database(110). A pronunciation statistics information extracting unit(150) calculates statistics information about pronunciations of each word in the multi pronunciation dictionary based on the extracted word and pairs of the pronunciations. [Reference numerals] (110) Database; (111) Voice signal file; (112) Word level document; (113) Speaker information; (120) Voice-pronunciation arranging unit; (130) Multiple pronunciation dictionary; (140) Word-pronunciation pair extracting unit; (150) Pronunciation statistics information extracting unit; (160) Hash key value generating unit; (170) Duplication using verification unit; (180) Statistics-based multiple pronunciation dictionary

    Abstract translation: 目的:提供多发音字典生成装置及其方法,通过计算出现在质量声音数据库中的词汇的候选发音的频率并存储源信息来使用源信息和计算出的频率。 构成:通过使用语音识别器的排列功能,语音发音排列单元(120)通过使用多语音字典来检测最接近语音信号文件(111)中包含的单词的发音。 单词发音对提取单元(140)将最接近的发音的检测应用于存储在数据库(110)中的单词级别文档(112)和语音信号文件。 发音统计信息提取单元(150)基于提取的单词和发音对来计算关于多发音字典中的每个单词的发音的统计信息。 (附图标记)(110)数据库; (111)语音信号文件; (112)字级文件; (113)演讲人资料; (120)语音发音安排单元; (130)多发音词典; (140)字发音对提取单元; (150)发音统计信息提取单元; (160)哈希值生成单元; (170)使用验证单元的复制; (180)基于统计的多发音词典

    음성 인식용 탐색 공간 생성 방법 및 장치
    8.
    发明公开
    음성 인식용 탐색 공간 생성 방법 및 장치 无效
    用于生成语音识别的搜索网络的方法和系统

    公开(公告)号:KR1020130059476A

    公开(公告)日:2013-06-07

    申请号:KR1020110125405

    申请日:2011-11-28

    CPC classification number: G10L15/083 G10L15/187 G10L15/08 G10L2015/081

    Abstract: PURPOSE: A search space generating method for voice recognition and a system thereof are provided to improve an accuracy of a voice recognition by adding 'a pronunciation heat which is generated by a pronunciation conversion between recognition units' to a search space. CONSTITUTION: A WFST[Weighted Finite State Transducer] coupling unit generates a WFST L·G by a coupling of a WFST G[WFST Grammar] and a WFST L[WFST pronunciation Library] and generates a WFST L'·L·G by a coupling of a WFST L'[WFST pronunciation conversion] and the WFST L·G(310,320). The WFST coupling unit generates a WFST C·L'·L·G by a coupling of a WFST context[WFST C] and the WFST L'·L·G and generates a WFST H·C·L'·L·G by a coupling of a WFST H[WFST Hidden Markov model] and the WFST C·L'·L·G(330,340). A WFST optimization unit optimizes the WFST H·C·L'·L·G(350). [Reference numerals] (310) WFST G and WFST L combination; (320) WFST L' and WFST L·G combination; (330) WFST C and WFST L'·L·G combination; (340) WFST H and WFST C·L'·L·G combination; (350) Optimization; (AA) Start; (BB) End

    Abstract translation: 目的:提供一种用于语音识别的搜索空间生成方法及其系统,以通过将由识别单元之间的语音转换产生的发音热量添加到搜索空间来提高语音识别的精度。 构成:WFST [加权有限状态传感器]耦合单元通过WFST G [WFST语法]和WFST L [WFST发音库]的耦合产生WFST L·G,并通过一个WFST L'·L·G生成WFST L' WFST L'[WFST发音转换]与WFST L·G(310,320)的耦合。 WFST耦合单元通过WFST上下文[WFST C]和WFST L'·L·G的耦合产生WFST C·L'·L·G,并通过下式产生WFST H·C·L'·L·G WFST H [WFST隐马尔可夫模型]和WFST C·L'·L·G(330,340)的耦合。 WFST优化单元优化WFST H·C·L'·L·G(350)。 (参考号)(310)WFST G和WFST L组合; (320)WFST L'和WFST L·G组合; (330)WFST C和WFST L'·L·G组合; (340)WFST H和WFST C·L'·L·G组合; (350)优化; (AA)开始; (BB)结束

    음향모델 적응 방법 및 이를 이용하는 음성인식 장치
    9.
    发明公开
    음향모델 적응 방법 및 이를 이용하는 음성인식 장치 无效
    使用该方法适应声学模型和语音识别装置的方法

    公开(公告)号:KR1020120056086A

    公开(公告)日:2012-06-01

    申请号:KR1020100117611

    申请日:2010-11-24

    CPC classification number: G10L15/14 G10L15/26 G10L19/038

    Abstract: PURPOSE: An acoustic model adapting method and a voice recognizing device using the same are provided to eliminate a re-study burden of a user about a quantized acoustic model by an embedded voice recognizing machine. CONSTITUTION: An extracting unit(110) extracts features from a waveform corresponding to a voice. The extracting unit generates quantized data. A probability measuring unit(120) applies the quantized data, an adapted network, and a quantized acoustic model to fixed point-applied high-speed computation. The probability measuring unit calculates Gaussian occupancy probability. An adaption unit(130) updates the acoustic model. A voice recognizing unit(150) recognizes the extracted features using the updated acoustic model.

    Abstract translation: 目的:提供一种声学模型适应方法和使用其的语音识别装置,以消除用户通过嵌入式语音识别机器对量化声学模型的重新学习负担。 构成:提取单元(110)从对应于声音的波形中提取特征。 提取单元生成量化数据。 概率测量单元(120)将量化数据,适应网络和量化声学模型应用于固定点施加的高速计算。 概率测量单元计算高斯占用概率。 适应单元(130)更新声学模型。 语音识别单元(150)使用更新的声学模型识别所提取的特征。

    마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법
    10.
    发明授权
    마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법 有权
    基于麦克风阵列的语音识别系统和目标语音提取方法

    公开(公告)号:KR101023211B1

    公开(公告)日:2011-03-18

    申请号:KR1020080088318

    申请日:2008-09-08

    Abstract: 본 발명은 암묵신호분리를 이용한 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표 음성 추출방법에 관한 것으로서, 음성인식 시스템은 다수의 마이크를 통해 각각 입력된 혼합신호들을 독립요소분석을 통해 분리하고, 상기 분리된 음원 신호들 중에서 음성인식을 목표로 발성된 하나의 목표음성을 가우시안 혼합 밀도 모델 또는 은닉 마르코프 모델을 이용하여 추출하고, 상기 추출된 목표음성을 통해 원하는 음성을 자동으로 인식함으로써, 잡음이 존재하는 상황에서도 보다 높은 인식률을 확보할 수 있다.
    마이크배열, 음성인식, 암묵신호분리, 독립요소분석(ICA), 가우시안 혼합 밀도 모델(GMM), 은닉 마르코프 모델(HMM), 목표음성, 특징벡터, 대수 우도비(LLR).

Patent Agency Ranking