-
公开(公告)号:KR1020010064247A
公开(公告)日:2001-07-09
申请号:KR1019990062397
申请日:1999-12-27
Applicant: 한국전자통신연구원
IPC: G06F17/20
Abstract: PURPOSE: A method for using multi level voice recognition unit is provided to obtain a language model from a statistics value and to recognize a language model using various-level recognition units by searching all connection relations of recognition units of various levels. CONSTITUTION: In a language model construction method using an n-gram for designating a word being displayed after a specific word, a language model is constructed by considering all connection relations between language units of various levels after inputted sentence is divided into language units of various levels. In addition, in a voice recognition searching method using a n-gram for designating a word being displayed after a specific word, a language model is constructed and stored by considering all connection relations between language units of various levels after inputted sentence is divided into language units of various levels. A matched sentence is searched out of the language model stored in the above stage by considering all connection relations between language units of various levels after the inputted sentence is divided into language units of various levels.
Abstract translation: 目的:提供一种使用多级语音识别单元的方法,从统计值获取语言模型,并通过搜索各级识别单元的所有连接关系,通过各级识别单元识别语言模型。 构成:在使用n-gram指定在特定单词之后显示的单词的语言模型构建方法中,通过考虑所有语言单元之间的所有连接关系,将输入的句子分为各种语言单元之后,构建语言模型 水平。 此外,在使用n-gram指定在特定单词之后显示的单词的语音识别搜索方法中,通过考虑所输入的句子之间的各种语言单元之间的所有连接关系被分成语言来构建和存储语言模型 各级单位 通过考虑将输入的句子分成各种语言单位之后的各级语言单元之间的所有连接关系,从存储在上述阶段的语言模型中搜索匹配的句子。
-
公开(公告)号:KR1020010017865A
公开(公告)日:2001-03-05
申请号:KR1019990033601
申请日:1999-08-16
Applicant: 한국전자통신연구원
IPC: G06F17/27
Abstract: PURPOSE: A method for video communication of an avatar based TTS system is provided to synchronize the shape of lips of an avatar with a synchronized voice in order to control the look and movement of the avatar in response to the contents of speech, and thereby perform the video communication . CONSTITUTION: An avatar model producer determines whether it performs an operation for making an online photograph or selects an existing avatar model(301). The online photograph is made(302), and a reference point of the avatar model is illustrated(303) if the online photograph is needed. If the existing avatar model is selected, the data of the selected avatar model is transmitted to an avatar server(305). A voice recognition module recognizes the voice inputted from an outside and thereby generates a character string, and transmits it to a language translation module(306). The language translation module translates the generated character string and transmits it to a voice synthesizing module(307). The voice synthesizing module extracts the information related to the movement from the translated character string.
Abstract translation: 目的:提供一种用于基于头像的TTS系统的视频通信的方法,用于使化身的嘴唇形状与同步语音同步,以便响应于语音的内容来控制化身的外观和移动,从而执行 视频通讯。 构成:头像模型生成器确定它是执行用于进行在线照片的操作还是选择现有化身模型(301)。 制作在线照片(302),如果需要在线照片,则示出了化身模型的参考点(303)。 如果选择了现有的化身模型,则所选化身模型的数据被发送到化身服务器(305)。 语音识别模块识别从外部输入的语音,从而生成字符串,并将其发送到语言翻译模块(306)。 语言翻译模块翻译生成的字符串并将其发送到语音合成模块(307)。 语音合成模块从翻译的字符串中提取与移动有关的信息。
-
公开(公告)号:KR100238442B1
公开(公告)日:2000-01-15
申请号:KR1019970037242
申请日:1997-08-04
Applicant: 한국전자통신연구원
IPC: G10L13/06
Abstract: 본 발명은 음성합성기의 고빈도 음절 합성단위 선정 방법에 관한 것으로서, 반음절 접합 및 합성단위간 접합점을 가급적 줄이고 합성음의 명료도를 확보하기 위해 음운환경이 고려된 음절단위의 합성단위(CDS)를 선정하고자 하며, 명료도를 유지하면서 합서단위 갯수를 줄이기 위해 음절의 발생 빈도를 고려하여 고빈도 음절이 최대한 많이 포함되도록 실제 아나운서가 발성할 단어 리스트이며, 녹음된 단어로부터 합성단위 고빈도 CDS를 추출하는 최적 단어 집합을 설계함으로써, 합성단위간 접합점을 줄일 수 있으며, 이에 따라 합성음의 명료도와 자연성을 향상시킬 수 있는 효과가 있다.
-
公开(公告)号:KR100236962B1
公开(公告)日:2000-01-15
申请号:KR1019970034598
申请日:1997-07-23
Applicant: 한국전자통신연구원
Abstract: 1. 청구 범위에 기재된 발명이 속한 기술분야
본 발명은 음소별 화자 종속 변이음(allophone) 모델링 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 각 음소별로 화자 특성을 고려할 수 있는 음성 단위 선정 방법으로서 문맥 및 화자를 동시에 모두 고려한 음소별 화자 종속 변이음(allophone) 모델링 방법을 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 음성 인식기에 적용되는 음성 모델링 방법에 있어서, 각 음소별 음성 데이터의 특징 벡터열을 읽어, 트랜스크립션과 발음 사전을 이용하여 문맥 정보를 얻은 후에 각 자료의 화자를 식별하는 제 1 단계; 주어진 데이터를 문맥과 화자에 따라 두 개의 그룹으로 나눈 후에 나누어진 그룹의 적합성을 측정하는 과정을 반복하는 제 2 단계; 및 나뉘어진 그룹의 샘플의 갯수가 소정의 값 이상인 그룹이 존재하면 두 개의 그룹으로 나누는 과정을 계속하고, 그러한 그룹이 더 이상 존재하지 않으면 종료하는 제 3 단계를 포함한다.
4. 발명의 중요한 용도
본 발명은 음성 인식기에 이용됨.-
公开(公告)号:KR1019990050440A
公开(公告)日:1999-07-05
申请号:KR1019970069559
申请日:1997-12-17
Applicant: 한국전자통신연구원
IPC: G10L25/93
Abstract: 본 발명은 컴퓨터를 이용한 음성인식 응용분야에서 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법 및 음성 인식장치에 관한 것으로, 종래의 음성인식장치는 음성신호에 대해 프레임 단위로 특징 벡터를 추출하여 이를 음소나 유사 음소 단위로 모델링한 후, 입력된 미지의 특징 벡터를 탐색기에서 음소나 유사 음소 단위의 모델과 비교하는 방법을 사용하므로써 탐색 시간의 증가 및 인식 대상어의 증가로 인한 모호성이 커졌다. 이에 본 발명은 인간의 음성이 입력되었을 때 입력된 신호중에서 일반적으로 음성인식에 사용되는 기존의 특징 파라메터와 더불어 음성신호를 유성음/무성음/묵음으로 잘 부류화시킬 수 있는 또다른 특징 파라메터를 추가로 추출하여 유성음, 무성음, 및 묵음의 구간을 정확히 부류화시키고, 이 유성음/무성음/묵음으로 부류화된 정보를 음성인식기의 탐색기에서 부가적으로 사용하여 탐색 대상을 축소시킴으로써 기존의 음성인식기에 비해 현저한 탐색 시간의 감축 및 탐색 성능의 향상을 가져오게 하였다.
-
公开(公告)号:KR1020170022784A
公开(公告)日:2017-03-02
申请号:KR1020150118232
申请日:2015-08-21
Applicant: 한국전자통신연구원
Abstract: 본발명의일면에따른무선통신기기들사이의자동통역연결방법은, 하나이상의프로세서를포함하는자동통역을수행하는제1무선통신기기와상기제1무선통신기기이외의무선통신기기들사이의자동통역연결방법에있어서, 상기프로세서는, 상기제1무선통신기기를자동연결모드로설정하는단계; 상기제1무선통신기기에기설정된거리이내로접근한제2무선통신기기로자동으로연결시도신호를송신하고상기제2무선통신기기의연결모드를판단하는단계; 및상기제2무선통신기기의연결모드가자동연결모드인경우상기제2무선통신기기의사용자의승인없이상기제2무선통신기기로부터자동으로연결승인신호가상기제1무선통신기기로송신되고상기제1무선통신기기는상기연결승인신호를수신한다음상기제2무선통신기기와연결하는단계;를포함하여개방모드로대화의자동통역을수행하는것을특징으로한다.
-
公开(公告)号:KR101250897B1
公开(公告)日:2013-04-04
申请号:KR1020090075145
申请日:2009-08-14
Applicant: 한국전자통신연구원
Abstract: 본 발명은 전자 사전에서 음성인식을 이용한 단어 탐색 기술에 관한 것으로, 음성인식 오류가 일어나더라도 다수의 음성인식 후보(N-best)에 대한 인식결과를 출력하여 사용자가 그 중 하나를 택할 수 있게 함으로서 음성인식오류의 불편함을 줄이고, 특히 영한사전 검색에 있어서, 원래 사전적 단어의 발음은 물론, 발음을 모를 경우 알파벳의 연속발음 조합을 그 단어의 발음으로 선택할 수 있도록 발음의 변이를 다중으로 제공하여 사용자가 발음을 모르는 영문단어라도 음성으로 용이하게 검색하는 것을 특징으로 한다. 본 발명에 의하면, 종래방법인 키보드 단위 검색방법이나 기존 영문 알파벳 단위 음성인식 방법에 비해 높은 정확률로 영한 사전의 검색을 매우 빠르게 할 수 있으며, 음성인식 오류가 발생하더라도 N-best 후보로부터 정답을 선택할 수 있어 전자사전의 사용자 편의성을 대폭 개선할 수 있다.
전자사전, 영한 사전, 다중발음, N-best 음성인식-
公开(公告)号:KR1020130011323A
公开(公告)日:2013-01-30
申请号:KR1020110072394
申请日:2011-07-21
Applicant: 한국전자통신연구원
Abstract: PURPOSE: A multi pronunciation dictionary generating device and a method thereof are provided to use source information and calculated frequency by calculating the frequency of candidate pronunciations of vocabularies appearing in a mass voice database and storing the source information. CONSTITUTION: A voice-pronunciation arranging unit(120) detects a pronunciation the closest to a word included in a voice signal file(111) from a multi pronunciation dictionary by using an arrangement function of a voice recognizer. A word-pronunciation pair extracting unit(140) applies the detection of the closest pronunciation to a word level document(112) and voice signal files stored in a database(110). A pronunciation statistics information extracting unit(150) calculates statistics information about pronunciations of each word in the multi pronunciation dictionary based on the extracted word and pairs of the pronunciations. [Reference numerals] (110) Database; (111) Voice signal file; (112) Word level document; (113) Speaker information; (120) Voice-pronunciation arranging unit; (130) Multiple pronunciation dictionary; (140) Word-pronunciation pair extracting unit; (150) Pronunciation statistics information extracting unit; (160) Hash key value generating unit; (170) Duplication using verification unit; (180) Statistics-based multiple pronunciation dictionary
Abstract translation: 目的:提供多发音字典生成装置及其方法,通过计算出现在质量声音数据库中的词汇的候选发音的频率并存储源信息来使用源信息和计算出的频率。 构成:通过使用语音识别器的排列功能,语音发音排列单元(120)通过使用多语音字典来检测最接近语音信号文件(111)中包含的单词的发音。 单词发音对提取单元(140)将最接近的发音的检测应用于存储在数据库(110)中的单词级别文档(112)和语音信号文件。 发音统计信息提取单元(150)基于提取的单词和发音对来计算关于多发音字典中的每个单词的发音的统计信息。 (附图标记)(110)数据库; (111)语音信号文件; (112)字级文件; (113)演讲人资料; (120)语音发音安排单元; (130)多发音词典; (140)字发音对提取单元; (150)发音统计信息提取单元; (160)哈希值生成单元; (170)使用验证单元的复制; (180)基于统计的多发音词典
-
公开(公告)号:KR1020110064171A
公开(公告)日:2011-06-15
申请号:KR1020090120657
申请日:2009-12-07
Applicant: 한국전자통신연구원
Abstract: PURPOSE: A sentence pattern classifying device and method of a voice recognition result sentence are provided to offer sentence pattern information about an automatically translated input sentence more accurately. CONSTITUTION: A voice recognition module(10) outputs a text sentence with voice recognition. A semantic module(20) analyzes the morpheme of the text sentence. The semantic module classifies the sentence pattern of a corresponding sentence from a morpheme analysis result. According to a sentence pattern classification result, the semantic module adds punctuation marks to the text sentence. A translator(40) translates the text sentence. A voice output module(60) outputs a voice composite tone corresponding to the translated sentence.
Abstract translation: 目的:提供语音识别结果句子的句型分类装置和方法,以更准确地提供关于自动翻译的输入句子的句型信息。 构成:语音识别模块(10)输出具有语音识别的文本句子。 语义模块(20)分析文本句子的语素。 语义模块从语素分析结果对相应句子的句型进行分类。 根据句型分类结果,语义模块将标点符号添加到文本句子中。 翻译者(40)翻译文本句子。 语音输出模块(60)输出与翻译后的句子相对应的语音合成音。
-
公开(公告)号:KR1020110010916A
公开(公告)日:2011-02-08
申请号:KR1020090068268
申请日:2009-07-27
Applicant: 한국전자통신연구원
IPC: G06F17/28 , G10L15/18 , G10L15/183 , G10L15/26
CPC classification number: G10L15/26 , G06F17/2809 , G10L15/1822
Abstract: PURPOSE: A meaning representation processing device and a method thereof are provided to interpret a sentence which is available for being generated in a constructed meaning expression group and train an auto translating unit. CONSTITUTION: A meaning expression converting unit(202a) converts a word column of an input voice recognition result in a meaning expression. By referring a previously constructed meaning expression group database(206a), a meaning expression matching unit(204a) searches the converted meaning expression. According to the search result, a meaning expression matching unit determines a final meaning expression. A sentence generating unit(208a) generates the generated final meaning expression into a final sentence.
Abstract translation: 目的:提供一种意义表示处理设备及其方法来解释可在构造的意义表达组中生成的句子并训练自动翻译单元。 构成:意义表达转换单元(202a)将意义表达式中的输入语音识别结果的单词列转换。 通过引用先前构造的意义表达组数据库(206a),意义表达匹配单元(204a)搜索转换的含义表达式。 根据搜索结果,意义表达匹配单元确定最终含义表达。 句子生成单元(208a)将生成的最终含义表达式生成到最终句子中。
-
-
-
-
-
-
-
-
-