-
公开(公告)号:KR101217525B1
公开(公告)日:2013-01-18
申请号:KR1020080131365
申请日:2008-12-22
Applicant: 한국전자통신연구원
CPC classification number: G10L15/08 , G10L15/142
Abstract: 본 발명에 따른 비터비 디코더는, 입력된 음성 프레임의 관측 벡터에 대한 관측 확률 값을 계산하고, 과거 음성 프레임에 대해 계산된 관측 확률값과의 비션형 필터링을 통해 현재 관측 확률값을 갱신하고, 이를 기반으로 최대 유사도 값을 산출하여 인식 단어를 출력한다.
이와 같이, 본 발명은 관측 확률에 대한 비선형 필터링 방식을 적용하여 음성 신호간에 존재하는 상관성을 토대로 관측 확률 값을 복원함으로써, 의도하지 않은 임펄스성 잡음으로 인해 오염된 부분의 관측 확률이 급격히 낮아지는 것을 방지할 수 있다.
비터비 디코더, 음성, 관측 확률, 비선형 필터링, 잡음-
公开(公告)号:KR1020130005160A
公开(公告)日:2013-01-15
申请号:KR1020110066574
申请日:2011-07-05
Applicant: 한국전자통신연구원
CPC classification number: H04M1/72552 , G10L15/083 , G10L15/30 , H04M2250/74 , H04W4/12
Abstract: PURPOSE: A message service method using a voice recognition function is provided to offer a message by combining a voice recognition result and the real voice of a user. CONSTITUTION: A message server(20) recognizes a voice transmitted from a transmission terminal(10)(S14). The message server generates a recognized result from the voice and an N-best result based on a chaos network. The message server transmits the generated N-best result to the transmission terminal(S20). The message server receives the selected message from the transmission terminal and an evaluation result for the message accuracy(S26). The message server transmits the message and the evaluation result to a reception terminal(30)(S32). [Reference numerals] (10) Transmission terminal; (20) Message server; (30) Reception terminal; (S10) Inputting voice; (S12,S40) Transmitting the voice; (S14) Recognizing the voice; (S16) Generating a recognized result and an N-best result; (S18) Storing log data; (S20) Transmitting the recognized result and the N-best result; (S22) Displaying the recognized result and the N-best result; (S24) Determining a message and an evaluation result; (S26,S32) Transmitting the message and the evaluation result; (S28) Storing additional log data; (S30) Modifying errors of the recognized result; (S34) Displaying the message and the evaluation result; (S36) Requesting the voice; (S38) Extracting the voice; (S42) Outputting the voice
Abstract translation: 目的:提供使用语音识别功能的消息服务方法,通过组合语音识别结果和用户真实语音来提供消息。 构成:消息服务器(20)识别从发送终端(10)发送的语音(S14)。 消息服务器根据混沌网络产生语音识别结果和N最佳结果。 消息服务器将生成的N最佳结果发送到发送终端(S20)。 消息服务器从发送终端接收所选择的消息和消息准确性的评估结果(S26)。 消息服务器将消息和评估结果发送到接收终端(30)(S32)。 (附图标记)(10)发送端子; (20)消息服务器; (30)接待台; (S10)输入声音; (S12,S40)发送语音; (S14)识别声音; (S16)生成识别结果和N最佳结果; (S18)存储日志数据; (S20)发送识别结果和N最佳结果; (S22)显示识别结果和N最佳结果; (S24)确定消息和评估结果; (S26,S32)发送消息和评估结果; (S28)存储其他日志数据; (S30)修正识别结果的错误; (S34)显示消息和评估结果; (S36)请求声音; (S38)提取声音; (S42)输出声音
-
公开(公告)号:KR1020120066530A
公开(公告)日:2012-06-22
申请号:KR1020100127907
申请日:2010-12-14
Applicant: 한국전자통신연구원
CPC classification number: G10L15/065 , G10L15/187
Abstract: PURPOSE: An apparatus for estimating language model weight is provided to enhance performance of secondary search and to improve performance of a voice recognition system. CONSTITUTION: An apparatus for estimating language model weight comprises: a first search unit(101) for performing primary search by applying a first language model; a phoneme recognition unit(102) for outputting second sound score by applying a sound model to a sound feature vector; a weight estimation unit(103) for outputting a first language model weight in case that a sound score of voice recognition result is higher than a sound score of phoneme recognition result; and a second search unit(104) for applying the second language weight to word grid.
Abstract translation: 目的:提供一种用于估计语言模型权重的装置,以提高辅助搜索的性能并提高语音识别系统的性能。 一种用于估计语言模型权重的装置,包括:第一搜索单元,用于通过应用第一语言模型来执行初级搜索; 用于通过将声音模型应用于声音特征向量来输出第二声分数的音素识别单元(102) 用于在声音识别结果的声分高于音素识别结果的声分数的情况下输出第一语言模型权重的权重估计单元; 以及用于将第二语言权重应用于字网格的第二搜索单元(104)。
-
公开(公告)号:KR1020120026357A
公开(公告)日:2012-03-19
申请号:KR1020100088526
申请日:2010-09-09
Applicant: 한국전자통신연구원
Abstract: PURPOSE: A device for driving voice recognition system is provided to perform the voice recognition by vocalization of a pre-stored keyword without additional key operation, thereby increasing the user convenience. CONSTITUTION: When a user speaks a registration target keyword, a user registration unit(100) calculates a threshold value from the keyword. The user registration unit stores the threshold value in a storage unit(114). A voice recognition and driving unit(150) calculates a likelihood ratio for a vocalized data following the input of the vocalized data. The voice recognition and driving unit drives the system by comparing the likelihood ratio with the threshold value.
Abstract translation: 目的:提供一种用于驱动语音识别系统的设备,用于通过预先存储的关键字的发声来执行语音识别,而无需附加的键操作,从而增加了用户的便利性。 构成:当用户说出注册目标关键字时,用户注册单元(100)根据关键字计算阈值。 用户登记单元将阈值存储在存储单元(114)中。 语音识别和驱动单元(150)计算声音数据输入之后的发声数据的似然比。 语音识别和驱动单元通过将似然比与阈值进行比较来驱动系统。
-
公开(公告)号:KR101082837B1
公开(公告)日:2011-11-11
申请号:KR1020080131243
申请日:2008-12-22
Applicant: 한국전자통신연구원
IPC: G10L21/0208 , G10L15/20
Abstract: 본발명은잡음제거장치및 방법에관한것으로, 잡음변화가심한환경과여러가지의잡음이혼재하는환경에서잡음제거효율을향상하기위해, 소프트마스킹기법등과같은음성/잡음분리기법을통해음성과잡음의분리기능을강화하고, 잡음가우시안혼합모델이입력신호에대한잡음성분을모델링하는데한계가있는점을보완하기위해잡음적응기법을사용함으로써, 깨끗한음성을보다정확히추정하여음성인식성능을높이는이점이있다.
-
16.
公开(公告)号:KR101064948B1
公开(公告)日:2011-09-16
申请号:KR1020080125435
申请日:2008-12-10
Applicant: 한국전자통신연구원
IPC: H04L12/28
Abstract: 본 발명은 URC(Ubiquitious Robotic Companion) 단말(로봇)을 이용하여 가정 내에서 사용자의 위치와 관계없이 가정 내에 분산된 음악, 영화, 방송, 게임, 개인 미디어 등의 다양한 멀티미디어 컨텐츠를 즐길 수 있도록 지원하는 홈 엔터테인먼트(Home Entertainment) 로봇 서비스에 관한 것이다. 무선 통신을 통해 연결된 URC 단말 및 서버가 홈 네트워크에 연결된 다양한 멀티미디어 기기와 컨텐츠를 통합 관리하고, 이동과 음성입력이 가능한 로봇이 음성호출 기능 및 위치센서를 통해 사용자의 인접거리에서 서비스를 제공함으로써 음성입력을 위해 리모콘을 사용하거나 가정 내에 마이크가 분산 배치될 필요성이 없다. 또한, 가정내의 좌표 정보를 활용해서 로봇과 인접에 있는 사용자의 위치에 맞는 서비스를 제공할 수 있는 것을 특징으로 한다.
음성인식, 음성합성, URC, 홈 네트워크, 멀티미디어 컨텐츠, 멀티미디어 기기, 홈 엔터테인먼트, 정보검색-
公开(公告)号:KR1020110066628A
公开(公告)日:2011-06-17
申请号:KR1020090123360
申请日:2009-12-11
Applicant: 한국전자통신연구원
CPC classification number: H04M1/23 , G06K9/00335 , G10L15/26 , H04M2250/52
Abstract: PURPOSE: An apparatus for inputting a text using a lip reading method in a mobile phone and a method thereof are provided to input a character by recognizing the motion of a user's mouth. CONSTITUTION: A face location tracking unit(210) detects the motion of a user in a photographing device. A lip motion feature detecting unit(220) extracts a specific vector about an area including the lip shape from the face image by the face location tracking unit. A lip motion extracting unit(230) extracts a feature vector by the movement of the lip among the extracted vectors. A lip motion decoding unit(260) changes the feature vector from the lips motion extracting unit into a corresponding character.
Abstract translation: 目的:提供一种用于在移动电话中使用唇读取方法输入文本的装置及其方法,用于通过识别用户嘴的运动来输入字符。 构成:面部位置跟踪单元(210)检测拍摄装置中的用户的运动。 唇部运动特征检测单元(220)通过面部位置跟踪单元从脸部图像提取关于包括唇部形状的区域的特定矢量。 唇部运动提取单元(230)通过所提取的矢量中的唇部的移动来提取特征向量。 唇部运动解码单元(260)将特征矢量从嘴唇运动提取单元改变成相应的字符。
-
公开(公告)号:KR1020110061781A
公开(公告)日:2011-06-10
申请号:KR1020090118290
申请日:2009-12-02
Applicant: 한국전자통신연구원
IPC: G10L21/0208 , G10L21/0216 , G10L15/20
CPC classification number: G10L21/0216 , G10L19/02 , G10L19/26
Abstract: PURPOSE: A voice processing device and method for removing noise based on a real time noise estimate are provided to improve the performance of voice recognition by removing dynamic noise based on real time noise estimate about input voice including the noise. CONSTITUTION: An input spectrum estimating unit(201) estimates an input spectrum which is a frequency spectrum about an input signal. A noise estimating unit(202) estimates the power spectrum density of noise included in the input signal based on the input spectrum. An average value estimating unit(203) estimates the average value of the power spectrum density of the input signal from the input spectrum. A Wiener filter calculation unit(204) calculates the Wiener filter based on the power spectrum density of the input signal and the power spectrum density of the noise.
Abstract translation: 目的:提供一种基于实时噪声估计来去除噪声的语音处理设备和方法,通过基于包括噪声的输入语音的实时噪声估计消除动态噪声来提高语音识别的性能。 构成:输入频谱估计单元(201)估计作为关于输入信号的频谱的输入频谱。 噪声估计单元(202)基于输入频谱来估计包含在输入信号中的噪声的功率谱密度。 平均值估计单元(203)估计来自输入光谱的输入信号的功率谱密度的平均值。 维纳滤波器计算单元(204)基于输入信号的功率谱密度和噪声的功率谱密度来计算维纳滤波器。
-
公开(公告)号:KR101005786B1
公开(公告)日:2011-01-06
申请号:KR1020080125434
申请日:2008-12-10
Applicant: 한국전자통신연구원
Abstract: 본 발명은 차량용 네비게이션 단말기의 음성인식용 발화 이형태 생성을 위한 POI(points of interest) 대상, 복합명사 분해 및 태깅(tagging) 방법을 제시한다. 소형 차량 네비게이션 단말기 탑재 음성 인식 엔진은 일반적으로 고립어를 인식 대상으로 한다. 고립어는 지도상의 특정 지점에 대한 명칭이며, 이러한 명칭에 대해 사용자는 다양한 발화 이형태를 가진다. 본 발명은 사용자의 다양한 발화 이형태 생성을 위해, 지역 명칭으로 기술된 복합명사 형태의 어휘를 대상으로 복합 명사 분해 및 태깅 방법론을 제시한다. 분해는 차트 기반 동적 프로그래밍 방법론을 기반으로 하고, 태깅은 최대 엔트로피를 기반으로 하여 POI명칭을 구성하는 단일어 각각에 대한 의미 표지를 부착한다.
복합명사, 복합명사분해, 태깅, POI, 이형태-
公开(公告)号:KR1020100073178A
公开(公告)日:2010-07-01
申请号:KR1020080131772
申请日:2008-12-22
Applicant: 한국전자통신연구원
IPC: G10L15/06 , G08G1/0968 , G10L15/14
Abstract: PURPOSE: A speaker adaptation apparatus and a method for speech recognition are provided to remarkably improve the performance of a speaker by estimating the answer of actual speech data in high possibility through an N-best recognition result screen output function. CONSTITUTION: A voice data verification unit(202) obtains measurement data for each phoneme with regard to accumulation data through reliability evaluation. The accumulation data includes voice data and N-best recognition result data. A sound model speaker adapting unit(204) performs speaker adaptation by measurement data for each acquired per-phoneme. A sound model updating unit(206) updates a sound model by a new speaker-subordinate sound model through performed speaker adaptation.
Abstract translation: 目的:提供一种扬声器适配装置和语音识别方法,以通过N最佳识别结果屏幕输出功能估计高可能性的实际语音数据的答案来显着提高扬声器的性能。 构成:语音数据验证部(202)通过可靠性评价获取关于累积数据的每个音素的测量数据。 累积数据包括语音数据和N最佳识别结果数据。 声音扬声器适配单元(204)通过每个获取的每个音素的测量数据执行说话者适应。 声音模型更新单元(206)通过执行的说话者自适应通过新的说话者 - 从属声音模型来更新声音模型。
-
-
-
-
-
-
-
-
-