-
公开(公告)号:KR1020120056661A
公开(公告)日:2012-06-04
申请号:KR1020100118310
申请日:2010-11-25
Applicant: 한국전자통신연구원
Abstract: PURPOSE: A voice signal pre-processing device and a method thereof are provided to interpolate and restore a voice signal whose size is abnormal under mobile environments, thereby increasing performance of recognizing a voice. CONSTITUTION: A voiced sound section detecting unit(120) detects a voiced sound section including a voiced sound signal from a voice section. A pre-processing method determining unit(140) detects a clipping signal which is generated during the voiced sound section. A clipping signal processing unit(160) extracts a signal sample close to the clipping signal. The clipping signal processing unit interpolates the clipping signal by using the signal sample.
Abstract translation: 目的:提供一种语音信号预处理装置及其方法,用于在移动环境下内插和恢复尺寸异常的语音信号,从而提高识别语音的性能。 声音部分检测单元(120)检测包括来自语音部分的有声声音信号的浊音部分。 预处理方法确定单元(140)检测在有声声部分期间产生的限幅信号。 剪辑信号处理单元(160)提取接近限幅信号的信号样本。 剪辑信号处理单元通过使用信号采样内插削波信号。
-
公开(公告)号:KR1020120026357A
公开(公告)日:2012-03-19
申请号:KR1020100088526
申请日:2010-09-09
Applicant: 한국전자통신연구원
Abstract: PURPOSE: A device for driving voice recognition system is provided to perform the voice recognition by vocalization of a pre-stored keyword without additional key operation, thereby increasing the user convenience. CONSTITUTION: When a user speaks a registration target keyword, a user registration unit(100) calculates a threshold value from the keyword. The user registration unit stores the threshold value in a storage unit(114). A voice recognition and driving unit(150) calculates a likelihood ratio for a vocalized data following the input of the vocalized data. The voice recognition and driving unit drives the system by comparing the likelihood ratio with the threshold value.
Abstract translation: 目的:提供一种用于驱动语音识别系统的设备,用于通过预先存储的关键字的发声来执行语音识别,而无需附加的键操作,从而增加了用户的便利性。 构成:当用户说出注册目标关键字时,用户注册单元(100)根据关键字计算阈值。 用户登记单元将阈值存储在存储单元(114)中。 语音识别和驱动单元(150)计算声音数据输入之后的发声数据的似然比。 语音识别和驱动单元通过将似然比与阈值进行比较来驱动系统。
-
公开(公告)号:KR101082837B1
公开(公告)日:2011-11-11
申请号:KR1020080131243
申请日:2008-12-22
Applicant: 한국전자통신연구원
IPC: G10L21/0208 , G10L15/20
Abstract: 본발명은잡음제거장치및 방법에관한것으로, 잡음변화가심한환경과여러가지의잡음이혼재하는환경에서잡음제거효율을향상하기위해, 소프트마스킹기법등과같은음성/잡음분리기법을통해음성과잡음의분리기능을강화하고, 잡음가우시안혼합모델이입력신호에대한잡음성분을모델링하는데한계가있는점을보완하기위해잡음적응기법을사용함으로써, 깨끗한음성을보다정확히추정하여음성인식성능을높이는이점이있다.
-
104.
公开(公告)号:KR101064948B1
公开(公告)日:2011-09-16
申请号:KR1020080125435
申请日:2008-12-10
Applicant: 한국전자통신연구원
IPC: H04L12/28
Abstract: 본 발명은 URC(Ubiquitious Robotic Companion) 단말(로봇)을 이용하여 가정 내에서 사용자의 위치와 관계없이 가정 내에 분산된 음악, 영화, 방송, 게임, 개인 미디어 등의 다양한 멀티미디어 컨텐츠를 즐길 수 있도록 지원하는 홈 엔터테인먼트(Home Entertainment) 로봇 서비스에 관한 것이다. 무선 통신을 통해 연결된 URC 단말 및 서버가 홈 네트워크에 연결된 다양한 멀티미디어 기기와 컨텐츠를 통합 관리하고, 이동과 음성입력이 가능한 로봇이 음성호출 기능 및 위치센서를 통해 사용자의 인접거리에서 서비스를 제공함으로써 음성입력을 위해 리모콘을 사용하거나 가정 내에 마이크가 분산 배치될 필요성이 없다. 또한, 가정내의 좌표 정보를 활용해서 로봇과 인접에 있는 사용자의 위치에 맞는 서비스를 제공할 수 있는 것을 특징으로 한다.
음성인식, 음성합성, URC, 홈 네트워크, 멀티미디어 컨텐츠, 멀티미디어 기기, 홈 엔터테인먼트, 정보검색-
公开(公告)号:KR1020110066628A
公开(公告)日:2011-06-17
申请号:KR1020090123360
申请日:2009-12-11
Applicant: 한국전자통신연구원
CPC classification number: H04M1/23 , G06K9/00335 , G10L15/26 , H04M2250/52
Abstract: PURPOSE: An apparatus for inputting a text using a lip reading method in a mobile phone and a method thereof are provided to input a character by recognizing the motion of a user's mouth. CONSTITUTION: A face location tracking unit(210) detects the motion of a user in a photographing device. A lip motion feature detecting unit(220) extracts a specific vector about an area including the lip shape from the face image by the face location tracking unit. A lip motion extracting unit(230) extracts a feature vector by the movement of the lip among the extracted vectors. A lip motion decoding unit(260) changes the feature vector from the lips motion extracting unit into a corresponding character.
Abstract translation: 目的:提供一种用于在移动电话中使用唇读取方法输入文本的装置及其方法,用于通过识别用户嘴的运动来输入字符。 构成:面部位置跟踪单元(210)检测拍摄装置中的用户的运动。 唇部运动特征检测单元(220)通过面部位置跟踪单元从脸部图像提取关于包括唇部形状的区域的特定矢量。 唇部运动提取单元(230)通过所提取的矢量中的唇部的移动来提取特征向量。 唇部运动解码单元(260)将特征矢量从嘴唇运动提取单元改变成相应的字符。
-
公开(公告)号:KR1020110061781A
公开(公告)日:2011-06-10
申请号:KR1020090118290
申请日:2009-12-02
Applicant: 한국전자통신연구원
IPC: G10L21/0208 , G10L21/0216 , G10L15/20
CPC classification number: G10L21/0216 , G10L19/02 , G10L19/26
Abstract: PURPOSE: A voice processing device and method for removing noise based on a real time noise estimate are provided to improve the performance of voice recognition by removing dynamic noise based on real time noise estimate about input voice including the noise. CONSTITUTION: An input spectrum estimating unit(201) estimates an input spectrum which is a frequency spectrum about an input signal. A noise estimating unit(202) estimates the power spectrum density of noise included in the input signal based on the input spectrum. An average value estimating unit(203) estimates the average value of the power spectrum density of the input signal from the input spectrum. A Wiener filter calculation unit(204) calculates the Wiener filter based on the power spectrum density of the input signal and the power spectrum density of the noise.
Abstract translation: 目的:提供一种基于实时噪声估计来去除噪声的语音处理设备和方法,通过基于包括噪声的输入语音的实时噪声估计消除动态噪声来提高语音识别的性能。 构成:输入频谱估计单元(201)估计作为关于输入信号的频谱的输入频谱。 噪声估计单元(202)基于输入频谱来估计包含在输入信号中的噪声的功率谱密度。 平均值估计单元(203)估计来自输入光谱的输入信号的功率谱密度的平均值。 维纳滤波器计算单元(204)基于输入信号的功率谱密度和噪声的功率谱密度来计算维纳滤波器。
-
公开(公告)号:KR101023211B1
公开(公告)日:2011-03-18
申请号:KR1020080088318
申请日:2008-09-08
Applicant: 한국전자통신연구원
IPC: G10L15/20
Abstract: 본 발명은 암묵신호분리를 이용한 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표 음성 추출방법에 관한 것으로서, 음성인식 시스템은 다수의 마이크를 통해 각각 입력된 혼합신호들을 독립요소분석을 통해 분리하고, 상기 분리된 음원 신호들 중에서 음성인식을 목표로 발성된 하나의 목표음성을 가우시안 혼합 밀도 모델 또는 은닉 마르코프 모델을 이용하여 추출하고, 상기 추출된 목표음성을 통해 원하는 음성을 자동으로 인식함으로써, 잡음이 존재하는 상황에서도 보다 높은 인식률을 확보할 수 있다.
마이크배열, 음성인식, 암묵신호분리, 독립요소분석(ICA), 가우시안 혼합 밀도 모델(GMM), 은닉 마르코프 모델(HMM), 목표음성, 특징벡터, 대수 우도비(LLR).-
公开(公告)号:KR101005786B1
公开(公告)日:2011-01-06
申请号:KR1020080125434
申请日:2008-12-10
Applicant: 한국전자통신연구원
Abstract: 본 발명은 차량용 네비게이션 단말기의 음성인식용 발화 이형태 생성을 위한 POI(points of interest) 대상, 복합명사 분해 및 태깅(tagging) 방법을 제시한다. 소형 차량 네비게이션 단말기 탑재 음성 인식 엔진은 일반적으로 고립어를 인식 대상으로 한다. 고립어는 지도상의 특정 지점에 대한 명칭이며, 이러한 명칭에 대해 사용자는 다양한 발화 이형태를 가진다. 본 발명은 사용자의 다양한 발화 이형태 생성을 위해, 지역 명칭으로 기술된 복합명사 형태의 어휘를 대상으로 복합 명사 분해 및 태깅 방법론을 제시한다. 분해는 차트 기반 동적 프로그래밍 방법론을 기반으로 하고, 태깅은 최대 엔트로피를 기반으로 하여 POI명칭을 구성하는 단일어 각각에 대한 의미 표지를 부착한다.
복합명사, 복합명사분해, 태깅, POI, 이형태-
公开(公告)号:KR1020100073178A
公开(公告)日:2010-07-01
申请号:KR1020080131772
申请日:2008-12-22
Applicant: 한국전자통신연구원
IPC: G10L15/06 , G08G1/0968 , G10L15/14
Abstract: PURPOSE: A speaker adaptation apparatus and a method for speech recognition are provided to remarkably improve the performance of a speaker by estimating the answer of actual speech data in high possibility through an N-best recognition result screen output function. CONSTITUTION: A voice data verification unit(202) obtains measurement data for each phoneme with regard to accumulation data through reliability evaluation. The accumulation data includes voice data and N-best recognition result data. A sound model speaker adapting unit(204) performs speaker adaptation by measurement data for each acquired per-phoneme. A sound model updating unit(206) updates a sound model by a new speaker-subordinate sound model through performed speaker adaptation.
Abstract translation: 目的:提供一种扬声器适配装置和语音识别方法,以通过N最佳识别结果屏幕输出功能估计高可能性的实际语音数据的答案来显着提高扬声器的性能。 构成:语音数据验证部(202)通过可靠性评价获取关于累积数据的每个音素的测量数据。 累积数据包括语音数据和N最佳识别结果数据。 声音扬声器适配单元(204)通过每个获取的每个音素的测量数据执行说话者适应。 声音模型更新单元(206)通过执行的说话者自适应通过新的说话者 - 从属声音模型来更新声音模型。
-
公开(公告)号:KR1020100072747A
公开(公告)日:2010-07-01
申请号:KR1020080131239
申请日:2008-12-22
Applicant: 한국전자통신연구원
Abstract: PURPOSE: A method for environment adaptation using discrimination training based on channel estimation is provided to find channel characteristic about adaptation data maintaining discrimination primarily and perform model conversion and combine converted model with discrimination learning technique thereby providing effective environmental adaptation. CONSTITUTION: A noise removing unit(110) eliminates noise component within training data(101). A base recognition performing unit(130) recognizes adaptive data(103). A channel characteristic estimator obtains statistical model about phoneme unit by right data(104) of the adaptation data. The channel characteristic estimator combines the statistical model to base sound model(102). A discrimination environment adapting unit(150) outputs adaptive sound model(106) after change of the statistical model by adaptation of discrimination learning technique.
Abstract translation: 目的:提出一种使用基于信道估计的鉴别训练进行环境适应的方法,主要查找关于自适应数据维持鉴别的信道特性,并执行模型转换,并将转换模型与识别学习技术相结合,从而提供有效的环境适应。 构成:噪声去除单元(110)消除训练数据(101)内的噪声分量。 基本识别执行单元(130)识别自适应数据(103)。 信道特征估计器通过适配数据的正确数据(104)获得关于音素单元的统计模型。 信道特征估计器将统计模型与基础声音模型(102)相结合。 鉴别环境适应单元(150)在通过识别学习技术的适应改变统计模型之后输出自适应声音模型(106)。
-
-
-
-
-
-
-
-
-