-
公开(公告)号:KR1020120072244A
公开(公告)日:2012-07-03
申请号:KR1020100134081
申请日:2010-12-23
Applicant: 한국전자통신연구원
CPC classification number: G08C23/00 , G06F3/017 , G06F3/038 , G06F2203/0381 , G10L15/22
Abstract: PURPOSE: A gesture/sound mixing recognizing system for device control and a method thereof are provided to combine a gesture of a user with a sound of the user and recognize the combined gesture and sound under noises. CONSTITUTION: A gesture recognizing unit(210) obtains gesture recognizing information from gesture feature information. A sound recognizing unit(230) extracts sound feature information from a sound section selected using the gesture recognizing information. The sound recognizing unit obtains sound recognizing information from the sound feature information. A mixture recognizing unit(250) mixes the gesture recognizing information with the sound recognizing information. The mixture recognizing unit generates mixture recognizing information.
Abstract translation: 目的:提供一种用于设备控制的手势/声音混合识别系统及其方法,用于将用户的手势与用户的声音相结合,并在噪音下识别组合的手势和声音。 构成:手势识别单元(210)从手势特征信息获取手势识别信息。 声音识别单元(230)从使用手势识别信息选择的声音部分中提取声音特征信息。 声音识别单元从声音特征信息获得声音识别信息。 混合识别单元(250)将手势识别信息与声音识别信息混合。 混合识别单元产生混合识别信息。
-
公开(公告)号:KR1020120072243A
公开(公告)日:2012-07-03
申请号:KR1020100134080
申请日:2010-12-23
Applicant: 한국전자통신연구원
CPC classification number: G10L21/0208 , G10L15/20
Abstract: PURPOSE: A noise eliminating device for recognizing a sound or a voice and a method thereof are provided to eliminate a TV sound corresponding to a noise signal using an adaptive filter, thereby recognizing a sound or a voice. CONSTITUTION: An adaptive filter(140) adjusts the coefficient of a filter based on an output signal of an adding/subtracting unit(150). The adaptive filter filters an output signal of a second low pass filter based on the adjusted coefficient. The adding/subtracting unit adds or subtracts output signals of a first low pass filter and the adaptive filter. A control unit(160) recognizes a voice of a signal outputted from the adding/subtracting unit. The control unit controls a TV based on the voice recognition result.
Abstract translation: 目的:提供一种用于识别声音或语音的噪声消除装置及其方法,以消除使用自适应滤波器对应于噪声信号的TV声音,从而识别声音或声音。 构成:自适应滤波器(140)基于加法/减法单元(150)的输出信号调整滤波器的系数。 自适应滤波器基于调整后的系数对第二低通滤波器的输出信号进行滤波。 加法/减法单元对第一低通滤波器和自适应滤波器的输出信号进行加法或减法。 控制单元(160)识别从加/减单元输出的信号的声音。 控制单元根据语音识别结果控制电视机。
-
公开(公告)号:KR1020100066352A
公开(公告)日:2010-06-17
申请号:KR1020090104128
申请日:2009-10-30
Applicant: 한국전자통신연구원
Abstract: PURPOSE: A context recognition apparatus and a situation method using the same capable of recognizing the emotion status of a user are provided to efficiently recognize the emotion state of the user by utilizing a recognition result of multiple sensors. CONSTITUTION: A voice-based recognizing unit(110) recognizes the emotion state of a user based on voice signal. A movement-based recognizing unit(120) recognizes the emotion state of the user based on motion. A location recognizing unit(130) recognizes the place where the user belongs. A merged recognizing unit(150) analyzes recognition results and recognizes the situation of the user.
Abstract translation: 目的:通过利用多个传感器的识别结果,提供能够识别用户的情感状态的上下文识别装置和情况方法,以有效地识别用户的情感状态。 构成:基于语音识别单元(110)基于语音信号识别用户的情绪状态。 基于运动的识别单元(120)基于运动识别用户的情感状态。 位置识别单元(130)识别用户所属的位置。 合并识别单元(150)分析识别结果并识别用户的情况。
-
公开(公告)号:KR1020080050994A
公开(公告)日:2008-06-10
申请号:KR1020070086575
申请日:2007-08-28
Applicant: 한국전자통신연구원
Abstract: A system and a method for integrating recognition of gesture and voice are provided to enhance recognition rate even in gesture with unclear separability by detecting a gesture command section on the basis of an EPD(End Point Detection) value which is a start point of a voice command section. A system for integrating recognition of gesture and voice includes a voice feature extracting unit(210), a gesture feature extracting unit(220), a synchronizing module(230) and an integration recognizing unit(240). The voice feature extracting unit detects a start point and an end point of a command from voice inputted via a mike and extracts voice feature information. The gesture feature extracting unit extracts a command section from gesture in an image captured by a camera by using the start point and the end point detected by the voice feature extracting unit, and extracts gesture feature information. The synchronizing module detects a start point of the gesture from the captured image by using the start point detected by the voice feature extracting unit, and calculates optimal image frames by applying a preset optimal frame number to the detected start point. The integration recognizing unit outputs the extracted voice feature information and gesture feature information with integrated recognition data by using preset learning parameters.
Abstract translation: 提供用于集成手势和语音识别的系统和方法,以通过基于作为语音起点的EPD(终点检测)值检测手势命令部分,即使在具有不清楚的可分离性的手势中来增强识别率 命令部分。 用于集成手势和语音的识别的系统包括语音特征提取单元(210),手势特征提取单元(220),同步模块(230)和积分识别单元(240)。 声音特征提取单元通过麦克风输入的声音检测命令的起始点和终点,并提取语音特征信息。 手势特征提取单元通过使用由语音特征提取单元检测到的开始点和结束点,通过摄像机拍摄的图像中的手势提取命令部分,并提取手势特征信息。 同步模块通过使用由语音特征提取单元检测的起始点从拍摄图像检测手势的起始点,并通过对检测到的起始点应用预设的最佳帧号来计算最佳图像帧。 集成识别单元通过使用预设的学习参数输出提取的语音特征信息和具有集成识别数据的手势特征信息。
-
公开(公告)号:KR1020070061134A
公开(公告)日:2007-06-13
申请号:KR1020060050045
申请日:2006-06-02
Applicant: 한국전자통신연구원
Abstract: A speech recognition apparatus and method using a vocal-cord signal are provided to correctly recognize a user's command by using a vocal-cord signal even in an environment with severe noise. A speech recognition apparatus using a vocal-cord signal includes a signal processor(10), a weight calculator(20), a feature extractor(30), and a recognition unit(40). The signal processor calculates a vocal-cord signal log spectrum from a vocal-cord signal inputted from an external channel and calculates a speech signal log spectrum from a speech signal including noise. The weight calculator calculates a normalization value, to which a weight is given, by using the vocal-cord signal log spectrum and the speech signal log spectrum and compensates for the vocal-cord signal log spectrum with the normalization value. The feature extractor extracts a feature vector of the compensated vocal-cord signal log spectrum. The recognition unit learns a recognition model by using the feature vector, and then performs speech recognition.
Abstract translation: 提供一种使用声带信号的语音识别装置和方法,即使在具有严重噪声的环境中也能通过使用声带信号来正确识别用户的命令。 使用声带信号的语音识别装置包括信号处理器(10),权重计算器(20),特征提取器(30)和识别单元(40)。 信号处理器根据从外部信道输入的声带信号计算声带信号对数谱,并从包括噪声的语音信号计算语音信号对数谱。 权重计算器通过使用声带信号对数谱和语音信号对数谱来计算给出权重的归一化值,并用标准化值补偿声带信号对数谱。 特征提取器提取补偿声带信号对数谱的特征向量。 识别单元通过使用特征向量学习识别模型,然后执行语音识别。
-
16.
公开(公告)号:KR1020070047430A
公开(公告)日:2007-05-07
申请号:KR1020050104156
申请日:2005-11-02
Applicant: 한국전자통신연구원
IPC: G10L25/03
Abstract: 1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 신호 처리 방법과, 그를 이용한 성대신호 특징추출 장치 및 그 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 쉬프트(shift) 연산과 한 번의 인덱스 계산으로 연산 결과(예 : 로그 또는 제곱근 등)를 고속으로 추정할 수 있는 신호 처리 방법과, 성대신호를 분석하여 성대신호의 특징추출에 적합한 최적의 큐-포인트(Q-Point)를 결정하고, 상기 신호 처리 방법(예 : 로그 또는 제곱근 처리 방법)을 성대신호의 특징추출에 적용하여 고속으로 성대신호의 특징을 추출하기 위한 성대신호 특징추출 장치 및 그 방법을 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 성대신호를 분석하여 최적 큐-포인트(Q-Point)를 결정하고, 상기 결정한 최적 큐-포인트에 따른 다수의 함수 정보를 구비하여 동적 큐-포인트를 적용하기 위한 동적 큐-포인트 분석 수단; 외부로부터 입력되는 아날로그 성대신호를 디지털 성대신호로 변환하기 위한 아날로그/디지털(A/D) 변환 수단; 상기 아날로그/디지털 변환 수단으로부터의 성대신호에 대해 상기 동적 큐-포인트 분석 수단의 해당 함수 정보를 적용하여 전처리하기 위한 전처리 수단; 상기 전처리 수단으로부터의 성대신호에 대해 상기 동적 큐-포인트 분석 수단의 해당 함수 정보를 이용하 여 고속 푸리에 변환을 수행하여 스펙트럼 정보를 출력하기 위한 고속 푸리에 변환 수단; 상기 고속 푸리에 변환 수단으로부터의 스펙트럼 정보에 상기 동적 큐-포인트 분석 수단의 해당 함수 정보를 적용하여 필터뱅크 에너지를 생성하기 위한 필터뱅크 에너지 추출 수단; 상기 필터뱅크 에너지 추출 수단에서 생성한 필터뱅크 에너지에 상기 동적 큐-포인트 분석 수단의 해당 함수 정보를 적용하여 로그 필터뱅크 에너지를 생성하기 위한 로그 필터뱅크 에너지 생성 수단; 및 상기 로그 필터뱅크 에너지 생성 수단에서 생성한 로그 필터뱅크 에너지에 대해 상기 동적 큐-포인트 분석 수단의 해당 함수 정보를 이용하여 이산여현변환(DCT)을 수행하여 성대신호 특징벡터를 출력하기 위한 이산여현변환(DCT) 수단을 포함함.
4. 발명의 중요한 용도
본 발명은 FPU(Floating Point Unit)를 갖지 않은 소형 단말기에서 실시간 응답시간을 갖는 성대신호 명령어 인식기 구현 등에 이용됨.
성대신호, 특징추출, 빠른 로그, 빠른 제곱근, 동적 큐-포인트(Q-Point)-
公开(公告)号:KR1020060040002A
公开(公告)日:2006-05-10
申请号:KR1020040089168
申请日:2004-11-04
Applicant: 한국전자통신연구원
IPC: G10L15/20
CPC classification number: G10L15/10 , G10L15/24 , G10L25/93 , G10L2021/02168
Abstract: 음성 인식 장치 및 그 방법이 개시된다. 신호 처리부는 성대 신호를 입력받아 디지털화하고, 잡음 제거부는 성대 신호에 포함된 채널 잡음을 제거한다. 그리고, 특징 추출부는 채널 잡음이 제거된 성대 신호로부터 특징 벡터를 추출하며, 인식부는 특징 벡터를 이용하여 유사도를 계산한다. 이로써, 잡음 환경에 강인한 음성 인식 장치가 구현된다.
성대 신호, 채널 잡음, 특징 벡터-
公开(公告)号:KR100576803B1
公开(公告)日:2006-05-10
申请号:KR1020030090418
申请日:2003-12-11
Applicant: 한국전자통신연구원
IPC: G10L15/16
Abstract: 본 발명은 잡음환경에서 강인한 음성인식을 위해 신경망을 기반으로 음성과 영상정보를 효율적으로 융합하고, 이동단말기에서의 명령어 사용패턴인 문맥정보와 후처리 방법을 사용하여 음성, 영상 및 문맥에 대한 통합 인식을 수행함으로써 음성 인식률을 보다 향상시킬 수 있는 신경망에 기반한 음성인식 장치 및 방법에 관한 것이다.
본 발명의 통합 음성인식 방법은, 입력되는 음성 및 영상 신호로부터 특징 벡터를 추출하는 특징 추출단계; 음성 및 영상 정보를 신경망을 기반으로 융합하여 사용자 음성을 인식하는 이중모드 신경망 인식 단계; 이동 단말기에서의 사용자 명령어 패턴을 인식하는 문맥정보 인식 단계; 및 이중모드 신경망 인식 결과와 문맥정보 인식 결과를 통합하여 최종 인식결과를 출력하는 후처리 단계;로 이루어진다.
음성 인식, 이중모드 인식, 신경망 인식기, BMNN, 역전파 학습알고리즘, 문맥정보 인식 -
-
-
-
-
-
-
-