-
公开(公告)号:KR100943224B1
公开(公告)日:2010-02-18
申请号:KR1020070104131
申请日:2007-10-16
Applicant: 한국전자통신연구원
IPC: B25J13/08
Abstract: 본 발명은 다채널 음원보드와 마이크가 장착된 지능형 로봇에서 주파수영역 특성을 이용하여 마이크 간의 지연시간 값과 이들로부터 위치 추적각도를 구하는 방법에 관한 것으로, 음원 추적이 가능한 지능형 로봇은 다채널 음원보드와 마이크를 통해 음성을 취득하는 음성데이터 취득부, 각 마이크로 취득된 음성으로부터 주파수 영역에서의 GCC(Generalized Cross-Correlation)-PHAT(Phase Transform) 기반 음원추적 방법을 이용해 지연시간 값을 구하는 지연시간 처리부, 마이크 간의 지연시간으로부터 후보되는 여러 추적 각도들을 계산하고 이들로부터 신뢰성 있는 추적각도를 추정하는 추적각도 처리부, 추적각도로부터 호출자를 향해 로봇이 회전하는 로봇 구동부를 포함한다. 즉, 본 발명에서는 음원추적장치의 성능척도로써 카메라의 FOV(Field Of View)범위에 의한 추적성공률과 이들의 평균추적오차를 이용하며, 잡음환경이나 반향을 가지는 환경과 근거리 및 원거리(5m 이내)에서 높은 음원추적 성능을 보인다.
지능형 로봇, 음원추적, GCC-PHAT, FOV , 추적성공률-
公开(公告)号:KR100826875B1
公开(公告)日:2008-05-06
申请号:KR1020060087004
申请日:2006-09-08
Applicant: 한국전자통신연구원
CPC classification number: G10L17/04
Abstract: 본 발명은 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치에 관한 것으로서, 가정용 서비스 로봇에 있어서 화자의 음성에 관한 데이터를 미리 설정할 필요가 없고, 시간이나 환경변화에 따라 등록되어 있는 화자에 대한 음성 데이터를 적응해 나갈 수 있으며, 일반적인 잡음에 강인한 특성을 갖추도록 하기 위하여 화자가 음성을 이용하여 지속적으로 반응하도록 연속적으로 요구하는 컨텐츠를 이용하여 화자의 기본데이터 및 화자의 음성 데이터를 입력받는 단계; 음성 데이터에서 화자의 음성만을 추출하는 단계; 화자의 음성으로부터 인식에 필요한 특징 벡터를 추출하는 단계; 상기 추출한 특징 벡터로부터 화자 모델을 만드는 단계; 및, 입력된 음성으로부터 파악된 정보에 기초하여 화자 모델에 저장된 화자를 인식하는 단계를 포함하는 화자 인식 방법을 제공한다.
가정용 서비스 로봇, 화자 인식, 음성 인식, 컨텐츠-
公开(公告)号:KR1020080029222A
公开(公告)日:2008-04-03
申请号:KR1020060095012
申请日:2006-09-28
Applicant: 한국전자통신연구원
CPC classification number: G06K9/00375 , A63F2003/00712 , A63F2300/61 , G06K9/00234 , G06K9/6259
Abstract: A method for recognizing a shape of a hand and an apparatus therefor are provided to apply an algorithm, for separating a palm from a hand, to a detected hand area, to recognize the hand area by using a run length algorithm and a neural network, and to determine whether the shape of the hand is for expressing scissors, paper or stone by using an support vector machine. A method for recognizing a shape of a hand comprises the following several steps. A hand shape recognizing apparatus receives an image including the face and the hand of a target user. The hand shape recognizing apparatus detects the face area from the received image(S100). The apparatus collects face skin color information from the detected face area(S105). The apparatus detects the hand area on the basis of the collected face skin color information(S110). The apparatus analyzes the shape of the hand on the basis of the detected hand area information(S115).
Abstract translation: 提供一种用于识别手的形状的方法及其装置,以应用用于将手掌从手分离到检测到的手区域的算法,以通过使用游程长度算法和神经网络来识别手区域, 并且通过使用支持向量机来确定手的形状是用于表达剪刀,纸或石头。 用于识别手的形状的方法包括以下几个步骤。 手形识别装置接收包括目标用户的脸部和手部的图像。 手形识别装置从接收到的图像检测面部区域(S100)。 该装置从检测到的脸部区域收集脸部肤色信息(S105)。 该装置基于收集的脸部皮肤颜色信息检测手部区域(S110)。 该装置基于检测到的手区信息来分析手的形状(S115)。
-
公开(公告)号:KR1020080052129A
公开(公告)日:2008-06-11
申请号:KR1020070015541
申请日:2007-02-14
Applicant: 한국전자통신연구원
Abstract: A system for acquiring speaker information by using voice feature information of a speaker and a method therefor are provided to extract the voice feature information from a voice of the speaker and acquire various information about the speaker from the extracted information. A GMM(Gaussian Mixture Model) generating unit(11) generates a GMM for inputted speaker-classified voice feature information. A speaker information deducing unit(12) deduces information about a specific speaker having a specific voice feature from the GMM and a UBM(Universal Background Model) constructed in each node of a decision tree.
Abstract translation: 提供一种通过使用讲话者的语音特征信息来获取说话者信息的系统及其方法,用于从扬声器的语音提取语音特征信息,并从提取的信息中获取关于说话者的各种信息。 GMM(高斯混合模型)生成单元(11)生成用于输入的说话者分类语音特征信息的GMM。 扬声器信息推导单元(12)从GMM中推导出具有特定语音特征的特定扬声器的信息以及在决策树的每个节点中构造的UBM(通用背景模型)。
-
公开(公告)号:KR100826878B1
公开(公告)日:2008-05-06
申请号:KR1020060095012
申请日:2006-09-28
Applicant: 한국전자통신연구원
Abstract: 본 발명은 손 모양을 인식하는 방법 및 이를 위한 장치에 관한 것으로서, 특별한 조명 또는 배경에 대한 제한이 없고, 사용자의 연령이나, 헤어스타일, 메이크업, 사용자의 다양한 포즈 등에 무관하게, 실시간으로 손 모양을 인식할 수 있도록 하기 위하여, 사용자가 촬상된 영상으로부터 얼굴 영역을 검출하고, 상기 검출된 얼굴 영역으로부터 얼굴의 피부색 정보를 수집하여, 상기 피부색 정보에 기초하여 손 영역을 검출한 다음, 상기 검출된 손 영역에 대한 정보에 기초하여 손 모양을 분석한다.
손 모양, 인식, 인식, 피부색, 가위바위보, 묵찌빠-
公开(公告)号:KR100864828B1
公开(公告)日:2008-10-23
申请号:KR1020070015541
申请日:2007-02-14
Applicant: 한국전자통신연구원
Abstract: 본 발명은 화자의 음성 특징 정보를 이용한 화자 정보 획득 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 화자의 음성으로부터 그 음성의 특징 정보를 추출하여 그 정보로부터 화자에 관련된 정보를 획득하는 화자의 음성 특징 정보를 이용한 화자 정보 획득 시스템 및 그 방법에 관한 것이다.
본 명세서에서 개시하는 화자의 음성 특징 정보를 이용한 화자 정보 획득 시스템은 입력되는 화자별 음성 특징 정보에 대한 GMM(Gaussian Mixture Model)을 생성하는 GMM 생성부; 및 상기 GMM과 의사 결정 나무의 각 마디에 구축된 UBM(Universal Background Model)로부터 특정의 음성 특징을 가진 특정 화자에 관한 정보를 도출하는 화자 정보 도출부를 포함하여 본 발명의 목적 및 기술적 과제를 달성한다.-
7.
公开(公告)号:KR100822880B1
公开(公告)日:2008-04-17
申请号:KR1020060104171
申请日:2006-10-25
Applicant: 한국전자통신연구원
IPC: G10L17/02 , G10L15/22 , G10L21/0272 , G06T7/00
Abstract: A user identification system through audio-video based sound localization in intelligent robot environment and a method thereof are provided to ensure more superior accuracy and reliability in complex environment where plural users are present as combining speech recognition, user identification and face recognition together, and provide more human-friendly characteristics, thereby naturally interacting human with a robot in an intelligent robot field. A call voice recognizing unit(10) comprises the followings. A call voice input unit(11) receives a voice. A voice detecting unit(12) detects a start point and an end point of the inputted voice, and removes noise of the detected voice. A speech recognition unit(13) determines a call voice used for an actual call so as for an intelligent robot to react only to a preset specific call voice by recognizing the detected voice. A user identification/verification unit(20) firstly recognizes who is an actual caller for the call voice, and verifies the recognized caller. A sound localization unit(30) performs sound localization by using a delay time for the call voice. A robot control unit(40) rotates a robot as much as an azimuth obtained through the sound localization or controls the robot so as to approach the caller. A face detection/recognition unit searches the verified caller through face detection/recognition in an image inputted through a camera.
Abstract translation: 提供了一种通过智能机器人环境中基于音频视频的声音定位的用户识别系统及其方法,以确保复杂环境中复杂环境下的更高的精度和可靠性,其中多个用户作为组合语音识别,用户识别和人脸识别在一起,并提供 更人性化的特征,从而在智能机器人领域中自然地将人类与机器人相互作用。 呼叫语音识别单元(10)包括以下内容。 呼叫语音输入单元(11)接收语音。 语音检测单元(12)检测输入语音的开始点和结束点,并且去除检测到的语音的噪声。 语音识别单元(13)确定用于实际呼叫的呼叫语音,以便智能机器人仅通过识别检测到的语音来响应预设的特定呼叫语音。 用户识别/验证单元(20)首先识别谁是用于呼叫语音的实际呼叫者,并验证所识别的呼叫者。 声音定位单元(30)通过使用呼叫语音的延迟时间来执行声音定位。 机器人控制单元(40)使机器人旋转到通过声音定位获得的方位角,或者控制机器人以接近呼叫者。 面部检测/识别单元通过通过相机输入的图像中的面部检测/识别来搜索经过验证的呼叫者。
-
公开(公告)号:KR1020080023030A
公开(公告)日:2008-03-12
申请号:KR1020060087004
申请日:2006-09-08
Applicant: 한국전자통신연구원
CPC classification number: G10L17/04
Abstract: An online speaker recognition method and an apparatus therefor are provided to enable a speaker model adaptation module to update continuously a speaker model stored in a memory unit by using the voice data of a speaker inputted continuously by contents, thereby being adapted to the voice data of the speaker which is registered according to a change of time and environment. An online speaker recognition method comprises the following steps of: receiving basic data of a speaker and the voice data of the speaker by using contents which requests the continuous voice response of the speaker(S100,S105); extracting only the voice of the speaker from the voice data(S115); extracting a specific vector necessary for the speaker recognition from the speaker's voice(S120); creating a speaker model from the extracted specific vector(S125); and recognizing the speaker stored in the speaker model on the basis of information recognized from the input voice(S130).
Abstract translation: 提供了一种在线说话人识别方法及其装置,以使扬声器模型适应模块能够通过使用由内容连续输入的扬声器的语音数据来连续地更新存储在存储器单元中的扬声器模型,从而适应于 根据时间和环境的变化注册的扬声器。 一种在线说话人识别方法包括以下步骤:通过使用请求扬声器的连续语音响应的内容(S100,S105),接收讲话者的基本数据和讲话者的语音数据; 从语音数据中仅提取扬声器的声音(S115); 从扬声器的声音提取讲话者识别所需的特定向量(S120); 从所提取的特定向量创建说话者模型(S125); 并且基于从输入声音识别的信息来识别存储在扬声器模型中的扬声器(S130)。
-
公开(公告)号:KR100912421B1
公开(公告)日:2009-08-14
申请号:KR1020070091933
申请日:2007-09-11
Applicant: 한국전자통신연구원
Abstract: 본 발명에 따른 칼라 영상 기반으로 얼굴 인식을 위한 특징 추출 장치는, n개의 칼라 영상을 기 설정된 사이즈로 정규화하는 정규화부와, 정규화된 각각 칼라 영상에 대해 선형변환을 수행한 후 히스토그램 평활화 과정을 수행하는 변환부와, 변환부에서 출력되는 n개의 영상에 대한 평균 영상을 산출하는 평균 영상 산출부와, 평균 영상 산출부에서 산출된 평균 영상을 토대로 칼라 영상들의 공분산행렬을 산출한 후 이를 토대로 고유 얼굴을 검출하는 고유 얼굴 생성부를 포함한다.
이와 같이, 본 발명은 회색 영상에 비해 보다 많은 정보를 갖고 있는 칼라 영상을 기반으로 고유 얼굴을 검출하고, 이를 토대로 얼굴 등록 및 인식을 수행함으로서, 얼굴 인식의 정확도를 높일 수 있을 뿐만 아니라 얼굴 인식이 필수적으로 필요한 인간과 로봇의 상호 작용 측면에서 사용자 맞춤형 서비스를 제공할 수 있다.
사용자 인식, 얼굴 인식, 특징 추출, 주성분 분석, 칼라-
公开(公告)号:KR1020090016205A
公开(公告)日:2009-02-13
申请号:KR1020070080679
申请日:2007-08-10
Applicant: 한국전자통신연구원
IPC: G01S3/808
Abstract: A method and apparatus for fixing sound source direction in robot environment is provided to detect the direction of a sound source in case of having distance information between microphones although microphone arrangement of a robot having three microphones arbitrarily arranged is changed. A method for fixing sound source direction in robot environment comprises: a step(S200) for obtaining sound source of a user which is a sound source tracing object on a real time basis through microphones of the minimum number mounted on robot environment for covering 360° of the direction of the sound source; a step(S202) for respectively estimating a delay time between microphones about the obtained sound source; a step(S204) for respectively extracting a candidate angle by using each presumed delay time and distance information between microphones; and a step(S206) for determining the average to the direction of the sound source by selecting a couple of candidates which have most small difference among the extracted candidate angles.
Abstract translation: 提供了一种在机器人环境中固定声源方向的方法和装置,以便在具有麦克风之间的距离信息的情况下检测声源的方向,尽管具有任意布置的三个麦克风的机器人的麦克风布置改变。 一种用于在机器人环境中固定声源方向的方法包括:步骤(S200),用于通过安装在机器人环境上的最小数量的麦克风实时获取作为声源跟踪对象的用户的声源,以覆盖360° 的声源方向; 步骤(S202),用于分别估计所获得的声源之间的麦克风之间的延迟时间; 步骤(S204),用于通过使用每个推定的延迟时间和麦克风之间的距离信息分别提取候选角度; 以及步骤(S206),用于通过选择提取的候选角度之间具有最小差异的几个候选来确定对声源的方向的平均值。
-
-
-
-
-
-
-
-
-