-
公开(公告)号:KR1020090065866A
公开(公告)日:2009-06-23
申请号:KR1020070133391
申请日:2007-12-18
Applicant: 한국전자통신연구원
CPC classification number: G06K9/00335 , G06K9/00288
Abstract: A method and a device for discriminating a lip motion image are provided to enable labeling on the online network and realize SVM(Support Vector Machine) pattern classification. Face motion image frames received from an imaging unit are analyzed. Final candidates estimated as a lip motion image are extracted(S10). The lip motion image is determined by classifying the final candidates on a coordinate plane based on a discrimination feature of the lip motion image(S20). The final candidates positioned in a critical region of a classification standard among the classified final candidates are determined as the lip motion image based on a region separation line(S80).
Abstract translation: 提供了一种用于识别唇部运动图像的方法和装置,以使得能够在在线网络上进行标注,并实现支持向量机(Support Vector Machine,支持向量机)模式分类。 分析从成像单元接收的脸部运动图像帧。 提取作为唇部运动图像估计的最终候选(S10)。 通过基于唇部运动图像的识别特征,在坐标平面上分类最终候选来确定唇部运动图像(S20)。 在分类最终候选者中位于分类标准的关键区域的最终候选者被确定为基于区域分离线的唇部运动图像(S80)。
-
公开(公告)号:KR100873920B1
公开(公告)日:2008-12-17
申请号:KR1020060109438
申请日:2006-11-07
Applicant: 한국전자통신연구원
Abstract: A method and an apparatus for recognizing voice by using the image analysis are provided to remove the unnecessary voice noise by means of the screen information including the nose among the screen information when speaking. A process for receiving sound and a speaking screen of a speaker is performed(301). The receives sound is analyzed(303). A process for selecting at least one moving section among the received speaking screen of the speaker is performed. A process for selecting at least one speaking candidate section corresponding to at least one selected moving section is performed. Thereafter, a process for determining a speaking screen section among at least one speaking screen candidate sections corresponding to the predetermined reference screen is performed. The analyzed sound is discriminated as the sound signal corresponding to the speaking screen section and thereafter, a voice recognition process is performed(309).
Abstract translation: 提供了一种通过使用图像分析来识别语音的方法和设备,以在讲话时通过屏幕信息中的包括鼻子的屏幕信息去除不必要的语音噪音。 执行用于接收讲话者的声音和讲话画面的过程(301)。 分析接收声音(303)。 执行在接收到的讲话者的讲话画面中选择至少一个移动部分的过程。 执行用于选择对应于至少一个选择的移动部分的至少一个说出候选部分的过程。 此后,执行用于确定对应于预定参考屏幕的至少一个发言屏幕候选区间中的发言屏幕区段的过程。 分析的声音被辨别为对应于发言屏幕部分的声音信号,之后,执行语音识别过程(309)。
-
公开(公告)号:KR1020080041397A
公开(公告)日:2008-05-13
申请号:KR1020060109438
申请日:2006-11-07
Applicant: 한국전자통신연구원
Abstract: A method and an apparatus for recognizing voice by using the image analysis are provided to remove the unnecessary voice noise by means of the screen information including the nose among the screen information when speaking. A process for receiving sound and a speaking screen of a speaker is performed(301). The receives sound is analyzed(303). A process for selecting at least one moving section among the received speaking screen of the speaker is performed. A process for selecting at least one speaking candidate section corresponding to at least one selected moving section is performed. Thereafter, a process for determining a speaking screen section among at least one speaking screen candidate sections corresponding to the predetermined reference screen is performed. The analyzed sound is discriminated as the sound signal corresponding to the speaking screen section and thereafter, a voice recognition process is performed(309).
Abstract translation: 提供一种通过使用图像分析来识别语音的方法和装置,用于通过在讲话时屏幕信息中包括鼻子的屏幕信息来消除不必要的语音噪声。 执行用于接收扬声器的声音和说话屏幕的处理(301)。 分析接收声音(303)。 执行用于在接收到的说话者的讲话屏幕中选择至少一个移动部分的处理。 执行用于选择与至少一个选择的移动部分对应的至少一个说话候选部分的处理。 此后,执行用于确定与预定参考屏幕相对应的至少一个说话屏幕候选部分中的说话屏幕部分的处理。 所分析的声音被识别为对应于说话屏幕部分的声音信号,此后,执行语音识别处理(309)。
-
公开(公告)号:KR1020060062884A
公开(公告)日:2006-06-12
申请号:KR1020040101879
申请日:2004-12-06
Applicant: 한국전자통신연구원
IPC: G10L15/20
Abstract: 본 발명은 잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법에 관한 것으로서, 클라이언트 단말을 통해 잡음과 대상어휘 음성을 조합하여 출력시키는 단계와, 상기 조합된 데이터를 입력받은 서버에서 잡음을 제거하고 음성인식 처리를 수행하여 상기 대상어휘를 출력시키는 단계로 진행하여, 다양한 잡음의 조합, 잡음의 크기, 반복을 설정한 후 음성과 결합시켜 테스트할 수 있기 때문에, 잡음의 종류와 크기에 따라 음성인식에 얼마나 많은 영향을 미치는 지를 실시간으로 확인할 수 있다.
다중잡음, 음성결합, 음성인식엔진, 분석자동화-
公开(公告)号:KR100835996B1
公开(公告)日:2008-06-09
申请号:KR1020060122649
申请日:2006-12-05
Applicant: 한국전자통신연구원
Abstract: A method and an apparatus for analyzing an adaptive speaking screen are provided to determine a speaking screen through screen analysis and update a reference feature value to a feature value and a reference edge feature value by the determined speaking screen, thereby analyzing the speaking screen adaptively according to environment. A method for analyzing an adaptive speaking screen comprises the following steps of: receiving the speaking screen of a speaker from the outside(501); selecting at least one moving region in the received speaking screen of the speaker(503); extracting the contrast ratio distributed value and feature value of the at least one moving region respectively(505); comparing the respectively extracted contrast ratio distributed value and feature value with a preset reference feature value to select at least one moving region having the contrast ratio distributed value and feature value corresponding to the preset reference feature value(507); determining a region, which exists in an upper part as much as a predetermined position in the at least one selected moving region, as a comparison target candidate region(509); selecting a speaking region matching a preset reference screen more than a threshold value out of comparison target candidate regions(511,515); extracting the feature value and contrast ratio of the speaking region(519); and updating the extracted feature value and contrast ratio to the preset reference feature value(521).
Abstract translation: 提供了一种用于分析自适应语音屏幕的方法和装置,用于通过屏幕分析确定说话屏幕,并通过所确定的说话屏幕将参考特征值更新为特征值和参考边缘特征值,从而根据 到环境。 一种用于分析自适应语音屏幕的方法包括以下步骤:从外部接收扬声器的说话屏幕(501); 在所述扬声器的所接收的说话屏幕中选择至少一个移动区域(503); 提取所述至少一个移动区域的对比度分布值和特征值(505); 将分别提取的对比度分布值和特征值与预设参考特征值进行比较,以选择具有对应于预设参考特征值(507)的对比度分布值和特征值的至少一个移动区域; 确定存在于所述至少一个选择的移动区域中的预定位置的上部的区域作为比较目标候选区域(509); 从比较目标候选区域中选择与预设参考屏幕匹配超过阈值的说话区域(511,515); 提取发音区域的特征值和对比度(519); 以及将所提取的特征值和对比度更新为所述预设参考特征值(521)。
-
公开(公告)号:KR1020070061207A
公开(公告)日:2007-06-13
申请号:KR1020060064262
申请日:2006-07-10
Applicant: 한국전자통신연구원
Abstract: An apparatus and a method for detecting a speech section, and a speech recognition system are provided to prevent dynamic noise from being mis-recognized as a speech signal by confirming lip motion image information in a speech section detecting process and to improve a speech recognition rate by removing dynamic audio noise in the speech section detecting process. An apparatus for detecting a speech section includes an audio receiver(200), a video receiver(210), a lip motion signal detector(220), and a speech section detector(230). The lip motion signal detector detects a moving region from a video frame output from the video receiver, applies a feature of a lip motion region to the detected moving region, and detects a lip motion signal. The speech section detector detects a speech section by using an audio frame output from the audio receiver and the lip motion signal detected by the lip motion signal detector.
Abstract translation: 提供一种用于检测语音部分的装置和方法,以及语音识别系统,用于通过在语音部分检测处理中确认唇形运动图像信息来防止动态噪声被误识别为语音信号,并且提高语音识别率 通过在语音部分检测处理中去除动态音频噪声。 用于检测语音部分的装置包括音频接收器(200),视频接收器(210),唇部运动信号检测器(220)和语音部分检测器(230)。 嘴唇运动信号检测器从视频接收器输出的视频帧检测运动区域,将检测到的移动区域应用唇部运动区域的特征,并检测唇部运动信号。 语音部分检测器通过使用从音频接收器输出的音频帧和由唇部运动信号检测器检测的唇部运动信号来检测语音部分。
-
公开(公告)号:KR100655489B1
公开(公告)日:2006-12-08
申请号:KR1020040101879
申请日:2004-12-06
Applicant: 한국전자통신연구원
IPC: G10L15/20
Abstract: 본 발명은 잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법에 관한 것으로서, 클라이언트 단말을 통해 잡음과 대상어휘 음성을 조합하여 출력시키는 단계와, 상기 조합된 데이터를 입력받은 서버에서 잡음을 제거하고 음성인식 처리를 수행하여 상기 대상어휘를 출력시키는 단계로 진행하여, 다양한 잡음의 조합, 잡음의 크기, 반복을 설정한 후 음성과 결합시켜 테스트할 수 있기 때문에, 잡음의 종류와 크기에 따라 음성인식에 얼마나 많은 영향을 미치는 지를 실시간으로 확인할 수 있다.
다중잡음, 음성결합, 음성인식엔진, 분석자동화Abstract translation: 本发明涉及一种在嘈杂环境中的语音识别引擎评估系统和自动化方法,该方法包括:通过客户端输出噪声和目标词汇语音的组合;从接收组合数据的服务器去除噪声; 然后输出目标词汇,这样可以设置各种噪声的组合,噪声的大小和重复的组合,然后结合语音进行测试,因此根据噪声的类型和大小, 你可以实时看到它是否有很大的影响。
-
公开(公告)号:KR100924795B1
公开(公告)日:2009-11-03
申请号:KR1020070133391
申请日:2007-12-18
Applicant: 한국전자통신연구원
Abstract: 본 발명은 음성인식을 위해 수신되는 비디오를 분석하여 입술움직임이 있는지의 여부를 확인할 때, 다양한 움직임 영상을 대상으로 입술움직임 영상과 그 이외의 영상을 분류하는 입술움직임 영상 판별 방법 및 그 장치에 관한 것으로, 본 발명은 온라인 입술움직임 영상 판별 방법에 있어서, 촬영수단으로부터 수신되는 움직임영상프레임을 분석하여 입술움직임 영상에 대한 최종후보를 추출하는 제 1 단계; 및 영상추출수단으로부터 수신되는 상기 최종후보를 입술움직임 변별력 특징을 기준으로 입술움직임 영역과 여타요소 움직임 영역으로 온라인 상에서 레이블링하고, 최종후보 중에서 입술움직임 영역 및 여타요소 움직임 영역으로 분류되지 않은 최종후보에 대한 입술움직임 영상 여부를 SVM 영역분류구분선을 근거로 판별하는 제 2 단계;를 포함하는 것을 특징으로 한다.
SVM 패턴분류, 입술움직임 영상 판별-
公开(公告)号:KR100820141B1
公开(公告)日:2008-04-08
申请号:KR1020060064262
申请日:2006-07-10
Applicant: 한국전자통신연구원
Abstract: 본 발명은 음향 수신부와 영상 수신부가 구비된 음성 구간 검출 장치에 있어서, 상기 영상 수신부로부터 출력되는 영상 프레임에서 움직임 영역을 검출하고, 상기 검출된 움직임 영역에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 신호를 검출하는 입술 움직임 신호 검출부, 상기 음향 수신부로부터 출력되는 음향 프레임과 상기 입술 움직임 신호 검출부에서 검출된 입술 움직임 신호를 이용하여 음성 구간을 검출하는 음성 구간 검출부를 포함하는 것으로서, 음성구간 검출과정에서 입술움직임 영상정보를 확인하기 때문에 dynamic 잡음이 음성으로 오인식 되는 것을 미리 방지할 수 있다.
음성구간, 음성인식, 입술움직임
-
-
-
-
-
-
-
-