-
公开(公告)号:KR101239318B1
公开(公告)日:2013-03-05
申请号:KR1020080131369
申请日:2008-12-22
Applicant: 한국전자통신연구원
CPC classification number: G10L21/0208 , G10L15/20 , G10L25/48
Abstract: 본 발명은 이동체, 예컨대 주행 중인 차량 내부 환경에서 사용자 음성인터페이스를 위한 음질향상 및 음성 인식 시스템의 성능 향상을 위한 것으로, 이를 위하여 자동차 운행 속도 레벨을 판단하는 방법과 이를 토대로 입력 음성의 음질을 향상 시키기 위한 음질 향상 방법, 자동차 환경에 특화된 음성 활성 검출(voice activity detection, VAD) 방법, 차량 주행 환경에 특화된 음성의 끝점검출(endpoint detection, EPD) 방법, 자동차 운행 속도 레벨에 따른 음성의 특징추출 방법과 음성인식을 위한 decoding 방법을 각각 제안하고 이를 결합함으로써, 정차 혹은 주행중인 자동차 환경에서 사용자 음성인터페이스를 위한 자동 음성 인식(automatic speech recognition, ASR) 성능을 획기적으로 향상시킬 수 있다.
자동체 주행환경, 음성인식, 음질 향상 및 보상, 음성활성검출, 끝점검출, 특징추출, 다중모델디코딩-
公开(公告)号:KR1020120054350A
公开(公告)日:2012-05-30
申请号:KR1020100115681
申请日:2010-11-19
Applicant: 한국전자통신연구원
IPC: G10L15/04
Abstract: PURPOSE: A pronunciation space formation apparatus is provided to minutely model pronunciation modification rules within a word or between words by applying a probabilistic pronunciation modification rule and expanding a pronunciation space. CONSTITUTION: A pronunciation space generator(110) creates a pronunciation space based on a recognition target word. A pronunciation space expansion unit(120) expands the created pronunciation space in consideration of pronunciation modification rules within a word or between words. A power supply unit(130) supplies a power source to the pronunciation space generator and the pronunciation space expansion unit. A main control unit(140) controls the whole operation of the pronunciation space generator and the pronunciation space expansion unit.
Abstract translation: 目的:提供一种发音空间形成装置,通过应用概率发音修改规则和扩展发音空间来精细地模拟单词内或单词之间的发音修改规则。 构成:发音空间发生器(110)基于识别目标词创建发音空间。 发音空间扩展单元(120)考虑到单词内或单词之间的发音修改规则来扩展创建的发音空间。 电源单元(130)向发音空间发生器和发音空间扩展单元提供电源。 主控制单元(140)控制发音空间发生器和发音空间扩展单元的整体操作。
-
公开(公告)号:KR101095865B1
公开(公告)日:2011-12-21
申请号:KR1020090026297
申请日:2009-03-27
Applicant: 한국전자통신연구원
Abstract: 본 발명은 입력 음성에 대한 신뢰성 있는 인식 결과를 출력한다는 것으로, 이를 위하여 본 발명은, 입력 음성의 단어에 대한 서브 워드별 우도비를 이용하여 발화 검증을 수행하는 종래 방법과는 달리, 입력 음성 단어에 대한 서브 워드별 우도비에 인식 신뢰도에 따른 우도비 가중치를 적용한 후, 이를 취합하여 단어의 발화 검증을 수행하거나 입력 음성 단어에 대한 서브 워드별 우도비를 이용하여 각 서브 워드별로 부분 발화 검증을 수행한 후, 단어의 전체 발화 검증을 수행함으로써, 입력 음성에 대한 인식 결과의 신뢰도를 향상시킬 수 있는 것이다.
음성 인식, 우도비, 발화 검증-
公开(公告)号:KR101092364B1
公开(公告)日:2011-12-09
申请号:KR1020080131236
申请日:2008-12-22
Applicant: 한국전자통신연구원
IPC: H04N21/422 , G06F3/16 , G10L15/28
Abstract: 본발명은리모트컨트롤러, 입력인터페이스제어장치및 방법에관한것으로, 리모트컨트롤러의숫자키패드영역및 방향키영역을문자키패드대상으로삼고, 한글의자음과모음을분리하여양손으로입력가능하게하였으며, 점차상용화영역이확대되고있는음성인식을지원할수 있는리모트컨트롤러의구성과화면인터페이스체계를제공하여기존리모트컨트롤러의형상을벗어나지않는범위에서문자및 음성입력을지원하고, 휴대폰과는다르게화면의거리가떨어져있으면서다양한사용자입력이요구되는 IPTV 환경에서의효과적인문자입력체계를위해소수의키 개수로쿼티자판효과를도모하였으며, 음성입력방식을고려하여가젯형태의화면인터페이스를제공하고, 입력키패드는한글입력모드에서자음과모음을분리하여양손입력이용이하게하며, 입력키범위를방향키까지확대하여자판확보를도모하였고, 시프트키체계를도입하여문자입력에편의성을향상시켰으며, 가젯형태의화면인터페이스는한글/영문/숫자/음성입력을모두고려해설계하여각각독립적인입력인터페이스의형태를제시함으로써다양한 IPTV 입력이벤트에활용할수 있도록한 이점이있다.
-
公开(公告)号:KR101082839B1
公开(公告)日:2011-11-11
申请号:KR1020080131238
申请日:2008-12-22
Applicant: 한국전자통신연구원
IPC: G10L15/20 , G10L21/0208 , G10L21/0272
Abstract: 본발명은다채널잡음처리장치및 방법에관한것으로, 다채널음성인식환경에기반하여다채널잡음처리방식가운데빔포밍방식과음원분리방식을잡음처리성능이최대가되도록환경조건에따라선택하여적용함으로써음성인식의성능을향상시킬수 있으며, 특히, 로봇에음성인식을적용하는환경에서는고정된형태및 위치가아닌다양한형태및 위치의잡음원이존재할수 있으므로음성인식을수행할상황에적합한잡음처리가적용되어야하기에, 본발명에의하면효과적인잡음처리를제공하여음성인식의성능을향상시킬수 있는이점이있다.
-
公开(公告)号:KR101079653B1
公开(公告)日:2011-11-04
申请号:KR1020080131221
申请日:2008-12-22
Applicant: 한국전자통신연구원
Abstract: 본발명은네비게이션기기에서음성인식대상키워드의생성기술에관한것으로, 네비게이션기기에서음성인식에의한관심지(POI) 검색을실현하기위하여, POI 명칭으로부터발화가능성이높은음성인식대상키워드를자동으로조합생성함으로써사용자의다양한발화문을음성인식할수 있도록하는것을특징으로한다. 본발명에의하면, 네비게이션기기에서사용자가발화가능한 POI의이형태들을자동으로생성함으로써음성을위한관심지의검색서비스를가능하게할 수있으며, 이를통해사용자편의성을높일수 있다.
-
公开(公告)号:KR1020110024969A
公开(公告)日:2011-03-09
申请号:KR1020090083167
申请日:2009-09-03
Applicant: 한국전자통신연구원
IPC: G10L21/0208 , G10L15/20
CPC classification number: G10L21/0208 , G10L19/038 , G10L19/26
Abstract: PURPOSE: An apparatus for filtering a noise using a statistical model in a voice signal is provided to improve the wiener filter performance by restoring voice signal using a joint density GMM(Gaussian Mixture Model). CONSTITUTION: An apparatus for filtering a noise using a statistical model comprises a clean signal spectrum vector estimating unit(214), a post SNR estimating unit(216), a transfer function estimating unit(218), and a noise filtering unit(220). The clean signal spectrum vector estimating unit estimates spectrum vector of a clean signal using a PSD(Power Spectrum Density), a PSD estimation information of the estimated input signal, and a preset statistical model. The noise filtering unit performs noise filtering using the transfer function and fast fourier transformed frequency axis complex signal.
Abstract translation: 目的:提供一种使用语音信号中的统计模型对噪声进行滤波的装置,以通过使用关节密度GMM(高斯混合模型)恢复语音信号来提高维纳滤波器性能。 构成:使用统计模型对噪声进行滤波的装置包括干净信号频谱矢量估计单元(214),后SNR估计单元(216),传递函数估计单元(218)和噪声滤波单元(220) 。 清洁信号频谱矢量估计单元使用PSD(功率谱密度)估计干净信号的频谱矢量,估计输入信号的PSD估计信息和预设的统计模型。 噪声滤波单元使用传递函数和快速傅立叶变换频率轴复信号进行噪声滤波。
-
公开(公告)号:KR1020100073172A
公开(公告)日:2010-07-01
申请号:KR1020080131766
申请日:2008-12-22
Applicant: 한국전자통신연구원
IPC: H04N21/232 , G10L15/00
CPC classification number: H04N21/232 , G06F17/30002 , G10L15/02 , H04N21/43
Abstract: PURPOSE: A method and a server servicing IPTV broadcast and an IPTV set top apparatus are provided to search the large amount of IPTV broadcasting data by searching broadcasting data in real time through voice speech. CONSTITUTION: A voice recognition list transceiver(103) transmits and receives voice recognition list request information of an update scheduling unit(101). A voice recognition unit(105) recognizes a voice signal in an IPTV set-top box(100), and a voice search request transmitter(106) transmits a recognized string to a voice search request receiver. A voice search result receiver(107) provides the broadcasting data of a broadcasting data transmitter to a display unit(108).
Abstract translation: 目的:提供一种服务于IPTV广播的方法和服务器,以及IPTV机顶装置,通过语音语音实时搜索广播数据来搜索大量的IPTV广播数据。 构成:语音识别列表收发器(103)发送和接收更新调度单元(101)的语音识别列表请求信息。 语音识别单元(105)识别IPTV机顶盒(100)中的语音信号,语音搜索请求发送器(106)将识别的串发送到语音搜索请求接收器。 语音搜索结果接收器(107)将广播数据发送器的广播数据提供给显示单元(108)。
-
公开(公告)号:KR1020100073167A
公开(公告)日:2010-07-01
申请号:KR1020080131761
申请日:2008-12-22
Applicant: 한국전자통신연구원
IPC: G10L15/20 , G10L15/10 , G10L21/0272 , G10L19/00
CPC classification number: H04R3/005 , H04R27/00 , H04R2430/03
Abstract: PURPOSE: A method for separating a source signals and an apparatus thereof are provided to improve the recording, transmission and recognition performances by separating only desirable sound source signal in plural sound source environments. CONSTITUTION: Fourier transformer(10) transforms a mixed input signal(S1) into each channel frequency domain through Fourier transformation. A frequency bandwidth divider(20) constitutes a frequency cluster from the each frequency domain. A frequency domain signal divider(30) applies a blind source separation for each cluster frequency domain. A reverse Fourier transformer(40) integrates the spectrums of divided signals through reverse Fourier transformation.
Abstract translation: 目的:提供一种用于分离源信号的方法及其装置,以通过在多个声源环境中分离所需的声源信号来提高记录,传输和识别性能。 构成:傅里叶变换器(10)通过傅里叶变换将混合输入信号(S1)转换成每个通道频域。 频率带宽分配器(20)构成来自每个频域的频率簇。 频域信号分频器(30)为每个群集频域应用盲源分离。 反傅里叶变换器(40)通过反傅里叶变换对分频信号的频谱进行积分。
-
公开(公告)号:KR1020100072842A
公开(公告)日:2010-07-01
申请号:KR1020080131369
申请日:2008-12-22
Applicant: 한국전자통신연구원
CPC classification number: G10L21/0208 , G10L15/20 , G10L25/48
Abstract: PURPOSE: A speech improving apparatus and a speech recognition system and method are provided to improve the voice recognition performance of a voice recognition system in a movable body of small resources by performing signal decoding through a sound model database. CONSTITUTION: A speed level divider(100) measures a moving speed level of a movable body through an inputted noise signal inputted in an initial stage of voice recognition. When the speed level of the movable body is lower than a predetermined value, a first sound quality improvement unit(112) improves the sound quality of a voice signal inputted by a Wiener filter. If the speed level of the movable body exceeds a predetermined value, a second sound quality improvement unit(114) improves the sound quality of a voice signal inputted by a GMM(Gaussian Mixture Model).
Abstract translation: 目的:提供语音改善装置和语音识别系统和方法,通过声音模型数据库执行信号解码来提高小资源移动体中语音识别系统的语音识别性能。 构成:速度分级器(100)通过在语音识别的初始阶段输入的输入噪声信号测量可移动体的移动速度水平。 当可移动体的速度水平低于预定值时,第一音质改善单元(112)提高了由维纳滤波器输入的语音信号的声音质量。 如果可移动体的速度水平超过预定值,则第二音质改善单元(114)提高了由GMM(高斯混合模型)输入的语音信号的声音质量。
-
-
-
-
-
-
-
-
-