-
-
公开(公告)号:KR100292801B1
公开(公告)日:2001-06-15
申请号:KR1019980051342
申请日:1998-11-27
Applicant: 한국전자통신연구원
IPC: G10L13/00
Abstract: 본 발명은 무제한 텍스트를 기본으로 합성하되 특정 서비스 분야에 따라 영역의존 음성합성용 데이터베이스를 각각 제작하여 특정 영역에서는 상용화 가능한 음질을 생성할 수 있는 영역의존 음성합성용 데이터베이스를 이용한 음성 합성 방법을 제공하는 데 그 목적이 있다.
본 발명에 따르면, 음성합성용 데이터베이스를 이용한 음성 합성 방법에 있어서, 영역별 텍스트 코피스로부터 고유 트라이폰 발생 빈도를 추출하여 영역의존 최적 텍스트 세트를 선정하는 제 1 단계; 발성된 영역 의존 텍스트로부터 EGG 신호를 추출한 후에, 트라이폰 단위로 분절하여 합성 데이터베이스를 구축하는 제 2 단계; 및 구축된 영역 의존 데이터베이스와 무제한용 합성 데이터베이스를 이용하여 음성을 합성하는 제 3 단계를 포함하여 이루어진 음성 합성 방법이 제공된다.-
公开(公告)号:KR1020010018064A
公开(公告)日:2001-03-05
申请号:KR1019990033869
申请日:1999-08-17
Applicant: 한국전자통신연구원
IPC: G10L13/00
Abstract: PURPOSE: An apparatus and a method for changing text/speech using phoneme environment and mute section are provided to improve clearness and nature of compound sound by using mute period length information for selecting the compound unit. CONSTITUTION: The apparatus for changing text/speech using phoneme environment and mute section includes following units. A language processing unit(21) extracts phoneme stream and sentence structure information from the text being inputted. A rhythm processing unit(22) receives the phoneme stream and sentence structure information and estimates a rhythm control parameter value by using a rule and rhythm table. A compound unit database(24) stores sound pieces corresponding to the searching information of compound unit. A signal processing unit(23) produces a compound unit searching information, selects the stored candidate sound pieces and then produces a desired compound sound by compounding the selected sound pieces.
Abstract translation: 目的:提供使用音素环境和静音部分改变文字/语音的装置和方法,通过使用静音长度信息来选择复合单元来提高复合声音的清晰度和性质。 规定:使用音素环境和静音部分改变文字/语音的设备包括以下单元。 语言处理单元(21)从输入的文本中提取音素流和句子结构信息。 节奏处理单元(22)接收音素流和句子结构信息,并通过使用规则和节奏表来估计节奏控制参数值。 复合单元数据库(24)存储与复合单元的搜索信息相对应的声音。 信号处理单元(23)产生复合单元搜索信息,选择所存储的候选声音片段,然后通过复合所选择的声音片段产生期望的复合声音。
-
公开(公告)号:KR1019990043759A
公开(公告)日:1999-06-15
申请号:KR1019970064801
申请日:1997-11-29
Applicant: 한국전자통신연구원
IPC: G10L15/20
Abstract: 본 발명은 골도 마이크를 이용한 음성 인식 방법에 관한 것이다. 신호 대 잡음비가 10dB 내지 -5dB인 고 잡음 환경에서의 음성 인식 시스템은 음성에 섞여 있는 잡음으로 인해 정확한 음성 구간의 검출이 불가능하고 음성 특징 벡터 추출 시에도 잡음으로 인하여 입력된 음성 자체의 고유한 특징을 추출해 내기가 어렵다. 따라서 주변이 조용한 환경에서 잘 동작하는 음성 인식기를 고 잡음 환경에서 사용하면 인식 성능이 급격히 저하된다. 종래에는 이러한 문제점을 해결하기 위하여 주변 환경의 잡음이 마이크에 입력되는 비율을 낮추기 위해 지향성 마이크를 사용하는 방법, 입력된 신호로부터 잡음을 제거하기 위하여 아날로그/디지털 변환된 디지털 신호를 적응 신호처리 하여 음질을 개선하는 방법, 잡음이 혼합된 음성 신호로부터 잡음에 강인한 특징 벡터를 추출하는 방법 등을 사용하였다. 그러나 이러한 방법들도 고 잡음 환경에서는 여전히 정확한 음성 구간 검출이나 음성 자체의 고유한 특징을 추출해 내는데 한계가 있어, 음성 인식의 성능이 크게 개선되지 못하는 문제점이 있다. 따라서 본 발명에서는 고 잡음 환경에서 골도(bone conduction) 마이크를 사용함으로써 음성 입력 단계에서 미리 잡음을 제거하여 음성 인식 성능을 향상시킬 수 있는 골도 마이크를 이용한 음성 인식 방법이 제시된다.
-
公开(公告)号:KR100194953B1
公开(公告)日:1999-06-15
申请号:KR1019960055906
申请日:1996-11-21
Applicant: 한국전자통신연구원
IPC: G10L25/90
Abstract: 본 발명은 음성 처리 방법에 관한 것으로, 약 500Hz로 지역 통과된 유성을 신호에서 인접한 영교차점 구간별 면적을 산출하고 인접한 면적의 합을 구하여 피치를 검출하기 용의한 진폭 변화 피크를 산출한다. 그리고 분석 프레임 내에서 대표적인 진폭 변화 피크의 수에 따라 분석 프레임의 길이를 재설정한 후 임의의 두 진폭 변화 피크의 크기에 대한 유사도를 두 피크의 거리에 대한 분포로 나타내고 최대 분포 봉우리의 중심 거리를 측정하여 분석 구간 내에서의 피치 및 후보 피치를 검출한다. 또한 전체 음성 신호의 피치 윤곽선에서 프레임별 피치 변화치를 참조로 예상 검출에러 구간에 대해 후보 피치를 이용하여 에러를 수정한다. 이렇게 함으로서 보다 정확한 피치를 검출할 수 있고 광범위한 피치의 분포와 변화에 적용이 용이할 뿐 아니라 고속 처리가 가능한 유성음 구간에서 프레임별 피치 검출 방법이 제시된다.
-
公开(公告)号:KR1019980050173A
公开(公告)日:1998-09-15
申请号:KR1019960068952
申请日:1996-12-20
Applicant: 한국전자통신연구원
IPC: G10L25/90
Abstract: 본 발명은 유성음 구간에서 피치동기식 포먼트 검출방법에 관한 것이다. 그 목적은 LP(Linear Prediction) 기법으로 음성신호의 유성음 구간에서 피치 길이에 관계없이 음원에 의한 영향을 최소화하면서 정밀한 포먼트 정보를 추출하는 데에 있다. 그 특징은 에포크를 참조하여 분석구간의 길이를 결정하는 단계와, 선택된 분석구간 내에서 각각의 성대개방 구간 중 에포크로부터 해당 피치의 20% 내외의 구간을 '0'으로 대치하고 공분산 선형예측 분석을 수행하는 단계와, 결정단계에서 산출된 선형예측 계수를 이용하여 '0'으로 삽입된 각각의 성대개방 구간을 선형 예측된 값으로 대치하여 성대의 영향을 줄이면서 신호의 연속성을 유지시키고 다시 공분산 선형예측계수를 산출하는 단계와, 공분산 선형예측 분석단계에서 산출된 선형예측계수를 이용하여 성대개방 구간을 피치의 30% 내외까지 확장하여 성대펄스의 영향을 제거하고 최종적인 선형예측 분석을 수행하여 포먼트 정보를 추출하는 단계 및 전체 음성신호에 대해 단계들을 모두 수행하여 얻은 포먼트궤적에 대하여 피치 주기별로 포먼트 의 변화치를 산출하여 그 값이 200Hz를 초과할 경우에 에러발생 여부를 확인하고 궤적의 밀림현상을 보정하여 최종적인 포먼트 궤적을 구하는 단계로 이루어지는 데에 있다.
-
公开(公告)号:KR1019970067093A
公开(公告)日:1997-10-13
申请号:KR1019960006074
申请日:1996-03-08
Applicant: 한국전자통신연구원
IPC: G10L25/90
Abstract: 본 발명은 음성신호의 유성음에서 성대 폐쇄 시점 정보인 이포크(epoch)를 검출하는 방법에 관한 것으로서, 음성합성, 인식, 부호와 분야에서 발성자에 따른 영향을 최소화하면서 음성신호를 정확히 분석하는데 반드시 필요한 정보인 유성음의 이포크(epoch)를 음성신호에서 직접 정확하게 추출할 수 있을 뿐만 아니라 고속처리가 가능한 이포크(epoch) 검출 방법을 제공하기 위하여 프레임 단위별 평균 피치를 참조하여 저역 통과된 유성음 신호에서 영교차점별 평균 진폭 변동률에 의해 의사 이포크(pseudo-epoch)를 검출하고, 대역 통과된 유성음 신호(성대 파형에 의한 저역 성분이 제거된 신호)를 이용하여 의사 이포크 부근에 존재하는 보다 정밀한 실제 이포크를 최종적으로 결정하는 과정을 통해 이포크(epoch)가 존재할 수 있는 영역을 좁혀 나아가면서 처리 하므로 검출오차를 줄일 수 있고, 평균 피치 검출 에러 발생시에는 현재의 이포크(epoch)에 의해 다음 프레임의 평균 피치를 근사적으로 결정할 수 있으므로 결정 에러를 줄일 수 있으며, 사인파 형태의 음성신호에서도 정밀한 이포크(epoch) 결정이 가능하며 시간영역에서 처리되어 계산량이 적으므로 고속 처리가 가능한 효과가 있다.
-
公开(公告)号:KR100269255B1
公开(公告)日:2000-10-16
申请号:KR1019970064040
申请日:1997-11-28
Applicant: 한국전자통신연구원
IPC: G10L21/003
CPC classification number: G10L21/003 , G10L21/013 , G10L21/04
Abstract: PURPOSE: A method for correcting a pitch by variation of a glottis closing section signal in a vocal signal is provided to generate a finely synthesized voice by maintaining a formant bandwidth. CONSTITUTION: A glottis closing section is detected and a vocal path parameter is estimated. A voice signal of the glottis closing section is separated from a voice signal of a glottis opening section. The glottis closing section is extended or reduced by using the estimated vocal path parameter. A final synthesis voice signal changed to a final desired pitch is generated by overlapping the voice signal of the glottis closing section and the voice signal of the glottis opening section.
Abstract translation: 目的:提供通过声乐信号中声门关闭部分信号的变化来校正音高的方法,以通过维持共振峰带宽来产生精细合成的声音。 构成:检测声门关闭部分,并估计声道参数。 声门关闭部分的声音信号与声门开口部分的声音信号分离。 使用估计的声道参数来扩大或缩小声门关闭部分。 通过将声门关闭部分的声音信号和声门开口部分的声音信号重叠来产生改变为最终期望音调的最终综合语音信号。
-
公开(公告)号:KR1019990043060A
公开(公告)日:1999-06-15
申请号:KR1019970064040
申请日:1997-11-28
Applicant: 한국전자통신연구원
IPC: G10L21/003
Abstract: 본 발명은 전자공학의 음성 신호처리 분야에서 자연 음성신호를 접속하여 음성을 합성(음편 접속 합성)할 때 고 품질을 유지하면서 유성음의 피치를 변경할 수 있는 방법이다. 기존의 피솔라(PSOLA) 방법은 피치의 변경율이 클수록 피치 단위별로 적용하는 윈도우(window)의 영향과 두 피치구간이 겹쳐지면서 발생하는 스펙트럼 왜곡이 커져 합성음의 명료도가 저하되는 단점 있다. 이와 같은 PSOLA 기법의 단점을 극복하기 위해 안출된 본 발명은 한 피치 구간에서 창 함수를 적용하지 않고 성문 닫힘 구간에 연속적인 신호를 임의의 길이까지 합성한 후 음원 신호와 중첩하여 피치를 변경할 수 있는 방법으로서 본 발명은 PSOLA에서와 같은 단점이 최소화되어 보다 명료한 합성음을 생성할 수 있다.
-
公开(公告)号:KR100134707B1
公开(公告)日:1998-05-15
申请号:KR1019940036104
申请日:1994-12-22
IPC: G06F3/16
Abstract: 본 발명은 한국어 문자를 음성으로 합성하는 방법에 대한 것으로서, 음성을 다이폰 단위로 세분하여 합성 데이타베이스로 부터 파라미터를 가져와서 LSP합성방식으로 음성으로 변환하는 방법이다. 본 발명에 사용한 특징으로는 다이폰 단위로의 분류와 결합을 효율적으로 세분화하였으며 합성 데이타베이스를 구성하는 경우 각각의 다이폰에 대해서 특수한 경계표시를 하였다. 각각의 경계표시는 다이폰의 유형에 따라서 서로 다른 의미를 가지며 합성단위들을 결합하는 경우 길이의 조절과 결합이 용이하도록 구성하였다. 또한 음성합성기술의 관건은 합성음의 품질이므로 LSP 합성필터의 음원으로 수정된 LF모델과 리지쥬얼(residual)신호를 사용하여 자연성과 명료성을 높이고자 하였다.
본 발명은 현재 늘어가는 정보 통신 서비스와 연결될 경우 합성기술을 이용한 정보검색의 급증으로 새로운 정보제공 기술의 증진을 가져오는 효과를 가진다.
-
-
-
-
-
-
-
-
-