-
公开(公告)号:KR100240637B1
公开(公告)日:2000-01-15
申请号:KR1019970017615
申请日:1997-05-08
Applicant: 한국전자통신연구원
IPC: G06F3/16
CPC classification number: G10L13/00 , G10L2021/105
Abstract: 본 발명은 다중매체 환경에서 텍스트/음성변환기(text-to-speech conversion system; TTS) 연동방법에 있어서 텍스트/음성변환기용 입력데이터 구현 방법 및 그 장치에 관한 것이다.
기존의 합성기는 입력된 텍스트로부터 음성을 합성하는 용도로만 고려되고 있는 상황이다. 그런데 텍스트/음성변환기를 이용하여 동영상에 더빙을 하고자 할 때나, 애니메이션과 같은 다중매체와 합성음 간의 자연스러운 연동을 구현하기 위해서 필요한 동기화 정보는 단지 텍스트로부터 추정하기가 불가능하며, 합성음의 자연성 향상을 위한 부가 데이터 사용, 그리고 이들 데이타의 구조화에 대한 연구결과는 거의 없는 실정이다.
따라서, 본 발명은 텍스트/음성변환기에서 텍스트 이외에 부가적 운율정보, 다중매체와의 연동에 필요한 정보, 그리고 이들 정보와 텍스트/음성변환기 간의 인터페이스를 정의하여 합성음 생성에 사용함으로써 합성음의 자연성 향상과 다중매체와 TTS간의 동기화 구현을 그 목적으로 한다.
상술한 목적을 달성하기 위한 본 발명은 기존 TTS의 언어처리부, 운율처리부, 신호처리부, 합성단위를 포함하되, 텍스트, 운율, 동화상과의 동기화 정보, 입술모양, 개인성 등의 정보를 구조화 시킨 다중매체 입력정보, 다중매체 입력정보를 매체별 정보로 분리하는 분배기, 그리고 동기 정보를 이용하여 음소의 지속시간을 조정하는 동기 조정기, 영상정보를 화면에 출력하는 영상 출력장치를 구비하고 있다.
본 발명은 실제 음성 데이타와 동영상의 입술모양을 분석하여 추정된 운율정보, 입술모양 정보와 텍스트 정보의 구조화 및 합성기 응용을 통해 합성음의 자연성과 동영상과의 동기화를 구현함으로써 외화 등에 한국어 더빙, 통신 서비스, 사무 자동화, 교육 등의 여러 분야에 응용할 수 있는 효과가 있다.-
公开(公告)号:KR100128669B1
公开(公告)日:1998-04-22
申请号:KR1019940024034
申请日:1994-09-23
IPC: G10L25/78
Abstract: 본 발명은 음성신호의 실시간 음성부 검출 방법에 관한 것으로, 특히, 음성신호를 입력받을시 묵음부분을 자동으로 제거하고 순수한 음성부분만을 실시간으로 검출할 수 있는 음성신호의 실시간 음성부 검출 방법에 관한 것으로, 특히, 실시간 구현이 가능하며, 시작점 검출을 위한 임계치와 끝점 검출을 위한 임계치를 서로 다르게 설정함으로써 종래 기술보다 음성부의 끝점 구간에서 매우 향상된 결과를 보였고, 시작점과 끝점 검출을 위한 임계치가 사용환경에 따라 적절히 변화되므로 알고리즘이 적용환경에 크게 영향을 받지 않고 일정수단 이상의 성능을 유지할 수 있고, 비교적 간단한 파라메타와 알고리즘을 사용하므로 구현이 용이한 효과가 있다.
-
公开(公告)号:KR1019960025172A
公开(公告)日:1996-07-20
申请号:KR1019940034757
申请日:1994-12-16
IPC: G06F17/30
Abstract: 본 발명은 음성합성을 이용하여 일반 전자식 전화기를 가진 사용자에게 정보통신 서비스를 제공할 수 있는 검색 장치 및방법에 관한 것으로, 음성합성을 한정적으로 사용하여 정보통신 서비스 단말기뿐만 아니라 전자식 전화기를 보유한 사람모두에게 정보통신 서비스를 제공하는 정보통신 서비스 검색 장치 및 방법을 제공하기 위하여, 가입자와 정합하는 가입자처리 수단(1) ; 음성을 합성하는 음성합성 수단(3); 정보통신 서비스망과 접속하는 정보통신 서비스 접속 수단(4); 및 상기 각 구성 요소를 제어하는 중앙처리수단(2)을 구비하고, 상기 장치에 적용되는 방법에 있어서, 화면 데이타를 수신하여분석하는 제1단계(51 내지 55, 57); 사용자가 종료를 원하면 서비스를 종료하는데 제2단계 (56); 합성을 수행하여 사용자에게 전송하는 제3단계 (58, 59, 60, 64, 65); 및 합성 자료구간을 검출하여 합성음을 생성한 후에 사용자에게 전송하는제4단계 (61 내지 65)를 포함하여 일반 전자식 전화기를 가진 사람이면 누구나 정보 검색 서비스의 이용이 가능하여 경제적이고 음성으로 들을 수 있으므로 동시에 다른 작업을 할 수 있고 장애인들도 서비스를 이용할 수 있는 효과가 있다.
-
公开(公告)号:KR1020010046522A
公开(公告)日:2001-06-15
申请号:KR1019990050318
申请日:1999-11-12
Applicant: 한국전자통신연구원
IPC: G10L15/02
Abstract: PURPOSE: An apparatus and a method for detecting speech in real time by using pitch information are provided to accurately detect speech section from a signal input together with non-speech. CONSTITUTION: An A/D converter converts an input signal into a digital signal(S101). A frame having preliminarily settled length from the converted digital signal(S102). It is judged whether threshold values used for detecting speech are settled by using front frames of the input signal(S103). If not, the threshold values are settled(S104). If settled, speech/non-speech by frames are judged(S105). It is judged whether a starting point of speech is detected from the frames of signals input afterward by using the threshold values(S106). If not detected, the starting point is detected(S107). If detected, it is judged whether an ending point of speech is detected(S108). If detected, the ending point is detected and speech input is automatically stopped(S109).
Abstract translation: 目的:提供一种通过使用音调信息来实时检测语音的装置和方法,用于从非语音的信号输入精确地检测语音部分。 构成:A / D转换器将输入信号转换为数字信号(S101)。 从转换的数字信号预先设定了长度的帧(S102)。 判断用于检测语音的阈值是否通过使用输入信号的前帧来确定(S103)。 如果不是,则确定阈值(S104)。 如果确定,则判断通过帧的语音/非语音(S105)。 通过使用阈值判断是否从之后输入的信号的帧中检测起始语音(S106)。 如果未检测到,则检测起点(S107)。 如果检测到,则判断是否检测到终点语音(S108)。 如果检测到,则检测到结束点,并且自动停止语音输入(S109)。
-
公开(公告)号:KR1020010017858A
公开(公告)日:2001-03-05
申请号:KR1019990033593
申请日:1999-08-16
Applicant: 한국전자통신연구원
IPC: G10L13/00
Abstract: PURPOSE: A method for extracting the number of optimum variation sound for recognizing sound is provided so that an optimum number of variation sound can extract by measuring the information loss and selecting pair having the least information loss and clustering as much as a desired number of sound. CONSTITUTION: The method for extracting the number of optimum variation sound for recognizing sound includes following processes. First, initial distribution information is loaded(401). A count value of each variation sound is stored to the distribution information. Next, it is examined whether there exists the number of variation sound in the present sound model as much as one's desire(402). If there exists the number of variation sound in the present sound model as much as one's desire, the present variation sound information is output(403), finishing the algorithm. If the number of variation sound is many in comparison with the desired number, an information loss is calculated in a case that each variation sound pair relating to a central phoneme is merged(404). According to this, an optimum least loss value among the calculated information loss and the corresponding variation sound pair are recorded(405). The previous two processes are repeated to all central phoneme(406). When each variation sound pair having the least loss value at each central phoneme is calculated, the least sound value is searched by comparing the each variation sound, as a result, the least sound value pair is recorded(407). The calculated variation sound pair is merged, so that a one variation sound is reduced and distribution information is updated(408).
Abstract translation: 目的:提供一种用于提取用于识别声音的最佳变化声音的数量的方法,使得通过测量具有最少信息损失的聚合的信息丢失和选择对,可以提取最佳数量的变化声音,并且具有所需数量的声音 。 构成:用于提取用于识别声音的最佳变化声音数量的方法包括以下处理。 首先,加载初始分发信息(401)。 每个变化声音的计数值被存储到分发信息中。 接下来,检查当前声音模型中是否存在多少个变化声音(402)。 如果在目前的声音模型中存在多少个变化声音,则输出当前的变化声音信息(403),从而完成该算法。 如果变化声音的数量与期望的数量相比很多,则在与中心音素相关的每个变化声音合并的情况下计算信息损失(404)。 据此,记录计算出的信息丢失和对应的变化声对中的最佳最小损失值(405)。 前两个过程重复到所有中心音素(406)。 当计算每个中心音素损耗值最小的每个变化声对时,通过比较每个变化声来搜索最小声音值,结果记录了最小声值对(407)。 计算出的变化声音对被合并,从而减少一个变化的声音并且更新分配信息(408)。
-
公开(公告)号:KR1019980082608A
公开(公告)日:1998-12-05
申请号:KR1019970017615
申请日:1997-05-08
Applicant: 한국전자통신연구원
IPC: G06F3/16
Abstract: 본 발명은 다중매체 환경에서 텍스트/음성변환기(text-to-speech conversion system; TTS) 연동방법에 있어서 텍스트/음성변환기용 입력데이터 구조화 방법에 관한 것이다.
기존의 합성기는 입력된 텍스트로부터 음성을 합성하는 용도로만 고려되고 있는 상황이다. 그런데 텍스트/음성변환기를 이용하여 동영상에 더빙을 하고자 할 때나, 애니메이션과 같은 다중매체와 합성음 간의 자연스러운 연동을 구현하기 위해서 필요한 동기화 정보는 단지 텍스트로부터 추정하기가 불가능하며, 합성음의 자연성 향상을 위한 부가 데이터 사용, 그리고 이들 데이타의 구조화에 대한 연구결과는 거의 없는 실정이다.
따라서, 본 발명은 텍스트/음성변환기에서 텍스트 이외에 부가적 운율정보, 다중매체와의 연동에 필요한 정보, 그리고 이들 정보와 텍스트/음성변환기 간의 인터페이스를 정의하여 합성음 생성에 사용함으로써 합성음의 자연성 향상과 다중매체와 TTS간의 동기화 구현을 그 목적으로 한다.
본 발명은 실제 음성데이타와 동영상의 입술모양을 분석하여 추정된 운율정보, 입술모양 정보와 텍스트 정보의 구조화 및 합성기 응용을 통해 합성음의 자연성과 동영상과의 동기화를 구현함으로써 외화등에 한국어 더빙, 통신 서비스, 사무 자동화, 교육 등의 여러 분야에 응용할 수 있는 탁월한 효과가 있다.-
公开(公告)号:KR100128844B1
公开(公告)日:1998-04-15
申请号:KR1019940034757
申请日:1994-12-16
IPC: G06F17/30
Abstract: Disclosed is an apparatus and method to search an information-communication service using a voice synthesis. The apparatus comprises a member processor(1), a voice synthesizer(3), a service connector(4) and a central processor(2). The member processor(1) matches the members having a general electronic telephone. The voice synthesizer(3) synthesizes voices and sends the result signal to the member processor(1). The service connector(4) connects to the information-communication service network. The central processor(2) controls each component. Thereby, the members having a general electronic telephone are able to access the information-communication service.
Abstract translation: 公开了一种使用语音合成来搜索信息通信服务的装置和方法。 该装置包括成员处理器(1),语音合成器(3),服务连接器(4)和中央处理器(2)。 会员处理器(1)与具有通用电子电话的成员相匹配。 语音合成器(3)合成语音,并将结果信号发送给会员处理器(1)。 服务连接器(4)连接到信息通信服务网络。 中央处理器(2)控制每个组件。 因此,具有一般电子电话的成员能够访问信息通信服务。
-
公开(公告)号:KR100345402B1
公开(公告)日:2002-07-26
申请号:KR1019990050318
申请日:1999-11-12
Applicant: 한국전자통신연구원
IPC: G10L15/02
Abstract: 본발명은음성인식및 음성코딩등 음성을입력으로사용하는시스템에서음성의특징중의하나인피치(Pitch) 정보를이용하여, 입력되는신호에서음성만을실시간으로검출하는장치및 그방법을제공하는데그 목적이있다. 본발명에따르면, 음성신호가입력되는음성입력부, 상기음성입력부에의하여입력된아날로그(Analog) 음성신호를디지털(Digital) 음성신호로변환하는 A/D 변환부, 상기 A/D 변환부에의하여변환된디지털음성신호에서음성의시작점을검출하는시작점검출부, 상기 A/D 변환부에의하여변환된디지털음성신호에서음성의끝점을검출하는끝점검출부를포함하여이루어진음성검출장치에있어서, 상기시작점검출부는, 상기 A/D 변환부에의하여변환된디지털음성신호에서기설정된길이를갖는프레임(Frame)을생성하는프레임생성수단과; 상기프레임생성수단에의하여생성된프레임중 앞부분의프레임으로부터샘플(Sample)들을추출하여상기추출된샘플들의에너지값만을이용하여피치(Pitch)의임계치를결정하는임계치설정수단과; 상기임계치설정수단에의하여결정된임계치값들을사용하여이후에입력되는음성신호의프레임들로부터음성의시작점을검출하는검출수단을포함하여이루어진것을특징으로하는음성검출장치가제공된다.
-
9.
公开(公告)号:KR100279741B1
公开(公告)日:2001-02-01
申请号:KR1019980033298
申请日:1998-08-17
Applicant: 한국전자통신연구원
IPC: G10L13/08
Abstract: 본 발명은 HTML 요소를 이용한 텍스트/음성변환기의 동작 제어방법에 관한 것으로서, 화면에 표시되는 활자 크기, 색상, 모양 등 문서의 모양을 제어하는 HTML 구성 요소와 합성음의 화자, 음색, 발화 속도, 억양, 세기간의 인터페이스를 정의하고 합성음 생성에 사용함으로써 가시적 HTML 문서특성의 가청화 구현과 합성음을 이용한 내용 전달의 명확한 차별화를 목적으로 하며, HTML 문서를 분석하는 HTML 문서 분석기(5), 이 분석 결과를 바탕으로 합성음을 생성할 문장과 문장의 끊어읽기, 억양, 강세, 지속시간에 대한 제어 명령을 구조화된 데이터 형태로 작성하는 합성기 제어 명령어 생성기(6) 및 구조화된 데이터를 입력받아 음성을 합성하는 음성합성기(7)를 구비하여 가시적 HTML 문서특성에 따라 변별적 합성음을 생성함으로써, 웹 브라우저 읽기, 전자메� � 읽기, 사용자 요구 소설(동화) 낭독 서비스 등의 통신서비스와 교육 등의 여러 분야에서 응용할 수 있는 탁월한 효과를 가진다.
-
10.
公开(公告)号:KR1020000014609A
公开(公告)日:2000-03-15
申请号:KR1019980034103
申请日:1998-08-21
Applicant: 한국전자통신연구원
IPC: G10L13/00
Abstract: PURPOSE: A method for structuring an input data for a phase speech converting of a mark-up language document for a speech synthesis is provided, which can transmit a document to be drew up as a markup language and structures the document as a phrase or several phrase unit. CONSTITUTION: The method for structuring an input data for a phase speech converting of a mark-up language document for a speech synthesis comprises: a first step for separating a markup language into a document having a markup language received in a markup language analyzer (40); and a second step for structuring an entire markup affected to one phrase by data of one phrase unit, including a first sub-step for maintaining a content corresponding to a TTS_Sequence among the markup affected to an entire phrase as a markup language configuration, and a second sub-step for attaching the markup to TTS_Text to completing the TTS_Sentence. Thereby, it is possible to embody a trick mode.
Abstract translation: 目的:提供一种用于构建用于语音合成的标记语言文档的相位语音转换的输入数据的方法,其可以传送要作为标记语言绘制的文档,并将文档构造成短语或多个 短语单位。 构成:用于构建用于语音合成的标记语言文档的相位语音转换的输入数据的方法包括:用于将标记语言分离成具有在标记语言分析器(40中接收的标记语言)的文档的第一步骤 ); 以及第二步骤,用于通过一个短语单元的数据来构造影响一个短语的整个标记的第二步骤,包括用于将影响整个短语的标记中的对应于TTS_S序列的内容维持为标记语言配置的第一子步骤,以及 将标记附加到TTS_Text以完成TTS_Sentence的第二个子步骤。 由此,可以实现特技模式。
-
-
-
-
-
-
-
-
-