Abstract:
PURPOSE: A method for tagging a syllable of rhythm module for a Koran language voice combiner is provided to tag the syllable showing boundary prediction on the basis of a speech part stream information. CONSTITUTION: A speech part stream tagged by morpheme are inputted(101). The speech part stream is discriminated whether the stream belongs to an exceptional word(102). In the exceptional word, its function does not coincided with the speech part of the word. The word is managed especially and the exceptional word tag list is written(103). When an exceptional word is founded, the exceptional word tag is applied to the word and thereafter the speech part stream is outputted(104).
Abstract:
A dialog type voice interface system and a responding method thereof are provided to create an output sentence according to intention of a user and situation of the system to realize a natural dialog between the user and the system. A voice recognition unit(100) recognizes voice of a user. A knowledge search unit(104) searches for information matching with the voice of the user from plural sentence information contents. A dialog model unit(102) transmits information corresponding to character sequence signal of the recognized voice to the knowledge search unit, and sets a dialog model by the searched information. A system response unit(108) creates a sentence frame candidate based on the set dialog model, and determines the ending type of the sentence according to user-spoken sentence and system situation to generate an output sentence. A voice synthesis unit(110) converts the output sentence into voice, and outputs the voice.
Abstract:
본 발명은 서로 상대방의 언어를 모르는 대면 상황에서 이동통신 단말기를 이용하여 최소한의 키워드를 발성한 다음, 그 화면에 출력되는 자국어 문자인식 결과와 상대국 언어로 번역된 문자를 서로 확인함으로써 여행자의 의사소통을 원활하게 하는 키워드 기반 음성번역 시스템 및 그 방법에 관한 것이다. 본 발명의 방법은 두 화자의 언어인 제 1언어와 제 2언어를 각각 설정하는 단계와, 사용자로부터 제 1언어 키워드 음성을 입력받아 음성번역 서버로 전송하는 단계와, 서버에서 그 음성 데이터를 인식하여 제 1언어 문자로 변환하고 이를 이동 단말기로 전송하는 단계와, 이동 단말기에 제 1언어 문자로 출력 표시된 음성인식 결과의 정/오 여부를 확인하는 단계와, 음성번역 서버는 인식 결과의 제 1언어 문자를 제 2언어 문자로 번역하고, 이동 단말기는 그 번역 결과를 수신하여 제 2언어 문자로 출력 표시하는 단계로 이루어진다.
Abstract:
본 발명은 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및 이를 기반으로 하는 음성합성 방법 및 시스템에 관한 것으로, 정적 특성의 CRAT 모델과 동적 특성의 HMM 모델을 결합하여 새로운 끊어읽기 예측 모델을 생성하고, 상기 생성된 끊어읽기 예측 모델을 통해 해당 문장의 의미에 가장 부합하는 끊어읽기 강도를 예측함으로써 보다 자연스러운 합성음을 구현할 수 있는 것을 특징으로 한다. 음성합성, 정적, 동적, CART, HMM, n-gram, TTS, 운율
Abstract:
본 발명은 코퍼스 기반 음성합성을 수행함에 있어 합성음의 자연성에 매우 중요한 문장내 구단위 끊어읽기(phrase break prediction)에 관한 것으로서, 기존 끊어읽기 규칙이 통계적으로 모델링되는 바, 대용량 텍스트에서 화자독립 끊어읽기 규칙이 추출되고, 이러한 끊어읽기 규칙은 발성화자의 화자종속적 끊어읽기 패턴과 다소 상이하여 합성음의 자연성을 저하시키는 요인이 되어 왔다. 이에 이러한 문제점을 해결하고자 통계적 끊어읽기 모델링을 적용하여 다수개(N-best)의 끊어읽기 결과를 출력하고, 다수개의 끊어 결과 중 화자의 끊어읽기 패턴과 유사한 끊어읽기를 선택하여 합성음질을 개선하고자 한다. 음성합성, 끊어읽기, 코퍼스 기반 음성합성, 화자독립 끊어읽기, 화자종속 끊어읽기
Abstract:
본 발명은 화행 정보를 이용한 대화체 음성합성 시스템 및 방법에 관한 것으로서, 대화 텍스트(dialog text)에서 대화의 맥락(context)에 따라 다른 억양이 구현될 필요가 있는 표현에 대해 두 대화자의 발화 문장으로부터 추출되는 화행(speech act) 정보를 이용하여 억양을 구분하는 태깅을 수행해 주고, 음성 합성시에는 그 태그에 맞는 억양을 갖는 음성 신호를 음성데이타베이스에서 추출하여 합성에 사용함으로써 대화의 흐름에 맞는 자연스럽고 다양한 억양을 구현함으로써, 대화의 상호작용(interaction)적인 측면을 좀더 실감나게 표현할 수 있어 대화음성의 자연성의 증진 효과를 기대할 수 있다. 대화체 음성합성시스템(Dialog-style Text-to-Speech system), 대화체 텍스트(dialog text), 음성 합성(speech synthesis), 맥락(context), 화행(speech act), 억양(intonation)
Abstract:
본 발명은 한국어 대화체 음성합성시스템에서 화맥(speech context) 정보를 이용하여 특정 형태에 대해 선택적으로 운율을 구현하는 방법에 관한 것이다. 본 발명은 합성시스템의 입력 문장 가운데, 형태가 같으면서 선택적으로 운율이 구현될 필요가 있는 단어나 어미 등에 대해 문장의 화행(speech act) 정보나 문형 정보를 포함하는 화맥 정보를 이용하여 태깅을 해 주고, 음성 합성시에 태깅된 특정 형태에 맞는 음편(speech segment)이 마킹된 합성단위 DB에서 해당 음편을 선택적으로 추출하여 대화 맥락 또는 문장의 유형에 맞는 운율을 다양하게 구현하는 방법을 제공한다. TTS, 대화체 음성합성시스템, 음성 합성, 대화체, 화맥정보, 운율
Abstract:
본 발명은 대화형 음성 인터페이스 시스템 및 그 응답 방법에 관한 것으로서, 특히 본 발명의 시스템은, 입력된 사용자 음성을 인식하는 음성 인식부와, 복수개의 문장 정보 컨텐츠에서 매칭되는 정보를 검색하는 지식 검색부와, 인식된 음성의 문자열 신호에 대응하는 정보를 지식 검색부에 전달하고 검색된 정보로 대화 모델을 설정하는 대화 모델부와, 설정된 대화 모델에 기인하여 문틀 후보를 생성하고, 사용자 발성 문장에 조응 및 시스템 상황에 따른 문장의 어미 양태를 결정하여 출력 문장을 생성하는 시스템 응답부와, 출력 문장을 음성으로 변환하여 출력하는 음성 합성부를 포함한다. 그러므로, 본 발명은 사용자 의도에 조응하며 시스템 상황에 적절한 시스템 양태를 표현하기 위한 출력 문장을 생성함으로써, 사람간의 대화처럼 자연스러운 대화형 음성 인터페이스를 구현할 수 있다. 대화형 음성 인터페이스, 어미 양태, 억양 양태
Abstract:
본 발명은 코퍼스 기반 음성합성을 수행함에 있어 합성음의 자연성에 매우 중요한 문장내 구단위 끊어읽기(phrase break prediction)에 관한 것으로서, 기존 끊어읽기 규칙이 통계적으로 모델링되는 바, 대용량 텍스트에서 화자독립 끊어읽기 규칙이 추출되고, 이러한 끊어읽기 규칙은 발성화자의 화자종속적 끊어읽기 패턴과 다소 상이하여 합성음의 자연성을 저하시키는 요인이 되어 왔다. 이에 이러한 문제점을 해결하고자 통계적 끊어읽기 모델링을 적용하여 다수개(N-best)의 끊어읽기 결과를 출력하고, 다수개의 끊어 결과 중 화자의 끊어읽기 패턴과 유사한 끊어읽기를 선택하여 합성음질을 개선하고자 한다. 음성합성, 끊어읽기, 코퍼스 기반 음성합성, 화자독립 끊어읽기, 화자종속 끊어읽기
Abstract:
PURPOSE: A method for selectively embodying a metre with respect to a specific form in a Korean dialogue text-to-speech system is provided to variously embody the metre suitable for dialogue connection or a sentence type by selectively extracting a corresponding speech segment from a synthesis unit DB. CONSTITUTION: If a pre-processed Korean dialogue sentence is inputted, a speech act tagging work of the input sentence is performed(S20). It is discriminated whether a specific element to selectively embody a metre is included in the input sentence in which the speech act tagging work is completed(S30). If the specific element is included, a tagging work of the specific element is performed using a work tagging table to correspond to speech act information of a preceding sentence and a following sentence including the specific element(S40). If a specific element with the same form to selectively embody the metre is not included in the input sentence, it is discriminated whether a question-type ending to selectively embody the metre is included in the input sentence(S50). It is discriminated whether the question-type ending to selectively embody the metre is included in the input sentence. If the question-type ending is included, a tagging work of the question-type ending is performed using a question-type ending tagging table to correspond to the question type(S60). If the question-type ending is not included in the input sentence, a text tagged to the specific element is output(S70). If a tagging text for the specific element is output, a corresponding speech segment is extracted from a synthesis unit DB to be suitable for a tag with a tagged form(S80). The extracted speech segments are added to the other speech segments to generate a dialogue synthesis sound(S90).