Abstract:
본 발명에서 제안하고 있는 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 따르면, 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, 프레임 단위의 출력을 집계하는 과정에서 문자 단위의 개별적 처리 과정을 갖기 때문에 추론 단계에서 화자 임베딩간의 유사도 계산 시 특정 발음 간의 특징 비교를 가능하도록 하며, 이를 통해 화자 인식 시스템에서 화자 정보 및 문장 발화 정보를 동시에 고려하여 비교 분석할 수 있도록 할 수 있다.
Abstract:
본 발명에서 제안하고 있는 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템에 따르면, 스타일 음성 합성 시 기존의 스타일 라벨이나 참조 음성을 활용함에 따른 발화할 수 있는 스타일 개수의 제한과, 사용자가 발화할 때마다 참조 음성을 찾아 입력해야 하는 번거로움 없이 스타일 태그를 활용하여 사용자가 직관적으로 간편하게 음성의 스타일을 조절할 수 있도록 할 수 있다.
Abstract:
본 발명에서 제안하고 있는 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체에 따르면, 화자 분류기만을 학습하는 기존 방식의 기법들과 달리, 화자 임베딩 추출 과정에서 비 화자 요소에 대한 정보가 감소하도록 임베딩 시스템을 학습하고, 화자 임베딩은 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화되도록 학습됨에 따라 얻어진 화자 임베딩은 보다 비화자 정보로 인한 성능 열화가 최소화되고, 그에 따른 비화자 요소에 강인한 화자 임베딩 추출이 가능하도록 할 수 있다.
Abstract:
네트워크 보안 정책 처리 방법이 개시된다. 네트워크 인프라에 데이터 트래픽을 제공하기 위해 외부 전자 장치가 전자 장치에 연결되기 전에, 전자 장치는 외부 전자 장치에 네트워크 관리자에 의해 등록된 네트워크 보안 정책을 외부 전자 장치에 공유할 수 있다. 외부 전자 장치는 네트워크 보안 정책을 통해 데이터 트래픽이 네트워크 보안 정책에 위배되었는지를 스스로 판단할 수 있으며, 네트워크 보안 정책을 만족하는 데이터 트래픽을 전자 장치에 전송할 수 있다.
Abstract:
PURPOSE: A method and an apparatus for efficiently generating a singing voice are provided to convert a normal voice data into a singing voice by preventing degradation of a voice quality. CONSTITUTION: An apparatus generates a first conversion function for indicating correlation between normal voice data and singing voice data(S10). The apparatus reflects music information to the first conversion function. The apparatus generates a second conversion function(S20). The apparatus generates the normal voice data as singing voice by using the second conversion function(S30).
Abstract:
PURPOSE: A pre processing device for voice recognition, a device thereof, and a method thereof are provided to convert the voice of a test environment by a linear dynamic system, thereby increasing the recognition rate of the voice recognition device. CONSTITUTION: A voice input unit divides an first input voice to a fixed frame(S10). A voice converting unit applies conversion rules to the frame of the first voice. The voice converting unit converts the frame of the first voice to a frame of a second voice(S20). A recognizing unit identifies verbal meaning by recognizing frames of the second voice(S30).