Patent search ap:("삼성전자주식회사" OR "서울대학교산학협력단") AND inv:"김남수" Page 1

1.

发明申请
화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 审中-公开

公开(公告)号：WO2022075714A1

公开(公告)日：2022-04-14

申请号：PCT/KR2021/013641

申请日：2021-10-05

Applicant: 서울대학교산학협력단

Inventor： 김남수 , 문성환

IPC: G10L17/02 , G10L17/18 , G10L17/04 , G10L15/26 , G10L15/06

Abstract: 본 발명에서 제안하고 있는 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 따르면, 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, 프레임 단위의 출력을 집계하는 과정에서 문자 단위의 개별적 처리 과정을 갖기 때문에 추론 단계에서 화자 임베딩간의 유사도 계산 시 특정 발음 간의 특징 비교를 가능하도록 하며, 이를 통해 화자 인식 시스템에서 화자 정보 및 문장 발화 정보를 동시에 고려하여 비교 분석할 수 있도록 할 수 있다.

2.

发明申请
자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템 审中-公开

公开(公告)号：WO2023033237A1

公开(公告)日：2023-03-09

申请号：PCT/KR2021/015743

申请日：2021-11-03

Applicant: 서울대학교산학협력단

Inventor： 김남수 , 김민찬

IPC: G10L13/10 , G10L13/06 , G10L15/183

Abstract: 본 발명에서 제안하고 있는 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템에 따르면, 스타일 음성 합성 시 기존의 스타일 라벨이나 참조 음성을 활용함에 따른 발화할 수 있는 스타일 개수의 제한과, 사용자가 발화할 때마다 참조 음성을 찾아 입력해야 하는 번거로움 없이 스타일 태그를 활용하여 사용자가 직관적으로 간편하게 음성의 스타일을 조절할 수 있도록 할 수 있다.

3.

发明申请
비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체 审中-公开

公开(公告)号：WO2022054994A1

公开(公告)日：2022-03-17

申请号：PCT/KR2020/012348

申请日：2020-09-11

Applicant: 서울대학교산학협력단

Inventor： 김남수 , 강우현

IPC: G10L17/02 , G10L17/18 , G10L17/04 , G10L19/038 , G10L15/06 , G10L15/08 , G06N3/08

Abstract: 본 발명에서 제안하고 있는 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체에 따르면, 화자 분류기만을 학습하는 기존 방식의 기법들과 달리, 화자 임베딩 추출 과정에서 비 화자 요소에 대한 정보가 감소하도록 임베딩 시스템을 학습하고, 화자 임베딩은 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화되도록 학습됨에 따라 얻어진 화자 임베딩은 보다 비화자 정보로 인한 성능 열화가 최소화되고, 그에 따른 비화자 요소에 강인한 화자 임베딩 추출이 가능하도록 할 수 있다.

4.

发明申请
전자 장치의 네트워크 보안 정책 처리 방법 审中-公开

公开(公告)号：WO2022215941A1

公开(公告)日：2022-10-13

申请号：PCT/KR2022/004556

申请日：2022-03-31

Applicant: 삼성전자주식회사

Inventor： 김남수 , 이홍건 , 장명호

IPC: H04L9/40

Abstract: 네트워크 보안 정책 처리 방법이 개시된다. 네트워크 인프라에 데이터 트래픽을 제공하기 위해 외부 전자 장치가 전자 장치에 연결되기 전에, 전자 장치는 외부 전자 장치에 네트워크 관리자에 의해 등록된 네트워크 보안 정책을 외부 전자 장치에 공유할 수 있다. 외부 전자 장치는 네트워크 보안 정책을 통해 데이터 트래픽이 네트워크 보안 정책에 위배되었는지를 스스로 판단할 수 있으며, 네트워크 보안 정책을 만족하는 데이터 트래픽을 전자 장치에 전송할 수 있다.

5.

发明公开
가창 음성 생성 방법 및 그에 따른 장치 审中-实审
Title translation: 用于生成语音的方法和装置

公开(公告)号：KR1020120041656A

公开(公告)日：2012-05-02

申请号：KR1020110096982

申请日：2011-09-26

Applicant: 삼성전자주식회사 , 서울대학교산학협력단

Inventor： 김은경 , 권재성 , 김남수 , 성준식

IPC: G10L13/02

CPC classification number: G10H1/366 , G10H2250/455

Abstract: PURPOSE: A method and an apparatus for efficiently generating a singing voice are provided to convert a normal voice data into a singing voice by preventing degradation of a voice quality. CONSTITUTION: An apparatus generates a first conversion function for indicating correlation between normal voice data and singing voice data(S10). The apparatus reflects music information to the first conversion function. The apparatus generates a second conversion function(S20). The apparatus generates the normal voice data as singing voice by using the second conversion function(S30).

Abstract translation: 目的：提供一种用于有效地产生歌声的方法和装置，用于通过防止语音质量的劣化将普通语音数据转换成歌声。构成：设备产生用于指示正常语音数据和歌唱语音数据之间的相关性的第一转换功能（S10）。该装置将音乐信息反映到第一转换功能。该装置产生第二转换功能（S20）。该装置通过使用第二转换功能将声音数据作为歌声产生（S30）。

6.

发明授权
음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법 有权

公开(公告)号：KR101862352B1

公开(公告)日：2018-05-30

申请号：KR1020110098935

申请日：2011-09-29

Applicant: 삼성전자주식회사 , 서울대학교산학협력단

Inventor： 엄기완 , 한창우 , 강태균 , 김남수 , 홍두화 , 이재원 , 임형준

IPC: G10L15/02 , G10L15/28

Abstract: (a) 음성인식장치에입력되는제1음성을소정의프레임으로분할하는단계; (b) 상기분할된각각의프레임에변환규칙을적용하여상기제1음성의프레임을제2음성의프레임으로변환하는단계; 및 (c) 상기음성인식장치가상기변환된제2음성의프레임을인식하는단계를포함하되, 상기 (b) 단계는, 상기제1음성의프레임의이전에위치한프레임들중 적어도하나를반영하여상기제1음성의프레임을상기제2음성의프레임으로변환하는단계를포함하는본 발명의일 실시예에따른음성인식방법이개시된다.

7.

发明授权
가창 음성 생성 방법 및 그에 따른 장치 有权

公开(公告)号：KR101890303B1

公开(公告)日：2018-08-22

申请号：KR1020110096982

申请日：2011-09-26

Applicant: 삼성전자주식회사 , 서울대학교산학협력단

Inventor： 김은경 , 권재성 , 김남수 , 성준식

IPC: G10H1/36

Abstract: 가창음성생성방법에있어서, (a) 일반음성데이터와가창음성데이터를기초로상기일반음성데이터와상기가창음성데이터간의상관관계를나타내는제1변환함수를생성하는단계; (b) 음악정보를상기제1변환함수에반영하여제2변환함수를생성하는단계; 및 (c) 상기제2변환함수를이용하여상기일반음성데이터를변환하여가창음성을생성하는단계를포함하는본 발명의일 실시예에따른가창음성생성방법이개시된다.

8.

发明公开
음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법 审中-实审
Title translation: 用于语音识别的前端处理器，以及使用该语音识别的装置和语音识别方法

公开(公告)号：KR1020120040649A

公开(公告)日：2012-04-27

申请号：KR1020110098935

申请日：2011-09-29

Applicant: 삼성전자주식회사 , 서울대학교산학협력단

Inventor： 엄기완 , 한창우 , 강태균 , 김남수 , 홍두화 , 이재원 , 임형준

IPC: G10L15/02 , G10L15/28

CPC classification number: G10L19/265 , G10L15/02 , G10L15/28

Abstract: PURPOSE: A pre processing device for voice recognition, a device thereof, and a method thereof are provided to convert the voice of a test environment by a linear dynamic system, thereby increasing the recognition rate of the voice recognition device. CONSTITUTION: A voice input unit divides an first input voice to a fixed frame(S10). A voice converting unit applies conversion rules to the frame of the first voice. The voice converting unit converts the frame of the first voice to a frame of a second voice(S20). A recognizing unit identifies verbal meaning by recognizing frames of the second voice(S30).

Abstract translation: 目的：提供一种用于语音识别的预处理装置，其装置及其方法，用于通过线性动态系统转换测试环境的语音，从而增加语音识别装置的识别率。构成：语音输入单元将第一输入语音划分为固定帧（S10）。语音转换单元将转换规则应用于第一语音的帧。语音转换单元将第一语音的帧转换为第二语音的帧（S20）。识别单元通过识别第二语音的帧来识别语言意义（S30）。

9.

发明授权
딥 뉴럴 네트워크를 이용한 음성 인식 방법 및 시스템 有权

公开(公告)号：KR102066264B1

公开(公告)日：2020-01-14

申请号：KR1020180078439

申请日：2018-07-05

Applicant: 서울대학교산학협력단

Inventor： 김남수 , 이강현

IPC: G10L15/16 , G10L15/14 , G10L15/06 , G06N3/08

10.

发明授权
사용자의 HRTF 정보를 이용하여 N채널의 음원을 사용자에 최적화된 바이노럴 음원으로 다운 믹스하는 방법 및 시스템 有权
Title translation: 一种使用用户的HRTF信息将N声道声源下混合到用户优化的双耳声源的方法和系统

公开(公告)号：KR101725952B1

公开(公告)日：2017-04-11

申请号：KR1020150183238

申请日：2015-12-21

Applicant: 서울대학교산학협력단

Inventor： 김남수 , 박경수 , 김정훈 , 천성준

IPC: H04S3/00 , H04R5/033

Abstract: 본발명은사용자의 HRTF 정보를이용하여 N채널의음원을사용자에최적화된바이노럴음원으로다운믹스하는방법에관한것으로서, 보다구체적으로는 (1) 사인스윕신호를 N채널의스피커를통해재생시키고, 상기재생된신호가사용자의양쪽귀에장착된마이크에녹음되는단계(S100), (2) 상기단계 (1)에서녹음된신호로부터양쪽각각의귀마다 N개의사용자 HRTF 정보가추출되는단계(S200), 및 (3) 상기단계 (2)로부터양쪽각각의귀마다추출된 N개의사용자 HRTF 정보와 N채널의원 음원신호가합성되어바이노럴음원이생성되는단계(S300)를포함하는것을그 구성상의특징으로한다. 본발명에서제안하고있는사용자의 HRTF 정보를이용하여 N채널의음원을사용자에최적화된바이노럴음원으로다운믹스하는방법및 시스템에따르면, 사용자의 HRTF 정보를이용하여바이노럴음원을생성함으로써, 사용자의청각특성을반영하여사용자에게최적화된바이노럴음원을만들수 있다.

Abstract translation: 本发明涉及一种使用用户的HRTF信息将N声道声源缩混成用户优化的双耳声源的方法，更具体地，本发明涉及（1）（S100），将再现信号记录到安装在用户两耳上的麦克风;（2）从步骤（1）中记录的信号的两侧提取每个耳朵的N个用户HRTF信息; （3）步骤S300，其中通过合成从步骤（2）提取给两耳的N个用户HRTF信息和N个声道声源信号来生成双耳声源，这是配置的一个特点。根据用于使用本发明提出的HRTF信息将N声道声源缩混成用户优化的双耳声源的方法和系统，使用用户的HRTF信息生成双耳声源通过反映用户的听觉特性，可以为用户制作最优化的双耳声源。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification