Patent search ap:("고려대학교 산학협력단") AND inv:"육동석" Page 1

1.

发明申请
오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 审中-公开
Title translation: 使用音频和视频信息检测空间速度分段的方法和设备

公开(公告)号：WO2010098546A2

公开(公告)日：2010-09-02

申请号：PCT/KR2010/000833

申请日：2010-02-10

Applicant: 고려대학교 산학협력단 , 육동석 , 이협우

Inventor： 육동석 , 이협우

IPC: G10L21/00 , G10L17/00

CPC classification number: G10L25/78 , G10L17/00 , G10L2021/02166

Abstract: 본 발명은 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치에 관한 것으로, 본 발명의 일 실시 예에 따른 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법은 마이크로폰 어레이에 입력된 오디오 신호에서 음성 구간을 검출하는 단계; 상기 검출된 음성 구간에서 화자 검증을 수행하는 단계; 상기 화자 검증에 성공한 경우, 카메라에 입력된 비디오 신호를 이용하여 화자의 얼굴을 검출하고 상기 화자의 얼굴 방향을 추정하는 단계; 및 상기 추정된 얼굴 방향이 미리 저장된 기준 방향과 일치하면, 상기 검출된 음성 구간을 상기 화자의 음성 구간으로 판단하는 단계를 포함한다.

Abstract translation:
本发明中，使用音频和根据本发明的一个实施例的视频信息的时空语音区间检测方法涉及使用所述音频和视频信息的空时语音区间检测方法和装置是麦克风阵列检测输入到音频输入单元的音频信号中的音频间隔; 对检测到的语音间隔进行说话者验证; 还包括：如果说话者验证成功，使用视频信号输入到相机并估计说话者的面部方向检测面部的扬声器; 并且如果估计的面部方向与先前存储的参考方向一致，则将检测到的语音区间确定为说话者的语音区间。

2.

发明授权
사용자 인증 방법 有权

公开(公告)号：KR102009106B1

公开(公告)日：2019-08-08

申请号：KR1020180003953

申请日：2018-01-11

Applicant: 고려대학교 산학협력단

Inventor： 육동석 , 유인철

IPC: G06F21/32 , G06F16/00 , G06K9/00

3.

发明授权
검색 공간 클러스터링 방법을 이용한 실시간ＳＲＰ-ＰＨＡＴ 음원 위치 탐색 시스템 및 제어방법 有权
Title translation: 实时SRP-PHAT声源定位系统和控制方法采用搜索空间聚类方法

公开(公告)号：KR101442172B1

公开(公告)日：2014-09-18

申请号：KR1020080044666

申请日：2008-05-14

Applicant: 삼성전자주식회사 , 고려대학교 산학협력단

Inventor： 김현수 , 육동석 , 조영규 , 최우진

IPC: G10L25/78 , G10L21/0272

Abstract: 본 발명에 따른 검색 공간 클러스터링 방법을 이용한 실시간 SRP-PHAT 음원 위치 탐색 시스템은 지연시간이 동일한 블록을 클러스터링한 중심 좌표 정보가 저장된 룩업 테이블; 및 기 설정된 블록으로 구분된 임의의 위치로부터 음원 신호가 적어도 하나 이상의 마이크로폰을 통해 수신되면, 상기 룩업 테이블을 확인하여 기 저장된 중심 좌표 정보에 해당하는 위치에서의 신호 출력들을 계산하여 최대 신호 출력 지점을 검색하는 제어부를 포함하는 것으로 검색 후보의 수가 줄어들음에 따라 시스템을 실시간으로 적용할 수 있는 이점이 있다.

4.

发明授权
최대 우도 선형 스펙트럴 변환을 이용한 음향 모델 적응 방법 및 그 장치, 잡음 음성 모델을 이용한 음성 인식 방법및 그 장치 有权

公开(公告)号：KR101047104B1

公开(公告)日：2011-07-07

申请号：KR1020090025891

申请日：2009-03-26

Applicant: 고려대학교 산학협력단

Inventor： 육동석 , 김동현 , 이협우

IPC: G10L15/06 , G10L15/28 , G10L15/14

Abstract: 본 발명은 최대 우도 선형 스펙트럴 변환을 이용한 음향 모델 적응 방법에 관한 것으로서 입력 음성에서 선형 스펙트럼 데이터 및 캡스트럼 데이터를 추출하는 단계; 클린 음향 모델과 상기 캡스트럼 데이터를 이용하여 가우시안 점유 확률을 추정하는 단계; 상기 가우시안 점유 확률, 상기 선형 스펙트럼 데이터 및 상기 클린 음향 모델을 선형 스펙트럼 도메인으로 변환한 음향 모델을 이용하여 잡음 매개 변수를 추정하는 단계; 및 상기 잡음 매개 변수를 이용하여 잡음 음성 모델을 생성하는 단계를 포함하는 것을 특징으로 하며, 잡음 매개변수를 추정하는 과정에서 재귀 연산을 하지 않고 닫힌 연산 추정법을 적용하여 계산 비용을 줄일 수 있고, 음향 모델 적응이나 인식 과정의 실시간성을 향상시킬 수 있다.

5.

发明授权
음성과 음악을 구분하는 방법 및 장치 有权
Title translation: 用于语音和音乐辨别的方法和装置

公开(公告)号：KR101041037B1

公开(公告)日：2011-06-14

申请号：KR1020090017109

申请日：2009-02-27

Applicant: 고려대학교 산학협력단

Inventor： 육동석 , 양경철

IPC: G10L25/81 , G10L25/00

Abstract: 본 발명은 음성과 음악을 구분하는 방법에 관한 것으로, 본 발명의 일 실시 예에 따른 음성과 음악을 구분하는 방법은 입력되는 신호에서 일정 구간 마다 피크 주파수 변화량의 평균을 산출하는 단계; 및 상기 피크 주파수 변화량이 임계값 이상이면 상기 신호를 음성으로 분류하고, 상기 피크 주파수 변화량이 임계값 미만이면 상기 신호를 음악으로 분류하는 단계를 포함한다. 본 발명에 의하면, 음성과 음악을 구분함에 있어서 빠른 응답을 유지하면서도 높은 성능을 구현할 수 있는 효과가 있다.

6.

发明公开
스펙트럼 피크를 이용한 음향 인식 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 失效
Title translation: 用于使用光谱峰值的声音识别的系统和方法以及用于测量使用的声光谱相似性的方法

公开(公告)号：KR1020100112957A

公开(公告)日：2010-10-20

申请号：KR1020090031511

申请日：2009-04-10

Applicant: 고려대학교 산학협력단

Inventor： 육동석 , 유인철

IPC: G10L15/20 , G10L15/02 , G10L21/02 , G10L15/06

Abstract: PURPOSE: A sound spectrum similarity measurement system and a method thereof and a sound recognition system for easily applying resource restriction are provided to supply stable recognition rate by matching two sounds. CONSTITUTION: A sound registering unit(210) registers recognition object sound by acquiring peak band. A feature peak detector extracts a peak which is larger than threshold to the feature peak. A feature information generating unit stores the feature information in a storage(250). A spectrum analysis unit(240) varies the recognizing subject acoustic signal through the frequency analysis into the spectrum vector.

Abstract translation: 目的：提供一种声光谱相似度测量系统及其方法和用于容易应用资源限制的声音识别系统，以通过匹配两个声音来提供稳定的识别率。声明注册单元（210）通过获取峰值频带来登记识别对象声音。特征峰检测器提取大于阈值的峰到特征峰。特征信息生成单元将特征信息存储在存储部（250）中。频谱分析单元（240）通过频率分析将识别对象声信号变换为频谱矢量。

7.

发明授权
병렬 처리를 이용한 음원 위치 추정 장치 및 방법 有权
Title translation: 使用并行处理的声源定位的装置和方法

公开(公告)号：KR101217492B1

公开(公告)日：2013-01-02

申请号：KR1020120001530

申请日：2012-01-05

Applicant: 고려대학교 산학협력단

Inventor： 육동석 , 이태우

IPC: G01S3/80

Abstract: PURPOSE: Apparatus for locating a sound source using a parallel processing through an accelerating processor such as a graphic processing unit and a method for the same are provided to reduce time to locate a sound source despite a number of calculations and locate the sound source in real time. CONSTITUTION: A sound source location processing unit obtains delayed arrival time for which a sound wave generated by a sound source arrives at a pair of microphones(610). The sound source location processing unit divides input signals of the microphones into the number of microphone channels and calculates cross correlation about each of the divided signals in parallel(620). The sound source location processing unit refers to the obtained delayed arrival time and the correlation and generates SRP(Steered Response Power) energy maps about all candidate coordinates in parallel(630). The sound source location processing unit selects a candidate coordinate having maximum SRP in the generated energy map as a sound source direction(640). [Reference numerals] (610) Obtaining delayed arrival time for which a sound wave generated by a sound source arrives at a pair of microphones; (620) Calculating cross correlation about each of the divided signals in parallel, dividing signals inputted to a microphone as the number of channels; (630) Generating SRP energy maps about all candidate coordinates in parallel by referring to delayed arrival time and cross correlation; (640) Selecting a candidate coordinate having maximum SRP in the generated energy map as a sound source direction; (AA) Start; (BB) End

Abstract translation: 目的：提供用于通过诸如图形处理单元等加速处理器的并行处理来定位声源的设备及其方法，以尽可能多的计算来减少定位声源的时间，并将声源定位时间。构成：声源位置处理单元获得由声源产生的声波到达一对麦克风（610）的延迟到达时间。声源位置处理单元将麦克风的输入信号分成麦克风通道数，并且并行地计算关于每个分割信号的互相关（620）。声源位置处理单元参考获得的延迟到达时间和相关性并且并行地生成关于所有候选坐标的SRP（转向响应能量）能量图（630）。声源位置处理单元选择所生成的能量图中具有最大SRP的候选坐标作为声源方向（640）。（附图标记）（610）获得由声源产生的声波到达一对麦克风的延迟到达时间; （620）并行地计算每个分割信号的互相关，将输入到麦克风的信号划分为通道数; （630）参考延迟到达时间和互相关，并行生成关于所有候选坐标的SRP能量图; （640）在所生成的能量图中选择具有最大SRP的候选坐标作为声源方向; （AA）开始; （BB）结束

8.

发明授权
모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 失效
Title translation: 使用元音特征进行语音活动检测的系统和方法，以及用于测量与之相关的声谱相似性的方法

公开(公告)号：KR101022519B1

公开(公告)日：2011-03-16

申请号：KR1020090033531

申请日：2009-04-17

Applicant: 고려대학교 산학협력단

Inventor： 육동석 , 유인철

IPC: G10L15/08 , G10L25/84 , G10L15/20 , G10L25/03

Abstract: 본 발명은 음성 인식을 위한 음성구간 검출 기술에 관한 것으로서, 본 발명에 따른 모음 특징을 이용한 음성구간 검출 시스템은 모음의 스펙트럼에서 특징 피크가 위치한 피크 대역을 나타내는 모음특징정보를 저장하는 모음특징 저장부; 및 입력 음향의 스펙트럼에서 상기 저장된 모음특징정보가 나타내는 피크 대역에 대응하는 대응 대역 및 상기 대응 대역을 제외한 비대응 대역의 평균에너지를 이용하여 상기 입력 음향이 음성에 해당하는지를 판단함으로써 음성구간을 검출하는 음성구간 검출부를 포함하는 것을 특징으로 하여, 다양한 잡음 환경 및 SNR 하에서 음성구간 검출 성능을 개선함은 물론, 연산량을 감소시켜 음성 인식 시스템의 에너지 효율을 개선하는 이점을 제공한다.

9.

发明授权
스펙트럼 피크를 이용한 음향 인식 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 失效
Title translation: 用于使用光谱峰的声音识别的系统和方法，以及用于测量使用其的声谱相似度的方法

公开(公告)号：KR101022516B1

公开(公告)日：2011-03-16

申请号：KR1020090031511

申请日：2009-04-10

Applicant: 고려대학교 산학협력단

Inventor： 육동석 , 유인철

IPC: G10L15/20 , G10L15/02 , G10L21/02 , G10L15/06

Abstract: 본 발명은 음향 인식 기술에 관한 것으로서, 본 발명에 따른 스펙트럼 피크를 이용한 음향 인식 시스템은, 인식대상 음향의 스펙트럼에서 특징 피크가 위치한 피크 대역을 획득하여 상기 인식대상 음향을 등록하는 음향 등록부; 및 입력 음향의 스펙트럼에서 상기 등록 음향의 상기 피크 대역에 대응하는 대응 대역 및 상기 대응 대역을 제외한 비대응 대역의 평균에너지를 이용하여 상기 입력 음향을 상기 등록 음향으로 인식하거나 인식 거부하는 음향 인식부를 포함하는 것을 특징으로 하여, 잡음 환경에서 단일 음향 및 다중 음향에 대한 인식률을 개선함은 물론, 연산량을 감소시키는 이점을 제공한다.

10.

发明公开
고속 화자 인식 방법 및 장치, 고속 화자 인식을 위한 등록방법 및 장치 有权
Title translation: 用于快速声音识别和注册的方法和装置

公开(公告)号：KR1020100098007A

公开(公告)日：2010-09-06

申请号：KR1020090016954

申请日：2009-02-27

Applicant: 고려대학교 산학협력단

Inventor： 육동석 , 조영규

IPC: G10L17/16 , G10L17/04 , G10L15/18

Abstract: PURPOSE: A method and a device for recognizing high speed speaker, registering method and a device thereof are provided to rapidly adapting a speaker model with a few adaption data in a mobile terminal. CONSTITUTION: A parameter of a subspace distribution clustering hidden Markov model is transformed into hidden Markov models(610). The hidden Markov model is transformed into a linear spectrum domain(630). By using maximum likelihood linear spectral transform, the hidden Markov model of a linear spectrum domain is adapted to a speaker(640).

Abstract translation: 目的：提供一种用于识别高速扬声器，注册方法及其装置的方法和装置，用于在移动终端中使用少量适配数据快速调整扬声器模型。构成：将子空间分布聚类隐马尔可夫模型的参数转化为隐马尔可夫模型（610）。隐马尔可夫模型被转换成线性谱域（630）。通过使用最大似然线性频谱变换，线性频域的隐马尔可夫模型适用于扬声器（640）。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification