KR102235568B1 - Environment sound recognition method based on convolutional neural networks, and system thereof

    公开(公告)号:KR102235568B1

    公开(公告)日:2021-04-05

    申请号:KR1020190032038A

    申请日:2019-03-20

    Inventor: 유창동 박현신

    CPC classification number: G10L15/16 G10L13/02 G10L15/063

    Abstract: 본 발명은 외부로부터 오디오 신호를 입력받아 분석하고 합성곱 신경망을 통해 학습하여 주변 환경에 적합한 환경음으로 출력할 수 있도록 하는 합성곱 신경망 기반 환경음 인식 방법 및 시스템에 관한 것이다.
    본 발명에 따른 합성곱 신경망 기반 환경음 인식 시스템은, 오디오 신호를 입력받아 멀티레졸루션 단시간 푸리에 변환(Multi-resolution STFT)과 멜프리퀀시 필터뱅크 변환 및 로그 변환을 통해 멀티레졸루션 로그 멜스펙트로그램을 획득하는 멀티레졸루션 분석부; 상기 멀티레졸루션 로그 멜스펙트로그램을 입력받아 합성곱 연산 및 풀링 연산을 실행하여 환경음 라벨 데이터를 출력하는 합성곱 신경망 모듈부를 포함할 수 있다.

    KR20210029080A - Electronic device and Method for controlling the electronic device

    公开(公告)号:KR20210029080A

    公开(公告)日:2021-03-15

    申请号:KR1020200086048A

    申请日:2020-07-13

    CPC classification number: G06N3/004 G06N3/08

    Abstract: 전자 장치 및 이의 제어 방법이 개시된다. 본 개시의 전자 장치는 적어도 하나의 인스트럭션을 저장하는 메모리 및 메모리와 연결되어 전자 장치를 제어하는 프로세서를 포함하고, 프로세서는 상기 적어도 하나의 인스트럭션을 실행함으로써, 영상 및 상기 영상에 대한 질문을 제1 모델에 입력하여 영상에 포함된 복수의 키 프레임에 대한 제1 특징 데이터 및 복수의 키 프레임과 관련된 제1 가중치를 획득하고, 영상에 대한 텍스트 및 영상에 대한 질문을 제2 모델에 입력하여 텍스트에 대한 제2 특징 데이터 및 텍스트와 관련된 제2 가중치를 획득하고, 제1 가중치와 제1 특징 데이터를 이용하여 키 프레임 특징 데이터를 획득하고, 제2 가중치와 제2 특징 데이터를 이용하여 텍스트 특징 데이터를 획득하며, 키 프레임 특징 데이터 및 텍스트 특징 데이터를 바탕으로 질문에 대한 답변을 획득할 수 있다.

    전자 장치 및 이의 제어 방법
    3.
    发明申请

    公开(公告)号:WO2021045434A1

    公开(公告)日:2021-03-11

    申请号:PCT/KR2020/011387

    申请日:2020-08-26

    Abstract: 전자 장치 및 이의 제어 방법이 개시된다. 본 개시의 전자 장치는 적어도 하나의 인스트럭션을 저장하는 메모리 및 메모리와 연결되어 전자 장치를 제어하는 프로세서를 포함하고, 프로세서는 상기 적어도 하나의 인스트럭션을 실행함으로써, 영상 및 상기 영상에 대한 질문을 제1 모델에 입력하여 영상에 포함된 복수의 키 프레임에 대한 제1 특징 데이터 및 복수의 키 프레임과 관련된 제1 가중치를 획득하고, 영상에 대한 텍스트 및 영상에 대한 질문을 제2 모델에 입력하여 텍스트에 대한 제2 특징 데이터 및 텍스트와 관련된 제2 가중치를 획득하고, 제1 가중치와 제1 특징 데이터를 이용하여 키 프레임 특징 데이터를 획득하고, 제2 가중치와 제2 특징 데이터를 이용하여 텍스트 특징 데이터를 획득하며, 키 프레임 특징 데이터 및 텍스트 특징 데이터를 바탕으로 질문에 대한 답변을 획득할 수 있다.

    이미지의 객체 감지 및 분류 방법 및 시스템

    公开(公告)号:WO2022045429A1

    公开(公告)日:2022-03-03

    申请号:PCT/KR2020/012450

    申请日:2020-09-15

    Abstract: 본 발명은 그라운드 트루스 박스내에 있는 제 1 앵커를 스케일링하고 시프트하여 제 2 컨벌루셔널 특징 맵 상에 제 2 앵커를 생성하는 단계: 제 2 컨벌루션에 의하여 제 2 컨벌루셔널 특징 맵을 컨벌루션하여 제 3 컨벌루셔널 특징 맵을 생성하는 단계; 그라운드 투루스 박스와 제 2 단일 앵커의 중첩비율이 기준값 이상인 지 판단하는 단계; 중첩비율이 기준값 이상인 제 2 앵커를 스케일링하고 시프트하여 제 3 앵커를 생성하는 단계; 제 3 앵커에 객체성 점수를 부여하는 단계; 및 객체성 점수가 기준값 이상인 제 3 앵커를 제 3 컨벌루셔널 특징 맵상에 프로포잘로 제안하는 단계를 포함하는 방법을 제공한다.

    멀티미디어 콘텐츠 기술자 추출시스템 및 그 방법
    5.
    发明授权
    멀티미디어 콘텐츠 기술자 추출시스템 및 그 방법 有权
    用于提取多媒体内容描述符的系统及其方法

    公开(公告)号:KR101333064B1

    公开(公告)日:2013-11-27

    申请号:KR1020090075392

    申请日:2009-08-14

    Inventor: 유창동 김일영

    Abstract: 본 발명은 멀티미디어 콘텐츠 기술자 추출시스템 및 그 방법에 관한 것으로서, 더욱 상세하게는 네트워크를 통해 사용자에게 저장공간을 제공하고, 사용자로부터 대량의 멀티미디어 콘텐츠를 수신하여 저장공간에 업로드하며, 멀티미디어 콘텐츠로부터 기술자(descriptor)를 추출하여 그 정보를 추가로 저장함으로써, 콘텐츠의 검색 및 정렬을 하도록 하는 멀티미디어 콘텐츠 기술자 추출시스템 및 그 방법에 관한 것이다.
    본 발명은 멀티미디어 콘텐츠 기술자 추출시스템에 있어서, 웹브라우저를 구비한 적어도 하나 이상의 사용자 단말기와, 사용자 인터페이스를 제공하기 위한 웹사이트를 운용하는 웹 서버와, 수신하는 멀티미디어 콘텐츠를 저장하여 분석하고 내재된 정보를 이용하여 기술자로 추출하며, 기술자를 해당 멀티미디어 콘텐츠에 추가입력하고, 기술자로 해당 멀티미디어 콘텐츠를 검색하여 웹 서버를 통해 사용자 단말기로 제공하는 멀티미디어 사전서비스 서버; 를 포함하는 것을 특징으로 한다.
    멀티미디어, 객체 인식, 기술자

    준-마르코프 모델을 이용한 연속 음소 인식 방법, 이를 처리하는 시스템 및 기록매체
    6.
    发明公开
    준-마르코프 모델을 이용한 연속 음소 인식 방법, 이를 처리하는 시스템 및 기록매체 有权
    使用半标记模型的连续电话识别方法,系统处理方法和记录介质

    公开(公告)号:KR1020130085813A

    公开(公告)日:2013-07-30

    申请号:KR1020120006898

    申请日:2012-01-20

    Inventor: 유창동 김성웅

    CPC classification number: G10L15/148 G10L2015/025

    Abstract: PURPOSE: A continuous phoneme recognition method using a semi-Markov model, a system processing the same, and a recording medium are provided to implement continuous phoneme recognition more easily. CONSTITUTION: A phoneme data recognition device of a voice recognition system receives voice (S110). A phoneme data processing device of the voice recognition system analyzes a segment-based phoneme label sequence from the received voice data by using a semi-Markov model and recognizes phonemes (S120). [Reference numerals] (AA) Start; (BB) End; (S110) Receive voice; (S120) Recognize phonemes by analyzing a segment-based phoneme label sequence

    Abstract translation: 目的:提供使用半马尔可夫模型,系统处理相同的连续音素识别方法和记录介质,以更容易地实现连续的音素识别。 构成:语音识别系统的音素数据识别装置接收语音(S110)。 语音识别系统的音素数据处理装置利用半马尔科夫模型从接收到的语音数据中分析基于片段的音素标签序列并识别音素(S120)。 (附图标记)(AA)开始; (BB)结束; (S110)接收语音; (S120)通过分析基于段的音素标签序列识别音素

    여러 음을 가진 오디오 신호에서 하모닉 구조 모델과 유동적인 길이를 갖는 분석 창을 이용한 멜로디 추출 방법 및 시스템
    7.
    发明授权
    여러 음을 가진 오디오 신호에서 하모닉 구조 모델과 유동적인 길이를 갖는 분석 창을 이용한 멜로디 추출 방법 및 시스템 失效
    通过使用谐波结构模型和可变长度窗口来提取复音音乐的装置和方法

    公开(公告)号:KR101106185B1

    公开(公告)日:2012-01-20

    申请号:KR1020100004695

    申请日:2010-01-19

    Abstract: 본 발명은 여러 음을 가지는 오디오 신호에서 멜로디 추출 방법에 관한 것으로, 해결하고자 하는 기술적 과제는 가요나 오케스트라 같이 여러 음을 가진 음악에서 멜로디 성분만을 추출할 수 있는 방법을 제공하는데 있다.
    이를 위해 본 발명은, 여러 음을 가진 오디오 신호가 입력되면, 유동적 길이를 가지는 분석 창을 이용하여 주파수를 분석하는 주파수 분석 단계와,
    상기 주파수 분석 단계를 통하여 분석된 여러 음을 가진 오디오 신호에서 하모닉 구조 모델을 이용하여 멜로디 피치 후보들을 추출하는 멜로디 피치 후보 추출 단계 및 상기 멜로디 피치 후보 추출 단계에서 추출된 멜로디 피치 후보들을 연결하여 멜로디 라인을 결정하는 멜로디 라인 결정 단계를 포함하는 것을 특징으로 하는 여러 음을 가진 오디오 신호에서 하모닉 구조 모델과 유동적인 길이를 갖는 분석 창을 이용한 멜로디 추출 방법을 개시한다.

    이미지 군집화 방법과 장치 및 이를 이용한 이미지 인식 방법과 장치
    8.
    发明授权
    이미지 군집화 방법과 장치 및 이를 이용한 이미지 인식 방법과 장치 失效
    聚类图像的方法和装置以及使用其识别图像的方法和装置

    公开(公告)号:KR101089504B1

    公开(公告)日:2011-12-05

    申请号:KR1020100059038

    申请日:2010-06-22

    CPC classification number: G06K9/00288 G06K9/6234 G06K9/6247 G06T7/41

    Abstract: PURPOSE: A method and device for grouping images and a method and device for recognizing images using the same are provided to group the detected image by detecting a facial image among a plurality of input images and considering an image generation process. CONSTITUTION: An image detecting unit(1100) detects facial images among a plurality of external images and generates image generation information. An image grouping processor(1200) calculates similarity matrix from the plurality of facial images and generates a grouping graph based on a first object function and a second object function. The grouping graph is composed of a plurality of image groups.

    Abstract translation: 目的:提供用于对图像进行分组的方法和装置,以及用于识别使用其的图像的方法和装置,以通过检测多个输入图像中的面部图像并考虑图像生成处理来对检测到的图像进行分组。 构成:图像检测单元(1100)检测多个外部图像之间的面部图像,并生成图像生成信息。 图像分组处理器(1200)计算来自多个面部图像的相似度矩阵,并且基于第一对象函数和第二对象函数生成分组图。 分组图由多个图像组组成。

    크기 변화, 회전, 절삭에 강인한 내용기반 영상 검색 방법 및 장치
    9.
    发明公开
    크기 변화, 회전, 절삭에 강인한 내용기반 영상 검색 방법 및 장치 失效
    用于基于内容的图像检索的方法和装置,其对结合,旋转和编码进行稳定

    公开(公告)号:KR1020110068956A

    公开(公告)日:2011-06-22

    申请号:KR1020110042445

    申请日:2011-05-04

    CPC classification number: G06F17/30784 G06F17/3084

    Abstract: PURPOSE: A method and apparatus for content-based image retrieval are provided to increase the accuracy of searching for images by searching for a specific region of an image based on the content of an image and extracting a characteristic vector from the specific region. CONSTITUTION: If a search image is inputted, the search image is decoded and decompressed(S2). The size of the decoded search image is normalized to a certain size(S3). The specific region brighter or darker than surroundings is extracted by searching the normalized search image(S4). The fingerprint vector of the specific region is extracted(S5). The fingerprint vector is compared with the fingerprint vector of the image saved in the video information database, and the similar fingerprint vectors are matched each other. The similarity is identified based on the rate of the matched fingerprint vectors(S6).

    Abstract translation: 目的:提供一种用于基于内容的图像检索的方法和装置,以通过基于图像的内容搜索图像的特定区域并从特定区域提取特征向量来增加搜索图像的精度。 构成:如果输入了搜索图像,则对搜索图像进行解码和解压缩(S2)。 解码的搜索图像的大小被归一化为一定的大小(S3)。 通过搜索归一化搜索图像来提取比周围更亮或更暗的特定区域(S4)。 提取特定区域的指纹矢量(S5)。 将指纹矢量与保存在视频信息数据库中的图像的指纹矢量进行比较,相似的指纹矢量相互匹配。 基于匹配指纹矢量的速率来识别相似度(S6)。

    멀티미디어 컨텐츠와 메타데이터를 분리하여 저장하는 웹스토리지 서비스 제공방법 및 장치
    10.
    发明公开
    멀티미디어 컨텐츠와 메타데이터를 분리하여 저장하는 웹스토리지 서비스 제공방법 및 장치 有权
    提供WEB存储服务存储多媒体内容和元数据的方法和装置分离

    公开(公告)号:KR1020110024808A

    公开(公告)日:2011-03-09

    申请号:KR1020090082959

    申请日:2009-09-03

    Inventor: 김일영 유창동

    CPC classification number: G06Q50/10 G06F17/30038

    Abstract: PURPOSE: A method and a device for providing a web-storage service storing multimedia content and metadata by dividing the content and the data are provided to use metadata corresponding to content by storing multimedia content of a user in storing-place on a network. CONSTITUTION: A content management unit(102) gives a content identifier to a multimedia content of a user terminal. The content management unit links metadata related to multimedia content with a contents identifier. According to a search condition of a user terminal, content search unit(105) extracts specific content identifier from a metadata database(104). A user interface unit(106) provides content corresponding to the extracted content identifier to a user terminal.

    Abstract translation: 目的:提供通过划分内容和数据来提供存储多媒体内容和元数据的网络存储服务的方法和设备,以通过将用户的多媒体内容存储在网络上的存储位置来使用与内容相对应的元数据。 构成:内容管理单元(102)向用户终端的多媒体内容提供内容标识符。 内容管理单元将与多媒体内容相关的元数据与内容标识符进行链接。 根据用户终端的搜索条件,内容搜索单元(105)从元数据库(104)提取特定内容标识符。 用户接口单元(106)向用户终端提供与所提取的内容标识符相对应的内容。

Patent Agency Ranking