Abstract:
본 발명은 외부로부터 오디오 신호를 입력받아 분석하고 합성곱 신경망을 통해 학습하여 주변 환경에 적합한 환경음으로 출력할 수 있도록 하는 합성곱 신경망 기반 환경음 인식 방법 및 시스템에 관한 것이다. 본 발명에 따른 합성곱 신경망 기반 환경음 인식 시스템은, 오디오 신호를 입력받아 멀티레졸루션 단시간 푸리에 변환(Multi-resolution STFT)과 멜프리퀀시 필터뱅크 변환 및 로그 변환을 통해 멀티레졸루션 로그 멜스펙트로그램을 획득하는 멀티레졸루션 분석부; 상기 멀티레졸루션 로그 멜스펙트로그램을 입력받아 합성곱 연산 및 풀링 연산을 실행하여 환경음 라벨 데이터를 출력하는 합성곱 신경망 모듈부를 포함할 수 있다.
Abstract:
전자 장치 및 이의 제어 방법이 개시된다. 본 개시의 전자 장치는 적어도 하나의 인스트럭션을 저장하는 메모리 및 메모리와 연결되어 전자 장치를 제어하는 프로세서를 포함하고, 프로세서는 상기 적어도 하나의 인스트럭션을 실행함으로써, 영상 및 상기 영상에 대한 질문을 제1 모델에 입력하여 영상에 포함된 복수의 키 프레임에 대한 제1 특징 데이터 및 복수의 키 프레임과 관련된 제1 가중치를 획득하고, 영상에 대한 텍스트 및 영상에 대한 질문을 제2 모델에 입력하여 텍스트에 대한 제2 특징 데이터 및 텍스트와 관련된 제2 가중치를 획득하고, 제1 가중치와 제1 특징 데이터를 이용하여 키 프레임 특징 데이터를 획득하고, 제2 가중치와 제2 특징 데이터를 이용하여 텍스트 특징 데이터를 획득하며, 키 프레임 특징 데이터 및 텍스트 특징 데이터를 바탕으로 질문에 대한 답변을 획득할 수 있다.
Abstract:
전자 장치 및 이의 제어 방법이 개시된다. 본 개시의 전자 장치는 적어도 하나의 인스트럭션을 저장하는 메모리 및 메모리와 연결되어 전자 장치를 제어하는 프로세서를 포함하고, 프로세서는 상기 적어도 하나의 인스트럭션을 실행함으로써, 영상 및 상기 영상에 대한 질문을 제1 모델에 입력하여 영상에 포함된 복수의 키 프레임에 대한 제1 특징 데이터 및 복수의 키 프레임과 관련된 제1 가중치를 획득하고, 영상에 대한 텍스트 및 영상에 대한 질문을 제2 모델에 입력하여 텍스트에 대한 제2 특징 데이터 및 텍스트와 관련된 제2 가중치를 획득하고, 제1 가중치와 제1 특징 데이터를 이용하여 키 프레임 특징 데이터를 획득하고, 제2 가중치와 제2 특징 데이터를 이용하여 텍스트 특징 데이터를 획득하며, 키 프레임 특징 데이터 및 텍스트 특징 데이터를 바탕으로 질문에 대한 답변을 획득할 수 있다.
Abstract:
본 발명은 그라운드 트루스 박스내에 있는 제 1 앵커를 스케일링하고 시프트하여 제 2 컨벌루셔널 특징 맵 상에 제 2 앵커를 생성하는 단계: 제 2 컨벌루션에 의하여 제 2 컨벌루셔널 특징 맵을 컨벌루션하여 제 3 컨벌루셔널 특징 맵을 생성하는 단계; 그라운드 투루스 박스와 제 2 단일 앵커의 중첩비율이 기준값 이상인 지 판단하는 단계; 중첩비율이 기준값 이상인 제 2 앵커를 스케일링하고 시프트하여 제 3 앵커를 생성하는 단계; 제 3 앵커에 객체성 점수를 부여하는 단계; 및 객체성 점수가 기준값 이상인 제 3 앵커를 제 3 컨벌루셔널 특징 맵상에 프로포잘로 제안하는 단계를 포함하는 방법을 제공한다.
Abstract:
본 발명은 멀티미디어 콘텐츠 기술자 추출시스템 및 그 방법에 관한 것으로서, 더욱 상세하게는 네트워크를 통해 사용자에게 저장공간을 제공하고, 사용자로부터 대량의 멀티미디어 콘텐츠를 수신하여 저장공간에 업로드하며, 멀티미디어 콘텐츠로부터 기술자(descriptor)를 추출하여 그 정보를 추가로 저장함으로써, 콘텐츠의 검색 및 정렬을 하도록 하는 멀티미디어 콘텐츠 기술자 추출시스템 및 그 방법에 관한 것이다. 본 발명은 멀티미디어 콘텐츠 기술자 추출시스템에 있어서, 웹브라우저를 구비한 적어도 하나 이상의 사용자 단말기와, 사용자 인터페이스를 제공하기 위한 웹사이트를 운용하는 웹 서버와, 수신하는 멀티미디어 콘텐츠를 저장하여 분석하고 내재된 정보를 이용하여 기술자로 추출하며, 기술자를 해당 멀티미디어 콘텐츠에 추가입력하고, 기술자로 해당 멀티미디어 콘텐츠를 검색하여 웹 서버를 통해 사용자 단말기로 제공하는 멀티미디어 사전서비스 서버; 를 포함하는 것을 특징으로 한다. 멀티미디어, 객체 인식, 기술자
Abstract:
PURPOSE: A continuous phoneme recognition method using a semi-Markov model, a system processing the same, and a recording medium are provided to implement continuous phoneme recognition more easily. CONSTITUTION: A phoneme data recognition device of a voice recognition system receives voice (S110). A phoneme data processing device of the voice recognition system analyzes a segment-based phoneme label sequence from the received voice data by using a semi-Markov model and recognizes phonemes (S120). [Reference numerals] (AA) Start; (BB) End; (S110) Receive voice; (S120) Recognize phonemes by analyzing a segment-based phoneme label sequence
Abstract:
본 발명은 여러 음을 가지는 오디오 신호에서 멜로디 추출 방법에 관한 것으로, 해결하고자 하는 기술적 과제는 가요나 오케스트라 같이 여러 음을 가진 음악에서 멜로디 성분만을 추출할 수 있는 방법을 제공하는데 있다. 이를 위해 본 발명은, 여러 음을 가진 오디오 신호가 입력되면, 유동적 길이를 가지는 분석 창을 이용하여 주파수를 분석하는 주파수 분석 단계와, 상기 주파수 분석 단계를 통하여 분석된 여러 음을 가진 오디오 신호에서 하모닉 구조 모델을 이용하여 멜로디 피치 후보들을 추출하는 멜로디 피치 후보 추출 단계 및 상기 멜로디 피치 후보 추출 단계에서 추출된 멜로디 피치 후보들을 연결하여 멜로디 라인을 결정하는 멜로디 라인 결정 단계를 포함하는 것을 특징으로 하는 여러 음을 가진 오디오 신호에서 하모닉 구조 모델과 유동적인 길이를 갖는 분석 창을 이용한 멜로디 추출 방법을 개시한다.
Abstract:
PURPOSE: A method and device for grouping images and a method and device for recognizing images using the same are provided to group the detected image by detecting a facial image among a plurality of input images and considering an image generation process. CONSTITUTION: An image detecting unit(1100) detects facial images among a plurality of external images and generates image generation information. An image grouping processor(1200) calculates similarity matrix from the plurality of facial images and generates a grouping graph based on a first object function and a second object function. The grouping graph is composed of a plurality of image groups.
Abstract:
PURPOSE: A method and apparatus for content-based image retrieval are provided to increase the accuracy of searching for images by searching for a specific region of an image based on the content of an image and extracting a characteristic vector from the specific region. CONSTITUTION: If a search image is inputted, the search image is decoded and decompressed(S2). The size of the decoded search image is normalized to a certain size(S3). The specific region brighter or darker than surroundings is extracted by searching the normalized search image(S4). The fingerprint vector of the specific region is extracted(S5). The fingerprint vector is compared with the fingerprint vector of the image saved in the video information database, and the similar fingerprint vectors are matched each other. The similarity is identified based on the rate of the matched fingerprint vectors(S6).
Abstract:
PURPOSE: A method and a device for providing a web-storage service storing multimedia content and metadata by dividing the content and the data are provided to use metadata corresponding to content by storing multimedia content of a user in storing-place on a network. CONSTITUTION: A content management unit(102) gives a content identifier to a multimedia content of a user terminal. The content management unit links metadata related to multimedia content with a contents identifier. According to a search condition of a user terminal, content search unit(105) extracts specific content identifier from a metadata database(104). A user interface unit(106) provides content corresponding to the extracted content identifier to a user terminal.