Abstract:
PURPOSE: A face detecting apparatus is provided to maintain the performance of a face recognition technique by using the intensity and the edge of face detection and detect the combination of extracted information by extracting EOH feature information from an integral image. CONSTITUTION: A feature information extractor(110) generates an integral image and an edge image from an input image. The feature information extractor extracts Haar-like feature information from the integral image through previously stored learning data. The feature information extractor extracts EOH(Edge Of Histogram) feature information from the edge image. A face detector(140) detects a face in an adaboost algorithm.
Abstract:
본 발명은 음향 신호 처리 과정 중 음향 신호에 포함된 잡음을 추정하는 장치 및 방법에 관한 것으로, 입력되는 음향 신호 프레임에서 하모닉스 성분을 추정하고, 상기 추정한 하모닉스 성분을 이용하여 상기 음향 신호 프레임 상에서 음성 존재 확률을 계산하고, 상기 음성 존재 확률에 따라잡음 스펙트럼 추정식의 가중치를 결정하고, 상기 결정된 가중치와 잡음 스펙트럼을 추정하고 갱신한다.
Abstract:
PURPOSE: A sound source separation method and a system thereof are provided to separate each voice when two or more voices are inputted at the same time, thereby improving performance of the voice communicator/recognizer. CONSTITUTION: A windowing processing unit covers an integrated voice signal inputted by at least one bean formed microphone array with a window. A DFT(Discrete Fourier Transform) transforming unit(200) changes the signal in which the window is covered into a frequency axis. A TF(Transfer Function) estimating unit(300) estimates a TF with a feature value of two or more different individual voice signal from the signal in which the window is covered. A noise estimating unit(400) removes noises of the individual voice signals from the TF. A voice signal detecting unit(600) extracts the individual voice signals from the noise removed voice signals.
Abstract:
A method and an apparatus for estimating noise by using harmonics of a speech signal are provided to estimate a noise spectrum by determining a weight of a noise spectrum estimation function according to a speech presence probability, thereby expanding a range of the weight and estimating non-stationary noise. Harmonics components are estimated in an inputted sound signal frame(103). A speech presence probability on the sound signal frame is calculated by using the estimated harmonics components(105). A weight of a noise spectrum estimation function is determined according to the speech presence probability(107). A noise spectrum is estimated and updated by using the determined weight and noise spectrum estimation function(109).
Abstract:
본 발명은 실제 잡음 환경의 특성을 반영하여 빔포밍을 수행하기 위한 장치 및 방법에 관한 것이다. 이를 위하여 본 발명은 실제 잡음 환경의 특성을 반영한 빔포밍 장치에 있어서, 적어도 하나의 마이크로폰으로 구성되고, 마이크로폰을 통해 입력되는 입력신호를 출력하는 마이크로폰 어레이와, 입력신호가 입력되면, 입력신호에 대해 각 마이크로폰 간격에 따른 코히런스들을 계산한 후, 동일거리 별로 각각 코히런스들의 평균을 계산하고, 계산된 평균 코히런스들을 필터링 한 후 출력하는 코히런스 함수 생성부, 필터링된 평균 코히런스들을 이용하여 공간필터 계수를 산출하여 출력하는 공간필터 계수 산출부와, 공간필터 계수를 이용하여 입력신호에 대한 빔포밍을 수행하여 잡음 처리된 신호를 출력하는 빔포밍 수행부를 포함하여 구성되는 것을 특징으로 한다. 빔포머, 마이크로폰 어레이, 코히런스
Abstract:
A method for extracting metadata through speech recognition and caption recognition of a video, a video searching method using metadata, and a recording medium recording the same are provided to extract metadata information as a speech recognition result and an opened caption recognition result, reduce archiving work time by manual work, and enable broadcasting manufacturers to manufacture contents of good quality by automatically executing contents management and index work for mass broadcasting data. A method for extracting metadata through speech recognition and caption recognition of a video comprises the following steps of: inputting the video including the metadata, and extracting a start frame and a screen conversion frame of the inputted video(110); displaying the extracted start frame and screen conversion frame as a thumbnail image, and storing the displayed thumbnail image and time information of the thumbnail image(120); recognizing a voice of a speaker according to a phoneme of a voice included in the inputted video, and converting the recognized voice data into text data before extracting a keyword from the converted text data(130); extracting a caption through caption recognition from the inputted video(140); extracting metadata and title from the keyword and caption included in thumbnail images of a start shot, an end shot and between the start shot and the end shot if the start shot and the end shot are designated by a user in the start frame and the screen conversion frame of the displayed video(150); and displaying the extracted metadata, time information of the start shot, time information of the end shot and the title(160).
Abstract:
멀티채널 음성신호의 적응적 잡음제거를 위한 전처리 방법 및 장치가 개시된다. 그 전처리 장치는 멀티음성채널의 각 입력채널별로 매 프레임의 채널신호 평균이득(RMS) 값을 계산하는 평균이득 계산부; 상기 평균이득 계산부에서 계산된 평균이득을 이용하여 상기 멀티채널 간의 상대적인 평균이득비를 계산하는 이득비추정부; 및 상기 이득비 추정부에서 계산된 평균이득비의 역을 이용하여 채널별로 입력신호를 보정하는 이득비역보상부를 포함함을 특징으로 한다. 본 발명에 의하면, 전체 시스템의 잡음 제거 성능을 향상 할 수 있다. 또한 잡음 제거의 모든 과정이 시간 도메인에서 처리되도록 함으로써 매 샘플마다 잡음 추정 과정을 진행할 수 있으며, 실시간적용에 적합한 작은 계산량을 갖는다. 추가로 잘못된 이득 비 추정에 대한 제한을 둠으로써 기존 GSC의 성능을 저해하는 것을 방지한다.