Abstract:
A method and a device for searching a media file through extracting a partial keyword enable a user easily to search the media file with fragmented information of the media file without inputting correct information of the desired media file by extracting the object name from the media file, generating the partial keyword, and searching the media file with the partial keyword. An object name extracting module(503) extracts the object name from the media file. A word space recovering module(506) recovers word space of the extracted object name. A partial keyword extracting module(509) generates the partial keyword from the restored object name. A media file searching module(513) searches the media file by using the partial keyword. A media file database(501) stores the media files. An information collecting module(502) collects the information related to the media file from the media file database. The object name extracting module extracts the object name by using the collecting information. The information collecting module collects more than one of a file name, a folder name, a playlist name, and an ID3(Iterative Dichotomiser 3) tag.
Abstract:
본 발명은 숫자음 인식방법에 관한 것이다. 본 발명에 따른 가변길이의 연결숫자음 인식방법은 소정의 방법으로 좌우에 인접한 숫자음과 연음여부에 따라 다르게 발음되는 숫자음을 구별하여 세분화된 숫자음에 대한 음향모델과 언어모델을 생성하는 (a) 단계와, 가변길이의 연결숫자음을 입력받아 상기 음향모델 및 언어모델을 이용하여 소정의 방법으로 상기 숫자음을 인식하는 (b) 단계를 포함한다. 본 발명에 따른 좌우에 인접한 숫자음 및 연음에 따라 다르게 발음되는 숫자음에 대한 높은 인식율을 가질 수 있다. 음성인식, 연결숫자음, 세분화된 숫자음, 트랜지션 페널티
Abstract:
본 발명은 숫자음 인식방법에 관한 것이다. 본 발명에 따른 가변길이의 연결숫자음 인식방법은 소정의 방법으로 좌우에 인접한 숫자음과 연음여부에 따라 다르게 발음되는 숫자음을 구별하여 세분화된 숫자음에 대한 음향모델과 언어모델을 생성하는 (a) 단계와, 가변길이의 연결숫자음을 입력받아 상기 음향모델 및 언어모델을 이용하여 소정의 방법으로 상기 숫자음을 인식하는 (b) 단계를 포함한다. 본 발명에 따른 좌우에 인접한 숫자음 및 연음에 따라 다르게 발음되는 숫자음에 대한 높은 인식율을 가질 수 있다.
Abstract:
PURPOSE: A speech recognition apparatus of a human response type is provided to get exactly solved indistinct of sound and meaning in speech recognition. CONSTITUTION: A speech characteristic extraction part(10) converts an analog speech signal into a digital data and extracts speech characteristics. A model searching part(20) applies a sound model and a language model into the extracted speech characteristics and produces one more sentences considered for recognition. A sentence unit indistinct discriminating part(30) discriminates whether to exist indistinct in a sentence unit among the sentences considered for recognition. An indistinct section extract part extracts an indistinct section of the sentences. A question producing part(50) generates questions for canceling the extracted indistinct section. A user response processing part(60) analyzes user responses and extracts response corresponding to the indistinct section so as to cancel the indistinct of the sentences.
Abstract:
본 발명은 음성 인식 장치 및 방법에 관한 것으로서, 본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 장치는, 사전 구축된 글로벌 언어 모델 데이터베이스와 발음 사전 데이터베이스 및 음향 모델 데이터베이스를 참조하여, 입력 음성 신호로부터 검출된 특징 벡터와 유사한 단어열을 생성하는 전방향 탐색(Forward Search)을 수행하는 전방향 탐색부; 상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 도출되는 주제 영역(Topic Domain)을 검출하는 주제 영역 검출부; 및 상기 검출된 주제 영역에 관하여 사전 구축된 특정 주제 영역 언어모델 데이터베이스를 참조하여 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하는 역방향 디코딩부를 포함한다. 본 발명의 실시예에 따르면, 대화체 문장의 인식률(Accuracy)과 효율성(Efficiency)을 향상시킬 수 있는 효과가 있다. 전방향 탐색, 역방향 디코딩, 훈련 코퍼스, 언어 모델
Abstract:
본 발명은 메모리에 저장된 어휘 중에서 입력된 음성에 가장 가까운 어휘를 선택하는 방법 및 장치에 관한 것이다. 본 발명에 따른 어휘 그룹 트리 생성 방법은, 소정의 어휘 그룹에 속하는 어휘들을 대표하는 중심 어휘를 생성하는 제1 단계와, 상기 중심 어휘를 이용하여 어휘 그룹 내에서 어휘간의 거리가 가장 먼 두 개의 어휘를 선택하고 상기 선택된 두 개의 어휘를 기준으로 상기 어휘 그룹을 가리키는 노드를 분할하는 제2 단계와, 상기 분할된 노드를 포함하는 현재 단말 노드 중에서 그룹 유사도가 낮은 노드를 선택하고 상기 선택된 노드가 가리키는 어휘 그룹에 대하여 상기 제1 단계 및 상기 제2 단계를 반복하는 제3 단계로 이루어진다. 음성 인식, 어휘 그룹(lexicon group), 중심 어휘(centroid lexicon), 노드, 어휘 그룹 트리
Abstract:
프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 따른 프레임의 신뢰도를 측정하여 음성을 인식하는 방법은 수신한 음성 신호를 소정 길이의 프레임별로 주파수 특징을 구하는 단계, 상기 프레임에 대한 키워드 모델의 우도와 상기 프레임에 대한 필러 모델의 우도를 산출하는 단계, 상기 산출한 두 종류의 우도로 신뢰성 점수를 산출하는 단계 및 상기 신뢰성 점수로 상기 수신한 음성 신호가 핵심어 또는 비핵심어인지 판단하는 단계를 포함한다. 음성인식, 프레임(frame), 신뢰도, 우도(likelihood), 왜도(skewness)
Abstract:
양방향 N-그램 언어모델 추정방법 및 이를 이용한 연속 음성인식방법 및 장치가 개시된다. 양방향 N-그램 언어모델을 이용한 연속 음성인식방법은 (a) 학습용 텍스트 데이터베이스의 학습용 문장들에서의 단어열에 대한 발생빈도 데이타를 이용하여 연산되어진 단어열들의 전방향 N-그램 발생확률 데이터 및 역방향 N-그램 발생확률 데이터를 생성하고, 상기 전방향 N-그램 발생확률 데이터 및 역방향 N-그램 발생확률 데이터를 결합하여 생성된 양방향 언어모델 확률데이터를 갖는 양방향 언어모델 데이터베이스를 구축하는 단계; (b) 입력되는 음성으로부터 인식에 유용한 정보들을 추출하여 특징벡터로 변환하는 단계; 및 (c) 상기 음향모델 데이터베이스, 상기 발음사전 데이터베이스 및 상기 양방향 언어모델 데이터베이스를 참조하여 상기 특징추출부에서 변환된 특징벡터와 유사할 확률이 가장 높은 단어열을 탐색하고, 탐색된 단어열을 인식된 텍스트로서 출력하는 단계로 이루어진다. 이에 따르면, 탐색과정에 있어서 어순의 전방향 및 후방향 의존성 및 언어 고유의 구조적 특성을 반영할 수 있어 음성인식 성능을 향상시킬 수 있을 뿐 아니라 음성인식의 신뢰도를 대폭 증대시킬 수 있다.
Abstract:
PURPOSE: A sorted parameter estimation method and a device in a MAP speaker adaptive condition and a voice recognizing method and a device including thereof are provided to adjust an initial model and a prior density parameter so that the sort error for learning data is minimized on the basis of a minimum sort error learning way, thereby enhancing the reliability of the initial model and prior density parameter. CONSTITUTION: Adaptation data are sorted from learning data for respective speaker. Then, A speaker independent model parameter adapted from the adaptation data for respective speakers is obtained using the initial values of the parameters. next, a plurality of candidate sentences are searched for respective learning sentences of the learning data using the adapted speaker independent model parameter, and then the error extents for respective candidate sentences are measured to calculate the differential values of the adapted speaker independent model parameter. Finally, if performed for the learning data of all speakers, the initial setting parameters are adjusted on the basis of the calculated differential values.