Abstract:
PURPOSE: A meaning representation processing device and a method thereof are provided to interpret a sentence which is available for being generated in a constructed meaning expression group and train an auto translating unit. CONSTITUTION: A meaning expression converting unit(202a) converts a word column of an input voice recognition result in a meaning expression. By referring a previously constructed meaning expression group database(206a), a meaning expression matching unit(204a) searches the converted meaning expression. According to the search result, a meaning expression matching unit determines a final meaning expression. A sentence generating unit(208a) generates the generated final meaning expression into a final sentence.
Abstract:
PURPOSE: A method and an apparatus for automatic classification of sentence corpus are provided to facilitate the guarantee of sentence corpus for each area by re-classifying sentence corpuses of various regions into detailed areas. CONSTITUTION: Au auto area classification apparatus includes a sentence learning unit(100) and a sentence classification unit(200). The sentence learning unit learns training set sentence corpus for each detail area to be classified, and extracts N-gram information of detailed sections. The sentence learning unit converts the N-gram information into weight between the detailed sections, and classifies a test set or classified target sentence corpus to be classified according to the weight.
Abstract:
A method and an apparatus for generating a response message in a speech dialogue system are provided to modify a search result to a natural expression for a user when the search result is provided to the user. An explanation file information database is constructed. When information on a response to a user's inquiry does not exist in a user information database(S408), an information search request message is transmitted to an information search server(S418). When a search result received from the information search service is a nominal form(S412), vocabularies included in the search result are integrated into vocabulary and it is determined whether the integrated vocabulary exists in the explanation file information database. When the integrated vocabulary does not exist in the explanation file information database, the integrated vocabulary is split into vocabularies based on spacing wards. It is determined whether the split vocabularies exist in the explanation file information database. When the split vocabularies exist in the explanation file information database, a response message is generated using explanations respectively corresponding to the vocabularies(S414).
Abstract:
본 발명은 어절 엔-그램(n-gram)을 이용한 띄어쓰기와 철자 교정장치 및 방법에 관한 것으로, 어절 n-gram을 저장하는 어절 n-gram DB; 정제되어 오류가 없는 언어 자료를 입력받아 어절 n-gram을 추출하고, 추출된 어절 n-gram을 어절 n-gram DB에 저장하는 어절 n-gram 구축부; 검증해야 할 대상 언어 자료를 제공받아 언어 자료에 포함된 각 어절을 하나의 심볼로 매핑 처리한 구조로 변경하며, 변경된 어절에 대하여 어절 n-gram DB를 검색하여 동일한 어절이 존재하는지를 검색하는 어절 n-gram 검색 및 검증부; 어절 n-gram 검색 및 검증부에 의해 검증이 되지 않은 어절에 대하여 띄어쓰기와 붙여쓰기 오류 및 오타를 수정하는 띄어쓰기 및 붙여쓰기 오류/오타 수정부; 띄어쓰기 및 붙여쓰기 오류/오타 수정부에 의해 수정된 어절에 대하여 형태소 태깅을 수행하여 확률값이 제일 높은 값을 선택하여 적용하는 통계 기반 품사 태깅 시스템; 대상 언어 자료에 대하여 띄어쓰기 및 붙여쓰기 오류/오타 수정부 및 통계 기반 품사 태깅 시스템에 의해 처리되는 과정을 거치면서 수정이 완료된 대상 언어 자료를 출력하는 수정 문장 출력부를 구비한다. 따라서, 입력된 대상 언어 자료에 대하여 띄어쓰기 오류와 철자 오류를 자동으로 정정할 수 있는 효과가 있다.
Abstract:
PURPOSE: A system and a method for inputting subtitle using a voice recognition device are provided to input subtitle in live broadcasting program through a voice recognition device and a stenographer. CONSTITUTION: A system for inputting subtitle using a voice recognition device includes a voice classification unit(120), a voice recognition unit(130), a subject classification unit(140), a subtitle inputting and correcting unit(150), and a character data transmitter(160). The voice classification unit analyzes frequency components of voice signals output from a TV voice output unit(110) to classify voices. The voice recognition unit recognizes the voice signals to extract character data and calculates the reliability of the character data. The subtitle classification unit extracts a key word using the character data to classify subjects. The subtitle inputting and correcting unit outputs the character data and its reliability, voice classification information and subject information and receives corrected information according to the output data and information to output character data. The character data transmitter receives the corrected character data and transmits the data to a broadcasting server.
Abstract:
본 발명은 동적 정보검색 색인방법에 관한 것으로서, 소정 단어가 선택될 때 해당 단어의 설명이 나타나게 사용자에게 밝게 보이도록 RAW TEXT 화일에서 표제어들을 마크하는 하이퍼 텍스트 색인 과정과, 상기 RAW TEXT 화일을 입력으로 받아서 키워드 사전을 만들고 역색인 화일의 구조로 키워드 인덱스 화일을 자동으로 만드는 자연어 색인 과정을 구비한다. 따라서, 정보들을 컴퓨터에 저장하고 이를 효과적이고 효율적으로 관리할 수 있어 변화하는 데이타에 따른 최신의 정보를 빠른 시간내에 서비스 할 수 있으며, 또한, 정보를 관리하는 정보 검색의 다양한 분야에 효과적으로 활용할 수 있다.
Abstract:
음성인식을 위한 언어모델 생성 장치 및 방법을 공개한다. 본 발명은 음성 인식을 위해 미리 수집된 복수개의 문장이 저장된 문장 코퍼스, 문장 코퍼스로부터 복수개의 문장 중 적어도 하나의 문장을 획득하고, 획득된 문장을 기설정된 인식 단위로 구분하는 인식단위 구분부, 인식단위로 구분된 문장의 구문을 분석하는 구문 분석부, 음성 합성을 위해 기설정된 끊어읽기 규칙을 기초로 설정되는 끊어읽기 규칙이 기저장된 끊어읽기 규칙 데이터베이스, 구문 분석부에 의해 분석된 구문을 이용하여 복수개의 끊어읽기 규칙 중 대응하는 끊어읽기 규칙을 검색하여 획득하고, 획득된 끊어읽기 규칙에 따라 인식단위로 구분된 문장에 기설정된 끊어읽기 표시를 삽입하는 끊어어읽기 삽입부, 언어모델이 저장되는 언어모델 데이터베이스, 및 끊어읽기 삽입부에서 끊어읽기 표시가 삽입된 문장을 수신하여 기설정된 � ��식으로 언어모델로 생성하여 언어모델 데이터베이스에 저장하는 언어모델 생성부를 포함한다.
Abstract:
유사문장 검색장치 및 그 검색방법이 개시된다. 본 발명의 실시예에 따른 유사문장 검색장치는, 사용자로부터 문장을 입력받는 입력부; 말뭉치를 데이터베이스로 저장하는 말뭉치 데이터베이스부; 입력부를 통해 입력된 문장에 대하여 유사도 계산을 위한 언어처리를 수행하는 언어 처리부; 말뭉치 데이터베이스부에 저장된 후보 말뭉치들에 대해 언어 처리부에 의해 언어처리된 문장과의 유사도를 검색하여 유사도가 일정값 이상인 문장을 추출하는 유사도 검색부; 및 유사도 검색부에 의해 추출된 문장이 다수인 경우, 추출된 문장들의 순위를 결정하는 순위 결정부를 포함하는 것을 특징으로 한다.