Abstract:
An apparatus for post-processing conversation errors by using the multi-level verification in a voice conversation system and a method therefor are provided to recognize various conversation errors which can be generated in the conversation system, through the verification of multi-level type. A voice recognition part(50) extracts the feature vector of a voice signal and performs the voice recognition. A language analysis part(120) linguistically analyzes the user's utterance and outputs the language analysis result. A conversation analysis part(130) grasps the detailed meaning of the user's utterance based on the previous utterance and outputs the conversation analysis result. A conversation analysis and management part(140) analyzes the meaning of the user's utterance by referring to the flow of the whole conversation and outputs the analyzed result.
Abstract:
An information search method based on ontology is provided to narrow the range of a media list provided as an information search result using a facet such that a user easily finds desired information to solve an information overload problem. At least one selectable facet in which data is searched is displayed(101). The data corresponding to the facet is searched and selected according to an ontology method(107). The facet is displayed in a tree structure from the upper concept to the lower concept. The facet includes media, people, time, places, events and categories.
Abstract:
A knowledge normalization method for managing a knowledgebase and device thereof are provided to prevent performance degradation owing to disagreement between knowledge stored in the knowledgebase and a keyword used for searching the knowledge by normalizing the knowledge when an information extraction result is stored to the knowledgebase or the knowledge is searched from the knowledgebase. A memory part(210) stores normalization modes according to an attribute of an input character string and a normalization table(211) storing priority. A normalization controller(220) performs the normalization suitable for the attribute of the input character string based on information stored in the normalization table. A normalizer(230) normalizes the inputted character string by control of the normalization controller. The memory part includes a thesaurus(212), an abbreviation dictionary database(213), a sound different mark dictionary database(214), a pattern rule database(215), and a similar character string dictionary database(216). The normalizer includes a thesaurus-based normalizer(231), a dictionary-based normalizer(232), a rule-based normalizer(233), and a similar character string-based normalizer(234).
Abstract:
A method and a device for extracting a correct answer in a Q/A(question/answer) system are provided to improve performance of the Q/A system by constructing various heterogeneous distributed information sources and extracting the desired answer from the information source storing the most suitable answer to the information need of the user through various correct answer extracting techniques. A language analyzer(130) linguistically analyzes a sentence of a target document(110) or a question sentence(120) of the user. A heterogeneous correct answer indexer(150) constructs the heterogeneous distributed information sources(140) by indexing the correct answer through various correct answer indexing techniques according to the sentence of the target document or the question sentence of the user. A multi-correct answer extractor(160) extracts the most suitable candidate answers to the information need of the user from the information sources through the correct answer extracting techniques. A correct answer manager(170) infers the extracted candidate answers according to the information need of the user, and integrates and presents the correct answers to the user.
Abstract:
본 발명은 질의 응답 시스템을 위한 한국어의 정답유형을 인식하도록 하는 하이브리드 정답유형 인식 장치 및 방법에 관한 것이다. 이와 같은 본 발명은 입력 텍스트의 형태소를 분석하는 형태소 분석부와, 상기 형태소 분석부에서 분석된 형태소 리스트 각각에 대해 일정 크기의 음절을 추출하여 그 추출된 음절을 기반으로 하여 정답 유형을 인식하는 음절 기반 정답 유형 인식부와, 상기 각 형태소 리스트의 구성 형태소별 해당 자질을 할당하여 그 해당 자질을 인식하는 어휘 자질 인식부와, 상기 어휘 자질 인식부에서 인식된 하나 이상의 자질을 갖는 형태소들에 대하여 어휘 자질 중의성을 해소하는 어휘 자질 중의성 해소부와, 상기 형태소들의 연속된 나열과 형태소에 연결된 구성 자질들의 연속된 나열을 기 구축된 패턴 규칙들과 비교하여 정답 유형을 인식하는 패턴 규칙 기반 정답 유형 인식부와, 상기 형태소들의 연속된 나열과 형태소에 연결된 구성 자질들의 연속된 나열에 통계 모델을 적용하여 정답 유형을 인식하는 통계 기반 정답 유형 인식부와, 상기 통계 기반 정답 유형 인식부에서 대분류로 인식된 정답 유형에 대한 정답 유형 세부 범주를 인식하는 정답 유형 세부 범주 인식부로 구성된다. 정답 유형 인식, 하이브리드 정답유형 인식, 통계기반 정답유형 인식, 규칙기반 정답유형 인식, 개체명 인식, 하이브리드 개체명 인식, 질의응답
Abstract:
본 발명은 다양한 문서들에 대한 언어분석을 통해 정답후보 어휘나 구들을 선별하고 이와 관련된 자연어 질문을 자동 생성하여 그 질문/정답 쌍들을 미리 색인 저장함으로써, 사용자 질의시 질문의 유사도 비교를 통해 질의에 대한 양질의 정답후보들을 순위적으로 빠르게 제시하는 언어분석 기반 질의응답 시스템 및 그 방법에 관한 것이다. 본 발명은 문서들의 언어적 구조를 분석하여 문서의 정답유형 및 의미구조를 파악하는 단계; 문서에서 정답 후보문을 선정하는 단계; 정답유형 및 의미구조를 기반으로 정답 후보문에 대한 자연어 질문을 생성하는 단계; 생성된 자연어 질문과 그 정답 후보문을 쌍으로 하여 데이터베이스화하는 단계; 사용자 질의문에 대해 언어구조를 분석하여 적합한 정답유형을 인식하고 그 질의문 의미구조를 파악하는 단계; 사용자 질의문의 내용을 분석하는 단계; 질문분석 결과를 바탕으로 질문/정답쌍 데이터베이스로부터 유사한 자연어 질문들을 검색하는 단계; 및 검색된 자연어 질문들 및 그 정답 후보문을 순위화하여 사용자에게 제시하는 단계로 이루어진다. 정답유형, 질의응답, 자연어 질문, 언어분석, 온톨로지, 개체명 인식
Abstract:
본 발명은 한국어의 언어 및 발음 특성에 따라 각 음운변이 현상에 대한 규칙들을 작성하고, 이를 이용하여 입력 외래어와 동일의미를 갖는 다수의 이형태 음차표기들을 제공함으로써 정보검색, 질의응답시스템 등에서 그 검색 및 응답 성능의 향상을 도모할 수 있는 외래어 음차표기 자동 확장 방법 및 장치에 관한 것이다. 본 발명은 외래어 음차표기 시의 각 음운변이 현상에 대한 규칙들을 생성하고, 각 음운변이 규칙에 대한 가중치를 산출하는 단계; 입력 외래어를 자모의 음소단위로 분할하는 단계; 입력 외래어의 음소열에 해당되는 음운변이 규칙들을 적용하여 다수의 음차표기 후보 음소열들을 생성하는 단계; 각 음차표기 후보 음소열에 그 적용 규칙에 따른 가중치를 부여하여 상위 가중치의 후보 음소열들을 선정 출력하는 단계; 및 선정된 음차표기 후보 음소열에 대한 그 자모의 음소를 합성하여 확장된 외래어 음차표기들을 출력하는 단계;로 이루어진다. 음차표기, 정보검색, 질의응답시스템, 음운변이 규칙, 동음가 테이블, 음운 축약/확장, 음운 대체, 음운 강약, 음운 삽입/탈락
Abstract:
본 발명은 토픽맵을 기반으로 사용자 질문에 대한 답변을 검색하는 기법에 관한 것으로, 이를 위하여 본 발명은, FAQ(Frequently Asked Questions) 리스트 검색과 대화형 DB 검색을 통합적으로 수행하거나, 신뢰도에 따라 커뮤니티를 검색하거나, FAQ 웹 페이지들을 사용해서 자연어 질문에 대해 답변을 검색하는 종래 방법과는 달리, 커뮤니티 Q/A 리스트들을 토픽맵 기반으로 커뮤니티 Q/A 토픽맵으로 저장해 두고, 사용자 질문이 입력되면 사용자 질문에 대한 전처리 및 분석 과정을 통해 질문 분석 정보를 획득하며, 이러한 질문 분석 정보에 따라 커뮤니티 Q/A 토픽맵에서 유사 질문들을 검색하여 이를 순위화하여 그에 대응하는 정답을 추출 및 출력함으로써, 토픽맵 기반의 커뮤니티 Q/A 토픽맵을 이용하여 정확한 답변을 검색할 수 있는 것이다. 토픽맵(Topic Map), 커뮤니티 Q/A(Question/Answer) 리스트
Abstract:
본 발명은 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 기술에 관한 것으로, 블로그 문서 집합에서 문서의 제목, 문서의 사용자 태그 및 문서 본문을 분석하여 이슈 키워드 추출부에서 문서 집합 안에서 이슈가 된 키워드를 추출하고 추출된 키워드 간에 공기하는 빈도 및 공기한 태그 정보를 이용하여 키워드 간의 연관성을 파악하고, 연관어 네트워크 구성부에서 연관 네트워크에 대한 정보를 키워드 추출부에서 추출된 키워드와 함께 키워드 및 연관 네트워크 색인 데이터에 저장한다. 또한, 사용자가 처음 이 데이터에 접근하면, 가장 이슈가 된 순서대로 키워드 리스트를 제공하고 사용자 요구가 있을 경우 키워드 및 연관어 네트워크 제시부에서 사용자가 요구한 키워드 및 이와 관련된 색인 정보를 키워드 및 연관어 네트워크 색인 데이터에 실시간으로 접근한 후, 연관어 네트워크를 구성하여 결과를 제시하는 것을 특징으로 한다. 본 발명에 의하면, 블로그 문서 집합에서 자동으로 이슈가 되는 키워드를 추출하고, 추출된 키워드 간의 연관 네트워크를 구성하여 각 문서별로 정확한 키워드를 나타낼 수 있으며, 특정 기간에 수집된 블로그 문서 집합에 대해서 사용자는 모든 문서를 탐색해 보지 않더라도 자주 쓰인 이슈 키워드의 순위와 이와 연관된 키워드를 네트워크 형태로 시각적으로 쉽게 접근하게 되어 블로그 문서 집합의 내용을 쉽게 알 수 있다. 블로그, 이슈 키워드, 연관어 네트워크, 태그