-
公开(公告)号:KR101095866B1
公开(公告)日:2011-12-21
申请号:KR1020080125436
申请日:2008-12-10
Applicant: 한국전자통신연구원
Abstract: 본 발명은 정보검색, 질의응답, 시맨틱 웹(semantic web) 등에서 튜플(tuple) 또는 트리플(triple) 형태의 정보를 인덱싱(indexing)하여 저장하고 검색하는 기술에 관한 것이다. 이를 위해 본 발명은, 인덱싱의 대상이 되는 문서로부터 형태소 분석, 명사구 청킹(chunking) 등을 수행하고, 언어분석 결과를 입력받아 사람, 장소, 조직 등의 개체명을 인식하며, 문장으로부터 주어와 목적어를 인식하고 주어와 목적어의 관계를 추출하고, 추출된 정보들을 트리플 인덱스에 인코딩하여 저장하며, 사용자의 키워드 또는 자연어질의를 분석하여 개체명 및 관계추출 정보를 분석하는 것을 특징으로 한다. 본 발명으로 인해, 시맨틱 웹 및 정보검색 분야에서 튜플 또는 트리플 형태의 정보를 효율적으로 저장하고 빠르게 검색할 수 있다.
정보검색, 질의응답, 시맨틱 웹, 온톨로지(Ontology), 튜플, 트리플, 색인저장 하부구조-
公开(公告)号:KR1020110064833A
公开(公告)日:2011-06-15
申请号:KR1020090121578
申请日:2009-12-09
Applicant: 한국전자통신연구원
CPC classification number: G06F17/30958
Abstract: PURPOSE: A knowledge graph purifying apparatus and method are provided to eliminate a duplicate entity and simplify the structure of a knowledge graph. CONSTITUTION: A knowledge graph generating unit(110) creates a knowledge graph. In the knowledge graph, the same entities are expressed as one node. An entity similarity calculator(120) calculates meaningful similarity between all possible entity pairs of the same entity type. A same entity integrating unit(130) selects a representative entity in the entity pair. The same entity integrating unit merges the rest entities to the representative entity.
Abstract translation: 目的:提供一种知识图提纯装置和方法,以消除重复的实体并简化知识图的结构。 构成:知识图生成单元(110)创建知识图。 在知识图中,相同的实体表示为一个节点。 实体相似度计算器(120)计算相同实体类型的所有可能实体对之间的有意义的相似性。 相同的实体集成单元(130)选择实体对中的代表实体。 同一实体整合单元将其余实体合并到代表实体。
-
公开(公告)号:KR1020110061229A
公开(公告)日:2011-06-09
申请号:KR1020090117819
申请日:2009-12-01
Applicant: 한국전자통신연구원
CPC classification number: G06F17/2735 , G06F17/278 , G06F17/30731
Abstract: PURPOSE: A system and method for semi-automatic construction of acronym dictionary is provided to improve the language analysis performance by semi-automatically finding an abbreviation word and an original word of the abbreviation word. CONSTITUTION: Some parts of an electronic document are extracted(S210). A proper noun which is included in the electronic document is acknowledged(S220). An abbreviation word about a proper noun candidate is extracted(S230). The abbreviation word candidates are listed in priority order(S240). An abbreviation word is selected(S250). The selected abbreviation word is stored into an abbreviation dictionary database.
Abstract translation: 目的:提供半自动构建首字母缩写词典的系统和方法,通过半自动找到缩写词的缩写词和原始词来提高语言分析性能。 规定:提取电子文档的某些部分(S210)。 电子文档中包含的专有名词被确认(S220)。 提取关于专名候选人的缩写词(S230)。 缩写词候选者以优先顺序列出(S240)。 选择缩写词(S250)。 所选择的缩写词被存储在缩写字典数据库中。
-
公开(公告)号:KR1020110040147A
公开(公告)日:2011-04-20
申请号:KR1020090097306
申请日:2009-10-13
Applicant: 한국전자통신연구원
CPC classification number: G06F17/30654
Abstract: PURPOSE: An apparatus for answering to a question based on answer trustworthiness and a method thereof are provided to evaluate the reliability for the correct answer candidates to a user query in score and reflect the scored reliability to the correct answer priority in order to provide a user with a reliable correct answer. CONSTITUTION: A correct answer indexing unit(20) indexes the documents of which document reliability satisfies a critical value, and stores the indexed documents in a knowledge storage unit. A correct answer candidate extraction unit(40) extracts the correct answer candidate documents for the user query from the knowledge storage unit. A correct answer source reliability measurement unit(53) analyzes a non-textual feature of the correct answer candidate documents in order to measure source reliability. A correct answer extraction strategy reliability measurement unit(55) analyzes the validity of the extraction strategy of the correct answer candidate documents to measure the extraction strategy reliability.
Abstract translation: 目的:提供一种基于应答可信赖性回答问题的方法及其方法,以评估用户查询的正确答案候选人的得分可靠性,并将得分可靠性反映到正确答案优先级,以提供用户 有一个可靠的正确答案。 构成:正确答案索引单元(20)对文件的可靠性满足临界值的文档进行索引,并将索引的文档存储在知识存储单元中。 正确答案候选提取单元(40)从知识存储单元提取用于用户查询的正确答案候选文档。 正确答案源可靠性测量单元(53)分析正确答案候选文件的非文本特征以便测量源可靠性。 正确答案提取策略可靠性测度单元(55)分析正确答案候选文件的提取策略的有效性,以测量提取策略的可靠性。
-
公开(公告)号:KR1020100068964A
公开(公告)日:2010-06-24
申请号:KR1020080127490
申请日:2008-12-15
Applicant: 한국전자통신연구원
IPC: G06F17/30
CPC classification number: G06F17/30867 , G06F17/3053 , G06F17/30536 , G06F17/30887
Abstract: PURPOSE: An apparatus for recommending related query and a method thereof are provided to use a click log of a search engine thereby suggesting related query language correlating with inputted initial query language. CONSTITUTION: An information extraction unit(112) extracts a plurality of each different query languages, URL(Uniform Resource Locator) information selected by the query languages and time information selected each URL reference to a click log. An index unit(116) calculates relation between the URL and the query language and generates click log index data. If the query language is inputted, a server controller(110) searches related URL and query language reference to the click log index data and classifies the related query language by a category and recommends a related query language having correlation with the query language relatively.
Abstract translation: 目的:提供一种用于推荐相关查询的装置及其方法,以使用搜索引擎的点击日志,从而建议与输入的初始查询语言相关的相关查询语言。 构成:信息提取单元(112)提取多个每个不同的查询语言,由查询语言选择的URL(统一资源定位符)信息和选择每个URL引用的时间信息到点击日志。 索引单元(116)计算URL和查询语言之间的关系,并生成点击日志索引数据。 如果输入了查询语言,则服务器控制器(110)搜索相关的URL和查询语言参考点击日志索引数据,并按类别对相关查询语言进行分类,并推荐与查询语言相关的相关查询语言。
-
公开(公告)号:KR1020100066920A
公开(公告)日:2010-06-18
申请号:KR1020080125438
申请日:2008-12-10
Applicant: 한국전자통신연구원
CPC classification number: G06F17/30011 , G06F17/30613 , G06F17/30705
Abstract: PURPOSE: An electronic document processing device and a method thereof are provided to determine duplicated document according to duplicate sentence rate of electronic document and reduce target electronic document effectively, thereby increasing efficiency of query response. CONSTITUTION: A sentence separation block(106) separates each sentence in extracted body content. A duplicated document decision block(108) changes the separated documents through hash algorithm to inherent hash value. According to collision between the changed hash value and pre-stored hash value, the duplicated document decision block determines duplicated sentence. The duplicated document decision block determines duplicated document according to duplicated document ratio of the electronic document.
Abstract translation: 目的:提供电子文件处理装置及其方法,根据电子文件的重复句子率确定重复的文件,有效减少目标电子文件,从而提高查询响应的效率。 构成:句子分离块(106)分离提取的身体内容中的每个句子。 复制文档决策块(108)通过散列算法将分离的文档改变为固有散列值。 根据改变的哈希值和预先存储的哈希值之间的冲突,复制的文档决定块确定重复的句子。 复制的文档决定块根据电子文档的重复文档比例确定重复的文档。
-
公开(公告)号:KR100920267B1
公开(公告)日:2009-10-05
申请号:KR1020070094047
申请日:2007-09-17
Applicant: 한국전자통신연구원
Abstract: 본 발명에 따른 음성 대화 분석 시스템은 음성 대화 시스템에서 빈번히 발생할 수 있는 생략어나 대용어를 통계적 방법 및 규칙 기반 오류 후처리에 의해서 자동으로 인식하여 복원하여줌으로써, 사용자 확인 절차를 간소화시켜 사용자 편의성을 높이고 사용자의 간단한 발화에 시스템이 지능적으로 대처할 수 있게 한다.
음성, 대화, 분석, 생략어, 대용어, 복원-
公开(公告)号:KR100881334B1
公开(公告)日:2009-02-02
申请号:KR1020070119262
申请日:2007-11-21
Applicant: 한국전자통신연구원
IPC: H04N21/45
Abstract: 본 발명은 사용자 요구에 따라 정보를 제공하기 위한 장치 및 방법에 관한 것으로서, 보다 상세하게는 사용자로부터 수신한 대화형 입력에 기반하여 사용자의 요구를 분석하고 이에 대응하는 정보를 제공하는 대화형 정보 제공 서비스 장치 및 방법에 관한 것이다. 본 발명에 따른 대화형 정보 제공 서비스 장치는 사용자로부터 수신된 입력문을 분석하는 대화문 분석부; 상기 대화문분석부의 분석결과를 이용하여 상기 사용자의 요구를 분석하는 대화 관리부; 상기 대화관리부로부터 실시간 정보 갱신요청이 있는 경우, 웹상에 갱신되는 일상생활 정보를 실시간으로 추출하여 일상정보 데이터베이스에 저장하는 실시간 자동 지식 구축부; 상기 대화관리부에서 분석된 상기 사용자의 요구에 대한 응답을 생성하고 사용자에게 응답을 제공하는 응답 생성부; 및 상기 사용자의 요구에 응답이 불가능한 경우 또는 상기 사용자의 요구에 대한 응답에 오류가 있는 경우, 상기 사용자로 하여금 상기 사용자의 요구를 취소할 수 있도록 하고 시스템을 복원하는 예외 처리부로 구성된다. 본 발명은 대화형 입력에 기반하여 사용자의 요구를 분석하고 이에 대응하는 정보를 제공함으로써, 사용자가 편리하게 필요한 정보를 획득하도록 할 수 있다.
음성대화 시스템, 대화관리, 실시간 지식 구축, 예외처리, 오류복원-
公开(公告)号:KR100852174B1
公开(公告)日:2008-08-13
申请号:KR1020070014774
申请日:2007-02-13
Applicant: 한국전자통신연구원
IPC: G06F17/30
Abstract: 본 발명은 계층적 분류에 의한 정보 표시 장치에서 정보를 표시하는 방법에 있어서,적어도 2개의 미리 결정된 온톨로지(Ontology) 의미 구조 클래스(Class)에 상응하는 제1 분류 기준이 선택되는 단계, 상기 선택된 각각의 제1 분류 기준에 상응하는 정보를 검색하는 단계, 상기 검색된 정보를 상기 제1 분류 기준의 하위 온톨로지(Ontology) 의미 구조 클래스(Class)인 제2 분류 기준에 상응하여 분류하는 단계, 상기 적어도 2개의 제1 분류 기준을 각각 한 축으로 하고 상기 제2 분류 기준을 축의 성분으로 하는 행렬을 생성하는 단계, 상기 성분이 선택되면 상기 성분에 상응하는 적어도 2개의 제2 분류기준을 각각 한 축으로 하고 상기 제2 분류 기준의 하위 온톨로지(Ontology) 의미 구조 클래스(Class)를 축의 성분으로 하는 하위 행렬을 생성하는 단계를 포함하되, 상기 생성된 행렬의 각 원소는 상기 원소의 위치에 상응하는 적어도 2개의 제2 분류 기준에 의해 동시에 분류된 정보를 포함하고, 상기 행렬의 각 원소는 타일바(Tile Bar) 형태로 구성되며, 상기 타일바는 상기 타일바에 상응하는 원소가 포함하는 정보의 양에 따라 각각 상이한 색상을 가지는 것을 특징으로 하는 계층적 분류에 의한 정보 표시 방법을 제공한다.
정보 표시, 계층, 분류, 온톨로지(Ontology)-
公开(公告)号:KR100831055B1
公开(公告)日:2008-05-20
申请号:KR1020060094538
申请日:2006-09-28
Applicant: 한국전자통신연구원
Abstract: 본 발명은 데이터를 검색할 적어도 하나의 선택할 수 있는 구분자(Facet)를 표시하는 단계 및 적어도 하나의 선택된 구분자(Facet)에 상응하여 데이터를 온톨로지(Ontology) 방식에 의해 검색하고 선택하는 단계를 포함하되, 구분자는 상위 개념부터 하위 개념까지 트리 구조로 표시되는 것을 특징으로 하는 온톨로지 기반의 정보 검색 방법을 제공할 수 있다.
온톨로지(Ontology), 정보 검색
-
-
-
-
-
-
-
-
-