문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법

    公开(公告)号:KR101060594B1

    公开(公告)日:2011-08-31

    申请号:KR1020080126926

    申请日:2008-12-15

    Abstract: 본 발명은 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 기술에 관한 것으로, 블로그 문서 집합에서 문서의 제목, 문서의 사용자 태그 및 문서 본문을 분석하여 이슈 키워드 추출부에서 문서 집합 안에서 이슈가 된 키워드를 추출하고 추출된 키워드 간에 공기하는 빈도 및 공기한 태그 정보를 이용하여 키워드 간의 연관성을 파악하고, 연관어 네트워크 구성부에서 연관 네트워크에 대한 정보를 키워드 추출부에서 추출된 키워드와 함께 키워드 및 연관 네트워크 색인 데이터에 저장한다. 또한, 사용자가 처음 이 데이터에 접근하면, 가장 이슈가 된 순서대로 키워드 리스트를 제공하고 사용자 요구가 있을 경우 키워드 및 연관어 네트워크 제시부에서 사용자가 요구한 키워드 및 이와 관련된 색인 정보를 키워드 및 연관어 네트워크 색인 데이터에 실시간으로 접근한 후, 연관어 네트워크를 구성하여 결과를 제시하는 것을 특징으로 한다. 본 발명에 의하면, 블로그 문서 집합에서 자동으로 이슈가 되는 키워드를 추출하고, 추출된 키워드 간의 연관 네트워크를 구성하여 각 문서별로 정확한 키워드를 나타낼 수 있으며, 특정 기간에 수집된 블로그 문서 집합에 대해서 사용자는 모든 문서를 탐색해 보지 않더라도 자주 쓰인 이슈 키워드의 순위와 이와 연관된 키워드를 네트워크 형태로 시각적으로 쉽게 접근하게 되어 블로그 문서 집합의 내용을 쉽게 알 수 있다.
    블로그, 이슈 키워드, 연관어 네트워크, 태그

    개체명 사전 구축 시스템 및 구축 방법
    33.
    发明公开
    개체명 사전 구축 시스템 및 구축 방법 有权
    用于构建命名实体字典的系统和方法

    公开(公告)号:KR1020110068137A

    公开(公告)日:2011-06-22

    申请号:KR1020090124980

    申请日:2009-12-15

    CPC classification number: G06F17/30737 G06F17/2735 G06F17/278

    Abstract: PURPOSE: A system and method for constructing named entity dictionary are provided to easily build a named entity dictionary by extracting named entities from a certain type of information included in a web document such as a table or list, and using the named entities. CONSTITUTION: A web document collector (110) collects web documents. An information extractor(130) extracts the table or list type information from the web documents. A name entity extractor(140) extracts the name entities from the table or list type information. The name entity dictionary(160) stores the extracted named entities. An address extractor(120) extracts the address of the web document by analyzing the web document. The web document analyzer transmits the extracted address to the web document collector.

    Abstract translation: 目的:提供一种用于构建命名实体字典的系统和方法,以便通过从包括在诸如表或列表的web文档中的特定类型的信息中提取命名实体并使用命名实体来容易地构建命名实体字典。 规定:网络文档收集器(110)收集网络文档。 信息提取器(130)从web文档中提取表或列表类型信息。 名称实体提取器(140)从表或列表类型信息中提取名称实体。 名称实体字典(160)存储提取的命名实体。 地址提取器(120)通过分析web文档来提取web文档的地址。 Web文档分析器将提取的地址发送到Web文档收集器。

    이형태 자동 구축 방법 및 장치
    34.
    发明公开
    이형태 자동 구축 방법 및 장치 有权
    用于自动寻找同步的方法和装置

    公开(公告)号:KR1020110067258A

    公开(公告)日:2011-06-22

    申请号:KR1020090123772

    申请日:2009-12-14

    CPC classification number: G06F17/30672 G06F17/3064 G06F17/30669

    Abstract: PURPOSE: A method and apparatus for automatically finding synonyms are provided to establish synonyms of keywords based on the statistical information between keywords and the morphological similarity by using large scale web keywords and a click log. CONSTITUTION: An allomorph candidate generator(101) generates allomorph candidates for search keywords by using a keyword log for the search keywords or the user session information. A synonym extracting unit(102) for verification extracts verification synonym from web documents by using synonym patterns. The allomorph generating unit(103) removes over-generated or error candidates from the allomorph candidates and generates allomorphs for the search keywords using the synonym for verification.

    Abstract translation: 目的:提供一种自动查找同义词的方法和装置,通过使用大规模网页关键词和点击日志,基于关键词之间的统计信息和形态相似性,建立关键词的同义词。 构成:变形候选生成器(101)通过使用搜索关键字或用户会话信息的关键字日志为搜索关键字生成候选词。 用于验证的同义词提取单元(102)通过使用同义词模式从web文档中提取验证同义词。 变形生成单元(103)从变形候选中去除过度生成或错误候选,并使用同义词进行验证来生成搜索关键词的变形。

    단일 클래스 범주의 문서 분류 장치 및 방법
    35.
    发明公开
    단일 클래스 범주의 문서 분류 장치 및 방법 无效
    用于分类单个文件类别的装置和方法

    公开(公告)号:KR1020110057421A

    公开(公告)日:2011-06-01

    申请号:KR1020090113822

    申请日:2009-11-24

    Abstract: PURPOSE: A device and method for classifying a document of a single class category are provided to perform exact document classification by using an association rule extracted by an association rule detection method as a quality for document classification. CONSTITUTION: An associative rule training unit(100) generates matrices of qualities from a learning document set to generate an association rule candidate with a depth or widths primary search method. The associative rule training unit generates an associative rule training model from association rules candidates. A document class category classifier(150) uses an association rules learning model to classify a document of a document set.

    Abstract translation: 目的:提供用于分类单个类别的文档的设备和方法,以通过使用由关联规则检测方法提取的关联规则作为文档分类的质量来执行精确的文档分类。 构成:关联规则训练单元(100)从学习文档集合生成质量矩阵以生成具有深度或宽度的主要搜索方法的关联规则候选。 关联规则训练单元从关联规则候选生成关联规则训练模型。 文档类类别分类器(150)使用关联规则学习模型来对文档集合的文档进行分类。

    지역정보 추출을 활용한 웹 정보 가공 장치 및 방법
    36.
    发明公开
    지역정보 추출을 활용한 웹 정보 가공 장치 및 방법 有权
    使用提取本地信息处理网页信息的装置和方法

    公开(公告)号:KR1020100110248A

    公开(公告)日:2010-10-12

    申请号:KR1020090051104

    申请日:2009-06-09

    CPC classification number: G06F17/2705 G06F17/248 G06F17/30917 G06Q50/10

    Abstract: PURPOSE: A device and a method for processing web information by extracting local information are provided to integrate various web information around related regional information to provide processed document data. CONSTITUTION: A major information extracting unit(150) extracts major information including regional information from document data according to a result of language analysis and a selected topic. A related information mapping unit(170) groups and maps the document data. An information integrating unit(180) compares the mapped document data. The information integrating unit integrates the document data according to the comparison result.

    Abstract translation: 目的:提供一种通过提取本地信息来处理网页信息的设备和方法,以将相关区域信息周围的各种网络信息集成以提供处理后的文档数据。 构成:主要信息提取单元(150)根据语言分析的结果和选定的主题从文档数据中提取包括区域信息的主要信息。 相关信息映射单元(170)对文档数据进行分组和映射。 信息整合单元(180)比较所映射的文档数据。 信息积分单元根据比较结果对文档数据进行积分。

    문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법
    37.
    发明公开
    문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법 有权
    关键字提取的设备和方法以及文档数据的相关信息网络配置

    公开(公告)号:KR1020100068532A

    公开(公告)日:2010-06-24

    申请号:KR1020080126926

    申请日:2008-12-15

    CPC classification number: G06F17/30616 G06F17/2755

    Abstract: PURPOSE: A device and a method for keyword extraction and an associative word network configuration of document data are provided to extract automatically issue key word from a Blog document group and constitute an associative network in between extracted key words, thereby showing exact keyword according to each document. CONSTITUTION: An issue keyword extractor(104) parses structure information of a document in an inputted web document group. An issue keyword extractor extracts an issue keyword based on analyzed morpheme. An associative work network configurator(106) extracts relations between extracted issue keywords. An indexing unit(108) indexes extracted issue keywords and configured associated word network. According to a control command, a presentation unit(114) suggests the issue keyword and associated word network information.

    Abstract translation: 目的:提供一种用于文档数据的关键词提取和关联词网络配置的设备和方法,以从Blog文档组中自动提取出关键字,并在提取的关键词之间构成关联网络,从而根据每个关键字显示精确的关键字 文件。 构成:问题关键词提取器(104)解析所输入的web文档组中的文档的结构信息。 问题关键字提取器基于分析的语素提取问题关键字。 关联工作网络配置器(106)提取所提取的问题关键字之间的关系。 索引单元(108)对所提取的问题关键词和配置的相关联的网络进行索引。 根据控制命令,呈现单元(114)提出问题关键字和相关联的网络信息。

    토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법
    38.
    发明公开
    토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법 失效
    基于主题地图的索引设备,基于主题地图的搜索设备,基于主题地图的搜索系统及其方法

    公开(公告)号:KR1020100067175A

    公开(公告)日:2010-06-21

    申请号:KR1020080125622

    申请日:2008-12-11

    CPC classification number: G06F17/30654

    Abstract: PURPOSE: A topic map based indexing device, a topic map based searching device, a topic map based searching system and a method thereof are provided to obtain question analyzing information about question of a user and search similar questions in a community Q/A topic map according to question analyzing information and effectively outputs an answer, thereby searching most suitable answer. CONSTITUTION: A Q/A pre-processing block(102) normalizes the community Q/A list as monolithic. A Q/A analysis block(104) obtains Q/A analyzing information through analyze of the community Q/A list. A Q/A stores block stores indexing information through duplicated answer removal, meaningless answer removal, an answer list sorting, extracting answer of the top order and topic decision according to the Q/A analyzing information as community Q/A topic map.

    Abstract translation: 目的:提供基于主题地图的索引设备,基于主题地图的搜索设备,基于主题地图的搜索系统及其方法,以获取关于用户问题的问题分析信息,并在社区Q / A主题地图中搜索相似的问题 根据问题分析信息,有效地输出答案,从而搜索最合适的答案。 构成:Q / A预处理块(102)将社区Q / A列表标准化为单块。 Q / A分析块(104)通过分析社区Q / A列表获得Q / A分析信息。 Q / A存储通过重复的答案删除,无意义的答案删除,答案列表排序,根据Q / A分析信息提取最佳顺序和主题决定的答案来存储索引信息作为社区Q / A主题图。

    웹 기반의 정보 저장 및 검색 방법, 이를 위한 정보 관리 시스템
    39.
    发明公开
    웹 기반의 정보 저장 및 검색 방법, 이를 위한 정보 관리 시스템 有权
    用于有效信息检索的三重指标和搜索方案

    公开(公告)号:KR1020100066919A

    公开(公告)日:2010-06-18

    申请号:KR1020080125436

    申请日:2008-12-10

    CPC classification number: G06F17/30622 G06F17/274 G06F17/2755 G06F17/277

    Abstract: PURPOSE: A method for storing and searching information based on a web base, and a system for managing of the same are provided to store extracted tupe and triple information to inverse-index structure extracted through high-quality language analysis such as triple/recognizing individual name and relation extraction thereby shortening a search time. CONSTITUTION: A language analysis block(100) performs language analysis of structure/non-structure. An object name recognition block(110) recognizes object name in the document. A triple storage block(130) stores information of extracted tupler type and extracted triple type by expanding reverse index structure. A query analysis block(140) extracts pattern of search information of tuple or triple type search information, after analysis a user query. A triple search block(150) performs search from the inverse-index structure.

    Abstract translation: 目的:提供一种基于网络基础的信息存储和搜索的方法及其管理系统,用于将提取的元组和三重信息存储到通过诸如三重/识别个人之类的高质量语言分析提取的反索引结构中 名称和关系提取,从而缩短搜索时间。 构成:语言分析块(100)执行结构/非结构的语言分析。 对象名称识别块(110)识别文档中的对象名称。 三存储块(130)通过扩展反向索引结构来存储提取的元组类型和提取的三重类型的信息。 在分析用户查询之后,查询分析块(140)提取元组或三重类型搜索信息的搜索信息的模式。 三重搜索块(150)从反索引结构执行搜索。

    멀티미디어 콘텐츠를 검색하는 방법 및 장치
    40.
    发明授权
    멀티미디어 콘텐츠를 검색하는 방법 및 장치 有权
    用于检索多媒体内容的方法和装置

    公开(公告)号:KR100961444B1

    公开(公告)日:2010-06-09

    申请号:KR1020080035896

    申请日:2008-04-18

    Abstract: 본 발명은 MPEG-7로 표현된 멀티미디어 콘텐츠를 검색하기 위한 사용자 질의를 MPEG-7 질의 포맷으로 변환하여 멀티미디어 콘텐츠를 검색하는 방법 및 장치에 관한 것이다. 본 발명에 의한 멀티미디어 콘텐츠 검색 방법은 사용자의 질의를 MPEG-7 문서의 특정 영역을 지시하는 지시자와 상기 지시자를 참조하는 참조자를 이용하여 표현하는 단계와, 상기 지시자와 상기 참조자를 이용하여 표현된 상기 사용자의 질의의 의미를 해석하는 단계와, 상기 해석 결과에 따라 해당 멀티미디어 콘텐츠를 검색하는 단계를 포함한다. 이러한 본 발명에 의하면, MPEG-7 질의 포맷에서 2 이상의 검색 조건이 동일한 구조 내에서 모두 충족된다는 것이나, 또한 서로 다른 MPEG-7 문서를 참조하고 있다는 것을 명시적으로 표현할 수 있다. 또한, 검색 과정에서 사용자 질의의 의미가 정확하게 해석되므로 사용자 질의에 부합하는 멀티미디어 콘텐츠가 정확하게 검색될 수 있다.
    MPEG-7, 질의 포맷, 지시자, 참조자, 멀티미디어 콘텐츠

Patent Agency Ranking