Vorrichtung, Programm und Verfahren zum Clustern einer Vielzahl von Dokumenten

    公开(公告)号:DE112013000966T5

    公开(公告)日:2014-10-30

    申请号:DE112013000966

    申请日:2013-01-11

    Applicant: IBM

    Inventor: INAGAKI TAKESHI

    Abstract: Die vorliegende Erfindung verringert Rechenkosten und stellt eine Vorrichtung bereit, aufweisend einen Auswahlabschnitt zum Auswählen einer Vielzahl von Beispieldokumenten aus einer Vielzahl von Dokumenten, einen ersten Parameter-Erzeugungsabschnitt zum Analysieren der Vielzahl von Beispieldokumenten zum Erzeugen einer Anfangsparametermatrix, die eine Wahrscheinlichkeit ausdrückt, dass jedes einer Vielzahl von in der Vielzahl von Beispieldokumenten enthaltenen Wörtern in jedem einer Vielzahl von Themen enthalten ist, und einen zweiten Parameter-Erzeugungsabschnitt zum Analysieren der Vielzahl von Dokumenten durch Verwenden eines jeden in der Anfangsparametermatrix enthaltenen Wertes als einen Anfangswert zum Erzeugen einer Parametermatrix, die eine Wahrscheinlichkeit ausdrückt, dass jedes einer Vielzahl von in der Vielzahl von Dokumenten enthaltenen Wörtern in jedem einer Vielzahl von Themen enthalten ist.

    ERZEUGEN EINES AUSFÜHRBAREN VERFAHRENS AUS EINER TEXTBESCHREIBUNG, DIE IN EINER NATÜRLICHEN SPRACHE GESCHRIEBEN IST

    公开(公告)号:DE112020003767T5

    公开(公告)日:2022-05-19

    申请号:DE112020003767

    申请日:2020-09-01

    Applicant: IBM

    Abstract: Es werden Verfahren, Vorrichtungen und Produkte zum Erzeugen eines ausführbaren Verfahrens aus einer Textbeschreibung, die in einer natürlichen Sprache geschrieben ist, gemäß der vorliegenden Erfindung beschrieben. Aus einem Textdokument, das in einer natürlichen Sprache geschrieben ist, wird eine Gruppe von Aussagen extrahiert. Auf Grundlage der extrahierten Gruppe von Aussagen wird aus dem Textdokument eine Gruppe von Formeln extrahiert. Anschließend wird ein Zustandsübergangsgraph erzeugt, welcher eine Gruppe von Aussagewert-Bestimmungswegen umfasst, die durch die Gruppe von Formeln beschränkt sind. Der Zustandsübergangsgraph wird in eine Software-Anwendung übersetzt.

    Device, program and method for clustering documents

    公开(公告)号:GB2513255A

    公开(公告)日:2014-10-22

    申请号:GB201409109

    申请日:2013-01-11

    Applicant: IBM

    Inventor: INAGAKI TAKESHI

    Abstract: The present invention provides a device comprising: a selector for selecting sample documents from a plurality of documents to reduce computational costs; a first parameter generating unit for generating an initial parameter matrix indicating the probability of each of a plurality of topics for each of a plurality of words in the sample documents based on an analysis of the sample documents; and a second parameter generating unit for generating a parameter matrix indicating the probability of each of the plurality of topics for each of the plurality of words in the sample documents based on an analysis of the documents using each value in the initial parameter matrix as an initial value.

    Method of searching for document data files based on keywords,and computer system and computer program thereof

    公开(公告)号:GB2488925A

    公开(公告)日:2012-09-12

    申请号:GB201209093

    申请日:2010-09-10

    Applicant: IBM

    Inventor: INAGAKI TAKESHI

    Abstract: Disclosed is a method of searching for document data files based on keywords. The method comprises the steps of calculating a score or probability as a first vector that respective document data files are associated with clusters or classes intended for the clustering or classification of document data files; calculating a score or probability as a second vector in response to keywords entered in searches that either the keywords thus entered or keywords that are related to the keywords thus entered are associated with the clusters or classes; calculating the scalar product of the first vector and the second vector, wherein the scalar product value thus calculated is the score of the document data files with respect to the keywords; and finding the correlation value of document data files containing the respective classification keyword sets and of document data files whose calculated score is either greater than or equal to a prescribed threshold or are included in a higher-order prescribed proportion.

    Method of searching for document data files based on keywords,and computer system and computer program thereof

    公开(公告)号:GB2488925A9

    公开(公告)日:2016-05-11

    申请号:GB201209093

    申请日:2010-09-10

    Applicant: IBM

    Inventor: INAGAKI TAKESHI

    Abstract: Disclosed is a method of searching for document data files based on keywords. The method comprises the steps of calculating a score or probability as a first vector that respective document data files are associated with clusters or classes intended for the clustering or classification of document data files; calculating a score or probability as a second vector in response to keywords entered in searches that either the keywords thus entered or keywords that are related to the keywords thus entered are associated with the clusters or classes; calculating the scalar product of the first vector and the second vector, wherein the scalar product value thus calculated is the score of the document data files with respect to the keywords; and finding the correlation value of document data files containing the respective classification keyword sets and of document data files whose calculated score is either greater than or equal to a prescribed threshold or are included in a higher-order prescribed proportion.

    Verfahren, Computersystem und Computerprogramm zum Durchsuchen von Dokumentdaten unter Verwendung eines Suchbegriffs

    公开(公告)号:DE112010004087T5

    公开(公告)日:2012-10-18

    申请号:DE112010004087

    申请日:2010-09-10

    Applicant: IBM

    Inventor: INAGAKI TAKESHI

    Abstract: Die vorliegende Erfindung stellt ein Verfahren bereit, um eine Korrelation in geeigneter Weise in einem breiteren Kontext zu finden, wenn Dokumentdaten unter Verwendung eines Suchbegriffs durchsucht werden. Die vorliegende Erfindung stellt ein Verfahren zum Durchsuchen von Teilen der Dokumentdaten unter Verwendung eines Suchbegriffs bereit. Das Verfahren enthält die Schritte zum Berechnen entsprechender erster Bewertungszahlen oder entsprechender Wahrscheinlichkeiten, mit denen bzw. dass jeder der Teile der Dokumentdaten zu Clustern oder Klassen gehört, als ein erster Vektor zur Clusterbildung oder Klassifizierung von Teilen der Dokumentdaten, bei einem Eintrag eines Suchbegriffs Berechnen entsprechender zweiter Bewertungszahlen oder entsprechender Wahrscheinlichkeiten, mit denen bzw. dass der Suchbegriff oder ein relevanter Begriff, der mit dem Suchbegriff verbunden ist, zu den Clustern oder Klassen gehört, Berechnen eines inneren Produkts aus jedem der ersten Vektoren und dem zweiten Vektor, wobei das berechnete innere Produkt eine dritte Bewertungszahl des entsprechenden Teils der Dokumentdaten in Bezug auf den Suchbegriff darstellt, und Erhalten eines Korrelationswerts aus Dokumentdaten, die jeden Begriff in einer Klassifikationsbegriffmenge enthalten und Dokumentdaten mit der dritten Bewertungszahl, die gleich einem vorgegebenen Schwellenwert oder größer als dieser ist, oder in einer vorgegebenen hohen Verhältniszahl enthalten ist.

    BACKUP TECHNIQUE OF DATA RECORDED IN TWO OR MORE RECORDING DEVICES

    公开(公告)号:JP2004005066A

    公开(公告)日:2004-01-08

    申请号:JP2002158247

    申请日:2002-05-30

    Applicant: IBM

    Abstract: PROBLEM TO BE SOLVED: To provide a backup device for properly updating replicated data. SOLUTION: This backup device 300 for recording the replicate of original data stored in a plurality of storage devices 110A-D as replicated data comprises a written data storage part 132 for receiving and storing written data to be written to the original data; and an updating part 134 for updating the replicated data with the written data when receiving update permitting information for permitting the update of the replicated data with the written data from the outside. COPYRIGHT: (C)2004,JPO

    Multi-information recording method and multi- information recording system employing magnetic recording disk unit
    8.
    发明专利
    Multi-information recording method and multi- information recording system employing magnetic recording disk unit 有权
    使用磁记录盘单元的多信息记录方法和多信息记录系统

    公开(公告)号:JP2003272296A

    公开(公告)日:2003-09-26

    申请号:JP2002071742

    申请日:2002-03-15

    Inventor: INAGAKI TAKESHI

    Abstract: PROBLEM TO BE SOLVED: To provide an information recording method and an information recording system realizing elimination of need for extra seek time even when a disk unit is used for a long time.
    SOLUTION: The system employs at least two magnetic disk units 51, 61 as a primary storage section 42 and a secondary storage section 43, the primary storage section 42, when an information write request is received, disregards write control information included in the received information and performs writing successively to a recording area of a storage track adjacent to an inner circumferential side or an outer circumferential side when using all of recording areas of one storage track, and when the primary storage section 42 performs no processing by a write request and a read request, the received information including the control information is read from the primary storage section 42 and write is performed to the secondary storage section 43 on the basis of the control information.
    COPYRIGHT: (C)2003,JPO

    Abstract translation: 解决的问题:提供一种信息记录方法和信息记录系统,即使长时间使用盘单元,也能够实现消除额外寻道时间的需要。 解决方案:系统采用至少两个磁盘单元51,61作为主存储部分42和辅助存储部分43,主存储部分42在接收到信息写入请求时忽略包含在其中的写入控制信息 接收到的信息并且当使用一个存储轨道的所有记录区域时,连续写入与内周侧或外周侧相邻的存储轨道的记录区域,并且当主存储部42不执行通过写入的处理 请求和读取请求,从主存储部分42读取包括控制信息的接收信息,并根据控制信息对次级存储部分43进行写入。 版权所有(C)2003,JPO

    Processing method for time-series analysis of keyword, processing system and computer program thereof
    9.
    发明专利
    Processing method for time-series analysis of keyword, processing system and computer program thereof 有权
    关键词时间序列分析处理方法,处理系统及其计算机程序

    公开(公告)号:JP2011141801A

    公开(公告)日:2011-07-21

    申请号:JP2010002852

    申请日:2010-01-08

    Inventor: INAGAKI TAKESHI

    CPC classification number: G06F17/30705

    Abstract: PROBLEM TO BE SOLVED: To provide a method for efficiently finding the comprehensive trend of keywords.
    SOLUTION: A processing method for the time-series analysis of the keyword is provided. The method includes: a step of clustering or classifying document data, which is the description of a phenomenon in natural language, on the basis of the appearance frequencies of the keyword in the document data and also clustering or classifying individual keywords by clustering or classifying the document data; and a step of performing the time-series analysis, for the appearance frequencies of document data including the individual keywords within the cluster or classes obtained by clustering or classifying the document data, or for the appearance frequencies of document data including the cluster or classes obtained by clustering or classifying the individual keywords. Frequency distribution, showing variation in the appearance frequencies of the document data, can be obtained by the time-series analysis.
    COPYRIGHT: (C)2011,JPO&INPIT

    Abstract translation: 要解决的问题:提供一种有效地找到关键词综合趋势的方法。 解决方案:提供关键字的时间序列分析的处理方法。 该方法包括:基于文档数据中的关键字的出现频率,对自然语言中的现象的描述进行聚类或分类的文档数据的步骤,并且通过聚类或分类各个关键词来聚类或分类 文件数据; 以及对包括集群内的各个关键字的文档数据的出现频率或者通过对文档数据进行聚类或分类而获得的类别的文档数据的出现频率,或对于包含所获得的集群或类别的文档数据的出现频率,执行时间序列分析的步骤 通过对各个关键字进行聚类或分类。 可以通过时间序列分析来获得显示文档数据的出现频率变化的频率分布。 版权所有(C)2011,JPO&INPIT

    Apparatus and method of controlling storage device
    10.
    发明专利
    Apparatus and method of controlling storage device 有权
    控制存储设备的装置和方法

    公开(公告)号:JP2009086838A

    公开(公告)日:2009-04-23

    申请号:JP2007253430

    申请日:2007-09-28

    Abstract: PROBLEM TO BE SOLVED: To determine a storage area, among multiple storage areas, which meets a predetermined requirement to be a target for access. SOLUTION: In a controller 20 for controlling a multi-hierarchical storage subsystem, the following components operate under the control of a file write unit 21 and a file read unit 22. First, a list acquiring unit 23 acquires a list of tiers that can meet file access requirements. A requisite energy calculating unit 24 calculates an additional energy amount necessary to satisfy file access requirements for each tier, and an allowable energy calculating unit 25 calculates an additional energy amount allowable for access, and a path acquiring unit 26 acquires a path to a tier to be accessed based on the energy amounts. An identifier acquiring unit 27 acquires a file identifier, and an access point generating unit 28 generates a file access point based on the path and the file identifier. COPYRIGHT: (C)2009,JPO&INPIT

    Abstract translation: 要解决的问题:确定满足作为访问目标的预定要求的多个存储区域中的存储区域。 解决方案:在用于控制多层次存储子系统的控制器20中,以下组件在文件写入单元21和文件读取单元22的控制下操作。首先,列表获取单元23获取层级列表 这可以满足文件访问要求。 所需能量计算单元24计算满足每层的文件访问要求所需的附加能量,并且容许能量计算单元25计算允许访问的附加能量,路径获取单元26获取到 基于能量量进行访问。 标识符获取单元27获取文件标识符,并且接入点生成单元28基于路径和文件标识符生成文件接入点。 版权所有(C)2009,JPO&INPIT

Patent Agency Ranking