Abfragen und Integrieren strukturierter und unstrukturierter Daten

    公开(公告)号:DE102013209868A1

    公开(公告)日:2013-12-12

    申请号:DE102013209868

    申请日:2013-05-28

    Applicant: IBM

    Abstract: Ein mittels Computer realisiertes Verfahren, System und ein mittels Computer realisierter Herstellungsgegenstand zum Abfragen und Integrieren strukturierter und unstrukturierter Daten. Das Verfahren weist auf: Empfangen von Objektinformationen, die unter Verwendung eines domänenunabhängigen Systems zur Extraktion von Informationen aus einer ersten Menge unstrukturierter Daten extrahiert wurden, wobei die Objektinformationen Informationen über Beziehungen zwischen einem ersten Objekt und einem zweiten Objekt der ersten Menge unstrukturierter Daten aufweisen; Erkennen eines Musters auf der Grundlage der Beziehungsinformationen und Erzeugen eines Schemas für die erste Menge unstrukturierter Daten auf der Grundlage des Musters; und Verknüpfen eines Elements des erzeugten Schemas mit (i) einem Objekt einer zweiten Menge unstrukturierter Daten oder mit (ii) einem Schemaelement einer bestehenden Menge strukturierter Daten, wenn eine ausreichende Gesamtähnlichkeit zwischen dem erzeugten Schemaelement und entweder dem zweiten unstrukturierten Datenobjekt oder dem Schemaelement der bestehenden strukturierten Daten vorliegt.

    Optimieren von zerstreuten schemalosen Daten in relationalen Speichern

    公开(公告)号:DE102013206281A1

    公开(公告)日:2013-10-24

    申请号:DE102013206281

    申请日:2013-04-10

    Applicant: IBM

    Abstract: Verschiedene Ausführungsformen der Erfindung beziehen sich auf ein Optimieren einer Speicherung von schemalosen Daten. Es wird ein schemaloser Datensatz empfangen, der eine Vielzahl von Ressourcen aufweist. Jeder Ressource ist zumindest eine Vielzahl von Eigenschaften zugehörig. Es wird zumindest ein Satz von kookkurrierenden (gleichzeitig auftretenden) Eigenschaften von der Vielzahl von Eigenschaften gekennzeichnet. Es wird ein Graph erzeugt, der eine Vielzahl von Knoten beinhaltet. Jeder der Knoten stellt eine eindeutige Eigenschaft in dem Satz von kookkurrierenden Eigenschaften dar. Der Graph beinhaltet des Weiteren eine Kante, die jeden Knoten verbindet, der ein Paar kookkurrierender Eigenschaften darstellt. An dem Graphen wird eine Graphenfärbeoperation durchgeführt. Die Graphenfärbeoperation weist ein Zuweisen jedes Knotens zu einer Farbe auf, wobei Knoten, die durch eine Kante verbunden sind, unterschiedliche Farben zugewiesen werden. Es wird ein Schema erzeugt, das jeder eindeutigen Eigenschaft, die durch einen der Knoten in dem Graphen dargestellt wird, auf der Grundlage der Farbe, die dem Knoten zugewiesen worden ist, eine Spaltenkennung aus einer Tabelle zuweist.

    Optimieren von zerstreuten schemalosen Daten in relationalen Speichern

    公开(公告)号:DE102013206281B4

    公开(公告)日:2022-07-07

    申请号:DE102013206281

    申请日:2013-04-10

    Applicant: IBM

    Abstract: Computerimplementiertes Verfahren zum Optimieren einer Speicherung von schemalosen Daten in einem relationalen Datenspeichersystem, wobei das Verfahren aufweist:- Empfangen eines schemalosen Datensatzes, der eine Vielzahl von Ressourcen aufweist, wobei jeder Ressource in der Vielzahl von Ressourcen zumindest eine Vielzahl von Eigenschaften zugehörig ist;- Kennzeichnen zumindest eines Satzes von kookkurrierenden (gleichzeitig auftretenden) Eigenschaften von der Vielzahl von Eigenschaften für eine oder mehrere der Vielzahl von Ressourcen;- Erzeugen eines Graphen, der eine Vielzahl von Knoten aufweist, wobei jeder der Vielzahl von Knoten eine eindeutige Eigenschaft in dem zumindest einen Satz von kookkurrierenden Eigenschaften darstellt und wobei der Graph des Weiteren eine Kante aufweist, die jeden der Vielzahl von Knoten verbindet, der ein Paar von kookkurrierenden Eigenschaften in dem zumindest einen Satz von kookkurrierenden Eigenschaften darstellt;- Durchführen einer Graphenfärbeoperation an dem Graphen, wobei die Graphenfärbeoperation ein Zuweisen jedes der Vielzahl von Knoten zu einer Farbe aufweist, wobei Knoten, die durch eine Kante verbunden sind, unterschiedliche Farben zugewiesen werden; und- Erzeugen eines Speicherschemas, wobei das Speicherschema jeder eindeutigen Eigenschaft, die durch einen der Vielzahl von Knoten in dem Graphen dargestellt wird, auf der Grundlage der Farbe, die dem Knoten zugewiesen worden ist, eine Spaltenkennung aus einer Tabelle zuweist.- wobei das Verfahren des Weiteren aufweist:- Ermitteln einer Gesamtzahl von Farben, die der Vielzahl von Knoten in dem Graphen zugewiesen ist;- Vergleichen der Gesamtzahl von Farben mit einem ersten Schwellenwert, der eine Höchstzahl von Spalten kennzeichnet, die der Tabelle zugehörig sind;- Ermitteln, ob die Gesamtzahl von Farben größer als der erste Schwellenwert ist; und- beruhend darauf, dass die Gesamtzahl von Farben größer als der erste Schwellenwert ist, Entfernen von Knoten, die zumindest einem Satz von kookkurrierenden Eigenschaften zugehörig sind, aus dem Graphen.

    Abfragen und Integrieren strukturierter und unstrukturierter Daten

    公开(公告)号:DE102013209868B4

    公开(公告)日:2018-06-21

    申请号:DE102013209868

    申请日:2013-05-28

    Applicant: IBM

    Abstract: [0067] Ein mittels Computer realisiertes Verfahren, System und ein mittels Computer realisierter Herstellungsgegenstand zum Abfragen und Integrieren strukturierter und unstrukturierter Daten. Das Verfahren weist auf: Empfangen von Objektinformationen, die unter Verwendung eines domänenunabhängigen Systems zur Extraktion von Informationen aus einer ersten Menge unstrukturierter Daten extrahiert wurden, wobei die Objektinformationen Informationen über Beziehungen zwischen einem ersten Objekt und einem zweiten Objekt der ersten Menge unstrukturierter Daten aufweisen; Erkennen eines Musters auf der Grundlage der Beziehungsinformationen und Erzeugen eines Schemas für die erste Menge unstrukturierter Daten auf der Grundlage des Musters; und Verknüpfen eines Elements des erzeugten Schemas mit (i) einem Objekt einer zweiten Menge unstrukturierter Daten oder mit (ii) einem Schemaelement einer bestehenden Menge strukturierter Daten, wenn eine ausreichende Gesamtähnlichkeit zwischen dem erzeugten Schemaelement und entweder dem zweiten unstrukturierten Datenobjekt oder dem Schemaelement der bestehenden strukturierten Daten vorliegt.

    Creating benchmark graph data
    7.
    发明专利

    公开(公告)号:GB2501439A

    公开(公告)日:2013-10-23

    申请号:GB201314292

    申请日:2012-01-11

    Applicant: IBM

    Abstract: According to an aspect of the present principles, a method is provided for generating resource description framework benchmarks. The method includes deriving (350) a resultant benchmark dataset with a user specified size and a user specified coherence from and with respect to an input dataset of a given size and a given coherence by determining (340) which triples of subject-property-object to add to the input dataset or remove from the input dataset to derive the resultant benchmark dataset.

Patent Agency Ranking