Abstract:
Methods and systems for aggregating search query results include receiving (202) search query results and schema information for the query results from multiple heterogeneous sources (102), determining types (116) for elements of the query results based on the schema information, determining potential aggregations (204) for the query results based on the types, which are based on accumulated information from the plurality of heterogeneous resources (102), and aggregating (220) the query results according to one or more of the potential aggregations.
Abstract:
Methods and systems for determining schema element types are shown that include pooling (208) potential annotations for an element of an unlabeled schema from a plurality of heterogeneous sources, scoring (404) the pool of potential annotations according to relevancy using instance information from the plurality of heterogeneous sources to produce a relevancy score, and annotating (406) the element of the unlabeled schema using the most relevant potential annotations.
Abstract:
Ein mittels Computer realisiertes Verfahren, System und ein mittels Computer realisierter Herstellungsgegenstand zum Abfragen und Integrieren strukturierter und unstrukturierter Daten. Das Verfahren weist auf: Empfangen von Objektinformationen, die unter Verwendung eines domänenunabhängigen Systems zur Extraktion von Informationen aus einer ersten Menge unstrukturierter Daten extrahiert wurden, wobei die Objektinformationen Informationen über Beziehungen zwischen einem ersten Objekt und einem zweiten Objekt der ersten Menge unstrukturierter Daten aufweisen; Erkennen eines Musters auf der Grundlage der Beziehungsinformationen und Erzeugen eines Schemas für die erste Menge unstrukturierter Daten auf der Grundlage des Musters; und Verknüpfen eines Elements des erzeugten Schemas mit (i) einem Objekt einer zweiten Menge unstrukturierter Daten oder mit (ii) einem Schemaelement einer bestehenden Menge strukturierter Daten, wenn eine ausreichende Gesamtähnlichkeit zwischen dem erzeugten Schemaelement und entweder dem zweiten unstrukturierten Datenobjekt oder dem Schemaelement der bestehenden strukturierten Daten vorliegt.
Abstract:
Verschiedene Ausführungsformen der Erfindung beziehen sich auf ein Optimieren einer Speicherung von schemalosen Daten. Es wird ein schemaloser Datensatz empfangen, der eine Vielzahl von Ressourcen aufweist. Jeder Ressource ist zumindest eine Vielzahl von Eigenschaften zugehörig. Es wird zumindest ein Satz von kookkurrierenden (gleichzeitig auftretenden) Eigenschaften von der Vielzahl von Eigenschaften gekennzeichnet. Es wird ein Graph erzeugt, der eine Vielzahl von Knoten beinhaltet. Jeder der Knoten stellt eine eindeutige Eigenschaft in dem Satz von kookkurrierenden Eigenschaften dar. Der Graph beinhaltet des Weiteren eine Kante, die jeden Knoten verbindet, der ein Paar kookkurrierender Eigenschaften darstellt. An dem Graphen wird eine Graphenfärbeoperation durchgeführt. Die Graphenfärbeoperation weist ein Zuweisen jedes Knotens zu einer Farbe auf, wobei Knoten, die durch eine Kante verbunden sind, unterschiedliche Farben zugewiesen werden. Es wird ein Schema erzeugt, das jeder eindeutigen Eigenschaft, die durch einen der Knoten in dem Graphen dargestellt wird, auf der Grundlage der Farbe, die dem Knoten zugewiesen worden ist, eine Spaltenkennung aus einer Tabelle zuweist.
Abstract:
Computerimplementiertes Verfahren zum Optimieren einer Speicherung von schemalosen Daten in einem relationalen Datenspeichersystem, wobei das Verfahren aufweist:- Empfangen eines schemalosen Datensatzes, der eine Vielzahl von Ressourcen aufweist, wobei jeder Ressource in der Vielzahl von Ressourcen zumindest eine Vielzahl von Eigenschaften zugehörig ist;- Kennzeichnen zumindest eines Satzes von kookkurrierenden (gleichzeitig auftretenden) Eigenschaften von der Vielzahl von Eigenschaften für eine oder mehrere der Vielzahl von Ressourcen;- Erzeugen eines Graphen, der eine Vielzahl von Knoten aufweist, wobei jeder der Vielzahl von Knoten eine eindeutige Eigenschaft in dem zumindest einen Satz von kookkurrierenden Eigenschaften darstellt und wobei der Graph des Weiteren eine Kante aufweist, die jeden der Vielzahl von Knoten verbindet, der ein Paar von kookkurrierenden Eigenschaften in dem zumindest einen Satz von kookkurrierenden Eigenschaften darstellt;- Durchführen einer Graphenfärbeoperation an dem Graphen, wobei die Graphenfärbeoperation ein Zuweisen jedes der Vielzahl von Knoten zu einer Farbe aufweist, wobei Knoten, die durch eine Kante verbunden sind, unterschiedliche Farben zugewiesen werden; und- Erzeugen eines Speicherschemas, wobei das Speicherschema jeder eindeutigen Eigenschaft, die durch einen der Vielzahl von Knoten in dem Graphen dargestellt wird, auf der Grundlage der Farbe, die dem Knoten zugewiesen worden ist, eine Spaltenkennung aus einer Tabelle zuweist.- wobei das Verfahren des Weiteren aufweist:- Ermitteln einer Gesamtzahl von Farben, die der Vielzahl von Knoten in dem Graphen zugewiesen ist;- Vergleichen der Gesamtzahl von Farben mit einem ersten Schwellenwert, der eine Höchstzahl von Spalten kennzeichnet, die der Tabelle zugehörig sind;- Ermitteln, ob die Gesamtzahl von Farben größer als der erste Schwellenwert ist; und- beruhend darauf, dass die Gesamtzahl von Farben größer als der erste Schwellenwert ist, Entfernen von Knoten, die zumindest einem Satz von kookkurrierenden Eigenschaften zugehörig sind, aus dem Graphen.
Abstract:
[0067] Ein mittels Computer realisiertes Verfahren, System und ein mittels Computer realisierter Herstellungsgegenstand zum Abfragen und Integrieren strukturierter und unstrukturierter Daten. Das Verfahren weist auf: Empfangen von Objektinformationen, die unter Verwendung eines domänenunabhängigen Systems zur Extraktion von Informationen aus einer ersten Menge unstrukturierter Daten extrahiert wurden, wobei die Objektinformationen Informationen über Beziehungen zwischen einem ersten Objekt und einem zweiten Objekt der ersten Menge unstrukturierter Daten aufweisen; Erkennen eines Musters auf der Grundlage der Beziehungsinformationen und Erzeugen eines Schemas für die erste Menge unstrukturierter Daten auf der Grundlage des Musters; und Verknüpfen eines Elements des erzeugten Schemas mit (i) einem Objekt einer zweiten Menge unstrukturierter Daten oder mit (ii) einem Schemaelement einer bestehenden Menge strukturierter Daten, wenn eine ausreichende Gesamtähnlichkeit zwischen dem erzeugten Schemaelement und entweder dem zweiten unstrukturierten Datenobjekt oder dem Schemaelement der bestehenden strukturierten Daten vorliegt.
Abstract:
According to an aspect of the present principles, a method is provided for generating resource description framework benchmarks. The method includes deriving (350) a resultant benchmark dataset with a user specified size and a user specified coherence from and with respect to an input dataset of a given size and a given coherence by determining (340) which triples of subject-property-object to add to the input dataset or remove from the input dataset to derive the resultant benchmark dataset.