Abstract:
Methods and systems for aggregating search query results include receiving (202) search query results and schema information for the query results from multiple heterogeneous sources (102), determining types (116) for elements of the query results based on the schema information, determining potential aggregations (204) for the query results based on the types, which are based on accumulated information from the plurality of heterogeneous resources (102), and aggregating (220) the query results according to one or more of the potential aggregations.
Abstract:
Methods and systems for determining schema element types are shown that include pooling (208) potential annotations for an element of an unlabeled schema from a plurality of heterogeneous sources, scoring (404) the pool of potential annotations according to relevancy using instance information from the plurality of heterogeneous sources to produce a relevancy score, and annotating (406) the element of the unlabeled schema using the most relevant potential annotations.
Abstract:
Ein mittels Computer realisiertes Verfahren, System und ein mittels Computer realisierter Herstellungsgegenstand zum Abfragen und Integrieren strukturierter und unstrukturierter Daten. Das Verfahren weist auf: Empfangen von Objektinformationen, die unter Verwendung eines domänenunabhängigen Systems zur Extraktion von Informationen aus einer ersten Menge unstrukturierter Daten extrahiert wurden, wobei die Objektinformationen Informationen über Beziehungen zwischen einem ersten Objekt und einem zweiten Objekt der ersten Menge unstrukturierter Daten aufweisen; Erkennen eines Musters auf der Grundlage der Beziehungsinformationen und Erzeugen eines Schemas für die erste Menge unstrukturierter Daten auf der Grundlage des Musters; und Verknüpfen eines Elements des erzeugten Schemas mit (i) einem Objekt einer zweiten Menge unstrukturierter Daten oder mit (ii) einem Schemaelement einer bestehenden Menge strukturierter Daten, wenn eine ausreichende Gesamtähnlichkeit zwischen dem erzeugten Schemaelement und entweder dem zweiten unstrukturierten Datenobjekt oder dem Schemaelement der bestehenden strukturierten Daten vorliegt.
Abstract:
[0067] Ein mittels Computer realisiertes Verfahren, System und ein mittels Computer realisierter Herstellungsgegenstand zum Abfragen und Integrieren strukturierter und unstrukturierter Daten. Das Verfahren weist auf: Empfangen von Objektinformationen, die unter Verwendung eines domänenunabhängigen Systems zur Extraktion von Informationen aus einer ersten Menge unstrukturierter Daten extrahiert wurden, wobei die Objektinformationen Informationen über Beziehungen zwischen einem ersten Objekt und einem zweiten Objekt der ersten Menge unstrukturierter Daten aufweisen; Erkennen eines Musters auf der Grundlage der Beziehungsinformationen und Erzeugen eines Schemas für die erste Menge unstrukturierter Daten auf der Grundlage des Musters; und Verknüpfen eines Elements des erzeugten Schemas mit (i) einem Objekt einer zweiten Menge unstrukturierter Daten oder mit (ii) einem Schemaelement einer bestehenden Menge strukturierter Daten, wenn eine ausreichende Gesamtähnlichkeit zwischen dem erzeugten Schemaelement und entweder dem zweiten unstrukturierten Datenobjekt oder dem Schemaelement der bestehenden strukturierten Daten vorliegt.
Abstract:
According to an aspect of the present principles, a method is provided for generating resource description framework benchmarks. The method includes deriving (350) a resultant benchmark dataset with a user specified size and a user specified coherence from and with respect to an input dataset of a given size and a given coherence by determining (340) which triples of subject-property-object to add to the input dataset or remove from the input dataset to derive the resultant benchmark dataset.