DATENEXTRAKTIONSSYSTEM
    1.
    发明专利

    公开(公告)号:DE112020001874T5

    公开(公告)日:2022-01-05

    申请号:DE112020001874

    申请日:2020-04-09

    Applicant: BASF SE

    Abstract: Die vorliegende Erfindung betrifft die Verwaltung von Daten. Um Daten aus einer oder mehreren Tabellendatendateien effektiv und zuverlässig zu extrahieren, wird ein Datenextraktionssystem zum Extrahieren von Daten aus einer oder mehreren Tabellendatendateien bereitgestellt. Das System umfasst eine Benutzerschnittstelle, die dazu angepasst ist, einem oder mehreren Benutzern zu erleichtern, eine oder mehrere Tabellendatendateien zu übermitteln, wobei jede Tabellendatendatei mindestens eine Tabelle umfasst. Gemäß der ersten Alternative ist die Benutzerschnittstelle dazu ausgelegt, eine benutzerdefinierte Vorlage zu empfangen, die mindestens eine Zieltabelle umfasst. Das Datenextraktionssystem umfasst ferner ein Datenextraktionsmodul oder einen Validator. Das Datenextraktionsmodul umfasst einen schemabasierten Abgleicher und einen instanzbasierten Abgleicher. Der schemabasierte Abgleicher ist dazu ausgelegt, zielschemabasierte Informationen der mindestens einen Zieltabelle zu identifizieren und mindestens eine semantisch übereinstimmende Kandidatentabelle aus der einen oder den mehreren übermittelten Tabellendatendateien basierend auf den zielschemabasierten Informationen auszuwählen. Der instanzbasierte Abgleicher ist dazu ausgelegt, zielinstanzbasierte Informationen der mindestens einen Zieltabelle zu identifizieren und Daten aus der mindestens einen semantisch übereinstimmenden Kandidatentabelle basierend auf den zielinstanzbasierten Informationen zu extrahieren. Gemäß der zweiten Alternative ist die Benutzerschnittstelle dazu ausgelegt, eine Validierungsvorlage zu empfangen. Das Datenextraktionssystem umfasst ferner einen Validator, der dazu ausgelegt ist, eine Validierungsvorlage auf mindestens eine Tabelle der einen oder der mehreren Tabellendatendateien anzuwenden, um ein Tabellenformat der mindestens einen Tabelle basierend auf Regeln für definierte Markierungen, Metadaten und/oder Daten, die durch die Validierungsvorlage definiert werden, zu validieren.

Patent Agency Ranking