Abstract:
An improved method for handling data sets (12, 14) is disclosed. The method comprises the steps of: Providing a first characteristic (20.1) associated with a first data set (12) and at least one of the following: A single data value (12') and a second characteristic (20.2) associated with a second data set (14); the provided characteristics allowing feasible comparison of the first data set (12), the second data set (14) and the single data value (12'), and calculating at least one of the following: Similarity of the first data set (12) with the second data set (14) based on the first and second characteristics (20.1, 20.2), similarity of the first data set (12) with the single data value (12') based on the first characteristic (20.1) and the single data value (12'), confidence indicating how well the first characteristic reflects properties of the first data set (12) based on the first characteristic, and confidence indicating how well the similarity of the first data set with the single data value (12') reflects properties of the single data value based on the first characteristic and the single data value (12').
Abstract:
Computerimplementiertes Verfahren für Datenanonymisierung, das Folgendes umfasst:Empfangen einer Anfrage nach Daten, wobei die Anfrage mindestens einen Felddeskriptor abzurufender Daten und ein Verwendungsszenario eines Nutzers für die angefragten Daten aufweist,auf Grundlage des Verwendungsszenarios erfolgendes Ermitteln eines Anonymisierungsalgorithmus, der auf die Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht,Anwenden des ermittelten Anonymisierungsalgorithmus auf die Daten, auf die sich der Felddeskriptor bezieht,Testen, ob ein Anonymisierungsgrad eine das Verwendungsszenario betreffende Anforderung erfüllt,Bereitstellen von Zugriff auf die anonymisierten Daten auf Grundlage einer Feststellung, dass die Anforderung erfüllt wird,wobei:das Verfahren ferner Empfangen einer Rückmeldung von einem Nutzer, wobei die Rückmeldung eine Hilfe für maschinelles Lernen bildet, umfasst, und/oderVerallgemeinerungshierarchien bereitgestellt werden, um eine Ausführung eines Verallgemeinerungsalgorithmus zu ermöglichen, und/oderein Modell bereitgestellt wird, wobei das Modell eine Beziehung zwischen einem Anonymisierungsalgorithmus, einem Verwendungsszenario und einer Klassifizierung der Daten festlegt, und/odereine Interaktion mit dem Nutzer zugelassen wird, so dass der Nutzer mittels maschinellen Lernens das Anonymisierungsverfahren abändern kann.
Abstract:
Datenqualitätsüberwachung bezieht sich auf das Messen von Datenqualität geladener Daten in Bezug auf eine vordefinierte Datenqualitätsmessgröße. Die Datenqualität wird durch Anwenden eines in Qualitätsregeln definierten logischen Kalküls auf die geladenen Daten gemessen. Die Datenqualitätsmessung wird unter Verwendung von zumindest einem des Folgenden durchgeführt: Delta-Veränderungen der geladenen Daten und Delta-Veränderungen der Qualitätsregeln.
Abstract:
Ein computerrealisiertes Verfahren wird zum Sortieren von Datenelementen eines bestimmten Satzes verwendet. Das Verfahren enthält ein Durchführen einer Bewertung einer ersten Art von Verwendung eines jeden Datenelements. Das Verfahren enthält ein Bestimmen eines Satzes von Datenelement-Kandidaten abhängig von der Bewertung der ersten Art von Verwendung. Das Verfahren enthält ein Durchführen einer Bewertung einer zweiten Art von Verwendung eines jeden Datenelements des Satzes von Datenelement-Kandidaten. Das Verfahren enthält ein Sortieren der Datenelemente des Satzes von Datenelement-Kandidaten abhängig von der Bewertung der zweiten Art von Verwendung eines jeden Datenelements des Satzes von Datenelement-Kandidaten. Das Verfahren enthält ein Bereitstellen der sortierten Datenelemente des Satzes von Datenelement-Kandidaten und als Reaktion hierauf ein Empfangen einer Anforderung einer Datenverarbeitung auf Grundlage der bereitgestellten sortierten Datenelemente des Satzes von Datenelement-Kandidaten.
Abstract:
A computer-implemented method for detecting one or more multi-column composite key column sets, the method comprising: accessing (102) a plurality of first columns (Pl-P3); selecting (104) two or more of the first columns for use as a current set (218) of candidate columns; determining (106), by comparing object-identifiers stored in association with parameter values of the candidate columns with each other, if for the current sec of candidate columns at least one tuple (219) of parameter values exists whose parameter values are respectively stored in association with two or more shared ones of the object identifiers; in case said at least one tuple does not exist, identifying (110) the current candidate column set as a multi-column composite key column set; otherwise, replacing (112) the second candidate column by another selected one of the first columns or adding said other selected one of the first columns to the candidate column set.
Abstract:
In einem Ansatz zum dynamischen Ermitteln und Abändern der Parallelität einer bestimmten Aufgabe in einer Pipeline wird die optimale Ausführungszeit für jede Stufe in einer dynamischen Pipeline berechnet. Die tatsächliche Ausführungszeit jeder einzelnen Stufe in der dynamischen Pipeline wird gemessen. Es wird ermittelt, ob die tatsächliche Zeit der Fertigstellung des Datenverarbeitungsauftrags einen Schwellenwert überschreiten wird. Wenn festgestellt wird, dass die tatsächliche Zeit der Fertigstellung des Datenverarbeitungsauftrags den Schwellenwert überschreiten wird, werden zusätzliche Instanzen der Stufen erstellt.
Abstract:
Ein computerimplementiertes Verfahren für Datenanonymisierung umfasst: Empfangen einer Anfrage nach Daten, die einer Anonymisierung bedürfen. Die Anfrage weist mindestens einen Felddeskriptor abzurufender Daten und ein Verwendungsszenario eines Nutzers für die angefragten Daten auf. Auf Grundlage des Verwendungsszenarios wird dann ein Anonymisierungsalgorithmus ermittelt, der auf die Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht. Anschließend wird der ermittelte Anonymisierungsalgorithmus auf die Daten angewendet, auf die sich der Felddeskriptor bezieht. Es erfolgt ein Testen, ob der Anonymisierungsgrad eine das Verwendungsszenario betreffende Anforderung erfüllt. Falls die Anforderung erfüllt wird, wird Zugriff auf die anonymisierten Daten bereitgestellt.
Abstract:
Die Erfindung stellt ein Verfahren zum Verarbeiten einer Mehrzahl von Datensätzen (05; 106; 108; 110 bis 113; DB1; DB2) in einer Datenablage (104) zum Speichern von zumindest unstrukturierten Daten bereit, wobei das Verfahren aufweist: – Bereitstellen (302) einer Menge von Agenten (150 bis 168), wobei jeder Agent funktionsmäßig in der Lage ist, das Verarbeiten eines oder mehrerer Datensätze auszulösen, wobei das Ausführen von jedem der Agenten automatisch ausgelöst wird, wenn eine oder mehrere Bedingungen erfüllt sind, die dem Agenten zugewiesen sind, wobei sich wenigstens eine der Bedingungen auf Vorhandensein, Struktur, Inhalt und/oder Anmerkungen des Datensatzes beziehen, dessen Verarbeitung durch den Agenten ausgelöst werden kann; – Ausführen (304) eines ersten der Agenten; – Aktualisieren (306) der Anmerkungen (115) des ersten Datensatzes durch den ersten Agenten; und – Ausführen (308) eines zweiten der Agenten, wobei das Ausführen durch die aktualisierten Anmerkungen des ersten Datensatzes ausgelöst wird, die die Bedingungen des zweiten Agenten erfüllen, wodurch ein weiteres Aktualisieren der Anmerkungen des ersten Datensatzes ausgelöst wird.
Abstract:
Bei einem Ansatz zum Bereitstellen von Datenschutz in Informationsintegrationssystemen empfängt ein während einer Kompilierung eines Informationsintegrationsvorgangs durchgeführtes Verfahren Informationen zu einer Datenflussstruktur des auszuführenden Informationsintegrationsvorgangs, wobei die Datenflussstruktur mindestens ein Quellsystem, eine oder mehrere Zieleinheiten und mindestens einen Operator zum Ändern von Ausgabedaten aufweist, die durch das Quellsystem bereitgestellt werden. Das Verfahren ermittelt Datenausstiegspunkte, an denen Ausgabedaten den Zieleinheiten bereitgestellt werden, und ermittelt mindestens eine nicht vertrauenswürdige Zieleinheit. Für jede nicht vertrauenswürdige Zieleinheit ermittelt das Verfahren, ob mindestens ein Datenfeld, das in den Ausgabedaten enthalten ist, die der nicht vertrauenswürdigen Zieleinheit bereitgestellt werden, als sensible Informationen eingestuft wird, und ändert – wenn dies der Fall ist – den Informationsintegrationsvorgang, indem unmittelbar vor einem Datenausstiegspunkt, welcher der nicht vertrauenswürdigen Zieleinheit zugehörig ist, ein Maskierungsoperator eingefügt wird, um die sensiblen Informationen zu maskieren.
Abstract:
A data processing system for: receiving an analysis request comprising multiple data analysis commands to generate an analysis report; dividing the commands into private analysis commands and public analysis commands; sending the private analysis commands to a trusted distributed file system; sending a portion of the public analysis commands to an public distributed file system; sending the remainder of the public analysis commands to the trusted distributed file system; and generating the analysis report using public analysis results from the public distributed file system and trusted analysis results from the trusted distributed file system.