Abstract:
An improved method for handling data sets (12, 14) is disclosed. The method comprises the steps of: Providing a first characteristic (20.1) associated with a first data set (12) and at least one of the following: A single data value (12') and a second characteristic (20.2) associated with a second data set (14); the provided characteristics allowing feasible comparison of the first data set (12), the second data set (14) and the single data value (12'), and calculating at least one of the following: Similarity of the first data set (12) with the second data set (14) based on the first and second characteristics (20.1, 20.2), similarity of the first data set (12) with the single data value (12') based on the first characteristic (20.1) and the single data value (12'), confidence indicating how well the first characteristic reflects properties of the first data set (12) based on the first characteristic, and confidence indicating how well the similarity of the first data set with the single data value (12') reflects properties of the single data value based on the first characteristic and the single data value (12').
Abstract:
Die vorliegende Offenbarung betrifft ein Verfahren, umfassend: Bereitstellen einer Gruppe von einer oder mehreren Aufzeichnungen, wobei jede Aufzeichnung der Gruppe von Aufzeichnungen eine Gruppe von einem oder mehreren Attributen aufweist; Eingeben von Werten der Gruppe von Attributen der Gruppe von Aufzeichnungen in ein trainiertes Datenrepräsentations-Lernmodell, wodurch als eine Ausgabe des trainierten Datenrepräsentationsmodells eine Gruppe von Merkmalsvektoren empfangen wird, welche entsprechend die Gruppe von Aufzeichnungen repräsentiert, und Speichern der Gruppe von Merkmalsvektoren.
Abstract:
Computerimplementiertes Verfahren für Datenanonymisierung, das Folgendes umfasst:Empfangen einer Anfrage nach Daten, wobei die Anfrage mindestens einen Felddeskriptor abzurufender Daten und ein Verwendungsszenario eines Nutzers für die angefragten Daten aufweist,auf Grundlage des Verwendungsszenarios erfolgendes Ermitteln eines Anonymisierungsalgorithmus, der auf die Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht,Anwenden des ermittelten Anonymisierungsalgorithmus auf die Daten, auf die sich der Felddeskriptor bezieht,Testen, ob ein Anonymisierungsgrad eine das Verwendungsszenario betreffende Anforderung erfüllt,Bereitstellen von Zugriff auf die anonymisierten Daten auf Grundlage einer Feststellung, dass die Anforderung erfüllt wird,wobei:das Verfahren ferner Empfangen einer Rückmeldung von einem Nutzer, wobei die Rückmeldung eine Hilfe für maschinelles Lernen bildet, umfasst, und/oderVerallgemeinerungshierarchien bereitgestellt werden, um eine Ausführung eines Verallgemeinerungsalgorithmus zu ermöglichen, und/oderein Modell bereitgestellt wird, wobei das Modell eine Beziehung zwischen einem Anonymisierungsalgorithmus, einem Verwendungsszenario und einer Klassifizierung der Daten festlegt, und/odereine Interaktion mit dem Nutzer zugelassen wird, so dass der Nutzer mittels maschinellen Lernens das Anonymisierungsverfahren abändern kann.
Abstract:
Provided are techniques for secure matching supporting fuzzy data. A first bloom filter for a first data element is retrieved, wherein each of the characters in the data element has been encrypted with a beginning offset position of the character and encrypted with an end offset position of the character to produce two encrypted values that are added to the first bloom filter. A second bloom filter for a second data element is retrieved. The first bloom filter and the second bloom filter are compared to determine whether there is a match between the first data element and the second data element.
Abstract:
Datenqualitätsüberwachung bezieht sich auf das Messen von Datenqualität geladener Daten in Bezug auf eine vordefinierte Datenqualitätsmessgröße. Die Datenqualität wird durch Anwenden eines in Qualitätsregeln definierten logischen Kalküls auf die geladenen Daten gemessen. Die Datenqualitätsmessung wird unter Verwendung von zumindest einem des Folgenden durchgeführt: Delta-Veränderungen der geladenen Daten und Delta-Veränderungen der Qualitätsregeln.
Abstract:
Von einem Computer ausgeführtes Verfahren zum Anlegen (114) einer Sicherungskopie von Daten (208) durch ein Computersystem (102), das mit einem Hauptspeicher (218) und mit einem oder mehreren nichtflüchtigen Speichermedien (250, 276, 290) betriebsfähig verbunden ist, wobei das Anlegen der Sicherungskopie aufweist:- Zuweisen (102) eines ersten Speicherbereichs (220) in dem Hauptspeicher zu den Daten und Laden der Daten in den ersten Speicherbereich;- Zuordnen (104) eines zweiten Speicherbereichs (232) in dem Hauptspeicher, um als Behälter von einem oder mehreren Abbildern (233 bis 240; 332 bis 342) des ersten Speicherbereichs zu dienen;- automatisches Erstellen (106) des einen oder der mehreren Abbilder;- automatisches Speichern (108) des erstellten einen Abbilds oder der erstellten mehreren Abbilder (233 bis 240; 332 bis 342) in dem zweiten Speicherbereich und Speichern einer entsprechenden Kopie (252 bis 274, 278 bis 288; 350 bis 360) von mindestens einem der Abbilder in dem einen nichtflüchtigen Speichermedium oder in den mehreren nichtflüchtigen Speichermedien, wobei das Speichern in dem zweiten Speicherbereich und das Speichern in dem einen nichtflüchtigen Speichermedium oder in den mehreren nichtflüchtigen Speichermedien entsprechend einer oder mehreren vorher festgelegten Sicherungsregeln (BRT1; BRT2; BRT3; BRTn) ausgeführt wird;- wobei das eine nichtflüchtige Speichermedium oder die mehreren nichtflüchtigen Speichermedien einer oder mehreren Speicherschichten zugewiesen werden, wobei nichtflüchtige Speichermedien derselben Schicht ein gemeinsames Merkmal haben, wobei das Merkmal eine E/A-Antwortzeit, eine Dienstgütevereinbarung und/oder ein bestimmter Typ eines Speichermediums ist und wobei die Speicherschichten gemäß dem Merkmal angeordnet werden, wobei eine Qualitätsebene der Dienstgütevereinbarung umso höher ist, je kürzer die E/A-Antwortzeit ist, und/oder wobei die Position von beliebigen der Speicherschichten umso höher ist, je kürzer die E/A-Antwortzeit von beliebigen der Arten des Speichermediums ist, und- wobei der zweite Speicherbereich eine weitere Speicherschicht darstellt, die auf der Reihenfolge der Speicherschichten aufsetzt;- wobei entsprechend mindestens einer der Sicherungsregeln die Speicherung des einen oder der mehreren Abbilder in dem zweiten Speicherbereich und in dem einen nichtflüchtigen Speichermedium oder in den mehreren nichtflüchtigen Speichermedien gemäß der Reihenfolge ausgeführt wird, wobei mit dem zweiten Speicherbereich in der obersten Speicherschicht begonnen wird.
Abstract:
Bei einem Ansatz zum Bereitstellen von Datenschutz in Informationsintegrationssystemen empfängt ein während einer Kompilierung eines Informationsintegrationsvorgangs durchgeführtes Verfahren Informationen zu einer Datenflussstruktur des auszuführenden Informationsintegrationsvorgangs, wobei die Datenflussstruktur mindestens ein Quellsystem, eine oder mehrere Zieleinheiten und mindestens einen Operator zum Ändern von Ausgabedaten aufweist, die durch das Quellsystem bereitgestellt werden. Das Verfahren ermittelt Datenausstiegspunkte, an denen Ausgabedaten den Zieleinheiten bereitgestellt werden, und ermittelt mindestens eine nicht vertrauenswürdige Zieleinheit. Für jede nicht vertrauenswürdige Zieleinheit ermittelt das Verfahren, ob mindestens ein Datenfeld, das in den Ausgabedaten enthalten ist, die der nicht vertrauenswürdigen Zieleinheit bereitgestellt werden, als sensible Informationen eingestuft wird, und ändert – wenn dies der Fall ist – den Informationsintegrationsvorgang, indem unmittelbar vor einem Datenausstiegspunkt, welcher der nicht vertrauenswürdigen Zieleinheit zugehörig ist, ein Maskierungsoperator eingefügt wird, um die sensiblen Informationen zu maskieren.
Abstract:
A data processing system for: receiving an analysis request comprising multiple data analysis commands to generate an analysis report; dividing the commands into private analysis commands and public analysis commands; sending the private analysis commands to a trusted distributed file system; sending a portion of the public analysis commands to an public distributed file system; sending the remainder of the public analysis commands to the trusted distributed file system; and generating the analysis report using public analysis results from the public distributed file system and trusted analysis results from the trusted distributed file system.
Abstract:
A method for a logging process in a data storage system (10C) including a set of storage tiers (115), each storage tier of the set of storage tiers (115) having different performancecharacteristics (e.g. error rate, communication rate, power consumption, delay time). The set of storage tiers (115) is divided into subsets (115A, 115B, 115C, 115D) using the performance characteristics. The logging process is initialized for creating a separate log file (121A, 121B, 121C, 121D) for each of the subsets of storage tiers (115A, 115B, 115C, 115D) for maintaining a history of data changes in the subset of storage tiers, thereby creating a plurality of log files (121); in response to a change in data stored in at least one storage tier of a subset of storage tiers (115), generating one or more log records comprising information about the change, and writing the one or more log records into the respective log files (121A, 121B, 1210, 121D). Such log files may be used during backup and restoration.
Abstract:
Das Verfahren umfasst: a) Trainieren eines maschinellen Lernmodells unter Verwendung einer aktuellen Menge von gekennzeichneten Datensätzen, wobei jeder der Datenpunkte mehrere Datensätze ist, wobei eine Kennzeichnung eines Datenpunkts eine Klassifizierung des Datenpunkts angibt, wobei das Trainieren zu einem trainierten maschinellen Lernmodell führt, das so konfiguriert ist, dass es einen Datenpunkt als eine gleiche Entität oder verschiedene Entitäten repräsentierend klassifiziert. b) eine Teilmenge von nicht gekennzeichneten Datenpunkten kann aus einer aktuellen Menge von nicht gekennzeichneten Datenpunkten unter Verwendung von Klassifizierungsergebnissen der aktuellen Menge von nicht gekennzeichneten Datenpunkten ausgewählt werden. c) die Teilmenge von nicht gekennzeichneten Datenpunkten kann an einen Klassifikator bereitgestellt werden und in Reaktion auf das Bereitstellen empfangener Kennzeichnungen der Teilmenge von nicht gekennzeichneten Datenpunkten. Die Schritte a) bis c) können unter Verwendung der Teilmenge von gekennzeichneten Datenpunkten zusätzlich zur aktuellen Menge von gekennzeichneten Datenpunkten als aktuelle Menge von gekennzeichneten Datenpunkten wiederholt werden.