METHOD AND ARRANGEMENT FOR HANDLING DATA SETS, DATA PROCESSING PROGRAM AND COMPUTER PROGRAM PRODUCT
    1.
    发明申请
    METHOD AND ARRANGEMENT FOR HANDLING DATA SETS, DATA PROCESSING PROGRAM AND COMPUTER PROGRAM PRODUCT 审中-公开
    处理数据集,数据处理程序和计算机程序产品的方法和安排

    公开(公告)号:WO2012034733A3

    公开(公告)日:2012-11-08

    申请号:PCT/EP2011062074

    申请日:2011-07-14

    CPC classification number: G06F17/10 G06F17/30569 G06F17/30598

    Abstract: An improved method for handling data sets (12, 14) is disclosed. The method comprises the steps of: Providing a first characteristic (20.1) associated with a first data set (12) and at least one of the following: A single data value (12') and a second characteristic (20.2) associated with a second data set (14); the provided characteristics allowing feasible comparison of the first data set (12), the second data set (14) and the single data value (12'), and calculating at least one of the following: Similarity of the first data set (12) with the second data set (14) based on the first and second characteristics (20.1, 20.2), similarity of the first data set (12) with the single data value (12') based on the first characteristic (20.1) and the single data value (12'), confidence indicating how well the first characteristic reflects properties of the first data set (12) based on the first characteristic, and confidence indicating how well the similarity of the first data set with the single data value (12') reflects properties of the single data value based on the first characteristic and the single data value (12').

    Abstract translation: 公开了一种用于处理数据集(12,14)的改进方法。 该方法包括以下步骤:提供与第一数据集(12)相关联的第一特征(20.1)以及以下至少一个:与第二数据集(12)关联的单个数据值(12')和第二特征(20.2) 数据集(14); 所提供的特征允许可行地比较第一数据集(12),第二数据集(14)和单个数据值(12'),并且计算以下至少一个:第一数据集(12) 与基于所述第一和第二特性(20.1,20.2)的所述第二数据集(14)相比较,基于所述第一特性(20.1),所述第一数据集(12)与所述单个数据值(12')的相似性, 数据值(12'),置信度指示第一特征基于第一特征反映第一数据集(12)的特性的程度,以及指示第一数据集与单个数据值(12')的相似性有多好的置信度, )基于第一特性和单个数据值(12')来反映单个数据值的特性。

    KOGNITIVE DATENANONYMISIERUNG
    2.
    发明专利

    公开(公告)号:DE112018004946B4

    公开(公告)日:2022-06-15

    申请号:DE112018004946

    申请日:2018-10-23

    Applicant: IBM

    Abstract: Computerimplementiertes Verfahren für Datenanonymisierung, das Folgendes umfasst:Empfangen einer Anfrage nach Daten, wobei die Anfrage mindestens einen Felddeskriptor abzurufender Daten und ein Verwendungsszenario eines Nutzers für die angefragten Daten aufweist,auf Grundlage des Verwendungsszenarios erfolgendes Ermitteln eines Anonymisierungsalgorithmus, der auf die Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht,Anwenden des ermittelten Anonymisierungsalgorithmus auf die Daten, auf die sich der Felddeskriptor bezieht,Testen, ob ein Anonymisierungsgrad eine das Verwendungsszenario betreffende Anforderung erfüllt,Bereitstellen von Zugriff auf die anonymisierten Daten auf Grundlage einer Feststellung, dass die Anforderung erfüllt wird,wobei:das Verfahren ferner Empfangen einer Rückmeldung von einem Nutzer, wobei die Rückmeldung eine Hilfe für maschinelles Lernen bildet, umfasst, und/oderVerallgemeinerungshierarchien bereitgestellt werden, um eine Ausführung eines Verallgemeinerungsalgorithmus zu ermöglichen, und/oderein Modell bereitgestellt wird, wobei das Modell eine Beziehung zwischen einem Anonymisierungsalgorithmus, einem Verwendungsszenario und einer Klassifizierung der Daten festlegt, und/odereine Interaktion mit dem Nutzer zugelassen wird, so dass der Nutzer mittels maschinellen Lernens das Anonymisierungsverfahren abändern kann.

    System und Verfahren zur Datenqualitätsüberwachung

    公开(公告)号:DE102012210794A1

    公开(公告)日:2013-02-07

    申请号:DE102012210794

    申请日:2012-06-26

    Applicant: IBM

    Abstract: Datenqualitätsüberwachung bezieht sich auf das Messen von Datenqualität geladener Daten in Bezug auf eine vordefinierte Datenqualitätsmessgröße. Die Datenqualität wird durch Anwenden eines in Qualitätsregeln definierten logischen Kalküls auf die geladenen Daten gemessen. Die Datenqualitätsmessung wird unter Verwendung von zumindest einem des Folgenden durchgeführt: Delta-Veränderungen der geladenen Daten und Delta-Veränderungen der Qualitätsregeln.

    SORTIEREN VON DATENELEMENTEN EINES BESTIMMTEN SATZES VON DATENELEMENTEN

    公开(公告)号:DE112021001565T5

    公开(公告)日:2022-12-29

    申请号:DE112021001565

    申请日:2021-04-16

    Applicant: IBM

    Abstract: Ein computerrealisiertes Verfahren wird zum Sortieren von Datenelementen eines bestimmten Satzes verwendet. Das Verfahren enthält ein Durchführen einer Bewertung einer ersten Art von Verwendung eines jeden Datenelements. Das Verfahren enthält ein Bestimmen eines Satzes von Datenelement-Kandidaten abhängig von der Bewertung der ersten Art von Verwendung. Das Verfahren enthält ein Durchführen einer Bewertung einer zweiten Art von Verwendung eines jeden Datenelements des Satzes von Datenelement-Kandidaten. Das Verfahren enthält ein Sortieren der Datenelemente des Satzes von Datenelement-Kandidaten abhängig von der Bewertung der zweiten Art von Verwendung eines jeden Datenelements des Satzes von Datenelement-Kandidaten. Das Verfahren enthält ein Bereitstellen der sortierten Datenelemente des Satzes von Datenelement-Kandidaten und als Reaktion hierauf ein Empfangen einer Anforderung einer Datenverarbeitung auf Grundlage der bereitgestellten sortierten Datenelemente des Satzes von Datenelement-Kandidaten.

    Discovering composite keys
    5.
    发明专利

    公开(公告)号:GB2505183A

    公开(公告)日:2014-02-26

    申请号:GB201214851

    申请日:2012-08-21

    Applicant: IBM

    Abstract: A computer-implemented method for detecting one or more multi-column composite key column sets, the method comprising: accessing (102) a plurality of first columns (Pl-P3); selecting (104) two or more of the first columns for use as a current set (218) of candidate columns; determining (106), by comparing object-identifiers stored in association with parameter values of the candidate columns with each other, if for the current sec of candidate columns at least one tuple (219) of parameter values exists whose parameter values are respectively stored in association with two or more shared ones of the object identifiers; in case said at least one tuple does not exist, identifying (110) the current candidate column set as a multi-column composite key column set; otherwise, replacing (112) the second candidate column by another selected one of the first columns or adding said other selected one of the first columns to the candidate column set.

    DYNAMISCHES ABÄNDERN DER PARALLELITÄT EINER AUFGABE IN EINER PIPELINE

    公开(公告)号:DE112020004116T5

    公开(公告)日:2022-07-21

    申请号:DE112020004116

    申请日:2020-10-21

    Applicant: IBM

    Abstract: In einem Ansatz zum dynamischen Ermitteln und Abändern der Parallelität einer bestimmten Aufgabe in einer Pipeline wird die optimale Ausführungszeit für jede Stufe in einer dynamischen Pipeline berechnet. Die tatsächliche Ausführungszeit jeder einzelnen Stufe in der dynamischen Pipeline wird gemessen. Es wird ermittelt, ob die tatsächliche Zeit der Fertigstellung des Datenverarbeitungsauftrags einen Schwellenwert überschreiten wird. Wenn festgestellt wird, dass die tatsächliche Zeit der Fertigstellung des Datenverarbeitungsauftrags den Schwellenwert überschreiten wird, werden zusätzliche Instanzen der Stufen erstellt.

    KOGNITIVE DATENANONYMISIERUNG
    7.
    发明专利

    公开(公告)号:DE112018004946T5

    公开(公告)日:2020-07-23

    申请号:DE112018004946

    申请日:2018-10-23

    Applicant: IBM

    Abstract: Ein computerimplementiertes Verfahren für Datenanonymisierung umfasst: Empfangen einer Anfrage nach Daten, die einer Anonymisierung bedürfen. Die Anfrage weist mindestens einen Felddeskriptor abzurufender Daten und ein Verwendungsszenario eines Nutzers für die angefragten Daten auf. Auf Grundlage des Verwendungsszenarios wird dann ein Anonymisierungsalgorithmus ermittelt, der auf die Daten anzuwenden ist, auf die sich der Felddeskriptor bezieht. Anschließend wird der ermittelte Anonymisierungsalgorithmus auf die Daten angewendet, auf die sich der Felddeskriptor bezieht. Es erfolgt ein Testen, ob der Anonymisierungsgrad eine das Verwendungsszenario betreffende Anforderung erfüllt. Falls die Anforderung erfüllt wird, wird Zugriff auf die anonymisierten Daten bereitgestellt.

    Verarbeiten von Datensätzen in einer Ablage für große Datenmengen

    公开(公告)号:DE112015000347T5

    公开(公告)日:2016-09-29

    申请号:DE112015000347

    申请日:2015-02-18

    Applicant: IBM

    Abstract: Die Erfindung stellt ein Verfahren zum Verarbeiten einer Mehrzahl von Datensätzen (05; 106; 108; 110 bis 113; DB1; DB2) in einer Datenablage (104) zum Speichern von zumindest unstrukturierten Daten bereit, wobei das Verfahren aufweist: – Bereitstellen (302) einer Menge von Agenten (150 bis 168), wobei jeder Agent funktionsmäßig in der Lage ist, das Verarbeiten eines oder mehrerer Datensätze auszulösen, wobei das Ausführen von jedem der Agenten automatisch ausgelöst wird, wenn eine oder mehrere Bedingungen erfüllt sind, die dem Agenten zugewiesen sind, wobei sich wenigstens eine der Bedingungen auf Vorhandensein, Struktur, Inhalt und/oder Anmerkungen des Datensatzes beziehen, dessen Verarbeitung durch den Agenten ausgelöst werden kann; – Ausführen (304) eines ersten der Agenten; – Aktualisieren (306) der Anmerkungen (115) des ersten Datensatzes durch den ersten Agenten; und – Ausführen (308) eines zweiten der Agenten, wobei das Ausführen durch die aktualisierten Anmerkungen des ersten Datensatzes ausgelöst wird, die die Bedingungen des zweiten Agenten erfüllen, wodurch ein weiteres Aktualisieren der Anmerkungen des ersten Datensatzes ausgelöst wird.

    Code-Analyse zum Bereitstellen von Datenschutz in ETL-Systemen

    公开(公告)号:DE102016102945A1

    公开(公告)日:2016-08-25

    申请号:DE102016102945

    申请日:2016-02-19

    Applicant: IBM

    Abstract: Bei einem Ansatz zum Bereitstellen von Datenschutz in Informationsintegrationssystemen empfängt ein während einer Kompilierung eines Informationsintegrationsvorgangs durchgeführtes Verfahren Informationen zu einer Datenflussstruktur des auszuführenden Informationsintegrationsvorgangs, wobei die Datenflussstruktur mindestens ein Quellsystem, eine oder mehrere Zieleinheiten und mindestens einen Operator zum Ändern von Ausgabedaten aufweist, die durch das Quellsystem bereitgestellt werden. Das Verfahren ermittelt Datenausstiegspunkte, an denen Ausgabedaten den Zieleinheiten bereitgestellt werden, und ermittelt mindestens eine nicht vertrauenswürdige Zieleinheit. Für jede nicht vertrauenswürdige Zieleinheit ermittelt das Verfahren, ob mindestens ein Datenfeld, das in den Ausgabedaten enthalten ist, die der nicht vertrauenswürdigen Zieleinheit bereitgestellt werden, als sensible Informationen eingestuft wird, und ändert – wenn dies der Fall ist – den Informationsintegrationsvorgang, indem unmittelbar vor einem Datenausstiegspunkt, welcher der nicht vertrauenswürdigen Zieleinheit zugehörig ist, ein Maskierungsoperator eingefügt wird, um die sensiblen Informationen zu maskieren.

    Generation of analysis reports using trusted and public distributed file systems

    公开(公告)号:GB2523761A

    公开(公告)日:2015-09-09

    申请号:GB201403752

    申请日:2014-03-04

    Applicant: IBM

    Abstract: A data processing system for: receiving an analysis request comprising multiple data analysis commands to generate an analysis report; dividing the commands into private analysis commands and public analysis commands; sending the private analysis commands to a trusted distributed file system; sending a portion of the public analysis commands to an public distributed file system; sending the remainder of the public analysis commands to the trusted distributed file system; and generating the analysis report using public analysis results from the public distributed file system and trusted analysis results from the trusted distributed file system.

Patent Agency Ranking