PROBABILISTIC DATA MINING MODEL COMPARISON ENGINE
    1.
    发明申请
    PROBABILISTIC DATA MINING MODEL COMPARISON ENGINE 审中-公开
    概率数据挖掘模型比较引擎

    公开(公告)号:WO2012045496A3

    公开(公告)日:2012-09-07

    申请号:PCT/EP2011062076

    申请日:2011-07-14

    CPC classification number: G06F17/18 G06K9/62

    Abstract: Comparison engine for comparing a first data mining model and a second data mining model is disclosed. A first data mining model M1 represents results of a first data mining task on a first data set D1 and provides a set of first prediction values. A second data mining model M2 represents results of a second data mining task on a second data set D2 and provides a set of second prediction values. A relation R is determined between said sets of prediction values. For at least a first record of an input data set, a first and second probability distribution is created based on the first and second data mining models applied to the first record, said probability distributions associating probabilities with said sets of prediction values.A distance measure d is calculated for said first record using the first and second probability distributions and the relation. At least one region of interest is determined based on said distance measure d.

    Abstract translation: 公开了用于比较第一数据挖掘模型和第二数据挖掘模型的比较引擎。 第一数据挖掘模型M1表示第一数据集D1上的第一数据挖掘任务的结果并提供一组第一预测值。 第二数据挖掘模型M2表示第二数据集D2上的第二数据挖掘任务的结果并提供一组第二预测值。 在所述多组预测值之间确定关系R. 对于输入数据集的至少第一记录,基于应用于第一记录的第一和第二数据挖掘模型来创建第一和第二概率分布,所述概率分布将概率与所述组预测值相关联。 使用第一和第二概率分布和关系为所述第一记录计算d。 基于所述距离度量d来确定至少一个感兴趣区域。

    Performing code optimization
    2.
    发明专利

    公开(公告)号:GB2494268A

    公开(公告)日:2013-03-06

    申请号:GB201215035

    申请日:2012-08-23

    Applicant: IBM

    Abstract: Method comprising: obtaining 30 performance profiling data (from sampling logs) associated with execution of first code on first physical platform (target); constructing 32 an instruction sequence (like LOAD, MOVE, OR, STORE) and determining the association relationship between the sequence and performance defect events according to the data; providing 34 the relationship to another physical platform. Events are: Cache Miss, TLB Miss, Stall, Recycle. A second code on second platform (developer-platform) is optimised using the relationship, optimizing execution of the second code on first platform. Developed code is optimised on development platform based on the association relationship (cross-platform performance optimisation). The association relationship is based on sequence and defects occurrence times or clustering based on information entropy. The association relationship reflects hardware features of first platform, does not relate to detailed code, and does not leak code information execution on first platform or cause security risks after transmission to second platform.

    Method and system for predictive modeling

    公开(公告)号:GB2515056A

    公开(公告)日:2014-12-17

    申请号:GB201310453

    申请日:2011-11-03

    Applicant: IBM

    Abstract: A method (100) for carrying out a predictive analysis is provided which generates a predictive model (Padj (Y | X)) based on two separate pieces of information, namely - a set of original training data (Dorig), and - a "true" distribution of indicators (Ptrue(X)). The method (100) begins by generating a base model distribution (Pgen(Y | X)) from the original training data set (Dorig) containing tuples (x, y) of indicators (x) and corresponding labels (y) (step 120). Using the "true" distribution (Ptrue(X)) of indicators, a random data set (D') of indicator records (x) is generated reflecting this "true" distribution (Ptrue(X)) (step 140). Subsequently, the base model (Pgen(Y | X)) is applied to said random data set (D'), thus assigning a label (y) or a distribution of labels to each indicator record (x) in said random data set (D') and generating an adjusted training set (Dadj) (step 150). Finally, an adjusted predictive model (Padj (Y | X)) is trained based on said adjusted training set (Dadj) (step 160).

    Verfahren und System zum Mining von Mustern in einem Datensatz

    公开(公告)号:DE102014116117B4

    公开(公告)日:2020-06-18

    申请号:DE102014116117

    申请日:2014-11-05

    Applicant: IBM

    Abstract: Durch Computer realisiertes Verfahren zum Zugreifen auf Daten in einem Datenbanksystem (100), wobei das Datenbanksystem (100) ein Empfangsmodul (129), ein Mustermodul (131) und ein Analysemodul (133) aufweist, wobei das Verfahren aufweist:- Empfangen einer ersten Abfrage von einem ersten Benutzer nach einem in dem Datenbanksystem (100) gespeicherten Datensatz mithilfe des Empfangsmoduls (129);- als Reaktion auf die empfangene erste Abfrage, Bereitstellen einer ersten Menge von Mustern (Muster_1 bis Muster_n) in der Datenbank mithilfe des Mustermoduls (131), mit entsprechenden ersten Signifikanzwerten;- Bereitstellen, mithilfe des Mustermoduls (131), einer Menge von Markierungen (Markierung_1 bis Markierung_3) zum Markieren eines ersten Musters aus der ersten Menge von Mustern (Muster_1 bis Muster_n), wobei die Menge von Markierungen (Markierung_1 bis Markierung_3) mindestens zwei das Muster beschreibende Datenkategorien anzeigt;- Empfangen eingegebener Informationen von dem ersten Benutzer mithilfe des Empfangsmoduls (129), die Markierungen von mindestens einer ersten Teilmenge von Mustern (Muster_1 bis Muster_m) der ersten Menge von Mustern (Muster_1 bis Muster_n) anzeigen, wobei die Markierungen aus der Menge von Markierungen (Markierung_1 bis Markierung_3) ausgewählt sind;- Anpassen der ersten Signifikanzwerte der ersten Teilmenge von Mustern (Muster_1 bis Muster_m) auf Grundlage der Markierungen mithilfe des Analysemoduls (133);- Empfangen einer zweiten Abfrage nach dem Datensatz in dem Datenbanksystem (100) von einem zweiten Benutzer;- Bereitstellen einer zweiten Menge von Mustern (Muster_m - 5 bis Muster_v) mit entsprechenden Signifikanzwerten in der Datenbank als Reaktion auf die empfangene zweite Abfrage;- Empfangen von eingegebenen Informationen von dem zweiten Benutzer, die Markierungen mindestens einer zweiten Teilmenge (Muster_m - 9 bis Muster_m + 6) von Mustern aus der zweiten Menge von Mustern (Muster_m - 5 bis Muster_v) anzeigen;- Ermitteln einer Anzahl identischer Muster (Muster_m - 5 bis Muster_m), die mit derselben Markierung markiert sind, in der ersten (Muster_1 bis Muster_m) und zweiten (Muster_m - 9 bis Muster_m + 6) Teilmenge;- als Reaktion auf eine Feststellung, dass die Anzahl identischer Muster höher als ein vorgegebener Ähnlichkeits-Schwellenwert ist, Zuweisen, zu jedem Muster aus den identischen Mustern (Muster_m - 5 bis Muster_m) und zu sowohl dem ersten als auch dem zweiten Benutzer, einer gemeinsamen Menge von Markierungszählern, die jeweils der Menge von Markierungen (Markierung_1 bis Markierung_3) entsprechen, wobei die gemeinsame Menge von Markierungszählern eine Kombination aus entsprechenden Mengen von Markierungszählern ist, die separat dem ersten und zweiten Benutzer zugewiesen werden; und- Anpassen der Signifikanzwerte der identischen Muster (Muster_m - 5 bis Muster_m) mithilfe der gemeinsamen Markierungszähler.

    Schätzen von Rechenressourcen für die Ausführung von Data-Mining-Diensten

    公开(公告)号:DE112016001902T5

    公开(公告)日:2018-01-04

    申请号:DE112016001902

    申请日:2016-05-19

    Applicant: IBM

    Abstract: Die Rechenressourcen für die Ausführung einer Data-Mining-Aufgabe über ein verteiltes Datenverarbeitungssystem werden geschätzt. Der Datensatz, auf dessen Grundlage die Data-Mining-Aufgabe durchgeführt wird, und/oder Datendeskriptoren, die Merkmale des Datensatzes beschreiben oder begrenzen, welche relevant sind, werden empfangen. Ein oder mehrere Steuerwerte für die Data-Mining-Aufgabe und zusätzlich ein oder mehrere Aufgabenparameter, die die Data-Mining-Aufgabe angeben, werden empfangen. Die Rechenressourcen, um die Data-Mining-Aufgabe über das verteilte Datenverarbeitungssystem auf der Grundlage des empfangenen Datensatzes oder der empfangenen Datendeskriptoren, des einen oder der mehreren Steuerwerte und des einen oder der mehreren Aufgabenparameter durchzuführen, werden geschätzt.

    Verfahren und System zum Mining von Mustern in einem Datensatz

    公开(公告)号:DE102014116117A1

    公开(公告)日:2015-05-13

    申请号:DE102014116117

    申请日:2014-11-05

    Applicant: IBM

    Abstract: Die vorliegende Erfindung betrifft ein durch Computer realisiertes Verfahren zum Zugreifen auf Daten in einem Datenbanksystem (100), wobei das Datenbanksystem (100) ein Empfangsmodul (129), ein Mustermodul (131) und ein Analysemodul (133) aufweist. Das Verfahren weist ein Empfangen einer ersten Abfrage von einem ersten Benutzer nach einem in dem Datenbanksystem (100) gespeicherten Datensatz durch das Empfangsmodul (129) auf; ein Bereitstellen einer ersten Menge von Mustern in dem Datensatz mithilfe des Mustermoduls (131) und ein Bereitstellen eines Signifikanzwerts für jedes Muster in der ersten Menge von Mustern als Reaktion auf die empfangene erste Abfrage; ein Bereitstellen, mithilfe des Mustermoduls (131), einer Menge von Markierungen (Markierung_1 bis Markierung_3) zum Markieren eines Musters aus der ersten Menge von Mustern (Muster_1 bis Muster_n), wobei die Menge von Markierungen (Markierung_1 bis Markierung_3) mindestens zwei das Muster beschreibende Datenkategorien anzeigt; ein Empfangen eingegebener Informationen von dem ersten Benutzer mithilfe des Empfangsmoduls (129), die Markierungen mindestens einer ersten Teilmenge von Mustern (Muster_1 bis Muster_m) aus der ersten Menge von Mustern (Muster_1 bis Muster_n) anzeigen, wobei jede Markierung aus den Markierungen aus der Menge von Markierungen (Markierung_1 bis Markierung_3) ausgewählt ist; ein Anpassen der Signifikanzwerte der ersten Teilmenge von Mustern (Muster_1 bis Muster_m) auf Grundlage der Markierungen mithilfe des Analysemoduls (133).

    Bereitstellung einer Zuordnungsrelation und Durchführen einer Codeoptimierung

    公开(公告)号:DE102012214672A1

    公开(公告)日:2013-02-28

    申请号:DE102012214672

    申请日:2012-08-17

    Applicant: IBM

    Abstract: Ein Verfahren und eine System zum Durchführen einer Leistungsoptimierung werden bereitgestellt. Das Verfahren umfasst Folgendes: Empfangen der Leistungsprofilierdaten, die der Ausführung eines ersten Codes zugeordnet sind, auf der ersten physischen Plattform; gemäß den Leistungsprofilierdaten Ermitteln der Zuordnungsrelation zwischen der Anweisungssequenz und den Leistungsmangelereignissen; und Bereitstellen der Zuordnungsrelation für eine andere physische Plattform. Die zweite physische Plattform kann die Zuordnungsrelation erhalten und die Zuordnungsrelation dazu verwenden, den zweiten Code zu optimieren, wodurch die Ausführungsleistung des zweiten Codes auf der ersten Plattform optimiert wird. Die in der Erfindung bereitgestellte Vorrichtung entspricht dem vorstehend beschriebenen Verfahren. Das erfindungsgemäße Verfahren und die erfindungsgemäße Vorrichtung können es ermöglichen, den entwickelten Code auf der Entwicklungsplattform auf der Grundlage der auf der Zielplattform erzeugten Zuordnungsrelation zu optimieren, wodurch die plattformübergreifende Leistungsoptimierung realisiert und der Optimierungsprozess effektiver wird.

    Asynchronous resource usage collection and control of fenced user code

    公开(公告)号:GB2527081A

    公开(公告)日:2015-12-16

    申请号:GB201410350

    申请日:2014-06-11

    Applicant: IBM

    Abstract: A method for managing resource consumption in a computing system where the resources are consumed by a plurality of user-defined functions (UDF) performing tasks for a database management system, wherein the UDFs are executed by a plurality of processes external to the database management system. The method comprises providing a resource policy by defining a plurality of threshold values relating to the resource consumption and performing an action e.g. queuing, rejection, suspension, as defined by the policy, on at least one of the UDF. The UDF may run fenced, meaning that they are not executed within the same process as the main database engine but rather by a separate external process i.e. its resource consumption is not controlled by the database management system. The resource policy may denote a rule or set of rules relating to one or more resources of a computing system together with a threshold value for the related resource and an action to invoke if threshold is exceeded.

    Method and system for mining patterns in a dataset

    公开(公告)号:GB2525572A

    公开(公告)日:2015-11-04

    申请号:GB201320016

    申请日:2013-11-13

    Applicant: IBM

    Abstract: A computer implemented method for accessing data in a database system (100), the database system (100) comprising a receiver module (129), pattern module (131) and an analysis module (133). The method comprises: receiving, by the receiver module (129), from a first user, a first query for a dataset stored in the database system (100); providing, by the pattern module (131), a first set of patterns in the dataset, and providing for each pattern in the first set of patterns a significance value in response to the received first query; providing, by the pattern module (131), a set of tags for flagging a pattern of the first set of patterns the set of tags indicating at least two data categories describing the pattern; receiving, by the receiver module (129), from the first user, input information indicating tags of at least a first subset of patterns of the first set of patterns, wherein each tag of the tags is selected from the set of tags; adjusting, by the analysis module (133), the significance values of the first subset of patterns based on the tags.

Patent Agency Ranking