-
1.
公开(公告)号:WO2011080030A2
公开(公告)日:2011-07-07
申请号:PCT/EP2010069086
申请日:2010-12-07
Applicant: IBM , LI TIANCHAO , DRAESE OLIVER , BENDEL PETER , HRLE NAMIK
Inventor: LI TIANCHAO , DRAESE OLIVER , BENDEL PETER , HRLE NAMIK
IPC: H03M7/30
CPC classification number: H03M7/30
Abstract: Generation of occurrence data of data values is discussed, for enabling encoding of a data set. Occurrences of data values in a current data batch are determined. Occurrence count information for at most a first number (M) of most frequent data values in the current data batch are determined, the occurrence count information identifying the most frequent data values and their occurrence counts. For rest of the data values in the current data batch, at least a first histogram having a second number (N) of buckets is generated. The occurrence count information and the first histogram of the current data batch are merged to merged occurrence count information and merged histogram of data batches processed earlier. A next data batch is processed as a current data batch until the whole data set has been processed. An encoding scheme is determined based at least on the merged occurrence count information and the merged histogram corresponding to the data set.
Abstract translation: 讨论了数据值的出现数据的生成,用于使得能够对数据集进行编码。 确定当前数据批次中数据值的出现。 确定当前数据批次中最多数据值(M)的最多数量(M)的出现计数信息,识别最频繁数据值的发生次数信息及其发生次数。 对于当前数据批次中的其余数据值,至少产生具有第二数量(N)的桶的第一直方图。 当前数据批次的发生次数信息和第一个直方图被合并到合并的发生次数信息和较早处理的数据批处理的合并直方图。 下一个数据批处理作为当前数据批处理,直到整个数据集被处理。 至少基于与数据集对应的合并发生次数信息和合并直方图来确定编码方案。
-
公开(公告)号:DE112010004531T5
公开(公告)日:2012-08-30
申请号:DE112010004531
申请日:2010-12-07
Applicant: IBM
Inventor: LI TIANCHAO , DRAESE OLIVER , BENDEL PETER , HRLE NAMIK
IPC: H03M7/30
Abstract: Erörtert wird die Erzeugung von Vorkommensdaten von Datenwerten, um die Codierung einer Datei zu ermöglichen. Die Vorkommen von Datenwerten in einem aktuellen Datenstapel werden ermittelt. Vorkommenszählungs-Informationen für höchstens eine erste Anzahl (M) von häufigsten Datenwerten im aktuellen Datenstapel werden ermittelt, wobei die Vorkommenszählungs-Informationen die häufigsten Datenwerte und ihre Vorkommensanzahlen angeben. Für den Rest der Datenwerte im aktuellen Datenstapel wird mindestens ein erstes Histogramm mit einer zweiten Anzahl (N) von Intervallen erzeugt. Die Vorkommenszählungs-Informationen und das erste Histogramm des aktuellen Datenstapels werden mit zusammengeführten Vorkommenszählungs-Informationen und einem zusammengeführten Histogramm früher verarbeiteter Datenstapel zusammengeführt. Ein nächster Datenstapel wird als ein aktueller Datenstapel verarbeitet, bis die ganze Datei verarbeitet wurde. Ein Codierungsschema wird auf Grundlage mindestens der zusammengeführten Vorkommenszählungs-Informationen und des der Datei entsprechenden, zusammengeführten Histogramms ermittelt.
-
公开(公告)号:GB2500532A
公开(公告)日:2013-09-25
申请号:GB201311399
申请日:2011-11-03
Applicant: IBM
Inventor: STOLZE KNUT , BEIER FELIX , DRAESE OLIVER
Abstract: An improved method for encoding data stored in a column-oriented manner, comprises using a data mining algorithm (4) for finding frequent column patterns (5) among a set of data tuples, wherein each data tuple is containing a set of columns, and said data mining algorithm (4) is treating all columns and all column combinations and column ordering similarly when looking for column patterns; ordering column values occurring in said frequent column patterns (5) based on their frequencies into a prefix tree, wherein said prefix tree is defining a pattern order; sorting said data tuples according to said pattern order (7), resulting in sorted data tuples; and encoding columns of said sorted data tuples using run-length encoding.
-
公开(公告)号:DE112010004531B4
公开(公告)日:2016-11-10
申请号:DE112010004531
申请日:2010-12-07
Applicant: IBM
Inventor: LI TIANCHAO , DRAESE OLIVER , BENDEL PETER , HRLE NAMIK
IPC: H03M7/30
Abstract: Computergestütztes Verfahren zum Codieren oder Komprimieren einer Datei, wobei Vorkommensdaten von Datenwerten zum Codieren der Datei erzeugt werden, enthaltend die Schritte: (a) Aufteilen der Datei in mehrere Stapel; (b) Ermitteln der Vorkommen von Datenwerten in einem ersten Datenstapel; (c) Ermitteln von Vorkommenszählungs-Informationen für höchstens eine erste Anzahl (M) häufigster Datenwerte in dem Datenstapel, wobei die Vorkommenszählungs-Informationen die häufigsten Datenwerte und ihre Vorkommensanzahlen angeben; (d) Erzeugen mindestens eines ersten Histogramms mit einer zweiten Anzahl (N) von Intervallen für den Rest der Datenwerte in dem Datenstapel; (e) Ermitteln der Vorkommen von Datenwerten in einem weiteren Datenstapel; (f) Ermitteln von Vorkommenszählungs-Informationen für höchstens eine erste Anzahl (M) häufigster Datenwerte in dem weiteren Datenstapel, wobei die Vorkommenszählungs-Informationen die häufigsten Datenwerte und ihre Vorkommensanzahlen angeben; (g) Erzeugen mindestens eines weiteren Histogramms mit einer zweiten Anzahl (N) von Intervallen für den Rest der Datenwerte in dem Datenstapel; (h) Zusammenführen der Vorkommenszählungs-Informationen des weiteren Datenstapels mit den Vorkommenszählungs-Informationen des zuerst verarbeiteten Datenstapels durch jeweiliges Zusammenzählen der Vorkommensanzahlen für Elemente mit dem gleichen Wert; (i) Zusammenführen des Histogramms des weiteren Datenstapels mit dem Histogramm des als erstes verarbeiteten Datenstapels durch Zusammenzählen der Vorkommensanzahlen für Histogramm-Intervalle mit den gleichen Werten; ...
-
公开(公告)号:DE112011104005T5
公开(公告)日:2013-08-29
申请号:DE112011104005
申请日:2011-11-03
Applicant: IBM
Inventor: STOLZE KNUT , BEIER FELIX , DRAESE OLIVER
Abstract: Ein verbessertes Verfahren zum Codieren von in einer spaltenorientierten Weise gespeicherten Daten weist auf ein Verwenden eines Data-Mining-Algorithmus (4) zum Suchen häufiger Spaltenmuster (5) unter einem Satz von Datentupeln, wobei jedes Datentupel einen Satz von Spalten enthält, und der Data-Mining-Algorithmus (4) alle Spalten und alle Spaltenkombinationen und Spaltenordnungen gleich behandelt, wenn er nach Spaltenmustern sucht; ein Ordnen von in den häufigen Spaltenmustern (5) vorkommenden Spaltenwerten auf der Grundlage ihrer Häufigkeiten in einen Präfixbaum, wobei der Präfixbaum eine Musterordnung festlegt; ein Sortieren der Datentupel entsprechend der Musterordnung (7), was zu sortierten Datentupeln führt; und ein Codieren von Spalten der sortierten Datentupel mithilfe von Lauflängencodierung.
-
公开(公告)号:GB2490068B
公开(公告)日:2015-07-22
申请号:GB201213200
申请日:2010-12-07
Applicant: IBM
Inventor: LI TIANCHAO , DRAESE OLIVER , BENDEL PETER , HRLE NAMIK
IPC: H03M7/30
-
公开(公告)号:GB2490068A
公开(公告)日:2012-10-17
申请号:GB201213200
申请日:2010-12-07
Applicant: IBM
Inventor: LI TIANCHAO , DRAESE OLIVER , BENDEL PETER , HRLE NAMIK
IPC: H03M7/30
Abstract: Generation of occurrence data of data values is discussed, for enabling encoding of a data set. Occurrences of data values in a current data batch are determined. Occurrence count information for at most a first number (M) of most frequent data values in the current data batch are determined, the occurrence count information identifying the most frequent data values and their occurrence counts. For rest of the data values in the current data batch, at least a first histogram having a second number (N) of buckets is generated. The occurrence count information and the first histogram of the current data batch are merged to merged occurrence count information and merged histogram of data batches processed earlier. A next data batch is processed as a current data batch until the whole data set has been processed. An encoding scheme is determined based at least on the merged occurrence count information and the merged histogram corresponding to the data set.
-
公开(公告)号:GB2459354A
公开(公告)日:2009-10-28
申请号:GB0905817
申请日:2009-04-03
Applicant: IBM
Inventor: STOLZE KNUT , DRAESE OLIVER , STAEBLER BENNO , STEINBACH TORSTEN
IPC: G06F17/30
Abstract: Emulating a plurality of databases (logical databases 205, 206, 207) using a single physical database 208. A database system (110, fig 1) comprising a plurality of databases (103, fig 1) on a plurality of servers, each database coupled to at least one application 201-203 (101, fig 1) of a set of applications. Consolidation of such a system to a single physical database comprises substituting all logical names from the plurality of databases with a unique physical name for all the plurality of databases. A mapping catalogue (106, fig 1; 316, fig 3) is created which comprises the logical names and their assigned unique physical names, the mapping catalogue being located in a physical layer. Each database is saved with its unique physical names into a different segment 209-211 of the single database 208, the single database being located in the physical layer. A consolidation layer 204 is provided which is coupled to each application 201-203. A separate consolidation layer (105, fig 1; 306-310, fig 3) is provided for each application and is coupled to the mapping catalogue and to the single database. The consolidation layer is adapted to receive queries from the applications, search the mapping catalog, rewrite the queries and forward the rewritten queries to the single database. The response from the single database may also be rewritten. The plurality of databases are simulated as logical databases and consolidation is transparent for the applications.
-
-
-
-
-
-
-