-
公开(公告)号:CN106372163A
公开(公告)日:2017-02-01
申请号:CN201610777842.7
申请日:2016-08-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种适用于分布式数据库的数据分发方法及装置,其中,所述方法包括:存在数据分发任务时,对所述数据按照最小存储单位进行拆分;计算拆分的最小存储单位数据的分布目标,并根据所述分布目标向节点分发数据。通过对所述数据按照最小存储单位进行拆分;计算拆分的数据的分布目标,向所述分布目标分发数据。由于将物化继续推迟,保持整个数据计算过程尽可能的不物化或少物化数据,降低磁盘I/O。直到最后按照分布规则拆分时才将数据进行物化。减少了预算工作量和系统负担。
-
公开(公告)号:CN104462334A
公开(公告)日:2015-03-25
申请号:CN201410727736.9
申请日:2014-12-03
Applicant: 天津南大通用数据技术股份有限公司
CPC classification number: G06F16/215
Abstract: 本发明旨在提供一种在列存储数据库中自适应的智能压缩方法。包括,多种压缩算法构成的复合压缩引擎,对一列中的数据进行抽样分析特征,按照特征缩减压缩引擎中备选算法的范围,通过采样压缩的方式选定压缩算法,以及同一压缩方法的步长控制防止抽样异常造成整列压缩效果不佳。本发明可以在列存数据库中对存储数据进行有效的压缩,通过复合算法引擎适应不同的数据。而数据抽样以及采样可以有效的在相近算法中做出选择,避免了传统复合算法下追求压缩比而造成的过量计算,兼顾压缩速度与压缩比的综合结果。
-
公开(公告)号:CN106372163B
公开(公告)日:2020-12-04
申请号:CN201610777842.7
申请日:2016-08-31
Applicant: 天津南大通用数据技术股份有限公司
Abstract: 本发明提供了一种适用于分布式数据库的数据分发方法及装置,其中,所述方法包括:存在数据分发任务时,对所述数据按照最小存储单位进行拆分;计算拆分的最小存储单位数据的分布目标,并根据所述分布目标向节点分发数据。通过对所述数据按照最小存储单位进行拆分;计算拆分的数据的分布目标,向所述分布目标分发数据。由于将物化继续推迟,保持整个数据计算过程尽可能的不物化或少物化数据,降低磁盘I/O。直到最后按照分布规则拆分时才将数据进行物化。减少了预算工作量和系统负担。
-
公开(公告)号:CN106407307A
公开(公告)日:2017-02-15
申请号:CN201610777565.X
申请日:2016-08-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种分布式数据库节点数据交互方法及装置,其中,所述发送方法包括:发送端将欲发送的数据存储在缓存中;检测所述缓存的数据是否满足预设条件,在满足预设条件时,向接收端发送缓存的数据。本发明实施例通过将发送或者接收的数据预先存储在缓存中,在满足条件时,才执行对应的发送或者写入操作,可以控制发送或者接收数据的规模,避免大量I/O操作产生的大量碎片。
-
-
公开(公告)号:CN104376119A
公开(公告)日:2015-02-25
申请号:CN201410729620.9
申请日:2014-12-03
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
CPC classification number: G06F17/30315 , G06F17/30333
Abstract: 本发明旨在提供一种在超大规模列存数据库中快速定位及访问数据的方法。包括,将列存数据根据特征进行数据块划分,对全部数据块建立多阶特征索引。本发明中数据的特征划分使同类数据相聚合,降低数据块内部离散度,访问更加精准。而高阶索引可以加快数据过滤速度,并有效控制对低阶索引和数据的访问。以上两种方式将大量减少内存与I/O设备间的数据交换,提高数据库运行效率。
-
-
-
-
-