-
公开(公告)号:CN103020299B
公开(公告)日:2016-01-13
申请号:CN201210591989.9
申请日:2012-12-29
Applicant: 国家计算机网络与信息安全管理中心 , 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种全文检索系统中的高效保存倒排索引的方法,包括:检测索引单元数据长度是否大于阀值K;如果索引单元数据大于n*K且小于(n+1)*K(n为自然数),将索引单元数据从开始部分至n*K的部分存入索引单元数据数据块,将剩余索引单元数据存入B树中;如果索引单元数据等于n*K,将索引单元数据从开始部分至n*K的部分存入索引单元数据数据块;如果索引单元数据小于K,将索引单元数据全部存入B树中。本发明的有益效果是能够有效的提高倒排文档的全文索引的存储效率,提高了数据读取速率,能够方便实现写时复制(Copy On Write)机制,进而提高了数据安全性和读取数据的并发指标。
-
公开(公告)号:CN104516978A
公开(公告)日:2015-04-15
申请号:CN201410851266.7
申请日:2014-12-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
CPC classification number: G06F17/30442
Abstract: 本发明提供一种用于数据库入侵检测领域的压缩中间候选频繁项集的算法,包括如下步骤:1)依据目标事务数目值,从事务数据库中筛选出项目数不小于目标事务数目值的事务作为新事务数据库;2)使用Apriori算法的连接步骤和剪枝步骤,扫描新事务数据库,计算产生频繁1-项集L(1);3)找出频繁1-项集L(1)中的数目排在前面的与目标事务数目值相同数值的几项候选项集;4)扫描候选项集,得到目标事务数目值的频繁项集。本发明具有的优点和积极效果是:能免去按照自然数顺序,从1开始,逐个生成中间候选频繁项集和中间频繁项集的操作,大幅提高了数据挖掘搜索效率;达到减少数据库扫描工作量,从而大幅提高了计算频繁项集的速度。
-
公开(公告)号:CN104391918A
公开(公告)日:2015-03-04
申请号:CN201410663305.0
申请日:2014-11-19
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
CPC classification number: G06F17/30575 , G06F17/30474
Abstract: 本发明提供基于对等部署的分布式数据库查询优先级管理的实现方法,包含:对于分布式数据库的每个查询执行节点,按照相同的集群既定的优先级定义将其资源按照一定的比例进行划分;在各个执行节点上建立一致的基于集群优先级的任务队列,每个任务队列可管理一定数目的查询任务,集群为查询任务提供全局唯一的任务ID,查询任务按照任务ID在任务队列中排序;各个执行节点对于任务队列,采用相同的调度模式,高优先级出列的任务会多于低优先级。本发明具有的优点和积极效果是:对不同优先级别对各个执行节点统一按比例划分资源,以确保高优先级查询可获得更多执行资源;只需各个执行节点按照同样的策略部署即可而无需统一的资源管理中心。
-
公开(公告)号:CN104376088A
公开(公告)日:2015-02-25
申请号:CN201410665568.5
申请日:2014-11-19
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
CPC classification number: G06F17/30575 , G06F17/30371
Abstract: 本发明提供一种云数据库的分布式同步方法,包括:在数据库中的每个节点启动数据同步的服务;扫描各个节点的操作日志;将有问题的日志放到恢复队列中;恢复线程会从恢复队列中将问题日志取出,分析数据错误的库名称、表名称、表ID等;寻找相对应表的备份所在的节点;调用同步工具,将正确节点的数据发送到错误节点中;错误节点在接收到同步数据包后,将这些数据保存到自己的硬盘上,从而实现了各个节点间数据的一致性;数据同步的操作完成后,删除有问题的日志。本发明的有益效果是:能及时地发现节点中的错误数据;并且能够自动地进行数据同步的操作,极大地减少了人为操作出错的可能性,增强了云数据库的安全性和可用性。
-
公开(公告)号:CN104375906A
公开(公告)日:2015-02-25
申请号:CN201410664300.X
申请日:2014-11-19
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F11/14
Abstract: 本发明提供了一种基于文件系统的大规模备份数据快速校验方法:包括:备份索引文件;所述备份索引文件包括实际备份数据的文件夹和文件块;所述文件夹包括文件夹的路径;所述文件块包括文件块所在文件的路径、起始偏移、文件块大小和校验值。本发明的有益效果为:以文件块为最小备份单位,无需关注整个文件的校验值;这种备份数据的组织形式,有利于使用多核CPU资源进行并行校验;校验数据时,除校验所有文件块以外,仅需校验文件大小的总和以及文件夹的存在情况,即可确保备份数据严格正确,避免了大规模的归并运算。
-
公开(公告)号:CN109960573B
公开(公告)日:2021-01-08
申请号:CN201811643211.1
申请日:2018-12-29
Applicant: 天津南大通用数据技术股份有限公司
Abstract: 本发明提出一种基于智能感知的跨域计算任务调度方法及系统,包括:步骤1、基于标签数据训练决策树模型;步骤2、基于相对时间复杂度估算计算任务的执行时间;步骤3、基于资源历史记录和ARIMA算法预测各域的资源变化趋势指标;步骤4、使用资源状态接口获取各个域的资源实时状态指标;步骤5、基于可用带宽估算数据迁移到各个域的迁移时间;步骤6、基于决策树模型和综合指标决策任务最优执行域。本发明创造性地将趋势预测算法和决策树算法综合应用于跨域计算任务调度场景,避免了任务资源抢占现象,解决了调度决策正确率低的问题;通过流式机器学习技术,克服了趋势预测算法和决策树算法的性能问题,大幅缩短了跨域计算任务调度整体时间。
-
公开(公告)号:CN108268611A
公开(公告)日:2018-07-10
申请号:CN201711473670.5
申请日:2017-12-29
Applicant: 天津南大通用数据技术股份有限公司
Abstract: 本发明提供一种基于MapReduce的k-means文本聚类的方法及装置。包括,删除离群点,最大距离法选取初始簇中心,构造迭代中的簇中心计算公式和测度函数,设计基于MapReduce框架的大规模文本并行聚类模型。采用本发明的方法,可以有效解决传统K-means聚类算法中的局部最优、迭代次数过多、聚类结果不稳定的问题,提高算法的并行能力和可扩展性。
-
公开(公告)号:CN104484471B
公开(公告)日:2017-09-15
申请号:CN201410850174.7
申请日:2014-12-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种高性能数据存储引擎的实现方法。本引擎主要用于批量追加数据,数据更新操作较少,且仅需基于键值的等值查询的使用场景。因而,并发访问方面,本引擎支持单写多读,即一个写操作可以和多个读操作并发,多个写操作之间只能串行执行。本引擎中存储的每一条数据都需要一个键值,多条数据的键值可以重复,读取数据时,只能基于该键值进行等值查询。性能方面,数据入库性能与增量数据的数据量呈线性关系,且仅与增量数据量有关,即使存量数据达到千亿行的规模,入库性能也不会呈现明显衰减。
-
公开(公告)号:CN106407309A
公开(公告)日:2017-02-15
申请号:CN201610777843.1
申请日:2016-08-31
Applicant: 天津南大通用数据技术股份有限公司
Abstract: 本发明涉及一种支持多种数据源的集群数据库数据加载工具及方法。其目的是为了提供一种认证快捷、认证方式多样的集群数据库数据加载工具及方。本发明包括加载工具使用接口、加载任务管理模块、加载任务执行模块、读数据模块、数据源访问模块、写数据模块和数据库访问模块。加载工具使用接口用于启动加载任务,并将各个任务的参数传递给加载任务管理模块;加载任务管理模块用于保存、维护和调度所有接收到的加载任务;加载任务执行模块用于负责具体加载任务的执行;读数据模块用于提供统一的读取数据接口;数据源访问模块用于从具体的数据源上读取数据;写数据模块用于提供统一的写数据接口;数据库访问模块用于将接收到的数据加载进集群数据库。
-
公开(公告)号:CN106383845A
公开(公告)日:2017-02-08
申请号:CN201610777712.3
申请日:2016-08-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
CPC classification number: G06F16/284 , G06F16/21
Abstract: 本发明提供一种基于共享存储的MPP数据库数据重分布系统,包括共享存储系统、MPP集群管理节点和MPP集群分布式计算节点。一种基于共享存储的MPP数据库数据重分布系统,用于解决现有MPP数据库中数据重分布的性能问题。该方法能够依据分布式存储系统,使MPP数据库在计算节点扩容时,快速实现数据的重分布,避免现有MPP系统数据重分布的性能问题以及业务并发问题,使在线业务几乎不影响。
-
-
-
-
-
-
-
-
-