-
公开(公告)号:CN109871248A
公开(公告)日:2019-06-11
申请号:CN201811643214.5
申请日:2018-12-29
Applicant: 天津南大通用数据技术股份有限公司
Abstract: 本发明提供了一种可变间隔的去除重复流数据的会话窗口设计方法,包括如下内容:构建分配器,用于创建窗口并为窗口分配元素;为每一个窗口构建驱动器,驱动器用于对窗口进行操作;构建输出器,用于按照预设规则输出窗口中的元素;为窗口创建合并机制。本发明通过特定的合并窗口机制实现窗口的重复数据的去除。
-
公开(公告)号:CN109784387A
公开(公告)日:2019-05-21
申请号:CN201811647945.7
申请日:2018-12-29
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06K9/62
Abstract: 本发明提出一种基于神经网络和贝叶斯模型的多层次递进分类方法及系统,包括:神经网络数据预处理,对第一层模型准备好神经网络训练模型的特征向量和预测结果;神经网络的训练,在准备好的数据上进行神经网络模型的训练,构建大类层次的分类器模型;贝叶斯模型的训练,在每个大类下建立该类别的贝叶斯网络模型;待分类样本的预测步骤。本发明充分利用不同模型的优缺点,对海量数据根据层次的需要做了分批训练,由此一系列的模型确定待分类样本的标签,并对多个模型的训练和预测提出了相应的解决方案。
-
公开(公告)号:CN105549909B
公开(公告)日:2019-03-12
申请号:CN201510926027.8
申请日:2015-12-12
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F3/06
Abstract: 本发明公开了一种集群序列类一致性信息持久化的优化方法,在对集群序列类一致性信息进行持久化时,按照一定的持久化间隔,选取集群序列类一致性信息中的部分信息值进行持久化,即集群序列类一致性信息的当前持久化信息值设为N,持久化间隔设为extent,则只对信息值为N+n*extent的值进行持久化,n为非负整数。本发明的有益效果在于:对集群序列类一致性信息进行间隔持久化,减少了持久化频数,使得既能应对集群整体失效,又能提高持久化的效率,降低持久化代价。
-
公开(公告)号:CN108564101A
公开(公告)日:2018-09-21
申请号:CN201711473666.9
申请日:2017-12-29
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06K9/62
Abstract: 本发明提供一种基于多属性聚类的数据融合方法,旨在提高发现真值的准确度,为用户的决策提供更好的辅助信息。包括,数据预处理,描述值准确度更新,属性准确度更新和属性聚类模块。采用本发明的方法,可以在融合异源异构数据时,从来自不同数据源、具有不同结构的数据中甄别质量高的数据源、挖掘最实时准确的信息,有效解决传统方法中的准确性不够、迭代次数过多、收敛结果不稳定等问题。
-
公开(公告)号:CN108345633A
公开(公告)日:2018-07-31
申请号:CN201711473689.X
申请日:2017-12-29
Applicant: 天津南大通用数据技术股份有限公司
Abstract: 本发明旨在提供一种通过使用卷积神经网络的意识流来分析人格特质的自然语言处理方法。该方法针对五种人格特质使用相同的架构来分别训练相应的卷积神经网络,每个卷积神经网络是一个二进制分类器,该分类器可以预测相应的特征为正值或负值,对应着是否拥有该人格特质。将单词组成n元特征向量,再将其整合成句子,再将句子聚合成一个完整的文档,获得的值随后与文档级别的语义特征结合,并在最后分类阶段形成文档表示。本发明通过对自然语言的处理及分析从而实现一个人个性特点的自动检测。
-
公开(公告)号:CN104391918B
公开(公告)日:2018-01-19
申请号:CN201410663305.0
申请日:2014-11-19
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供基于对等部署的分布式数据库查询优先级管理的实现方法,包含:对于分布式数据库的每个查询执行节点,按照相同的集群既定的优先级定义将其资源按照一定的比例进行划分;在各个执行节点上建立一致的基于集群优先级的任务队列,每个任务队列可管理一定数目的查询任务,集群为查询任务提供全局唯一的任务ID,查询任务按照任务ID在任务队列中排序;各个执行节点对于任务队列,采用相同的调度模式,高优先级出列的任务会多于低优先级。本发明具有的优点和积极效果是:对不同优先级别对各个执行节点统一按比例划分资源,以确保高优先级查询可获得更多执行资源;只需各个执行节点按照同样的策略部署即可而无需统一的资源管理中心。
-
公开(公告)号:CN104376087B
公开(公告)日:2017-09-29
申请号:CN201410665567.0
申请日:2014-11-19
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种采用交叉备份的分布式数据库负载均衡的计算方法,包括:初始集群无机器损坏时保证集群中各个机器负载均衡;有1台机器损坏后,对请求分发机制适当调整保证集群内各个机器负载均衡;有多台机器损坏后,若所有数据分片均保证有大于1台可用机器时,对请求分发机器做适当的调整,最大限度的保证集群内各个机器负载均衡。本发明可以从宏观的角度,从概率的角度,粗粒度的保证采用交叉备份的分布式数据库的负载均衡,特别是当有机器损坏时,保证可工作机器合理的均摊负载压力,避免了某些机器负载过高导致短时间内更多机器损坏的情况,避免了短板问题的出现。
-
公开(公告)号:CN106528829A
公开(公告)日:2017-03-22
申请号:CN201611029563.9
申请日:2016-11-14
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
CPC classification number: G06F16/2315
Abstract: 本发明提供了一种海量数据的更新方法及装置。其中,所述方法包括:将所述更新线程按照所述系统的处理能力分为多个子线程;将待更新数据按照所述子线程的处理能力分为多个区块,并控制每个子线程更新对应的区块。通过将更新线程按照处理能力分为多个子线程,并并行对数据区块同时进行更新处理,可以充分利用系统运算资源,减少了海量数据的更新处理时间。
-
公开(公告)号:CN106446030A
公开(公告)日:2017-02-22
申请号:CN201610777713.8
申请日:2016-08-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种支持带有伪列的分级查询集群数据库系统及分级查询方法。其目的是为了提供一种分级查询快捷、耗时短的分级查询系统及分级查询方法。本发明包括数据表查询器,分级查询模块分别对起点过滤模块、待处理结点列表模块、查询路径模块和子结点查询模块的工作状态进行控制。分级查询模块通过控制起点过滤模块、待处理结点列表模块、查询路径模块和子结点查询模块,完成对数据表的分级查询操作;起点过滤模块用于在数据表上查询时查询起点的结点;待处理结点列表模块用于保存还没有进行查询的子结点的结点;查询路径模块用于保存查询的整个过程;子结点查询模块用于对指定的父结点进行其子结点的查询,并在查询结束后生成相应的伪列。
-
公开(公告)号:CN106383846A
公开(公告)日:2017-02-08
申请号:CN201610777795.6
申请日:2016-08-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
CPC classification number: G06F16/254
Abstract: 本发明提供一种分布式数据库系统数据的加载方法及装置,其中,所述分发方法包括:管理节点接收用户加载数据的指令,所述指令包括加载参数;管理节点根据所述指令确定加载的数据量,并确定加载数据的节点数量;根据加载的数据量和所述加载数据的节点数量对加载数据进行分配,并将分配指令下发给运算节点,以使得运算节点根据所述分配指令。完成数据的加载。可以将加载任务发送至计算节点,以使得计算节点加载数据。解决了文件服务器成为加载瓶颈的问题。
-
-
-
-
-
-
-
-
-