-
公开(公告)号:CN113934759A
公开(公告)日:2022-01-14
申请号:CN202111201901.3
申请日:2021-10-15
IPC: G06F16/2455 , G06F16/25 , G06F16/27
Abstract: 本发明公开了Gaia系统中面向融合计算的数据缓存装置与系统,是在Gaia系统中修改数据源算子、数据shuffle虚算子、维表关联计算算子进行实现,涉及分布式大数据处理技术领域。具体包括:Gaia系统中面向融合计算的全量缓存装置和增量缓存装置、以及由若干全量缓存装置构成的分布式缓存系统、由若干增量缓存装置构成的分布式缓存系统和由若干全量缓存装置与增量缓存装置混合构成的分布式缓存系统。每一个装置和系统的应用都将提高Gaia计算系统的缓存扩展能力,扩充整个Gaia计算系统所能缓存的批数据规模上限,进而提高系统所支持的缓存数据上限,提升Gaia系统单位时间内的混合计算效率,降低批数据查询延迟,更有利于处理海量数据的计算。
-
公开(公告)号:CN113627664A
公开(公告)日:2021-11-09
申请号:CN202110890134.5
申请日:2021-08-04
IPC: G06Q10/04 , G06F16/23 , G06F16/2458 , G06F16/27 , G06K9/62
Abstract: 本发明公开了Gaia系统中的面向图迭代作业的运行时间预测系统及方法。在作业执行前通过抽样执行来快速捕捉当前图迭代算法的离线特征,包括收敛特征和每次迭代的关键输入特征;在作业执行过程中持续捕捉运行时特征,包括作业参数、资源利用情况以及详细的统计数据;以作业间的相似度为作业匹配和最终预测值计算的依据,主要包括通过抽样执行捕捉到的静态相似度以及真实执行捕捉到的动态相似度。匹配算法可通过制定的相似度评价标准来对算法的特定参数进行训练来使得迭代作业能够自动适应各种相似度。本发明是端对端的运行时间预测方法,综合了图迭代作业的离线特征和运行时特征,能够在较低的训练开销下准确地预测分布式图迭代作业的运行时间。
-
公开(公告)号:CN113609361A
公开(公告)日:2021-11-05
申请号:CN202110961564.1
申请日:2021-08-20
IPC: G06F16/906 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种基于Gaia系统的数据分类方法,所述方法基于超限学习机实现,Gaia系统由于其更新的底层流处理计算架构和多种全局优化与执行优化技术,相比于其他分布式计算系统具有更好的执行效率。在批处理模式下可实现海量吞吐,在流处理模式下可实现极速响应;另外,由于超限学习机是一种单隐层前馈神经网络,相比于其他的学习机具有更快的学习速度;将上述两种优势进行结合,可使得本发明实现更高效率的数据分类。再者通过构建的初始数据集UCollection自行判断判定启动批处理环境或流处理环境,用户在使用该学习机进行数据分类时可不用关心数据的类型与来源,只需关注对数据的处理过程即可,为用户的使用带来了极大的便利。
-
公开(公告)号:CN110795265B
公开(公告)日:2021-04-02
申请号:CN201911021197.6
申请日:2019-10-25
Abstract: 本发明公开一种基于乐观容错方法的迭代器,属于大数据环境下的分布式迭代计算技术领域,该迭代器包括增量迭代器和批量迭代器,综合考虑了不同大小的迭代任务和不同故障率的迭代计算任务,引入一个补偿函数,系统使用该函数重新初始化丢失的分区。发生故障时,系统暂停当前迭代,忽略失败的任务,并将丢失的计算重新分配给新获取的节点,调用分区上的补偿函数以恢复一致状态并恢复执行。对于故障频率较低的情况,大大减少了计算的延迟,提高了迭代处理效率。对于故障频率较高的情况,该迭代器可以保证迭代处理效率不低于优化前的迭代器。该乐观容错迭代器不用添加任务额外的操作,有效降低了容错开销。
-
公开(公告)号:CN110891083B
公开(公告)日:2020-12-04
申请号:CN201911070906.X
申请日:2019-11-05
IPC: H04L29/08
Abstract: 本发明提供的一种Gaia中支持多作业并行执行的代理方法,在在群的每个节点中Gaia系统内均构建Netty客户端;在主节点上Gaia系统内基于Netty的代理框架构建一个代理端;可以实现在作业收集的过程中,多个客户端与代理端进行独立通信,解决了因物理机不同导致Gaia作业无法互通提交的问题;代理端在接收到作业之后,通过一定的执行多作业的Slot资源分配策略取待合并的作业,对作业合并后再进行执行,该方法使得当前Slot数量能够被最大程度地利用,执行最多的执行计划计划,增大一次作业执行的吞吐量。
-
公开(公告)号:CN108170862A
公开(公告)日:2018-06-15
申请号:CN201810075845.5
申请日:2018-01-26
Applicant: 东北大学
Abstract: 本发明公开了一种面向大规模图数据集的统计显著子图挖掘方法及装置,该方法包括:对图数据集G进行挖掘,在族错误率阈值α下校正所述统计显著性阈值,基于改进的置换检验算法westfall‑younglight获得校正后的显著性阈值δ*,以及达到显著性阈值δ*时挖掘的子图所需满足的最小支持度阈值σ;利用蚁群优化算法,在图数据集G中挖掘所述统计显著性阈值p小于等于显著性阈值δ*的所有子图;挖掘的所有子图的支持度收敛到所述最小支持度阈值σ。上述方法在挖掘显著子图的过程中能够有效减少重复的计算量。
-
公开(公告)号:CN102063489B
公开(公告)日:2012-12-19
申请号:CN201010613046.2
申请日:2010-12-29
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种基于隐含分类信息的模式匹配方法,属于数据库技术领域,包括发现源数据实例的可能分类、寻找分类属性和为属性匹配关联相应的过滤条件三个步骤。本发明限定了属性匹配的应用范围,提高数据交换的质量,相比于传统的Context-Based技术,本方法从数据实例中寻找真正的分类信息,来进行约束条件的构建,而不依赖于显示分类属性;不论源模式中是否存在显示分类属性,本发明中的方法都能从实例数据中提取约束信息,限制属性匹配,提高数据转换质量。
-
公开(公告)号:CN101408901B
公开(公告)日:2010-07-14
申请号:CN200810229043.1
申请日:2008-11-26
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种基于主题词条的跨类型数据的概率聚类方法,属于数据库领域,包括以下步骤:(1)定义主题词条的类型;将跨类型数据分为主题相关词条、主题半相关词条和主题不相关词条;(2)对每类词条分配概率;(3)用概率表示数据主题;(4)构建数据的主题词条概率相似性矩阵M;对步骤(3)中跨类型数据的任意两个数据dx和dy,计算dx和dy任意两种描述形式的相似度,将相似度大于某一阈值的相似性的概率相加,将任意两个数据的直接相关概率存储在矩阵M中;(5)基于矩阵M构建聚类模型Mc;(6)基于聚类模型Mc的聚类方法。本发明利用与主题相关的词条项的相似性来对跨类型数据进行聚类,提高了数据聚类的精度,减少了聚类时间。
-
公开(公告)号:CN113626434B
公开(公告)日:2024-09-27
申请号:CN202110890099.7
申请日:2021-08-04
IPC: G06F16/22 , G06F16/2455 , G06F16/2458 , G06F16/27
Abstract: 本发明公开了Gaia集群中面向数据分布特征的维表缓存管理方法及系统,构建了一套从构建到查询再到增量更新的全周期分布式缓存管理机制。包括数据分布特征提取模块和缓存管理模块,缓存管理模块为缓存构建、缓存查询和缓存更新子模块。数据分布特征提取模块从维表数据中抽取数据样本,统计样本数据的p分位点作为全量数据的分布特征。缓存构建子模块,根据统计的p分位点完成路由数组的初始化;利用分段确定方法为每条维表数据确定所属分段;利用索引建立方法为每条维表数据建立索引。缓存查询子模块,采用缓存查询方法,根据流数据记录的关键字从多路平衡跳表中查询相应的维表数据。缓存更新子模块,定义了p个分段跳表之间的平衡调整方法。
-
公开(公告)号:CN117951251A
公开(公告)日:2024-04-30
申请号:CN202410052881.5
申请日:2024-01-15
Applicant: 东北大学
IPC: G06F16/33 , G06F16/335 , G06F40/30 , G06F18/213 , G06F18/22 , G06F18/23213 , G06F18/25
Abstract: 本发明提供一种基于乘积量化的高效代码搜索方法,涉及代码搜索技术领域。该方法首先获取代码片段和代码片段对应的自然语言描述;并对获取的代码片段和对应的自然语言描述,进行预处理,提取代码片段的多种特征信息;然后构建代码片段特征向量;并将代码片段特征向量量化成低维向量;再针对用户输入的自然语言查询进行预处理,得到自然语言序列;进而构建自然语言查询向量;并对自然语言查询向量进行维度分段;进而为每个自然语言查询子向量构建查询表;最后在代码数据库中查找到与自然语言查询向量最为相似的代码片段;并使用重排对查询结果进行二次筛选。该方法可以在不牺牲基线代码搜索模型过多准确率的情况下,大幅度提升代码搜索速度。
-
-
-
-
-
-
-
-
-