一种面向图数据的投影聚类方法

    公开(公告)号:CN108073946A

    公开(公告)日:2018-05-25

    申请号:CN201711222718.5

    申请日:2017-11-29

    Applicant: 东北大学

    Abstract: 本发明公开了一种面向图数据的投影聚类方法,该方法包括:针对待处理的图数据集D,采用深度优先搜索算法,获取图数据集D中所有子图的代表性子图模式;针对所述代表性子图模式,获取所述图数据集D的Top-k多样性子图模式,将所有的Top-k多样性子图模式生成Top-k多样性子图模式集合RS;将所述图数据集D中的每一个子图与所述Top-k子图模式集合RS中的特征子图进行投影匹配,获取所述图数据集D的特征矩阵;利用自适应熵作为聚类目标函数,采用图投影聚类算法对所述特征矩阵进行聚类处理,获得聚类结果。上述方法使得图数据集中的聚类结果更准,多样性更好,且高维数据的处理效果更快。

    Gaia系统中的面向图迭代作业的运行时间预测系统及方法

    公开(公告)号:CN113627664B

    公开(公告)日:2024-12-10

    申请号:CN202110890134.5

    申请日:2021-08-04

    Abstract: 本发明公开了Gaia系统中的面向图迭代作业的运行时间预测系统及方法。在作业执行前通过抽样执行来快速捕捉当前图迭代算法的离线特征,包括收敛特征和每次迭代的关键输入特征;在作业执行过程中持续捕捉运行时特征,包括作业参数、资源利用情况以及详细的统计数据;以作业间的相似度为作业匹配和最终预测值计算的依据,主要包括通过抽样执行捕捉到的静态相似度以及真实执行捕捉到的动态相似度。匹配算法可通过制定的相似度评价标准来对算法的特定参数进行训练来使得迭代作业能够自动适应各种相似度。本发明是端对端的运行时间预测方法,综合了图迭代作业的离线特征和运行时特征,能够在较低的训练开销下准确地预测分布式图迭代作业的运行时间。

    一种基于分布式多任务烟花算法的SNP相互作用检测方法

    公开(公告)号:CN118116457A

    公开(公告)日:2024-05-31

    申请号:CN202410052880.0

    申请日:2024-01-15

    Applicant: 东北大学

    Abstract: 本发明设计一种基于分布式多任务烟花算法的SNP相互作用检测方法,属于计算机技术领域;首先划分SNP交互作用检测任务,并对划分的每个任务采用基于分解的多目标烟花算法独立进化;然后判断迭代次数是否达到l代,若是则触发任务间的知识迁移策略:比较当前开发子种群的最优个体和探索子种群的最优个体,将其中更优的个体进行保存并与其他任务进行信息交换;最后设置迭代次数,判断是否达到最大迭代次数,若是则收集各个任务返回的非支配解到集合中,返回集合为最终结果,即最终得到不同阶数的致病SNP组合的集合;本发明能够改善现有SNP交互作用识别方法搜索速度慢、效率低等问题,旨在保证识别精度的同时尽可能的提高搜索效率。

    一种基于超图协同过滤的多模态推荐方法

    公开(公告)号:CN117909599A

    公开(公告)日:2024-04-19

    申请号:CN202410110228.X

    申请日:2024-01-26

    Applicant: 东北大学

    Abstract: 本发明提供一种基于超图协同过滤的多模态推荐方法,涉及用户推荐技术领域。该方法首先根据用户的历史数据,确定用户的数量和物品的数量,完成物品模态特征提取;再构造用户‑物品交互矩阵和物品之间的模态交互矩阵;并在交互矩阵和模态交互矩阵上分别计算出物品、用户以及物品各模态的k阶可达邻居得到对应的超图传播矩阵;然后初始化用户和物品的特征向量;构造基于超图卷积网络的多模态协同过滤模型,优化用户和物品特征向量;最后最小化损失函数,更新用户和物品的特征向量,直至满足迭代结束条件。该方法通过融合不同模态的信息,可以提高推荐系统的准确性和个性化水平,同时增加系统对复杂关系的理解能力。

    一种基于Gaia系统的数据分类方法

    公开(公告)号:CN113609361B

    公开(公告)日:2023-11-14

    申请号:CN202110961564.1

    申请日:2021-08-20

    Abstract: 本发明提供一种基于Gaia系统的数据分类方法,所述方法基于超限学习机实现,Gaia系统由于其更新的底层流处理计算架构和多种全局优化与执行优化技术,相比于其他分布式计算系统具有更好的执行效率。在批处理模式下可实现海量吞吐,在流处理模式下可实现极速响应;另外,由于超限学习机是一种单隐层前馈神经网络,相比于其他的学习机具有更快的学习速度;将上述两种优势进行结合,可使得本发明实现更高效率的数据分类。再者通过构建的初始数据集UCollection自行判断判定启动批处理环境或流处理环境,用户在使用该学习机进行数据分类时可不用关心数据的类型与来源,只需关注对数据的处理过程即可,为用户的使用带来了极大的便利。

    一种基于微簇的skyline查询方法
    16.
    发明公开

    公开(公告)号:CN116431918A

    公开(公告)日:2023-07-14

    申请号:CN202310408765.8

    申请日:2023-04-17

    Applicant: 东北大学

    Abstract: 本发明提供一种基于微簇的skyline查询方法,涉及空间查询技术领域。该方法首先获取所有的查询对象和用户对象,并构建所有查询对象和用户对象的特征向量;然后使用z‑value索引把查询对象的特征向量转换到一维空间中,获得一组关于查询对象的z值表示,进而得到z值有序的查询对象集;并根据z值的特性,对查询对象集中的查询对象进行删减,获得一个新的查询对象集;最后针对新的查询对象集中的查询对象构建最近覆盖圆,找到最近覆盖圆对应的微簇,进行skyline筛选,由此获得skyline微簇集作为最终的结果微簇集推荐给用户。该方法以微簇的方式返回一组在密度和距离维度上满足用户查询要求的帕累托最优解。

    一种基于图序列化的代码搜索系统及方法

    公开(公告)号:CN115268869A

    公开(公告)日:2022-11-01

    申请号:CN202210885120.9

    申请日:2022-07-26

    Applicant: 东北大学

    Abstract: 本发明提供了一种基于图序列化的代码搜索系统及方法,涉及代码搜索技术领域。本发明系统及装置通过图序列转换器G2SC学习代码片段的控制依赖关系和数据依赖关系,获得富含代码片段图结构信息的程序依赖图序列,并且比图神经网络更适用于节点少的代码图结构;在特征提取过程中使用注意力机制将方法名特征向量、Token特征向量、以及G2SC提取的程序依赖图特征向量进行融合,使得代码的语义和结构信息能够充分表达,特征提取更完整,有效提升代码搜索的准确率;使用G2SC、双向长短时记忆网络将代码片段的程序依赖图的信息映射到较低维度的特征空间中,可节省深度学习中所消耗的大量算力。

    一种基于受限恢复的图迭代器及方法

    公开(公告)号:CN110750385B

    公开(公告)日:2022-09-09

    申请号:CN201911021201.9

    申请日:2019-10-25

    Abstract: 本发明公开一种基于受限恢复的图迭代器及方法,属于分布式迭代计算技术领域。该迭代器采用分布式图计算算法的join‑GroupBy‑Union‑aggregation模式将图计算转换操作中的宽依赖转化为窄依赖,并对部分数据进行备份,从而使得只需恢复故障节点而不需要完全将整个计算回退到最近检查点保存的状态;在故障节点恢复时采用所有健康节点来并行恢复,进一步加快了故障恢复的速度;图迭代中在迭代尾部添加检查点的非阻塞检查点模型,加速了检查点的写入速度,并且在尾部检查点添加了迭代感知器,使得仅在当前迭代中的检查点完成后才启动下一个迭代,有助于在迭代图处理期间协调检查点的创建。

    一种从Web点击流数据中挖掘代表序列模式的方法

    公开(公告)号:CN112765469A

    公开(公告)日:2021-05-07

    申请号:CN202110096836.6

    申请日:2021-01-25

    Applicant: 东北大学

    Abstract: 本发明提供一种从Web点击流数据中挖掘代表序列模式的方法,涉及序列模式挖掘技术领域。该方法首先输入Web点击流序列数据集、最小支持度和最大覆盖度,并遍历一次数据集保留不小于最小支持度的所有频繁站点作为序列生成种子;对每一个序列生成种子采用缝隙扩展枚举树,结合缝隙扫描剪枝策略和闭合检查得到该种子的所有频繁闭合超序列;进一步采用局部代表序列筛选技术选出该种子的所有代表序列;遍历所有序列生成种子,输出每个种子的代表序列,得到Web点击流数据的所有代表序列模式。优点是:代表序列模式能有效解决频繁序列模式数量庞大而可用性低的矛盾,能增强结果的可用性;为Web点击流的在线用户行为分析、信息推荐、引擎优化等应用提供参考。

    一种Gaia系统中支持流数据与批数据交互的数据交换系统

    公开(公告)号:CN110825775A

    公开(公告)日:2020-02-21

    申请号:CN201911067510.X

    申请日:2019-11-04

    Abstract: 本发明公开了一种Gaia系统中支持流数据与批数据交互的数据交换系统,实现了在Gaia的低纬度算子级的流数据与批数据连接,并且可实现对指定数据库的定向支持。为达到上述目的,该系统包括操作符模块、核心算子模块、批数据定义模块、缓存模块以及外部数据接口模块。该系统中其中批数据定义模块、缓存模块、核心算子模块可以分别从辅助工具模块中获取自己需要的工具类;核心算子模块通过调用批数据定义模块获取连接相关信息,并调用外部数据接口模块从不同数据源中获取批数据,调用缓存模块对数据进行缓存操作。操作符模块对核心算子模块和批数据定义模块进行了外部封装,使得Gaia系统可以进行统一调用。

Patent Agency Ranking