基于Transform和对比学习的异构图神经网络容噪方法

    公开(公告)号:CN117787379A

    公开(公告)日:2024-03-29

    申请号:CN202311810583.X

    申请日:2023-12-26

    Applicant: 东北大学

    Abstract: 本发明提供一种基于Transform和对比学习的异构图神经网络容噪方法,涉及异构图神经网络技术领域。该方法首先根据节点对之间的特征相似度、转移概率和局部拓扑结构相似性对邻居节点的可信度打分,将可信度得分低于阈值的节点剪枝;构建特定于降噪场景下的Transform模型,自动的给弱噪声节点分配低的权重系数,弱化噪声节点的影响;最后在使用损失函数训练容噪异构图神经网络模型时,加入一个特定于降噪场景的对比学习损失,将目标节点与噪声节点的嵌入表示相似度降低,进一步强化容噪异构图神经网络模型的降噪能力。该方法提升异构图神经网络模型对于噪声数据的鲁棒性,使目标节点学习到干净的嵌入向量来提升下游任务的性能。

    一种基于双模态的药物靶标多标签分类方法

    公开(公告)号:CN116469484A

    公开(公告)日:2023-07-21

    申请号:CN202310404563.6

    申请日:2023-04-17

    Applicant: 东北大学

    Abstract: 本发明提供一种基于双模态的药物靶标多标签分类方法,涉及药物靶标分类技术领域。该方法首先获得药物靶标数据集,并训练Transformer编码器,得到药物整体的向量表示;构建药物靶标数据集的靶标标签共现图,并生成若干个标签子空间;再将药物分割成多个药物子结构图构成一个药物图包;对于每个标签子空间中的若干靶标标签,在药物靶标数据集中获得所有与该靶标存在相互作用的药物,计算得到整个标签子空间的特征向量;在每个标签子空间中,获取药物图包的代表子结构特征向量;将药物图包的特征向量与药物SMILES序列的特征向量拼接后通过多标签分类器进行分类;将所有标签子空间上分类结果进行集成作为药物靶标的分类结果。

    一种能够处理新标记和缺失标记的图像标注方法

    公开(公告)号:CN116403214A

    公开(公告)日:2023-07-07

    申请号:CN202310395061.1

    申请日:2023-04-13

    Applicant: 东北大学

    Abstract: 本发明提供一种能够处理新标记和缺失标记的图像标注方法,涉及图像分类技术领域。本发明通过对真实的原始图像数据集进行处理,获得多图数据集,将多图包中的每个图从图空间映射到高维特征空间,得到每个图的基于图核的图表示;利用权重矩阵对类别标记进行语义描述,对图与标记之间的关系进行建模;构造最小化目标函数以对图的新标记和缺失标记进行学习,通过加速近端梯度法和近端梯度法对最小化目标函数进行优化更新,得到更新后的权重矩阵,进而构建能够同时对新标记和缺失标记进行建模的分类器,给定测试集中的一个测试包,根据权重矩阵构建图级分类器,对测试包中的图进行标记预测,实现对未知多图包的标记预测,完成图像数据的标注。

    一种优化网络多连接的系统和方法

    公开(公告)号:CN110750560B

    公开(公告)日:2023-02-03

    申请号:CN201911021143.X

    申请日:2019-10-25

    Abstract: 本发明公开一种优化网络多连接的系统和方法,属于大数据处理技术领域。该系统包括基于数据字典的连接预算模块和逻辑图重构模块,其中基于数据字典的连接预算模块包括等深直方图生成单元和统计信息管理单元,并基于数据字典设计连接预算模型来描述数据分布质量s,用于连接逻辑图重构模块;逻辑图重构模块又分为连接顺序重排单元和DAG重构单元,运用该系统进行网络多连接优化的方法采用了启发式MMAS算法,保证在相对低的时间复杂度内得到近似最优解,大幅降低了多数据集连接计算的时间,解决现有技术中无法自动优化多连接顺序的问题,能够有效地减少程序的执行时间和网络传输、IO吞吐。

    一种结合属性信息和结构信息的大规模社区检测方法

    公开(公告)号:CN114741579A

    公开(公告)日:2022-07-12

    申请号:CN202210563591.8

    申请日:2022-05-23

    Applicant: 东北大学

    Abstract: 本发明提供一种结合属性信息和结构信息的大规模社区检测方法,涉及社区网络检测技术领域。该方法使用邻接表描述属性网络,确定属性网络中的核心顶点并标记;再将属性网络划分为多个子网络分配给不同计算单元,在各计算单元上对每个子网络进行社区划分;然后根据社区属性相似度值和模块度两个社区检测量化指标并利用属性权重向量,对社区划分结果进行优化;最后根据各个计算单元返回的子网络社区划分结果,对社区划分结果进行合并,得到最终整个属性网络的社区划分结果。该方法不需提前设定社区规模、可处理大规模网络数据,在结构信息与属性信息之间取得平衡,进而将复杂的属性网络划分成多个社区。

    一种Gaia系统中基于数据特征的动态优先级迭代器

    公开(公告)号:CN112527483B

    公开(公告)日:2022-06-10

    申请号:CN202011473342.7

    申请日:2020-12-15

    Abstract: 本发明提供一种Gaia系统中基于数据特征的动态优先级迭代器,涉及分布式大数据计算技术领域。该迭代器包括优先级调度模块、全量迭代计算模块和增量迭代计算模块;优先级调度模块读取数据源的数据作为迭代计算的初始工作集,并在每次迭代任务执行过程中维护一个用于查找和选择数据单元的跳表,以及一个用于保存数据单元对应的状态信息的状态表;并在每次迭代任务开始时按照优先级调整公式来更新状态表,当本次迭代任务所输入的数据单元全部更新完后,确定每个数据单元的优先级;Gaia系统则根据各个数据单元的优先级信息进行迭代计算;全量迭代模块由BulkIterate算子实现迭代计算,增量迭代模块由Delta Itreate算子实现迭代计算。

    一种Gaia系统中支持流数据与批数据交互的数据交换系统

    公开(公告)号:CN110825775B

    公开(公告)日:2022-02-15

    申请号:CN201911067510.X

    申请日:2019-11-04

    Abstract: 本发明公开了一种Gaia系统中支持流数据与批数据交互的数据交换系统,实现了在Gaia的低纬度算子级的流数据与批数据连接,并且可实现对指定数据库的定向支持。为达到上述目的,该系统包括操作符模块、核心算子模块、批数据定义模块、缓存模块以及外部数据接口模块。该系统中其中批数据定义模块、缓存模块、核心算子模块可以分别从辅助工具模块中获取自己需要的工具类;核心算子模块通过调用批数据定义模块获取连接相关信息,并调用外部数据接口模块从不同数据源中获取批数据,调用缓存模块对数据进行缓存操作。操作符模块对核心算子模块和批数据定义模块进行了外部封装,使得Gaia系统可以进行统一调用。

    Gaia集群中面向数据分布特征的维表缓存管理方法及系统

    公开(公告)号:CN113626434A

    公开(公告)日:2021-11-09

    申请号:CN202110890099.7

    申请日:2021-08-04

    Abstract: 本发明公开了Gaia集群中面向数据分布特征的维表缓存管理方法及系统,构建了一套从构建到查询再到增量更新的全周期分布式缓存管理机制。包括数据分布特征提取模块和缓存管理模块,缓存管理模块为缓存构建、缓存查询和缓存更新子模块。数据分布特征提取模块从维表数据中抽取数据样本,统计样本数据的p分位点作为全量数据的分布特征。缓存构建子模块,根据统计的p分位点完成路由数组的初始化;利用分段确定方法为每条维表数据确定所属分段;利用索引建立方法为每条维表数据建立索引。缓存查询子模块,采用缓存查询方法,根据流数据记录的关键字从多路平衡跳表中查询相应的维表数据。缓存更新子模块,定义了p个分段跳表之间的平衡调整方法。

    面向大规模高维序列数据的交互特征并行选择方法

    公开(公告)号:CN108897990B

    公开(公告)日:2021-10-29

    申请号:CN201810575946.9

    申请日:2018-06-06

    Applicant: 东北大学

    Abstract: 本发明提供一种面向大规模高维序列数据的交互特征并行选择方法,包括:对原始高维SNP数据进行编码;通过基于图论的块过滤,保留与目标类相关的编码后的SNP数据;将与目标类相关的SNP数据执行细粒度的特征过滤;以γ为粒度划分特征过滤后的序列数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域;对候选区域对应的数据集基于MapReduce进行特征区域的多样性选择,得到代表性特征区域;对代表性特征区域采用置换搜索的并行蚁群算法进行交互特征选择,得到显著性特征子集集合,即显著SNP位点集合。本发明为解决在大规模序列数据中进行交互特征选择提出一个全新的框架,使得特征选择更加高效、功能更为强大。

    一种Gaia系统中基于数据特征的动态优先级迭代器

    公开(公告)号:CN112527483A

    公开(公告)日:2021-03-19

    申请号:CN202011473342.7

    申请日:2020-12-15

    Abstract: 本发明提供一种Gaia系统中基于数据特征的动态优先级迭代器,涉及分布式大数据计算技术领域。该迭代器包括优先级调度模块、全量迭代计算模块和增量迭代计算模块;优先级调度模块读取数据源的数据作为迭代计算的初始工作集,并在每次迭代任务执行过程中维护一个用于查找和选择数据单元的跳表,以及一个用于保存数据单元对应的状态信息的状态表;并在每次迭代任务开始时按照优先级调整公式来更新状态表,当本次迭代任务所输入的数据单元全部更新完后,确定每个数据单元的优先级;Gaia系统则根据各个数据单元的优先级信息进行迭代计算;全量迭代模块由BulkIterate算子实现迭代计算,增量迭代模块由Delta Itreate算子实现迭代计算。

Patent Agency Ranking