基于最大间隙空间映射的高维数据索引方法

    公开(公告)号:CN101266607A

    公开(公告)日:2008-09-17

    申请号:CN200810011323.5

    申请日:2008-05-09

    Applicant: 东北大学

    Abstract: 一种基于最大间隙空间映射的高维数据索引方法,属于数据库领域,包括以下步骤:步骤1进行最大间隙空间映射计算给定数据空间的每个维间隙值,选择维间隙值较大的前K值,将给定空间的实际数据点投影到K个维空间;步骤2构造MS-treeMS-tree首先找到适当的插入节点M,如果该节点没有满,则该对象被直接插入到该节点中;如果该节点已满,则该节点将被分裂,然后检查插入对象是否在结点M的MBR中,如果不在,则更新M的MBR并将原始空间映射到一个低维空间;步骤3进行相似性查找本发明的有益效果是通过减少假活动子树的访问来提高查询性能,因此,减少对假活动子空间的访问次数来改善索引相似性查询的性能。

    一种基于多图多标记学习的软件Bug检测方法

    公开(公告)号:CN114168478B

    公开(公告)日:2024-05-28

    申请号:CN202111514505.6

    申请日:2021-12-13

    Applicant: 东北大学

    Abstract: 本发明公开了一种基于多图多标记学习的软件Bug检测方法,属于软件缺陷检测技术领域。该方法充分利用源代码中的图结构信息,并充分利用源代码和Bug报告之间深层次的语义关联,找到多图和多标记的对应关系,提供了基于程序源代码和对应Bug报告的多图多标记Bug检测数据的产生方法,将源代码和Bug报告转化为多图多标记数据来解决Bug的检测问题;并从图级和包级两个方面考虑,提出针对多图多标记数据的区分子图度量准则,进一步将多图多标记数据转化成计算机可以处理的向量形式的多示例多标记数据;传统的分类器链不能恰当地考虑标记排序问题,随机进行标记排列可能会造成性能下降,而本发明考虑了多标记之间的依赖关系可以极大地提高检测精度。

    Gaia系统中面向融合计算的数据缓存装置与系统

    公开(公告)号:CN113934759B

    公开(公告)日:2024-05-17

    申请号:CN202111201901.3

    申请日:2021-10-15

    Abstract: 本发明公开了Gaia系统中面向融合计算的数据缓存装置与系统,是在Gaia系统中修改数据源算子、数据shuffle虚算子、维表关联计算算子进行实现,涉及分布式大数据处理技术领域。具体包括:Gaia系统中面向融合计算的全量缓存装置和增量缓存装置、以及由若干全量缓存装置构成的分布式缓存系统、由若干增量缓存装置构成的分布式缓存系统和由若干全量缓存装置与增量缓存装置混合构成的分布式缓存系统。每一个装置和系统的应用都将提高Gaia计算系统的缓存扩展能力,扩充整个Gaia计算系统所能缓存的批数据规模上限,进而提高系统所支持的缓存数据上限,提升Gaia系统单位时间内的混合计算效率,降低批数据查询延迟,更有利于处理海量数据的计算。

    一种基于预训练模型的代码搜索系统及方法

    公开(公告)号:CN117992572A

    公开(公告)日:2024-05-07

    申请号:CN202410155275.6

    申请日:2024-02-02

    Applicant: 东北大学

    Abstract: 本发明提供一种基于预训练模型的代码搜索系统及方法,涉及代码搜索技术领域。该系统及方法首先提取每段代码的自然语言描述序列以及每一段代码片段的Token序列;再提取Token序列T中的特征,得到Token序列的特征向量;并对每段代码对应的自然语言描述序列N进行特征提取,从而生成对应的自然语言描述的特征向量;然后计算代码片段的特征向量和自然语言描述的特征向量之间的相似度;迭代执行以上过程最终产出每个代码片段的特征向量;再将各代码片段的特征向量通过聚类算法聚类成M个向量簇;对于用户的查询语句,在经过训练后的CodeBERT模型、聚类后的特征向量以及代码库中存储的代码片段序列P的基础上进行代码搜索工作。

    一种基于时空特征融合的日志异常检测方法

    公开(公告)号:CN117992496A

    公开(公告)日:2024-05-07

    申请号:CN202410088839.9

    申请日:2024-01-22

    Applicant: 东北大学

    Abstract: 本发明提供一种基于时空特征融合的日志异常检测方法,涉及计算机软件系统智能运维技术领域。该方法首先构建日志原始样本数据序列集合,并形成对应的日志模板数据序列;再对日志模板序列数据进行时间维度和空间维度的特征提取,并将两种特征融合得到日志模板数据序列的最终特征表示;最后使用深度支持向量数据描述算法Deep SVDD训练基于日志时空特征融合的异常检测模型,学习并优化一个关联日志模板序列表示向量的超球面,实现日志异常检测。本发明方法挖掘出日志原始数据序列中的时间和空间关联关系,进而赋予系统良好的异常检测准确性,有助于精准地捕获软件系统运行模式中的异常,提高系统的稳定性。

    基于PLNN的电力系统短期电压稳定性评估方法

    公开(公告)号:CN115360719B

    公开(公告)日:2024-04-12

    申请号:CN202211044661.5

    申请日:2022-08-30

    Abstract: 本发明提供一种基于PLNN的电力系统短期电压稳定性评估方法,涉及电压稳定性评估技术领域。本方法从电网的调度运行记录中采集电网的典型运行方式集、典型故障集和节点集,采用计算机时域仿真方法对电网中各节点在各种运行方式下的各种故障进行N次时域仿真,将一次时域仿真过程中记录的数据集合成样本,作为训练集数据。利用PLNN从时间序列中提取出与电网稳定状态密切相关的关键字序列作为特征属性,再采用逻辑回归和梯度下降的方法对电压时间序列进行分类,从而对电网暂态电压稳定状况进行可靠的在线监测与评估。

    一种基于多任务混合专家网络的自动代码摘要优化方法

    公开(公告)号:CN117827272A

    公开(公告)日:2024-04-05

    申请号:CN202410003147.X

    申请日:2024-01-02

    Applicant: 东北大学

    Abstract: 本发明提供一种基于多任务混合专家网络的自动代码摘要优化方法,涉及代码摘要技术领域。该方法首先获取含有摘要的代码原始数据集并进行预处理;并利用自动代码摘要模型,混合多种解码方式生成一组候选摘要;再对源代码和生成的候选摘要组串联后进行编码,得到候选摘要组的向量表示;然后构建多任务混合专家网络模型分别在不同评估指标上计算候选摘要为最佳候选摘的概率,并优化多任务混合专家网络模型的参数配置;最后计算不同候选摘要在不同指标上的概率值,以及同一候选摘要在不同评估指标下的概率值之和,选取概率值之和最大的候选摘要作为最佳摘要输出。该方法能够选出综合考虑所有评估指标的最优摘要,得到更好质量的摘要。

    基于粗-细粒度多图多标签学习的场景图像标注方法

    公开(公告)号:CN111461265B

    公开(公告)日:2023-07-25

    申请号:CN202010459805.8

    申请日:2020-05-27

    Applicant: 东北大学

    Abstract: 本发明提供一种基于粗‑细粒度多图多标签学习的场景图像标注方法,涉及图像分类技术领域。该方法首先获得原始场景图像数据集与对应的标签集,并对原始场景图像数据集进行数据预处理得到多图数据结构即图包;定义基于图核的图级分值函数和每个标签的包级分值函数;构建基于排序损失的目标函数;通过次梯度下降算法优化基于排序损失的目标函数,得到每个标签的最优权重值,进而构建图级和包级的分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注。本发明方法基于定义的图级和包级分值函数,允许在粗粒度(包级)和细粒度(包中的图)上同时进行标签预测,扩展了传统多图多标签分类的范畴。

    一种基于区分子图挖掘的软件缺陷发现方法

    公开(公告)号:CN112395198B

    公开(公告)日:2022-04-22

    申请号:CN202011303967.9

    申请日:2020-11-19

    Applicant: 东北大学

    Inventor: 印莹 赵宇海

    Abstract: 本发明提供一种基于区分子图挖掘的软件缺陷发现方法,涉及软件工程技术领域。该方法首先针对一个软件项目提取新旧两个版本的软件包,对新旧两个版本的软件包做相同数据预处理,构建程序的控制流图,并保存到文本文件中,获得正负两类图数据集;对保存到文本文件的控制流图中的程序语句进行哈希转化,使控制流图用程序语句哈希转化后的数值来表示;对得到的哈希转化后的正负两类图数据集进行覆盖图挖掘,得到覆盖图集;根据覆盖图集对正负两类图数据集中的控制流图均进行数据向量化;将数据向量化后的控制流图作为特征训练数据来训练极限学习机,采用投票机制得到训练模型,通过测试后的训练模型对待测程序文件进行测试,发现软件缺陷。

    一种Gaia系统中的多作业合并与优化系统及方法

    公开(公告)号:CN110908796B

    公开(公告)日:2022-03-18

    申请号:CN201911067587.7

    申请日:2019-11-04

    Abstract: 本发明公开了一种Gaia系统中的多作业合并与优化系统及方法,属于大数据处理技术领域,解决了Gaia系统中用户作业和用户指定的资源大小方面的不匹配问题。本发明方案为:代理层通过集群交互层与集群进行数据交互。代理层,包括:作业信息采集模块,用于收集用户提交的作业,解析获得作业信息;作业分类模块,用于根据作业信息将作业分类为可合并型作业和不可合并型作业并送入作业缓冲池进行缓冲存储;作业合并模块,用于提取作业缓冲池中的可合并型作业进行合并,得到合并后的作业送入作业优化模块。作业优化模块,用于对合并后的作业进行优化,优化后的作业送入作业缓冲池进行缓冲存储。集群通过集群交互层从作业缓冲池中读取优化后的作业并执行。

Patent Agency Ranking