-
公开(公告)号:CN112395198A
公开(公告)日:2021-02-23
申请号:CN202011303967.9
申请日:2020-11-19
Applicant: 东北大学
IPC: G06F11/36
Abstract: 本发明提供一种基于区分子图挖掘的软件缺陷发现方法,涉及软件工程技术领域。该方法首先针对一个软件项目提取新旧两个版本的软件包,对新旧两个版本的软件包做相同数据预处理,构建程序的控制流图,并保存到文本文件中,获得正负两类图数据集;对保存到文本文件的控制流图中的程序语句进行哈希转化,使控制流图用程序语句哈希转化后的数值来表示;对得到的哈希转化后的正负两类图数据集进行覆盖图挖掘,得到覆盖图集;根据覆盖图集对正负两类图数据集中的控制流图均进行数据向量化;将数据向量化后的控制流图作为特征训练数据来训练极限学习机,采用投票机制得到训练模型,通过测试后的训练模型对待测程序文件进行测试,发现软件缺陷。
-
公开(公告)号:CN112256705A
公开(公告)日:2021-01-22
申请号:CN202011267934.3
申请日:2020-11-13
IPC: G06F16/22
Abstract: 本发明提供一种Gaia系统中的多表连接优化方法,为了尽可能减少全局中间连接表体积进而降低I/O代价,本发明设计了一个连接索引结构,结合动态规划算法在优化连接顺序的同时对每个连接表的等值连接关系进行优化,同时针对连接计算代价和I/O代价进行了优化,有效地减少了多连接任务的运算时间和中间数据的传输量;也就是说,本发明设计了一种描述连接表中列关系的索引结构,此索引结构可以快速找到两个表的连接关系及每一列是否冗余列。
-
公开(公告)号:CN111461265A
公开(公告)日:2020-07-28
申请号:CN202010459805.8
申请日:2020-05-27
Applicant: 东北大学
Abstract: 本发明提供一种基于粗-细粒度多图多标签学习的场景图像标注方法,涉及图像分类技术领域。该方法首先获得原始场景图像数据集与对应的标签集,并对原始场景图像数据集进行数据预处理得到多图数据结构即图包;定义基于图核的图级分值函数和每个标签的包级分值函数;构建基于排序损失的目标函数;通过次梯度下降算法优化基于排序损失的目标函数,得到每个标签的最优权重值,进而构建图级和包级的分类器,从而实现对未知多图数据包的标签集和包中图的标签集进行预测,完成场景图像的标注。本发明方法基于定义的图级和包级分值函数,允许在粗粒度(包级)和细粒度(包中的图)上同时进行标签预测,扩展了传统多图多标签分类的范畴。
-
公开(公告)号:CN110891083A
公开(公告)日:2020-03-17
申请号:CN201911070906.X
申请日:2019-11-05
IPC: H04L29/08
Abstract: 本发明提供的一种Gaia中支持多作业并行执行的代理方法,在在群的每个节点中Gaia系统内均构建Netty客户端;在主节点上Gaia系统内基于Netty的代理框架构建一个代理端;可以实现在作业收集的过程中,多个客户端与代理端进行独立通信,解决了因物理机不同导致Gaia作业无法互通提交的问题;代理端在接收到作业之后,通过一定的执行多作业的Slot资源分配策略取待合并的作业,对作业合并后再进行执行,该方法使得当前Slot数量能够被最大程度地利用,执行最多的执行计划计划,增大一次作业执行的吞吐量。
-
公开(公告)号:CN110795265A
公开(公告)日:2020-02-14
申请号:CN201911021197.6
申请日:2019-10-25
Abstract: 本发明公开一种基于乐观容错方法的迭代器,属于大数据环境下的分布式迭代计算技术领域,该迭代器包括增量迭代器和批量迭代器,综合考虑了不同大小的迭代任务和不同故障率的迭代计算任务,引入一个补偿函数,系统使用该函数重新初始化丢失的分区。发生故障时,系统暂停当前迭代,忽略失败的任务,并将丢失的计算重新分配给新获取的节点,调用分区上的补偿函数以恢复一致状态并恢复执行。对于故障频率较低的情况,大大减少了计算的延迟,提高了迭代处理效率。对于故障频率较高的情况,该迭代器可以保证迭代处理效率不低于优化前的迭代器。该乐观容错迭代器不用添加任务额外的操作,有效降低了容错开销。
-
公开(公告)号:CN110750560A
公开(公告)日:2020-02-04
申请号:CN201911021143.X
申请日:2019-10-25
IPC: G06F16/2453
Abstract: 本发明公开一种优化网络多连接的系统和方法,属于大数据处理技术领域。该系统包括基于数据字典的连接预算模块和逻辑图重构模块,其中基于数据字典的连接预算模块包括等深直方图生成单元和统计信息管理单元,并基于数据字典设计连接预算模型来描述数据分布质量s,用于连接逻辑图重构模块;逻辑图重构模块又分为连接顺序重排单元和DAG重构单元,运用该系统进行网络多连接优化的方法采用了启发式MMAS算法,保证在相对低的时间复杂度内得到近似最优解,大幅降低了多数据集连接计算的时间,解决现有技术中无法自动优化多连接顺序的问题,能够有效地减少程序的执行时间和网络传输、IO吞吐。
-
公开(公告)号:CN106599122A
公开(公告)日:2017-04-26
申请号:CN201611091669.1
申请日:2016-12-01
Applicant: 东北大学
IPC: G06F17/30
Abstract: 本发明提出一种基于垂直分解的并行频繁闭序列挖掘方法,属于数据挖掘领域,该方法采用序列求交的方式,缩短序列的长度,这相当于在竖直方向将原始序列分割成较短的序列;再从求交结果中选出K条差异度最大的序列,这又使得序列之间列数差异较大,两步均可缩短挖掘时间;本发明提出压缩频繁模式的观点,压缩模式的好处在于减小了频繁闭模式枚举范围,缩短挖掘时间,减小算法的时间复杂度;本发明采用现阶段最流行的并行框架Hadoop实现频繁闭序列挖掘算法;充分利用Hadoop的并行特点,将海量数据分散存储到集群中的各个节点上,按照map函数、reduce函数的特点编写算法,因为枚举出的模式独立的分发到不同节点进行检测封闭性,因此本方法获得较高的加速比。
-
公开(公告)号:CN105868422A
公开(公告)日:2016-08-17
申请号:CN201610445356.5
申请日:2016-06-21
Applicant: 东北大学
IPC: G06F17/30
CPC classification number: G06F16/9535
Abstract: 本发明提出一种基于弹性维特征向量优化抽取的协同过滤推荐方法,属于互联网信息推荐技术领域,本发明使用用户特征向量和推荐对象特征向量构建推荐方法,利用用户辅助向量和推荐对象辅助向量分别弹性的获取每个用户特征向量和每个推荐对象特征向量中用户真正感兴趣和推荐对象真正隶属的维度;本发明不需要专业知识和个体信息,安全简单;采用最小均方根误差作为优化约束条件,在实现过程中只需针对评分矩阵中已有的部分进行约束,仍能给出正确的拟合评分,避免了数据稀疏和由于缺乏历史数据的冷启动问题;该方法能获取每个用户特征向量和每个推荐对象特征向量中真正起作用的维度,并自适应地调整搜索方向,使推荐方法避免过拟合,优化推荐结果。
-
-
-
-
-
-
-