-
公开(公告)号:CN109063048A
公开(公告)日:2018-12-21
申请号:CN201810789814.6
申请日:2018-07-18
Applicant: 哈尔滨工业大学
IPC: G06F17/30
Abstract: 本发明涉及一种基于知识库图匹配的数据清洗方法,包括:根据待清洗的数据库生成查询语句;对查询语句进行数据转图并合并相似条目,生成搜索图;所述搜索图采用二级索引表示,包括两个标签;根据所有所述搜索图的标签对知识库进行筛选,筛选出满足所述搜索图中一组第一个标签和第二个标签所示信息的数据,转图并合并相似条目,转为知识库大图;将搜索图与知识库大图进行图匹配操作,返回查询结果;根据返回的查询结果,对待清洗的数据库进行清洗。本发明还提供了一种基于知识库图匹配的数据清洗装置。本发明通过图匹配快速查询知识库实现对数据库的清洗,能够减少数据存储所占空间,简化查询结果,减少查询时间,提升清洗的效率。
-
公开(公告)号:CN108764486A
公开(公告)日:2018-11-06
申请号:CN201810499148.2
申请日:2018-05-23
Applicant: 哈尔滨工业大学
IPC: G06N99/00
Abstract: 本发明涉及一种基于集成学习的特征选择方法,包括:从原始数据集中抽取训练集和验证集;利用训练集对各个基学习器进行预训练,对特征选择结果进行评估,初始化基学习器的投票权重;基于基学习器的投票权重,利用训练集进行多轮集成学习,其中,每轮集成学习包括:根据基学习器的投票权重,将基学习器的特征选择结果进行加权投票,获取集成后的特征选择结果;利用验证集对特征选择结果进行评估,调节基学习器的投票权重。本发明还提供了一种基于集成学习的特征选择装置,上述方法及装置可针对不同原始数据集调节各个基学习器的投票权重,提升集成特征选择方法的普适性。
-
公开(公告)号:CN108255689A
公开(公告)日:2018-07-06
申请号:CN201810026098.6
申请日:2018-01-11
Applicant: 哈尔滨工业大学
IPC: G06F11/34
CPC classification number: G06F11/3476 , G06F11/3419
Abstract: 本发明提出了一种基于历史任务分析的Apache Spark应用自动化调优方法,包括对Spark应用的任务提交接口进行封装,判断是否已有该Spark应用的分层灰盒时间预测模型,访问数据库,读取并更新所述分层灰盒时间预测模型,用户选择是否进行优化;如果进行优化则生成优化参数,如果不进行优化则按原参数执行,调用shell命令运行任务。本发明充分地利用了已知的集群硬件资源信息,选择并实现一了个能够在高维参数空间上对最优参数进行高效搜索方案,从而筛选出在建立的分层灰盒时间预测模型下,性能表现较优的配置参数,达到实现自动化Spark参数调优的目的。
-
公开(公告)号:CN106934059A
公开(公告)日:2017-07-07
申请号:CN201710175458.4
申请日:2017-03-22
Applicant: 哈尔滨工业大学
Abstract: 一种大数据上的均值近似聚集方法,本发明涉及一种大数据上的近似聚集方法。本发明的目的是为了解决现有方法的采样顺序敏感、需要用户参与观测、计算结果精度低的问题。一、在需要进行均值聚集计算的包含M个数据的数据集中随机采一个包含m个个体的样本,求出一个粗略均值和样本标准差;二、用户给定指定的精度,求出满足精度所需要的采样率;三、确定需要进行均值聚集计算的数据集的数据边界,得到一个表示需要进行均值聚集计算的数据集的数据边界的参数;四、将参数传到每一个计算单元内,得到每一个计算单元内的均值;五、将每一个计算单元内的均值进行整合,输出最终结果。本发明用于金融,统计等领域。
-
公开(公告)号:CN117076436B
公开(公告)日:2025-05-16
申请号:CN202310964710.5
申请日:2023-08-02
Applicant: 哈尔滨工业大学
IPC: G06F16/215 , G06F18/24 , G06F18/214
Abstract: 一种变压器油色谱数据的迭代式清洗方法,属于数据清洗技术领域。本发明针对变压器油色谱数据中的劣质数据不能被有效识别并清洗的问题。包括:将原始数据集中的数据分为违反规则数据集和符合规则数据集;采用符合规则数据集对分类器进行预训练;采用分类器计算违反规则数据的违反分数,并选择待修复数据;将待修复数据进行修复后,采用修复后数据对分类器进行再训练并对分类器的模型参数进行再更新,迭代以上的“挑选‑修复‑更新”流程,提升分类器的效果;最后采用训练后的分类器对实际运行数据中的违反规则运行数据进行预测,得到清洗后数据。本发明用于油色谱数据的清洗。
-
公开(公告)号:CN119782090A
公开(公告)日:2025-04-08
申请号:CN202411973779.5
申请日:2024-12-30
Applicant: 哈尔滨工业大学 , 中国移动通信集团黑龙江有限公司
Inventor: 巢泽敏 , 陈潇 , 杜长斌 , 孙长秋 , 毕研恒 , 李菲 , 王宏志 , 高肇明 , 郑乔译 , 李欣宇 , 齐志鑫 , 谭世喆 , 王宇 , 朱艳秋 , 柴云峰 , 葛广志 , 岑建何
Abstract: 一种HADOOP集群的能耗监测及优化方法,它属于计算机技术领域。本发明解决了现有功耗预测模型的泛化能力差、现有能耗预测方法未考虑CPU频率的影响以及现有能耗优化方法难以识别出最优配置参数组合的问题。本发明首先对功率缺失值进行填补,再利用填补后的数据对功耗预测模型进行训练,且训练过程中考虑了硬件资源使用情况数据,提高了训练好的功耗预测模型的泛化能力。本发明定性研究了包含集群服务器CPU频率在内的硬件参数和HADOOP集群配置参数列表对于集群能耗的映射关系,并利用基于强化学习的参数选择算法对配置参数列表进行选择并以此为基础应用调优,可以识别出最优配置参数组合,实现对能耗的优化。本发明方法可以应用于HADOOP集群的能耗监测及优化。
-
公开(公告)号:CN119357239A
公开(公告)日:2025-01-24
申请号:CN202411519197.X
申请日:2024-10-29
Applicant: 哈尔滨工业大学 , 北方自动控制技术研究所
IPC: G06F16/2455 , G06F16/27 , G06F18/23 , G06F18/25 , G06N3/0455 , G06N20/00 , G06N3/092 , G06N7/01 , G06F123/02
Abstract: 一种基于强化学习的数据库自适应混合数据分区方法及系统,它属于人工智能领域。本发明解决了在现有数据分区方案下,查询负载执行时需要访问大量冗余数据且无法根据动态工作负载自动进行自适应数据分区的问题。本发明建立工作负载预测模型,基于历史工作负载来预测数据库未来一段时间内查询工作负载中各种类查询出现的频率,将混合数据分区问题建模为马尔科夫决策过程,定义智能体状态、动作及奖励,根据预测出的各种类查询出现的频率和训练好的强化学习模型为到来的查询工作负载自适应推荐出合适的混合数据分区方案,减少了查询负载执行时所需要访问的数据量。本发明方法可以应用于数据库自适应混合数据分区。
-
公开(公告)号:CN114897140B
公开(公告)日:2024-08-02
申请号:CN202210499086.1
申请日:2022-05-09
Applicant: 哈尔滨工业大学
IPC: G06N3/045 , G06N20/20 , G06Q50/06 , G06N3/0475 , G06N3/094
Abstract: 一种基于电网潮流数据因果干预的反事实生成方法,涉及机器学习技术领域,针对现有反事实生成方法中每个新的实例都需要重新解决一个特定的优化问题,进而导致反事实生成效率低的技术问题,本申请通过对反事实因果干预的分析,为生成过程提供因果角度的理论保证;并适当地将模型偏差与属性之间的因果关系结合起来,以确保反事实解释的可行性;使用生成对抗网络与因果干预相结合,克服了原有方法针对一项实例就需要解决一个特定优化问题导致生成效率低下的难点,提高了反事实生成的效率。
-
公开(公告)号:CN117708111A
公开(公告)日:2024-03-15
申请号:CN202311742033.9
申请日:2023-12-18
Applicant: 哈尔滨工业大学
IPC: G06F16/215 , G06F16/2455 , G06F16/901
Abstract: 一种基于否定约束的错误数据检测方法及系统,涉及计算机数据清洗技术领域,针对现有技术中利用否定约束进行错误数据检测存在效率低的问题,本申请利用矩阵的思维保存证据集,用0和1表示是否满足谓词,减少了使用字符串时的重复匹配操作与冗余路径的搜索,在不降低错误数据检测精度的情况下大幅提高了错误数据检测的速度,同时没有降低对错误数据的检测精度。
-
公开(公告)号:CN116561122A
公开(公告)日:2023-08-08
申请号:CN202310454483.1
申请日:2023-04-25
Applicant: 哈尔滨工业大学
IPC: G06F16/22 , G06F16/2455
Abstract: 一种基于时效平衡树的数据处理方法及系统,具体涉及一种基于时效平衡树的数据处理方法及系统,为了解决计算机的平衡树类结构上存在的短期内被查询频率最高的节点通常消耗代价过高、单次查询消耗通常固定为对数级别时间,使平衡树缺乏对查询频率和近期查询的时效性的敏感性,导致每次查询时间过长的问题。它构建时效平衡树,将数据按照时效平衡树的结构存储,空树、单节点、时效平衡树的左子树和右子树均是时效平衡树,时效平衡树上的每个节点包括检索键值对、时效权值和记录查询轮次,时效权值由衰减法计算。定义时效平衡树的失衡度、平衡状态和旋转方式。依据定义、时效平衡树和时效权值完成计算机数据的处理。属于计算机数据处理领域。
-
-
-
-
-
-
-
-
-