数据集分类学习算法自动选择系统及方法

    公开(公告)号:CN111210023A

    公开(公告)日:2020-05-29

    申请号:CN202010031991.5

    申请日:2020-01-13

    Abstract: 一种数据集分类学习算法自动选择系统及方法,属于机器学习技术领域。本发明针对现有数据处理中涉及到的学习算法的选择方式不具有通用性,若逐个进行尝试则计算量过大的问题。系统包括训练特征选择模块:选择各分类问题数据集,对每个分类问题数据集进行处理,获得相应的分类元知识;抉择器模块:从分类元知识中选择有效特征作为元特征,形成抉择器训练集,对元知识训练抉择器进行训练;算法选择模块:对待处理数据集进行处理,获得待处理元特征;再采用元知识训练抉择器进行分析,获得待处理数据集的最优学习算法;知识库模块,获得包括不同分类问题数据集与其对应学习算法一一对应关系的算法选择训练集。本发明可为数据集预测最优的学习算法。

    时态数据集上的实体识别方法

    公开(公告)号:CN109543712A

    公开(公告)日:2019-03-29

    申请号:CN201811200645.4

    申请日:2018-10-16

    Abstract: 本发明涉及计算机技术领域,提供一种时态数据集上的实体识别方法。该方法主要包括以下步骤:S1:基于规则对数据进行预处理;S2:框架聚类;S3:类融合。本发明首次针对无时间戳的时态数据集合上实体识别问题上提出了解决方法,定义了时态数据集上属性的不确定性,并相应地对记录之间的相似度计算采用了动态权重的计算方法,这种动态权重计算方法的效果是明显优于固定权重的。本发明有效地结合了否定匹配依赖规则和时序约束规则,减少了算法运行的时间并保证了算法输出的结果,对于实体识别中的聚类分析阶段,提出了新颖的时态聚类算法。

    一种基于知识库图匹配的数据清洗方法及装置

    公开(公告)号:CN109063048A

    公开(公告)日:2018-12-21

    申请号:CN201810789814.6

    申请日:2018-07-18

    Abstract: 本发明涉及一种基于知识库图匹配的数据清洗方法,包括:根据待清洗的数据库生成查询语句;对查询语句进行数据转图并合并相似条目,生成搜索图;所述搜索图采用二级索引表示,包括两个标签;根据所有所述搜索图的标签对知识库进行筛选,筛选出满足所述搜索图中一组第一个标签和第二个标签所示信息的数据,转图并合并相似条目,转为知识库大图;将搜索图与知识库大图进行图匹配操作,返回查询结果;根据返回的查询结果,对待清洗的数据库进行清洗。本发明还提供了一种基于知识库图匹配的数据清洗装置。本发明通过图匹配快速查询知识库实现对数据库的清洗,能够减少数据存储所占空间,简化查询结果,减少查询时间,提升清洗的效率。

    一种基于集成学习的特征选择方法及装置

    公开(公告)号:CN108764486A

    公开(公告)日:2018-11-06

    申请号:CN201810499148.2

    申请日:2018-05-23

    Abstract: 本发明涉及一种基于集成学习的特征选择方法,包括:从原始数据集中抽取训练集和验证集;利用训练集对各个基学习器进行预训练,对特征选择结果进行评估,初始化基学习器的投票权重;基于基学习器的投票权重,利用训练集进行多轮集成学习,其中,每轮集成学习包括:根据基学习器的投票权重,将基学习器的特征选择结果进行加权投票,获取集成后的特征选择结果;利用验证集对特征选择结果进行评估,调节基学习器的投票权重。本发明还提供了一种基于集成学习的特征选择装置,上述方法及装置可针对不同原始数据集调节各个基学习器的投票权重,提升集成特征选择方法的普适性。

    一种基于历史任务分析的Apache Spark应用自动化调优方法

    公开(公告)号:CN108255689A

    公开(公告)日:2018-07-06

    申请号:CN201810026098.6

    申请日:2018-01-11

    CPC classification number: G06F11/3476 G06F11/3419

    Abstract: 本发明提出了一种基于历史任务分析的Apache Spark应用自动化调优方法,包括对Spark应用的任务提交接口进行封装,判断是否已有该Spark应用的分层灰盒时间预测模型,访问数据库,读取并更新所述分层灰盒时间预测模型,用户选择是否进行优化;如果进行优化则生成优化参数,如果不进行优化则按原参数执行,调用shell命令运行任务。本发明充分地利用了已知的集群硬件资源信息,选择并实现一了个能够在高维参数空间上对最优参数进行高效搜索方案,从而筛选出在建立的分层灰盒时间预测模型下,性能表现较优的配置参数,达到实现自动化Spark参数调优的目的。

    一种大数据上的均值近似聚集方法

    公开(公告)号:CN106934059A

    公开(公告)日:2017-07-07

    申请号:CN201710175458.4

    申请日:2017-03-22

    Abstract: 一种大数据上的均值近似聚集方法,本发明涉及一种大数据上的近似聚集方法。本发明的目的是为了解决现有方法的采样顺序敏感、需要用户参与观测、计算结果精度低的问题。一、在需要进行均值聚集计算的包含M个数据的数据集中随机采一个包含m个个体的样本,求出一个粗略均值和样本标准差;二、用户给定指定的精度,求出满足精度所需要的采样率;三、确定需要进行均值聚集计算的数据集的数据边界,得到一个表示需要进行均值聚集计算的数据集的数据边界的参数;四、将参数传到每一个计算单元内,得到每一个计算单元内的均值;五、将每一个计算单元内的均值进行整合,输出最终结果。本发明用于金融,统计等领域。

    一种基于电网潮流数据因果干预的反事实生成方法

    公开(公告)号:CN114897140B

    公开(公告)日:2024-08-02

    申请号:CN202210499086.1

    申请日:2022-05-09

    Abstract: 一种基于电网潮流数据因果干预的反事实生成方法,涉及机器学习技术领域,针对现有反事实生成方法中每个新的实例都需要重新解决一个特定的优化问题,进而导致反事实生成效率低的技术问题,本申请通过对反事实因果干预的分析,为生成过程提供因果角度的理论保证;并适当地将模型偏差与属性之间的因果关系结合起来,以确保反事实解释的可行性;使用生成对抗网络与因果干预相结合,克服了原有方法针对一项实例就需要解决一个特定优化问题导致生成效率低下的难点,提高了反事实生成的效率。

    一种基于否定约束的错误数据检测方法及系统

    公开(公告)号:CN117708111A

    公开(公告)日:2024-03-15

    申请号:CN202311742033.9

    申请日:2023-12-18

    Abstract: 一种基于否定约束的错误数据检测方法及系统,涉及计算机数据清洗技术领域,针对现有技术中利用否定约束进行错误数据检测存在效率低的问题,本申请利用矩阵的思维保存证据集,用0和1表示是否满足谓词,减少了使用字符串时的重复匹配操作与冗余路径的搜索,在不降低错误数据检测精度的情况下大幅提高了错误数据检测的速度,同时没有降低对错误数据的检测精度。

    一种基于时效平衡树的数据处理方法及系统

    公开(公告)号:CN116561122A

    公开(公告)日:2023-08-08

    申请号:CN202310454483.1

    申请日:2023-04-25

    Abstract: 一种基于时效平衡树的数据处理方法及系统,具体涉及一种基于时效平衡树的数据处理方法及系统,为了解决计算机的平衡树类结构上存在的短期内被查询频率最高的节点通常消耗代价过高、单次查询消耗通常固定为对数级别时间,使平衡树缺乏对查询频率和近期查询的时效性的敏感性,导致每次查询时间过长的问题。它构建时效平衡树,将数据按照时效平衡树的结构存储,空树、单节点、时效平衡树的左子树和右子树均是时效平衡树,时效平衡树上的每个节点包括检索键值对、时效权值和记录查询轮次,时效权值由衰减法计算。定义时效平衡树的失衡度、平衡状态和旋转方式。依据定义、时效平衡树和时效权值完成计算机数据的处理。属于计算机数据处理领域。

Patent Agency Ranking