一种钢管的长度大数据上的均值近似聚集方法

    公开(公告)号:CN106934059B

    公开(公告)日:2019-10-22

    申请号:CN201710175458.4

    申请日:2017-03-22

    Abstract: 一种大数据上的均值近似聚集方法,本发明涉及一种大数据上的近似聚集方法。本发明的目的是为了解决现有方法的采样顺序敏感、需要用户参与观测、计算结果精度低的问题。一、在需要进行均值聚集计算的包含M个数据的数据集中随机采一个包含m个个体的样本,求出一个粗略均值和样本标准差;二、用户给定指定的精度,求出满足精度所需要的采样率;三、确定需要进行均值聚集计算的数据集的数据边界,得到一个表示需要进行均值聚集计算的数据集的数据边界的参数;四、将参数传到每一个计算单元内,得到每一个计算单元内的均值;五、将每一个计算单元内的均值进行整合,输出最终结果。本发明用于金融,统计等领域。

    一种面向大数据的并行系统优化方法

    公开(公告)号:CN106814994B

    公开(公告)日:2019-02-19

    申请号:CN201710045825.9

    申请日:2017-01-20

    Abstract: 一种面向大数据的并行系统优化方法,本发明涉及面向大数据的并行系统优化方法。本发明的目的是为了解决现有技术都是针对某一特定的算法,没有针对复杂算式,且计算耗时长的问题。具体过程为:步骤一:将数据密集型算式进行抽象化处理;步骤二:将步骤一抽象化处理后的数据密集型算式生成算式语义树;步骤三:将步骤二生成的语义树进行化简并生成算式依赖图;步骤四:将步骤三生成的算式依赖图进行分层并生成任务序列;步骤五:根据步骤四生成的任务序列在并行系统中生成任务依赖关系,执行后得到数据密集型算式的计算结果。本发明用于数据分析领域。

    一种基于分布式计算的数据依赖挖掘方法及系统

    公开(公告)号:CN109325062A

    公开(公告)日:2019-02-12

    申请号:CN201811061441.7

    申请日:2018-09-12

    Inventor: 王宏志 张翔熙

    Abstract: 本发明涉及数据处理技术领域,提供了一种基于分布式计算的数据依赖挖掘方法及系统,其中方法包括:数据重分配步骤、根据原始数据集生成属性相似倒排表;一阶依赖挖掘步骤、根据所述属性相似倒排表挖掘一阶数据依赖关系;高阶依赖挖掘步骤、逐级进行高阶数据依赖关系的挖掘,其中生成高阶数据依赖候选集,并基于挖掘的低阶数据依赖关系对高阶数据依赖候选集进行剪枝,利用属性相似倒排表对剪枝后的高阶数据依赖候选集中的高阶数据依赖关系进行验证。本发明通过生成属性相似倒排表,并采用递推式的数据依赖关系挖掘方式,使得数据依赖挖掘的可靠性和准确性更高。

    关系模式的自动转换方法、装置及存储介质

    公开(公告)号:CN108776673A

    公开(公告)日:2018-11-09

    申请号:CN201810498633.8

    申请日:2018-05-23

    Abstract: 本发明公开了一种关系模式的自动转换方法、装置及存储介质,能够在关系模式转换过程中完成空值补全,提高数据质量。所述方法包括:基于预设的属性距离计算方法,确定源关系模式的每个属性与目标关系模式的每个属性之间的相似度,构建第一属性相似度矩阵;基于属性距离计算方法,为源关系模式包括的每个属性构建预测模型,预测模型用于通过与该属性关系密切的其他属性的值来预测该属性的值;扫描源关系模式对应的数据表中的缺失值;根据缺失值对应属性的预测模型,预测缺失值的取值,并通过预测的取值补全数据表;根据第一属性相似度矩阵,将源关系模式补全后的数据映射到目标关系模式。

    面向海量异构数据的模式集成方法及装置

    公开(公告)号:CN107808001A

    公开(公告)日:2018-03-16

    申请号:CN201711116061.4

    申请日:2017-11-13

    Abstract: 本发明涉及一种面向海量异构数据知识库的模式集成方法,包括以下步骤:对知识库的数据进行处理,存储知识库中的边信息,形成边集,并构建聚类集合;采用编辑距离连接方法处理取自所述边集的模式集合,整合所述知识库中与所述模式集合中形式上相似的属性及相应的聚类集合;采用语义连接方法处理取自所述边集的模式集合,整合所述知识库中与所述模式集合中语义上相似的属性及相应的聚类集合;对编辑距离连接方法处理和语义连接方法处理所取得的结果集取并集,并进行假阳性检验。本发明还提供了一种面向海量异构数据知识库的模式集成装置。本发明提供的模式集成方法和装置可以对来自于异源知识库的模式进行高效准确的集成。

    基于多个视图的不完整数据分类方法及装置

    公开(公告)号:CN107657283A

    公开(公告)日:2018-02-02

    申请号:CN201710935580.7

    申请日:2017-10-10

    Inventor: 王宏志 孙铭

    CPC classification number: G06K9/6257 G06K9/6267

    Abstract: 本发明涉及一种基于多个视图的不完整数据分类方法及装置,其中方法包括:视图预处理步骤、按照预定规则从不完整数据集中筛选视图;视图选择步骤、采用贪心策略从筛选出的视图中选择视图,构成视图组合;其中根据当前样本的覆盖程度确定每个视图的权值,并选取初次被覆盖的特征的数目与权重的乘积最大的视图;视图组合步骤、将所述视图组合中的每一个视图用来训练一个基本分类器,通过学习获得每个基本分类器的权值。本发明充分利用不完整数据集的多个完整视图的组合,由若干个不同的弱分类器组成一个强分类器,每个弱分类器的地位不同,其结合方式采用学习法,学习出各个弱分类器的不同权值,最后综合起来得到强分类器的结果。

    数据库旋钮性能评估模型建模方法及评估方法

    公开(公告)号:CN118747145A

    公开(公告)日:2024-10-08

    申请号:CN202410885065.2

    申请日:2024-07-03

    Abstract: 数据库旋钮性能评估模型建模方法及评估方法,涉及数据库旋钮评估领域。解决了现有需要大量的时间和计算资源进行数据库旋钮评估模型的训练,以及各个旋钮对数据库性能的影响没有量化的问题。本发明数据收集分两阶段对旋钮进行重要性排序,利用关键旋钮在小范围内进一步收集数据。基于自动机器学习的规则生成模型生成数据库旋钮相关规则。再进行规则拟合,形成规则到数据库系统性能的映射来,对数据库旋钮性能评估模型训练,并利用训练后的数据库旋钮性能评估模型进行旋钮性能评估。本发明主要用于对数据库旋钮性能进行评估。

    一种基于模型通道剪裁的深度学习知识蒸馏方法

    公开(公告)号:CN114898165B

    公开(公告)日:2024-08-02

    申请号:CN202210697905.3

    申请日:2022-06-20

    Abstract: 一种基于模型通道剪裁的深度学习知识蒸馏方法,具体涉及一种用于图像分类的基于模型通道剪裁的深度学习知识蒸馏方法,本发明为解决现有图像分类在采用知识蒸馏压缩方法时,由于教师模型和学生模型参数量相差太大会使学生模型准确率降低,导致图像分类的准确率较低的问题。将待分类的图像输入教师模型中,利用教师模型每层卷积层中卷积通道的平均秩从大到小进行排序;计算教师模型和学生模型的参数量均值,并与教师模型参数量做变化比例作为通道剪裁总体压缩率;利用通道剪裁技术剪裁冗余卷积通道,得到中间模型;利用中间模型对学生模型进行知识蒸馏,得到新知识蒸馏目标函数并对学生模型进行训练,得到训练好的学生模型。属于知识蒸馏领域。

    一种基于电网潮流数据因果关系的元学习解释方法

    公开(公告)号:CN114897181B

    公开(公告)日:2024-08-02

    申请号:CN202210499772.9

    申请日:2022-05-09

    Abstract: 一种基于电网潮流数据因果关系的元学习解释方法,涉及机器学习技术领域,本申请将元学习可解释性归纳为元学习过程的可解释性以及元学习结果在具体问题中的可解释性两方面,并且分别从两方面实现了元学习的可解释性。元学习过程的可解释技术构建的推荐网络能够根据问题的元描述自动推荐一个合适的决策方法,并且结合积分梯度实现推荐网络的可解释,能够显式地为用户提供问题描述与决策方法选择上的直接关系。元学习结果在具体问题中的可解释技术结合因果关系分别从准确度量特征重要性和生成合理有效的反事实两方面实现可解释性,能够帮助使用者更好地理解元学习推荐结果在具体问题中的预测结果,从而在未来决策中作出更合理的判断。

Patent Agency Ranking