一种面向超大规模数据的球粒聚类方法

    公开(公告)号:CN118194072A

    公开(公告)日:2024-06-14

    申请号:CN202410366403.1

    申请日:2024-03-28

    Applicant: 华侨大学

    Abstract: 一种面向超大规模数据的球粒聚类方法,用于提升大规模数据处理速度,包括如下步骤:对原始数据集进行预处理,将非规范化数据转换为数值型数据;对预处理后的数据通过多次抽样和球粒算法进行初步数据分布获取,识别出代表球及其球心,并据此得到数据的整体分布;再次利用球粒算法对识别出的所有代表球进行精细化处理以识别关键球,根据所述关键球构建数据的森林并分配标签;计算未标记数据点与已标记关键球的球心之间的最小欧式距离,进行全局标签的分配。本发明显著提升数据处理速度,不仅有助于推动大数据技术的发展,同时也可作为图像处理等其他领域预处理步骤的有效工具。

Patent Agency Ranking