-
公开(公告)号:CN107392239A
公开(公告)日:2017-11-24
申请号:CN201710575225.3
申请日:2017-07-11
Applicant: 南京邮电大学
IPC: G06K9/62
CPC classification number: G06K9/6223
Abstract: 本发明公开了一种基于Spark计算模型的K-Means算法优化方法,主要解决现有K-means算法对初始中心选取依赖性强、分类数K未必总是已知及算法频繁迭代资源开销大等问题。该方法实现步骤是:对数据源进行数据预处理;采用Canopy算法选取合适K值;采用基于欧氏距离的最大最小距离算法选取初始中心;对数据集进行Map操作,得到样本到中心点的距离和相似度最高的中心点;对同一中心点下的RDD对象进行Reduce操作,反复迭代最终得到聚类结果。本发明相较其他K-Means改进的算法,能够充分利用Canopy的粗聚类结果和最大最小距离算法的合理初始点,通过Spark计算模型实现了海量数据中的并行运算,能够大大减少处理海量数据的时间,具有良好的收敛速度、准确性以及较强的实用价值。