-
公开(公告)号:CN108268611B
公开(公告)日:2021-03-26
申请号:CN201711473670.5
申请日:2017-12-29
Applicant: 天津南大通用数据技术股份有限公司
Abstract: 本发明提供一种基于MapReduce的k‑means文本聚类的方法及装置。包括,删除离群点,最大距离法选取初始簇中心,构造迭代中的簇中心计算公式和测度函数,设计基于MapReduce框架的大规模文本并行聚类模型。采用本发明的方法,可以有效解决传统K‑means聚类算法中的局部最优、迭代次数过多、聚类结果不稳定的问题,提高算法的并行能力和可扩展性。
-
公开(公告)号:CN108268611A
公开(公告)日:2018-07-10
申请号:CN201711473670.5
申请日:2017-12-29
Applicant: 天津南大通用数据技术股份有限公司
Abstract: 本发明提供一种基于MapReduce的k-means文本聚类的方法及装置。包括,删除离群点,最大距离法选取初始簇中心,构造迭代中的簇中心计算公式和测度函数,设计基于MapReduce框架的大规模文本并行聚类模型。采用本发明的方法,可以有效解决传统K-means聚类算法中的局部最优、迭代次数过多、聚类结果不稳定的问题,提高算法的并行能力和可扩展性。
-