-
公开(公告)号:CN106484758B
公开(公告)日:2019-08-06
申请号:CN201610647210.9
申请日:2016-08-09
Applicant: 浙江经济职业技术学院
Abstract: 本发明公开了一种基于网格和聚类优化的实时数据流核密度估计方法,采用在线/离线双层框架,在线过程持续维护不断到达的数据流对象,存入先进先出队列,队头和队尾数据映射到相应的网格,进而更新网格的特征向量,原始数据的统计信息被保存在网格六元组内。基于权重K‑means的网格聚类在离线阶段执行,将参与核密度估计的网格数量减少为聚类核数量。得到的聚类,其网格成员、参数βl,tl,k和hl,k根据M‑MMCKDE优化策略修正以确保极小化合并网格重心核的误差,从而得到聚类优化核,据此最终获得查询点的数据流核密度估计结果。本发明具有较高的执行效率和计算精度,适用于对大数据流的处理。
-
公开(公告)号:CN106484758A
公开(公告)日:2017-03-08
申请号:CN201610647210.9
申请日:2016-08-09
Applicant: 浙江经济职业技术学院
CPC classification number: G06F16/285 , G06K9/6223
Abstract: 本发明公开了一种基于网格和聚类优化的实时数据流核密度估计方法,采用在线/离线双层框架,在线过程持续维护不断到达的数据流对象,存入先进先出队列,队头和队尾数据映射到相应的网格,进而更新网格的特征向量,原始数据的统计信息被保存在网格六元组内。基于权重K-means的网格聚类在离线阶段执行,将参与核密度估计的网格数量减少为聚类核数量。得到的聚类,其网格成员、参数βl,tl,k和hl,k根据M-MMCKDE优化策略修正以确保极小化合并网格重心核的误差,从而得到聚类优化核,据此最终获得查询点的数据流核密度估计结果。本发明具有较高的执行效率和计算精度,适用于对大数据流的处理。
-