-
公开(公告)号:CN118760714B
公开(公告)日:2024-11-05
申请号:CN202411241796.X
申请日:2024-09-05
Applicant: 东北大学秦皇岛分校
IPC: G06F16/2458 , G06F16/2455 , G06F16/242 , G06F16/22 , G06F16/2457
Abstract: 本发明公开了基于分布式计算架构的大数据实时统计分析方法及系统,涉及大数据统计技术领域,基于数据分片策略将数据集中的数据分布到不同的计算节点,为数据集生成结构评分,基于结构评分与评分阈值的对比结果,判断是否需要对数据集进行近似统计,当判断需要近似统计时,在每个计算节点上,通过Hyper‑Log‑Log算法估计数据流中的独立元素数量,再通过Count‑Min‑Sketch算法估计数据流中各元素的频率后对数据去重处理。该分析系统通过将收集的数据分布到不同的节点进行并行处理,然后结合分析算法判断是否需要对数据进行近似统计,保障数据处理效果的同时,有利于提高数据处理效率。
-
公开(公告)号:CN118760714A
公开(公告)日:2024-10-11
申请号:CN202411241796.X
申请日:2024-09-05
Applicant: 东北大学秦皇岛分校
IPC: G06F16/2458 , G06F16/2455 , G06F16/242 , G06F16/22 , G06F16/2457
Abstract: 本发明公开了基于分布式计算架构的大数据实时统计分析方法及系统,涉及大数据统计技术领域,基于数据分片策略将数据集中的数据分布到不同的计算节点,为数据集生成结构评分,基于结构评分与评分阈值的对比结果,判断是否需要对数据集进行近似统计,当判断需要近似统计时,在每个计算节点上,通过Hyper‑Log‑Log算法估计数据流中的独立元素数量,再通过Count‑Min‑Sketch算法估计数据流中各元素的频率后对数据去重处理。该分析系统通过将收集的数据分布到不同的节点进行并行处理,然后结合分析算法判断是否需要对数据进行近似统计,保障数据处理效果的同时,有利于提高数据处理效率。
-