Invention Grant
- Patent Title: 一种海量数据的清洗方法和系统
-
Application No.: CN201610959853.7Application Date: 2016-11-03
-
Publication No.: CN106484915BPublication Date: 2019-10-11
- Inventor: 张素香 , 庞九凤 , 高德荃 , 张东 , 曹津平 , 李莉敏 , 李国春 , 王乾坤 , 徐慧明
- Applicant: 国家电网公司信息通信分公司 , 国家电网公司
- Applicant Address: 北京市西城区白广路二条一号
- Assignee: 国家电网公司信息通信分公司,国家电网公司
- Current Assignee: 国家电网公司信息通信分公司,国家电网公司
- Current Assignee Address: 北京市西城区白广路二条一号
- Agency: 北京中博世达专利商标代理有限公司
- Agent 申健
- Main IPC: G06F16/215
- IPC: G06F16/215

Abstract:
本发明公开一种海量数据的清洗方法和系统,涉及数据处理技术领域,以提高数据清洗的速度和效率。所述海量数据的清洗方法包括:根据预设数据块个数N,将映射归约并行计算框架内映射函数的个数设置为N,将归约函数的个数设为1;利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块,对每个数据块中的数据进行清洗,得到多个清洗的数据块;利用归约函数整合多个清洗的数据块,得到整合数据;对整合数据进行清洗,完成海量数据的清洗。所述海量数据的清洗系统包括上述海量数据的清洗方法。本发明提供的海量数据的清洗方法用于海量数据清洗。
Public/Granted literature
- CN106484915A 一种海量数据的清洗方法和系统 Public/Granted day:2017-03-08
Information query