一种海量数据的清洗方法和系统
Abstract:
本发明公开一种海量数据的清洗方法和系统,涉及数据处理技术领域,以提高数据清洗的速度和效率。所述海量数据的清洗方法包括:根据预设数据块个数N,将映射归约并行计算框架内映射函数的个数设置为N,将归约函数的个数设为1;利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块,对每个数据块中的数据进行清洗,得到多个清洗的数据块;利用归约函数整合多个清洗的数据块,得到整合数据;对整合数据进行清洗,完成海量数据的清洗。所述海量数据的清洗系统包括上述海量数据的清洗方法。本发明提供的海量数据的清洗方法用于海量数据清洗。
Public/Granted literature
Patent Agency Ranking
0/0