用于数据去重复的可扩展流水线

    公开(公告)号:CN102567503A

    公开(公告)日:2012-07-11

    申请号:CN201110440182.0

    申请日:2011-12-15

    Applicant: 微软公司

    CPC classification number: G06F17/30091 G06F17/3007

    Abstract: 本发明描述了用于数据去重复的可扩展流水线。本公开涉及由模块化数据去重复流水线的各阶段/模块执行的数据去重复(优化)。在每个阶段,流水线允许替换、选择或扩展模块,例如,不同的算法可被用于基于正被处理的数据的类型来进行分块化或压缩。此流水线便于安全的数据处理、批处理、和并行处理。流水线是可基于反馈调整的,例如,通过选择模块来提升去重复质量、性能和/或吞吐量。还描述了例如基于文件和/或文件数据集的属性和/或统计属性和/或内部或外部反馈来对文件进行选择、过滤、排名、排序和/或编组,以进行去重复。

Patent Agency Ranking