-
公开(公告)号:CN102591946A
公开(公告)日:2012-07-18
申请号:CN201110445282.2
申请日:2011-12-27
Applicant: 微软公司
IPC: G06F17/30
CPC classification number: G06F17/30371 , G06F17/30156 , G06F17/30303 , G06F17/30327 , G06F17/3033 , G06F17/30489
Abstract: 本发明涉及使用索引划分和协调来进行数据去重复。所公开的主题涉及将散列索引服务的索引划分为子空间索引的数据去重复技术,其中少于整个散列索引服务的索引被高速缓存以节省存储器。该子空间索引被访问以确定数据块是否已经存在或需要被索引和存储。可基于与要索引的数据相关联的准则(诸如文件类型、数据类型、最后使用时间等)将该索引分成各个子空间。还描述了子空间协调,其中检测子空间中的重复条目以从该去重复系统中移除条目和块。子空间协调可在非高峰时间、当更多系统资源可用时执行,而如果需要资源则可中断协调。要协调的子空间可以基于相似度,包括签名的相似度,每个签名紧凑地表示该子空间的散列。
-
公开(公告)号:CN102591947A
公开(公告)日:2012-07-18
申请号:CN201110445284.1
申请日:2011-12-27
Applicant: 微软公司
IPC: G06F17/30
CPC classification number: G06F12/0862 , G06F12/0866 , G06F12/0897 , G06F17/30097 , G06F17/30159 , G06F2212/1024 , G06F2212/463 , G06F2212/466
Abstract: 本发明公开了用于数据去重复的快速且低RAM占用的索引。本发明涉及数据去重复技术,其中散列索引服务的索引在诸如硬盘驱动器之类的辅助存储设备中维护散列索引,以及在RAM中维护用于在去重复操作期间减少访问辅助存储设备的I/O的紧凑索引表和前瞻高速缓存。还描述了用于在去重复会话期间维护数据的会话高速缓存,以及出于效率考虑对只读紧凑索引表进行的编码。
-