一种基于区间检测的重复数据识别及删除方法

    公开(公告)号:CN115185742A

    公开(公告)日:2022-10-14

    申请号:CN202210776992.1

    申请日:2022-07-04

    Abstract: 本发明公开了一种基于区间检测的重复数据识别及删除方法。随着数据时代和存储领域的飞速发展。数据量的增加导致了存储空间、性能、成本等的低效利用问题。该方法根据重复块的分布情况通过为每个数据段选择一个最优的自适应阈值进行数据重写和引用,以提高恢复性能和备份性能。基于区间检测的重复数据识别及删除方法是通过对数据段涉及的旧容器进行有效容器利用率的自适应区间检测,从两个方向检测容器有效利用率的变化趋势,因此能够更准确地识别旧容器有效利用率的突变区间。此外,该方法使用全局哈希桶数组来记录不同有效利用率的旧容器数量及其引用情况,以便从全局范围内挑选旧容器进行引用,以提高数据恢复性能和数据备份性能。

    一种基于贪心选择的自适应阈值重复数据删除方法

    公开(公告)号:CN113625961B

    公开(公告)日:2024-05-17

    申请号:CN202110768446.9

    申请日:2021-07-07

    Applicant: 暨南大学

    Inventor: 邓玉辉 林丽芳

    Abstract: 本发明公开了一种基于贪心选择的自适应阈值重复数据删除方法。随着去重备份系统中数据量的急剧增大,去重备份系统的磁盘总容量与备份数据量大小的匹配问题成为主要矛盾之一。因此在数据去重中加入重写算法来缓解碎片化对去重备份系统带来的伤害。该方法通过选择引用具有更优效果的旧容器进行重复删除,以达到在保证高去重率的同时,提升去重备份系统的数据恢复性能。基于贪心选择的自适应阈值重复数据删除方法根据每个数据段中涉及的旧容器有效引用数量的分布情况,对不同的数据段使用不同的阈值进行去重,进而贪心选择一组有效引用量最大的旧容器组,在保证高重复数据删除率的同时提高去重备份系统的恢复性能。

    一种基于贪心选择的自适应阈值重复数据删除方法

    公开(公告)号:CN113625961A

    公开(公告)日:2021-11-09

    申请号:CN202110768446.9

    申请日:2021-07-07

    Applicant: 暨南大学

    Inventor: 邓玉辉 林丽芳

    Abstract: 本发明公开了一种基于贪心选择的自适应阈值重复数据删除方法。随着去重备份系统中数据量的急剧增大,去重备份系统的磁盘总容量与备份数据量大小的匹配问题成为主要矛盾之一。因此在数据去重中加入重写算法来缓解碎片化对去重备份系统带来的伤害。该方法通过选择引用具有更优效果的旧容器进行重复删除,以达到在保证高去重率的同时,提升去重备份系统的数据恢复性能。基于贪心选择的自适应阈值重复数据删除方法根据每个数据段中涉及的旧容器有效引用数量的分布情况,对不同的数据段使用不同的阈值进行去重,进而贪心选择一组有效引用量最大的旧容器组,在保证高重复数据删除率的同时提高去重备份系统的恢复性能。

Patent Agency Ranking