一种面向数据去重技术的近似最优数据碎片块重写方法

    公开(公告)号:CN111858574A

    公开(公告)日:2020-10-30

    申请号:CN202010748768.2

    申请日:2020-07-30

    Applicant: 暨南大学

    Inventor: 邓玉辉 张大统

    Abstract: 本发明公开了一种面向数据去重技术的近似最优数据碎片块重写方法。数据时代的到来,数据总量呈现爆炸式的增长,信息世界的数据存储和管理需求已经达到PB甚至EB级。IDC研究发现,在数字世界中接近75%的数据都是冗余的,ESG指出在备份和归档系统中数据冗余度超过90%。数据去重技术能够有效地识别和消除重复数据,降低数据存储的成本。但是,删除重复数据会导致数据碎片化,数据碎片化严重损害了数据恢复性能。本发明能够准确识别出数据块中的碎片块,并通过重写碎片块缓解数据碎片化的程度;同时,本发明能够根据不同的工作负载自适应地切换重写策略(最优重写策略和激进重写策略),从而大大提高数据恢复性能,以及数据去重率。

    一种面向数据去重技术的近似最优数据碎片块重写方法

    公开(公告)号:CN111858574B

    公开(公告)日:2022-02-11

    申请号:CN202010748768.2

    申请日:2020-07-30

    Applicant: 暨南大学

    Inventor: 邓玉辉 张大统

    Abstract: 本发明公开了一种面向数据去重技术的近似最优数据碎片块重写方法。数据时代的到来,数据总量呈现爆炸式的增长,信息世界的数据存储和管理需求已经达到PB甚至EB级。IDC研究发现,在数字世界中接近75%的数据都是冗余的,ESG指出在备份和归档系统中数据冗余度超过90%。数据去重技术能够有效地识别和消除重复数据,降低数据存储的成本。但是,删除重复数据会导致数据碎片化,数据碎片化严重损害了数据恢复性能。本发明能够准确识别出数据块中的碎片块,并通过重写碎片块缓解数据碎片化的程度;同时,本发明能够根据不同的工作负载自适应地切换重写策略(最优重写策略和激进重写策略),从而大大提高数据恢复性能,以及数据去重率。

    一种数据去重系统中的冷热索引识别与分类管理方法

    公开(公告)号:CN111274212B

    公开(公告)日:2023-05-05

    申请号:CN202010064610.3

    申请日:2020-01-20

    Applicant: 暨南大学

    Inventor: 邓玉辉 张大统

    Abstract: 本发明公开了一种数据去重系统中的冷热索引识别与分类管理方法,针对数据存储领域中重复数据删除技术存在的最大瓶颈‑‑当备份的数据量达到PB、EB级别或以上时,内存不足以存放所有数据块的索引,从而导致了索引查找密集型的数据去重系统频繁地访问磁盘上的索引,严重地降低了数据去重系统的性能,该方法首次提出识别并分离热索引和冷索引,热索引即频繁被访问的索引,而冷索引即极少被访问的索引,通过将冷索引从内存或全局索引中剔除,达到了提高内存利用率、提高数据备份和数据恢复性能的目的,最终提高了数据去重系统的整体性能。本发明可以应用到各种备份数据流间具有较强局部性的数据去重系统中。

    一种数据去重系统中的冷热索引识别与分类管理方法

    公开(公告)号:CN111274212A

    公开(公告)日:2020-06-12

    申请号:CN202010064610.3

    申请日:2020-01-20

    Applicant: 暨南大学

    Inventor: 邓玉辉 张大统

    Abstract: 本发明公开了一种数据去重系统中的冷热索引识别与分类管理方法,针对数据存储领域中重复数据删除技术存在的最大瓶颈---当备份的数据量达到PB、EB级别或以上时,内存不足以存放所有数据块的索引,从而导致了索引查找密集型的数据去重系统频繁地访问磁盘上的索引,严重地降低了数据去重系统的性能,该方法首次提出识别并分离热索引和冷索引,热索引即频繁被访问的索引,而冷索引即极少被访问的索引,通过将冷索引从内存或全局索引中剔除,达到了提高内存利用率、提高数据备份和数据恢复性能的目的,最终提高了数据去重系统的整体性能。本发明可以应用到各种备份数据流间具有较强局部性的数据去重系统中。

Patent Agency Ranking