基于子文件的数据重删方法、装置及可读介质

    公开(公告)号:CN116775588A

    公开(公告)日:2023-09-19

    申请号:CN202310793835.6

    申请日:2023-06-30

    Abstract: 本发明公开了一种基于子文件的数据重删方法、装置及可读介质,获取输入文件,判断输入文件为Office文件或Pdf文件;响应于确定输入文件为Office文件,循环解析Office文件中的局部文件数据,对局部文件数据计算指纹信息,并存入recipe,直至检测到中央目录记录;响应于确定输入文件为Pdf文件,对Pdf文件解析得到stream数据,对stream数据计算指纹信息,并存入recipe;将Office文件中的局部文件数据以及Pdf文件中的stream数据定义为数据块,查询数据块对应的指纹信息是否存在于持久化存储介质的元数据保存结构体数组中,得到查询结果,根据查询结果进行重删,可有效提高重删效率。

    一种基于学习索引的数据重删方法和系统

    公开(公告)号:CN118567562A

    公开(公告)日:2024-08-30

    申请号:CN202410699704.6

    申请日:2024-05-31

    Abstract: 本发明公开了一种基于学习索引的数据重删方法和系统,包括:若数据块请求为写请求,则将数据块写入内存缓存并计算指纹值,将指纹值和逻辑页地址写入LPA‑FP索引表;若内存缓存中的所有数据块的数量达到阈值,则为内存缓存中的所有数据块分配对应的物理页地址,并生成若干个FP‑PPA映射,根据若干个FP‑PPA映射通过分段线性回归计算得到FP‑PPA表达式,将FP‑PPA表达式写入内存缓存和闪存,并将内存缓存中的所有数据块写入闪存,将数据块及其相邻数据块的指纹值保存在带外数据区域;若数据块请求为读请求,则根据逻辑页地址在LPA‑FP索引表中查找指纹值,根据指纹值和FP‑PPA表达式计算出物理页地址并在闪存中查询所要读取的数据块,以减少内存缓存的空间并加快物理页地址的查找速度。

    基于变长指纹的数据重删方法、装置及可读介质

    公开(公告)号:CN116820343A

    公开(公告)日:2023-09-29

    申请号:CN202310801832.2

    申请日:2023-06-30

    Abstract: 本发明公开了一种基于变长指纹的数据重删方法、装置及可读介质,对输入文件进行分块,根据数据块的长度采用不同的哈希算法计算数据块对应的指纹;响应于在LRU缓存中查询不到该指纹,则根据该指纹所对应的哈希算法在不同的持久化存储介质中查询;响应于在持久化存储介质中查询到该指纹,将该指纹和元数据存入LRU缓存中,并利用局部性原理将包含该指纹的输入文件中同属于同一持久化存储介质的指纹全部存入LRU缓存中;响应于在持久化存储介质中查询不到该指纹,则构建该指纹的元数据并存储在对应的持久化存储介质,并将该指纹对应的数据块存储在开放容器中,在持久化存储介质中采用对应格式的指纹存储文件对元数据进行分类存储,加快查找。

    空洞整理方法、装置、电子设备和存储介质

    公开(公告)号:CN119088305A

    公开(公告)日:2024-12-06

    申请号:CN202411197088.0

    申请日:2024-08-29

    Abstract: 本申请属于计算机存储领域,具体公开了一种空洞整理方法、装置、电子设备和存储介质,该方法包括:对于有空洞的条带组,在第一方案和第二方案中,选择消耗磁盘I/O较少的方案,对空洞区域进行整理;其中,所述第一方案为当新数据请求到达时,将新数据写入空洞区域;所述第二方案为将条带组中每个逻辑块内的有效数据整理到条带组中的连续数据空间进行存储,当新数据请求到达时,将新数据顺序写入所述连续数据空间以外的空洞区域,通过该方法可以减少数据的迁移引起的磁盘I/O操作,从而提高系统性能和可靠性。

Patent Agency Ranking