-
公开(公告)号:CN104021179B
公开(公告)日:2017-05-31
申请号:CN201410247704.9
申请日:2014-06-05
Applicant: 暨南大学
IPC: G06F17/30
Abstract: 一种大数据下相似性数据快速识别算法,包括下述步骤:数据文件长度的修正;计算抽样数据块之间的距离;计算抽样数据块的位置;抽取数据块;在数据文件首尾各抽取一个数据块;计算抽取数据块的特征值;通过集合运算判断数据的相似性。一方面,本发明的时空开销不随着数据文件大小的增加而增长;其次,本发明通过位置影响因子修正数据文件的长度,避免抽样数据块位置偏移而导致相似性数据识别失败;另外一方面,本发明通过信息检索的方法有效的保证了本发明在相似性数据识别方面的有效性和准确性。
-
公开(公告)号:CN104021179A
公开(公告)日:2014-09-03
申请号:CN201410247704.9
申请日:2014-06-05
Applicant: 暨南大学
IPC: G06F17/30
CPC classification number: G06F16/90 , G06K9/6215
Abstract: 一种大数据下相似性数据快速识别算法,包括下述步骤:数据文件长度的修正;计算抽样数据块之间的距离;计算抽样数据块的位置;抽取数据块;在数据文件首尾各抽取一个数据块;计算抽取数据块的特征值;通过集合运算判断数据的相似性。一方面,本发明的时空开销不随着数据文件大小的增加而增长;其次,本发明通过位置影响因子修正数据文件的长度,避免抽样数据块位置偏移而导致相似性数据识别失败;另外一方面,本发明通过信息检索的方法有效的保证了本发明在相似性数据识别方面的有效性和准确性。
-
公开(公告)号:CN108874315A
公开(公告)日:2018-11-23
申请号:CN201810555252.9
申请日:2018-06-01
Applicant: 暨南大学
IPC: G06F3/06
Abstract: 本发明公开了一种在线数据去重文件系统数据访问性能优化方法。数据时代的到来,数据总量呈现爆炸式的增长,信息世界的数据存储和管理需求已经达到PB甚至EB级。IDC研究发现,在数字世界中接近75%的数据都是冗余的,ESG指出在备份和归档系统中数据冗余度超过90%。在线数据去重文件系统将数据去重应用到文件系统当中,能够有效消除冗余数据,降低数据存储的成本。同时文件系统作为一个通用的数据存储层能够为上层应用提供存储后端服务。但是,直接将数据去重技术应用到文件系统当中会导致读性能降低,同时垃圾回收性能也降低。本发明能够提高在线数据去重文件系统的读性能;同时能够加速在线数据去重文件系统的垃圾回收速度。
-
-