Patent search ap:("南京邮电大学") AND inv:"王宇成" Page 1

1.

发明授权
一种大规模文档相似性检测方法有权

公开(公告)号：CN108595517B

公开(公告)日：2021-03-09

申请号：CN201810251626.8

申请日：2018-03-26

Applicant: 南京邮电大学

Inventor： 王诚 , 王宇成

IPC: G06F16/33

Abstract: 本发明提出了一种大规模文档相似性检测方法，包括：S1、计算文档集中文档其他信息的相似度；S2、每篇文档内容对应一个签名S和一个f维向量V；S3、对文档内容进行分词处理；S4、特征词x的权重综合计算；S5、将特征词用哈希函数映射为签名h，遍历h的每一位，对V进行调整；S6、遍历V，对于签名S进行调整，最终生成签名S为文档内容对应的签名值；S7、将文档内容对应的签名值分为n块，使用哈希函数，映射到桶，并判断是否二次哈希；S8、同一个桶的文档作为候选对，计算相似度；S9、判断是否为相似文档。本发明检测的准确率高，执行效率高。可广泛用于互联网大规模数据挖掘中。

2.

发明公开
一种大规模文档相似性检测方法有权

公开(公告)号：CN108595517A

公开(公告)日：2018-09-28

申请号：CN201810251626.8

申请日：2018-03-26

Applicant: 南京邮电大学

Inventor： 王诚 , 王宇成

IPC: G06F17/30

Abstract: 本发明提出了一种大规模文档相似性检测方法，包括：S1、计算文档集中文档其他信息的相似度；S2、每篇文档内容对应一个签名S和一个f维向量V；S3、对文档内容进行分词处理；S4、特征词x的权重综合计算；S5、将特征词用哈希函数映射为签名h，遍历h的每一位，对V进行调整；S6、遍历V，对于签名S进行调整，最终生成签名S为文档内容对应的签名值；S7、将文档内容对应的签名值分为n块，使用哈希函数，映射到桶，并判断是否二次哈希；S8、同一个桶的文档作为候选对，计算相似度；S9、判断是否为相似文档。本发明检测的准确率高，执行效率高。可广泛用于互联网大规模数据挖掘中。

Patent Agency Ranking