Methods and systems for detecting duplicate document using document similarity measuring model based on deep learning

Invention Grant

US11631270B2 Methods and systems for detecting duplicate document using document similarity measuring model based on deep learning 有权

Please log in to see more content

Patent Title: Methods and systems for detecting duplicate document using document similarity measuring model based on deep learning
Application No.: US17119028

Application Date: 2020-12-11
Publication No.: US11631270B2

Publication Date: 2023-04-18
Inventor: Sung Min Kim , Byeonghoon Han
Applicant: NAVER CORPORATION
Applicant Address: KR Gyeonggi-do
Assignee: NAVER CORPORATION
Current Assignee: NAVER CORPORATION
Current Assignee Address: KR Gyeonggi-do
Agency: Harness, Dickey & Pierce, P.L.C.
Priority: KR10-2019-0164926 20191211
Main IPC: G06V30/418
IPC: G06V30/418 ; G06F16/93 ; G06K9/62 ; G06F40/194

Methods and systems for detecting duplicate document using document similarity measuring model based on deep learning

Abstract:

Disclosed is a method and system, the method including extracting similar and dissimilar document pair sets from a document database, the similar document pair set including similar document pairs having a common attribute, and the dissimilar document pair set including dissimilar document pairs extracted randomly, calculating a mathematical similarity for each of the similar and dissimilar document pairs using a mathematical measure to obtain a first and second mathematical similarities, calculating a semantic similarity for each of the similar and dissimilar document pairs to obtain a first and second semantic similarities, the first semantic similarities being higher than the first mathematical similarities, and the second semantic similarities being lower than the second mathematical similarities, training a similarity model based on the similar and dissimilar document pairs, and the first and second semantic similarities to obtain a trained similarity model, and detecting a duplicate document using the trained similarity model.

Public/Granted literature

US20210182551A1 METHODS AND SYSTEMS FOR DETECTING DUPLICATE DOCUMENT USING DOCUMENT SIMILARITY MEASURING MODEL BASED ON DEEP LEARNING Public/Granted day:2021-06-17

Information query

Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V30/00	字符识别；数字墨迹识别；面向文档的基于图像的模式识别（文档等的扫描、传输或复制 H04N1/00）
G06V30/40	.面向文档的基于图像的模式识别
G06V30/41	..文件内容分析（基于代码标记的印刷字符识别G06V30/224）
G06V30/418	...文档匹配，例如文件图像