-
公开(公告)号:CN110609932A
公开(公告)日:2019-12-24
申请号:CN201910707604.2
申请日:2019-08-01
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F16/9032 , G06F16/951 , G06F17/22
Abstract: 本发明公开了一种基于复杂网络文本语意图编码方式的专利查重方法及系统,所述方法包括以下步骤:将从互联网中获取的公开数据集预处理成语料数据;将语料数据输入Word2Vector模型中进行训练和测试,生成词向量模型;将待查重长文本和公开长文本分别输入词向量模型中,得到待查重长文本词向量和公开长文本词向量;构建待查重长文本多维复杂有向图和公开长文本多维复杂有向图;获取待查重长文本的张量、公开长文本的张量;通过计算待查重长文本张量与公开长文本张量之间的相似度来判定文本相似程度。本发明提出的复杂网络文本语意图编码方式能够充分表示出文档中字、词的关系以及关系的权重,表意清晰,物理意义明确,易于计算。
-
公开(公告)号:CN116401209A
公开(公告)日:2023-07-07
申请号:CN202310384588.4
申请日:2023-04-12
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F16/11 , G06F16/172 , G06F16/16 , G06F16/14
Abstract: 本发明公开了一种票据自动归档的方法、装置、电子设备及存储介质。该方法包括:获取与多笔审核内容对应的多份纸质审核票据,其中,在多份纸质审核票据中,每一笔审核内容所需的全部纸质审核票据以审核编号展示页作为首页进行区分;顺序扫描各所述纸质审核票据,生成与各纸质审核票据分别对应的多张扫描影像图;在所述多张扫描影像图中分别进行审核编号的识别,并根据识别结果,将与每笔审核内容分别对应的至少一个扫描影像图进行关联存储。通过本发明的技术方案,能够实现多笔审核票据的自动归档,减少了票据归档工作的人力消耗,提高了票据自动归档的速度与效率。
-
公开(公告)号:CN114692577A
公开(公告)日:2022-07-01
申请号:CN202210269930.1
申请日:2022-03-18
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F40/166
Abstract: 本发明涉及到一种用于文本文档自动化编辑的内容定位方法,该方法通过对文本文档结构的划分实现对文档内容的精确定位,其包括文档结构划分流程和文本文档内容定位流程,文本文档结构划分方式分为按文档全文划分、按文档中的页面划分、按文档中的表格划分及按表格中的单元格划分,其流程为:获得文本文档,判断文档内容,确定文档内容所在表格的序号,确定在表格中的位置,确定在单元格内部的段落序号,确定句子在段落中的位置,确定在句子内的位置,再次判断该位置处内容是否为表格,输出文档文字的位置,完成文档定位操作;还涉及定位系统及流程机器人。本发明实现了文本文档内容的精确定位,可对复杂表格嵌套结构定位,流程编写过程简化、直观。
-
-