-
公开(公告)号:CN113627193A
公开(公告)日:2021-11-09
申请号:CN202110926242.3
申请日:2021-08-12
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F40/30 , G06F40/289
Abstract: 本发明实施例公开了一种中文文本中指代关系的确定方法、装置、设备及介质。该方法包括:获取目标中文文本,目标中文文本中包括待确定指代关系的目标名词和目标代词;将目标中文文本输入至预训练的,基于注意力机制的语义模型中,获取语义模型针对所述目标中文文本形成的至少一个注意力矩阵;根据各注意力矩阵,获取目标名词和目标代词之间的注意力指标,并根据注意力指标,确定目标代词和目标名词之间是否存在指代关系。通过本发明实施例的技术方案,能够直接对输入的目标中文文本数据进行预测,判断目标名词和目标代词间是否存在指代关系,不需要构建复杂的训练样本,也无需训练复杂的指代关系确定模型,提高了指代关系的判断效率。
-
公开(公告)号:CN106445998B
公开(公告)日:2020-08-21
申请号:CN201610589166.0
申请日:2016-07-25
Applicant: 达而观信息科技(上海)有限公司
Inventor: 张健
IPC: G06F16/953 , G06F40/284
Abstract: 本发明公开了一种基于敏感词的文本内容审核方法,包括如下步骤:接收待审核文本,将待审核文本进行解析、分词,获取待审核文本中的所有关键词;根据所有关键词查询预设的敏感词数据库,获取待审核文本中的敏感词,敏感词数据库包括敏感词及其同义词或近义词;获取预设文本长度中与敏感词的共现的关键词,计算敏感词及其共现的关键词的违规权重,判断违规权重是否大于预设的违规阈值;如果违规权重大于预设的违规阈值,则待审核文本为违规文本,否则为正常文本。本发明有效地降低了误判的概率,提升审核准确度,对变形词和网络新词有较快的反应能力。
-
公开(公告)号:CN111027291A
公开(公告)日:2020-04-17
申请号:CN201911182421.X
申请日:2019-11-27
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F40/166 , G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明实施例提供了一种文本中标点符号添加、模型训练方法、装置及电子设备,该方法包括:对待添加文本进行分词处理以及词性识别,并进行归一化处理,并确定字/词向量;将词性信息、分词边界信息、字/词向量进行拼接得到特征向量;将特征向量输入到已训练的seq2seq模型中,得到多个添加标点的候选文本序列,并形成候选文本序列集合;将候选文本序列集合中不符合条件的文本序列进行过滤;在候选文本序列集合的剩余文本序列中,将联合概率最高,且符合标点符号规范的文本序列进行输出,并将输出的文本序列进行归一化的还原操作,可以很好的解决字符后面添加多个标点符号的问题,提高标点符号的添加的准确性。
-
公开(公告)号:CN110909226A
公开(公告)日:2020-03-24
申请号:CN201911194180.0
申请日:2019-11-28
Applicant: 达而观信息科技(上海)有限公司
Abstract: 本发明实施例公开了一种金融类文档信息处理方法、装置、电子设备及存储介质,其中,该方法包括:将待审核的金融类文档,通过文档处理模块生成文档结构化数据;基于文档结构化数据生成财务科目结构化数据;将文档结构化数据输入到文字纠错模型中,输出纠错结果;将文档结构化数据输入到管理人员信息抽检校验模块,生成管理人员信息的校验结果;将财务科目结构化数据分别输入到财务指标公式计算模块、财务科目变化校验模块和财务报表抽取校验模块;分别生成财务指标公式的校验结果、财务科目变化的校验结果以及财务科目数据与对应基准数据的校验结果;将所有的校验结果以及纠错结果进行展示。本发明实施例提供的技术方案可以提高金融类文档审核的效率。
-
-
-