一种基于敏感词的文本内容审核方法及系统

    公开(公告)号:CN106445998B

    公开(公告)日:2020-08-21

    申请号:CN201610589166.0

    申请日:2016-07-25

    Inventor: 张健

    Abstract: 本发明公开了一种基于敏感词的文本内容审核方法,包括如下步骤:接收待审核文本,将待审核文本进行解析、分词,获取待审核文本中的所有关键词;根据所有关键词查询预设的敏感词数据库,获取待审核文本中的敏感词,敏感词数据库包括敏感词及其同义词或近义词;获取预设文本长度中与敏感词的共现的关键词,计算敏感词及其共现的关键词的违规权重,判断违规权重是否大于预设的违规阈值;如果违规权重大于预设的违规阈值,则待审核文本为违规文本,否则为正常文本。本发明有效地降低了误判的概率,提升审核准确度,对变形词和网络新词有较快的反应能力。

    文本中标点符号添加、模型训练方法、装置及电子设备

    公开(公告)号:CN111027291A

    公开(公告)日:2020-04-17

    申请号:CN201911182421.X

    申请日:2019-11-27

    Abstract: 本发明实施例提供了一种文本中标点符号添加、模型训练方法、装置及电子设备,该方法包括:对待添加文本进行分词处理以及词性识别,并进行归一化处理,并确定字/词向量;将词性信息、分词边界信息、字/词向量进行拼接得到特征向量;将特征向量输入到已训练的seq2seq模型中,得到多个添加标点的候选文本序列,并形成候选文本序列集合;将候选文本序列集合中不符合条件的文本序列进行过滤;在候选文本序列集合的剩余文本序列中,将联合概率最高,且符合标点符号规范的文本序列进行输出,并将输出的文本序列进行归一化的还原操作,可以很好的解决字符后面添加多个标点符号的问题,提高标点符号的添加的准确性。

    金融类文档信息处理方法、装置、电子设备及存储介质

    公开(公告)号:CN110909226A

    公开(公告)日:2020-03-24

    申请号:CN201911194180.0

    申请日:2019-11-28

    Abstract: 本发明实施例公开了一种金融类文档信息处理方法、装置、电子设备及存储介质,其中,该方法包括:将待审核的金融类文档,通过文档处理模块生成文档结构化数据;基于文档结构化数据生成财务科目结构化数据;将文档结构化数据输入到文字纠错模型中,输出纠错结果;将文档结构化数据输入到管理人员信息抽检校验模块,生成管理人员信息的校验结果;将财务科目结构化数据分别输入到财务指标公式计算模块、财务科目变化校验模块和财务报表抽取校验模块;分别生成财务指标公式的校验结果、财务科目变化的校验结果以及财务科目数据与对应基准数据的校验结果;将所有的校验结果以及纠错结果进行展示。本发明实施例提供的技术方案可以提高金融类文档审核的效率。

Patent Agency Ranking