一种语义匹配模型的训练方法以及文本匹配方法

    公开(公告)号:CN115511073A

    公开(公告)日:2022-12-23

    申请号:CN202210991280.1

    申请日:2022-08-18

    Abstract: 本发明提供了一种语义匹配模型的训练方法,包括:A1、获取训练集,其包括多个样本,每个样本包含预定文本以及每个预定文本对应的两个待匹配文本,每个样本分别对应有弱标签和权重,弱标签指示对应样本所含两个待匹配文本中的哪一个待匹配文本与预定文本更具相关性,初始权重的数值与指示对应样本的难度的难度指标相关,难度相对越大的样本赋予相对越小的初始权重;A2、利用训练集中的样本对语义匹配模型进行多次迭代训练,使其根据预定文本分别和每个待匹配文本形成的文本对输出两者的相关性得分,根据相关性得分、弱标签以及权重确定加权损失值以更新语义匹配模型,样本的权重根据当前已完成训练的次数进行动态调整。

    基于BERT模型的文档关键词抽取方法及装置

    公开(公告)号:CN112883171A

    公开(公告)日:2021-06-01

    申请号:CN202110142917.5

    申请日:2021-02-02

    Abstract: 一种基于BERT模型的文档关键词抽取方法,其包括以下步骤:将文档集合中的每篇文档通过BERT模型进行编码,并提取BERT模型生成的文档语义对每个子词的注意力权重;将子词还原成词语,并将子词的注意力权重聚合为词语的注意力权重;将文档中不同位置的同一词语的注意力权重聚合为词语的与位置无关的注意力权重,记为p(word_weight|doc);计算每个词语在文档集合上的注意力权重,记为p(word_weight|corpus);以及联合p(word_weight|doc)和p(word_weight|corpus),并选取N个最终注意力权重最高的词语作为文档关键词。该方法利用BERT模型提取文档语义表示来计算词语注意力权重分布,最终实现关键词的抽取,兼顾词语频率信息的同时,有效地解决传统无监督算法忽略语义问题,提高了关键词抽取的准确率和召回率。

    一种构建文本分类系统的方法、系统、介质及电子设备

    公开(公告)号:CN111966826A

    公开(公告)日:2020-11-20

    申请号:CN202010709070.X

    申请日:2020-07-22

    Abstract: 本发明实施例提供了种构建文本分类系统的方法、系统、介质及电子设备,该文本分类系统包括分句模块、句子级特征提取模块、篇章级特征提取模块和分类模块,该方法包括:A1、获取包括多个文本的训练集,所述训练集中的文本带有标记的所属类别,且其中至少部分文本是超长文本;A2、用分句模块根据预定义的分句规则对训练集中的每个文本进行分句以得到多个句子;A3、用所述训练集对文本分类系统的句子级特征提取模块、篇章级特征提取模块和分类模块进行多轮训练至收敛,得到文本分类系统;本发明减少了提取特征时丢失语义信息和结构信息的可能,最后根据文本的篇章特征用于后续的分类预测,提高了文本分类的准确率,尤其适用于对超长文本的准确分类。

    一种命名实体识别模型的训练方法及命名实体识别的方法

    公开(公告)号:CN111738004A

    公开(公告)日:2020-10-02

    申请号:CN202010546972.6

    申请日:2020-06-16

    Abstract: 本发明实施例提供了一种命名实体识别模型的训练方法及命名实体识别的方法,本发明利用训练集训练BERT-CRF模型得到经本轮训练的命名实体识别模型,然后用经本轮训练的命名实体识别模型标记待识别数据集得到弱标记的待识别数据集,从弱标记的待识别数据集中选择一部分与初始训练集合并作为新的训练数据集继续对命名实体识别模型进行下一轮训练,从而让命名实体识别模型在对待识别数据集进行识别前用待识别数据集对模型进行调整,使其具有更佳的泛化能力,最终提升模型在待识别数据集上的识别效果。

Patent Agency Ranking