一种基于bert模型的词语搭配提取方法及装置

    公开(公告)号:CN117973378A

    公开(公告)日:2024-05-03

    申请号:CN202410019481.4

    申请日:2024-01-05

    Inventor: 王淼 徐娟 殷晓君

    Abstract: 本发明涉及文本处理技术领域,特别是指一种基于bert模型的词语搭配提取方法及装置,方法包括:获取训练样本,基于训练样本对初始的bert模型进行训练,得到训练好的bert模型;获取待提取信息的输入句子,将输入句子输入到训练好的bert模型中,得到bert模型最上层的attention矩阵;在attention矩阵中确定出满足预设条件的多个成词矩阵;根据attention矩阵,计算多个成词矩阵之间的搭配程度分,根据计算得到的搭配程度分,确定多个成词矩阵之间的搭配关系。采用本发明,通过字与字之间的相关性先提取词语,再确定词语之间的搭配程度,进而提取词语搭配关系,节省了人力成本和时间成本,而且通过现有的bert模型可以高效率高质量的确定词语搭配程度,提高了提取词语搭配的效率。

    一种基于bert模型的词语搭配提取方法及装置

    公开(公告)号:CN117973378B

    公开(公告)日:2024-07-09

    申请号:CN202410019481.4

    申请日:2024-01-05

    Inventor: 王淼 徐娟 殷晓君

    Abstract: 本发明涉及文本处理技术领域,特别是指一种基于bert模型的词语搭配提取方法及装置,方法包括:获取训练样本,基于训练样本对初始的bert模型进行训练,得到训练好的bert模型;获取待提取信息的输入句子,将输入句子输入到训练好的bert模型中,得到bert模型最上层的attention矩阵;在attention矩阵中确定出满足预设条件的多个成词矩阵;根据attention矩阵,计算多个成词矩阵之间的搭配程度分,根据计算得到的搭配程度分,确定多个成词矩阵之间的搭配关系。采用本发明,通过字与字之间的相关性先提取词语,再确定词语之间的搭配程度,进而提取词语搭配关系,节省了人力成本和时间成本,而且通过现有的bert模型可以高效率高质量的确定词语搭配程度,提高了提取词语搭配的效率。

Patent Agency Ranking