-
公开(公告)号:CN117973378A
公开(公告)日:2024-05-03
申请号:CN202410019481.4
申请日:2024-01-05
Applicant: 北京语言大学
IPC: G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及文本处理技术领域,特别是指一种基于bert模型的词语搭配提取方法及装置,方法包括:获取训练样本,基于训练样本对初始的bert模型进行训练,得到训练好的bert模型;获取待提取信息的输入句子,将输入句子输入到训练好的bert模型中,得到bert模型最上层的attention矩阵;在attention矩阵中确定出满足预设条件的多个成词矩阵;根据attention矩阵,计算多个成词矩阵之间的搭配程度分,根据计算得到的搭配程度分,确定多个成词矩阵之间的搭配关系。采用本发明,通过字与字之间的相关性先提取词语,再确定词语之间的搭配程度,进而提取词语搭配关系,节省了人力成本和时间成本,而且通过现有的bert模型可以高效率高质量的确定词语搭配程度,提高了提取词语搭配的效率。
-
公开(公告)号:CN117973378B
公开(公告)日:2024-07-09
申请号:CN202410019481.4
申请日:2024-01-05
Applicant: 北京语言大学
IPC: G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及文本处理技术领域,特别是指一种基于bert模型的词语搭配提取方法及装置,方法包括:获取训练样本,基于训练样本对初始的bert模型进行训练,得到训练好的bert模型;获取待提取信息的输入句子,将输入句子输入到训练好的bert模型中,得到bert模型最上层的attention矩阵;在attention矩阵中确定出满足预设条件的多个成词矩阵;根据attention矩阵,计算多个成词矩阵之间的搭配程度分,根据计算得到的搭配程度分,确定多个成词矩阵之间的搭配关系。采用本发明,通过字与字之间的相关性先提取词语,再确定词语之间的搭配程度,进而提取词语搭配关系,节省了人力成本和时间成本,而且通过现有的bert模型可以高效率高质量的确定词语搭配程度,提高了提取词语搭配的效率。
-