-
公开(公告)号:CN113569016B
公开(公告)日:2022-01-25
申请号:CN202111132931.3
申请日:2021-09-27
Applicant: 北京语言大学
Abstract: 本发明公开了一种基于Bert模型的专业术语提取方法及装置,涉及词语提取技术领域,方法包括:将待提取数据分别输入到通用Bert模型以及专业Bert模型,得到通用attention矩阵以及专业attention矩阵;在专业attention矩阵中确定出满足成词条件的最小矩阵,将最小矩阵对应的词语加入到专业术语候选集;在通用attention矩阵中确定专业术语候选集中的词语对应的关系矩阵,将不满足成词条件的词语确定为专业术语。采用本发明,可以节省成本,提高专业术语提取的准确率。
-
公开(公告)号:CN117973378B
公开(公告)日:2024-07-09
申请号:CN202410019481.4
申请日:2024-01-05
Applicant: 北京语言大学
IPC: G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及文本处理技术领域,特别是指一种基于bert模型的词语搭配提取方法及装置,方法包括:获取训练样本,基于训练样本对初始的bert模型进行训练,得到训练好的bert模型;获取待提取信息的输入句子,将输入句子输入到训练好的bert模型中,得到bert模型最上层的attention矩阵;在attention矩阵中确定出满足预设条件的多个成词矩阵;根据attention矩阵,计算多个成词矩阵之间的搭配程度分,根据计算得到的搭配程度分,确定多个成词矩阵之间的搭配关系。采用本发明,通过字与字之间的相关性先提取词语,再确定词语之间的搭配程度,进而提取词语搭配关系,节省了人力成本和时间成本,而且通过现有的bert模型可以高效率高质量的确定词语搭配程度,提高了提取词语搭配的效率。
-
公开(公告)号:CN117973378A
公开(公告)日:2024-05-03
申请号:CN202410019481.4
申请日:2024-01-05
Applicant: 北京语言大学
IPC: G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及文本处理技术领域,特别是指一种基于bert模型的词语搭配提取方法及装置,方法包括:获取训练样本,基于训练样本对初始的bert模型进行训练,得到训练好的bert模型;获取待提取信息的输入句子,将输入句子输入到训练好的bert模型中,得到bert模型最上层的attention矩阵;在attention矩阵中确定出满足预设条件的多个成词矩阵;根据attention矩阵,计算多个成词矩阵之间的搭配程度分,根据计算得到的搭配程度分,确定多个成词矩阵之间的搭配关系。采用本发明,通过字与字之间的相关性先提取词语,再确定词语之间的搭配程度,进而提取词语搭配关系,节省了人力成本和时间成本,而且通过现有的bert模型可以高效率高质量的确定词语搭配程度,提高了提取词语搭配的效率。
-
公开(公告)号:CN113569016A
公开(公告)日:2021-10-29
申请号:CN202111132931.3
申请日:2021-09-27
Applicant: 北京语言大学
Abstract: 本发明公开了一种基于Bert模型的专业术语提取方法及装置,涉及词语提取技术领域,方法包括:将待提取数据分别输入到通用Bert模型以及专业Bert模型,得到通用attention矩阵以及专业attention矩阵;在专业attention矩阵中确定出满足成词条件的最小矩阵,将最小矩阵对应的词语加入到专业术语候选集;在通用attention矩阵中确定专业术语候选集中的词语对应的关系矩阵,将不满足成词条件的词语确定为专业术语。采用本发明,可以节省成本,提高专业术语提取的准确率。
-
-
-