基于transformer模型提取同义语块对的方法

    公开(公告)号:CN114417838A

    公开(公告)日:2022-04-29

    申请号:CN202210336467.8

    申请日:2022-04-01

    Abstract: 本发明涉及同义语块对提取技术领域,特别是指一种基于transformer模型提取同义语块对的方法,方法包括:获取待提取语句对并输入到transformer模型,获取transformer模型内部的ec_att_matrix和ecdc_att_matrix;在ec_att_matrix中,确定满足第一条件的最小内部矩阵,记录对应的语块以及标号,将语块确定为Query语块;对每个Query语块,确定满足第二条件的最小矩阵,确定Query语块对应的Title语块;根据Query语块以及对应的Title语块确定同义语块对。采用本发明,可以解决口语与书面语表达不一致的检索问题,提高效率和准确率。

    一种利用有序信息的文本分级方法及装置

    公开(公告)号:CN114996464B

    公开(公告)日:2022-10-21

    申请号:CN202210845265.6

    申请日:2022-07-19

    Abstract: 本发明涉及文本分级技术领域,特别是指一种利用有序信息的文本分级方法及装置。方法包括:根据预设的文本等级的数量,确定初始二分类模型的数量;根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本;根据每个初始二分类模型对应的正样本数据以及负样本数据,训练对应的初始二分类模型,得到训练完毕的多个二分类模型;将待分级文本分别输入到多个二分类模型中,得到每个二分类模型输出的二分类概率;根据每个二分类模型输出的二分类概率,得到待分级文本对应的文本等级。采用本发明,通过将一个多分类问题转化为多个二分类问题,有效利用了文本等级固有的有序性信息,提升了文本分级的准确率。

    一种利用有序信息的文本分级方法及装置

    公开(公告)号:CN114996464A

    公开(公告)日:2022-09-02

    申请号:CN202210845265.6

    申请日:2022-07-19

    Abstract: 本发明涉及文本分级技术领域,特别是指一种利用有序信息的文本分级方法及装置。方法包括:根据预设的文本等级的数量,确定初始二分类模型的数量;根据预设的文本等级以及初始样本,确定每个初始二分类模型对应的正样本以及负样本;根据每个初始二分类模型对应的正样本数据以及负样本数据,训练对应的初始二分类模型,得到训练完毕的多个二分类模型;将待分级文本分别输入到多个二分类模型中,得到每个二分类模型输出的二分类概率;根据每个二分类模型输出的二分类概率,得到待分级文本对应的文本等级。采用本发明,通过将一个多分类问题转化为多个二分类问题,有效利用了文本等级固有的有序性信息,提升了文本分级的准确率。

    基于transformer模型提取同义语块对的方法

    公开(公告)号:CN114417838B

    公开(公告)日:2022-06-21

    申请号:CN202210336467.8

    申请日:2022-04-01

    Abstract: 本发明涉及同义语块对提取技术领域,特别是指一种基于transformer模型提取同义语块对的方法,方法包括:获取待提取语句对并输入到transformer模型,获取transformer模型内部的ec_att_matrix和ecdc_att_matrix;在ec_att_matrix中,确定满足第一条件的最小内部矩阵,记录对应的语块以及标号,将语块确定为Query语块;对每个Query语块,确定满足第二条件的最小矩阵,确定Query语块对应的Title语块;根据Query语块以及对应的Title语块确定同义语块对。采用本发明,可以解决口语与书面语表达不一致的检索问题,提高效率和准确率。

Patent Agency Ranking