文本纠错方法和装置、设备及存储介质

    公开(公告)号:CN116415569B

    公开(公告)日:2024-08-13

    申请号:CN202310442988.6

    申请日:2023-04-14

    Abstract: 本申请实施例提供了一种文本纠错方法和装置、设备及存储介质,属于人工智能技术领域。该方法包括:获取包括:待纠错字符和待纠错字符的原始字音信息、原始字形信息、原始语义信息和相关词窗口的待纠错文本;将原始字音信息、原始字形信息分别输入至预训练语言模型进行编码得到原始字音嵌入向量、原始字形嵌入向量;根据原始字音嵌入向量、原始字形嵌入向量和原始语义信息构建原始上下文信息向量;根据原始字音嵌入向量、原始字形嵌入向量和原始上下文信息向量构建原始字符键;根据原始字符键、相关词窗口在字符字典中进行字符筛选处理,得到选定字符;将待纠错字符替换为选定字符得到目标文本。本申请实施例能够提高文本纠错精度。

    文本纠错方法和装置、设备及存储介质

    公开(公告)号:CN116415569A

    公开(公告)日:2023-07-11

    申请号:CN202310442988.6

    申请日:2023-04-14

    Abstract: 本申请实施例提供了一种文本纠错方法和装置、设备及存储介质,属于人工智能技术领域。该方法包括:获取包括:待纠错字符和待纠错字符的原始字音信息、原始字形信息、原始语义信息和相关词窗口的待纠错文本;将原始字音信息、原始字形信息分别输入至预训练语言模型进行编码得到原始字音嵌入向量、原始字形嵌入向量;根据原始字音嵌入向量、原始字形嵌入向量和原始语义信息构建原始上下文信息向量;根据原始字音嵌入向量、原始字形嵌入向量和原始上下文信息向量构建原始字符键;根据原始字符键、相关词窗口在字符字典中进行字符筛选处理,得到选定字符;将待纠错字符替换为选定字符得到目标文本。本申请实施例能够提高文本纠错精度。

    文本摘要生成方法、装置、设备和存储介质

    公开(公告)号:CN116186243A

    公开(公告)日:2023-05-30

    申请号:CN202310001249.3

    申请日:2023-01-03

    Abstract: 本发明实施例提供文本摘要生成方法、装置、设备和存储介质,涉及人工智能技术领域。该方法利用语句权重模型获取目标语句的语句贡献度,然后根据语句贡献度选取用于生成文本摘要的语句集合,使得文本摘要模型更倾向于利用贡献度高语句生成文本摘要,提高生成的文本摘要的准确度,克服了相关技术中在进行文本摘要生成时不考虑语句的先验信息,选择冗长的或者信息量低的句子作为文本摘要,导致文本摘要的准确度较低的问题。

    大语言模型训练方法、文本生成方法和相关装置

    公开(公告)号:CN117787220A

    公开(公告)日:2024-03-29

    申请号:CN202311768374.3

    申请日:2023-12-20

    Abstract: 本申请实施例提供大语言模型训练方法、文本生成方法和相关装置,涉及人工智能技术领域。该方法利用大语言模型得到包含位置标记的问答对的第一标记向量和第一答案向量,再利用位置标记得到掩码问答句,得到掩码问答句的第二标记向量和第二答案向量;根据第一标记向量和第二标记向量计算第一损失值,根据第一答案向量和第二答案向量计算第二损失值,从而根据损失值得到目标大语言模型。将问答句的位置标记融入编码器的表达过程实现对比学习,在损失函数中融入位置信息,将问答对的生成结果进行对齐,捕捉问题与答案之间的映射关系,在整体上进行指令微调,提升大语言模型在指令遵循方面的能力,提升大语言模型的文本生成准确率。

    文本生成模型构建、文本生成方法和装置、设备及介质

    公开(公告)号:CN116432705A

    公开(公告)日:2023-07-14

    申请号:CN202310312753.5

    申请日:2023-03-20

    Abstract: 本申请实施例提供了一种文本生成模型构建、文本生成方法和装置、设备及介质,属于人工智能技术领域。方法包括:获取并将原始文本序列和重复文本序列输入至包括编码器、解码器、重复感知网络和全连接层的文本生成模型;通过编码器对原始文本序列进行编码得到文本向量序列;通过解码器对文本向量序列和重复文本序列进行解码得到候选文本序列;通过重复感知网络对候选文本序列进行重复字识别得到预测文本序列;通过全连接层对预测文本序列进行归一化得到预测字符概率序列;对预测字符概率序列和参考文本序列进行损失计算得到目标损失数据;根据目标损失数据对文本生成模型的参数调整。本申请实施例构建生成重复内容少的文本生成模型。

    汉字词向量生成方法、装置、设备和存储介质

    公开(公告)号:CN116362234A

    公开(公告)日:2023-06-30

    申请号:CN202310123940.9

    申请日:2023-02-03

    Abstract: 本发明实施例提供汉字词向量生成方法、装置、设备和存储介质,涉及人工智能技术领域。该方法包括:对初始汉字进行汉字结构拆解得到字形树,根据字形树最下层级的第一偏旁结构计算第一叶子节点的第一向量以及根据第二偏旁结构计算第二节点的第二向量;根据最下层级的第一向量、第二向量和父节点的字形向量计算得到上一个层级的第二向量,按照层级自下而上的顺序,基于每一层级的第一向量和第二向量逐层计算得到根节点向量,得到初始汉字的词向量。基于二叉树对初始汉字进行汉字拆解,得到汉字对应的偏旁结构,对偏旁结构进行向量编码,降低词嵌入矩阵的参数,提升词向量生成效率。同时融合汉字本身的结构形态信息,提高词向量蕴含的信息量。

Patent Agency Ranking