一种大语言模型的知识编辑方法、装置和电子设备

    公开(公告)号:CN119167895A

    公开(公告)日:2024-12-20

    申请号:CN202411649720.0

    申请日:2024-11-19

    Abstract: 发明公开了一种大语言模型的知识编辑方法、装置和电子设备,涉及计算模型和人工智能技术领域。方法包括:利用随机前缀和第一隐藏状态计算大语言模型各编辑层的编辑历史的主体向量;利用第二隐藏状态计算大语言模型各编辑层的编辑历史的关系向量;利用编辑历史的主体向量、编辑历史的关系向量和整个模型层的协方差矩阵计算编辑层的输出权重的偏移量;利用偏移量更新编辑层的输出权重;利用更新的编辑层的输出权重对大语言模型的编辑层进行知识编辑。本方法只需要#imgabs0#存储空间,并允许将序列编辑方法转换为批处理编辑方法,从而减少序列编辑过程中对编辑模型的损坏,实现了轻损害知识编辑。该方法突破了现有技术中的编辑瓶颈问题,具有优越的性能。

    一种大语言模型的知识编辑方法、装置和电子设备

    公开(公告)号:CN119167895B

    公开(公告)日:2025-03-11

    申请号:CN202411649720.0

    申请日:2024-11-19

    Abstract: 发明公开了一种大语言模型的知识编辑方法、装置和电子设备,涉及计算模型和人工智能技术领域。方法包括:利用随机前缀和第一隐藏状态计算大语言模型各编辑层的编辑历史的主体向量;利用第二隐藏状态计算大语言模型各编辑层的编辑历史的关系向量;利用编辑历史的主体向量、编辑历史的关系向量和整个模型层的协方差矩阵计算编辑层的输出权重的偏移量;利用偏移量更新编辑层的输出权重;利用更新的编辑层的输出权重对大语言模型的编辑层进行知识编辑。本方法只需要#imgabs0#存储空间,并允许将序列编辑方法转换为批处理编辑方法,从而减少序列编辑过程中对编辑模型的损坏,实现了轻损害知识编辑。该方法突破了现有技术中的编辑瓶颈问题,具有优越的性能。

    一种基于信息熵的知识冲突识别方法、装置和电子设备

    公开(公告)号:CN119067212B

    公开(公告)日:2025-02-18

    申请号:CN202411554204.X

    申请日:2024-11-04

    Abstract: 本发明公开了一种基于信息熵的知识冲突识别方法、装置和电子设备。方法包括:将问题输入至大语言模型中,输出第一答案并得到第一输出分布;将问题和上下文知识均输入至大语言模型中,输出第二答案并得到第二输出分布;利用第一输出分布计算第一答案的第一信息熵;利用第二输出分布计算第二答案的第二信息熵;判断第一信息熵与第二信息熵是否满足约束条件,如果满足约束条件,则参数化知识和上下文知识之间不存在知识冲突;否则存在知识冲突。本发明使得大语言模型在解码之前能够对知识冲突进行精确地识别,进而有针对性地对存在知识冲突的情况进行缓解,避免了在没有知识冲突的情况下造成的大语言模型性能降低的问题。

    一种面向知识冲突的自适应解码方法、装置和电子设备

    公开(公告)号:CN119067213A

    公开(公告)日:2024-12-03

    申请号:CN202411554277.9

    申请日:2024-11-04

    Abstract: 本发明公开了一种面向知识冲突的自适应解码方法、装置和电子设备。该方法包括:将问题输入至大语言模型中,输出第一答案并得到第一输出分布;将问题和上下文知识均输入至大语言模型中,输出第二答案并得到第二输出分布;利用第一输出分布和第二输出分布计算对比分布;判断参数化知识和上下文知识是否存在冲突,如果不存在冲突,则利用第一输出分布和对比分布计算模型输出分布并进行解码;否则利用第二输出分布和对比分布计算模型输出分布并进行解码。使得解码过程不仅可以在冲突发生时缓解冲突,也可以在未发生冲突时保持较高的解码性能。所以,该解码方法具有普适性,而且,在不同场景下具有一致的有效性和鲁棒性。

    基于自由文本的常识知识的编辑方法、装置和电子设备

    公开(公告)号:CN119150816B

    公开(公告)日:2025-03-07

    申请号:CN202411649714.5

    申请日:2024-11-19

    Abstract: 本发明公开了基于自由文本的常识知识的编辑方法、装置和电子设备,涉及计算模型和人工智能技术技术领域。该方法包括:将文本输入至待编辑的模型中,通过计算收集文本的第一隐藏状态;为第一隐藏状态添加噪声,得到第二隐藏状态;基于第二隐藏状态,在模型中计算得到损坏的第三隐藏状态;基于第三隐藏状态,利用hook函数控制模型计算得到干净的第四隐藏状态;利用第一隐藏状态和第四隐藏状态计算恢复目标输出的概率值;选择对常识知识贡献最大的隐藏层作为编辑层进行常识知识的编辑。该方法通过实时检测常识知识的存储位置,并选择对知识贡献最大的层作为编辑层。对编辑层进行有针对性的知识编辑,实现了对常识知识的编辑,达到了工业界可实际使用的程度。

    基于自由文本的常识知识的编辑方法、装置和电子设备

    公开(公告)号:CN119150816A

    公开(公告)日:2024-12-17

    申请号:CN202411649714.5

    申请日:2024-11-19

    Abstract: 本发明公开了基于自由文本的常识知识的编辑方法、装置和电子设备,涉及计算模型和人工智能技术技术领域。该方法包括:将文本输入至待编辑的模型中,通过计算收集文本的第一隐藏状态;为第一隐藏状态添加噪声,得到第二隐藏状态;基于第二隐藏状态,在模型中计算得到损坏的第三隐藏状态;基于第三隐藏状态,利用hook函数控制模型计算得到干净的第四隐藏状态;利用第一隐藏状态和第四隐藏状态计算恢复目标输出的概率值;选择对常识知识贡献最大的隐藏层作为编辑层进行常识知识的编辑。该方法通过实时检测常识知识的存储位置,并选择对知识贡献最大的层作为编辑层。对编辑层进行有针对性的知识编辑,实现了对常识知识的编辑,达到了工业界可实际使用的程度。

    一种基于信息熵的知识冲突识别方法、装置和电子设备

    公开(公告)号:CN119067212A

    公开(公告)日:2024-12-03

    申请号:CN202411554204.X

    申请日:2024-11-04

    Abstract: 本发明公开了一种基于信息熵的知识冲突识别方法、装置和电子设备。方法包括:将问题输入至大语言模型中,输出第一答案并得到第一输出分布;将问题和上下文知识均输入至大语言模型中,输出第二答案并得到第二输出分布;利用第一输出分布计算第一答案的第一信息熵;利用第二输出分布计算第二答案的第二信息熵;判断第一信息熵与第二信息熵是否满足约束条件,如果满足约束条件,则参数化知识和上下文知识之间不存在知识冲突;否则存在知识冲突。本发明使得大语言模型在解码之前能够对知识冲突进行精确地识别,进而有针对性地对存在知识冲突的情况进行缓解,避免了在没有知识冲突的情况下造成的大语言模型性能降低的问题。

    幻觉文本缓解方法、装置、设备、存储介质及程序产品

    公开(公告)号:CN119378692B

    公开(公告)日:2025-04-29

    申请号:CN202411945230.5

    申请日:2024-12-27

    Abstract: 本发明提供一种幻觉文本缓解方法、装置、设备、存储介质及程序产品,应用于自然语言处理技术领域。该方法包括:获取大语言模型生成的第一幻觉文本;通过基础修正器对所述第一幻觉文本进行修正,得到第二幻觉文本;通过评估器评估所述第二幻觉文本,得到文本评价信息和此次修正过程的质量评分;在所述质量评分超过预设阈值的情况下,将所述第二幻觉文本作为输出文本;在所述质量评分不超过所述预设阈值的情况下,基于所述文本评价信息,通过反思器确定缓解策略;根据所述缓解策略调整所述基础修正器的修正策略,并将所述第二幻觉文本重新输入调整后的所述基础修正器中。

    问答任务处理方法、装置、设备、存储介质及程序产品

    公开(公告)号:CN119441453A

    公开(公告)日:2025-02-14

    申请号:CN202411285071.0

    申请日:2024-09-13

    Abstract: 本发明提供一种问答任务处理方法、装置、设备、存储介质及程序产品,应用于自然语言处理技术领域。该方法包括:获取问答任务的输入问题和问答实例;从所述问答实例中确定与所述输入问题相似度最高的目标实例,从预训练的低秩适配LORA模块库中确定与所述目标实例相似度最高的多个LORA模块;采用非梯度参数优化技术将所述多个LORA模块与第一问答模型进行融合处理,得到第二问答模型,并将所述输入问题输入所述第二问答模型得到对应回答。

Patent Agency Ranking