多模态大模型内容安全性评估方法和装置

    公开(公告)号:CN119577594A

    公开(公告)日:2025-03-07

    申请号:CN202411580248.X

    申请日:2024-11-07

    Abstract: 本发明提供了一种多模态大模型内容安全性评估方法和装置,方法包括:将多模态有害数据集输入至待评估多模态大模型,得到多模态大模型的输出响应;初始化多个大型语言模型,为多个大型语言模型赋予不同的角色特征以形成异质性评估体系;利用多个大型语言模型对多模态大模型进行内容安全性方面的独立评估;利用多个大型语言模型共同审议独立评估结果,通过模型间的协作讨论达成一致评估意见;利用硬投票机制及软投票机制得到最终评估结果。本发明引入多个具有不同角色特征的大型语言模型进行协作评估,实现了多视角、多层次的安全风险评估。且通过独立评估与协作审议相结合的方式,有效整合了多样化视角,显著提高了评估结果的可靠性和一致性。

Patent Agency Ranking