一种基于RLHF的大语言模型生成内容隐私保护的方法

    公开(公告)号:CN119830350A

    公开(公告)日:2025-04-15

    申请号:CN202510300832.3

    申请日:2025-03-14

    Abstract: 本发明公开了一种基于RLHF的大语言模型生成内容隐私保护的方法,包括以下步骤:基于有监督的指令微调训练基座模型作为指令微调模型;将原始的奖励模型拆解成效益模型和成本模型;扩展成本模型的偏好理解;基于包含多维评分和多维权重的数据集训练评分模型;基于加权分数与Bradley‑Terry偏好模型改进传统偏好概率计算公式;通过多维分数与后悔理论构建人类隐私偏好概率计算方法;训练效益模型和成本模型;基于效益模型和成本模型结合人类隐私偏好概率计算方法优化训练指令微调模型。本发明能够自适应、动态地识别并规避潜在的敏感信息,从而实现高效且精准的隐私保护,同时有效避免了传统隐私保护方法中常见的性能下降问题。

    一种基于词典的文本蕴含式生物医学命名实体识别方法

    公开(公告)号:CN117272997A

    公开(公告)日:2023-12-22

    申请号:CN202311018938.1

    申请日:2023-08-14

    Abstract: 本发明公开了一种基于词典的文本蕴含式生物医学命名实体识别方法,该法首先从词典中收集包含实体名称和实体类型的实体词典,作为真实标签。其次对输入的句子构建对应的文本蕴含对,并通过设定负样本例/正样本例的比率以控制负蕴含对的采样数量。然后构建蕴含编码器,对输入的蕴含对进行编码,并结合动态对比学习方法进行模型训练。最后预测输入的语句时,模型将所有正的蕴含对识别为实体,如果有子序列具有多个不同实体类型的正蕴含对,则把相似度最高的标签作为最终标签。本发明可以在没有完整标注的情况下缓解噪声标签问题,能从预训练的文本蕴含模型中迁移知识,并对命名实体进行精确的识别。

    一种基于CGAN的均匀样本生成的数据提取方法

    公开(公告)号:CN117195967A

    公开(公告)日:2023-12-08

    申请号:CN202311171485.6

    申请日:2023-09-12

    Abstract: 本发明公开了一种基于CGAN的均匀样本生成的数据提取方法,使用均匀采样生成类标签l,然后从高斯分布中采样向量z,将l和z组合输入到CGAN,使用CGAN生成图像x,然后将x输入到目标模型中得到目标模型的输出,接着使用(x,V(x))标签对来训练替代模型,得到替代模型的输出C,最后通过交叉熵损失函数比较目标模型和替代模型的(V(x),C(x))差异以及(l,V(x))差异,反向传播梯度更新生成器CGAN。待CGAN循环训练一定轮次后,即(l,V(x))的损失几乎不改变的时候,使用CGAN生成图像单独训练替代模型直到达到最优替代模型,本发明利用基于条件生成对抗网络(CGAN)的均衡样本生成器来生成类别平衡的伪造数据集,以减少类别不平衡现象并提高模型提取的效率。

    一种基于贡献感知的聚类联邦学习方法

    公开(公告)号:CN116796204A

    公开(公告)日:2023-09-22

    申请号:CN202310161629.3

    申请日:2023-02-24

    Abstract: 本发明公开了一种基于贡献感知的聚类联邦学习方法,包括如下步骤:步骤1.参数服务器初始化;步骤2.客户端更新本地模型的参数;步骤3.客户端根据更新参数在本地数据集上训练n轮次,本地的梯度上传至参数服务器;步骤4.判断是否需要贡献评估,若需要贡献评估,则进入步骤5,否则进入步骤6;步骤5.服务器对客户端上传的参数计算近似沙普利值,并将沙普利值作为每个客户端贡献的量化指标;步骤6.服务器判断联邦系统是否完成训练,若完成训练,则进入步骤7输出最终预测模型;步骤7.联邦训练结束,输出最终预测模型。该方法可以在不违背联邦学习数据安全范式下进行贡献评估和协作训练,提高联邦系统的准确率和激励优质客户端。

    一种基于图结构和特征的自适应防御方法

    公开(公告)号:CN114708479B

    公开(公告)日:2023-08-29

    申请号:CN202210342978.0

    申请日:2022-03-31

    Abstract: 本发明公开了一种基于图结构和特征的自适应防御方法。目前已经有很多对抗训练、注意力机制、去噪网络等方法来提高图神经网络模型的防御能力,但是当前GCN模型倾向于保持结构相似性而不是特征相似性的问题。本发明包含了三部分的内容:基于Attention机制进行原始图和特征图的训练,自适应平衡图结构和特征的信息;基于权重学习思想进行辅助模型的训练获取不同特征的权重进行消息聚合,考虑了不同特征的不同重要性;利用特征信息单独训练获取不依赖结构信息的结果,并采用对比学习和标签平滑方法提高模型性能。通过本发明提供的平衡图结构和特征的防御方法,可以有效的利用两方面信息提升图神经网络模型的防御能力。

    一种基于强化学习的分布式训练任务的自适应调度方法

    公开(公告)号:CN116339942A

    公开(公告)日:2023-06-27

    申请号:CN202310207640.9

    申请日:2023-03-07

    Abstract: 本发明公开了一种基于强化学习的分布式训练任务的自适应调度方法,包括如下步骤:S1、特征抽取;S2、模型分割;S3、设备部署;4.获取奖励函数;5.策略梯度更新;6.输出调度结果。该方法能够通过不断学习来得到一个最佳的模型划分和调度策略,从而加快在异构边缘设备上深度学习模型的流水线并行分布式训练。提出分组网络和部署网络的双神经网络结构,充分考虑到计算能力和通信延迟时间的差异,对深度学习模型进行模型分割和设备放置,得到调度方案,根据调度结果做流水线并行训练。将批量样本训练完成时间作为策略梯度的奖励函数,以此来更新双神经网络的参数。通过强化学习不断的探索与利用,最终能够得到最佳的调度方案来加速分布式训练。

    一种优化边缘计算节点部署和管理的命名数据网络方法

    公开(公告)号:CN110572274B

    公开(公告)日:2022-09-30

    申请号:CN201910687989.0

    申请日:2019-07-29

    Abstract: 本发明涉及一种基于命名数据网络(NDN)的边缘计算节点部署与管理的优化方法。该发明主要包含四部分的内容:边缘计算节点NDN网络的建立、命名机制和数据包结构设计、边缘计算网络协议框架的设计、控制服务器的功能。本发明将异构边缘设备部署为统一NDN节点并建立边缘计算节点网络的方法。将元数据信息纳入NDN命名机制,构造层次化的数据名称。设计了一种优化的边缘计算网络协议框架,该框架可分为控制层和传输层,提出在网络中部署控制服务器的方法。控制服务器将承担节点编号分配和网络拓扑信息存储与维护的功能。利用本发明方法可以实现高速率低消耗的网络数据传输。

Patent Agency Ranking