一种被控系统群的运行策略协同优化方法及装置

    公开(公告)号:CN118674109A

    公开(公告)日:2024-09-20

    申请号:CN202410798959.8

    申请日:2024-06-20

    Abstract: 本发明涉及运行策略优化领域,提供了一种被控系统群的运行策略协同优化方法及装置,方法包括:根据仿真结果确定各动作的Q因子样本方差、各最优动作与非最优动作的Q因子融合值的性能差别以及已消耗样本总量;利用采样数据分配算法对上述量进行分析得到各动作目标样本量;根据各动作目标样本量与各动作已消耗样本量确定各动作补充采样量;根据补充采样量进行补充采样,利用补充仿真结果重新确定各动作的Q因子样本方差、性能差别以及已消耗样本总量;调整已消耗样本总量,判断已消耗样本总量是否小于预设总采样量,若是重新计算目标样本量及之后步骤,若否输出最优动作。本发明协同使用动作一致性的被控系统的运行数据,能够提升优化效率及性能。

    一种被控系统运行调度的监督强化学习方法及装置

    公开(公告)号:CN118674068A

    公开(公告)日:2024-09-20

    申请号:CN202410804234.5

    申请日:2024-06-20

    Abstract: 本发明涉及强化学习领域,提供了一种被控系统运行调度的监督强化学习方法及装置,包括:确定各状态‑动作对的Q因子、Q因子样本方差以及已消耗样本总量;计算各状态下各非观测最优动作的重要性,将重要性排名前△M个非观测最优动作发送至监督者;调整已消耗采样总量,利用采样数据分配算法对各状态‑动作对的Q因子样本方差及已消耗样本总量进行分析得到各状态下各动作目标样本量;确定各动作补充采样数量;根据各动作补充采样数量进行补充采样,利用补充采样结果重新确定之前的步骤;判断已消耗样本总量满足动作采样数量约束条件,若是,则输出各状态下观测到的最优动作,本发明能够将监督者的监督与采样数据融合起来,提升学习效率及性能。

    一种被控系统运行调度的高效率强化学习方法及装置

    公开(公告)号:CN118674066A

    公开(公告)日:2024-09-20

    申请号:CN202410798963.4

    申请日:2024-06-20

    Abstract: 本发明涉及强化学习领域,提供了一种被控系统运行调度的高效率强化学习方法及装置,方法包括:对被控系统的各状态‑动作对进行采样,根据采样结果确定各状态下各动作的动作类型、Q因子样本方差及已消耗样本总量;利用采样数据分配算法确定各状态下各动作目标样本量;根据各动作目标样本量与各动作已消耗样本量,确定各动作补充采样数量;根据各动作补充采样数量进行补充采样,利用补充采样的仿真结果重新确定各动作的动作类型、各状态‑动作对的Q因子样本方差;调整已消耗采样总量,判断已消耗样本总量满足动作采样数量约束条件,若是,则输出各状态下观测到的最优动作,本发明能够区分各状态动作的重要性,提升采样效率及优化策略性能。

    一种基于多目标强化学习的策略生成方法及装置

    公开(公告)号:CN119398190A

    公开(公告)日:2025-02-07

    申请号:CN202411191254.6

    申请日:2024-08-28

    Applicant: 清华大学

    Inventor: 牟倪 栾垚 贾庆山

    Abstract: 本说明书涉及强化学习技术领域,提供了一种基于多目标强化学习的策略生成方法及装置。该方法包括:接收多目标策略优化请求;根据多目标策略优化请求对应的若干个状态动作序列片段、多目标权重特征以及用于评估状态动作序列片段的二元评估器,构建多目标反馈指标数据;建立显式的多目标奖励模型;利用多目标反馈指标数据训练多目标奖励模型;根据若干个状态动作序列片段对应的状态、动作以及训练后的多目标奖励模型,建立马尔可夫决策过程模型;根据马尔可夫决策过程模型,在多目标策略优化请求对应的学习环境下,利用多目标强化学习算法训练得到多目标策略。通过本说明书实施例,可提高基于多目标强化学习的策略生成精度。

    解决MAB问题的经典量子混合强化学习模拟方法及装置

    公开(公告)号:CN116263880B

    公开(公告)日:2024-08-13

    申请号:CN202111532865.9

    申请日:2021-12-15

    Applicant: 清华大学

    Abstract: 本发明提供了一种解决MAB问题的经典量子混合强化学习模拟方法及装置,方法包括:设计关于多摇臂MAB求解问题的量子结合经典的强化学习学习范式;确定MAB求解问题的摇臂数量m并引入量子辅助比特数量n;根据摇臂的数量和辅助比特的数量对量子态进行普通初始态制备和引入迭代次数信息的特定的初始态制备,其中在初始化时对于每一个摇臂的量子态概率是均等的;对完成初始化的量子态进行测量获得摇臂结果,并利用摇臂结果实现对应量子态幅值的增大;根据摇臂结果选择对应摇臂对应量子态区间的前进指针信息进行加一更新并再次对量子态进行迭代测量确定最优摇臂。

    权衡个性化热舒适与HVAC能耗的强化学习方法及装置

    公开(公告)号:CN117606133A

    公开(公告)日:2024-02-27

    申请号:CN202311568306.2

    申请日:2023-11-22

    Applicant: 清华大学

    Inventor: 周翰辰 贾庆山

    Abstract: 本说明书实施例涉及智能建筑节能优化领域,尤其涉及一种权衡个性化热舒适与HVAC能耗的强化学习方法及装置。该方法的实现步骤如下:(1)构建基于机理的HVAC系统能耗模型;(2)构建基于热平衡法的房间传热机理模型;(3)构建基于PMV指标的用户个性化舒适度模型;(4)构建个性化舒适度与能耗权衡优化问题及基于Q学习的强化学习求解算法框架。通过本说明书实施例,能够充分满足不同冷热偏好、不同消费习惯的用户的热舒适需求,避免不必要的能源浪费,通过预冷机制充分利用低电价优势实现节能,通过用户实时反馈及时调整运行策略,鲁棒性强。

    多智能体强化学习方法、装置及自动车主体

    公开(公告)号:CN117521839A

    公开(公告)日:2024-02-06

    申请号:CN202210891565.8

    申请日:2022-07-27

    Abstract: 本申请公开了一种多智能体强化学习方法、装置及自动车主体,属于人工智能技术领域。方法包括:获取多个全局状态信息,任一个全局状态信息用于表征在任一次更新时多智能体系统的状态;对于任一个全局状态信息,获取任一个全局状态信息在当前次更新时任一智能体的累计差异信息和相邻智能体的累计差异信息,任一智能体的累计差异信息用于表征任一智能体的策略网络在各次更新时更新程度的差异之和;根据多个全局状态信息在当前次更新时任一智能体的累计差异信息和相邻智能体的累计差异信息,对任一智能体的策略网络进行更新。实现了基于分布式的方式更新任一智能体的策略网络,从而实现了多智能体的强化学习。

Patent Agency Ranking