Patent search ap:("中国科学技术大学") AND inv:"章可易" Page 1

1.

发明公开
基于时序逻辑的安全强化学习方法及系统审中-实审

公开(公告)号：CN115390455A

公开(公告)日：2022-11-25

申请号：CN202211121828.3

申请日：2022-09-15

Applicant: 中国科学技术大学

Inventor： 阚震 , 章可易 , 李保罗 , 李智军

IPC: G05B13/04 , G06N7/00 , G06N20/00

Abstract: 本发明提供一种基于时序逻辑的安全强化学习方法及系统，涉及安全强化学习技术领域，包括：步骤S1：构建马尔可夫决策过程MDP，用LTL描述智能体的复杂任务；步骤S2：构建有多接受集的tLDGBA，并通过接受边界函数构建ctLDGBA；步骤S3：构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的观测函数构建安全博弈，设计安全盾机制保证系统在学习过程中的安全性。本发明能够获得最大化LTL任务完成概率的最优策略且保证学习过程中的安全性。

Patent Agency Ranking