基于蓄水池采样和双经验池的机械臂智能控制系统

    公开(公告)号:CN111300390A

    公开(公告)日:2020-06-19

    申请号:CN202010202667.5

    申请日:2020-03-20

    Applicant: 苏州大学

    Inventor: 张琳婧 章宗长

    Abstract: 本发明公开了一种基于蓄水池采样和双经验池的机械臂智能控制系统,结合强化学习和深度神经网络来控制机械臂,包括如下模块:(1)环境信息采集模块;(2)仿真环境生成模块;(3)深度神经网络模块;(4)双经验池模块;(5)样本管理模块。本发明通过不断迭代优化深度神经网络模块,训练机械臂的控制模型,然后将训练好的控制模型放入到实体机械臂中,有效提高了机械臂的工作效率,使机械臂在环境不同但任务相似的应用场景中可以快速适应学习。经验池的使用提高了样本利用率,通过重复使用样本进行训练减少机械臂的磨损,节约成本。同时蓄水池采样方法可以保留稀有样本,防止训练模型过拟合而使机械臂遗忘从稀有样本学习到的知识,提高泛化性。

    基于约束在线规划的部分可观察自动驾驶决策方法

    公开(公告)号:CN108803609B

    公开(公告)日:2020-05-01

    申请号:CN201810595164.1

    申请日:2018-06-11

    Applicant: 苏州大学

    Inventor: 姜冲 章宗长

    Abstract: 本发明涉及一种基于约束在线规划的部分可观察自动驾驶决策方法及系统。该决策方法主要用于自动驾驶中,使得车辆拥有多种驾驶模式。本发明包括:驾驶环境状态单元单元、搜索单元、模拟单元、成本约束单元。该决策方法不仅能够针对当前驾驶环境产生驾驶方案,还可以根据实时的路况车况来实时的调整方案,以增强其灵活性。该方法构建了一个基于历史的蒙特卡罗搜索树,使得模拟解决方案是在真实情况的基础上进行的,增强了可靠性。同时,该方法满足一定的最优选择条件,以确保得到的策略是随机策略,弥补了确定性策略的不足。该决策方法完全满足目前一般用户的驾驶需求,尤其是提供了多种模式可以选择,极大的提升了用户体验。

    基于深度带权双Q学习的大范围监控方法及监控机器人

    公开(公告)号:CN107292392B

    公开(公告)日:2019-11-22

    申请号:CN201710329549.9

    申请日:2017-05-11

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于深度带权双Q学习的大范围监控方法,首先,提供Q值表包括QA表和QB表的机器人,其次,不明物体进入大范围空间以触发机器人,再次,机器人感知当前状态s,判断当前状态s是否为目标状态,如是,则机器人到达下一状态并监控不明物体,如不是,机器人到下一状态,机器人根据下一状态得到奖赏值,机器人等概率的选择更新QA值或QB值,然后更新Q值,知道收敛得到一个最优监控策略。本发明不但解决监控范围有限和摄像头容量有限的问题,而且不需考虑多台摄像头同步的问题,降低了成本。本发明还公开了一种基于深度带权双Q学习的大范围监控机器人。

    自动驾驶系统的规划方法
    14.
    发明公开

    公开(公告)号:CN109726676A

    公开(公告)日:2019-05-07

    申请号:CN201811622988.X

    申请日:2018-12-28

    Applicant: 苏州大学

    Inventor: 陈子璇 章宗长

    Abstract: 本发明公开了一种自动驾驶系统的规划方法。本发明一种自动驾驶系统的规划方法,包括:S1、当所述系统获取了当前道路环境图像g后,利用卷积神经网络中的过滤器提取道路图像的结构及路况信息φ,φ经由映射函数fR得到当前道路环境图像的奖赏信息R、经由映射函数fP得到用于非规则图形卷积操作的核函数Kwp的初始化,并利用图像的邻接矩阵作为Kwp的激活参数得到初始的卷积操作子P。本发明的有益效果:本发明公开的基于广义异步值迭代网络模型的深度强化学习方法,能够很好地应对现有的自动驾驶系统在结构复杂、路况信息未知的道路环境中无法进行高成功率和高准确率的道路规划的问题。

    基于行动者评论家强化学习算法的循环网络人机对话方法

    公开(公告)号:CN109299237A

    公开(公告)日:2019-02-01

    申请号:CN201811124263.8

    申请日:2018-09-26

    Applicant: 苏州大学

    Abstract: 本发明涉及一种基于行动者评论家强化学习算法的循环网络人机对话方法。该系统由两个子系统构成:对话生成系统和情感分析系统。对话生成系统基于门循环单元网络模型,使用有标签的对话数据集进行训练。进一步地,我们对经过训练的模型使用强化学习中的行动者评论家算法进行参数调优;即,我们使用已被训练的模型建立两个网络,分别称之为“行动者”网络和“评论家”网络;进一步地,为了减少训练时间、提高资源的利用率,我们创建了多个进程,向每一个进程分配一对“行动者”和“评论家”。

    基于约束在线规划的部分可观察自动驾驶决策方法及系统

    公开(公告)号:CN108803609A

    公开(公告)日:2018-11-13

    申请号:CN201810595164.1

    申请日:2018-06-11

    Applicant: 苏州大学

    Inventor: 姜冲 章宗长

    Abstract: 本发明涉及一种基于约束在线规划的部分可观察自动驾驶决策方法及系统。该决策方法主要用于自动驾驶中,使得车辆拥有多种驾驶模式。本发明包括:驾驶环境状态单元单元、搜索单元、模拟单元、成本约束单元。该决策方法不仅能够针对当前驾驶环境产生驾驶方案,还可以根据实时的路况车况来实时的调整方案,以增强其灵活性。该方法构建了一个基于历史的蒙特卡罗搜索树,使得模拟解决方案是在真实情况的基础上进行的,增强了可靠性。同时,该方法满足一定的最优选择条件,以确保得到的策略是随机策略,弥补了确定性策略的不足。该决策方法完全满足目前一般用户的驾驶需求,尤其是提供了多种模式可以选择,极大的提升了用户体验。

    基于相对熵深度逆强化学习的自动驾驶系统及方法

    公开(公告)号:CN107544516A

    公开(公告)日:2018-01-05

    申请号:CN201710940590.X

    申请日:2017-10-11

    Applicant: 苏州大学

    Inventor: 林嘉豪 章宗长

    Abstract: 本发明涉及一种基于相对熵深度逆强化学习的自动驾驶系统,包括:(1)客户端:显示驾驶策略;(2)驾驶基础数据采集子系统:采集道路信息;(3)存储模块:与客户端及驾驶基础数据采集子系统连接并存储驾驶基础数据采集子系统所采集到的道路信息;其中,驾驶基础数据采集子系统采集道路信息并将所述道路信息传输给客户端及存储模块,存储模块接收道路信息,并将持续的一段道路信息存储为历史轨迹,根据历史轨迹进行分析计算模拟出驾驶策略,存储模块将所述驾驶策略传输至客户端以供用户选择,客户端接收道路信息并根据用户选择实施自动驾驶。本发明系统采用相对熵的深度逆强化学习算法实现无模型下自动驾驶。

    一种迭代划分测试方法和系统

    公开(公告)号:CN105786708A

    公开(公告)日:2016-07-20

    申请号:CN201610160340.X

    申请日:2016-03-21

    Applicant: 苏州大学

    CPC classification number: G06F11/3684

    Abstract: 本申请提供一种迭代划分测试方法和系统,通过判断待测试用例集合中的待测试用例是否已全部执行完毕,如果是,依据已执行测试用例,对所述输入域D进行划分,将划分得到的2m*n个子输入域的中心点作为待测试用例导入待测试用例集合;如果否,执行所述待测试用例集合中未执行的待测试用例,判断当前执行的待测试用例是否命中失效区域,如果是,输出已执行的测试用例数量,如果否,判断所述待测试用例集合中的待测试用例是否已全部执行完毕;该方法结合了随机测试和划分测试两种传统技术的优势,解决了两者的局限性问题。

    基于自动推理机制的接管巡航方法及系统

    公开(公告)号:CN109318897A

    公开(公告)日:2019-02-12

    申请号:CN201811168888.4

    申请日:2018-10-08

    Applicant: 苏州大学

    Inventor: 姜冲 章宗长

    Abstract: 本发明公开了一种基于自动推理机制的接管巡航系统,该系统主要用于自动驾驶中,能够根据给定离线样本生成基于隐变量的多模态的驾驶策略网络,以实现通用自动驾驶功能。同时,该系统还可以在用户采用手动驾驶时根据手动驾驶的风格来自动生成与之相匹配的自动驾驶策略,以实现在公路上从手动驾驶模式到自动驾驶模式之间的平滑转换,使得自动驾驶能够完美的模拟手动驾驶的驾驶风格。本发明包括:判别器模块,驾驶策略生成模块,驾驶风格自动推理模块。该模型是在给定的真实专家示范上进行训练的,具有可靠性。同时,在用户手动驾驶的过程中,模型会根据手动驾驶轨迹进行实时的调整,以增强其灵活性。

    难度自适应游戏系统策略规划方法

    公开(公告)号:CN108970119A

    公开(公告)日:2018-12-11

    申请号:CN201810778924.2

    申请日:2018-07-16

    Abstract: 本发明公开了一种基于基于优先级值迭代网络的难度自适应游戏系统策略规划方法。该游戏系统由两部分构成:用于进行图像特征信息提取的卷积神经网络和用于进行策略泛化处理的优先级值迭代网络。该系统可嵌入至任意对抗类游戏中,当玩家开始游戏前,会从系统的难度系数中选择某一等级的对抗机器人(Adversarial Non-personal Character,A-NPC)。根据选定的难度系数,系统会从服务器的数据库中获取相应难度的玩家样本策略信息,并在服务器端根据玩家样本策略信息进行模仿学习,得到优先级值迭代网络的参数。该参数在游戏载入时传送至客户端。

Patent Agency Ranking