基于生成对抗模仿学习的自动泊车方法及系统

    公开(公告)号:CN111348034A

    公开(公告)日:2020-06-30

    申请号:CN202010260031.6

    申请日:2020-04-03

    Applicant: 苏州大学

    Inventor: 朱佳成 章宗长

    Abstract: 本发明涉及一种基于生成对抗模仿学习的自动泊车方法及系统,利用泊车轨迹的原始图像数据,基于生成对抗模仿学习生成相应的泊车策略,且生成的泊车策略在实际泊车过程中产生的泊车轨迹应该与成功的泊车轨迹相似。本申请由于是一种在线学习算法,在学习的同时会进行很多次实验,并且在成功学习到优秀的泊车策略前会经历很多次失败,但是可以将这些失败的泊车轨迹数据存储下用于进一步的学习,这样能够加快学习速度并提高样本利用率。本发明由于学得的智能泊车策略不是基于规则的,而是一种较为智能的策略,因此使其能够胜任不同场景下的自动泊车。

    安检识别系统及其控制方法

    公开(公告)号:CN108182454A

    公开(公告)日:2018-06-19

    申请号:CN201810048208.9

    申请日:2018-01-18

    Applicant: 苏州大学

    Abstract: 本发明涉及一种安检识别系统及其控制方法,所述安检识别系统融合了强化学习算法和注意力区域生成网络,所述安检识别系统包括如下模块:(1)物体特征提取模块;(2)危险品区域分割模块;(3)初步分类模块;(4)初步分类结果判断模块;(5)细粒化识别模块。本发明通过优化危险品区域分割模块和设置细粒化识别模块,大大的提高了安检的准确度及安检效率,缩短安检时长,缓解拥堵状况,还可以节省人力资源,减轻安检工作人员的工作压力。

    基于部分感知马氏决策过程的机器人最优路径规划方法

    公开(公告)号:CN108680155B

    公开(公告)日:2020-09-08

    申请号:CN201810102240.0

    申请日:2018-02-01

    Applicant: 苏州大学

    Abstract: 本发明公开了基于部分感知马氏决策过程的机器人最优路径规划方法,机器人寻找到达目标位置的最优路径,以POMDP模型和SARSOP算法为基础,使用GLS搜索方法作为搜索时的启发式条件,在连续状态大规模观察空间问题中,使用本发明可避免早期经典算法使用基于试验作为启发式条件重复更新多条相似路径中,更新信念状态上下界的次数,且不影响最终的最优策略,提高算法效率,在相同时间内,机器人能够火车更优的策略,找到更优的路径。

    自动驾驶系统的规划方法

    公开(公告)号:CN109726676B

    公开(公告)日:2020-07-07

    申请号:CN201811622988.X

    申请日:2018-12-28

    Applicant: 苏州大学

    Inventor: 陈子璇 章宗长

    Abstract: 本发明公开了一种自动驾驶系统的规划方法。本发明一种自动驾驶系统的规划方法,包括:S1、当所述系统获取了当前道路环境图像g后,利用卷积神经网络中的过滤器提取道路图像的结构及路况信息φ,φ经由映射函数fR得到当前道路环境图像的奖赏信息R、经由映射函数fP得到用于非规则图形卷积操作的核函数Kwp的初始化,并利用图像的邻接矩阵作为Kwp的激活参数得到初始的卷积操作子P。本发明的有益效果:本发明公开的基于广义异步值迭代网络模型的深度强化学习方法,能够很好地应对现有的自动驾驶系统在结构复杂、路况信息未知的道路环境中无法进行高成功率和高准确率的道路规划的问题。

    基于行动者评论家强化学习算法的循环网络人机对话方法

    公开(公告)号:CN109299237B

    公开(公告)日:2020-06-16

    申请号:CN201811124263.8

    申请日:2018-09-26

    Applicant: 苏州大学

    Abstract: 本发明涉及一种基于行动者评论家强化学习算法的循环网络人机对话方法。该系统由两个子系统构成:对话生成系统和情感分析系统。对话生成系统基于门循环单元网络模型,使用有标签的对话数据集进行训练。进一步地,我们对经过训练的模型使用强化学习中的行动者评论家算法进行参数调优;即,我们使用已被训练的模型建立两个网络,分别称之为“行动者”网络和“评论家”网络;进一步地,为了减少训练时间、提高资源的利用率,我们创建了多个进程,向每一个进程分配一对“行动者”和“评论家”。

    基于多类别模仿学习的端到端游戏机器人生成方法及系统

    公开(公告)号:CN108724182B

    公开(公告)日:2020-03-17

    申请号:CN201810498479.4

    申请日:2018-05-23

    Abstract: 本发明涉及一种基于多类别模仿学习的端到端游戏机器人生成方法及系统,为获得与不同技术等级玩家的游戏水平更加匹敌的游戏机器人而设计。本发明基于多类别模仿学习的端到端游戏机器人生成方法包括:建立玩家样本数据库;策略生成器与策略判别器、策略分类器组成对抗网络,所述策略生成器在对抗网络中进行模仿学习,所述策略生成器得到与不同技术等级玩家游戏行为相仿的游戏策略,进而生成游戏机器人,其中策略生成器、策略判别器、策略分类器均为多层神经网络。本发明能够获得多类别的游戏机器人,每个分类下的机器人都能模仿出与相应分类玩家相近的游戏策略。

    基于部分感知马氏决策过程的机器人最优路径规划方法

    公开(公告)号:CN108680155A

    公开(公告)日:2018-10-19

    申请号:CN201810102240.0

    申请日:2018-02-01

    Applicant: 苏州大学

    Abstract: 本发明公开了基于部分感知马氏决策过程的机器人最优路径规划方法,机器人寻找到达目标位置的最优路径,以POMDP模型和SARSOP算法为基础,使用GLS搜索方法作为搜索时的启发式条件,在连续状态大规模观察空间问题中,使用本发明可避免早期经典算法使用基于试验作为启发式条件重复更新多条相似路径中,更新信念状态上下界的次数,且不影响最终的最优策略,提高算法效率,在相同时间内,机器人能够火车更优的策略,找到更优的路径。

    基于深度带权双Q学习的大范围监控方法及监控机器人

    公开(公告)号:CN107292392A

    公开(公告)日:2017-10-24

    申请号:CN201710329549.9

    申请日:2017-05-11

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于深度带权双Q学习的大范围监控方法,首先,提供Q值表包括QA表和QB表的机器人,其次,不明物体进入大范围空间以触发机器人,再次,机器人感知当前状态s,判断当前状态s是否为目标状态,如是,则机器人到达下一状态并监控不明物体,如不是,机器人到下一状态,机器人根据下一状态得到奖赏值,机器人等概率的选择更新QA值或QB值,然后更新Q值,知道收敛得到一个最优监控策略。本发明不但解决监控范围有限和摄像头容量有限的问题,而且不需考虑多台摄像头同步的问题,降低了成本。本发明还公开了一种基于深度带权双Q学习的大范围监控机器人。

    基于自动推理机制的接管巡航方法及系统

    公开(公告)号:CN109318897B

    公开(公告)日:2020-12-01

    申请号:CN201811168888.4

    申请日:2018-10-08

    Applicant: 苏州大学

    Inventor: 姜冲 章宗长

    Abstract: 本发明公开了一种基于自动推理机制的接管巡航系统,该系统主要用于自动驾驶中,能够根据给定离线样本生成基于隐变量的多模态的驾驶策略网络,以实现通用自动驾驶功能。同时,该系统还可以在用户采用手动驾驶时根据手动驾驶的风格来自动生成与之相匹配的自动驾驶策略,以实现在公路上从手动驾驶模式到自动驾驶模式之间的平滑转换,使得自动驾驶能够完美的模拟手动驾驶的驾驶风格。本发明包括:判别器模块,驾驶策略生成模块,驾驶风格自动推理模块。该模型是在给定的真实专家示范上进行训练的,具有可靠性。同时,在用户手动驾驶的过程中,模型会根据手动驾驶轨迹进行实时的调整,以增强其灵活性。

Patent Agency Ranking