-
公开(公告)号:CN115629608A
公开(公告)日:2023-01-20
申请号:CN202211316067.7
申请日:2022-10-26
Applicant: 东南大学
IPC: G05D1/02
Abstract: 本发明公开了一种基于深度预测网络和深度强化学习的自动驾驶车辆控制方法,首先定义上层的离散控制器对应车辆底层的控制信号;设置超参数,搭建基于编码器‑解码器框架的深度预测网络和双深度Q网络;再对受控车辆进行深度强化学习训练,设计奖励函数,迭代更新网络的权重,直到受控车辆获得的奖励值达到预设水平或训练轮数到达预设值;对收集到的历史数据进行预处理,根据时延情况确定数据和标签,将受控车辆前方车辆的特征数据转化为图数据为深度预测网络提供训练集和验证集,在训练集上进行训练,直到在验证集上的损失函数值不再下降;最后将训练好的深度预测网络和双深度Q网络部署到受控车辆中,实现车辆的自动驾驶控制。
-
公开(公告)号:CN115762199B
公开(公告)日:2023-09-29
申请号:CN202211145915.2
申请日:2022-09-20
Applicant: 东南大学
Abstract: 本发明公开了一种基于深度强化学习和逆强化学习的交通灯控制方法,首先建立交通灯控制系统的马尔科夫决策模型,并依据现有深度网络模型,搭建基于深度强化学习的交通灯控制框架。本发明的创新点在于引入了相对熵逆强化学习算法以优化奖励函数设计。根据专家决策生成的系统状态转移轨迹,通过逆强化学习算法提取专家内含的决策逻辑,即隐藏奖励函数,实现了对专家经验的有效利用,算法对专家轨迹中的噪声具有较好的鲁棒性。本发明能够在单个交叉路口的均衡车流和非均衡车流场景下,取得优于传统控制方案的效果,并进一步提升深度强化学习算法的控制性能。
-
公开(公告)号:CN115762199A
公开(公告)日:2023-03-07
申请号:CN202211145915.2
申请日:2022-09-20
Applicant: 东南大学
Abstract: 本发明公开了一种基于深度强化学习和逆强化学习的交通灯控制方法,首先建立交通灯控制系统的马尔科夫决策模型,并依据现有深度网络模型,搭建基于深度强化学习的交通灯控制框架。本发明的创新点在于引入了相对熵逆强化学习算法以优化奖励函数设计。根据专家决策生成的系统状态转移轨迹,通过逆强化学习算法提取专家内含的决策逻辑,即隐藏奖励函数,实现了对专家经验的有效利用,算法对专家轨迹中的噪声具有较好的鲁棒性。本发明能够在单个交叉路口的均衡车流和非均衡车流场景下,取得优于传统控制方案的效果,并进一步提升深度强化学习算法的控制性能。
-
公开(公告)号:CN115497294B
公开(公告)日:2023-09-19
申请号:CN202211155135.6
申请日:2022-09-22
Applicant: 东南大学
Abstract: 本发明公开了一种融合深度预测网络和卡尔曼滤波算法的交通灯控制方法及系统,采用经验模态分解算法对历史控制车流量数据进行预处理,确定最优的历史信息窗口长度,得到控制周期内各个方向的车流信息,再分别用长短期记忆网络和卡尔曼滤波算法预测下一个交通灯控制周期的车流量,将两个预测值基于卡尔曼滤波算法进行信息融合后,根据预测值为下一交通灯控制周期分配相位。本方法融合传统滤波算法和深度预测网络的优势,提高预测精度,从而大幅降低车辆排队时间,提高车辆通行效率,减少交通资源浪费。
-
公开(公告)号:CN116132039A
公开(公告)日:2023-05-16
申请号:CN202310138927.0
申请日:2023-02-20
Applicant: 东南大学
Abstract: 本发明公开了一种基于神经网络的安全人工噪声加密方法,本地端与远程端采用相同的以时间为自变量的人工噪声序列Γ(k),并采用相同的以T为周期的周期函数f(x)和周期不为T的周期函数g(x);本地端中,以f(Γ(k))作为本地端神经网络N(θ(k))的输入,将输出的当前时刻的安全人工噪声与原始观测值相加,作为通信网络传输加密过的观测信息;以人工噪声序列Γ(k)为输入,经过周期函数g(x)产生的输出作为本地端神经网络N(θ)的目标值,计算损失函数值,用梯度下降算法更新网络权重θ(k);远程端中,采用相同方法得到加密人工噪声,将通过网络传输得到的数据减掉加密人工噪声,得到原始观测值;本方法对通过无线网络传输的观测信息加入人工噪声进行加密,安全可靠。
-
公开(公告)号:CN115497294A
公开(公告)日:2022-12-20
申请号:CN202211155135.6
申请日:2022-09-22
Applicant: 东南大学
Abstract: 本发明公开了一种融合深度预测网络和卡尔曼滤波算法的交通灯控制方法及系统,采用经验模态分解算法对历史控制车流量数据进行预处理,确定最优的历史信息窗口长度,得到控制周期内个方向的车流信息,再分别用长短期记忆网络和卡尔曼滤波算法预测下一个交通灯控制周期的车流量,将两个预测值基于卡尔曼滤波算法进行信息融合后,根据预测值为下一交通灯控制周期分配相位。本方法融合传统滤波算法和深度预测网络的优势,提高预测精度,从而大幅降低车辆排队时间,提高车辆通行效率,减少交通资源浪费。
-
公开(公告)号:CN119336021A
公开(公告)日:2025-01-21
申请号:CN202411443134.0
申请日:2024-10-16
Applicant: 东南大学
IPC: G05D1/43 , G05D1/65 , G05D1/633 , G05D1/644 , G05D109/10
Abstract: 本发明公开了一种基于多智能体深度强化学习的大规模车辆控制方法,经过定义离散控制指令对应连续控制信号、超参数设置、模型搭建、小规模环境的模型训练、网络权重更新、目标网络软更新和迭代更新的步骤,最终将迭代之后的模型部署到大规模高速公路变道与超车控制场景中,实现大规模车辆的控制。本发明方法将多智能体决策过程分解为多个单智能体决策过程,有效降低参数数量。接着,改进离散软演员‑批评家(Di screte Soft Actor‑Cr it ic,DSAC)算法,提高值网络训练的稳定性。同时,充分考虑交通场景中车辆的有限影响范围,提出基于椭圆邻域的奖励方案,鼓励相互影响的车辆形成合作的联合动作,减少计算资源并提高训练效率。
-
公开(公告)号:CN117236415A
公开(公告)日:2023-12-15
申请号:CN202311184463.3
申请日:2023-09-13
Applicant: 东南大学
Abstract: 本发明公开了一种基于人机共驾的自动驾驶安全训练方法,将上层的离散控制动作映射成底层的物理控制信号;设置超参数,搭建双深度Q网络,对受控车辆进行基于人机共驾的深度强化学习训练;训练中,先将受控车辆的动作经过人类专家判断,如果动作被判断为安全,则直接被使用;如果动作被判断为危险,由人类专家提供示范动作,并将状态、危险动作和人类专家的示范动作存到监督缓冲区;本方法旨在充分利用人类干预的样本,将人类的示范动作和拒绝的危险动作都添加到损失函数中,共同用于参数更新,克服现有技术的缺陷,提高训练速度和最终结果。
-
-
-
-
-
-
-