-
公开(公告)号:CN112987664A
公开(公告)日:2021-06-18
申请号:CN202110177144.4
申请日:2021-02-09
Applicant: 东北大学
IPC: G05B19/418
Abstract: 本发明公开了一种基于深度强化学习的流水车间调度方法,将每个工件作为节点并将其工序的处理时间作为节点信息进行聚合得到其嵌入表示。使用指针网络拟合策略网络,将最大完工时间作为奖励,对策略网络进行训练并保存参数。实际问题中,将每个工件的嵌入表示作为策略网络的输入,并依次选择概率最高的工件,直到所有工件选择完毕得到完整的调度序列。本发明所述的流水车间调度方法在小规模问题上可以获得近优解,在大规模问题上可以获得优于启发式算法和遗传算法的较优解,扩展到不同机器数和作业数的问题上,打破了在不同的问题规模和问题数据上需要重新对模型进行训练的局限性,通用性更广。
-
公开(公告)号:CN112987665B
公开(公告)日:2022-04-12
申请号:CN202110177162.2
申请日:2021-02-09
Applicant: 东北大学
IPC: G05B19/418
Abstract: 本发明公开一种基于强化学习的流水车间调度方法,该方法分为处理加工时间矩阵,构建奖励函数,构造神经网络模型,训练模型,模型应用五个阶段进行。对已知的加工时间矩阵进行处理,构造一个二维矩阵M,来描述每个工件在不同时刻的特征。根据优化目标定义奖励函数。将状态矩阵M作为人工神经网络模型的输入,输出为每一个工件的选取概率,并遮罩当前选择的工件对应的输出神经元,直到所有工件都被选取,视为一个回合的结束。回合结束后采用Policy Gradient算法训练模型调整网络模型参数。本方法训练的模型可以高效地优化同等规模下的流水车间调度问题,得到加工时间总和较短的加工顺序。
-
公开(公告)号:CN112987664B
公开(公告)日:2022-03-01
申请号:CN202110177144.4
申请日:2021-02-09
Applicant: 东北大学
IPC: G05B19/418
Abstract: 本发明公开了一种基于深度强化学习的流水车间调度方法,将每个工件作为节点并将其工序的处理时间作为节点信息进行聚合得到其嵌入表示。使用指针网络拟合策略网络,将最大完工时间作为奖励,对策略网络进行训练并保存参数。实际问题中,将每个工件的嵌入表示作为策略网络的输入,并依次选择概率最高的工件,直到所有工件选择完毕得到完整的调度序列。本发明所述的流水车间调度方法在小规模问题上可以获得近优解,在大规模问题上可以获得优于启发式算法和遗传算法的较优解,扩展到不同机器数和作业数的问题上,打破了在不同的问题规模和问题数据上需要重新对模型进行训练的局限性,通用性更广。
-
公开(公告)号:CN112987665A
公开(公告)日:2021-06-18
申请号:CN202110177162.2
申请日:2021-02-09
Applicant: 东北大学
IPC: G05B19/418
Abstract: 本发明公开一种基于强化学习的流水车间调度方法,该方法分为处理加工时间矩阵,构建奖励函数,构造神经网络模型,训练模型,模型应用五个阶段进行。对已知的加工时间矩阵进行处理,构造一个二维矩阵M,来描述每个工件在不同时刻的特征。根据优化目标定义奖励函数。将状态矩阵M作为人工神经网络模型的输入,输出为每一个工件的选取概率,并遮罩当前选择的工件对应的输出神经元,直到所有工件都被选取,视为一个回合的结束。回合结束后采用Policy Gradient算法训练模型调整网络模型参数。本方法训练的模型可以高效地优化同等规模下的流水车间调度问题,得到加工时间总和较短的加工顺序。
-
-
-