《表2 DQNs训练的参数设置》

《表2 DQNs训练的参数设置》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度强化学习的动态库存路径优化》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为对比实验效果,分别采用文献[10]提出的基于问题分解和特定规则算法(PD-RSA)、由文献[8]可变邻域搜索方法和文献[12]动态前瞻规划方法结合而成的基于前瞻的可变邻域搜索(Look Ahead based Variable Neighborhood Search,LA-VNS)方法,以及本论文所提出的HR-DQNs方法进行仿真实验。LA-VNS方法是在每个时期进行下一时期的需求预测,然后以各节点补货需求相对水平的排序结果为概率权重,以此确定各节点补货批量的初始解,在初始解基础上对每个时期进行可变邻域搜索寻找优化方案,搜索迭代循环次数设置为3 000。为便于比较,3种方法的VRP求解部分都采用较快速的CWS启发算法。对于提出的HR-DQNs方法使用Python编程语言和TensorFlow软件平台建立和训练模型,对DQNs模型的训练过程设置为5 000个循环周期,每个周期包括7个时期,对应一周中的7天。其它具体仿真参数设置如表2所示。