《表1 不同模型在不同数据集上的最小收敛轮数》

《表1 不同模型在不同数据集上的最小收敛轮数》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《重复利用状态值的竞争深度Q网络算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为验证RSV-Du DQN模型的有效性,本节采用武汉城郊农田土壤重金属含量数据集,该数据集包括As、Cd、Cr、Cu、Hg、Ni、Pb、Zn八种常见土壤重金属。分别使用DQN、DDQN、Du DQN和RSV-Du DQN估计反距离加权插值法在该数据集中六种金属含量数据上的超参数。所有深度强化学习算法中智能体的动作空间为[-1,1],经过多次实验,最终确定动作空间离散为[-1.0,-0.5,-0.1,0,0.1,0.5,1.0]。经过实验验证,将动作由连续空间离散到精度0.1的离散空间后,算法学习到的超参数对整个插值结果影响可以忽略不记。在实验开始阶段,先使用Arc GIS+软件将原数据中的经纬网坐标转换为常用的平面直角坐标,并将标准化与初始化后的超参数一起输入到Q网络。八种金属的算法训练图如图3~图10所示,横坐标为训练次数,纵坐标代表在当前学习到的超参数下,用反距离加权法进行插值得到的预测值与真实值的误差,单位为mg/kg。四种深度强化学习算法分别在对八种重金属含量进行IDW的超参数预测时,训练情况如表1。表中展示了各种模型在对不同重金属数据集训练中第一次收敛时的训练轮数。为了更直观地展示算法训练时的情况,在训练中,当训练轮数达到5 000时,停止训练,此时还未收敛的算法在表格中收敛时的训练次数以“>5 000”形式表达。