《表1 Actor和Critic神经网络中各层神经元数量》

《表1 Actor和Critic神经网络中各层神经元数量》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于强化学习的煤矸石分拣机械臂智能控制算法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

使用Python在tensorflow2.2.0上编写改进DDPG算法框架,并调用CoppeliaSim创建的虚拟环境来训练算法。算法中Actor的双网络和Critic的双网络神经元配置见表1,其神经网络输入状态si为6个关节角度、执行器指定点的绝对坐标、第5个关节的绝对坐标、末端执行器指定点与煤矸石中心的距离。奖励函数参数c1和c2经测试设定为0.1和0.2,使用30倍的高斯分布噪声,设定算法循环幕数为5 000,每幕迭代步数为300,若末端执行器中设定的特定点与煤矸石中心距离为0时,超参数b被赋值为10,若下一步距离仍为0,则b继续累加10,当其累加了20步时,即跟踪了20步,则提前结束当前幕。