《表1 Actor和Critic神经网络中各层神经元数量》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于强化学习的煤矸石分拣机械臂智能控制算法研究》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

使用Python在tensorflow2.2.0上编写改进DDPG算法框架，并调用CoppeliaSim创建的虚拟环境来训练算法。算法中Actor的双网络和Critic的双网络神经元配置见表1，其神经网络输入状态si为6个关节角度、执行器指定点的绝对坐标、第5个关节的绝对坐标、末端执行器指定点与煤矸石中心的距离。奖励函数参数c1和c2经测试设定为0.1和0.2，使用30倍的高斯分布噪声，设定算法循环幕数为5 000，每幕迭代步数为300，若末端执行器中设定的特定点与煤矸石中心距离为0时，超参数b被赋值为10，若下一步距离仍为0，则b继续累加10，当其累加了20步时，即跟踪了20步，则提前结束当前幕。

图表编号	XD00205503700 严禁用于非法目的
绘制时间	2021.01.01
作者	张永超、于智伟、丁丽林
绘制单位	山东科技大学机械电子工程学院、山东科技大学机械电子工程学院、山东科技大学机械电子工程学院
更多格式	高清、无水印（增值服务）