《表4 平均每步奖赏值对比》
mi,纵坐标的值为(1i=∑100mi/ni)/100。在5000次迭代中,机器人执行某一动作所能获得的平均奖赏值(保留3位小数)对比数据见表4。
图表编号 | XD00208598300 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.16 |
作者 | 董永峰、杨琛、董瑶、屈向前、肖华昕、王子秋 |
绘制单位 | 河北工业大学人工智能与数据科学学院、河北工业大学河北省大数据计算重点实验室、河北工业大学河北省数据驱动工业智能工程中心、河北工业大学人工智能与数据科学学院、河北工业大学河北省大数据计算重点实验室、河北工业大学人工智能与数据科学学院、河北工业大学河北省大数据计算重点实验室、河北工业大学河北省数据驱动工业智能工程中心、河北工业大学人工智能与数据科学学院、河北工业大学河北省大数据计算重点实验室、河北工业大学人工智能与数据科学学院、河北工业大学河北省大数据计算重点实验室、河北工业大学人工智能与数据科学学院、河北工 |
更多格式 | 高清、无水印(增值服务) |