《表4 不同代理在10k个模拟对话的最终表现》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《改进的DDPG对话策略优化算法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

表4展示了不同代理在运行10k轮模拟对话之后所得到的最终表现，通过对比分析可知，结合规划的DDPG算法从策略梯度的角度建模对话管理，在一定程度上提高了基本的策略梯度方法（advantage-actor-critic）的性能，大约提高了15%，进一步验证了该方法的有效性。但是与基于值函数的强化学习方法相比，并没有达到与DQN代理相似的效果，说明了当处理动作离散（或动作空间有限）的对话任务时，基于值函数的强化学习方法确实要优于策略梯度的方法。在本文预订电影票的对话任务中，它只包含43个离散动作，因此通过计算Q值选择动作足以解决该任务。本文所提出的方法虽然没有基于值函数的强化学习方法效果好，但是与基于值函数的强化学习方法相比，它也拥有策略梯度算法的优势：（1）它是直接针对对话策略建模，避免了基于值函数的强化学习方法中对Q值的计算。当遇到离散动作空间很大时，DQN将会面临Q值计算困难的问题，而结合规划的DDPG算法则不会出现，从理论角度出发，本文所提出的方法更适用于离散动作空间规模较大的对话任务。（2）它借鉴了经典DDPG的思想，通过结合经验回放机制降低了样本数据的相关性，以及双网络机制稳定了学习目标，带来更好的实验效果，加快了模型的收敛速度。

图表编号	XD00208592800 严禁用于非法目的
绘制时间	2021.02.16
作者	赵崟江、李艳玲、林民
绘制单位	内蒙古师范大学计算机科学技术学院、内蒙古师范大学计算机科学技术学院、内蒙古师范大学计算机科学技术学院
更多格式	高清、无水印（增值服务）