《表4 不同代理在10k个模拟对话的最终表现》

《表4 不同代理在10k个模拟对话的最终表现》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《改进的DDPG对话策略优化算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

表4展示了不同代理在运行10k轮模拟对话之后所得到的最终表现,通过对比分析可知,结合规划的DDPG算法从策略梯度的角度建模对话管理,在一定程度上提高了基本的策略梯度方法(advantage-actor-critic)的性能,大约提高了15%,进一步验证了该方法的有效性。但是与基于值函数的强化学习方法相比,并没有达到与DQN代理相似的效果,说明了当处理动作离散(或动作空间有限)的对话任务时,基于值函数的强化学习方法确实要优于策略梯度的方法。在本文预订电影票的对话任务中,它只包含43个离散动作,因此通过计算Q值选择动作足以解决该任务。本文所提出的方法虽然没有基于值函数的强化学习方法效果好,但是与基于值函数的强化学习方法相比,它也拥有策略梯度算法的优势:(1)它是直接针对对话策略建模,避免了基于值函数的强化学习方法中对Q值的计算。当遇到离散动作空间很大时,DQN将会面临Q值计算困难的问题,而结合规划的DDPG算法则不会出现,从理论角度出发,本文所提出的方法更适用于离散动作空间规模较大的对话任务。(2)它借鉴了经典DDPG的思想,通过结合经验回放机制降低了样本数据的相关性,以及双网络机制稳定了学习目标,带来更好的实验效果,加快了模型的收敛速度。