《表4 不同代理在10k个模拟对话的最终表现》
表4展示了不同代理在运行10k轮模拟对话之后所得到的最终表现,通过对比分析可知,结合规划的DDPG算法从策略梯度的角度建模对话管理,在一定程度上提高了基本的策略梯度方法(advantage-actor-critic)的性能,大约提高了15%,进一步验证了该方法的有效性。但是与基于值函数的强化学习方法相比,并没有达到与DQN代理相似的效果,说明了当处理动作离散(或动作空间有限)的对话任务时,基于值函数的强化学习方法确实要优于策略梯度的方法。在本文预订电影票的对话任务中,它只包含43个离散动作,因此通过计算Q值选择动作足以解决该任务。本文所提出的方法虽然没有基于值函数的强化学习方法效果好,但是与基于值函数的强化学习方法相比,它也拥有策略梯度算法的优势:(1)它是直接针对对话策略建模,避免了基于值函数的强化学习方法中对Q值的计算。当遇到离散动作空间很大时,DQN将会面临Q值计算困难的问题,而结合规划的DDPG算法则不会出现,从理论角度出发,本文所提出的方法更适用于离散动作空间规模较大的对话任务。(2)它借鉴了经典DDPG的思想,通过结合经验回放机制降低了样本数据的相关性,以及双网络机制稳定了学习目标,带来更好的实验效果,加快了模型的收敛速度。
图表编号 | XD00208592800 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.16 |
作者 | 赵崟江、李艳玲、林民 |
绘制单位 | 内蒙古师范大学计算机科学技术学院、内蒙古师范大学计算机科学技术学院、内蒙古师范大学计算机科学技术学院 |
更多格式 | 高清、无水印(增值服务) |