《Table 1 Perplexities of different algorithms》

《Table 1 Perplexities of different algorithms》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于近端策略优化与对抗学习的对话生成》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

实验结果表明,PPO_GAN算法在多个方面改善了对话生成的质量。本文分析对话生成质量得到改善的原因,首先,Seq2Seq模型存在没有好的评估指标指导模型训练的问题;其次,在使用策略梯度算法训练GAN的时候,存在样本方差大、模型训练困难而且容易收敛到局部最优解的问题。PPO_GAN算法使用GAN的判别模型得到的奖励指导生成模型生成对话,同时通过优化GAN对抗训练的过程,提高了样本的复杂度,并且使对抗训练过程中的生成模型可以单调非减地训练,改善了模型容易收敛到局部最优解的问题。PPO_GAN算法可以更好收敛,从而可以更好地拟合输入对话与生成回复之间的对应关系,改善了对话生成的质量。