《表2 系统动作的即时奖励值》

《表2 系统动作的即时奖励值》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于TFSM的情感教学系统对话管理建模与仿真研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

即时奖励值函数R(s,a),体现了用户在状态s下对系统动作a的满意度,一般需要根据对话任务进行设置。本模型中,我们制定即时奖励值的一个主要原则是给予“合适的”动作以正的奖励值,“不合适的”以负的奖励值,并依据“合适程度”设置奖励值大小,具体见表2。例如,当用户状态为s1(学习状态)时,给予合适动作a1(输出相关教学内容)奖励值“+2”,动作a2(对疑问进行解答)奖励值“+1”,动作a3(情感响应)奖励值“-1”,动作a4(结束对话)奖励值“-3”。