《表2 系统动作的即时奖励值》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于TFSM的情感教学系统对话管理建模与仿真研究》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

即时奖励值函数R（s，a），体现了用户在状态s下对系统动作a的满意度，一般需要根据对话任务进行设置。本模型中，我们制定即时奖励值的一个主要原则是给予“合适的”动作以正的奖励值，“不合适的”以负的奖励值，并依据“合适程度”设置奖励值大小，具体见表2。例如，当用户状态为s1（学习状态）时，给予合适动作a1（输出相关教学内容）奖励值“+2”，动作a2（对疑问进行解答）奖励值“+1”，动作a3（情感响应）奖励值“-1”，动作a4（结束对话）奖励值“-3”。

图表编号	XD0024889000 严禁用于非法目的
绘制时间	2018.04.28
作者	王玉、黄忠
绘制单位	合肥学院数学与物理系、安庆师范大学物理与电气工程学院
更多格式	高清、无水印（增值服务）