《表2 系统动作的即时奖励值》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于TFSM的情感教学系统对话管理建模与仿真研究》
即时奖励值函数R(s,a),体现了用户在状态s下对系统动作a的满意度,一般需要根据对话任务进行设置。本模型中,我们制定即时奖励值的一个主要原则是给予“合适的”动作以正的奖励值,“不合适的”以负的奖励值,并依据“合适程度”设置奖励值大小,具体见表2。例如,当用户状态为s1(学习状态)时,给予合适动作a1(输出相关教学内容)奖励值“+2”,动作a2(对疑问进行解答)奖励值“+1”,动作a3(情感响应)奖励值“-1”,动作a4(结束对话)奖励值“-3”。
图表编号 | XD0024889000 严禁用于非法目的 |
---|---|
绘制时间 | 2018.04.28 |
作者 | 王玉、黄忠 |
绘制单位 | 合肥学院数学与物理系、安庆师范大学物理与电气工程学院 |
更多格式 | 高清、无水印(增值服务) |