《表7 系统总体测评结果:基于道路法规知识图谱的多轮自动问答研究》
目前,还没有一套权威的多轮自动问答评价方法能完全客观的评价多轮自动问答系统的效果。本研究中完整句的测试评价指标采用的是准确率(Accuracy),问题中所有的本体类和本体属性都正确识别才算当前问题被正确识别。缺省句的评价指标采用的是任务完成率(任务完成率=成功结束的多轮会话数/多轮会话总数),成功结束的对话数量越多,则认为任务完成率相对较高,从而多轮对话的可用性也可能更好。但需注意的是,对话成功结束,并不一定意味着用户提出的问题得到正确解决,也有可能是用户从问答系统中得到了错误的答案。此外,在缺省句的评价指标中对前3轮对话满意度进行打分,后一轮的结果是基于上一轮的结果基础上进行评价的,即对前一轮结果不满意,则对后一轮结果也不满意。在系统的总体评测中,事件识别和意图识别选用的是BCNN_BiLSM模型,本体属性选用BBiLSTM_CRF模型,其参数与上述参数保持一致。最终得到完整句的准确率为0.74,缺省句的任务完成率为0.83。
图表编号 | XD00174855000 严禁用于非法目的 |
---|---|
绘制时间 | 2020.08.01 |
作者 | 陈金菊、王义真、欧石燕 |
绘制单位 | 南京大学信息管理学院、南京大学信息管理学院、南京大学信息管理学院 |
更多格式 | 高清、无水印(增值服务) |