《表3 机器评分与人工评分在试题题型上的相关性对照表(n=100)》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《机器自动口语测试的信度和效度研究——以MyET口语测试系统为例》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

注:**表示在0.01水平（双侧）上显著相关，*表示在0.1水平（双侧）上显著相关。下同。

机器评分与人工评分在试题题型上的相关性分析结果如表3所示，可以看出:（1）从总分来看，不同评分员（T-T）平均的总相关系数值（0.92）与机器评分、人工评分（MyET-T）平均的总相关系数值（0.89）差异不大，说明机器评分在总体上比较稳定。（2）从不同题型的得分来看，在Part A上机器评分、人工评分平均的相关系数值是0.88，在Part C上两者平均的相关系数值是0.80，说明在“复诵”和“口头作文”这两大题型上机器评分与人工评分有很高的相关性；但是，在Part B上机器评分、人工评分平均的相关系数值只达到了0.66，而不同评分员平均的相关系数值为0.92，说明在“角色扮演”这个题型上，机器评分的准确度与人工评分还有一定的差距。此外，在Part A上评分员T1与评分员T2、T3的相关系数值（0.86、0.87）低于评分员T2与评分员T3的相关系数值（0.97），也低于机器评分与评分员T2、T3的相关系数值（0.90、0.89）；在Part C上评分员T1与评分员T2、T3的相关系数值（0.72、078）也略低于机器评分与评分员T2、T3的相关系数值（0.80、0.83），说明机器评分在某些题型上比不同评分员的单独评分更稳定。

图表编号	XD0096487300 严禁用于非法目的
绘制时间	2019.09.01
作者	黄骞、王海军
绘制单位	浙江工业大学之江学院、浙江工业大学之江学院
更多格式	高清、无水印（增值服务）