《表3 机器评分与人工评分在试题题型上的相关性对照表(n=100)》

《表3 机器评分与人工评分在试题题型上的相关性对照表(n=100)》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《机器自动口语测试的信度和效度研究——以MyET口语测试系统为例》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:**表示在0.01水平(双侧)上显著相关,*表示在0.1水平(双侧)上显著相关。下同。

机器评分与人工评分在试题题型上的相关性分析结果如表3所示,可以看出:(1)从总分来看,不同评分员(T-T)平均的总相关系数值(0.92)与机器评分、人工评分(MyET-T)平均的总相关系数值(0.89)差异不大,说明机器评分在总体上比较稳定。(2)从不同题型的得分来看,在Part A上机器评分、人工评分平均的相关系数值是0.88,在Part C上两者平均的相关系数值是0.80,说明在“复诵”和“口头作文”这两大题型上机器评分与人工评分有很高的相关性;但是,在Part B上机器评分、人工评分平均的相关系数值只达到了0.66,而不同评分员平均的相关系数值为0.92,说明在“角色扮演”这个题型上,机器评分的准确度与人工评分还有一定的差距。此外,在Part A上评分员T1与评分员T2、T3的相关系数值(0.86、0.87)低于评分员T2与评分员T3的相关系数值(0.97),也低于机器评分与评分员T2、T3的相关系数值(0.90、0.89);在Part C上评分员T1与评分员T2、T3的相关系数值(0.72、078)也略低于机器评分与评分员T2、T3的相关系数值(0.80、0.83),说明机器评分在某些题型上比不同评分员的单独评分更稳定。