《表7 人测与机测说话项测试员间分差分布情况》

《表7 人测与机测说话项测试员间分差分布情况》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《计算机辅助普通话测试与人工测试对比分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

机测的前三项由计算机评分,因此,测试员分差只体现在说话项。而说话项又是PSC评判应试人等级的最关键环节。宋欣桥(1998)对非临界评分差异描述如下:一级差异在0.9分以内,其中甲等差异在0.5分以内,乙等差异在0.9分以内;二级差异在1.5分以内;三级差异在2分以内。在测试员实际评测中,差异要比宋欣桥先生的描述大许多(于谦,2010)。表7中,人测有分差357个,占比71.40%,机测有分差396个,占比79.20%,机测比人测多出7.80%。而在大于3分的分差中,人测12个,占比2.40%,机测22个,占比4.40%。北京地区将测试误差大于3分的语料都进行复审,通过复审环节进行纠偏。而事实上,即使进入复审环节,复审员既无从知晓也无法决定语料的最终等级,而是由计算机自动合并机测(前三项)与人测(第四项)的成绩并确定等级。表7显示,在随机抽取的人测与抗测的样本中(500个),人测说话项有分差的为357个,机测说话项有分差的396个。在>7分与<25分的区间均未出现有分差的情况。从分差值看,人测最大分差为4.5分,而机测最大分差为25分,机测最大分差比人测多了20.5分。由此引申出的问题是,机测的容错度究竟在多大分数区间是科学的?