《表6 基于人机结合+分段补充方法的人机评分在各分数段上的样本数量对比情况》
注:有1 000份样本归到定标集中。
聚类完成之后,我们已经解决了“相应分数段设定相应比率”的算法问题,接下来的就是对定标样本进行数量上的补充,具体就是从K个类中,每类平均选取1 000/K篇作文,并且保证补充抽取的样本的评分分布与预设的补充目标比率相同。这种对定标样本分段补充的方法,能够更有针对性地扩大定标样本集合的覆盖范围,充分体现主题覆盖、不同水平样本覆盖等诸多因素,最大限度满足实用性要求。基于上述定标集训练评分模型,得到的机评分与报道分的相关系数为0.939,总体一致性为97.13%。具体到相应分数段、分差分布条件下的人机评分对比情况如表6所示。
图表编号 | XD00120576700 严禁用于非法目的 |
---|---|
绘制时间 | 2020.01.10 |
作者 | 何屹松、孙媛媛、张凯、付瑞吉 |
绘制单位 | 安徽省教育招生考试院、安徽省教育招生考试院、科大讯飞股份有限公司、科大讯飞股份有限公司 |
更多格式 | 高清、无水印(增值服务) |