《表4 随机选取的错分类样例》
由于测试集中文献仅给出了一个正确的学科类别,事实上一些文献确实可以属于多个学科。表4给出了从测试集中随机选取的5个Top 1预测学科错误的文献,并给出了这些文献的标题、真实学科(T)、预测的前5个学科(P)。从这些样例可以看出,分类器预测的第一个学科不一定就是完全错误。第2条、第4条样例分别来自图书情报、教育学的期刊,因此预测的第一个学科事实上是正确的,只不过在CSSCI中也为它们赋予了其他学科,而本实验收集的数据集中恰好使用了这些其他学科。第1、第3、第5条样例来自相对综合性的期刊,ERNIE预测的第一个学科或多或少与其主题有一定的关系,例如,第5条样例作者给出的中图分类号为“C924.24”,其与民族学分类“C95”很接近。由此可见,ERNIE在测试集上真实的Top 1准确率应该高于75.56%。
图表编号 | XD00204847000 严禁用于非法目的 |
---|---|
绘制时间 | 2020.10.24 |
作者 | 罗鹏程、王一博、王继民 |
绘制单位 | 北京大学信息管理系、北京大学图书馆、北京大学图书馆、北京大学信息管理系 |
更多格式 | 高清、无水印(增值服务) |