《表4 随机选取的错分类样例》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于深度预训练语言模型的文献学科自动分类研究》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

由于测试集中文献仅给出了一个正确的学科类别，事实上一些文献确实可以属于多个学科。表4给出了从测试集中随机选取的5个Top 1预测学科错误的文献，并给出了这些文献的标题、真实学科（T）、预测的前5个学科（P）。从这些样例可以看出，分类器预测的第一个学科不一定就是完全错误。第2条、第4条样例分别来自图书情报、教育学的期刊，因此预测的第一个学科事实上是正确的，只不过在CSSCI中也为它们赋予了其他学科，而本实验收集的数据集中恰好使用了这些其他学科。第1、第3、第5条样例来自相对综合性的期刊，ERNIE预测的第一个学科或多或少与其主题有一定的关系，例如，第5条样例作者给出的中图分类号为“C924.24”，其与民族学分类“C95”很接近。由此可见，ERNIE在测试集上真实的Top 1准确率应该高于75.56%。

图表编号	XD00204847000 严禁用于非法目的
绘制时间	2020.10.24
作者	罗鹏程、王一博、王继民
绘制单位	北京大学信息管理系、北京大学图书馆、北京大学图书馆、北京大学信息管理系
更多格式	高清、无水印（增值服务）