《表1 以G64为大类的不均衡程度对比》
在原中图分类标引相关实践[18]中发现G4(教育)下21个三级子类的分类精度较低,平均精度为0.41,其中有7个三级子类的分类精度低于0.1。而且,G4下样本数据中包含多种不均衡程度的类目,所以选择G4下的21个三级子类及其样本数据作为实验对象。如表1所示,对样本数据进行详细统计与分析,得到样本量总计23 532篇。其中样本量最多的为G64(高等教育),共4 118篇;样本量最少的为G48(学校建筑和设备的管理),共257篇。以G64为大类,其他类均为小类,统计其不均衡程度(四舍五入取值),记作IR(Imbalance Ratio),如G64的样本数为4 118,G48的样本数为257,则G48的不均衡程度IR=4 118/257≈16;G77的样本数为282,则G77的不均衡程度IR=4 118/282≈15。从表1看出,IR的最大值约为16,最小值约为2(除大类G64外),均值约为6。
图表编号 | XD00157144800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.25 |
作者 | 冉亚鑫 |
绘制单位 | 中国科学技术信息研究所、富媒体数字出版内容组织与知识服务重点实验室 |
更多格式 | 高清、无水印(增值服务) |