《表1 以G64为大类的不均衡程度对比》

《表1 以G64为大类的不均衡程度对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《不均衡数据集下基于CNN的中图分类标引方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在原中图分类标引相关实践[18]中发现G4(教育)下21个三级子类的分类精度较低,平均精度为0.41,其中有7个三级子类的分类精度低于0.1。而且,G4下样本数据中包含多种不均衡程度的类目,所以选择G4下的21个三级子类及其样本数据作为实验对象。如表1所示,对样本数据进行详细统计与分析,得到样本量总计23 532篇。其中样本量最多的为G64(高等教育),共4 118篇;样本量最少的为G48(学校建筑和设备的管理),共257篇。以G64为大类,其他类均为小类,统计其不均衡程度(四舍五入取值),记作IR(Imbalance Ratio),如G64的样本数为4 118,G48的样本数为257,则G48的不均衡程度IR=4 118/257≈16;G77的样本数为282,则G77的不均衡程度IR=4 118/282≈15。从表1看出,IR的最大值约为16,最小值约为2(除大类G64外),均值约为6。