《表1 智能分类语料集构成明细》
为了提高图书分类器的分类精度,分类MARC数据小于2 000条的大类不再参与本文研究,其他大类每类取35%的数据(30%的训练语料,5%的测试语料),训练语料不满2 000条的按2 000选取,测试语料不满400条的按400选取。按上述规则从14个大类18万多书目数据中随机选取57 270条书目数据为训语料集,随机选取9 871条书目数据为测试语料集(表1)。
图表编号 | XD00215124800 严禁用于非法目的 |
---|---|
绘制时间 | 2018.12.01 |
作者 | 周聪、张德林 |
绘制单位 | 徐州医科大学图书馆、徐州医科大学附属医院信息中心 |
更多格式 | 高清、无水印(增值服务) |