《表2 自动分类样例:基于多因子算法的自动分类研究》
考虑到通用词典可能导致的切词词长过短、专指度低的问题,自动分类算法执行之前,对IK分词器进行本地化改进,嵌入多来源权威叙词表作为候选词典,如中国农业科学叙词表(Chinese Agricultural Thesaurus,CAT)、英文超级科技词表STKOS等,一定程度上保证专有词、特定组合词的切词粒度。对已收集的测试语料数据通过改进后的分词器进行分词,提取关键词,基于STKOS(此处用于英文词义扩展)与选定标注语料库中关键词进行相符性匹配,获取命中的关键词及相应学科分类号信息。具体处理流程以其中一条待标引文献数据为例,如表2所示。根据前期实验基础预设关键词位置权重为W标题=0.2,W摘要=0.1,W关键词=0.7,适当增大题录信息中关键词位置权重,有助于提升原文中已标注学科分类号的命中概率。
图表编号 | XD00198143300 严禁用于非法目的 |
---|---|
绘制时间 | 2020.11.25 |
作者 | 李娇、黄永文、罗婷婷、赵瑞雪、鲜国建 |
绘制单位 | 中国农业科学院农业信息所、中国农业科学院农业信息所、中国农业科学院农业信息所、中国农业科学院农业信息所、农业农村部农业大数据重点实验室、中国农业科学院农业信息所、农业农村部农业大数据重点实验室 |
更多格式 | 高清、无水印(增值服务) |