《表2 自动分类样例:基于多因子算法的自动分类研究》

《表2 自动分类样例:基于多因子算法的自动分类研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于多因子算法的自动分类研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

考虑到通用词典可能导致的切词词长过短、专指度低的问题,自动分类算法执行之前,对IK分词器进行本地化改进,嵌入多来源权威叙词表作为候选词典,如中国农业科学叙词表(Chinese Agricultural Thesaurus,CAT)、英文超级科技词表STKOS等,一定程度上保证专有词、特定组合词的切词粒度。对已收集的测试语料数据通过改进后的分词器进行分词,提取关键词,基于STKOS(此处用于英文词义扩展)与选定标注语料库中关键词进行相符性匹配,获取命中的关键词及相应学科分类号信息。具体处理流程以其中一条待标引文献数据为例,如表2所示。根据前期实验基础预设关键词位置权重为W标题=0.2,W摘要=0.1,W关键词=0.7,适当增大题录信息中关键词位置权重,有助于提升原文中已标注学科分类号的命中概率。