《表1 语料划分情况:面向工业互联网资讯的中文关键词抽取》

《表1 语料划分情况:面向工业互联网资讯的中文关键词抽取》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向工业互联网资讯的中文关键词抽取》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文首先将251篇人工标注的文档随机筛选出175篇文档作为训练集,剩余的51篇文档作为测试集,如表1所示,通过此表的关键词平均数,我们可以观察出训练集和测试集的划分较为合理。然后根据每个候选词生成的6大类,共计21种特征,利用改进的随机森林算法[12]将训练集所有候选词的特征结合起来,训练出一个二分类器。