《表1 语料划分情况：面向工业互联网资讯的中文关键词抽取》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《面向工业互联网资讯的中文关键词抽取》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

本文首先将251篇人工标注的文档随机筛选出175篇文档作为训练集，剩余的51篇文档作为测试集，如表1所示，通过此表的关键词平均数，我们可以观察出训练集和测试集的划分较为合理。然后根据每个候选词生成的6大类，共计21种特征，利用改进的随机森林算法[12]将训练集所有候选词的特征结合起来，训练出一个二分类器。

图表编号	XD00139869600 严禁用于非法目的
绘制时间	2020.01.25
作者	陈硕、殷锋、袁平
绘制单位	四川大学计算机学院、西南民族大学计算机科学与技术学院、重庆第二师范学院数学与信息工程学院
更多格式	高清、无水印（增值服务）