《表1 语料划分情况:面向工业互联网资讯的中文关键词抽取》
本文首先将251篇人工标注的文档随机筛选出175篇文档作为训练集,剩余的51篇文档作为测试集,如表1所示,通过此表的关键词平均数,我们可以观察出训练集和测试集的划分较为合理。然后根据每个候选词生成的6大类,共计21种特征,利用改进的随机森林算法[12]将训练集所有候选词的特征结合起来,训练出一个二分类器。
图表编号 | XD00139869600 严禁用于非法目的 |
---|---|
绘制时间 | 2020.01.25 |
作者 | 陈硕、殷锋、袁平 |
绘制单位 | 四川大学计算机学院、西南民族大学计算机科学与技术学院、重庆第二师范学院数学与信息工程学院 |
更多格式 | 高清、无水印(增值服务) |