《表1 数据集相关统计情况说明》

《表1 数据集相关统计情况说明》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于复杂网络词节点移除的关键词抽取方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
(注:词节点数是指去除停用词后构成词图节点的数量。)

在中文关键词抽取任务上,目前,还没有权威的公开的带关键词标注的标准中文语料数据集,因此为测试算法的有效性,本实验所采用的数据集来源如下:基于文献[9]所使用的网页正文自动抽取算法,由于其所提供的数据集不包含“文化、经济”等版块的内容,故重新爬取南方周末网站的新闻和经济等版块,提取文章内容和关键词,去除无意义的网页结构信息,得到中文文章共计1 500余篇。南方周末语料的关键词标注基本符合要求,笔者邀请多名研究人员分别对这些文章及其关键词按照如下标准检查、筛选、二次标注:每篇文章的关键词标注数量为最多不超过5个;文章的关键词不包括短语;单个文章文字数量为200-600个;关键词要在文章中有所提及,符合文意。在去除一定数量不符合标准的文章,经过二次标注后,最终得到文章数量在1 000篇左右带关键词标注的中文关键词抽取数据集。相关统计信息如表1所示。