《表1 数据集相关统计情况说明》
(注:词节点数是指去除停用词后构成词图节点的数量。)
在中文关键词抽取任务上,目前,还没有权威的公开的带关键词标注的标准中文语料数据集,因此为测试算法的有效性,本实验所采用的数据集来源如下:基于文献[9]所使用的网页正文自动抽取算法,由于其所提供的数据集不包含“文化、经济”等版块的内容,故重新爬取南方周末网站的新闻和经济等版块,提取文章内容和关键词,去除无意义的网页结构信息,得到中文文章共计1 500余篇。南方周末语料的关键词标注基本符合要求,笔者邀请多名研究人员分别对这些文章及其关键词按照如下标准检查、筛选、二次标注:每篇文章的关键词标注数量为最多不超过5个;文章的关键词不包括短语;单个文章文字数量为200-600个;关键词要在文章中有所提及,符合文意。在去除一定数量不符合标准的文章,经过二次标注后,最终得到文章数量在1 000篇左右带关键词标注的中文关键词抽取数据集。相关统计信息如表1所示。
图表编号 | XD009072900 严禁用于非法目的 |
---|---|
绘制时间 | 2019.11.25 |
作者 | 王安、顾益军、李坤明、李文政 |
绘制单位 | 中国人民公安大学信息技术与网络安全学院、中国人民公安大学信息技术与网络安全学院、中国人民公安大学信息技术与网络安全学院、中国人民公安大学信息技术与网络安全学院 |
更多格式 | 高清、无水印(增值服务) |