《表1 学术文本数据集信息[7]》

《表1 学术文本数据集信息[7]》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于关键词的学术文本聚类集成研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文在数据集的选择上制定了以下要求:(1)准确的学术文本类别划分,以保证实验结果的准确性;(2)需包含多个测试数据子集,以提升实验结果可靠性;(3)各类别数据量较平均,以减轻数据集的类别不均衡问题。Rossi等[7]数据集满足以上要求。该数据集包含40个领域的3506篇论文,采集自ACM计算机学科分类体系(CCS2012)。该分类体系由120位ACM学科领域志愿者构建,将计算机学科划分为5个垂直层次的研究领域。由于该体系为人工构建,对学术文本划分的精确度较高,可作为聚类结果的判断标准。同时,该数据集包含8个测试数据子集(表1中的ACM-1~ACM-8),每个子集包含5个领域的论文数据。为提升实验结果的可靠性,文本类别划分实验分别在这8个子数据集上展开。另外,该数据集中各领域的论文数量较平均,减轻了数据集类别不均衡问题。在关键词的选择上,由于ACM数据库和学术文本作者赋予的关键词数量较少,易造成数据稀疏等问题。因此,本文选择使用关键词自动抽取方法,从文本中抽取关键词代表文本主旨内容。该数据集的详细信息如表1所示。