《表2 数据集停用词数统计表》

《表2 数据集停用词数统计表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《多特征融合的可移植谣言早期检测模型》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

该特征指语料信息的有效程度,本文采用语料中的停用词数量进行表示。停用词处理是许多文本处理应用(如信息检索)中最重要的任务之一[9],可以节省存储空间和提高搜索效率。停用词通常不代表具体含义[10],因此语料中停用词数量在一定程度上体现了有效信息的占比,而以往研究没有进行利用。本文以哈工大停用词为主体构建了1677个停用词,对语料集进行统计得到结果如表2所示,证明该特征可以有效区分谣言与非谣言。