《表2 数据集停用词数统计表》
该特征指语料信息的有效程度,本文采用语料中的停用词数量进行表示。停用词处理是许多文本处理应用(如信息检索)中最重要的任务之一[9],可以节省存储空间和提高搜索效率。停用词通常不代表具体含义[10],因此语料中停用词数量在一定程度上体现了有效信息的占比,而以往研究没有进行利用。本文以哈工大停用词为主体构建了1677个停用词,对语料集进行统计得到结果如表2所示,证明该特征可以有效区分谣言与非谣言。
图表编号 | XD00150252800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.09.01 |
作者 | 孙王斌 |
绘制单位 | 中南大学计算机学院 |
更多格式 | 高清、无水印(增值服务) |