《表3 数据集敏感词数统计表》
该特征指语料信息的敏感程度,以语料中敏感词含量定量表示。敏感词是在谣言中高频出现的词语,如“震惊”、“惊呆”以及带有性暗示的词语等。而网络文化的发展与舆论监管机制的完善更让这一特征显得复杂,缩写、变换字体、改用谐音等逃脱检测的手法层出不穷。本文对健康、政治及两性等领域的敏感词及变体进行搜集并构建敏感词库,利用词库对语料库统计分析发现,谣言中敏感词的数量远高于非谣言,详细结果如表3所示。
图表编号 | XD00150253000 严禁用于非法目的 |
---|---|
绘制时间 | 2020.09.01 |
作者 | 孙王斌 |
绘制单位 | 中南大学计算机学院 |
更多格式 | 高清、无水印(增值服务) |