《表3 敏感词表在测试集上的表现》
本文首先从网络收集了8个敏感词表(总共含约7万词)并集成到一个敏感词表中,同时将集成的词表在收集到的微博全集中统计出现次数,去掉没出现过的词,再按频次从高到低,人工辨别词语的可靠性,进行人工的删除、改写或扩增,保留了2 714个敏感词,得到优化后的词表。在测试集上分别测试了2个词表的表现,详见表3。
图表编号 | XD00149951100 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.01 |
作者 | 朱泽圻 |
绘制单位 | 哈尔滨工业大学 |
更多格式 | 高清、无水印(增值服务) |