《表3 敏感词表在测试集上的表现》

《表3 敏感词表在测试集上的表现》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向聊天机器人的敏感内容识别研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文首先从网络收集了8个敏感词表(总共含约7万词)并集成到一个敏感词表中,同时将集成的词表在收集到的微博全集中统计出现次数,去掉没出现过的词,再按频次从高到低,人工辨别词语的可靠性,进行人工的删除、改写或扩增,保留了2 714个敏感词,得到优化后的词表。在测试集上分别测试了2个词表的表现,详见表3。