《表6 敏感词及其变形体举例》

《表6 敏感词及其变形体举例》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向中文敏感词变形体的识别方法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为了评估面向中文敏感词变形体的识别方法的效果,从搜狗实验室(http://www.sogou.com/labs/)的Sogou CA(版本:2012)全网新闻数据库中随机抽取了含有疑似敏感词的800篇新闻文本(包含科技、体育、金融、社会、娱乐等题材)作为测试数据集。对数据集中的敏感词及其变形体进行人工的识别和分类,共发现67个敏感词及其变形体400个,涵盖了词的拼音、词的简称、词的拆分三种变形体情况,并将识别出的敏感词存入敏感词表中。在实验中,首先对以上67个敏感词进行人工拆分,再将敏感词变形体的数据集随机分成五组进行测试,第一组为80个,第二组为160个,第三组为240个,第四组为320个,第五组为400个。数据集中所抽取的敏感词变形体的部分举例如表6所示。