《表4 敏感词变形体的部分举例》

《表4 敏感词变形体的部分举例》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于决策树的敏感词变形体识别算法研究及应用》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为了评估面向中文敏感词变形体识别方法的效果,本文从CSDN(https://download.csdn.net)下载了含有疑似敏感词的26 728条新浪微博文本(包含科技、体育、金融、社会、娱乐等类型)作为测试数据集。首先对数据进行预处理,然后对数据集中的敏感词及其变形体进行人工识别和分类,筛选出包含敏感词变形体的文本共3 835篇,其中共发现554个敏感词及变形体1 288个,涵盖了词的拼音、简称、拆分三种变形体情况,并将识别出的敏感词存入敏感词表中。数据集中所抽取的敏感词变形体的部分举例如表4所示。