《表4 敏感词变形体的部分举例》
为了评估面向中文敏感词变形体识别方法的效果,本文从CSDN(https://download.csdn.net)下载了含有疑似敏感词的26 728条新浪微博文本(包含科技、体育、金融、社会、娱乐等类型)作为测试数据集。首先对数据进行预处理,然后对数据集中的敏感词及其变形体进行人工识别和分类,筛选出包含敏感词变形体的文本共3 835篇,其中共发现554个敏感词及变形体1 288个,涵盖了词的拼音、简称、拆分三种变形体情况,并将识别出的敏感词存入敏感词表中。数据集中所抽取的敏感词变形体的部分举例如表4所示。
图表编号 | XD00163334200 严禁用于非法目的 |
---|---|
绘制时间 | 2020.05.01 |
作者 | 余敦辉、张笑笑、付聪、张万山 |
绘制单位 | 湖北大学计算机与信息工程学院、湖北省教育信息化工程技术中心、湖北大学计算机与信息工程学院、湖北大学计算机与信息工程学院、湖北大学计算机与信息工程学院、湖北省教育信息化工程技术中心 |
更多格式 | 高清、无水印(增值服务) |