《表6 敏感词及其变形体举例》
为了评估面向中文敏感词变形体的识别方法的效果,从搜狗实验室(http://www.sogou.com/labs/)的Sogou CA(版本:2012)全网新闻数据库中随机抽取了含有疑似敏感词的800篇新闻文本(包含科技、体育、金融、社会、娱乐等题材)作为测试数据集。对数据集中的敏感词及其变形体进行人工的识别和分类,共发现67个敏感词及其变形体400个,涵盖了词的拼音、词的简称、词的拆分三种变形体情况,并将识别出的敏感词存入敏感词表中。在实验中,首先对以上67个敏感词进行人工拆分,再将敏感词变形体的数据集随机分成五组进行测试,第一组为80个,第二组为160个,第三组为240个,第四组为320个,第五组为400个。数据集中所抽取的敏感词变形体的部分举例如表6所示。
图表编号 | XD0067681800 严禁用于非法目的 |
---|---|
绘制时间 | 2019.04.01 |
作者 | 付聪、余敦辉、张灵莉 |
绘制单位 | 湖北大学计算机与信息工程学院、湖北省教育信息化工程技术中心、湖北大学计算机与信息工程学院 |
更多格式 | 高清、无水印(增值服务) |