《表1 汉字拆分表:基于决策树的敏感词变形体识别算法研究及应用》
3)词的拆分模式根据汉字的构成单位可把汉字分为独体字、合体字两类。独体字(日、月等)由笔画构成,合体字(休、取等)则由偏旁构成。汉字空间上的关系有相交、相离、相接[11],汉字方位上的关系有上下、左右、内外、框架、独体。区位码是一个四位的十进制数,每个区位码都对应着一个唯一的汉字或符号。根据以上汉字特征对敏感词列表中的汉字进行人工拆分,并采用区位码进行编码形成汉字拆分表,如表1所示。
图表编号 | XD00163333900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.05.01 |
作者 | 余敦辉、张笑笑、付聪、张万山 |
绘制单位 | 湖北大学计算机与信息工程学院、湖北省教育信息化工程技术中心、湖北大学计算机与信息工程学院、湖北大学计算机与信息工程学院、湖北大学计算机与信息工程学院、湖北省教育信息化工程技术中心 |
更多格式 | 高清、无水印(增值服务) |