《表5 汉字拆分表:面向中文敏感词变形体的识别方法研究》
根据汉字的构成单位可把汉字分为独体字、合体字两类。独体字(日、月等)由笔画构成,合体字(休、取等)则由偏旁构成。现代汉字的拆分,要充分认识汉字的组成规律,要根据符合中国人书写习惯的规则来拆分。汉字的空间上的关系有相交、相离、相接[17]。汉字的方位上的关系有上下、左右,内外、框架、独体。为了使每个汉字有一个全国统一的代码,我国颁布了汉字编码的国家标准:《信息交换用汉字编码字符集》[18]。区位码是一个四位的十进制数,每个区位码都对应着一个唯一的汉字或符号。根据以上汉字特征对敏感词列表中的汉字进行人工拆分并采用区位码进行编码形成汉字拆分表。如表5所示。
图表编号 | XD0067682300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.04.01 |
作者 | 付聪、余敦辉、张灵莉 |
绘制单位 | 湖北大学计算机与信息工程学院、湖北省教育信息化工程技术中心、湖北大学计算机与信息工程学院 |
更多格式 | 高清、无水印(增值服务) |