《表5 汉字拆分表:面向中文敏感词变形体的识别方法研究》

《表5 汉字拆分表:面向中文敏感词变形体的识别方法研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向中文敏感词变形体的识别方法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

根据汉字的构成单位可把汉字分为独体字、合体字两类。独体字(日、月等)由笔画构成,合体字(休、取等)则由偏旁构成。现代汉字的拆分,要充分认识汉字的组成规律,要根据符合中国人书写习惯的规则来拆分。汉字的空间上的关系有相交、相离、相接[17]。汉字的方位上的关系有上下、左右,内外、框架、独体。为了使每个汉字有一个全国统一的代码,我国颁布了汉字编码的国家标准:《信息交换用汉字编码字符集》[18]。区位码是一个四位的十进制数,每个区位码都对应着一个唯一的汉字或符号。根据以上汉字特征对敏感词列表中的汉字进行人工拆分并采用区位码进行编码形成汉字拆分表。如表5所示。