《表1 拼音声母编码:基于改进音形码的中文敏感词检测算法》
首先第一部分表示声母,拼音声母一共有23个,所以至少需要五个二进制位.声母按照发音习惯可以分为七组,分别是bpmf,dtnl,gkh,jqx,zhchsh,zcsr,yw.为了使发音相近的声母尽可能在距离上相近,这里采用格雷码的方式,因为格雷码的任意两个相邻的编码只有一位二进制数不同,可以使每一组中相邻的声母编码差异最小.同时考虑到后期方便计算,舍弃平翘舌音的区别,即认为z和zh,c和ch,s和sh的编码形式相同.拼音的声母编码见表1.
图表编号 | XD00136563100 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.30 |
作者 | 周昊、沈庆宏 |
绘制单位 | 南京大学电子科学与工程学院、江苏金晓电子信息股份有限公司、南京大学电子科学与工程学院 |
更多格式 | 高清、无水印(增值服务) |