《表4 易混拼音分组:面向中文敏感词变形体的识别方法研究》
易混拼音主要分为三种:平舌音与翘舌音、边音与鼻音、前鼻音与后鼻音。表5是易混拼音分组的部分数据,该表的拼音分组以及相似性因子参考了文献[12]。每组相似性因子代表同组拼音被替换成同一组中的另一个拼音需要付出的“代价”,若两个拼音相同,则它们的“代价”就是0,若两个拼音不相同,并且也没有在同一个组里面,那么它们的“代价”是1。通过对汉语拼音的研究,部分分组情况如表4所示。
图表编号 | XD0067682400 严禁用于非法目的 |
---|---|
绘制时间 | 2019.04.01 |
作者 | 付聪、余敦辉、张灵莉 |
绘制单位 | 湖北大学计算机与信息工程学院、湖北省教育信息化工程技术中心、湖北大学计算机与信息工程学院 |
更多格式 | 高清、无水印(增值服务) |