《表1 特征项t1和t2在不同文本中出现的频数》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于改进特征加权的朴素贝叶斯分类算法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

a)忽略特征项词频对权重的影响。若特征项在同一类别的文本中都存在，但是在每篇文本中出现的个数却很少。这种情况下，该特征项的类别间文本频率高、词频低，不能很好地代表一个类别，却有着较高的权重值，这样导致了赋予的权重不准确。例如，现在有两个类别，每个类别有三篇文本，包含有两个特征项。如表1所示，特征项t1和t2都分别在类别c1和c2内部分布于三篇和一篇文本。根据JS散度计算得到的特征项t1和t2的权重值相等，但是特征项t1在类别c1内每篇文本中出现的频数都比t2多，在类别c2内出现的频数却比t2少，显然特征项t1比t2能更好地代表类别c1，对文本分类起到的作用更大，应该赋予更高的权重，然而并没有在JS散度计算公式中体现，导致误差的出现。

图表编号	XD003891700 严禁用于非法目的
绘制时间	2019.12.01
作者	丁月、汪学明
绘制单位	贵州大学计算机科学与技术学院、贵州大学计算机科学与技术学院
更多格式	高清、无水印（增值服务）