《表1 特征项t1和t2在不同文本中出现的频数》

《表1 特征项t1和t2在不同文本中出现的频数》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于改进特征加权的朴素贝叶斯分类算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

a)忽略特征项词频对权重的影响。若特征项在同一类别的文本中都存在,但是在每篇文本中出现的个数却很少。这种情况下,该特征项的类别间文本频率高、词频低,不能很好地代表一个类别,却有着较高的权重值,这样导致了赋予的权重不准确。例如,现在有两个类别,每个类别有三篇文本,包含有两个特征项。如表1所示,特征项t1和t2都分别在类别c1和c2内部分布于三篇和一篇文本。根据JS散度计算得到的特征项t1和t2的权重值相等,但是特征项t1在类别c1内每篇文本中出现的频数都比t2多,在类别c2内出现的频数却比t2少,显然特征项t1比t2能更好地代表类别c1,对文本分类起到的作用更大,应该赋予更高的权重,然而并没有在JS散度计算公式中体现,导致误差的出现。