《表1 特征项t1和t2在不同文本中出现的频数》
a)忽略特征项词频对权重的影响。若特征项在同一类别的文本中都存在,但是在每篇文本中出现的个数却很少。这种情况下,该特征项的类别间文本频率高、词频低,不能很好地代表一个类别,却有着较高的权重值,这样导致了赋予的权重不准确。例如,现在有两个类别,每个类别有三篇文本,包含有两个特征项。如表1所示,特征项t1和t2都分别在类别c1和c2内部分布于三篇和一篇文本。根据JS散度计算得到的特征项t1和t2的权重值相等,但是特征项t1在类别c1内每篇文本中出现的频数都比t2多,在类别c2内出现的频数却比t2少,显然特征项t1比t2能更好地代表类别c1,对文本分类起到的作用更大,应该赋予更高的权重,然而并没有在JS散度计算公式中体现,导致误差的出现。
图表编号 | XD003891700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.12.01 |
作者 | 丁月、汪学明 |
绘制单位 | 贵州大学计算机科学与技术学院、贵州大学计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |