《表1:XML文档分类中特征表达方法的研究》
首先,特征词a均匀分布在一个类中,特征词b则分散在两个类中,显然,特征词a更能区分文档的类别,但是,根据公式(2.b),idf(a)和idf(b)相等,并不合理。再者,特征词c集中分布在一个文档中,idf(a)小于idf(c),因而特征词c的权重比特征词a的大,这同样不合理。可见,并不是一个特征词在总文档中出现的频率越高,这个特征词对文档分类的贡献度越大小,而应该是在非这个类中出现的频率越高,对这个类的分类贡献越小。同时,还应该考虑特征词在类中分布是否均匀。改进的TF*IDF公式为:
图表编号 | XD00222645000 严禁用于非法目的 |
---|---|
绘制时间 | 2020.09.28 |
作者 | 魏东平、马弋惠 |
绘制单位 | 中国石油大学(华东)计算机科学与技术学院、中国石油大学(华东)计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |