《表1:XML文档分类中特征表达方法的研究》

《表1:XML文档分类中特征表达方法的研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《XML文档分类中特征表达方法的研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

首先,特征词a均匀分布在一个类中,特征词b则分散在两个类中,显然,特征词a更能区分文档的类别,但是,根据公式(2.b),idf(a)和idf(b)相等,并不合理。再者,特征词c集中分布在一个文档中,idf(a)小于idf(c),因而特征词c的权重比特征词a的大,这同样不合理。可见,并不是一个特征词在总文档中出现的频率越高,这个特征词对文档分类的贡献度越大小,而应该是在非这个类中出现的频率越高,对这个类的分类贡献越小。同时,还应该考虑特征词在类中分布是否均匀。改进的TF*IDF公式为: