《表1 部分特征项权重比较》

《表1 部分特征项权重比较》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于粗糙集的社交文本特征选择方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

社交文本的特性为文本长度较短,但总体的词汇量较大,在不同的时间段会派生出许多新的词汇,训练集中出现的词汇一般遵循Zipf定律,即只有少数词汇被经常使用[11]。大量词汇在训练集中出现的次数很少甚至只出现1次,这些词汇被称为稀有词汇,它们对分类的特征选择贡献度很低。因此,在构建决策表时,可以把每个特征项作为决策表中的一个属性看待,计算得出的属性权重即特征项权重。本研究在计算权重时,过滤了出现次数少于或等于3次的词汇,过滤后再根据训练集D={d1,d2,…,dn}得到所有社交文本的特征项集合T={t1,t2,…,tm},以每条文本在相应特征项的取值计算该特征项的权重,计算权重采用TF-IDF权重计算方法。表1给出了两条社交文本中部分特征项的权重值,可以看出:“Mobile”类别中编号为“1141”的社交文本包含了“魅族”“诺基亚”这两种类别区分度较高的特征项,其权重值相对较大;而特征项“微博”“转发”这两种类别区分度较低的特征项,其权重值相对较小。