《表2 特征提取结果:基于改进的TF-IGM热词提取算法研究》

《表2 特征提取结果:基于改进的TF-IGM热词提取算法研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于改进的TF-IGM热词提取算法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

从图1中可以看出,开始时特征词项数较小,因此选择的特征项F1的值在0~400间波动较大,TF-IGM模型由于考虑文档词项分布,相比传统的TF-IDF在特征词项数目较小时,能够较好的反映特征词在文本空间中的权重,随着词项数的增加,选择的词项在向量空间中趋于稳定,说明特征词在某个文本空间中具有稳定性的特征。另外,改进的TF-IGM模型将文档频率和词项在文档间的分布分开,能够很好地描述词项权重,并且由实验结果可知,评估值略高于TF-IGM模型。表2表示当N=M=200时的特征提取精度对比。