《表9 不同数据集上-各方案实验结果》

《表9 不同数据集上-各方案实验结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《引入词向量的隐性特征识别研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

各算法在均衡数据集上的性能指标均显著优于原始非均衡数据集。Coo_score+Ind_index方案的F1提升幅度最高,未引入关联词时,F1从0.576升至0.705;引入关联词后,F1从0.590升至0.750。分析原因,基于指标的关系推断本质上利用的是词语和特征类的共现率,因而受到类别样本量的影响更显著。类别样本量不均衡的情况下,词项与样本量少的类别的共现得分偏低,词项类别预测倾向于样本量多的类别,影响了算法的整体表现。信息增益分类法受语料均衡性的影响相对较小,但均衡语料上的表现也优于非均衡语料。整体比较,均衡语料上,引入关联词的Coo_score+Ind_index方案综合表现最优(P=0.754,R=0.759,F1=0.750),结果如表9所示。