《表4 各个数据集缺失词数量表》

《表4 各个数据集缺失词数量表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种基于混合词向量的胶囊网络文本分类方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

对于表5进行分析可以得出,在IMDB数据集中经过缺失词补全方法后的词向量相较于其他情况中的最好结果提升了0.27%;在MR数据集中,尽管Fasttext词向量在该数据集中表现不佳,然而混合之后的词向量相较于Fasttext词向量提升了1.8%,与仅用Glove词向量的结果相近,可以看出混合词向量不因单个词向量训练效果不佳从而带来不好的效果,体现了混合词向量的健壮性;在Subj数据集中经过词向量混合之后的实验结果相较于单独使用一个词向量提升了0.4%证明了通过词向量混合使得词向量拥有更加丰富的语义信息能更好地理解语义,并通过表4可得知Subj数据集中的缺失率仅为1.65%,缺失词补全方法在该数据集当中进行使用大致提升了0.1%,可以看出在缺失率不大的数据集中使用该补全方法所能带来的提升有限;在AG's数据集中,词向量混合带来了0.12%的提升,引入缺失词补全方法再次提升了0.36%,这是由于AG's数据集的缺失率高达55.8%说明该数据集中缺失词的数量比较大,缺失词补全方法对于该数据集的缺失词向量进行近义词词向量补全的数量相对比较多,该方法对于缺失词进行语义补全丰富了原本语义,所以带来了相较于其他数据集更多的提升,相较于不使用缺词补全方法提升了0.48%,证明了基于缺失词补全的混合词向量方法的有效性,并且在缺失词数量比较大的数据集中该方法会提升会更加明显.