《表4 各个数据集缺失词数量表》
对于表5进行分析可以得出,在IMDB数据集中经过缺失词补全方法后的词向量相较于其他情况中的最好结果提升了0.27%;在MR数据集中,尽管Fasttext词向量在该数据集中表现不佳,然而混合之后的词向量相较于Fasttext词向量提升了1.8%,与仅用Glove词向量的结果相近,可以看出混合词向量不因单个词向量训练效果不佳从而带来不好的效果,体现了混合词向量的健壮性;在Subj数据集中经过词向量混合之后的实验结果相较于单独使用一个词向量提升了0.4%证明了通过词向量混合使得词向量拥有更加丰富的语义信息能更好地理解语义,并通过表4可得知Subj数据集中的缺失率仅为1.65%,缺失词补全方法在该数据集当中进行使用大致提升了0.1%,可以看出在缺失率不大的数据集中使用该补全方法所能带来的提升有限;在AG's数据集中,词向量混合带来了0.12%的提升,引入缺失词补全方法再次提升了0.36%,这是由于AG's数据集的缺失率高达55.8%说明该数据集中缺失词的数量比较大,缺失词补全方法对于该数据集的缺失词向量进行近义词词向量补全的数量相对比较多,该方法对于缺失词进行语义补全丰富了原本语义,所以带来了相较于其他数据集更多的提升,相较于不使用缺词补全方法提升了0.48%,证明了基于缺失词补全的混合词向量方法的有效性,并且在缺失词数量比较大的数据集中该方法会提升会更加明显.
图表编号 | XD00126567500 严禁用于非法目的 |
---|---|
绘制时间 | 2020.01.01 |
作者 | 王弘中、刘漳辉、郭昆 |
绘制单位 | 福州大学数学与计算机科学学院、福州大学数学与计算机科学学院、福建省网络计算与智能信息处理重点实验室、空间数据挖掘与信息共享教育部重点实验室、福州大学数学与计算机科学学院、福建省网络计算与智能信息处理重点实验室、空间数据挖掘与信息共享教育部重点实验室 |
更多格式 | 高清、无水印(增值服务) |