《表1 实验使用数据统计》
为验证本文模型的有效性,实验采用康奈尔大学基于影评数据创建的数据集MRD(movie review data,https://www.cs.cornell.edu/people/pabo/movie-review-data/)和斯坦福大学情感分类语料库数据集SST(Stanford sentiment treebank,https://nlp.stanford.edu/sentiment/),分别用于二分类(negative,positive)的句子和五分类(very negative,negative,neutral,positive,very positive)的句子。其中MRD由电影评论数据组成,持肯定态度评论占1 000篇,持否定态度评论占1 000篇,标注了褒贬极性的句子各5 331句,标注了主客观标签的句子各5 000句,在本文实验中,随机抽取1 400篇作为训练集,400篇作为测试集,200篇作为验证集。SST数据集是MRD数据集的扩展,共有11 855个句子,人工标注了句子类别,8 544句为训练集,2 210句为测试集,1 101句为验证集。本文实验所用数据的统计如表1所示,其中训练集、测试集、验证集之比为7∶2∶1。
图表编号 | XD00134588200 严禁用于非法目的 |
---|---|
绘制时间 | 2020.02.01 |
作者 | 李文宽、刘培玉、朱振方、刘文锋 |
绘制单位 | 山东师范大学信息科学与工程学院、山东省分布式计算机软件新技术重点实验室、山东师范大学信息科学与工程学院、山东省分布式计算机软件新技术重点实验室、山东交通学院信息科学与电气工程学院、山东师范大学信息科学与工程学院、山东省分布式计算机软件新技术重点实验室、菏泽学院计算机学院 |
更多格式 | 高清、无水印(增值服务) |