《表1 文本情感分析语料数据集样例表》
为了验证模型的有效性,本文选用了中文自然语言处理数据集中的带标注的部分情感分析语料,其公布的语料规模为数百万篇,人工标注为积极和消极两类。本文的研究对象是与广播电视相关的短文本语料,因此需要从数据集中筛选出包括影评、剧评、新闻类、媒体类等广播电视相关的语料,并将文本长度控制在200字以内,然后经过去重、去噪处理,最终得到短文本语料共282000篇。为了探究不同语料规模对分类器训练的影响,将总语料按不同规模分为12个子集,分别为100、200、500、1000、2000、3000、4000、5000、10000、50000、100000和282000篇,所有子集均为平衡语料,即正负类语料数量相等。本文将对这12个子集分别进行实验,并用上文中提到的四种不同的分类算法进行对比实验分析,表1为数据集样例。
图表编号 | XD00131133300 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.01 |
作者 | 丁森华、邵佳慧、李春艳、杨枝蕊 |
绘制单位 | 北京交通大学交通运输学院 |
更多格式 | 高清、无水印(增值服务) |