《表1 文本情感分析语料数据集样例表》

《表1 文本情感分析语料数据集样例表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《文本情感分析方法对比研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为了验证模型的有效性,本文选用了中文自然语言处理数据集中的带标注的部分情感分析语料,其公布的语料规模为数百万篇,人工标注为积极和消极两类。本文的研究对象是与广播电视相关的短文本语料,因此需要从数据集中筛选出包括影评、剧评、新闻类、媒体类等广播电视相关的语料,并将文本长度控制在200字以内,然后经过去重、去噪处理,最终得到短文本语料共282000篇。为了探究不同语料规模对分类器训练的影响,将总语料按不同规模分为12个子集,分别为100、200、500、1000、2000、3000、4000、5000、10000、50000、100000和282000篇,所有子集均为平衡语料,即正负类语料数量相等。本文将对这12个子集分别进行实验,并用上文中提到的四种不同的分类算法进行对比实验分析,表1为数据集样例。