《表2 MOOC评论文本统计信息》
数据集中的每一个评论会有一个用户给出的1~5分的打分,其中5分样本占据了总评论数据的84%,3分及以下评分样本的数量仅占据总评论数据的3.8%。为了避免这种不平衡数据导致的模型偏见,从完整数据集构建相对平衡的子集用于模型的构建与训练,具体方法如下:从用户打分为5分的样本中提取了15 000条评论作为正样本(积极情感)数据,并对用户打分为1~3分的6 731条评论进行人工标注,最终筛选出负样本(消极情感)评论4 148条,与正样本中的15 000条数据共同构成实验数据集(见表2)。
图表编号 | XD00199247600 严禁用于非法目的 |
---|---|
绘制时间 | 2020.06.10 |
作者 | 欧阳元新、王乐天、李想、蒲菊华、熊璋 |
绘制单位 | 北京航空航天大学计算机学院、北京航空航天大学计算机学院、北京航空航天大学计算机学院、北京航空航天大学计算机学院、北京航空航天大学计算机学院 |
更多格式 | 高清、无水印(增值服务) |