《表4 文本情感标注数据示例》
以微博平台为研究对象,通过网络爬虫的方式爬取新浪微博10万多条数据.根据微博文本内容的规则,其中含有“//@”一般为转发微博,首先根据正则表达式进行文本匹配,若文本中含有“//@”,则通过程序删除此文本.将删除之后的文本放在excel中进行筛选,对于重复的文本内容进行最后删除.将经过预处理之后的文本中包含的表情符号替换成对应文本文字,使用0和1对此微博语料进行人工标注,正面情感标注为1,负面情感标注为0,具体的标注规则如表3所示,由3个人进行标注审核保证语料集的可信性,最终得到含有正负面情感的微博文本数据各2万条.标注完成之后的数据格式如表4所示.
图表编号 | XD00132517300 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.05 |
作者 | 李丽华、胡小龙 |
绘制单位 | 中南大学计算机学院、中南大学计算机学院 |
更多格式 | 高清、无水印(增值服务) |