《表1 舆情事件数据集统计》
本研究选择新浪微博中近期3个社会舆论反响强烈的敏感话题为研究对象,爬取收集性侵、疫苗和网贷3个热点事件下的文本、图片和视频数据,结果如表1.其中,文本表示博文的数量;图片表示博文中包含图片的数量;彩色文本表示包含有彩色文字图片的数量;歪斜文本表示包含有偏转角度文本图片的数量.由表1可见,歪斜文本和彩色文本占比不小,需要根据它们的特征进行适当的处理,才能取得理想的识别效果.
图表编号 | XD00124074100 严禁用于非法目的 |
---|---|
绘制时间 | 2020.01.30 |
作者 | 刘润奇、贺兴时、南夷非、王博 |
绘制单位 | 西安工程大学理学院、西安工程大学理学院、西安交通大学智能网络与网络安全教育部重点实验室、西安交通大学智能网络与网络安全教育部重点实验室 |
更多格式 | 高清、无水印(增值服务) |