《表1 评论集的评论数量统计》

《表1 评论集的评论数量统计》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《突发事件评论集中的情报甄别方法初探》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

由于采集的评论本身数量不多,采集过程和研究思路形成过程重叠,因此本研究采用自动和手工采集相结合的方式。采集工具主要采用在基于Chromium内核的360急速浏览器中安装Web Scraper扩展(1)的方式来实现,基于爬取数据量及费用的考虑,采用本地爬取方式。结合网站的结构和特点,主要采集评论者、评论内容和评论楼层信息。其中评论者又根据网站提供的信息,采集了其中的身份、发文数、作者等级、作者积分等信息;评论内容则囊括了评论内容以及包括发信人、信区、发信站、时间、内容(可能包含引用)、发文工具、签名档、修改信息、来源及IP地址等;板块评论楼层信息主要用于后续的数据清洗和评论标识。导出数据格式为CSV,可以方便后续加工。3个话题评论统计如表1所示,大部分评论都是对原始评论的单开贴回复评论,少量是附在原始评论贴上的直接评论,两种评论主要是评论形式的差异,因此在分析时不做特别的区分处理。