《表1 评论集的评论数量统计》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《突发事件评论集中的情报甄别方法初探》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

由于采集的评论本身数量不多，采集过程和研究思路形成过程重叠，因此本研究采用自动和手工采集相结合的方式。采集工具主要采用在基于Chromium内核的360急速浏览器中安装Web Scraper扩展（1）的方式来实现，基于爬取数据量及费用的考虑，采用本地爬取方式。结合网站的结构和特点，主要采集评论者、评论内容和评论楼层信息。其中评论者又根据网站提供的信息，采集了其中的身份、发文数、作者等级、作者积分等信息；评论内容则囊括了评论内容以及包括发信人、信区、发信站、时间、内容（可能包含引用）、发文工具、签名档、修改信息、来源及IP地址等；板块评论楼层信息主要用于后续的数据清洗和评论标识。导出数据格式为CSV，可以方便后续加工。3个话题评论统计如表1所示，大部分评论都是对原始评论的单开贴回复评论，少量是附在原始评论贴上的直接评论，两种评论主要是评论形式的差异，因此在分析时不做特别的区分处理。

图表编号	XD00168254700 严禁用于非法目的
绘制时间
作者	张运良、丁思媛、高雄
绘制单位	中国科学技术信息研究所、富媒体数字出版内容组织与知识服务重点实验室、中国科学技术信息研究所、富媒体数字出版内容组织与知识服务重点实验室、中国科学技术信息研究所、富媒体数字出版内容组织与知识服务重点实验室
更多格式	高清、无水印（增值服务）