《表1 评论集的评论数量统计》
由于采集的评论本身数量不多,采集过程和研究思路形成过程重叠,因此本研究采用自动和手工采集相结合的方式。采集工具主要采用在基于Chromium内核的360急速浏览器中安装Web Scraper扩展(1)的方式来实现,基于爬取数据量及费用的考虑,采用本地爬取方式。结合网站的结构和特点,主要采集评论者、评论内容和评论楼层信息。其中评论者又根据网站提供的信息,采集了其中的身份、发文数、作者等级、作者积分等信息;评论内容则囊括了评论内容以及包括发信人、信区、发信站、时间、内容(可能包含引用)、发文工具、签名档、修改信息、来源及IP地址等;板块评论楼层信息主要用于后续的数据清洗和评论标识。导出数据格式为CSV,可以方便后续加工。3个话题评论统计如表1所示,大部分评论都是对原始评论的单开贴回复评论,少量是附在原始评论贴上的直接评论,两种评论主要是评论形式的差异,因此在分析时不做特别的区分处理。
图表编号 | XD00168254700 严禁用于非法目的 |
---|---|
绘制时间 | |
作者 | 张运良、丁思媛、高雄 |
绘制单位 | 中国科学技术信息研究所、富媒体数字出版内容组织与知识服务重点实验室、中国科学技术信息研究所、富媒体数字出版内容组织与知识服务重点实验室、中国科学技术信息研究所、富媒体数字出版内容组织与知识服务重点实验室 |
更多格式 | 高清、无水印(增值服务) |