《表1 贴吧名称及发帖数》
百度贴吧吸引了大量基于共同兴趣爱好的社会群体。自2003年12月份正式上线以来,百度贴吧的用户数目呈现出爆炸性增长,目前百度贴吧的活跃用户数已达3亿人,贴吧数目超过2 000万个,其中蕴藏的海量数据具有巨大的挖掘价值。本研究运用Python Scrapy爬虫框架采集百度贴吧中与艾滋病、男同性恋、新闻时事相关的最活跃的36个贴吧,贴吧名称及发帖数(主帖、评论贴及回复的总数)见表1。采集的数据内容包括贴吧信息、贴吧会员(贴吧关注者)信息和用户发帖信息,采集后的数据存入PostgreSQL数据库。贴吧信息包括贴吧名称、贴吧主页URL地址、贴吧话题类型、关注者人数(会员数目)、贴吧帖子总数、贴吧标语、贴吧所在目录以及该贴吧的友情贴吧名称。受百度防爬策略的约束,只能访问每个贴吧的前458页会员信息,即最新加入的前10 992个会员,共采集了270 229条会员数据,内容包括会员昵称、会员主页URL地址、会员关注的贴吧。本研究采集了截至2016年8月1日的36个贴吧的所有发帖信息,共6 316 158条。发帖信息包括帖子的标题、帖子所在主页的URL地址、帖子创建时间、帖子被回复数、帖子所属贴吧名、发帖人昵称、发帖人主页URL地址以及发帖人等级。为了避免“水军”“僵尸”等对分析结果的影响,在数据分析过程中对贴吧中的用户进行了筛选,主要去除了发帖数少于3的不活跃用户以及帖子长度少于3个字符的文本。
图表编号 | XD0016114200 严禁用于非法目的 |
---|---|
绘制时间 | 2018.09.15 |
作者 | 刘楚楚、吕欣 |
绘制单位 | 国防科技大学系统工程学院、国防科技大学系统工程学院、中南大学商学院、卡罗林斯卡研究所公共卫生科学系 |
更多格式 | 高清、无水印(增值服务) |