《表1 贴吧名称及发帖数》

《表1 贴吧名称及发帖数》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于公开数据的特殊人群在线活动特征挖掘》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

百度贴吧吸引了大量基于共同兴趣爱好的社会群体。自2003年12月份正式上线以来,百度贴吧的用户数目呈现出爆炸性增长,目前百度贴吧的活跃用户数已达3亿人,贴吧数目超过2 000万个,其中蕴藏的海量数据具有巨大的挖掘价值。本研究运用Python Scrapy爬虫框架采集百度贴吧中与艾滋病、男同性恋、新闻时事相关的最活跃的36个贴吧,贴吧名称及发帖数(主帖、评论贴及回复的总数)见表1。采集的数据内容包括贴吧信息、贴吧会员(贴吧关注者)信息和用户发帖信息,采集后的数据存入PostgreSQL数据库。贴吧信息包括贴吧名称、贴吧主页URL地址、贴吧话题类型、关注者人数(会员数目)、贴吧帖子总数、贴吧标语、贴吧所在目录以及该贴吧的友情贴吧名称。受百度防爬策略的约束,只能访问每个贴吧的前458页会员信息,即最新加入的前10 992个会员,共采集了270 229条会员数据,内容包括会员昵称、会员主页URL地址、会员关注的贴吧。本研究采集了截至2016年8月1日的36个贴吧的所有发帖信息,共6 316 158条。发帖信息包括帖子的标题、帖子所在主页的URL地址、帖子创建时间、帖子被回复数、帖子所属贴吧名、发帖人昵称、发帖人主页URL地址以及发帖人等级。为了避免“水军”“僵尸”等对分析结果的影响,在数据分析过程中对贴吧中的用户进行了筛选,主要去除了发帖数少于3的不活跃用户以及帖子长度少于3个字符的文本。