《表1 主题数据：基于Scrapy和Solr的社交网络兴趣度分析原型系统》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于Scrapy和Solr的社交网络兴趣度分析原型系统》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

在使用爬虫时，可以使用“http://tieba.baidu.com/f?fr=ala0&kw=贴吧名称”作为种子URL对贴吧数据进行爬取。通过对DOM进行分析:在主题列表中，主题的大部分数据以JSON数据格式存放在每一行li标签的data-field属性中；在主题详细内容页面中，每一楼层的大部分数据以JSON数据格式存放在div标签的datafield属性中。如表1和表2所示，在Scrapy中可使用XPATH表达式从HTML源代码中提取出JSON并解析出数据供后期分析使用。用类似的方式也可以分析并提取出分页链接URL以获取更多数据。

图表编号	XD0015595900 严禁用于非法目的
绘制时间	2018.04.18
作者	顾韫琪、沈健、龚旻、秦韵淇
绘制单位	常熟理工学院计算机科学与工程学院、常熟理工学院信息化办公室、常熟理工学院计算机科学与工程学院、常熟理工学院计算机科学与工程学院
更多格式	高清、无水印（增值服务）