《表1 建筑学常用网站分类》

《表1 建筑学常用网站分类》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《建筑类网站聚焦爬虫策略研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

目前与建筑相关的爬虫研究并不多。比如,房产信息研究者关注通过爬虫获取某地区房价及相关数据,借此分析房价趋势[1]。地理研究者借助爬虫提高获取地理国情房屋建筑专题数据的精度和效率[2]。规划研究者爬取多源数据并融合应用于城市规划研究[3]。大部分研究都是从数据研究员的视角出发,但从建筑学的专业需求出发解决网络爬虫问题的专项研究较少。参考有关建筑类网站建设的有关研究[4,5],总结建筑学常用网络资源如表1所示。建筑类网站分为3类:建筑档案类、公开数据类、素材收集类。也有整合资源的大型综合网站涵盖了上述3类,比如,筑龙学社(www.zhulong.com/)、建筑学院(www.archcollege.com/)和土木工程网(www.civilcn.com/)等。查看网站主页源代码可知,国内建筑学常用网站大多仍采用传统的HTML文档(Hyper Text Markup Language,超文本标记语言)编写。HTML指带有CSS(Cascading Style Sheets,层叠样式表)属性的文本,是专门用于描述网页的一种标记语言。HTML层级结构分明,所需下载的数据按上下级目录有序存储在网页源代码中。通过定位HTML文档的标记(Tag)或属性(class)可实现聚焦爬虫获取数据。