《表1 建筑学常用网站分类》
目前与建筑相关的爬虫研究并不多。比如,房产信息研究者关注通过爬虫获取某地区房价及相关数据,借此分析房价趋势[1]。地理研究者借助爬虫提高获取地理国情房屋建筑专题数据的精度和效率[2]。规划研究者爬取多源数据并融合应用于城市规划研究[3]。大部分研究都是从数据研究员的视角出发,但从建筑学的专业需求出发解决网络爬虫问题的专项研究较少。参考有关建筑类网站建设的有关研究[4,5],总结建筑学常用网络资源如表1所示。建筑类网站分为3类:建筑档案类、公开数据类、素材收集类。也有整合资源的大型综合网站涵盖了上述3类,比如,筑龙学社(www.zhulong.com/)、建筑学院(www.archcollege.com/)和土木工程网(www.civilcn.com/)等。查看网站主页源代码可知,国内建筑学常用网站大多仍采用传统的HTML文档(Hyper Text Markup Language,超文本标记语言)编写。HTML指带有CSS(Cascading Style Sheets,层叠样式表)属性的文本,是专门用于描述网页的一种标记语言。HTML层级结构分明,所需下载的数据按上下级目录有序存储在网页源代码中。通过定位HTML文档的标记(Tag)或属性(class)可实现聚焦爬虫获取数据。
图表编号 | XD00219695600 严禁用于非法目的 |
---|---|
绘制时间 | 2020.11.28 |
作者 | 林汨圣、王扬 |
绘制单位 | 华南理工大学建筑学院、华南理工大学建筑学院、华南理工大学建筑设计研究院有限公司 |
更多格式 | 高清、无水印(增值服务) |