《表1 自媒体平台采集文本数量汇总》
采集工具的选择遵循便捷化原则。数据需求来源广泛,不同平台的网页结构不尽相同,网页里还存在许多与篇章内容无关的元素比如广告图文,因此需要一款适合所有网页结构且能自定义对象数据位置的爬虫软件。本研究选用八爪鱼采集器对各大自媒体平台进行以主题词为中心的文本采集,针对不同网站设计自定义爬虫的采集模式:输入需要采集数据的网页网址,手动定义其中不同网址所需数据的网页X-Path,采集器自动识别和采集所有同类X-Path的数据。这种方法可以有效避免和减少数据噪音。本实验以“唐代服饰”为采集主题词,对采集来的结果再进行筛选去噪去重,最终采集结果如表1所示。
图表编号 | XD00193942400 严禁用于非法目的 |
---|---|
绘制时间 | 2020.11.20 |
作者 | 刘艳婷、刘静伟 |
绘制单位 | 西安工程大学、西安工程大学 |
更多格式 | 高清、无水印(增值服务) |