《表1 自媒体平台采集文本数量汇总》

《表1 自媒体平台采集文本数量汇总》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于大数据的服饰风格影响分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

采集工具的选择遵循便捷化原则。数据需求来源广泛,不同平台的网页结构不尽相同,网页里还存在许多与篇章内容无关的元素比如广告图文,因此需要一款适合所有网页结构且能自定义对象数据位置的爬虫软件。本研究选用八爪鱼采集器对各大自媒体平台进行以主题词为中心的文本采集,针对不同网站设计自定义爬虫的采集模式:输入需要采集数据的网页网址,手动定义其中不同网址所需数据的网页X-Path,采集器自动识别和采集所有同类X-Path的数据。这种方法可以有效避免和减少数据噪音。本实验以“唐代服饰”为采集主题词,对采集来的结果再进行筛选去噪去重,最终采集结果如表1所示。