《表1 海洋战略研究所采集的起始网站列表》

《表1 海洋战略研究所采集的起始网站列表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度学习的主题资源监测采集功能实现研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

数据采集的基础信息来源是专业人员根据经验制定的情报机构,包括智库、权威机构组织、国外大学院系、政府部门等网站内容。本研究截取了海洋战略研究所指定采集的起始网站列表(见表1)。由表可知,主题爬虫采用的网页搜索策略为基于内容评价的搜索策略,利用文本相关度比较算法进行比较,分析网页内容和主题的相关度来进行爬取。爬取到与主题相关网页提取情报来源的名称、网址、正文等基础信息,作为主题监测的语料集。