《表1 海洋战略研究所采集的起始网站列表》
数据采集的基础信息来源是专业人员根据经验制定的情报机构,包括智库、权威机构组织、国外大学院系、政府部门等网站内容。本研究截取了海洋战略研究所指定采集的起始网站列表(见表1)。由表可知,主题爬虫采用的网页搜索策略为基于内容评价的搜索策略,利用文本相关度比较算法进行比较,分析网页内容和主题的相关度来进行爬取。爬取到与主题相关网页提取情报来源的名称、网址、正文等基础信息,作为主题监测的语料集。
图表编号 | XD0052167400 严禁用于非法目的 |
---|---|
绘制时间 | 2019.04.25 |
作者 | 刘艳民、张旺强、祝忠明、陈宏东 |
绘制单位 | 兰州大学图书馆、中国科学院兰州文献情报中心、中国科学院兰州文献情报中心、兰州大学图书馆 |
更多格式 | 高清、无水印(增值服务) |