《表5 抓取到网页数量:基于新闻信息抽取的人文社科非正式科学交流研究》
实验所使用的数据分为专家列表和新闻数据。本文从国家社科基金项目数据库中选择立项时间自2008-2017十年间承担过重大项目的1537位项目负责人作为专家。根据专家名单,采用必应自定义搜索(Bing Custom Search)API进行新闻获取。在获取时,将搜索限定在edu.cn和gov.cn域名下。然后为每个专家构建一个“姓名所属机构”检索式。对符合条件的网页进行抓取,并得出专家的人均网页数量(见表5)。
图表编号 | XD004197100 严禁用于非法目的 |
---|---|
绘制时间 | 2018.04.25 |
作者 | 王晓笛、李广建 |
绘制单位 | 北京大学信息管理系、北京大学信息管理系 |
更多格式 | 高清、无水印(增值服务) |