《表3 常用科技资源数据来源列表》
a)全文获取方式中,“Full text link”表示资源提供了全文获取的链接,全文是否免费要看链接的形式,如谷歌学术资源链接到PDF文件时,往往能免费获取到全文.
按照科技数据获取方式的不同,本文将数据源划分为两类.第1类是通过制定符合法律规定的爬虫爬取机制(或商业合作)获取的科技数据,主要来源于商业性数据库、机构知识库、学术搜索系统、开放获取数据库、科研人员主页等.商业性数据库主要有国内的中国知网、万方数据、维普等,国外的Elsevier Sciencedirect数据库、ProQuest学位论文数据库等.对于机构知识库,主要包括中国科学院机构知识库网格15)、台湾学术机构典藏16)等.学术搜索引擎也是科技数据的重要来源,如百度学术搜索、谷歌学术搜索等,此类平台借助自身强大的搜索引擎技术优势,通过对各种方式获取的科技资源数据进行组织索引,是科技知识图谱重要的数据来源之一.另外arXiv作为开放数据获取的重要来源,提供科技文献全文的下载.第2类是直接提供数据集下载的开放性数据源.如DBLP,AMiner等,此类平台将相应科技资源的描述信息以结构化的数据方式提供文件下载.同时一些开放性数据源也为相应的学术研究提供了标准的实验数据集,用于相应的科学研究工作,如AMiner整理标注的数据集17)等.表3对目前常用的科技数据源进行了总结.
图表编号 | XD00168236100 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.20 |
作者 | 周园春、王卫军、乔子越、肖濛、杜一 |
绘制单位 | 中国科学院计算机网络信息中心、中国科学院大学、中国科学院计算机网络信息中心、中国科学院大学、中国科学院计算机网络信息中心、中国科学院大学、中国科学院计算机网络信息中心、中国科学院大学、中国科学院计算机网络信息中心、中国科学院大学 |
更多格式 | 高清、无水印(增值服务) |