《表1 论文不同章节标题特征词集示例》
本文选取2007—2016年PLoS ONE期刊发表的论文为研究对象,从WoS数据库检索并下载到168051篇含有DOI的论文。针对数据中存在的DOI缺失、残缺等情况,人工补充论文DOI 13927篇,修正论文DOI 234篇,剔除未能修正DOI的论文200篇,共得到具有完整DOI的论文181778篇。利用离线网站工具Offline Explorer从PLoS ONE期刊网站(http://journals.plos.org/plosone)批量下载论文的全文本信息。每篇论文数据均以XML的格式保存,最终共获取到181473篇论文的全文本信息(部分文献没有匹配上对应的全文本信息)。在下载的XML文件中,论文不同章节的标题出现在数据中的同一层级,这对于论文章节标题术语的抽取具有一定的便利性。本文基于第2.1节的划分论文章节和构建章节特征词集的方法,构建了181473篇论文的章节标题特征词集,如表1所示。需要注意的是,由于论文各章节标题的多样性,构建的标题特征词集不一定包含了全部论文的章节标题,因此需要剔除无法准确读取章节参考文献信息的论文数据。
图表编号 | XD00168284900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.05.24 |
作者 | 张琳、刘冬东、吕琦、孙蓓蓓、黄颖 |
绘制单位 | 华北水利水电大学管理与经济学院、武汉大学信息管理学院、鲁汶大学ECOOM研究中心、华北水利水电大学管理与经济学院、华北水利水电大学管理与经济学院、武汉大学信息管理学院、武汉大学信息管理学院、鲁汶大学ECOOM研究中心 |
更多格式 | 高清、无水印(增值服务) |