《表1 文献数据测试样本集》

《表1 文献数据测试样本集》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《科学合作网络姓名消歧问题研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

综合上述条件,构建了具有代表性的文献数据集。在万方数据中选取作者名为“李建军”、“李军”、“王琳”等7个名字,下载全文PDF格式数据845条。每个作者名代表了一类型的作者,如“李建军”代表的是重名作者较多的一类,本数据集中共包含该姓名的实际作者数为14,且包括了合著者文献和作者独著文献。“王伟”也是重名作者较多的一类,本数据集中共包含该姓名的实际作者数为9人,其中同属于大连理工大学的就有3人,其中的一个作者“王伟”同时在同济大学土木工程防灾国家重点实验室、上海岩石工程勘察设计研究院以及上海市闵行区建设工程安全质量监督站兼职,是一个作者属于多个机构的类型。“吴雁林”代表个性化的辨识度较高的重名较少作者名,本测试集中仅包含该姓名的实际作者数为3,三人文献数比较均衡。“张强”代表了少数作者包含较多文献,其余重名作者所占文献数较少的类型,本测试集中属于该姓名的实际作者数为10人,北京理工大学的张强老师的文献所占比例高达1/4,属于文献占比不均衡的一类。本研究构建的文献数据样本共标注了7个不同名字,分属于68个不同的作者,见表1。