《表2:数据提供方标注对应表》

《表2:数据提供方标注对应表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于C5.0决策树算法的开放数据的效用预测研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本研究选取贵阳市政府数据开放平台作为实验对象。据《2018中国地方政府数据开放报告》的评估结果显示,贵阳市在全国46个地方政府数据开放平台中名列地市级的第一名,平台建设较为成熟具有较好的实验价值[19]。数据的具体来源是贵阳市政府数据开放平台上截至2019年3月的截面数据,通过编写Python爬虫脚本对全平台数据条目的所属领域、提供方、上线时间、更新频率、下载格式、总浏览量和总下载量字段进行爬取。本研究初步爬取平台数据2075条,通过去除重复数据、含有缺失值的数据和表意不明的数据等数据清洗操作保留有效数据1961条。另对数据更新频率、下载格式等字段进行数值化处理。其中更新频率字段将原始记录的每年、每半年、每季度、每月分别对应量化为每年的更新次数,即1,2,4,12;一次性数据该字段设置为0。数据格式字段根据格式种类丰富度和易用性进行数值化处理,例如将仅含有CSV和XLS格式的标注为1,另外附加JSON,XML,RDF格式的标注为2。对于数据领域字段,将平台数据分属于的14个数据领域通过字母进行标注作为分类变量处理,标注对应关系如表1。对于数据提供方字段,将同类部门合并为共计18个部门使用字母标注作为分类变量处理,标注对应关系如表2。通过爬取时间与数据条目自身的上线时间的差值计算出数据上线月数。