《表2 开放数据供给质量主要问题与表现概览》
在企业开放数据再利用实践中经常会遇到数据丢失、数据不准确、编码错误以及专有数据格式等现象。来自荷兰的调查发现,许多私营企业抱怨借助官方开放数据平台进行数据集搜索效果并不理想,耗时费力,无法获取需要的数据[4]。站在企业视角,数据集供给的主要问题有:第一,由数据自身的格式、结构与元数据等问题引发的数据内容难以获取。例如,大量数据以非标准化方式发布在门户网站,不仅在语义、标准、架构等方面存在很大的异质性,而且还将造成数据再利用的互操作困难。第二,由于平台、接口、语言等功能开发不充分和过于分散而导致的数据理解和使用困难。例如,一些门户网站只允许用户简单下载可用数据,提供给用户的搜索功能十分简单。同时,数据集供给的碎片化、低可用性以及数据颗粒度粗糙等都成为企业数据再利用的障碍因素,既需要从数据可用性、准确性、完整性、一致性、时效性、可访问性等方面全面改进数据开放质量,也需要数据发布者和再利用企业在数据收集、格式化和充分存储等方面进行金钱和劳动力等方面的高额投入(参见表2)。
图表编号 | XD0017234700 严禁用于非法目的 |
---|---|
绘制时间 | 2018.08.10 |
作者 | 夏义堃 |
绘制单位 | 武汉大学信息资源研究中心 |
更多格式 | 高清、无水印(增值服务) |