前所未有的个人和组织正在寻找探索、解释和使用开放数据的方法。公共机构正在举办开放数据活动,如聚会、黑客马拉松和数据探索。这些举措的潜力巨大,包括支持经济发展(麦肯锡,2013 年)、反腐败(欧洲公共部门信息平台,2014 年)和问责制(开放政府伙伴关系,2012 年)。但开放数据的全部潜力是否得到了充分发挥?

《计算机周刊》的一 则新闻 提出了质疑。最近的一份报告指出,在英国,数据质量差阻碍了政府的开放数据计划。该报告进一步解释说,为了使公共部门更加透明和负责,英国公共机构自 2010 年 11 月以来每月都会发布支出记录。该报告的作者对内阁办公室自 2010 年 5 月以来发布的 50 份与支出相关的数据进行了分析,发现这些数据质量非常差,使用这些数据需要高级计算机技能。

研究表明,这个问题并非一次性问题,而是普遍存在的。一些估计表明,分析项目 80% 的时间和成本都与清理“脏数据”有关(Dasu 和 Johnson,2003 年)。

除了数据质量问题,数据来源也很难确定。了解数据的来源以及披露方式是信任数据的关键。如果最终用户不信任数据,他们不太可能相信他们可以依靠这些信息进行问责。建立数据来源并非“宙斯的头脑中突然冒出来的”。它需要付出大量努力,例如用元数据(关于数据的数据)丰富数据,例如创建日期、数据创建者、谁在一段时间内有权访问数据,并确保数据和元数据都保持不变。

同样,如果人们认为数据可能被篡改,他们就不太可能信任它;对数据的全面理解依赖于追踪其来源的能力。如果不了解数据的来源,就很难解释数据创建者可能认为理所当然的术语、缩写和度量的含义,但随着时间的推移,这些含义会变得更加难以解读。

最后一个问题是缺乏对数据保存和管理需求的考虑。这也可能会阻碍开放数据优势的充分实现,正如世界银行自己的一次数据挖掘活动中的一位参与者的评论所证明的那样:“最大的问题……是数据管理……[组织]认为数据的结构才是赋予其价值的因素。但实际上……我所说的数据管理……没有档案……”(Sonuparlak,2013 年)。

数据质量低下、缺乏数据来源信息和数据管理问题都是实施开放数据计划的常见障碍。如果这是英国和其他发达国家面临的问题,那么对于世界银行(通常是发展中国家)的客户国来说,这个问题会严重到什么程度呢?

尽管许多公共部门相关的开放数据源自官方政府记录,但在许多国家,甚至连基本的记录管理控制都缺失,尤其是在数字环境中。如果没有这些控制,记录很可能是不完整的、难以找到的、难以验证的;即使有,它们也很容易被操纵、删除、碎片化或丢失。记录保存不善,导致数据不准确或不完整,可能导致:

信息的误解和误用;
掩盖欺诈行为;
调查结果和统计数据存在偏差;以及
错误的政策建议和错误的资金投入。
所有这些问题导致我们错失了最大限度发挥开放数据全部价值的机会。

那么,解决方案是什么?在创建或使用质量较差的数据后修复数据成本高昂,而且对于历史数据,由于技术变化或缺乏文档,通常甚至不可能修复。有证据表明,设计能够产生高质量数据的控件是一种更好的策略;也就是说,最好通过设计获得良好的开放 数据。

世界银行的 开放数据准备情况评估工具 可帮助客户国从多个维度确定其是否已为开放数据做好准备,其中特别包括两个维度:

政府内部的机构结构、职责和技能
政府内部数据
机构结构、职责和技能(或可称为 信息治理 )非常重要,因为“开放数据要求机构通过透明、有组织的数据收集、安全、质量控制和发布流程来管理其数据资产。为了有效地履行这些职责,机构需要拥有(或开发)明确的数据管理业务流程,以及拥有足够的 ICT 技能和对数据(例如格式、元数据、API、数据库)的技术理解的员工”(ODRA,2014 年)。

政府内部的数据同样至关重要,因为它建立在“政府内部现有的数字数据源和信息管理程序之上……政府内部现有的良好信息管理实践可以更容易地查找数据并关联元数据和文档,确定业务所有权,评估需要做什么才能将其作为开放数据发布,并建立流程,使数据发布成为日常信息管理的可持续、照常的下游过程”(ODRA,2014)。

设计政府内部的机构结构、职责和技能以生成优质数据意味着指定一个具有足够政治影响力的实体来协调整个政府的开放数据事务。这还需要确保实施开放数据政策,并有一个机构或部门负责信息管理——无论信息的形式如何(即纸质或数字)。关于政府内部的数据,良好的设计包括全面的数据持有清单;一致的信息管理政策和标准,并在整个政府范围内一致执行;以及纸质记录的数字化过程,以及维持长期数字记录存储库的基础设施和流程。 国际标准 为其他良好做法指明了方向。

虽然所有这些设计特征都有助于产生良好的开放数据,但人们仍然缺乏对良好开放数据的先决条件和促成因素的了解,以及如何在世界银行客户国的背景下最好地实施这些举措的挑战。产生良好数据的条件需要更深入的研究,作为设计框架的基础,例如,可以将其纳入扩展的开放数据准备就绪评估工具中。只有有了这种理解,才有可能通过设计实现良好的开放数据,然后真正实现开放数据对发展的益处。