公共数据应用面临的合规、安全及质量三大挑战

国内配套的开放制度却尚未建立,这也导致公共数据开放缺乏安全可行的规则指引,数据安全和个人信息保护成为悬在各地政府头上的达摩克利斯之剑,在客观上限制了公共数据的开放。

公共数据应用面临的合规、安全及质量三大挑战
出处:北京金融科技产业联盟

《万字详解我国公共数据开放运营的现状和模式》这一篇我们已了解,加快公共数据开发开放是数据要素化的基础和前提,不仅能为人工智能大模型等数据技术创新提供语料数据和应用场景,而且也是公共数据资产价值实现的前提。

公共数据作为社会数据资源的重要组成部分,具有高权威性、高准确率、高可信度,在金融服务、医疗健康、城市治理等场景中具有极高的价值和市场需求,其开放利用已成为国际上备受瞩目的数据治理新方向。公共数据价值释放既是推动经济发展、完善社会治理、提升政府服务和监管能力的需要,也是数字经济全球竞争背景下增强国家竞争力的重要抓手。

中国政府积极推进公共数据开放应用,着力提升公共数据治理水平,在政策制定、平台系统建设、数据共享开放、数据开发应用等方面开展大量实践并取得积极进展。在发展层面,国内配套的开放制度却尚未建立,这也导致公共数据开放缺乏安全可行的规则指引,数据安全和个人信息保护成为悬在各地政府头上的达摩克利斯之剑,在客观上限制了公共数据的开放。

一、公共数据的概念和分类

结合我国数据要素流通政策趋势,公共数据是指由国家机关、法律法规授权的具有管理公共事务职能或者提供公共服务的各级行政机关、企事业单位、社会团体等组织,在履行公共管理职责或者提供公共服务过程中,收集、产生的涉及公共利益的各类数据。其中涉及的主体包括国家机关、企事业单位、经依法授权具有管理公共事务职能的企事业单位、社会团体,以及供水、供电、供气、公共 交通等提供公共服务的部门。

按照公共数据的共享开放程度进行分类,公共数据可以分为无限制使用的数据、授权使用的数据和禁止使用的数据。无限制使用的数据又称无条件共享类数据或普遍公开的数据,是指任何组织和个人都可以基于公共数据的使用目标不受限制地获取和使用的公共数据。授权使用的公共数据又称有条件共享类数据或受限开放的数据,是指数据内容较为敏感,对开放主体、开放流 程有要求或限制的数据类型。禁止使用的数据是指不予共享开放的数据。

从公共数据来源主体看,公共数据主要包含五种类型:

  • 一类是政务数据,即政务部门依法履职过程中采集、获取的数据;
  • 二类是具有公共职能的公共企事业单位,在提供公共服务和公共管理过程中产生、收集、掌握的各类数据资源,如教育医疗数据、水电煤气数据、交通通信数据、民航铁路数据等;
  • 三类是由政府资金资助的专业组织在公共利益领域内收集、获取的具有公共价值的数据,如基础科学研究的数据;
  • 四类是具有公共管理和服务性质的社会团体掌握的与重大公共利益关切的数据;
  • 五类是涉及公共服务领域的其他数据来源,如其他社会组织和个人利用公共资源或公共权力,在提供公共服务过程中收集、产生的涉及公共利益的数据。

根据公共数据的数据类型来划分,则分为:自然人类公共数据、法人类公共数据、信用类公共数据、自然地理类公共数据、 感知类公共数据、统计类公共数据等。

  • 自然人类公共数据:主要来源于公安、民政、人力社保等部门,规定了公共数据中的自然人基本信息、资产信息、社会活动、荣誉资质、涉事涉法等类数据的定义与属性,具体包括姓名、民族、证件号码、婚姻状况、文化程度、从业状况等公共数据元;
  • 法人类公共数据:主要来源于市场监管、发改、经信等部门, 规定了公共数据中的法人基本信息、资本与资产、许可、资质与荣誉、纳税、参保与缴费、生产经营、行政执法、司法信息、信用评价等类数据的定义与属性,具体包括统一社会信用代码、法人名称、住所、营业收入、许可编号、资质等级等公共数据元;
  • 信用类公共数据:主要来源于发改、市场监管、财政等部门,规定了公共数据中的自然人信用信息、企业信用信息、社会组织信用信息、事业单位信用信息、政府机构信用信息、特征人群及领域信用信息等类数据的定义与属性,具体包括荣誉类型、评价 等级、舆情内容、列入经营异常名录原因、行政处罚决定书文号、司法案件案号等公共数据元;
  • 自然地理类公共数据:主要来源于自然资源、生态环境、气象等部门,规定了公共数据中的基础地理信息、地质信息、土地信息、覆被信息、海洋信息、生态环境信息、气象灾害信息等类数据的定义与属性,具体包括联系地址、经度、纬度、空间坐标系、地面分辨率、地理标识符、气温、场所用途等数据元;
  • 感知类公共数据:主要来源于建设、公安等部门,规定了公共数据中的感知采集信息、感知设备信息等类数据的定义与属性,具体包括感知对象、数据传送方式、数据摘要、设备参数、技术特征信息等数据元;
  • 统计类公共数据:主要来源于统计、经信等部门,规定了公 共数据中的统计指标信息、统计制度信息、统计目录信息、统计报表信息等类数据的定义与属性,具体包括指标名称、指标编码、 统计周期、统计时间、指标数据值、统计层级、统计模型等数据元。

二、公共数据的合法合规

一是公共数据的识别与判定不清晰。虽然现阶段公共数据尤其是政务数据在概念上得到初步定义和区别,但是在识别范围上仍然存在一定模糊、难以区分的情况。现阶段政务数据在对外开放或授权运营过程中缺少上位法依据,数据供方在共享开放政务数据时存在一定合规风险,数据需方在获取与使用数据时也会面临一定的困境。

二是数据确权难,安全责任模糊。在公共数据应用与流通的场景下,数据来源也变得越来越多样化和复杂化,数据所有权与使用权分离致使安全责任模糊。公共数据作为特殊资产,其所有权和控制权的分离会导致在数据共享和交换过程中面临无法满足安全共享和开发的难题,一旦数据离开组织通过共享、交换等途径,其跟踪和溯源将变得困难。目前,尚未针对数据权属问题颁布相关的法律法规,因此作为数据使用者的组织需要落实数据管理义务,这是一个难点所在。此外,作为数据所有者的组织在 数据共享和交换过程中将面临技术防护的“盲区”问题,需要采取相应的技术手段弥补安全漏洞。

三是如何规范公共数据合法合规利用问题。企业对公共数据进行加工、使用、发布信息时,存在因为公共数据的公共属性而放弃履行其保护义务的合规风险。过程中,数据运营商应当与相关部门协商出协议机制,一方面对授权主体进行背景资质审查,确保授权主体的历史运营背景、数据安全资质、经营风险、外资风险等内容;另一方面应当通过协议表明该数据处理活动是基于当地政策安排和当地行政机构,约束授权主体身份、数据范围、数据处理目的等内容,明确各方在公共数据处理活动中的保护义务,对于重大负面敏感数据应履行更高的保护义务。

三、公共数据的安全保护

各参与主体应当以合法合规为基础,做好公共数据应用全生命周期场景下的安全保护,预防公共数据在应用与流转过程中因保护不当引发的数据泄露、破坏、窃取、滥用等安全事件。在公共数据安全保护方面当前面临的主要问题与挑战主要来自于如 下几个方面。

1. 缺乏体系化顶层设计,各环节零散

随着国家加快培育数据要素市场的决策部署,数据资产作为重要的生产要素,蕴藏着巨大的商业价值,在数字经济时代帮助企业在经济活动中释放价值,通过数据的流通,实现业务间的贯通,以及多源的数据在新的场景中应用,使各行业在经营、服务和治理等环节的决策更智能与精准,伴随这个过程,各组织如何在安全前提下有序推动公共数据流转和应用的问题尚处于探索阶段,未形成统一的标准与共识。网络安全防护体系的管理对象流动性较弱且管控颗粒度可控,可通过各类管理技术手段实时掌 控管理对象和管控现状,可以保证安全管理的覆盖度。

数据安全防护体系的管理对象具有极强的流动性且管控颗粒度极为细致,企业无法掌握全部数据资产,只能采用重点保护的方式明确管理场景,无法保证数据安全管理措施的覆盖率。公共数据的安全治理需要多主体多角色协作,区别于传统网络安全管理,数据安全可能会涉及法律、合规、业务、技术、人力等部门共同开展工作,因此组织需要建立可协调内外部多方资源的工作协调机制和管理体系。

公共数据流转和应用方式众多,数据接收方安全防护情况不可控,一旦数据脱离了组织环境,组织就不再能够通过技术手段保证自身数据安全,若发生安全问题,难以确定安全责任人,因此,建立一套可适用于不同数据共享开放需求、数据接收方的数据交换技术保护体系是各行业各组织的工作难点。

2. 保护过程繁琐,各环节实施细则待完善

首先,公共数据分类分级难以实施。有效的数据分类分级实施方案是确保公共数据使用范围合规、以及落实各类公共数据使用场景下的精细化安全保护的基础。虽然《网络安全法》、《数据安全法》和《个人信息保护法》在宏观层面上提出了数据分类分级的要求,但它们在具体规定方面比较简略。各地区目前也在探索公共数据分类分级的标准规范,但各参与主体需要自行根据相关法律规定,结合实际情况,制定具体的数据分类和分级方案,以确保公共数据保护的合规性。

公共数据范围涉及信用服务、医疗卫生、社保就业、公共安全、城建住房、交通运输、教育文化、科技创新、资源能源、生态环境、工业农业、商贸流通、财税金融、安全生产、市场监督、社会救助、法律服务、生活服务、气象服务、地理空间、机构团体、人民防空、应急管理等众多行业领域,现阶段部分行业已有数据分类分级规范,其相互之间如何衔接,如何避免冲突,如何体系化的构建构建全局公共数据分类分级规范机制,是需要持续研究和探索的重要任务。

在实践落地层面,随着各企业或组织网络化、信息化和智能化水平的不断提高,业务系统的数据日渐庞大,一方面由于公共数据分类分级的行业和企业属性较强,目前国家和行业配套的标准体系仍在制定或征求意见的过程中,细则不完善,不足以支撑落地数据分类分级工作的全行业落地;另一方面,很多未发布行业数据分类分级标准的企业担心自发的数据分类分级建设不符合后期发布的标准和要求,需要重新调整,抑制了各单位落地数据分类分级工作的积极性。

其次,公共数据安全风险评估实践过程困境重重。公共数据的应用涉及多元化的各类主体角色和复杂的使用场景,其面临的数据安全风险也在不断加大。现阶段实施数据安全风险评估的困境主要来自于如下方面。

一是数据安全风险评估标准尚不完善,评估实践缺乏可落地的方法论支撑。传统的信息安全风险评估主要是面向网络环境下的数据安全载体资产,基于某个标准作为基准来设置评估项,展开相对静态、固化的风险评估,而数据资产具备流动性,会在不同的载体和场景环境下流动,且其资产价值也依据量级、周期性等因素动态发生变化,因此传统的信息安全风险评估无法顺应数据流动过程中不同环境、不同目标下的安全评估要求。

二是,公共数据的应用模式和场景复杂。数据安全风险评估是一个定制化的过程,其核心是基于业务场景展开评估,传统的风评模板难以适用于不同行业和业务场景中的风险评估,因为其评估侧重点和评估流程都不同。在制定评估流程和检查项时,需要结合业务场景的具体特点,包括公共数据的敏感性、涉密性、完整性等方面进行考虑,同时还需要考虑到数据的生命周期管理、数据安全保障、应急响应机制等方面。

3. 保护技术需要加速迭代

数据要素市场背景下于对公共数据应用需求在不断地更新迭代,包括新技术的应用,新场景的建立,也都会带来新的威胁。数据安全技术起步较晚,碎片化严重,大部分技术尚不成熟,距离大规模落地应用仍有差距。公共数据在共享开放过程中新场景、新领域、新模式不断涌现,需要新型的数据安全技术产品提供支撑和保障。

4. 缺乏数据安全专业人才

随着数字经济的飞速发展,数据安全的人才培养与人才队伍建设也已经上升到了国家战略层面。现阶段,我国网络及数据安全人才的培育力度、人才的输出数量和质量与迅猛增长的人才市场需求还存在一定的差距,人才需求与供给的失衡,导致大多数组织缺乏数据安全专业人才,以及一线人员缺乏数据安全意识。

从决策层到技术层,从业务部门到 IT 部门,再到合规部门,从管理制度到技术支撑,数据安全人才需求贯穿企业各个部门,数据安全工作呈现出了高度的复合性,对数据安全领域下各从业人员提出了更高的要求。在专业知识方面,要求从业人员将业务知识、合规知识和安全知识融会贯通。在实践经验方面,新技术新场景带来的新威胁、数据安全产品与技术的不断迭代、数据安全保护与业务发展的紧密结合,使得工程和实践经验成为用人单位选才的重要标准。

四、公共数据的质量保障

1. 公共数据质量要求

公共数据质量是指公共领域中所使用的数据的规范度、准确 性、完整性、一致性和时效性等方面的特征。涉及到数据的来源、收集、处理、存储和传输过程中的各种因素和环节,以确保数据 能够有效地支持决策制定、政策实施、研究分析和公众信息需求 的满足。衡量公共数据质量的维度包括:

  • 规范性:公共数据应符合数据标准、数据模型、业务规则等程度。
  • 准确性:公共数据应遵循数据标准及规范的要求,正确描述实际信息,数据记录的信息不存在异常或错误。
  • 完整性:公共数据应全面、完整、无缺失,覆盖各项业务和管理数据。
  • 一致性:公共数据与共享交换平台中的数据或不同公共数据提供单位所提供的同类数据之前无矛盾程度。
  • 时效性:开放数据及时有效的程度。

2. 公共数据质量挑战

数据质量管理范围未界定。公共数据作为一种数据的特定类型,是由多种社会主体产生的,在数据终端上以多种数据格式进行储存,导致公共数据在其规范性方面存在原生性的不足。其管理范围在金融行业缺乏统一规范,没有明确定义管理和维护公共数据质量的界限。在其采集阶段易出现完整性方面的问题。部分公共服务机构在采集数据时的流程不规范,导致数据录入不完整或关键数据丢失等数据完整性问题,依靠不完整的公共数据无法分析得出全面的社会或经济发展信息,影响数据结果的全面性。其缺乏明确数据质量检测规则致使错误数据的决策,从而影响业务流程和战略计划。

数据质量控制不明确。公共数据来源复杂,来自不同部门、系统和渠道,采集、处理和使用时通过的数据流程过多,公共数据的处理和储存周期过长,且存在对同样数据的差异化解释,阻碍了公共数据的信息一致化进程,导致数据应用时的信息混乱,出现部分公共数据存在数据错误等数据准确性方面的问题,直接影响数据应用结果的准确性。实现数据生命周期各阶段的质量控制要求对于管控难度高,需要覆盖采集、传输、存储、处理、使用、退役等过程,形成闭环的数据质量控制。没有数据标准及规范进行设计开发,数据在产品或系统中可能无法满足外部监管和 业务管理的需要。

数据质量检测不统一。公共数据难以有效利用的关键是无法在多区域、多部门间建立统一监控机制。当前公共数据生态系统复杂,包含多系统、多平台、多来源,同时数据结构各异。难以形成全方位覆盖。考虑到数据项的重要程度和更新频率,部分应用场景需要实时质量检测,无法满足监测方式准确的同时一旦发现数据质量问题,迅速确定根本原因并采取解决措施。最后,不断变化的公共数据业务需求导致现有数据质量监控规则难以满足后期检测要求。规则的复杂性和变化性使得原有规则无法适应不同场景,需要及时调整和优化检核规则以适应多变的业务环境。

数据质量体系不健全。在组织保障方面,数据质量事宜需要获得足够的资源和支持。责任分工模糊不清,缺乏明确的数据质量负责人,导致问题处理时的拖延和混乱。此外,对数据质量重要性的培训和意识不足,影响了组织成员对数据质量的认知和积极参与。

在制度方面缺乏明确的数据质量标准和指南,导致不同部门在数据质量要求上存在差异,从而影响数据的一致性和可信度。其次,数据质量评估机制不完善,缺乏定期的检查和验证,使得潜在的质量问题难以及时发现和解决。

本文摘编自北京金融科技产业联盟发布的《公共数据在金融领域规范应用研究》第二版。

在文末扫码关注官方微信公众号“idtzed”,回复“入”直通数治x金融服务行业群,@老邪 免费获取。

在此声明以上观点和内容,仅代表原作者和出处,与数治网DTZed 无关,如有出错或侵犯到相关合法权益,请通过电邮与我们联系:cs@dtzed.com。

欢迎先注册登录后即可下载检索公共数据等相关标准、白皮书、报告。更多高质量纯净资料下载,进入公众号菜单“治库”。