基于联邦学习的政府数据授权运营 让政务应用价值与安全兼顾

结合电力、个人与企业信贷以及医疗服务三个实际情景,呈现出基于联邦学习的政府数据授权运营模式达成公共数据资源开发利用目标的过程。

政务应用-头图
出处:电子政务

如何在公共数据资源的开发利用中兼顾价值共创与数据安全,是我国政府数据开放事业始终面临的一大挑战。在国家“十四五”规划提出“开展政府数据授权运营试点”这一政策背景下,构建基于联邦学习技术的政府数据授权运营模式,有望解决上述问题。首先分析了基于传统API技术构建政府数据授权运营模式的局限性,进而提出利用联邦学习技术来建构政府数据授权运营新模式,并对该模式中主要参与主体、模式运作的过程逻辑以及政社主体间的新关系做了详细解析,论证了联邦学习技术与政府数据授权运营的适配性。随后,从横向联邦学习、纵向联邦学习、联邦迁移学习三种技术路径出发,分别结合电力供给与配置、个人与企业信贷评估以及医疗服务三个实际情景,呈现出基于联邦学习的政府数据授权运营模式在不同情景下达成公共数据资源开发利用目标的过程。基于联邦学习的政府数据授权运营新模式有着兼顾价值共创与数据安全的显著优势,同时也为政府数据运营机构乃至政府本身的技术与管理能力提出了新的要求。

一、引言:如何开展政府数据授权运营

激活数据要素潜能,更大程度地释放公共数据资源所蕴含的经济社会价值,是发展数字经济、数字政府和数字社会的重要目标之一[1,2]。为实现上述目标,政府数据开放工作从2015年起被纳入国家战略规划中,并在2020年被《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》进一步确立为“加快培育数据要素市场”的首要措施。本质上讲,政府数据开放是政府与社会围绕公共数据资源进行价值共创的过程。已有学者指出,政府数据开放的内核是合作治理,即以跨部门协同的方式实现经济社会价值的合作生产[3,4]。通过政府开放公共数据资源、社会主体对公共数据资源进行开发利用这一协作形式,新的知识乃至产品、服务被创造出来,最终形成一种价值共创的生态[5]。

不过,当前政府数据开放的主要运作模式——即无门槛、非定向地向全社会开放原始公共数据资源——带来了泄露国家机密与隐私信息、威胁国家安全等潜在风险,这些风险在近年也开始得到学术界的关注。学者们发现:一方面,政府工作人员可能在数据开放过程中,因主观故意或过失行为而对外泄露了国家机密[6];另一方面,即使政府开放的公共数据资源并不属于国家机密,但由于公共数据本身的独特性以及其与自然人、法人的高度关联性,不法分子有可能将这些公共数据与其他数据进行关联分析,从而导致国家机密或个人隐私的泄露[7]。因此,有研究就提出,应当重新思考政府数据开放的运作方式,在无门槛、非定向开放公共数据资源的方式之外探索新的政府数据开放形式,保证社会主体以合法、恰当的方式开发公共数据,限制不合适的数据获取与利用行为,降低政府数据开放风险的发生概率[8]。

于是,政府数据授权运营作为数据开放的一种新形式应运而生。2021年,国家“十四五”规划为鼓励第三方深化对公共数据的挖掘利用,在“加强公共数据开放共享”条目下提出“开展政府数据授权运营试点”。这为政府数据开放领域确立了一个新的研究与实践议题。

尽管目前学术界和实践界还在探索政府数据授权运营的概念内涵与运作方式,但已经形成了几点共识性的认知:第一,“授权”会贯穿政府数据授权运营全过程,即由政府授权一个特定组织(下文称政府数据运营机构)来运营公共数据资源,其他社会主体须向政府授权的这个数据运营机构来获取公共数据资源使用权[9]168;第二,为兼顾价值共创与数据安全,政府数据授权运营模式下的公共数据开发利用活动会受到更强的监管,甚至接受政府的全程监管[10,11];第三,企业、个人等各类社会主体将主要以“可用不可得”的方式利用政府开放的公共数据资源[9]170。不过,对政府数据授权运营模式的理论探讨目前主要还停留在宏观层面,有待向更微观、更实操的层面推进。

将抽象的宏观政策规划转化为有效的微观政策执行,始终是公共管理学界的重要任务[12]。那么,在国家宏观政策的指导下,如何构建一种微观可操作的政府数据授权运营模式?现有的“可用不可得”技术能否支撑政府数据授权运营工作的开展?这些研究问题还缺乏相关理论研究的探讨。本文即尝试为上述问题提供一个解答。首先,本文将分析基于传统应用程序编程接口(API)技术构建的政府数据授权运营模式存在何种局限性;其次,本文将从“联邦学习”这一新兴的隐私计算技术出发,建构基于联邦学习的政府数据授权运营模式,并结合政府数据授权运营的潜在发生场景,解释其价值共创过程,从而增进对政府数据授权运营的理论知识积累。

二、基于传统API技术的政府数据授权运营及其局限性

在政府数据授权运营活动中,政府或者政府授权的公共数据资源运营机构一般会要求社会主体以“可用不可得”的方式开发利用公共数据资源。API(Application Programming Interface,应用程序编程接口)技术是这一运作模式下的传统技术选择。

API技术是提供软件组件和服务的编程接口,能够帮助用户获取已有的数据、服务或程序组件,使其更为快速和高效地构建程序产品[13]。这种功能可以帮助政府数据运营机构对外提供数据服务。该机构可以通过开放API接口来向企业、社会组织、社会公众提供公共数据资源,从而满足这些社会主体的数据需求[14]。特别对于政府数据授权运营而言,API接口可要求社会主体在调用服务或获取数据时,必须持有政府认可的个人唯一标识码(Key),从而实现了“授权”贯穿数据开放与流通全过程,支撑更有力的政府监管(参见图1)。

在政府数据授权运营中运用API技术,能够衍生出“可用不可见”和“可见不可得”两种运作模式。“可用不可见”是指社会主体不直接获取原始的公共数据资源,而是调用政府数据开放平台提供的程序功能,直接获得分析结果或服务。在这种模式下,API接口是平台为政府外部的开发者提供的服务访问接口,通过API接口,程序开发者可直接调用平台已有的程序功能为己所用,不需要了解数据的具体内容[15]。“可见不可得”是指社会主体能够了解公共数据资源的基本内容和结构,并且得到处理后的信息或者少部分原始数据,但无法得到全部的原始数据集,避免更多机密信息的泄露。在这种模式下,社会主体调用API接口获取的是格式转化与处理后的小部分数据[16]。

不过,API接口作为一种传统技术应用于政府数据授权运营,存在一定的局限性。一方面,对“可用不可见”模式而言,社会主体对公共数据资源的开发利用严重受限于平台所能提供的程序功能。政府数据授权运营平台提供的程序功能总是有限的,不可能满足社会主体的所有需求。当需求与功能不匹配时,社会主体在这种情况下缺乏拓展相关功能的机会,变得无计可施。

另一方面,对“可见不可得”模式而言,如果社会主体从API接口获得的是处理后的信息,这些主体依然有机会按照“逆向工程”逻辑反推原始数据全集。政府为避免这种“逆向工程”而对原始数据进行深度处理,又会极大削弱数据的二次开发利用价值。如果社会主体从API接口获得的是一小部分原始数据集,那么该主体可通过“少量多次”的方式获取原始数据资源的全集,使API技术丧失“可见不可得”功能,无法起到维护数据安全、减少风险发生的应有作用。这种情形下,政府只能限制社会主体的数据获取次数与总规模,这种限制同样不利于公共数据资源价值的充分释放。

因此,如要更有效、更安全地开展政府数据授权运营活动,更好地释放公共数据资源所蕴含的价值,就需要选择新技术工具,建构一套新的政府数据授权运营模式。

三、基于联邦学习的政府数据授权运营模式:结构与逻辑

政府数据授权运营的核心原则,是在保障数据安全以及原始数据(特别是涉密、涉及隐私的数据)不外流的前提下,融合政府主体掌握的数据资源与社会主体掌握的数据开发能力,实现多元主体共同参与下的价值共创。相比具有显著局限性的API技术,作为隐私计算(privacy computing)形式之一的联邦学习(federated learning)技术有望兼顾政府与社会的价值共创与数据安全需求,支撑起一套完整的政府数据授权运营新运作模式。

(一)联邦学习技术简述

联邦学习是分布式机器学习技术的一种特殊形式。这一技术可让包括政府在内的多个数据所有者在不暴露自身数据的前提下,共同协作完成模型训练任务。联邦学习用模型参数的传输和更新替代了数据的对外共享,在此基础上实现多主体合作开发全局模型并加以利用[17]。联邦学习技术具备两个核心优势,表现在:

第一,联邦学习技术允许多主体携各自的数据资源共同参与数据开发利用活动。联邦学习技术继承了分布式机器学习的特征,允许拥有不同数据资源的多个节点共同执行同一个机器学习任务,各个节点独立训练数据并获得模型参数后,上传至中心节点,由中心节点完成参数整合和模型分发[18]。这一技术突破了数据资源开发利用需要在一台服务器汇聚全部数据的传统方法限制,为政府数据授权运营提供了更为便捷的技术条件[19]。

第二,联邦学习技术可实现数据在“可用不可得”基础上的开发利用,有利于规避原始数据在流动过程中面临的风险,保护隐私信息和数据安全。借助联邦学习技术,每个参与者掌握的原始数据在数据开发过程中都不对外传输,而是保留在本地[20]。这就实现了真正的数据“可用不可得”,降低隐私与涉密信息的泄露风险,更加匹配政府数据授权运营的工作要求[21]。

(二)基于联邦学习技术的政府数据授权运营模式架构

结合政府数据授权运营的内在逻辑及联邦学习技术的功能属性,提出建构一种基于联邦学习技术的政府数据授权运营模式。图2说明了政府数据授权运营工作参与主体的角色及功能定位,图3则说明了基于联邦学习的政府数据授权运营模式运作过程。

⒈政府数据授权运营模式中的主要参与主体

如图2所示,政府数据授权运营工作主要有政府职能部门、大数据中心(大数据局)、政府数据运营机构、政府数据使用方等四类主体共同参与。

第一类主体是政府职能部门,即政府数据的法定持有者与供给主体。这一主体在依法履行职责过程中制作、获取、生成、保存政府数据,并为政府数据授权运营提供高质量的数据集资源,同时承担一定的政府数据管理责任,保护数据安全。在政府数据授权运营过程中,政府职能部门有着一系列工作职责。第一,在源头上保障政府数据安全。政府职能部门需要在制作、获取、生成和保存政府数据过程中采用数据加密、数据脱敏等方法减少原始数据内的敏感信息内容。第二,定期维护及更新政府数据,特别对具有较高利用率和利用价值的政府数据提升更新速度。第三,提升政府数据的质量和价值。政府职能部门应努力提升数据完整性和种类丰富性,为政府数据授权运营工作提供更多、更好的数据集资源。

第二类主体是政府内部的大数据中心(大数据局)。大数据中心(大数据局)是政府数据授权运营工作的统筹管理机构,依法承担政府数据的集中统一管理责任。大数据中心(大数据局)与政府职能部门协同管理政府数据,双方共同将政府数据的市场化运营权授权给一个具体的政府数据运营机构。在宏观层面,大数据中心(大数据局)是政府数据授权运营中极为重要的统筹管理者。表1展示了大数据中心(大数据局)在政府授权运营工作中角色与功能定位,包括了运营制度设计者、数据协同管理者、授权运营管理者、运营过程监管者、运营问题协调者、数据安全保障者,其具体功能涵盖了制度设计、主体协调、数据授权、全面监督、维护安全等多个方面。这些功能也彰显了大数据中心(大数据局)在政府数据授权运营中所发挥的全面管理功能。

第三类主体是政府数据运营机构。政府数据运营机构是获得政府数据运营权的特定组织,通常是一个市场主体(特别是国有企业)。在授权运营过程中,政府数据运营机构是政府数据授权运营工作的实际执行者和数据服务提供者,为有意向使用政府数据的社会主体提供数据资源服务,同时接受大数据中心(大数据局)的监督管理。如果说,作为统筹管理机构的大数据中心(大数据局)主要在宏观层面发挥制度设计和全方位的监管功能,那么政府数据运营机构则在更为微观的政府数据授权运营过程中体现其职能,具体包括以下几个方面:第一,保证政府数据安全,核查政府数据使用方的合法身份;第二,记录和管理联邦学习系统中的中央服务器运作情况,实施政府数据授权运营的过程管理,规范政府数据使用方行为;第三,向大数据中心(大数据局)定期汇报政府数据授权运营工作情况;第四,提升自身技术能力与软硬件设施,强化数据服务能力。

第四类主体是政府数据使用方。政府数据使用方是对政府数据有开发利用需求的各类社会主体,这些主体通过支付数据服务费用而获得政府数据运营机构提供的数据服务。在开发利用政府数据并释放经济社会价值的基础上,政府数据使用方的责任表现在:第一,遵守数据开发利用协议中的政府数据使用规范,在履行数据保护义务的基础上挖掘政府数据价值;第二,不对外泄露和非法使用政府数据,不危害国家、社会和个人安全与利益;第三,自觉接受和配合大数据中心(大数据局)以及政府数据运营机构的监督和管理工作。

⒉基于联邦学习的政府数据授权运营模式运作过程

基于上述各主体所承担的职责,在政府职能部门与大数据中心(大数据局)的监督与管理之下,政府数据运营机构与政府数据使用方以联邦学习技术为支撑,基于各自掌握的数据,联合开展数据开发利用活动[22]。

图3呈现了政府数据授权运营模式的完整运作过程。该过程主要包括准备阶段与开发阶段两个主要部分。

在基于联邦学习的政府数据授权运营的准备阶段,参与的各方主体首先需要建立合作关系(可见图3左侧)。如果若干社会主体拟利用某些公共数据资源训练一种算法模型,就需要向政府数据运营机构提出申请,在签订数据服务协议、提交数据服务费用后,从政府数据运营机构处获得公共数据资源的使用授权。这些社会主体将作为政府数据使用方,在保证履行协议内容、保障数据安全的基础上,联合政府数据运营机构对数据进行开发利用。大数据中心(大数据局)在各政府职能部门的协同配合之下,指导政府数据运营机构,对政府数据授权运营的整个过程实施监督管理。

准备阶段完成之后,政府数据运营机构及各政府数据使用方就要进入一个具体的应用场景里,在不共享原始数据的基础上,运用各自掌握的本地数据联合开展算法模型训练。如图3所示,训练过程分为四个步骤:第一步,政府数据运营机构与政府数据使用方从中央服务器获取初始模型;第二步,利用各自掌握的政府数据和私有数据开展模型训练,各方主体将其各自获得的模型参数加密上传至中央服务器;第三步,中央服务器接收全部模型参数信息后,聚合生成全局模型;第四步,中央服务器将全局模型下发至各参与方进行新一轮模型训练。基于联邦学习的政府数据授权运营就是通过这种反复迭代的模型训练,最终获得一个优质的模型成品,完成数据的开发利用工作[23]。

总的来看,基于联邦学习的政府数据授权运营模式本质上是以授权关系为连接线,在政府职能部门与大数据中心(大数据局)支持的基础上,将政府数据运营机构和政府数据使用方(包括企业、事业单位、社会组织及社会公众等)连接成一个合作网络,然后这个合作网络围绕一个中央服务器,在全程监督下合作完成数据开发利用工作。

⒊政府数据授权运营模式中的政社主体间关系创新

在基于联邦学习的政府数据授权运营模式中,各参与主体均承担着特定的角色和功能作用,为实现价值共创与保障数据安全而建构起相应的主体间关系。总体而言,基于联邦学习构建的政府数据授权运营模式重建了政府数据开放活动的政社主体间关系,使这一关系呈现出崭新的面貌,体现出了创新性。

首先,在传统的政府数据开放活动中,负责开放数据的平台只负责供给公共数据资源,而不参与社会主体的数据开发利用活动,不与社会主体发生更多合作性的关联。但在基于联邦学习的政府数据授权运营活动中,政府数据运营机构与政府数据使用方(包括企业、事业单位、社会组织、社会公众)都要贡献出自身所拥有的数据资源和能力禀赋,直接参与模型训练工作,为最终的开发成果贡献力量。这种制度安排更大程度地挖掘出了各方主体的数据资源存量与数据开发能力,更有利于协同开发出更优质的产品,从而提升价值共创水平。

其次,联邦学习技术也重塑了各主体间在数据层面上的关系,帮助实现原始数据在“可用不可得”基础上获得开发利用。政府数据运营机构与政府数据使用方作为联邦学习的最主要用户,仅通过中央服务器下发的聚合模型来享用数据开发利用成果,原始数据仍保留在本地设备,彼此不发生共享[24]。这在一定程度上降低了隐私泄露风险及数据安全威胁,有利于激励政府职能部门对外开放更多高价值数据。

第三,相比传统的政府数据开放模式,基于联邦学习的政府数据授权运营模式还建构了更有利于保障数据安全的“两级监管”关系,分别由政府数据运营机构及大数据中心(大数据局)实施。第一级监管是由政府数据运营机构面向联邦学习过程所实施的监管活动。政府数据运营机构负责审查政府数据使用方身份,签订数据服务协议,记录、追溯联邦学习参与方的数据利用情况,监督和规范各方参与者的数据利用行为,监督整个模型聚合过程,保证传输模型参数的安全。第二级监管是由大数据中心(大数据局)面向整个政府数据授权运营体系所实施的监管活动。政府的大数据中心(大数据局)作为统筹管理机构发挥领导职能、实施统一监督管理,对政府数据运营机构的工作情况及政府数据利用情况进行核验和审查,指出政府数据运营机构工作不足及存在的风险隐患,实施政府数据授权运营的事前、事中、事后的全过程管理。

综上,在基于联邦学习技术建构的政府数据授权运营模式架构中,政府数据运营机构、大数据中心(大数据局)、政府数据利用方等各方参与者建构了一个更为紧密的合作关系网络,更有利于实现价值共创与数据安全的兼顾。

(三)联邦学习技术与政府数据授权运营的适配性分析

更好地兼顾价值共创与数据安全,是选择联邦学习技术来建构政府数据授权运营新模式的核心要求。通过上文对基于联邦学习的政府数据授权运营模式的呈现与解析,可以发现,在价值共创与数据安全两个方面,联邦学习技术显示出了对政府数据授权运营的强适配性。

在价值共创层面,联邦学习技术能够较好地支撑多元主体共同开发利用公共数据资源的过程。实现公共数据资源的开发利用,既需要政府作为数据要素供给方对外供应公共数据资源,也需要市场主体与社会主体对公共数据资源进行开发利用,从而形成政府、市场、社会多元主体合作参与的新格局[25]。为此,支撑政府数据授权运营工作的底层技术需要满足多主体协同这一现实要求。联邦学习技术能够实现多个参与者基于各自目的建设共有的虚拟模型,以相同的地位和身份参与公共数据资源的价值释放过程[26]。为此,联邦学习技术能够在政府数据授权运营工作中协调多个主体更便捷地参与公共数据资源的开发利用活动,实现多主体共同创造公共数据价值。

同时,相比于传统的、非定向的政府数据开放模式,基于联邦学习的政府数据授权运营模式能够更好地计算和评估政府数据运营机构及政府数据使用方参与模型训练所付出的成本以及其所做出的贡献,为最终收益分配提供依据,设计更优的收益分配机制[27]104-105。政府和社会主体提供数据的数量和质量越高,就越能获得更高比例的收益分成,以平衡其支出的成本。这种激励机制可让更多的、包括政府职能部门在内的参与主体加入联邦学习生态,贡献更多的数据要素和创新能力,使价值共创网络更紧密、更持久地运作下去[28]。

联邦学习技术的更大优势则体现在数据安全层面。该技术能够帮助政府数据授权运营有效防范各类风险问题,营造安全有序的数据生态,具体包括以下两个方面:

第一,联邦学习技术能够帮助政府部门实现数据开发利用活动的有效监管。在联邦学习技术架构下,政府以及政府授权的数据运营机构可通过管理中央服务器,直接获得其他主体的数据使用行为记录与开发行为情况,并结合模型开发的具体情况,预判风险发生可能性,分析不良效应的发生原因。例如,大数据中心(大数据局)可通过政府数据运营机构提供的模型训练结果,审查各方是否以合规合法的方式开展政府数据授权运营以及政府数据开发利用工作,从而有效地防范风险发生。

第二,联邦学习技术能够实现公共数据资源的“可用不可得”,从而保护原始数据安全。原始的政府数据往往包含众多隐私和国家机密信息,一旦政府数据在对外开放过程中造成了这些敏感信息的泄露,将会给国家、社会及个人带来难以估算的损失。即使采用一些数据脱敏、数据加密等数据安全保护措施,违法分子也会利用数据本身所具备的关联性、开放性,通过不同数据集的关联和组合来还原包含敏感信息的原始数据[29]。借助联邦学习技术,行政部门可以在不对外开放原始政府数据的基础上,实现多个数据所有者联合建模与数据协同开发,进而比较彻底地防止政府数据出现隐私信息泄露和数据安全问题[30]。

综上,联邦学习技术是建构政府数据授权运营新模式的良好技术工具选择,能够帮助实现价值共创与数据安全的兼顾。

四、基于联邦学习的政府数据授权运营:路径选择与实景应用

依据数据集的样本分布及数据特征,联邦学习技术可分为横向联邦学习、纵向联邦学习及联邦迁移学习三种技术路径。政府数据运营机构与政府数据使用方须根据数据集特征及应用场景需求,选择不同的联邦学习技术路径进行公共数据资源的开发和利用。下文将结合三种实际场景,详细说明了政府数据授权运营在不同情境下如何作出联邦学习技术路径选择,并比较了三种技术路径的差异。

(一)横向联邦学习技术路径及其实景应用:电力供给与配置

横向联邦学习(horizontal federated learning,HFL)取样本特征相同但数据样本来源不完全相同的数据集进行联合训练,适用于数据集特征空间重叠较多但样本空间重叠较少的场景使用(其基本逻辑与过程如图4所示)[27]6,51。例如,不同地区围绕相同的一项公共事务进行管理和服务,其所收集的数据样本信息基本相似,但由于地区不同,作为公共数据来源的公共服务对象群体也存在较大差异,这使得不同主体所有的数据资源在数据特征上基本相似,但地区不同造成了样本重叠较少。因此,这种情况下的政府数据授权运营工作可采用横向联邦学习开展数据开发利用活动。

能源领域对横向联邦学习技术的应用存在需求。例如,电力能源的供给与配置活动需要建设一个快速、安全、有效的电力供给与配置预测体系,用以预测和评估地区的用电量及用电趋势,从而为开展供电管理工作提供参考依据。本文以电力供给与配置需求为应用实景,构建了基于横向联邦学习的政府数据授权运营工作框架。

在供电领域,基于横向联邦学习技术路径所建构的政府数据授权运营架构,由联邦学习主体关系构建、联邦学习技术运作过程、用电预测模型的应用三部分组成,其具体结构如图5所示。

框架的第一部分是联邦学习主体关系的构建。这一部分确定了参与电力供给与调度预测模型训练的主体及其相互关系。该情境有A、B两地,其电力主管部门各自掌握着本地区的用电数据(包括本地区内部各产业用电量、城乡居民用电、同期用电变化、用电高峰时段等)。为更好地开展电力供给与调度预测,B地决定在数据“可用不可得”的条件下,结合A地数据开展模型训练。由于A地已开展政府数据授权运营工作,因此,B地的供电管理部门借助基于横向联邦学习的政府数据授权运营机制,联合A地开展电力数据的开发利用活动。

架构的第二部分是联邦学习技术的运作过程。B地的供电管理部门与A地政府数据运营机构签订数据服务协议,双方在遵守协议内容及数据安全保护责任的基础上开展数据开发利用,进行电力供给与调度预测模型的训练。最终,经过四个步骤,两地完成了对模型的训练(见图5)。训练过程中,B地大数据中心(大数据局)与A地政府数据运营机构共同实施对中央服务器的监督管理,以获取、追踪、记录、上报两地区的本地模型以及聚合生成的全局模型,保障数据安全。

第三部分是模型成果的应用。尽管训练活动是由B地发起,但模型完成训练后,A、B两地的供电管理部门都可以使用这一模型来更精准地研判本地的用电情况。借助这一模型,两地的供电部门可了解本地区电力总需求及需求波动情况,指导实施更精准的电力生产与电力调度措施。此外,两地的供电部门还可以更科学地开展限电供应、错峰用电等供电管理决策,协调沟通整个区域内的电力供给和配置工作,维护社会稳定。同时,区域内的其他政府部门、生产经营组织、居民也可根据用电预测模型提供的信息调整公共服务供给、生产经营活动及日常工作生活,并及时向能源管理部门反馈需求,以更好地应对持电力能源供给波动给社会和个人造成的影响和损失。

(二)纵向联邦学习技术路径及其实景应用:个人与企业信贷评估

相较于横向联邦学习,纵向联邦学习(vertical federated learning,VFL)更适用于数据集样本重叠较多但样本特征重叠较少的场景。例如,同一地区内部涉及多领域公共事务的管理和服务,其所收集的数据样本信息基本相似,但业务领域不同造成样本特征重叠较少。因此,这种情况下的政府数据授权运营工作可采用纵向联邦学习开展数据开发利用。

纵向联邦学习路径下政府数据授权运营的基本逻辑与过程如图6所示[27]72,这一过程由若干数据所有者节点及协调者参与。其中,若干数据所有者节点各自掌握一部分重要的数据,彼此间地位平等,共同参与模型训练及模型上传工作。同时,为防止地位平等的数据所有者之间违反数据开发协议、做出违法违规行为,也为帮助数据所有者提升模型训练精度和效果,纵向联邦学习架构会加入独立的第三方——协调者,用以协助各方开展数据利用工作,保护数据安全。

纵向联邦学习技术路径的一个基本应用场景,是对个人和企业的信贷资质进行评估。在个人和企业信贷业务领域,银行作为信息劣势方,难以充分了解借贷者的已有资产及还款能力。这种借贷方与还贷方之间的信息不对称为银行的信贷服务带来潜在风险。为有效评估自然人与法人的偿贷能力,银行往往希望从政府这里获得更多的自然人与法人信息。但这些数据涉及个人隐私,如果通过传统的政府数据开放形式,由政府不设门槛地直接开放给银行,可能涉嫌违反法律法规。借助纵向联邦学习技术,结合银行与政府所掌握的数据资源,银行可训练开发有关自然人与法人贷款偿还能力及信用情况评估模型,从而优化面向个人和企业的信贷服务,降低借贷风险。

在个人与企业信贷评估这个情景下,本文构建了基于纵向联邦学习的政府数据授权运营框架(参见图7)。该框架是由纵向联邦学习主体关系构建、纵向联邦学习技术运作过程、个人及企业信贷评估模型应用三个部分组成。

架构的第一部分依然是联邦学习主体关系构建。假设某地区银行掌握着本地区的客户数据,政府设置的企业信用信息服务平台掌握本地区企业信用相关数据,市场监管部门掌握本地区市场监管相关数据,都构成相关模型训练的数据需求。但由于政府方所拥有的数据包含众多个人与企业的隐私信息,这些原始数据难以直接汇总到一处进行开发利用。此时,三方可基于纵向联邦学习技术路径的政府数据授权运营,在保证原始数据不外流的基础上,对政府数据进行开发利用。

架构的第二部分是纵向联邦学习技术的运用过程。在这一过程中,银行、企业信用信息平台、政府数据运营机构所掌握的各类数据资源都可保留在本地,不需要集合全部原始数据到一处,而是通过聚合各本地模型参数的方式,反复训练并最终聚合为一个模型。为保证模型训练中的数据安全,政府数据运营机构不仅作为参与方直接参与数据开发利用活动,同时也负责监管相关活动,并负责将政府数据授权运营情况定期上报给地方大数据中心(大数据局),完成政府数据授权运营过程的两级监管。

架构的第三部分是个人及企业信贷评估模型成果的应用。基于纵向联邦学习技术路径,多方数据得以获得联合开发利用,在不泄露隐私的情况下,更为细致、全面地描绘某一用户或企业的特征图像。银行可借助这一评估模型的结果,更为准确地评价个人及企业的还款能力、信用水平及生产经营情况,判断是否对其提供借贷服务,最终在整体上减少借贷风险。此外,市场监管部门还可利用上述模型来开展市场监管工作,敦促企业与个人维护和提升自身信用水平,提升资产储量及还款能力,形塑自身合规合法行为,最终形成健康有序的信用贷款环境及市场经营秩序。

(三)联邦迁移学习技术路径及其实景应用:医疗服务

联邦迁移学习(federated tansfer larning,FTL)适用于数据样本及数据特征均存在较大差异或数据缺少标注的情况,其本质是寻找源域(source domain)和目标域(target domain)之间的不变属性,并利用不变属性在源域和目标域之间的传送知识,从而实现跨领域知识迁移[31]。例如,不同地区不同公共事务的行政主管部门,其管理的地域范围、面向的公共服务对象及业务类型相似度较低,数据样本特征与数据样本均存在较大差异。为应对各参与方的数据差异,联邦迁移学习技术可应用于特征重叠及用户重叠较少数据集的开发,运用数据重叠部分来推测出更多信息。

基于联邦迁移学习技术路径的政府数据授权运营基本逻辑与过程如图8所示。[32]在这一过程中,每个数据拥有主体都作为节点,将首先训练各自的本地模型,然后将本地模型加密并开展联合训练,生成联邦模型,联邦模型通过不断训练和更新获得最优模型。相比于横向联邦学习与纵向联邦学习,联邦迁移学习在综合模型参数的基础上更进一步,基于子模型来建构最终的模型产品。

医疗服务领域是适用联邦迁移学习技术的一个场景。不同地区的卫生健康行政主管部门、公立与私立医院、国营与私营体检中心、高校、医学科研机构以及药品研发企业等多方主体都掌握着大量医疗服务相关的数据资源,如果能对这些数据进行联合的开发利用,将为开展诊疗、教学及科研工作提供重要的支撑。然而,这些医疗卫生数据以低结构化的形式零散分布在各方主体处,其蕴藏的价值没有得到释放。又加之,这些医疗服务相关数据往往包含了大量病人隐私、商业机密、实验数据等敏感信息,使得数据利用过程面临着较高的隐私泄露和数据安全风险,阻碍了数据价值的释放。

基于联邦迁移学习技术路径的政府数据授权运营提供了上述问题的一个解决方案。借助联邦迁移学习技术,卫生健康行政主管部门、医院、科研机构可在保障数据资源不流出本地的基础上,共同进行数据的开发利用,并将最终获得的医疗服务供给模型用于研发、药效评价等相关领域,从而助力于提升地区的整体医疗服务水平。

联邦迁移学习的医疗服务供给框架可见图9。该框架也由主体关系构建、技术运作过程、模型成果应用三个部分组成,各部分彼此衔接。

在第一部分联邦学习主体关系构建中,某地开展了政府数据授权运营工作,该地卫生健康相关数据由卫生健康行政主管部门授权给政府数据运营机构对外提供数据服务。这时,政府数据运营机构、医院与科研机构可通过政府数据授权运营,构建基于联邦迁移学习的数据开发利用活动。

在第二部分联邦学习技术运作过程中,政府数据运营机构、医院以及科研机构签订数据服务协议,明确各方责任义务。之后,各参与方联合构建医疗服务供给模型开发场景,在本地完成本地模型的各自开发工作,随后通过各本地模型的联合,获得最终的医疗服务模型结果。政府数据运营机构还扮演着监管者角色,监管各主体的数据开发利用行为是否具备合规性及合法性。

第三部分是医疗服务供给模型的应用。获得了基于联邦迁移学习训练而成的医疗服务模型后,政府数据运营机构、医院与科研机构都可以利用这一模型提升相关服务水平或加速研发进程。卫生健康行政主管部门可利用该模型获得更多医疗卫生数据信息,为其开展管理和决策提供信息支持;科研机构可利用模型获得更多一手疾病诊断、药品使用等信息,从而为科学研究和创新活动提供数据支持;医院可利用模型更好地开展疾病诊疗与教研活动,并协助社会大众调整生产经营与生活行为,改善个人健康卫生习惯。

(四)三种联邦学习技术路径的比较

不同的联邦学习技术路径适配于不同的政府数据授权运营场景需求。表2呈现了三种联邦学习技术路径的特征,从样本空间、特征空间、数据对齐方式、技术目的、适用场景、政府数据授权运营典型场景等多个维度,比较和呈现了三种技术路径在技术逻辑与适用场景上的差异。

政府数据授权运营工作在三种技术路径中作出选择时,主要还是要看目标样本的特征匹配哪一条技术路径(参见表2)。如果用户不同但业务类型相似,所收集的用户特征数据相似,此时横向联邦学习技术路径比较适配;如果用户特征不同但来自同一地区,所收集的用户样本比较一致,那么纵向联邦学习技术路径比较适配;如果用户特征与用户样本均存在较大差异,数据相似度及重叠小,这时候就要动用联邦迁移学习来支撑政府数据的授权运营。

不过,无论是选择哪一种技术路径(其主要差异在于数据结构与数据特征),基于联邦学习的政府数据运营模式都包含了构建联邦学习主体关系、运作联邦学习技术流程及开展模型应用这三个核心组成部分,三个部分层层递进、相辅相成,共同支撑了政府数据授权运营工作模式。无论是哪种技术路径,只要匹配实际情景的需求,政府数据授权运营活动就能够兼顾价值共创与数据安全。因此,政府应根据具体的工作场景、开发需求及数据集特征,选择最适合的联邦学习技术路径。

五、基于联邦学习的政府数据授权运营模式的优势与挑战

在公共数据资源的开发利用中,兼顾价值共创与数据安全是政府与社会的共同诉求。传统的政府数据开放制度是通过无门槛、非定向的方式向全社会开放原始公共数据资源,在防范侵犯数据安全、威胁国家机密与个人隐私的风险方面有所不足。因此,本文结合联邦学习这一隐私计算技术,构建了基于联邦学习的政府数据授权运营模式,对其架构以及应用场景做了比较完整的呈现。基于联邦学习的政府数据授权运营模式有其显著的优势,也面临着一系列应用层面的挑战。

(一)基于联邦学习的政府数据授权运营模式的核心优势

兼顾价值共创与数据安全,满足传统政府数据开放模式所无法实现的国家安全与隐私保护要求,更有效地支撑政府与社会多方主体对公共数据资源的协同开发利用,是基于联邦学习的政府数据授权运营模式的核心优势。

在实现价值共创层面,基于联邦学习的政府数据授权运营模式能够更好地支撑多元主体的协同。实际上,在价值共创过程中,不仅公共数据资源与私人数据资源是必备要素,各参与主体的数据开发利用能力也不可或缺。联邦学习技术要求各参与主体不仅要贡献数据资源,还要充分贡献开发能力,保障数据开发利用效果。从这个意义上来讲,基于联邦学习的政府数据授权运营模式有着更强的技术动员能力。此外,联邦学习技术能够帮助管理者有效评估各参与方对模型训练的贡献程度,为数据开发利用收益的分配提供科学的计算依据。数据开发产品的最终需求方可根据模型训练效果及主体贡献程度,为包括政府在内的其他参与者支付服务费用,使得收益分配更为公平,也符合公共资源利用的“受益者负担”原则。因而,相比传统的政府数据开放模式,基于联邦学习的政府数据授权运营模式更好地解决了激励问题,能够促使各方主体贡献更多的数据资源与技术能力。

在保障数据安全层面,联邦学习技术能够保证原始公共数据资源的不流出,结合政府对公共数据资源开发利用过程的监管,充分保障原始数据安全。在基于联邦学习技术进行数据开发与模型训练时,各参与主体主要交换本地模型的参数而非数据,各方对其所掌握的公共数据资源或私有数据资源都充分享有控制权,原始数据不会被其他主体所获取。因而,基于联邦学习的政府数据授权运营模式可实现公共数据资源的“可用不可得”,防止原始公共数据资源被篡改或被滥用,也保障了相关国家机密与个人隐私的安全。

此外,在防范数据风险问题中,联邦学习技术的信息传输方式、加密机制都能进一步防范隐私与机密信息泄露、数据恶意篡改、数据不当利用等风险。在数据的开发过程中,本地训练产生的模型参数是以加密形式传输给协调者和中央服务器,防止模型参数在传输过程中泄露给外部主体,强化模型参数传输的安全性。同时,联邦学习过程会运用差分隐私等技术实现对恶意攻击行为的防御,进一步保护参与各方的敏感信息[33]。

(二)基于联邦学习的政府数据授权运营模式所面临的主要挑战

基于联邦学习的政府数据授权运营模式兼顾了价值共创与数据安全,在保证公共数据“可用不可得”的基础上,实现了政府与社会多元主体共同对公共数据资源的开发利用。同时,该模式也对政府数据运营机构乃至政府提出了一大挑战,即对政府数据运营机构的数据开发与数据管理能力提出了相当高的要求,构成了显著的能力挑战。

第一重能力挑战面向的是政府数据运营机构的数据开发利用技术能力。联邦学习技术给各参与者都提出了一定的技术和能力要求要求。例如,为保证模型训练效率,一旦有足够数量的主体向协调者或中央服务器报告了模型结果,训练速度较慢的主体会严重拖累整体进度[34]。政府数据运营机构是联邦学习活动中的重要参与者,需要与其他社会主体共同参与模型训练。这就要求,政府数据运营机构必须具备足够的技术水平和开发能力,保持其在联邦学习中的参与地位。

不过,对政府数据运营机构而言,信息技术水平和公共数据开发利用能力原本就是其相对弱项,如果上述能力未能得到充分加强,政府数据运营机构依据本地公共数据资源所得到的模型参数就难以为全局模型做出贡献,不仅限制了公共数据资源的价值释放,还会最终在整体上削弱政府在价值共创中的权威性。此外,联邦学习系统还可能受到外部力量的攻击[35],这要求政府数据运营机构加快技术积累来应对联邦学习中的安全与隐私威胁[36、37]。

第二重能力挑战面向的是政府数据运营机构的管理与协调能力。政府数据运营机构作为政府数据授权运营全过程的主要管理者和协调者,负责维护和完善整个数据开发利用系统,激励和协调各方主体参与联邦学习的模型训练活动,并且要保护该系统免受安全威胁。为调动各方主体积极性,政府数据运营机构还必须基于实际过程,充分量化各参与方在数据开发利用中的贡献程度,公平地分配数据利用收益[38]。这也为政府数据运营机构的管理能力提出了更高要求。

综上,基于联邦学习的政府数据授权运营模式向政府数据运营机构提出了技术能力与组织能力的新挑战、新要求,要求政府数据运营机构在能力层面匹配模式的运作需求,并且使政府数据运营机构进一步推动基于联邦学习的政府数据授权运营模式的建设、发展与运作。

六、结语

经过十数年的发展,经典的政府数据开放模式正在面临包括国家秘密泄露、个人隐私侵犯等一系列风险事件的挑战。为解决这一问题,国家“十四五”规划针对政府数据开放工作,提出了“开展政府数据授权运营试点”的新要求。本文尝试基于联邦学习这一新兴技术工具,建构一套完整的政府数据授权运营模式,从而在实践层面响应国家“十四五”规划所提要求,在理论层面则增进政府数据开放的相关知识积累。

相较于传统的API技术,联邦学习技术能够真正实现数据的“可用不可得”,这为构建一种具备可操作性的政府数据授权运营模式提供了可能。在基于联邦学习的政府数据授权运营模式中,政府数据运营机构、大数据中心(大数据局)、政府职能部门、政府数据利用方等各方参与者建构了一个紧密的合作关系网络,更大程度地实现了价值共创与数据安全的兼顾。当然,这种新模式也对政府数据运营机构乃至政府的技术能力与管理能力提出了新要求。特别是对于政府数据运营机构而言,该机构既是政府授权的公共数据资源开发利用活动管理者与监督者,又是联邦学习过程中的重要参与者,具备多重重要角色,需要具备较强的治理能力与技术能力。

在未来,当基于联邦学习的政府数据授权运营模式完成构建后,政府能够更好地兼顾政府数据开放的价值共创与数据安全目标,但同时也必然会面临一些新议题和新挑战,包括政府如何选择一个兼具技术能力、管理能力与伦理素养的政府数据运营机构,如何有效配置政府数据授权运营所获取的数据使用费,如何恰当地安排政府数据授权运营与免费开放的比例,等等。这些新议题将为政府数据开放与政府数据授权运营这一研究领域拓展出新的研究空间。

关键词:政府数据授权运营;政府数据开放;联邦学习;价值共创;数据安全

DOI:10.16582/j.cnki.dzzw.2022.10.001

作者简介:

胡业飞,管理学博士,复旦大学国际关系与公共事务学院青年副研究员,复旦大学数字与移动治理实验室副主任,主要研究方向:政府数据开放,技术标准与标准化,技术与数字治理,国家治理与公共政策。

陈美欣,天津大学管理与经济学部硕士研究生,主要研究方向:政府数据开放,技术与数字治理。

张怡梦,管理学博士,上海理工大学管理学院讲师,主要研究方向:技术与数字治理,政府绩效评估,政府改革与职能转变。

*基金项目:教育部人文社会科学研究青年基金项目“公共服务视角下政府数据开放(OGD)的发展困境及其对策研究”(项目号:20YJC630044);国家自然科学基金青年项目“政府角色对合作治理绩效的影响研究:以技术标准领域为例”(项目号:72004158);上海市科技创新行动计划软科学研究项目“城市数字治理中的创新技术应用效果评价研究”(项目号:22692195900)。

本文转载自《电子政务》2022年第10期:胡业飞,陈美欣,张怡梦. 价值共创与数据安全的兼顾:基于联邦学习的政府数据授权运营模式研究[J]. 电子政务,2022(10): 2-19.

发条评论

你的电邮不会被公开。有*标记为必填。