Zed案例ㅣ浙江省统计局 X 金智塔科技:数据安全融合计算平台建设实践

利用多方安全技术,实现联合建模、联合查询,同时,探索利用第三方数据,构建数据融合计算业务,实现外部数据对统计部门的赋能。

640-123
出处:沙丘社区

为实现政府微观数据的安全共享,浙江省统计局与金智塔科技合作,基于隐私计算技术搭建数据融合计算平台,打破政府部门间的“数据孤岛”并安全接入社会商业数据,构建省市县三级一体化横向、纵向的数据要素流通体系,在保护数据隐私安全的前提下,实现统计局和各部门数据安全融合计算以及统计局基础数据对部门共享服务数据,激发政务数据的应用价值,最大限度造福社会。

数据融合计算平台支持单方查询计算和多方安全计算两种模式,提供基础数据共享、联合查询、联合统计、联合建模等功能,具备底层数据可用不可见、用途用量安全可控、数据使用可查可溯源、支持部署节点横向扩展、支持算法和场景不断扩展等特点;

数据融合计算平台在省统计局侧部署调度节点和子节点,在相关政府部门部署子节点,创建联合任务,各方数据联合建模,促进数据共享应用,例如浙江省统计局与省经信厅的数据联合计算得到亩均论英雄的排名结果、浙江省统计局与杭州征信的数据联合建模实现对企业经营状态的判别与分析、浙江省统计局与杭州水利厅的数据联合查询评价规上工业企业水效系数。

以下分析师建议:

  • 对于隐私数据无法出域、不能直接融合的情况,采用多方安全计算、联邦学习等技术,利用底层同态加密、混淆电路、秘密分享等密码学技术,实现数据可用不可见,用途可控可计量,保障数据使用过程的隐私安全;
  • 针对隐私保护机器学习里安全性和效率难以兼得的问题,通过发掘神经网络计算中的逐元素激活函数特性,基于秘密分享和随机排列的隐私保护机器学习算法,可实现安全和效率兼得的解决方案。

01 案例背景

浙江省统计局是浙江省人民政府直属机构,承担组织领导、协调和指导全省统计工作,确保统计数据真实、准确、及时。

数据作为重要的生产要素和基础性战略资源,在数字化改革中扮演着重要的角色。其中政府统计微观数据,对于促进数字政府建设,提升政府综合治理能力发挥着重要作用。

如果这些数据可实现共享,有利于打破政府部门间的数据壁垒,降低部门协同合作的成本,强化政府综合治理能力,促进政府公共领域服务效率有效提升,同时也能有效减少数据多头采集、重复采集,减轻企业和基层负担。

但是,统计法明确规定,统计调查中获得的能够识别或者推断单个统计调查对象身份的资料,任何单位和个人不得对外提供、泄露,不得用于统计以外的目的。各政府部门在有数据需求时,通过函授的方式将数据需求提交给统计局,统计局工作人员进行加工处理后再授权给各政府部门使用。

640-119

基于以上背景,浙江省统计局旨在利用隐私计算技术,实现统计局和部门数据安全融合计算以及统计局基础数据对部门共享服务。具体来看:

目标1:实现统计局和部门数据安全融合计算

将省统计、省经信之间数据融合计算,利用多方安全技术,实现联合建模、联合查询,同时,探索利用第三方数据,构建数据融合计算业务,实现外部数据对统计部门的赋能。

640-120

目标2:统计局基础数据对部门共享服务

通过单方计算查询,推进“最多报一次”应用,某一指标报送给统计局后,其他部门不需要重复报送,实现统计局单节点内数据对外可用不可见的服务,服务范围包括排名查询、指数计算、汇总计算等。

640-121

02 解决方案

基于产品完整性、本地化服务和研发实力三方面的综合考虑,浙江省统计局与金智塔科技合作,搭建数据融合计算平台。

金智塔科技是由浙江大学人工智能研究所和浙江大学金融科技研究院联合发起的隐私计算行业领军企业,以“让数智世界更可信”为使命,自主研发了工业级隐私计算平台、数据要素流通平台、数据安全沙箱、智能建模平台等产品,为政府部门、金融机构、大型企业等提供安全高效的数据流通和数据智能解决方案。

数据融合计算平台项目初期规划1年时间完成,实际半年就实现上线,并不断实现应用场景落地。

640-122

截至2022年10月,数据融合计算平台数据累计共享500万+次、数据融合计算2亿+条、涉及指标3k+、用户量达到近300个。

640-123

整体方案可以总结为“1+2+4+5”,构建一个数据融合计算平台,支持单方查询计算和多方安全计算两种模式,提供基础数据共享、联合查询、联合统计、联合建模四大功能服务,具备五大特点:第一,利用隐私计算技术,防止内部数据泄露,平台在计算机指令集及编译器层面使用加密运算代替铭文运算,实现计算引擎的密文化,保证底层数据可用不可见;第二,采用数据授权审批,用途用量安全可控,坚持最小、必要、专事专用原则,保证数据在不出域的前提下实现数据共享,建立严格的审批流程:第三,提供存证审计功能,数据使用可查可溯源;第四,支持节点横向扩展,现已连接省经信、省水利厅、杭州征信、中国移动等节点,分布式架构支持节点快速部署,可以实现快速连接;第五,支持各种算法扩展,支撑各类场景应用。

640-124

数据融合计算平台技术架构共分为四层:基础层、系统层、计算层和服务层:

640-125

基础层对于隐私数据无法出域,不能直接融合的情况,平台采用多方安全计算、联邦学习等技术,利用底层同态加密、混淆电路、秘密分享等密码学技术,实现数据可用不可见,用途可控可计量,保障数据使用过程的隐私安全。

在系统功能层面,平台提供数据管理、存证服务、任务管理、资源监控等,保证系统的正常运转。

在计算层面,基于安全协议提供主流计算,包括基础计算、高级计算、评分卡计算、机器学习库、深度学习库等,用户在不同场景下可以选择不同的算子进行计算。

应用服务层提供基础数据共享、匿踪查询、隐私求交、联合统计和联合建模,实现统计局和部门数据安全融合计算、统计局基础数据对部门共享服务两大目标。

每个场景投入1-2个人,一周时间即可完成平台部署、网络调试、数据准备、任务创建和结果输出。平台部署过程中,由于平台设计的合理性,部署投入的人力、时间较少,0.5个工作日就可以完成。

640-126

目前,数据融合计算平台在杭州征信、浙江移动、省水利厅、嘉兴市经信局均部署子节点,为业务的开展提供支持。具体应用场景如下:

640-127

场景1:亩均论英雄

亩均论英雄是浙江省政府对企业效能的综合评价指标,在省统计局侧部署数据融合计算平台的调度节点和子节点,并在省经信厅部署数据融合计算平台的子节点。通过数据融合计算平台中联合统计模块中的自助查询功能,创建省统计局与省经信厅的联合任务。运行该联合计算任务,可得到企业亩均论英雄各指标与年度基准值的比值。将平台所得结果下载,进行汇总计算,即可得到各企业的亩均论英雄的评分结果。

640-128

场景2:企业经营状态查询

在省统计局侧部署数据融合计算平台的调度节点和子节点,在杭州征信部署据融合计算平台的子节点。通过数据融合计算平台中联合查询模块中的联邦求交功能,创建省统计局与杭州征信的联合任务。

通过建立企业经营状态判别模型,运行求交任务可得到在营企业名单和非营企业名单。将平台所得结果下载,按行业进行分组,可得到在营和非营企业在各行业的分布,用以核查分析。

640-129

场景3:规上工业企业水效系数评价

利用数据融合计算平台,省统计提供企业统一社会信用代码、工业增加值、行业代码,水利厅提供统一社会信用代码、企业用水量,分析计算得到规上工业企业水效分布情况和规上工业行业水效分布情况,输出水效等级。在此基础上,按照行业划分,对不等不同行业的水效分布情况。

640-130

场景4:软件和信息技术服务业营业收入及利润总额偏移量统计分布

将从省统计和省经信两个来源采集到的营业收入和利润总额数据进行比对,对偏移量进行分布统计。

640-131

场景5:新业态从业人员群体识别和预测

在省统计局侧部署数据融合计算平台的调度节点和子节点;在浙江移动部署据融合计算平台的子节点。通过数据融合计算平台中建模功能,创建省统计局与浙江移动的联合建模任务。以浙江移动信令、通话行为等数据为依托,结合统计数据,通过对外卖员行为特征的分析,提出一种基于XGBOOST决策树算法对外卖员行为进行预测的方法,根据外卖员判定条件,达到对活跃外卖员群体的精准识别。

640-132

03 价值与效果

通过建设数据融合计算平台,浙江省统计局实现如下价值与效果:

(1)合规价值

没有使用平台前,统计局明文数据直接提供给外部部门违反国家统计法。使用平台后,可实现微观数据不出域,数据可用不可见。符合国家统计法。

640-133

(2)应用价值

当前,平台已安全合规融合统计局、征信公司、电力公司、发改委、经信厅和中国移动6个节点的数据,实现数据的多跨安全共享和融合计算,落地8个应用场景,助力提升政府的治理和服务水平,促进社会经济的发展。

640-134

除了已落地的8个场景外,平台还在横向和纵向扩充应用场景。横向来看,浙江省人社厅、国家电网等部门已提出新的应用需求,其中包括“困难补助人群智能监测”、“电力能耗数据质量校验”等,将进一步加快浙江省建设数字政府,助力政府数字化数据要素流通与应用。

纵向来看,全省推广11个地级市,部署22个子节点,落地应用场景50+个,支持统计局微观数据对地市区县各部门的赋能。以嵊泗县发改局共同富裕群体监测分析数字化应用为例,围绕人口和收入两个要素落地创新模型,包括人口流动检测模型、收入分层模型、城乡收入比模型、收入特征检测模型、幸福指数模型、发展指数模型等。

通过隐私计算技术解决模型数据输入的问题,实现对共同富裕群体的实时感知、动态监测、主动跟进,包括经济发展质量、城乡协调发展、人口发展、收入分配格局、文化精神、社会治安、公共服务等。

640-135

(3)技术价值

跨域推荐(CDR)被广泛研究以缓解推荐系统中普遍存在的冷启动和数据稀疏问题。大多数现有的CDR模型都假设信息可以直接跨域传输,而忽略了隐私问题。为了解决这个问题,提出一种基于两阶段的隐私保护CDR框架。该方法在保护数据隐私前提下,有效缓解数据稀疏性。

640-136

此外,针对隐私保护机器学习里安全性和效率难以兼得的问题,通过发掘神经网络计算中的逐元素激活函数特性,提出了基于秘密分享和随机排列的隐私保护机器学习算法,提供安全和效率兼得的解决方案。

640-137

(4)社会和经济价值

融合计算平台响应了国务院《关于加强数字政府建设的指导意见》、浙江省人民政府《关于深化数字政府建设的实施意见》等政策文件,构建数字化、智能化的政府运行新形态,推进公共数据、社会数据融合应用,促进数据合法有序流通利用,并落实了浙江省“最多报一次”的政策要求,大量减轻企业的工作量、提升政府工作效率。

分享专家:张建勇,金智塔科技项目总监
作者:沙丘社区分析师团队