近期,来自中国信通院云大所的多位老师为大家带来了一系列隐私计算相关知识分享,覆盖可信隐私计算概念、隐私计算行业应用、跨平台互联互通、隐私计算开源现状、隐私计算标准及评测介绍等。
隐私计算应用现状及热门场景
在政策驱动和市场需求双重推动下,隐私计算技术、产业、应用迅速发展,成为商业和资本竞争的热门赛道。随着隐私计算技术可用性的快速提升,市场由观望正在转向落地,金融、政务、通信、医疗、互联网等行业率先开展隐私计算应用,能源、车联网等行业也开始探索性应用。
隐私计算如何应用?热门场景知多少?
隐私计算落地需求呈逐渐递增趋势。通过对公开招标整理、单一来源采购调研,我们整理了2019年以来隐私计算产品的招标情况。根据分析,自2019年起,隐私计算招标总数逐年递增,年度数量也呈加速趋势,仅2022年上半年招标数量超过2019-2021年累计招标总数的60%。进入实施部署阶段的产品比例明显提升,2022年上半年,进入实施部署阶段的产品比例由2021年的48%增长为55%,市场从落地初期验证阶段进入到加速实施阶段。
金融、通信、政务是隐私计算最主要应用行业。我们在2021行业观察中按照行业大类进行应用统计,在《隐私计算应用研究报告(2022)》中进一步挖掘,将行业大类中具体单位类型进行了梳理。其中金融行业招标占比占总体的53%,应用最为广泛,在银行、金融机构、保险、证券、银联、交易所、支付机构均有涉及;通信占比17%,主要为通信运营商;政务13%,主要为政府、政府部门等。
隐私计算应用细分场景(金融、政务)
金融场景主要包含风控、营销、监管三个大场景,金融机构联合业内机构数据或者通信、征信等其他行业数据资源提升自身风控、营销水平。采用的解决方案以联合统计、联合查询为主,联合建模及预测等方案也均涉及。
政务场景主要分为政务数据内部共享、政务数据对外开放、数据运营等场景。政务场景往往涉及区域内数据集,因此应用效果影响范围大,应用前景广阔。数据提供方主要为政务部门、省市大数据中心等,数据使用方为政务部门、金融机构、医疗机构等。
隐私计算应用细分场景(医疗、互联网、新兴场景)及应用趋势展望
医疗场景主要包含两个方面:一是通过医疗机构间数据融合,补充患者样本数量,主要涉及临床辅助决策系统、医学研究场景;二是通过对外提供数据服务,提高其风控或营销效果。采用的解决方案主要为联合建模及预测。数据提供方主要为医院、医疗机构等,数据使用方为医院、医疗机构、医保、金融机构(保险等)等。
互联网领域主要包含精准推荐和新客户拓展两个场景。互联网公司对业内机构或者金融、通信、互联网输出营销能力。采用的解决方案以联合统计、监督模型为主,无监督模型方案也有涉及。数据提供方主要为互联网、通信公司等,数据使用方主要为互联网、通信公司、金融机构(银行、保险等)等。
随着隐私计算应用不断探索,新兴场景进一步涌现,如能源、供应链金融、税务、车联网等。新兴场景涉及行业较广,但共同点都在于存在丰富的数据资源以及强烈的数据流通需求。
结合广泛调研及专家研讨,我们得到如下趋势观察:在金融行业,头部银行完成布局,关注重心转至数智能力、性能指标;在医疗行业,技术逐步适配行业特点,头部医院规划布局;在政务行业,标杆案例引领实践,连线结网前景广阔;在互联网行业,结合行业技术前沿,探索提升性能新技术方案。
未来,隐私计算应用与隐私计算技术的发展将相辅相成,共同提高。随着隐私计算产品可用性增强,规模将进一步丰富,应用行业将进一步拓展。
可信隐私计算框架体系
广义隐私计算是面向隐私信息全生命周期保护的计算理论和方法,涵盖信息所有者、信息转发者、信息接收者在信息采集、存储、处理、发布(含交换)、销毁等全生命周期过程的所有计算操作,是实现隐私保护前提下数据安全共享的一系列技术。在技术应用过程中,隐私计算因为涉及需求方、供给方、监管方等多方的参与,仍然面临着安全性、合规性、可用性等方面的挑战(如安全共识有待形成、合规适配仍要探索、可用瓶颈亟需突破),由此隐私计算技术如何“可信”应用引发业界思考。
为加快隐私计算的应用发展、建立信任原则、降低社会疑虑和促进达成行业共识,我们提出了“可信隐私计算”框架体系和五大基本特征。“可信隐私计算”的内涵是,在隐私计算的应用过程中,其安全性、可用性和隐私保护能力等应符合设计声明预期,以满足数据需求方、数据提供方和监管方等各方的需求,一般包含安全可证、隐私保护、流程可控、高效稳定,开放普适等基本特征。
隐私计算呼唤“互联互通”
“互联互通”是推广隐私计算落地应用的必经之路
隐私计算的核心价值在于它以数据可用不可见的方式促进了数据资源在不同主体之间的互通。但是,面对当前技术产品的百花齐放,用户选型时产生了极大的困扰。每个业务方都会有众多的数据合作方,而市场上的隐私计算产品已经达到近百款,不同厂商提供的产品在设计原理和功能实现上均有差异,为实现多个合作方之间的数据融合,业务方不得不部署多套产品以逐一适配,出现严重的重复建设情况。而在某些场景中,经过反复沟通,最终的产品选型往往会由相对强势的一方指定。长此以往,市场就会衍生出一个个基于相同的隐私计算产品捆绑形成的小生态,而各个生态之间仍旧相互孤立。那么,隐私计算在破除机构间“数据孤岛”问题后,将催生一个个新的“数据群岛”,这与技术本身促进数据流通的使命相背离。因此,隐私计算产品之间的互联互通已成为产业进一步发展必须解决的问题。
隐私计算 “互联互通”的难点
在技术上,异构隐私计算产品间的互联互联不仅要能够实现核心的技术原理,兼容复杂多样的算法实现方案,还要提供足够的包容性,考虑到不同平台设计的个性差异,保证平台原有功能的实现。
在商业上,无论是技术路线的选择、核心算法的设计和基础功能的实现,都是各个厂商最核心的设计思想和知识产权,实现互联互通的过程中势必会存在相互迁就与妥协,造成一定的损失。现阶段,在隐私计算的应用仍在推进,用户增量不断,在进入存量竞争之前,互联互通对于厂商而言并非”刚需”,因此,从商业角度也有很大的突破难度。
隐私计算“互联互通”实现需要“三步走”
首先是强化概念,理清思路。该部分已经有了一定的基础,《隐私计算跨平台互联互通 第1部分:总体框架》发布后,标准中提出的基本思路已经得到了普遍认可。下一步需要且正在细化和完善后续执行层面的标准。
在方法论基本确定后,第二步需要从散点突破,形成完整方案。在7月的隐私计算大会上,我们启动了互联互通的实现方案征集,试图通过该方式寻找和筛选出真正可落地的、完整的互联互通方案并进行理论分析和测试验证,并依托这个方案孵化测试床和具有代表性、影响力的标杆项目,形成事实标准,强化实施层面的行业认可,反哺正式标准。
有了完整方案后,第三步才是充分推广。在这一步,隐私计算联盟会充分发挥平台的号召力和资源优势,将评估验证后的方案面向各类业务方宣传推广,吸引更多的数据方和技术方进行标准方案的适配验证,不断扩大互联互通的辐射范围,织点成网。
隐私计算开源的意义和现状
隐私计算开源的意义
开源,一方面对隐私计算平台而言,将平台的源代码公示给了所有人,所以不管是算法,还是密码和系统上的安全性都可以得到验证;二是通过来自不同企业的开发者的合作和开源社区内的开发者与用户的交流反馈,可以有效激发技术创新,创造出满足不同场景需求的多种技术方案,增添如区块链辅助、或者是提高隐私计算产品易用性、也或者是工程优化等方面的功能,平台因此更加完备,算法的性能与安全性也进一步提升。
另一方面,开源对隐私计算生态而言,一是在早期有助于开源软件的开发方在横向生态上的构建,即其他企业为了快速入局而使用其开源产品,开源软件开发方因此收获了一批“粉丝”。有了一定的客户基础,开发方也更易于形成自身的商业模式,比如推广软件商业版或者SaaS服务等,更重要的是,对隐私计算来说,各参与方使用不同产品往往不能相互联通,互联互通问题阻碍了隐私计算更大规模化的应用,而通过开源,使用同一套隐私计算内核的厂商在互联互通上容易达成共识;二是开源也有助于企业在纵向生态上的构建,优秀的工程项目往往能对产业发展起到牵引作用,如将优秀的隐私计算开源项目嵌入到大数据平台中、硬件厂商做与其适配的的硬件加速工具等,上下游对其进行协同创新与适配的工作。
隐私计算开源的现状
隐私计算开源项目可追溯到于2017年OpenMined开源其自家产品,国内在2018年底至2019年初由百度、微众银行和蚂蚁率先开源,均为隐私计算行业发展作出贡献,尤其FATE,为这些年隐私计算蓬勃发展、大规模应用落地做出了贡献。但是,当前国内大部分隐私计算开源项目仍处于初期,仅代码开放但社区建设不完备,社区活跃度不够,商业模式不成熟。
近三年越来越多的企业加入隐私计算开源队伍,各开源项目特点不同,有些易用性强,流程简洁、便于部署,用户能快速上手;有些可扩展性好,产品架构层次清晰,各层之间可独立开发,并支持模块化;也有的开源项目功能完备性强,能支持包括联合统计、隐私集合求交、建模等多种功能,每种功能也有满足不同性能与安全要求的算法。
“可信隐私计算”标准与评测体系介绍
“可信隐私计算”标准及评测体系从2018年起逐步构建,经过四年不断发展和完善,隐私计算相关标准已达12项、评测项目达14项。
标准及评测体系为隐私计算产品的供给侧搭建了研发框架,可用于指导相关产品的研发、测试、评估和验收。在确保基础功能和安全的前提下,还设置了一些可选项,引导产品提升易用性和可用性。同时,也为隐私计算产品的需求侧提供指导参考。相关标准有助于需求侧对隐私计算各类产品的框架、技术要求、测试方法等形成统一理解,消除信息壁垒,推动隐私计算数据流通产品的使用。
该标准与评测体系,已成为国内广受行业认可的标准与评测体系。涵盖功能、性能、安全、场景、一体机等专项内容。
表1 “可信隐私计算评测”标准名称
表2 “可信隐私计算评测”评测名称
如何评价隐私计算产品的安全性?
从产品的角度来看,安全性的评价需要关注算法安全、密码安全、通信安全、系统安全、授权认证、稳定性、日志与存证等多个维度。其中,算法安全是整个评价过程中的重中之重。
MPC能够实现在一个分布式网络中,多个参与实体各自持有秘密输入,各方共同完成对某函数的计算,而每个参与实体除计算结果外均不能得到其他参与实体的任何输入信息。算法支持的安全模型、不诚实门限、安全参数都是衡量MPC安全性的重要维度。
安全模型中预设了敌手能够实施的行为,包括遵守协议的半诚实敌手和不遵守协议的恶意敌手,以及在敌手假设下,系统能够保护的安全属性,包括隐私性、正确性等。不诚实门限中体现了计算的参与方数量n,以及算法所能容忍的最大不诚实方数量t。根据t和n的比例,可以划分为诚实大多数和不诚实大多数。安全参数用来衡量攻击方攻破密码机制的困难性,安全参数越高破解难度就越大。根据计算方式不同可以分为计算安全参数和统计安全参数。
FL是一种多个参与方在保证各自原始私有数据不出数据方定义的私有边界的前提下,以保护隐私数据的方式交换中间计算结果,从而协作完成某项机器学习任务的模式。在算法安全性评价中需要关注其对于隐私数据的保护程度以及安全攻击的抵抗能力。
隐私数据包括数据方提供用于训练的原始私有数据、计算中交互的中间数据以及最终产生的计算结果,不同的联邦学习算法能够支持保护不同的隐私数据,但是原始数据和计算结果都是需要至少保护的。由于联邦学习过程涉及多个参与方之间的协同,这也加剧了推理攻击、模型窃取攻击、投毒攻击、对抗攻击等AI攻击的影响。因此,在评价联邦学习算法安全时,也应考虑对于这些常见攻击的抵抗能力。
隐私计算安全标准化工作现状?
在通信行业标准方面,中国信通院云大所、隐私计算联盟联合业内众多研究机构、领军企业的专家共同完成了《隐私计算 多方安全计算产品安全要求和测试方法》、《隐私计算 联邦学习产品安全要求和测试方法》、《隐私计算 可信执行环境产品安全要求》三项标准,全面梳理了当前主流隐私计算产品所面临的安全风险点,为隐私计算产品研发、测试、评估和验收提供了指导参考。
在国际标准方面,云大所参与了IEEE-P2986《Recommended Practice for Privacy and Security for Federated Machine Learning》和IEEE-P3169《Standard for Security Requirement of Privacy-preserving computation》两项隐私计算安全标准的编写工作,为推动隐私计算行业健康、有序发展做出了重要贡献。
隐私计算一体机标准详解
隐私计算一体机:融合软件和硬件技术于一体的专用设备,利用硬件特性实现软件方案,提升隐私计算的安全性和计算性能,同时具有开箱即用、方便部署等特性。
隐私计算一体机是融合软硬件技术于一体的设备,利用硬件特性实现软件方案,提升隐私计算的安全性、计算性能,同时具有开箱即用快速组网等特性。一体机通过连接参与的计算数据,对外提供隐私计算服务,用户及用户业务系统可通过WEB操作界面、API接口或命令行的形式调用一体机的功能,实现相应的业务。同时,也可以把部分场景(如风控场景、营销场景)的业务逻辑封装在一体机的内部,依靠一体机的安全防护能力对业务进行保护。
技术架构和功能方面,一体机在硬件层除了通用的计算、网络、存储等基础组件外,还应包括安全增强硬件和计算加速硬件。为了支持软件模块的算法能力,中间层应包括硬件驱动服务和相应的软件适配功能。在软件层,应支持MPC、FL、TEE隐私计算三大主流方法中至少一种方法,实现安全求交、联合统计、联合建模等运算。在服务层,一是要包括通用服务功能,如资源管理、日志存证等功能,二是可以选择性地支持面向业务场景的服务。
性能方面,因为隐私计算本身涉及的场景和运算种类比较多,从基础的密码算子如椭圆曲线点乘、到MPC的基础运算如半同态运算,再到加法乘法比较以及求交、建模等复杂运算。标准限定的隐私计算一体机应至少利用一种硬件,实现了一种运算性能的提升。
安全性方面,由于实现安全增强的硬件种类较多且功能不完全相同,如硬件密码模块、TEE模块和可信计算模块。所以,对不同实现方案的一体机,我们认为安全要求包括必须满足的隐私计算产品基础安全要求和可选择性满足的可信安全要求两大类。基础安全要求包括数据的保密性、完整性、算法安全、通信安全、密码安全、授权认证和日志存证功能。可信安全要求,主要包括可信性,即系统具有可信启动能力、可信度量机制和可信度量值安全存储等功能;此外也需提供远程验证报告;如果是TEE一体机,还要满足安全隔离要求,包括不可信执行环境与可信执行环境的隔离、不同可信应用实例的隔离等内容。
易用性方面,一体机应至少能够支持通过默认配置实现单机开箱即用,支持多种部署方式和快速地接入参与方的目标网络。若具备集群化能力时,也应能够实现多个一体机之间的快速组网。若支持一些可视化的操作,也可以提升产品的易用性。
以上分享请访问视频号“云大说”观看详细内容,联系各位老师:
贾轩 jiaxuan@caict.ac.cn
白老师 baiyuzhen@caict.ac.cn
吕老师 lvailin@caict.ac.cn
杨老师 yangjingshi@caict.ac.cn
童老师 tongjinrui@caict.ac.cn
王老师 wangsiyuan@caict.ac.cn