数治思维 | 院士方滨兴:模型加工场实现隐私保护与数据要素流通

数据需要流通才能发挥最大价值,但隐私保护成为横亘在企业面前的大难题,模型加工场基于分享价值不分享数据的关键技术有望解决这一问题。

640-10
出处:奇安信集团

7月6日,BCS 2023北京网络安全大会在北京国家会议中心开幕,中国工程院院士、中国电子信息产业集团首席科学家、鹏城实验室方向责任院士方滨兴发表了“模型加工场:一种支持隐私保护的数据使用权交易方法”的主题演讲。

他表示,数据需要流通才能发挥最大价值,但隐私保护成为横亘在企业面前的大难题,模型加工场基于分享价值不分享数据的关键技术有望解决这一问题。

题图:中国工程院院士、中国电子信息产业集团首席科学家、鹏城实验室方向责任院士方滨兴

方滨兴说,在数据流通中,数据提供方与消费方通过数据服务提供方进行交易,共同形成了数据要素流通交易市场。数据服务提供者要对数据提供安全技术保护,包括数据协商、访问控制、使用控制等。

他指出,目前国际上已经有一些数据流通交易隐私保护实践。比如数据厂商Snowflake通过数据不动程序动,实现了数据提供方实时安全地共享数据获取数据收益。欧盟国际数据空间(IDS)基于数据所有权与使用权分离模式,已在多个行业开展实践探索,累计超过50个场景案例。微软可信研究环境(TRE)使用安全输出机制,让研究人员在高安全控制和数据保护下访问和使用敏感数据。

基于国际研究和工程实践,方滨兴提出兼顾隐私保护与数据要素流通的模型加工场技术。该技术包含五大要素:核心方法是数据不动程序动,关键技术是分享价值不分享数据,辅助手段是数据可用不可见,应用模式是保留所有权释放使用权,计算环境是算力网互联形成统一数据域。

640-13

数据不动程序动,是指采取网络靶场技术,构建一个可信计算平台,使得外部程序可以在该平台上进行运行。隐私数据可以以裸数据的形式放在该平台中,由摆渡过来的外部程序利用这些数据来进行模型加工,但人员不能进入该“模型加工场”查看调阅数据。管理员受“云匣子”审计系统控制,防止擅自拖走数据。

分享价值不分享数据,是指采取信息过滤技术,构建一个用于防止原始数据被拖走的“防水堡”,确保外部程序在可信计算平台中计算之后,向外输出的只能是参数之类的价值信息,而不能是微观的原始数据。由此,确保该可信计算平台仅仅以模型加工场的形式提供服务,而不会将隐私信息以各种形式向外夹带出去。

数据可用不可见,是指可信计算平台在支持用户数据调试期间对外提供替代数据供使用者测试并调试使用。生成数据可以是置换、生成或挑选的数据。使用者根据所提供的经过变换的样本数据进行潜在价值的挖掘分析,以便确定从平台数据中能够生成什么样的模型,进而判断是否要进入模型加工场进行数据挖掘。

保留所有权释放使用权,是指可信计算平台提供用户数据所有权管理模式,让数据所有者来决定数据是否可以被使用权。一是对数据进行加密,并通过属性加密的管理方式来出让使用权;二是通过远程控制模式,通过远程授权来放行对所属数据的访问。以此达到数据所有者只交易使用权,不交易所有权的目的。

算力网互联形成统一数据域,是指当多个可信计算平台需要进行更大规模的数据处理或机器学习的时候,可通过算力网将各可信计算平台互连以构成一个统一数据域,数据可在统一域中流动。还可以假设各可信计算平台之间只能分享价值不能分享数据,从而采取联邦学习的模式,在各可信计算平台之间仅进行参数交换。

方滨兴表示,鹏城实验室基于模型加工场技术,已经形成了鹏城AI靶场、鹏城算力网等基础设施,可有效提供支持隐私保护的数据使用权交易服务。鹏城实验室利用该平台多语言机器翻译研究领域进行实践,在保证参与科研机构特定语言独特语料数据所有权的前提下推动科研共享,得到了以中文为中心一带一路多语言机器翻译大模型,低资源语种翻译效果得到明显提升。

方滨兴说,模型加工场技术在数据不动程序动、数据可用不可见、分享价值不分享数据理念的指导下,能在隐私保护前提下充分发挥数据最大价值,进而打造数据要素流通交易可信数据空间的中国范式。

一条评论

发条评论

你的电邮不会被公开。有*标记为必填。