AI 应用实践中的数据模型安全和隐私保护(附下载)

在实际应用中,需要结合具体场景、数据量来选择对应的技术方案,同时也要结合成本预算、隐私保护等级和收益来综合考量。

AI 应用实践中的数据模型安全和隐私保护
出处:清华大学、中国信通院、蚂蚁集团

伴随人工智能技术底座不断夯实和大模型、AIGC 等的爆发式增长,人工智能迈出了走向通用人工智能的关键一步,2023 年 4 月中共中央政治局会议强调“重视通用人工智能发展,营造创新生态,重视防范风险”,可信 AI 成为新阶段平衡创新与风险的重要技术手段。

人工智能带来的数据隐私和安全问题在个人、企业乃至国家层面受到密切关注。从国家层面来看,国内外监管为了防止数据滥用、隐私泄露等个问题,陆续出台相关政策。

从企业层面来看,数据是企业的核心资产,出于商业竞争和数据保护等考虑,企业不愿意也不放心将其核心数据直接提供给合作方使用。从个人层面来看,个人也担心在互联网大环境中的隐私泄露,不愿意将上网行为数据暴露给他人。

图 1 跨主体隐私计算的常见方法 来源:蚂蚁集团

多方建模旨在符合各项法律、法规及政策的前提下进行顺畅高效的数据合作,解决“信息隐私”和“数据孤岛”问题,达成合作共赢。目前业界有三大主流的技术方案:基于硬件的可信执行环境(TEE,Trusted Execution Environment)方案、基于密码学的多方安全计算(MPC,Multi-Party Computation)方案和基于多方协同训练的联邦学习(FL,Federated Learning)方案。在实际应用中,需要结合具体场景、数据量来选择对应的技术方案,同时也要结合成本预算、隐私保护等级和收益来综合考量。

一、终端社交内容中的隐私保护

在众多内容风险场景中,聊天文本中存在很多赌博类、色情类、涉政类以及欺诈类话术,对于风险主体识别非常重要。由于隐私合规的限制,大部分聊天类数据无法在服务端进行存储,只能通过实时策略或实时模型进行风险识别。

通过将模型部署在终端设备上,同时结合 GAN-InstaHide(Generative Adversarial Networks-Instance Hiding scheme,生成对抗网络-实例隐藏策略)等算法,可以有效保护用户隐私。相比于服务端模型,终端模型有如下优势:

  1. 聊天内容直接在终端消费,产出样本表征和内容风险分,聊天内容无需明文在服务端通过模型 进行风险识别,减少明文数据流通。
  2. 通过加入 Instance Encoding 隐私增强算法,降低样本表征中蕴含的原始数据信息,使样本表征 难以反推复原出原始数据,保护用户隐私,同时使得密文表征可以进行存储,为后续案例分析和模型迭代建立的基础。
  3. 用户的聊天数据在端侧存储(端侧有用户可见历史聊天记录),在用户发送和接受消息时,可利用存储于终端设备的上下文信息进行风险识别,提高风险识别率。
  4. 端模型天然具备分布式推理的能力,每个用户的样本在其终端设备商进行模型推理,没有 QPS(Queries Per Second,每秒请求数)压力,同时减少服务端资源消耗。

二、IoT(物联网)人脸特征隐私保护算法

人脸识别技术被广泛应用在核身、支付等各类场景,在业务蓬勃发展的同时也引来了新的问题,比如部分厂商强制使用/滥用人脸技术、黑灰产通过伪造人脸进行攻击。作为用户感知强的应用场景,生物信息的隐私保护极其关键和重要,近年来中华人民共和国最高人民法院、工信部等颁布《信息安全技术个人信息安全规范》等相关规定,明确指出一系列关于人脸隐私和安全相关的要求,比如“生物特征应具备不可逆、可撤销、不可链接的特性”。

图 2 TEE-DP 算法方案 来源:蚂蚁集团

该方案保证 REE 内存中只存在明文的加噪特征,原始特征均在 TEE 中,有效保证了本地链路中人脸特征的安全性。TEE-DP 方案可以有效保护人脸特征库,并具有系统安全、特征不可逆、识别精度无损、资源开销小、计算效率高等优点。

如何严格遵循监管的要求,有效保护刷脸用户的隐私安全,是当前人脸识别业务的研究重点,也是各大厂商面临的挑战。蚂蚁 TEE-DP 算法方案,结 了TEE 和DP(Differential Privacy,差分隐私)加噪算法的优点,以DP 特征加噪和 TEE 为基础,先在云侧建立密态特征库和密态加噪特征库,然后一起下发到 REE( Rich Execution Environment,富执行环境)中进行管理,在刷脸验证时,首先在REE 中通过加噪进行粗排,然后进入 TEE 进行精排。这样的二阶段的方式能够有效缓解TEE 中的性能限制,并且在 REE 中添加了DP,也能保护用户的隐私信息。

三、多方安全计算助力行业跨机构协作

在法律与相关政策的推动下,各类机构都在积极开展数据安全与合规能力建设,多方安全计算是一种被广泛采纳的数据可信流通技术方案,在普惠金融、智慧医疗、保险科技、智慧城市等方向均取得了良好效果。

在信贷领域中,小微企业信贷占比小、融资成本高的问题突出。蚂蚁积累了大量长尾小微客户及小微企业的数据,采用可证多方安全计算技术,不泄露明文及可反推原始数据的中间数据,阻止了数十亿高风险贷款发放,增加识别 30+万名低风险客户,帮助银行高效完成风险管控,扩大普惠信贷服务范围。

在联合营销领域中,第四范式的云知联邦学习平台构建了多方安全计算全栈解决方案,某个区域银行本行通过其他卡机构补充优质跨行消费行为、资金流动性数据,利用联邦学习LR(逻辑回归)、XGB(极端梯度提升)等算法联合建模得到优质高净值客户,AUC(曲线下面积)和 KS(Kolmogorov-Smirnov 检验)均取得 10%左 的增长。

在智慧医疗领域,锘崴科技的锘崴信隐私保护计算平台通过联合分析、联邦学习技术实现了跨数据源数据虚拟融合,针对全基因组关联分析(GWAS,Genome-Wide Association Study)、罕见病专病靶向性基因研究等这类依赖大样本量的研究,解决因单一机构样本量不足而导致研究结果可信度下降的问题。

目前多方安全计算平台建设参与商众多,涉及各行业,但各方的数据、平台无法直接打通,因此跨平台互联互通是亟待解决的方向,互联互通生态有助于多样化数据的可信链接,有利于业务模型改善,是可信数据生态建设中不可或缺的部分。

本文摘编自清华大学、中国信通院、蚂蚁集团发布的《可信 AI 技术和应用进展白皮书 2023》,全文下载:

更多标准、白皮书、报告等高质量纯净资料下载,在文末扫码关注官方微信公众号“idtzed”,进入公众号菜单“治库”,或按自动回复发送引号内关键词。

一条评论