AI 应用实践中的数据模型安全和隐私保护（附下载）

在实际应用中，需要结合具体场景、数据量来选择对应的技术方案，同时也要结合成本预算、隐私保护等级和收益来综合考量。

伴随人工智能技术底座不断夯实和大模型、AIGC 等的爆发式增长，人工智能迈出了走向通用人工智能的关键一步，2023 年 4 月中共中央政治局会议强调“重视通用人工智能发展，营造创新生态，重视防范风险”，可信 AI 成为新阶段平衡创新与风险的重要技术手段。

人工智能带来的数据隐私和安全问题在个人、企业乃至国家层面受到密切关注。从国家层面来看，国内外监管为了防止数据滥用、隐私泄露等个问题，陆续出台相关政策。

从企业层面来看，数据是企业的核心资产，出于商业竞争和数据保护等考虑，企业不愿意也不放心将其核心数据直接提供给合作方使用。从个人层面来看，个人也担心在互联网大环境中的隐私泄露，不愿意将上网行为数据暴露给他人。

图 1 跨主体隐私计算的常见方法来源：蚂蚁集团

多方建模旨在符合各项法律、法规及政策的前提下进行顺畅高效的数据合作，解决“信息隐私”和“数据孤岛”问题，达成合作共赢。目前业界有三大主流的技术方案：基于硬件的可信执行环境（TEE，Trusted Execution Environment）方案、基于密码学的多方安全计算（MPC，Multi-Party Computation）方案和基于多方协同训练的联邦学习（FL，Federated Learning）方案。在实际应用中，需要结合具体场景、数据量来选择对应的技术方案，同时也要结合成本预算、隐私保护等级和收益来综合考量。

一、终端社交内容中的隐私保护

在众多内容风险场景中，聊天文本中存在很多赌博类、色情类、涉政类以及欺诈类话术，对于风险主体识别非常重要。由于隐私合规的限制，大部分聊天类数据无法在服务端进行存储，只能通过实时策略或实时模型进行风险识别。

通过将模型部署在终端设备上，同时结合 GAN-InstaHide（Generative Adversarial Networks-Instance Hiding scheme，生成对抗网络-实例隐藏策略）等算法，可以有效保护用户隐私。相比于服务端模型，终端模型有如下优势：

聊天内容直接在终端消费，产出样本表征和内容风险分，聊天内容无需明文在服务端通过模型进行风险识别，减少明文数据流通。
通过加入 Instance Encoding 隐私增强算法，降低样本表征中蕴含的原始数据信息，使样本表征难以反推复原出原始数据，保护用户隐私，同时使得密文表征可以进行存储，为后续案例分析和模型迭代建立的基础。
用户的聊天数据在端侧存储（端侧有用户可见历史聊天记录），在用户发送和接受消息时，可利用存储于终端设备的上下文信息进行风险识别，提高风险识别率。
端模型天然具备分布式推理的能力，每个用户的样本在其终端设备商进行模型推理，没有 QPS（Queries Per Second，每秒请求数）压力，同时减少服务端资源消耗。

二、IoT（物联网）人脸特征隐私保护算法

人脸识别技术被广泛应用在核身、支付等各类场景，在业务蓬勃发展的同时也引来了新的问题，比如部分厂商强制使用/滥用人脸技术、黑灰产通过伪造人脸进行攻击。作为用户感知强的应用场景，生物信息的隐私保护极其关键和重要，近年来中华人民共和国最高人民法院、工信部等颁布《信息安全技术个人信息安全规范》等相关规定，明确指出一系列关于人脸隐私和安全相关的要求，比如“生物特征应具备不可逆、可撤销、不可链接的特性”。

图 2 TEE-DP 算法方案来源：蚂蚁集团

该方案保证 REE 内存中只存在明文的加噪特征，原始特征均在 TEE 中，有效保证了本地链路中人脸特征的安全性。TEE-DP 方案可以有效保护人脸特征库，并具有系统安全、特征不可逆、识别精度无损、资源开销小、计算效率高等优点。

如何严格遵循监管的要求，有效保护刷脸用户的隐私安全，是当前人脸识别业务的研究重点，也是各大厂商面临的挑战。蚂蚁 TEE-DP 算法方案，结了TEE 和DP（Differential Privacy，差分隐私）加噪算法的优点，以DP 特征加噪和 TEE 为基础，先在云侧建立密态特征库和密态加噪特征库，然后一起下发到 REE（ Rich Execution Environment，富执行环境）中进行管理，在刷脸验证时，首先在REE 中通过加噪进行粗排，然后进入 TEE 进行精排。这样的二阶段的方式能够有效缓解TEE 中的性能限制，并且在 REE 中添加了DP，也能保护用户的隐私信息。

三、多方安全计算助力行业跨机构协作

在法律与相关政策的推动下，各类机构都在积极开展数据安全与合规能力建设，多方安全计算是一种被广泛采纳的数据可信流通技术方案，在普惠金融、智慧医疗、保险科技、智慧城市等方向均取得了良好效果。

在信贷领域中，小微企业信贷占比小、融资成本高的问题突出。蚂蚁积累了大量长尾小微客户及小微企业的数据，采用可证多方安全计算技术，不泄露明文及可反推原始数据的中间数据，阻止了数十亿高风险贷款发放，增加识别 30+万名低风险客户，帮助银行高效完成风险管控，扩大普惠信贷服务范围。

在联合营销领域中，第四范式的云知联邦学习平台构建了多方安全计算全栈解决方案，某个区域银行本行通过其他卡机构补充优质跨行消费行为、资金流动性数据，利用联邦学习LR（逻辑回归）、XGB（极端梯度提升）等算法联合建模得到优质高净值客户，AUC（曲线下面积）和 KS（Kolmogorov-Smirnov 检验）均取得 10%左的增长。

在智慧医疗领域，锘崴科技的锘崴信隐私保护计算平台通过联合分析、联邦学习技术实现了跨数据源数据虚拟融合，针对全基因组关联分析（GWAS，Genome-Wide Association Study）、罕见病专病靶向性基因研究等这类依赖大样本量的研究，解决因单一机构样本量不足而导致研究结果可信度下降的问题。

目前多方安全计算平台建设参与商众多，涉及各行业，但各方的数据、平台无法直接打通，因此跨平台互联互通是亟待解决的方向，互联互通生态有助于多样化数据的可信链接，有利于业务模型改善，是可信数据生态建设中不可或缺的部分。

本文摘编自清华大学、中国信通院、蚂蚁集团发布的《可信 AI 技术和应用进展白皮书 2023》，全文下载：