深入生成式人工智能风险治理做好个人信息合规

以工程化的风险治理视角分析，生成式人工智能的风险治理需要贯穿产品的全生命周期——模型训练、服务上线、内容生成、内容发布与传播各阶段。

以 ChatGPT 为首的生成式人工智能，在多种感知和认知任务上表现出与以往人工智能截然不同的能力，使人工智能产品和服务的个性化、定制化能力高度提升，给公众带来诸多工作便利和生活娱乐，表现出强大的归纳总结能力和强大的创造力，并且随着技术水平不断发展，生成式人工智能的潜力将进一步被激发，广泛赋能各垂直领域，与人类社会深度融合。

但是，新技术往往是一把双刃剑，生成式人工智能也不例外，其对社会的深刻影响将强化和放大各类治理风险。围绕内容安全、个人信息保护能力、模型安全、知识产权权属等问题，社会各界表现出不同程度的担忧。

1. 个人信息的实时交互担忧

生成式人工智能的训练与使用均依赖于数据，目前已成为个人信息保护监管领域的高度关注对象。一方面，真实个人信息作为训练数据可以使生成式人工智能产品与服务更加个性化、定制化。另一方面，个人信息参与到生成式人工智能的训练或使用，如未进行匿名化处理有潜在暴露特定个人信息的风险。

生成式人工智能技术、产品与服务所涉及的个人信息问题，既需要考虑训练数据中的个人信息，也需要考虑服务过程中实时交互中个人信息的输入与输出问题。一般来说，在模型训练阶段，使用的数据中是否可以包含个人信息、可以包含的个人信息类型与程度如何、个人信息的来源如何、用户输入个人信息是否可以跨境等问题，可以在数据集投入模型训练前通过用户授权、数据清洗、去标识化、匿名化、出境安全评估等方式解决。在服务阶段，生成式人工智能的实时交互的特点几乎没有给常用的“机审 + 人审”方式留下任何机会。各界需要在新的技术背景下重新思考和审视个人信息问题，尤其是实时交互中的个人信息是否可以收集、如何收集、是否需要单独提示、收集的信息应当如何使用，以及模型的生成内容是否可以呈现个人信息等问题。

语言大模型的风险来源

语言大模型基于Transformer 网络结构，属于深度神经网络，具有深度神经网络固有的鲁棒性不足、可解释性缺乏、生成内容可控性较低等缺陷。

在训练的阶段，会因为训练数据中含有未经许可的个人信息、违法不良信息、错误的价值观和偏见、未经授权的内容等而引入个人信息、内容安全、模型安全、知识产权方面的风险；如果模型没有学习到拒绝用户的不合理请求，则可能为了满足用户的需要而输出风险信息；强化学习阶段可能放大已经存在的风险。生成阶段也会因为用户 Query 的特定要求、对话的前文、调用的工具集等对模型产生诱导，生成风险内容。

视觉大模型的风险来源

视觉大模型的风险来源主要来自两部分，一部分是模型自身的安全问题，例如深度神经网络的鲁棒性、公平性、不可解释性等风险。此外，在视觉大模型的不同训练阶段，也存在这个人信息、内容安全、模型安全、知识产权等方面的风险。例如，训练数据中含有未经授权的个人信息数据，从而导致视觉大模型生成了侵犯个人隐私的图片。下表展示了视觉大模型在训练的各个阶段的一些风险问题以及产生这些风险问题的原因。

2. 生成式人工智能的风险治理

从前面的分析得知，很多风险是从训练使用的数据，以及训练方法引入的；而且由于深度神经网络的不可解释性，我们无法确定网络中哪部分参数对应这些风险，也没有技术手段在生成阶段禁止模型生成风险内容。这决定了以工程化的风险治理视角分析，结合国内外法规和倡导性意见，生成式人工智能的风险治理需要贯穿产品的全生命周期——模型训练、服务上线、内容生成、内容发布与传播各阶段。同时，训练数据和模型参数规模巨大、深度神经网络的不可解释性，为鼓励新技术的发展，结合国际治理实践，又需要对可能出现的风险保持审慎包容的态度。

大模型生成的内容是用户和模型交互的结果，并不完全是模型自身的产出。内容安全的风险很大程度上是来自于用户的恶意输入和诱导，从用户维度进行管控也是非常有效的手段之一。而在内容传播阶段，其风险的扩散范围和速度，已经脱离了服务提供者的控制，需要用传播领域的手段来治理风险。因此，生成式人工智能的风险治理需要全面考虑数据、模型、服务、用户等要素。

2.1 模型训练阶段的风险治理

训练阶段奠定了模型的能力基础，也决定了模型自身的安全性；这个阶段会涉及到数据和模型，不会和用户发生关联。

相应的风险治理工作包括：

2.1.1 训练数据的筛选和过滤

采集时对数据源进行审核，选择可信度高、正确导向的数据源合法进行采集；采集后对数据进行清洗、安全过滤，剔除含有风险的数据。在有监督微调阶段、基于人类偏好的强化学习阶段涉及到标注的数据，需要进行机器和人工相结合的审核。数据的质量在很大程度上决定了模型能力和安全性的上限。

2.1.2 模型安全评测

针对生成式人工智能的特点，进行风险定义，建设 Benchmark 和评测能力，对模型风险做全面深入的评测。Benchmark 的构建，需要考虑多个维度：风险分类、对模型的诱导方式、事实幻觉，以及针对特定领域 Query 的识别。风险分类包括但不限于内容安全、个人信息、模型安全等；诱导方式包括但不限于直接提问、多轮问答、角色扮演、安全否定、信息投毒等；事实幻觉考察大模型生成内容与事实是否符合；针对医疗、投资等特定领域的评测，对公众提供服务时回答这些领域的问题可能需要相关资质。

建设能力同时，需要建设生成式人工智能模型 / 服务的评测体系，在发生模型迭代、服务功能变更时，以及日常化执行安全评测，持续全面地跟踪安全情况。

2.1.3 模型对齐与内生安全增强

首先，通过技术手段将人类价值观量化并嵌入模型，令生成式人工智能“理解”人类的价值，保障在运行实施阶段能够遵循。针对评测中发现的问题，采取技术手段在模型迭代时增强内生安全能力。模型内生安全能力能够从根本上保障模型的安全性，能够有效减轻外部安全措施的压力，降低风险内容生成的可能性。内生安全的增强，可以贯穿模型训练的三个阶段，在每个阶段有不同的方式。

2.1.4 算法机制机理审核

企业内的风险管理团队需要在生成式大模型构建的早期就介入，围绕生成式人工智能产品全生命周期的潜在风险要素，对模型的目的、采用的技术、使用的数据、干预的方式等重要因素开展审核，对不合规、不合理的部分提出具体可实施的整改要求，并监督有关部门尽快落实，将安全隐患遏制于研发阶段。

2.2 服务上线阶段的风险治理

在算法服务上线阶段，服务提供者需要选择安全有效的模型作为基座构建完整的算法服务。在这个阶段并不涉及模型的训练、使用的数据，但是会决定对模型的核验、对模型的使用方式、调用的工具集等。

模型选用：在模型能力满足业务需求的前提下，服务提供者可以选用具有良好资质和声誉的技术支持者提供的模型，模型应尽可能满足鲁棒性、可解释性、可追溯性等指标要求。
模型核验：服务提供者在使用前对模型进行核验，完成多维度安全评测。服务提供者并不一定具备进行多维度安全评测的能力，需要由中立的第三方机构提供评测服务。
服务需要使用的工具集（Tool-plugin）：服务提供者根据业务目的明确在服务过程中调用哪些工具，验证其合理性和必要性；决定工具集返回信息的使用方式；进行安全测试，确保工具提供的信息不会导致模型产生违法不良信息、错误倾向等内容。
合规动作：企业自行开展算法安全自评估，对算法目的、使用的数据、模型、训练方法、评测过程、干预策略等进行评审。根据主管部门的管理办法要求，技术提供者和服务提供者需要向主管机关做相关的算法备案、向用户提供用户协议、公示算法机制机理等，在运行过程中根据审计要求建立完善的日志。

2.3 内容生成阶段的风险治理

大模型生成的内容是用户和模型交互的结果。用户的输入，以及模型对用户之前输入的反馈，都影响到模型当前的生成。用户使用生成式人工智能服务的目的、是否主观上给出恶意输出和诱导，很大程度上决定了模型输出内容的安全性。生成式人工智能服务，是用户达成目的的工具。实践中，内容安全的风险很大程度上是来自于用户的恶意输入和诱导，从用户维度进行管控也是非常有效的手段之一。这就意味着，服务提供者对生成内容的风险管理并不局限在内容维度，还需要扩展到用户维度。具体的工作包括：

2.3.1 账号管理

按照相关法规，完成账号的注册、身份核验、安全管控、账号的分类分级等管理工作。对于用户的身份核验，《互联网信息服务深度合成管理规定》中明确指出：“深度合成服务提供者应当基于移动电话号码、身份证件号码、统一社会信用代码或者国家网络身份认证公共服务等方式，依法对深度合成服务使用者进行真实身份信息认证，不得向未进行真实身份信息认证的深度合成服务使用者提供信息发布服务”。《生成式人工智能服务管理暂行办法》没有做进一步的要求，但参考相关定义，生成式人工智能服务提供者也应当遵守包括《互联网用户账号信息管理规定》在内的相关法律法规规定，在前端对账号进行管理，降低生成内容的风险。

2.3.2 个人信息保护

《互联网信息服务深度合成管理规定》中明确指出：深度合成服务提供者和技术支持者提供人脸、人声等生物识别信息编辑功能的，应当提示深度合成服务使用者依法告知被编辑的个人，并取得其单独同意。《生成式人工智能服务管理暂行办法》中要求，在模型训练过程中涉及个人信息的，应当取得个人同意；（技术、服务）提供者不得收集非必要个人信息，不得非法留存能够识别使用者身份的输入信息和使用记录，不得非法向他人提供使用者的输入信息和使用记录。提供者应当依法及时受理和处理个人关于查阅、复制、更正、补充、删除其个人信息等的请求。

2.3.3 内容审核与处置

审核机制：建立内容审核的制度、专职团队；对用户输入信息、模型输出信息进行安全审核；对不同时效要求的业务场景采取不同的审核方式。
内容分类分级：对于涉及生物特征，包含特殊含义物体，新闻等生成内容进行更严格的审核。
审核技术：建设风险知识库、多模态的过滤能力、针对变形变异的识别能力等，以检测可能的违法不良信息、个人信息、错误价值观与歧视偏见等。
正向引导：针对底线及原则问题，需要建设标准答案库。一方面避免因为模型的行为不可控性做出错误的回答，另一方面也可以通过标准答案传递主流价值观，进行正向引导。
不当内容处置：建立阻断机制；对于模型生成不适宜内容的情况，具备应急处理的技术手段等。

2.4 内容传播阶段的风险治理

内容的传播方式和途径、范围是风险的决定性因素之一。在传播环节出现的风险，需要建立相应的风险治理技术手段和工作机制。

2.4.1 添加标识

《互联网信息服务深度合成管理规定》明确定义，深度合成服务可能导致公众混淆或者误认的，应当在生成或者编辑的信息内容的合理位置、区域进行显著标识，向公众提示深度合成情况。这些场景包括：

智能对话、智能写作等模拟自然人进行文本的生成或者编辑服务；
合成人声、仿声等语音生成或者显著改变个人身份特征的编辑服务；
人脸生成、人脸替换、人脸操控、姿态操控等人物图像、视频生成或者显著改变个人身份特征的编辑服务；
沉浸式拟真场景等生成或者编辑服务；
其他具有生成或者显著改变信息内容功能的服务。

为了实现对生成合成内容的确认和溯源，推荐对生成内容添加隐藏标识，记录服务提供者、服务使用者、生成时间等信息。隐藏标识应具备足够的抗攻击能力、溯源能力。目前，针对图像、视频的隐藏标识在技术上比较成熟，达到实践中可用的程度；针对文本的隐藏标识能力技术上尚未成熟。《生成式人工智能服务管理暂行办法》要求，（技术、服务）提供者应当按照《互联网信息服务深度合成管理规定》对图片、视频等生成内容进行标识。

2.4.2 风险监测

信息监测：建立舆情监测、前台内容巡检等工作机制。
举报投诉：建立举报投诉入口，并及时处理。

2.4.3 应急处置

建立辟谣机制，建立应急处理响应机制并做演练。在虚假信息传播时，尽早进行处置可以有效控制传播范围和深度。

3. 个人信息合规

3.1 大模型与个人信息的关系

人工智能经历了从有监督学习向无监督学习的发展阶段，卷积神经网络等技术推动了数据驱动的应用模式：在需求侧人工智能可以通过获取、学习和分析海量的用户行为数据，判断用户的偏好和需求，实现对用户的认知和洞察；在供给侧人工智能则通过学习内容的特征，借助推荐、排序等机制实现用户需求和内容的匹配，并根据用户的行为反馈进行优化，提高推荐的准确性。基于上述特点，此类人工智能的产业应用呈现出明显的规模效应，在需求端需要更多的用户数据，在供给端则依赖更为全面的内容特征。

与此前的人工智能相比较，生成式人工智能的技术特征有明显差异。语言大模型的主要功能是模拟人类的思维活动方式生成人类可以理解和使用的内容，模型的训练并不依赖于用户行为数据，而是对语料库这一类知识性内容有强烈的需求。此外，为了保证生产内容与人类价值观的对齐，业界往往采取了强化学习的方法，通过纳入人工标注等 RLHF 机制优化模型表达，使模型生成的内容更接近于人类的认知。对于用户数据并不依赖、对专业化高质量语料依赖大，这一特点使得生成式人工智能的产业应用不需要依赖连接用户和内容的平台模式，而可以发展出更为专业化、通用化的解决方案，以满足人们对于知识内容的需求。

3.2 训练数据中的个人信息

生成式人工智能技术的发展对训练数据的依赖度很高，在充分挖掘数据价值的过程中，不可避免要解决个人信息保护的问题。从平衡利益相关方、促进技术和产业发展等角度综合考虑，场景化和分类分级是目前认可度较高的有益思路。

在生成式人工智能对个性化要求不高的情况下，主动采用技术手段从源头减少个人信息收集、降低个人信息在训练数据中的比例和真实性。实践中，预训练阶段语料数量巨大，常采取“关键词 + 正则表达式匹配”的方式检测身份证、电话号码等个人信息，然后执行删除或者模糊化操作。

对于训练数据中无法避免收集、无法剔除的个人信息，按照我国法律法规及标准规范要求，一方面，可从合法公开披露的信息中收集个人信息进行训练；另一方面，从收集、处理、存储、使用等环节综合考虑个人信息的授权同意和安全使用。在全球性产品和服务中，对跨境传输的个人信息应同步考虑两国或地区之间对个人信息保护的不同要求以及数据跨境安全问题。

同时需要规范未成年人保护，尤其针对未成年人提供服务时，需要执行更严格的个人信息保护措施。

从目前《生成式人工智能服务管理暂行办法》看，训练数据中的个人信息仍应按照《网络安全法》《个人信息保护法》《数据安全法》《个人信息安全规范》《互联网信息服务深度合成管理规定》等要求利用，一般需遵循下述基本规则：

收集与处理：核心是同意与分级。

保障用户个人知情权，以征得用户自愿、明确同意为原则，仅在极少数法律规定的特定情形下可不取得个人同意。例如，《个人信息保护法》第二十七条“个人信息处理者可以在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息；个人明确拒绝的除外。个人信息处理者处理已公开的个人信息，对个人权益有重大影响的，应当依照本法规定取得个人同意。”同时，个人信息授权可以撤回。

在国内，需按照《个人信息保护法》、GB/T 35273-2020《信息安全技术个人信息安全规范》的规定，进行一般个人信息和敏感个人信息（生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等）的分类，尤其注意特殊用途——人脸、人声等生物识别信息用于生成式人工智能服务的情形下，产品和服务的提供者需要明确提示并取得使用者单独同意。

GB/T 42574-2023《信息安全技术个人信息处理中告知和同意的实施指南》更为详细地区分了“告知”与“同意” 情形，并对应提出了相关技术性处理方案，对法律规定情形予以推荐性细化与补充。

存储、加工与传输：核心是分级、去标识化、匿名化以及加密。

对于不同级别的个人信息采取不同的措施使其脱离与个人信息主体之间的关联性，有利于在保护个体权利的基础上针对性使用。

需要注意《生成式人工智能服务管理暂行办法》从数据存储角度给用户输入个人信息用于后续训练数据增加了明确限制，要求产品或服务提供者“不得非法留存能够识别使用者身份的输入信息和使用记录”。

GB/T 37964-2019《信息安全技术个人信息去标识化指南》对去标识化进行了技术性阐述，同时，在附件中提供了针对个人信息去标识化的常用技术和模型，供实践中参考。GB/T 42460-2023《信息安全技术个人信息去标识化效果评估指南》也从效果上为个人信息的处理提供了参照。

由于个人敏感信息的泄露和非法使用对人身、财产、人格尊严具有高风险，GB/T 35273-2020《信息安全技术个人信息安全规范》指出在传输和存储中，对个人敏感信息采取加密等安全措施是必要的。

使用与展示：核心是分级、信息范围与安全可控、去标识化、降低负面影响。

对已收集和处理的个人信息的使用与展示是生成式人工智能训练阶段对个人信息利用的重要环节。以可控、安全、无害的方式利用个人信息对生成式人工智能进行训练，保证个人信息经过处理后不再与特定个人或群体相关、不胡乱匹配，是奠定生成物真实、合法、无害的基础。

《生成式人工智能服务管理暂行办法》中，一方面对预训练数据、优化训练数据的真实性、准确性、客观性、多样性提出要求，另一方面要求产品或服务提供者不得非法留存能够识别使用者身份的输入信息和使用记录等，同时对个人信息更正、删除、屏蔽和投诉机制的建立提出要求。

GB/T 35273-2020《信息安全技术个人信息安全规范》第 7 条对个人信息的使用与展示提出了规范性参考，虽然整体侧重个性化，但对训练数据中个人信息的使用与展示的技术性设计具有合规参考性。

委托处理、共享、转让及第三方接入：核心仍是信息范围与安全可控，且在个人信息处理者有变的情况下，需履行告知以及变更事项重新取得同意的义务。

按照《生成式人工智能服务管理暂行办法》的要求，用户的输入信息和使用记录以避免向第三方披露为原则，如需向第三方披露或与第三方合作，应按照相关法律法规进行，因此，在涉及个人信息的问题上，应尤其注意《个人信息保护法》《个人信息安全规范》等要求。

3.3 算法服务时拒绝生成个人信息

在模型的训练过程中，需要在有监督微调阶段通过构造 Query-Response 对，让模型学习拒绝用户对于个人信息的 Query、非法获取个人信息的 Query，并在进行安全评测时确认模型能正确做出反应。如果训练者具备进行基于人类偏好的强化学习的能力，也需要在这个阶段进行模型和人类价值观的对齐。

算法提供在线服务时，对于用户 Query 中对个人信息的违法不当请求予以拒绝，特别是生成虚假个人信息或获取个人敏感信息。需要予以拒绝的个人信息包括但不限于：要求生成特定个人信息，如能够标识身份的证件（身份证、护照、市民卡、银行卡等）、住址、电话号码等；要求告知非法获取个人信息的方法，如批量购买特定归属地的手机号、获取酒店住宿客人信息、入侵计算机系统以盗取他人个人信息等。

本文摘编自阿里巴巴集团、中国电子技术标准化研究院、阿里云智能集团、达摩院联合编写发布的《2024 生成式人工智能治理与实践白皮书》。获取数治 AIGC+X 生成式人工智能法规工具包，关注我们的公众号“idtzed”回复“DGA”。

加入“数治x”行业社群， 300+ 高质量前沿资料免费下载，不只做个资料党，更开启你的自主个性化学习旅程，在公众号“idtzed”上回复“入”直通：