2024 直面大模型价值对齐的进展、治理及挑战

直面一个最根本的、颇具科学挑战的问题：如何让大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致，确保人类与人工智能协作过程中的安全与信任。

人工智能进入大模型时代后，各种“类人”和“超人”能力持续涌现，其自主性、通用性和易用性快速提升，成为经济社会发展的新型技术底座。然而，随着大模型开始像人类一样从事广泛的语言理解和内容生成任务，人们需要直面一个最根本的、颇具科学挑战的问题：如何让大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致，确保人类与人工智能协作过程中的安全与信任。

这个问题被称为“价值对齐”或“人机对齐”（value alignment，或 AI alignment）。目前，大模型安全和对齐已经成为大模型治理的核心议题，政府和业界等相关方都在探索相关措施。

1. 大模型安全和对齐成为全球性议题

在国内，2023 年 7 月，国家网信办等七部门联合公布《生成式人工智能服务管理暂行办法》，明确提出坚持发展和安全并重、促进创新和依法治理相结合的原则，采取有效措施鼓励生成式人工智能创新发展，对生成式人工智能服务实行包容审慎和分类分级监管，并鼓励生成式人工智能技术在各行业、各领域的创新应用。《暂行办法》要求人工智能应当遵守法律、法规以及尊重社会公德和伦理道德，保障 AI 技术应用的安全、可靠、可控。

在美国，2023 年 7 月 21 日，美国白宫政府推动 OpenAI、亚马逊、Anthropic、谷歌、微软、Meta（原 Facebook）、Inflection 等领军的 AI 企业就 “确保安全、安保和可信 AI”（ensuring safety, secure, and trustworthy AI）作出自愿性承诺。2023 年 10 月 30 日，美国白宫政府发布最新的 AI 行政命令——《关于安全、可靠和可信地开发和使用人工智能的行政命令》。《行政命令》将“建立人工智能安全和安保新标准”作为行动目标之一，提出基础模型公司应与联邦政府共享关键信息如红队安全测试结果、制作 AI 水印、制定相应的标准等要求，以保障 AI 安全。此外，美国还计划建立全国性的 AI 安全研究所。

在英国， 2023 年 11 月 1 日 -2 日，英国举办首届人工智能安全全球峰会，峰会重点关注虚假信息、网络安全、生物技术等方面的 AI 风险，呼吁针对更先进的人工智能建立全球性的标准和监管机制。参会 28 国和欧盟共同签署《布莱切利宣言》，表态未来将继续推动关于 AI 风险的对话和讨论。同时，英国也宣布成立人工智能安全研究所，聚焦 AI 大模型安全问题的实证和前沿研究。

欧盟的《人工智能法案》立法进程也取得新进展。2023 年 12 月 9 日，欧盟委员会、欧洲议会和欧盟理事会就《人工智能法案》达成临时协议。该法案对 AI 安全问题予以了特别关注：

一是采取风险管理思路，将 AI 系统按风险等级划分为四类（不可接受风险、高风险、有限风险、最小风险）并建立差异化监管要求；
二是要求 GPAI 模型（通用目的 AI 模型）遵守透明度的要求，包括技术记录、版权合规、训练数据使用情况等，同时要求对具有系统性风险的 GPAI 模型开展影响评估。

《人工智能法案》是目前为止最为全面系统的人工智能法案，欧盟模式或将影响甚至塑造全球范围内的人工智能治理共识规则和标准。

2. AI 企业持续推进对齐和安全的自律措施

为回应政策监管要求和规避 AI 风险，越来越多负责任的国外 AI 企业推出措施组合拳，做出安全承诺，以帮助实现人工智能技术的安全、可靠、健康发展。

一是优先研究人工智能带来的风险及其防范。开发 AI 大模型的企业有责任确保其产品的安全，为避免前沿人工智能出现能力失控的情况，投入一定成本优先研究前沿人工智能带来的风险并作出相应的措施部署是必要的。Open AI 宣布将投入 20% 算力用于超级对齐 (Superalignment) 的研究；亚马逊、Anthropic、谷歌、Inflection、Meta、Microsoft 也做出优先研究人工智能伦理风险的承诺。

二是做好模型评测。随着 AI 大模型能力的不断强大，评估人工智能模型全生命周期中潜在的风险至关重要。很多专家认为 AI 最终能执行大多数人类任务，包括技术开发和商业运营。但担心 AI 系统可能变得不协调，追求对文明有害的目标，导致潜在的全球性灾难风险。因此，模型评估工作变得越来越重要。OpenAI、Anthropic 等领军的 AI 企业都在自行或者与外部第三方机构合作评估他们的 AI 系统。

三是标识人工智能生成材料信息。以水印系统等方式标明人工智能生成的内容，有助于降低人工智能生成的欺骗内容的危险性。Google DeepMind 宣布推出一种添加水印的工具 SynthID，为谷歌的文生图模型 Imagen 生成的图像添加水印，在不影响图像质量的前提下标识 AI 生成的内容。

四是控制和审核数据输入。训练数据的质量很大程度上决定了大模型价值对齐的完成度，通过控制和审核训练数据，可以降低大模型可能存在的风险概率。谷歌 DeepMind 提出，对希望使用数据进行研究的团队，可向专门的数据方提交数据获取请求，这是一项值得注意的新政策。

五是实现含保护模型权重在内的安全控制。安全控制是保障人工智能安全的关键，而模型权重是人工智能系统中最重要的部分。例如，Anthropic 采取了两方控制（多方审核模式）、安全软件开发框架 (SSDF)、软件工件供应链级别 (SLSA) 和其他网络安全最佳实践做法，主张加强前沿人工智能研发机构的网络安全控制。

六是共享人工智能风险信息。美国领军 AI 公司向白宫政府作出自愿承诺：及时与政府、社会和学术界共享有关人工智能风险的信息，如在推出 AI 产品前向美国政府共享风险信息和测试结果、及时向公众披露模型存在的局限等。

七是完善漏洞报告机制（Reporting structure for vulnerabilities）。漏洞报告机制使外部漏洞发现者能够向 AI 大模型供应商报告 AI 系统潜在漏洞信息。作为协同漏洞披露领域（Coordinat- ed Vulnerability Disclosure）的行业领导者，微软已制定并公开漏洞报告政策，建立了明确的漏洞调查、修复、公开的流程。

八是构建负责任的模型迭代训练应用机制。虽然现在的大模型还没有展现出毁灭性风险，但研究人员担忧新一代更强大的模型可能出现此类风险。因此，AI 公司和研究人员开始考虑如何负责任地对模型进行迭代训练和应用以做好安全与效益的平衡。Anthropic 率先采纳并批准了模型训练开发应用的“负责任扩展政策（responsible scaling policy，RSP），通过一系列的技术和组织协议来管理开发日益更加强大的 AI 系统的风险。良好的 RSP 能够显著减少风险，并可能导致暂停 AI 开发，直到安全措施得到改进。

3. 大模型价值对齐的技术和治理方案

为了实现价值对齐，研发人员需要在模型层面让人工智能理解、遵从人类的价值、偏好和伦理原则，尽可能地防止模型的有害输出以及滥用行为，从而打造出兼具实用性与安全性的 AI 大模型。目前业界主要采取以下一些方法来实现大模型价值对齐。

3.1 人类反馈的强化学习（RLHF）

人类反馈的强化学习（RLHF）被证明是一个有效的方法，通过小量的人类反馈数据就可能实现比较好的效果。2017 年，OpenAI 研究人员发表《依托人类偏好的深度强化学习》一文，提出将人类反馈引入强化学习。RLHF 包括初始模型训练、收集人类反馈、强化学习、迭代过程等几个步骤，其核心思路是要求人类训练员对模型输出内容的适当性进行评估，并基于收集的人类反馈为强化学习构建奖励信号，以实现对模型性能的改进优化。

从实践来看，RLHF 在改进模型性能、提高模型的适应性、减少模型的偏见、增强模型的安全性等方面具有显著优势，包括减少模型在未来生产有害内容的可能性。但也面临可扩展性差、受限于人类训练员的主观偏好、长期价值对齐难以保证等问题。

图 1：RLHF 流程图（来源：OpenAI）

OpenAI 将 RLHF 算法发扬光大，ChatGPT 籍此取得成功，能够在很大程度上输出有用的、可信的、无害的内容。GPT-4 在 RLHF 训练阶段，通过增加额外的安全奖励信号（safety re- ward signal）来减少有害的输出，这一方法产生了很好的效果，显著提升了诱出恶意行为和有害内容的难度。GPT-4 相比之前的模型（如 GPT-3.5）显著减少了幻觉、有害偏见和违法有害内容等问题。

经过 RLHF 训练之后，GPT-4 在相关真实性测试中得分比 GPT-3.5 高 40%，响应禁止性内容请求的可能性比 GPT-3.5 降低了 82%，并且能够更好地回应涉及敏感内容的用户请求。总之，RLHF 算法可以为大语言模型建立必要的安全护栏，在大模型的强大性/涌现性和安全性/可靠性之间扮演着“平衡器”这一关键角色。

3.2 可扩展监督（scalable oversight）

考虑到将人类反馈用于训练更大规模、更复杂的 AI 模型所面临的时间和资源投入、人类能力等挑战，业界一直在探索如何借助 AI 监督（包括 AI 自我监督，以及一个 AI 系统监督另一个AI 系统）的方法实现 AI 对齐，使得价值对齐从低效的“人类监督”转向更高效的“AI 监督”。

美国的 AI 大模型公司 Anthropic 提出了“原则型 AI”（constitutional AI）的方法。具体而言，研发一个从属的 AI 模型，其主要功能在于评估主模型的输出是否遵循了特定的“宪法性”原则（即一套事先确定的原则或规则），评估结果被用于优化主模型。

Anthropic 结合自己的实践经验，并借鉴世界人权宣言、苹果公司的服务条款、DeepMind 的 Sparrow 规则等文件，提出了一套覆盖面广泛的原则清单，并以此为评估基准让其大模型 Claude 自己来评估自己的输出，其目标是在促进模型输出有用回答的同时，将其输出有害内容的可能性最小化。

图 2：原则型 AI 路径（来源：Anthropic）

Claude 证明了原则型 AI 对齐方法的有效性，即帮助 Claude 减少有害的、歧视性的输出，避免帮助恶意使用者从事违法或不道德的活动，对使用者的“对抗性输入”作出更恰当的回应而非简单采取回避策略。总之，Anthropic 认为，原则型 AI 对齐方法可以帮助创建一个有用的、诚实的、无害的 AI 系统，而且具有可拓展性、透明度、兼顾有用性和无害性等优势。

3.3 常见的其他路径

一是对训练数据的有效干预。大模型的很多问题（如幻觉、算法歧视）来源于训练数据，因此从训练数据切入是可行的方式，如对训练数据进行记录以识别是否存在代表性或多样化不足的问题，对训练数据进行人工或自动化筛选、检测以识别、消除有害偏见，构建价值对齐的专门数据集，等等。

二是对抗测试（adversarial testing）或者说红队测试（red teaming）。简言之就是在模型发布之前邀请内部或外部的专业人员担任白帽黑客，在红队测试中对模型发起各种对抗攻击，以测试产品的安全措施和抵御外部攻击的能力，发现潜在问题并予以解决。例如，在 GPT-4 发布之前，OpenAI 聘请了 50 多位各领域学者和专家对其模型进行测试，这些红队测试员的任务是向模型提出试探性的或者危险性的问题以测试模型的反应，OpenAI 希望通过红队测试，帮助发现其模型在不准确信息（幻觉）、有害内容、虚假信息、歧视、语言偏见、涉及传统和非传统武器扩散的信息等方面的问题。

三是成立治理组织。除了设立科技伦理（审查）委员会外，人工智能领域的领头企业还尝试设立任务划分更为具体的安全责任团队。以 OpenAI 为例，其内部由安全系统团队、超级对齐团队、“准备”（Preparedness）团队等安全和政策团队协同负责前沿模型的风险问题。其中， OpenAI 新成立的 “准备” 团队专门评估最先进的、尚未发布的 AI 模型，根据不同类型的感知风险评为四个等级—— “低”、“中”、“高” 和 “严重”，按照 OpenAI 于 12 月 18 日发布的新安全指南，Open AI 将只向公众推出评级为“低”和“中”的模型。

四是推进模型的可解释性和可理解性研究。例如 OpenAI 利用 GPT-4 来针对其大语言模型 GPT-2 的神经网络行为自动化地撰写解释并对其解释打分；有研究人员则从机制解释性(mechanistic interpretability) 的角度来应对 AI 对齐问题。

4. 大模型价值对齐面临的主要挑战

大规模价值对齐工程目前面临的困境主要包括：对齐的价值基准不统一、对齐的技术路线不明确、对齐的效果难以评估等，这是大规模价值对齐不可回避的关键挑战。

（1）对齐的价值基准不统一

虽然 AI 价值对齐在技术上取得了一定的效果，但人们对最基础的 AI 价值问题依然没有形成共识：如何确立用以规范人工智能的一套统一的人类价值。考虑到我们生活在一个人们拥有多元文化、背景、资源和信仰的世界中，AI 价值对齐需要考虑不同社会和群体的不同价值和道德规范。需要更多的社会参与来形成价值和原则共识。

（2）对齐的技术路线不明确

大规模价值对齐的技术路线尚未统一，包括但不限于基于人类反馈的强化学习、可扩展监督等方式。而来自苏黎世联邦理工学院计算机系人工智能方向的陈欣博士 Cynthia 今年发表的论文即聚焦于 RLHF 的一些开放问题及其根本性的局限，通过将其学习过程解构为三大类，即从人类反馈（human feedback）训练奖励模型（reward model）、奖励模型训练策略模型（policy）、及其间形成的循环（loop）出发，进一步将具体问题拆解，提出 RLHF 本身存在很多根本性问题，单纯依靠这一解决思路可能不足以解决 AI 价值对齐领域的所有问题。对于可扩展监督模式，较为典型的对齐方法便是“原则型 AI”，但这一思路也存在质疑：如何确立 AI 大模型需要遵循的原则，以及如何确保 AI 真正理解这些原则。

（3）对齐的效果难以评估

大模型的对齐效果评测是一件棘手的事情。

首先从标准来看，不同国家、地区、组织制定了不同的可信定义和标准，难以达成完全共识；
其次任务复杂，可信评测涉及公平、鲁棒、安全道德等多个层面，叠加各种场景，难以用统一的任务和指标进行评测；
再次缺乏数据与工具，相比能力评测，可信评测相关的数据集和工具较少，现有测评方法更为依赖人工；
就对齐技术而言，现有评测难以有效反哺大模型能力的提升，需要打造安全可信能力闭环。

用评测推动 LLM 和其他 AI 模型的发展，评测不是终点，而是发现问题的起点。目前的评测方法仍主要依赖人工标注，建设更为完善的对齐效果评估体系是当务之急。

面向未来，价值对齐或者说人机对齐不仅是大模型的必由之路，也是 AI 产品的核心竞争力。人们需要以价值对齐确保人工智能的美好未来，更好实现科技向善。

一方面，需要凝聚行业共识，推动形成大模型价值对齐的技术和伦理指南，总结推广最佳实践。
另一方面需要鼓励开放研究，支持关于 AI 安全性、公平性、可解释性、价值对齐和其他伦理议题的研究，并鼓励研究者公开其研究结果，促进全球社区协作。

最后，为确保 AI 安全，需要使我们监控、理解、设计 AI 模型的能力与模型本身的复杂性同步发展。惟其如此，我们才能管控好发展应用更强大的 AI 系统的风险。

本文摘编自腾讯朱雀实验室、腾讯研究院、腾讯混元大模型、清华大学深圳国际研究生院、浙江大学区块链与数据安全全国重点实验室发布的《大模型安全与伦理研究报告2024》，在文末入群获取。

￥299 起成为数治网DTZed 星球会员，即可下载检索 1000+ 相关标准、白皮书、报告等。填写开通申请获取水准测评、冲刺刷题、案例巩固等更多会员权益。扫码添加老邪企业微信，加入数治要素x行业群：

打赏

标签：AI人工智能价值对齐伦理分类分级大模型安全对齐强化学习网络安全

简析数据匿名化的方法、挑战与应用实践

真的优秀！智能数字化人才管理iDTM获第三届光合组织解决方案大奖

元宇宙的产业未来大有可为国内企业应该如何抓住机会

开启算力赋能数字经济新篇 2022中国算力发展指数白皮书发布

全球 CXO 给“数字化转型”改头换面让“数治”变简单

2024 我们一起躬身入数据局 54 张卡牌打出龙行虎步

打造数治领导力盖茨和全球 CXO 喊你从正确技能组合开始

数治盘点 2023 法规篇：数据安全、合规与个人信息保护（附下载）

2024 直面大模型价值对齐的进展、治理及挑战