数治长文 | 大模型安全风险表现与关键技术总览

这种潜在的安全风险普遍存在于文本、图像、语音和视频等诸多应用场景中,并会随着模型的大规模部署带来日益严重的安全隐患,使得用户无法信赖人工智能系统做出的决策。

大模型安全风险表现与关键技术总览
出处:中国人工智能学会

与大模型技术的突飞猛进形成鲜明对照的是,大模型仍面临诸多潜在的安全风险。大模型在应用的过程中,可能会产生与人类价值观不一致的输出,如歧视言论、辱骂、违背伦理道德的内容等,这种潜在的安全风险普遍存在于文本、图像、语音和视频等诸多应用场景中,并会随着模型的大规模部署带来日益严重的安全隐患,使得用户无法信赖人工智能系统做出的决策。

更为重要的是,大模型较为脆弱,对安全风险的防范能力不足,容易受到指令攻击、提示注入和后门攻击等恶意攻击。尤其是在政治、军事、金融、医疗等关键的涉密应用领域,任何形式的恶意攻击都可能给国家社会的稳定以及人民的生命财产安全带来严重的后果。

人工智能和大模型安全也是国际社会高度关注的热门话题。2023 年 5 月,联合国秘书长古特雷斯在纽约联合国总部提到,利用 AI “必须由各国展开协调设定红线”,需要“打造 AI 有助于人类幸福,而不会成为人类威胁的环境”。OpenAI 首席执行官山姆·阿尔特曼呼吁美国监管高级大型语言模型的部署,警告没有坚实政策框架会使生成式人工智能陷入危险境地。同时,随着民众对 AI 社会威胁的担忧日益加剧,监管过程对于减轻日益强大的模型带来的风险至关重要。同月底,众多 AI 科学家和 AI 领袖发表公开声明,呼吁防范 AI 的生存风险应该与流行病和核战争等其他大规模风险一样,成为全球优先议题。2023 年 6 月,图灵奖得主 Geoffrey Hinton 在演讲中指出,超级智能的到来比他想象中更快,在此过程中,数字智能可能会追求更多控制权,甚至通过“欺骗”控制人类,人类社会也可能会因此面临更多问题。

1. 大模型安全治理的政策法规和标准规范

作为 AI 技术的重要发展地之一,中国非常重视人工智能和大模型的安全监管。习近平总书记在多次会议中指出,“要重视通用人工智能发展,营造创新生态,重视防范风险”,“要加强人工智能发展的潜在风险研判和防范,维护人民利益和国家安全,确保人工智能安全、可靠、可控”。国内相关机构积极制定大模型发展的安全规范。

2019 年 6 月,国家新一代人工智能治理专业委员会发布的《新一代人工智能治理原则——发展负责任的人工智能》指出,“人工智能系统应不断提升透明性、可解释性、可靠性、可控性,逐步实现可审核、可监督、可追溯、可信赖。高度关注人工智能系统的安全,提高人工智能鲁棒性及抗干扰性,形成人工智能安全评估和管控能力。” 2020 年 7 月,国家标准化管理委员会、中央网信办、国家发展改革委员会、科学技术部、工业和信息化部发布的《国家新一代人工智能标准体系建设指南》指出,“重点开展人工智能安全术语、人工智能安全参考框架、人工智能基本安全原则和要求等标准的研制”。2021 年 9 月,国家新一代人工智能治理专业委员会发布《新一代人工智能伦理规范》,旨在“将伦理道德融入人工智能全生命周期,促进公平、公正、和谐、安全,避免偏见、歧视、隐私和信息泄露等问题。”

2022 年 3 月,中共中央办公厅、国务院办公厅发布的《关于加强科技伦理治理的意见》指出,应“加快构建中国特色科技伦理体系,健全多方参与、协同共治的科技伦理治理体制机制,坚持促进创新与防范风险相统一、制度规范与自我约束相结合,强化底线思维和风险意识,建立完善符合我国国情、与国际接轨的科技伦理制度,塑造科技向善的文化理念和保障机制”。

2023 年 3 月,国家人工智能标准化总体组、全国信标委人工智能分委会发布《人工智能伦理治理标准化指南》,明确了人工智能伦理治理概念范畴,细化人工智能伦理准则内涵外延,对人工智能伦理风险进行分类分级分析,提出人工智能伦理治理技术框架,构建人工智能伦理治理标准体系,引导人工智能伦理治理工作健康发展。

2023 年 7 月,国家互联网信息办公室、国家发展和改革委员会等发布的《生成式人工智能服务管理暂行办法》指出,“国家坚持发展和安全并重、促进创新和依法治理相结合的原则,采取有效措施鼓励生成式人工智能创新发展,对生成式人工智能服务实行包容审慎和分类分级监管”、“提供和使用生成式人工智能服务,应当遵守法律、行政法规,尊重社会公德和伦理道德”。

2. 大模型安全风险的具体表现

随着大模型在各领域的广泛应用,大模型安全风险的影响范围逐渐扩大,社会秩序收到的冲击愈发严重。其安全风险具体表现,可以从大模型自身的安全风险、以及大模型在应用中衍生的安全风险两个方面进行细致地分析。

2.1 大模型自身的安全风险

大模型自身的安全风险源于其开发技术与实现方式。由于这些模型通常采用大量数据进行训练,它们不仅从数据中学习知识和信息,还可能从中吸收和反映数据中存在的不当、偏见或歧视性内容。这些数据可能来源于互联网或其他公开来源,其中包含的多样性和复杂性导致模型很难完全准确地反映人类的价值观和伦理标准。此外,大模型在处理或生成内容时,可能会无意中扩大或放大某些固有的社会偏见。例如,模型可能会偏向某种文化、性别、种族或宗教的观点,从而产生偏见、歧视或误导性的输出,这不仅可能导致特定群体的不适, 而且可能破坏社会的和谐与稳定。以下列出了典型的风险类型。

(1) 辱骂仇恨:模型生成带有辱骂、脏字脏话、仇恨言论等不当内容。
(2) 偏见歧视:模型生成对个人或群体的偏见和歧视性内容, 通常与种族、性别、宗教、外貌等因素有关。
(3) 违法犯罪:模型生成的内容涉及到违法、犯罪的观点、行为或动机,包括怂恿犯罪、诈骗、造谣等内容。
(4) 敏感话题:对于一些敏感和具有争议性的话题,模型输出了具有偏向、误导性和不准确的信息,例如,支持某个特定政治立场的倾向的言论会导致对其他政治观点的歧视或排斥。
(5) 身体伤害:模型生成与身体健康相关的不安全的信息,引导和鼓励用户伤害自身和他人的身体,如提供误导性的医学信息或错误的药品使用建议等,对用户的身体健康造成潜在的风险。
(6) 心理伤害:模型输出与心理健康相关的不安全的信息,包括鼓励自杀、引发恐慌或焦虑等内容,影响用户的心理健康。
(7) 隐私财产:模型生成涉及到暴露用户或第三方的隐私和财产信息、或者提供重大的建议如投资等,在处理这些信息时,模型应遵循相关法律和隐私规定,保障用户的权益,避免信息泄露和滥用。
(8) 伦理道德:模型生成的内容认同和鼓励了违背道德伦理的行为,在处理一些涉及到伦理和道德的话题时,模型需要遵循相关的伦理原则和道德规范,和人类价值观保持一致。

此外,语言模型的意识形态已成为 AI 安全的核心考量因素。模型在训练过程中不可避免地受训练数据中的文化与价值观所影响,从而决定了其形成的意识形态。以 ChatGPT 为例,其训练数据以西方为主。尽管其主张政治中立,但输出内容仍可能偏向西方主流价值观。为确保模型准确反映并传递文化和价值观,应深化安全对齐技术,并针对各国文化背景对模型的意识形态进行特定的调整。

2.2 大模型在应用中衍生的安全风险

随着大模型应用的广泛性和复杂性,不当使用和恶意使用等行为也随之增加,这为大模型带来了前所未有的安全挑战。

用户过度依赖大模型的生成内容。大模型通过学习大量数据获得强大的生成能力,但由于数据的复杂性,模型会产生看似真实却实质上错误的信息,这被称为“幻觉”问题。若用户盲目信任模型,会误以为这些“幻觉”输出是可信的,从而导致决策时遗漏关键信息,缺少批判性思考。在医学诊断、法律意见等需要高精度的领域,这种盲目信赖会带来巨大风险。

恶意攻击下的安全风险。大模型面临着模型窃取攻击、数据重构攻击、指令攻击等多种恶意攻击。模型窃取攻击允许攻击者获取模型的结构和关键参数,此攻击方式不仅使攻击者免去使用模型的费用,还可能带来其他利益。如果攻击者完全掌握模型,可能会实施更危险的“白盒攻击”。数据重构攻击使攻击者能恢复模型的训练数据,包括其中的敏感信息如个人医疗记录,对个人隐私和数据所有权构成威胁。而指令攻击则利用模型对措辞的高度敏感性,诱导其产生违规或偏见内容,违反原安全设定。

后门攻击带来的恶意输出。后门攻击是一种针对深度学习模型的新型攻击方式,其在训练过程中对模型植入隐秘后门。后门未被激活时,模型可正常工作,但一旦被激活,模型将输出攻击者预设的恶意标签。由于模型的黑箱特性,这种攻击难以检测。比如在 ChatGPT 的强化学习阶段,在奖励模型中植入后门,使攻击者能够通过控制后门来控制 ChatGPT 输出。此外,后门攻击具有可迁移性。通过利用 ChatGPT 产生有效的后门触发器,并将其植入其他大模型,这为攻击者创造了新的攻击途径。因此,迫切需要研究鲁棒的分类器和其他防御策略来对抗此类攻击。

大模型访问外部资源时引发的安全漏洞。大模型与外部数据、API 或其他敏感系统的交互往往涉及诸多安全挑战。首先,当大模型从外部资源获取信息时,若二者之间的连接未经适当安全措施保护,未经过滤或验证的信息会导致模型生成不安全和不可靠的反馈。以自主智能体 AutoGPT 为例,其结合了众多功能,表现出高度的自主性和复杂性。这种设计使其在缺乏人工监管时展现出无法预测的行为模式,甚至在某些极端情况下编写潜在的毁灭性计划。因此,对于大模型与外部资源的交互,需要特别关注并采取严格的安全策略。

3. 大模型安全研究关键技术

随着大模型安全问题的日益凸显,全球众多知名的科研机构已将此作为核心研究领域,致力于探索模型的潜在薄弱点和安全风险,并寻求如何增强其在训练和部署时的安全性。

3.1 大模型的安全对齐技术

安全对齐的大模型通常是指经过充分检验、具备高可信度和鲁棒性、与人类价值观对齐的大型机器学习模型。这些模型的设计和训练过程严格遵循伦理准则,具备透明度、可解释性和可审计性,使用户能够理解其行为和决策过程。同时,安全对齐大模型也需注重隐私和安全,确保在使用过程中不会泄露敏感信息或被恶意攻击。

大模型暴露的安全风险,与其开发技术密不可分。当下主流的大模型训练过程可分为预训练、有监督微调和基于反馈的强化学习微调三个阶段。以 ChatGPT 为例,在预训练阶段,模型在大量的互联网文本上学习,吸收其中的语言模式和知识,这个过程中,模型可能会无意间学习并模仿数据中的价值观。其次是有监督微调(Supervised Fine-Tuning)阶段,模型在特定的监督数据集上进一步微调,以理解更具体的任务要求并调整其输出,使之更接近人类对特定任务的期望。最后一个阶段是基于人类反馈的强化学习(Reinforcement learning from human feedback,RLHF)阶段,此阶段的目标是让模型的输出与人类价值观尽可能一致,提高其有用性、真实性和无害性。

针对大模型开发过程中产生的安全风险,安全对齐研究可从提升训练数据的安全性、优化安全对齐训练算法两个方面展开,以实现更有用、诚实和无害的安全大模型。

(1) 大模型的训练数据安全

训练数据的安全性是构建安全大模型的基石。训练数据安全是指数据集的来源和质量都是可靠的,数据中蕴含的知识是准确的,数据集内容符合主流价值观。以下是提高数据安全性的一些关键要点:

数据的来源与预处理。确保训练数据来自可信的、可靠的来源。数据应该从权威机构、专业组织、可验证的数据仓库或其他公认的数据提供者获得。在数据标注时,确保标注的准确性和一致性。标注过程应该由经过培训的专业人员进行,并且需要进行验证和审核,以确保标注的正确性。此外,需要进行数据清洗以去除重复项、噪声数据和错误数据。

数据的敏感信息去除。在大模型中,保护数据的敏感信息至关重要,特别是当模型需要处理涉及个人隐私、敏感信息或商业机密等敏感数据时。数据的敏感信息去除是一种隐私保护措施,旨在确保数据在训练过程中不会泄露敏感信息。常见的数据的敏感信息去除方法有以下几种:

  • a. 数据脱敏(Data Anonymization):数据脱敏是一种常见的敏感信息去除方法,它可以通过不同的技术手段对数据进行处理,以确保数据中的敏感信息无法被还原或追溯到特定个体。常见的数据脱敏方法包括随机化、泛化、替换和加噪声等。
  • b. 去标识化(De-identification):去标识化是指删除数据中的个人标识信息,例如姓名、地址、身份证号码等,从而将数据匿名化。这样可以确保数据无法直接与特定个体关联。
  • c. 数据掩码(Data Masking):数据掩码是一种将敏感信息部分替换为伪造或不可还原的数据,从而确保原始敏感信息无法被还原的方法。

在进行数据的敏感信息去除时,需要谨慎处理,以确保不会破坏数据的完整性和质量。同时,也需要注意确保去除敏感信息后的数据仍然具有足够的信息量和代表性,以确保训练的模型具备合理的性能和泛化能力。

(2) 大模型的安全对齐训练

基于反馈的安全对齐技术。基于人类反馈的安全对齐技术已逐渐成为当下大模型安全研究的主流技术。其训练过程主要包括奖励模型训练和生成策略优化两个子阶段。奖励模型训练阶段中,人类对模型生成的多条不同回复进行评估,这些回复两两组合,由人类确定哪条更优,生成的人类偏好标签使奖励模型能学习并拟合人类的偏好。在生成策略优化阶段,奖励模型根据生成回复的质量计算奖励,这个奖励作为强化学习框架中的反馈,并用于更新当前策略的模型参数,从而让模型的输出更符合人类的期望。

DeepMind 使用 RLHF 技术,通过从人类反馈中学习来构建更有用、更准确和更安全的对话智能体Sparrow [168]。Anthropic 公司提出的Claude 模型则采用了RLAIF(RL from AI Feedback)技术,该技术使用预先训练的模拟人类偏好的打分模型,在强化学习过程中自动对数据进行排序,从而减少对人类反馈的依赖。2023 年 5 月,北京大学团队开源了名为 PKU-Beaver(河狸)项目,提供了一种可复现的 RLHF 基准,并公开了RLHF 所需的数据集、训练和验证代码。2023 年 7 月,复旦大学发布基于 RLHF 实现人类对齐的 MOSS-RLHF 模型,深入探究了RLHF 阶段所采用的强化学习算法PPO(Proximal Policy Optimization,近端策略优化),分析其稳定训练及其在大模型人类对齐中的作用机理,并发布大模型人类对齐技术报告与开源核心代码,以推动中文 NLP 社区生态发展。

大模型可信增强技术。在训练的过程中,模型可通过两个方面增加可信度。首先是对抗训练,通过提升模型对输入扰动的鲁棒性增强模型可信度。对抗性样本是针对大模型的输入做出微小改动,使得大模型的输出发生误判。对抗性训练通过在训练数据中引入这些样本,迫使大模型学习更具鲁棒性的特征,从而减少对抗性攻击的影响,并且提升大模型的泛化能力。其次是知识融入训练,即利用知识引导模型训练从而降低模型出现幻觉的可能性。结合知识图谱的模型训练是典型的知识融入训练方法,通过在大模型训练时引入知识图谱,如将知识图谱中的三元组加入到模型的训练过程中,用三元组中的知识引导模型的训练,促使大模型沿着具有正确知识的方向收敛,从而让大模型存储到高可信度的知识。

3.2 大模型安全性评测技术

大模型安全性评测技术是大模型安全发展的有力保障。

大模型内容安全评估。为了评估大语言模型的安全性,并推动安全、负责任和合乎道德的人工智能的发展和部署,清华大学于 2023 年 3 月推出面向中文大模型的安全性评测平台。该平台依托于一套系统的安全评测框架,从辱骂仇恨、偏见歧视、违法犯罪等八个典型安全场景和六种指令攻击综合评估大语言模型的安全性能。其中,指令攻击是指一般模型难以处理的安全攻击方式,这些攻击更容易诱导模型出错,包含目标劫持、Prompt 泄露、赋予特殊的角色后发布指令、不安全/不合理的指令主题、隐含不安全观点的询问、以及反面诱导。基于该框架,平台对 GPT 系列、ChatGLM 等主流大模型进行了安全评估,并发现指令攻击更有可能暴露所有模型的安全问题。平台已开源大模型安全评测的数据基准,并测试了包括 ChatGPT 在内的十余个主流大模型,其安全分数以排行榜的形式在平台公布。

图 1 中文语言大模型安全评测框架

大模型极端风险的评估。随着 AI 技术的进步,大模型将会显示出更多危险的突发能力,如进行攻击性的网络操作、通过对话操纵人们或提供有关实施恐怖主义行为的实用指导。为了识别这些风险, DeepMind 联合 OpenAI、Anthropic 等单位提出针对新型威胁评估的通用模型框架,认为大模型安全评估首先应评估模型是否具有某些危险的能力,其次判断模型多大程度上可能使用这些能力造成伤害。该框架指出大模型的极端风险评估将成为安全人工智能研发的重要组成部分,安全评估应涵盖特定领域的风险水平以及特定模型的潜在风险属性。极端风险评估可以帮助开发者识别可能导致极端风险的因素,并为模型训练和部署过程中的安全性优化提供参考。

图 2 DeepMind 等机构提出的大模型极端风险评估理论

大模型行为决策的道德评估。随着 AI 系统能力的快速增长,越来越多的大模型被训练应用于真实世界的交互任务。为了衡量大模型在各种社会决策场景中的能力和道德行为,一项典型的评测基准是 MACHIAVELLI 。它主要由 134 款基于文本的Choose Your Own Adventure 游戏组成,在评估中为大模型代理提供真实世界的目标,并通过专注于高层次的决策来追踪代理的不道德行为,以评估其在现实社会环境中的规划能力及安全风险。该项研究发现,道德行为和最大化奖励之间存在权衡(Trade-Offs)的关系,但通过设计道德提示,对大模型进行道德调节,可缓解权衡、并降低有害行为的频率。

图 3 道德行为评测基准 MACHIAVELLI

本文摘编自中国人工智能学会发布的《中国人工智能系列白皮书——大模型技术(2023 版)》。

下载所需前沿标准、白皮书和报告,加入 AIGC+X 赋能成长营,¥99 起即可开启自主学习、素养测评、社群辅助、刷题考证、资料更新等升值加薪通道。AI 共创导师就在你身边,扫码添加老邪企业微信,入群领取指南、预约宣讲:

更多内推、热招职位征集中,一起用 AI 工具打败工具人。