理清现状应对安全风险《人工智能安全标准化白皮书（2023版）》发布

白皮书梳理了人工智能技术与应用发展现状，分析了人工智能面临的新的安全风险，结合国内外人工智能安全政策与标准现状，为规范引导人工智能安全标准化工作提供参考。

2023年5月29日，在全国信息安全标准化技术委员会2023年第一次标准周“人工智能安全与标准研讨会”上，信安标委大数据安全标准特别工作组发布《人工智能安全标准化白皮书（2023版）》。

白皮书由中国电子技术标准化研究院等20家单位共同编写，梳理了人工智能技术与应用发展现状，分析了人工智能面临的新的安全风险，结合国内外人工智能安全政策与标准现状，指出了人工智能安全标准需求，提出了下一步开展人工智能安全标准化工作的建议，为规范引导人工智能安全标准化工作提供参考。

当前，人工智能发展再一次迈入关键时期，以生成式人工智能为代表的新技术、新应用不断打破人们对于人工智能的固有认知，也带来了大量网络意识形态安全、数据安全、个人信息安全等方面新风险、新挑战，化解安全风险、统筹发展和安全成为重大难题。

当人工智能可以通过人类最严格的考试、同时执行多种工作命令、具备一定的推理规划能力、生成以假乱真的照片、模仿人类与人聊天不被发现时，其安全问题也更为复杂棘手，传统安全考虑以及管理方法需要重新审视。在此背景下，人工智能是否安全、如何保障安全成为全球焦点，统筹安全与发展是其中关键。

一、人工智能技术特点

技术发展方面，随着谓词推理、专家系统、知识树和向量机学习等传统技术的发展日趋放缓，促使以联结主义和概率统计等理论为基础的深度学习加速发展，迈入了以人工神经网络为基础、以大模型为典型应用的新发展阶段。

在模型方面，大规模人工智能模型逐步成为业界主流。以生成式人工智能为例，具备数百亿参数的模型已非罕见，并随着模型规模增长产生了接近人类的“高级”能力，使人们相信通用人工智能或将到来。Stable Diffusion、Midjourney等视觉生成模型具有类似人类的视觉创作能力，ChatGPT等文本生成模型具有高度近似人类的语言推理和规划等能力。有研究认为，这些能力是随着模型参数达到数百亿级别后逐渐产生的，虽其技术原理尚未明晰，但进一步推动了模型越来越大的技术趋势。

在训练方面，有人类参与的指令微调技术是近年来人工智能的另一大技术特点。指令微调主要有三种实现形式，以预训练语言模型为例：一是引入人工撰写的大量对话数据对模型进行微调训练；二是人工对微调后模型面向同一提示词生成的多个备选答案进行价值排序，训练价值评分模型；三是在价值评分模型的奖励信号下，微调模型进行强化学习训练，不断改进模型的表现。通过该部分技术，可将在海量语料库上训练的模型与复杂的人类价值观实现对齐，期望人工智能可以生成正确、有用、无害的内容。

二、人工智能应用趋势

应用发展方面，人工智能进一步与社会各方面融合。跨领域、面向通用的人工智能应用持续发展，各领域处理独立任务的人工智能应用更加深度嵌入产业生态。未来，预期形成以通用人工智能应用为基座，专用人工智能应用环绕的新人工智能“生态圈”。

1、人工智能与实体经济融合发展

近年来，人工智能与实体经济融合愈发深入，融合形式愈发多样，对产业促进作用明显，推动新型业态逐步形成。

当前，人工智能在多个行业领域广泛应用，在制造领域的运营管理优化、制造过程优化等环节，智能家居领域的身份鉴别、功能控制、安全防护等环节，智能交通领域的动态感知、自动驾驶、车路协同等方面，智能医疗领域的辅助诊断、治疗监护、疫情防控等方面，教育领域的虚拟实验室、虚拟教室、课件制作、智能判卷、教学效果分析等方面，金融领域的金融风险控制等方面，都推动了相关产品服务的新一轮变革。

2、人工智能作为助手融入新领域

人工智能的发展不仅颠覆了数字内容生产方式、处理方式和消费模式，而且极大丰富了人们的数字生活，虚拟试装增加购物体验、虚拟主播增强广告效果、智能客服提升反馈效率、虚拟教师增强师生交互、智能办公助手提高各类文档的撰写效率、智能编程助手降低编程时间与人力成本、智能翻译降低沟通壁垒，人工智能应用已成为人类生产生活中必不可少的电子助手。

三、人工智能安全属性

伴随着人工智能应用的常态化，人工智能安全问题的研讨也持续开展。除了网络安全基本属性，即人工智能系统及其相关数据的机密性、完整性、可用性以及系统对恶意攻击的抵御能力之外，讨论人工智能安全一般还需要考虑以下属性。

可靠性：指人工智能及其所在系统在承受不利环境或意外变化时，例如数据变化、噪声、干扰等因素，仍能按照既定的目标运行、保持结果有效的特性。可靠性通常需要综合考虑系统的容错性、恢复性、健壮性等多个方面。
透明性：指人工智能在设计、训练、测试、部署过程中保持可见、可控的特性，只有具备了透明性，用户才能够在必要时获取模型有关信息，包括模型结构、参数、输入输出等，方可进一步实现人工智能开发过程的可审计以及可追溯。
可解释性：描述了人工智能算法模型可被人理解其运行逻辑的特性。具备可解释性的人工智能，其计算过程中使用的数据、算法、参数和逻辑等对输出结果的影响能够被人类理解，使人工智能更易于被人类管控、更容易被社会接受。
公平性：指人工智能模型在进行决策时，不偏向某个特定的个体或群体，也不歧视某个特定的个体或群体，平等对待不同性别、不同种族、不同文化背景的人群，保证处理结果的公正、中立，不引入偏见和歧视因素。
隐私性：指人工智能在开发与运行的过程中实现了保护隐私的特性，包括对个人信息和个人隐私的保护、对商业秘密的保护等。隐私性旨在保障个人和组织的合法隐私权益，常见的隐私增强方案包括最小化数据处理范围、个人信息匿名化处理、数据加密和访问控制等。

四、人工智能安全风险分析

近年来，人工智能保持快速发展势头，但人工智能所带来的安全风险也不容忽视。

（一）用户数据用于训练，放大隐私信息泄露风险

当前，人工智能利用服务过程中的用户数据进行优化训练的情况较为普遍，但可能涉及在用户不知情情况下收集个人信息、个人隐私、商业秘密等，安全风险较为突出。一方面，人工智能模型日益庞大，开发过程日益复杂，数据泄露风险点更多、隐蔽性更强，人工智能所使用开源库漏洞引发数据泄露的情况也很难杜绝。另一方面，交互式人工智能的应用降低了数据流入模型的门槛。用户在使用交互式人工智能时往往会放松警惕，更容易透露个人隐私、商业秘密、科研成果等数据，例如企业员工在办公时容易将商业秘密输入人工智能寻找答案，继而导致商业秘密的泄露。为应对该问题，特别是为保护个人信息安全，部分欧洲国家甚至已开始着手禁止ChatGPT等人工智能应用。

（二）算法模型日趋复杂，可解释性目标难实现

长期以来可解释性都是制约人工智能用在司法判决、金融信贷等关键领域的主要因素，时至今日问题尚未解决、且变得更为棘手。由于深度模型算法的复杂结构是黑盒，人工智能模型天然缺乏呈现决策逻辑进而使人相信决策准确性的能力。为提升可解释性，技术上也出现了降低模型复杂度、突破神经网络知识表达瓶颈等方法，但现实中效果有限。主要是因为当前模型参数越来越多、结构越来越复杂，解释模型、让人类理解模型的难度变得极大，目前部分研究正朝借助人工智能解释大模型的方向探索。同时，由于近年来人工智能算法、模型、应用发展演化速度快，如何判断人工智能是否具备可解释性一直缺乏统一认知，难以形成统一判别标准。

（三）可靠性问题仍然制约人工智能关键领域应用

由于现实场景中环境因素复杂多变，人工智能难以通过有限的训练数据覆盖现实场景中的全部情况，因此模型在受到干扰或攻击等情况下会发生性能水平波动，严重时甚至可引发安全事故。尽管可通过数据增强方法等方式提高人工智能可靠性，然而由于现实场景的异常情况无法枚举，可靠性至今仍然是制约自动驾驶、全自动手术等关键领域应用广泛落地的主要因素。

（四）滥用误用人工智能，扰乱生产生活安全秩序

人工智能在对加速社会发展、提升生产效率等方面产生极大促进作用的同时，也出现了被滥用误用、恶意使用的现象，引起威胁社会安全、人身安全等负面事件。近年来，滥用误用人工智能方面，出现了物业强制在社区出入口使用人脸识别、手机应用扎堆推送雷同信息构筑信息茧房等问题。恶意使用人工智能方面，出现了利用虚假视频、图像、音频进行诈骗勒索、传播色情暴力信息等问题。

（五）模型和数据成为核心资产，安全保护难度提升

人工智能训练数据的获取以及模型开发已经逐渐变成重资产投入、重人力投入的工作，算法模型、参数、加工后的训练数据已成为核心资产，不免遭到觊觎。通过模型窃取、成员推理等攻击手段反向获取模型、数据，或者利用人工标注、数据存储等环节的安全管理漏洞套取数据的情况时有发生。

（六）网络意识形态安全面临新风险

人工智能的目标是模拟、扩展和延伸人类智能，如果人工智能只是单纯追求统计最优解，可能表现得不那么有“人性”；相反，包含一些人类政治、伦理、道德等方面观念的人工智能会表现得更像人、更容易被人所接受。事实上，为了解决人工智能面对敏感复杂问题的表现，开发者通常将包含着开发者所认为正确观念的答案加入训练过程，并通过强化学习等方式输入到模型中，当模型掌握了这些观念时，能够产生更能被人接受的回答。然而，由于政治、伦理、道德等复杂问题往往没有全世界通用的标准答案，符合某一区域、人群观念判断的人工智能，可能会与另一区域、人群在政治、伦理、道德等方面有较大差异。因此，使用内嵌了违背我国社会共识以及公序良俗的人工智能，可能对我国网络意识形态安全造成冲击。

本文摘编自全国信安标委大数据安全标准特别工作组发布的《人工智能安全标准化白皮书（2023版）》，全文下载：