随着生成式人工智能技术的广泛应用,其安全性问题日益凸显,包括生成内容的真实性和准确性问题、模型篡改和对抗性攻击、生成内容中的偏见和不公平性问题等。现有的安全应急响应机制在面对生成式人工智能服务安全事件时难以有效应对,亟需制定专门针对生成式人工智能服务的安全应急响应标准。生成式人工智能服务涉及大量的用户数据和敏感信息,如何确保数据安全和隐私成为亟待解决的问题。
《生成式人工智能服务安全应急响应指南》(征求意见稿)为贯彻落实《生成式人工智能服务管理暂行办法》要求,围绕生成式人工智能服务安全事件给出了安全事件的分类和分级建议,并给出了应急响应过程,包括应急准备、监测预警、应急处置、总结改进阶段的管理措施和技术方法。
指南确保生成式人工智能服务的安全性和合规性,防止违法不良信息的生成和传播。提升生成式人工智能服务提供者的应急响应能力,确保在发生安全事件时能够及时、有效地进行处理。同时,加强与产品或服务供应商、第三方安全机构、行业主管部门等利益相关方的协同机制,共同应对生成式人工智能服务的安全挑战。
一、生成式人工智能服务安全事件分类
1. 分类方法
综合考虑生成式人工智能服务安全事件的起因、威胁、攻击方式、损害后果等因素,按照GB/T 20986-2023 5.1分类方法进行分类,分为信息内容安全事件、数据安全事件、网络攻击事件等10类。
2. 常见生成式人工智能服务安全事件
- 信息内容安全事件:包括违法信息生成事件、虚假信息生成事件、煽动教唆信息生成事件、权益侵害信息生成事件、歧视性信息生成事件。
- 数据安全事件:包括数据泄露事件、数据篡改事件、数据投毒事件。
- 网络攻击事件:包括模型篡改事件、拒绝服务事件、漏洞利用事件、社会工程事件。
- 其他安全事件:按照GB/T 20986-2023 5.1分类方法,其他与生成式人工智能服务相关的安全事件。
二、生成式人工智能服务安全事件分级
1. 分级标准
生成式人工智能服务安全事件按照事件影响对象(生成式人工智能服务业务应用及数据)的重要程度、业务损失的严重程度和社会危害的严重程度三个要素进行分级。具体来说,事件影响对象的重要程度分为特别重要、重要、一般三个级别;业务损失的严重程度分为特别严重、严重、较大和较小四个级别;社会危害的严重程度分为特别重大、重大、较大和一般四个级别。
2. 事件级别划分
综合这三个要素的级别,生成式人工智能服务安全事件分为特别重大事件、重大事件、较大事件和一般事件,由高到低分别为一级、二级、三级和四级。表1描述了业务损失的严重程度与安全事件级别的关系,表2描述了社会危害的严重程度与安全事件级别的关系,表3给出了生成式人工智能服务安全事件级别划分的规则描述与示例。
三、生成式人工智能服务安全应急响应过程
生成式人工智能服务安全应急响应过程包括四个阶段:应急准备、监测预警、应急处置和总结改进。每个阶段都有详细的管理措施和技术方法,确保在发生安全事件时能够迅速、有效地响应。
1. 应急准备
- 管理措施:包括应急策略制定与最高管理者承诺、安全事件管理计划、安全事件应急响应预案、事件升级策略和程序、上下线管理审查程序、事件响应小组(IRT)、培训和技术支持。
- 技术方法:建立并维护关键词库和测试题库,确保全面性、即时性和针对性。
- 外部协同:建立与产品或服务供应商、第三方安全机构、行业主管部门等利益相关方的协同机制。
2. 监测预警
- 管理措施:包括制定监测策略、执行监测任务、建立预警机制、建立快速响应机制。
- 技术方法:包括实时监测、数据分析、安全预警。
- 外部协同:收集来自各利益相关方提供的服务异常监测线索,共享热点事件或重要舆情的威胁情报、风险提示信息和预警信息。
3. 应急处置
- 管理措施:包括评估与决策、启动应急响应预案、应急调度、排查与诊断、处理与恢复、服务测试评估、事件关闭、服务上线管理审查。
- 技术方法:包括安全事件分级处置、安全事件报送、安全事件分类处置技术措施、服务恢复测试与评估。
- 外部协同:向其他利益相关方通报安全事件的类别、级别、安全故障原因等信息,IRT进行故障排查和诊断,必要时可寻求其他利益相关方以现场或远程方式提供技术支持。
4. 总结改进
- 管理措施:包括应急响应工作总结、应急响应工作审核、应急响应工作改进。
- 技术方法:包括经验反馈机制、模拟测试、技术审计、知识管理和更新。
- 外部协同:与行业主管部门保持密切的沟通和协调,确保应急响应预案符合最新的法规要求,将生成式人工智能服务安全事件应急响应经验总结转化为培训材料,与其他利益相关方进行知识分享。
5. 案例概述
- 应急准备:针对信息内容安全事件如歧视性信息生成事件,包括应急策略、管理计划、应急预案的制定,关键词库和测试题库的建立,与利益相关方的协同机制。如虚假信息生成事件,包括IRT团队的建立,事件响应策略和程序,应急预案的制定,信息感知渠道的建立。
- 监测预警:包括用户投诉触发事件,系统监控发现问题。
- 应急处置:包括评估与决策,传播控制,影响评估与应对,处置与恢复,服务测试与上线。
- 总结改进:包括IRT团队对事件的复盘,关键词库与监控规则的优化,模型训练和数据处理机制的改进,员工培训与应急预案演练。
四、热点关注问题
1. 如何在生成式人工智能服务中防范恶意输入攻击?
可以通过以下技术方法防范恶意输入攻击:
- 对模型输入内容持续监测,防范恶意轮询(监测用户请求的频率和模式)、DDoS、XSS、注入攻击等。
- 建立常态化监测测评手段,对监测测评发现的提供服务过程中的安全问题,及时处置并通过针对性的指令微调、强化学习等方式优化模型。
- 对数据泄露、数据篡改风险重点监测数据访问行为。
- 对模型篡改风险重点监测模型的参数变化。
- 对服务中断风险重点监测网络流量异常、系统资源过载等指标。
2. 在生成式人工智能服务安全应急响应过程中,监测预警阶段的技术方法有哪些?
利用自动化监测工具与人工审查结合的方式,实时监测生成式人工智能服务的模型行为和数据活动,及时发现异常、可疑或恶意活动。包括但不限于对模型输入和输出内容的持续监测,防范恶意输入攻击(如DDoS、XSS、注入攻击等),以及对数据访问行为和模型参数变化的监测。
利用大数据分析和机器学习技术,分析监测用户输入行为、生成内容、模型参数等数据,识别生成式人工智能服务异常。对关键指标设置阈值和触发条件自动预警,对热点事件和重要舆情及时更新预警策略。例如,异常请求率、服务系统负载等关键指标一旦超过阈值自动触发预警。
3. 生成式人工智能服务安全应急响应的总结改进阶段包括哪些管理措施和技术方法?
管理措施有:
- 应急响应工作总结:生成式人工智能服务提供者应定期对应急响应工作进行分析和回顾,总结经验教训,并采取适当的后续措施,形成总结报告。
- 应急响应工作审核:定期组织应急响应工作审核,确保应急响应过程和方法符合预定的策略和要求,评审应至少每年进行一次,或在发生重大变更、发生应急事件后进行。
- 应急响应工作改进:将总结报告和审核结果作为改进要素,结合最新的动态和最佳实践,不断优化应急策略和应急响应预案。
技术方法有:
- 经验反馈机制:在安全事件处置完成后,建立反馈机制,收集和分析安全事件相关数据,评估应急响应管理和技术措施的有效性,识别潜在的改进点。
- 模拟测试:定期对安全事件应急响应过程进行模拟测试,检验应急响应预案的实用性和有效性,测试结果用于优化预案和提高响应能力。
- 技术审计:利用数据分析和机器学习技术,分析生成式人工智能服务安全事件日志并挖掘安全漏洞,归纳典型安全事件行为模式,改进应急响应相关管理或技术措施。
- 知识管理和更新:将安全事件应急响应经验整理成案例库,定期更新安全操作手册和培训材料,确保IRT了解典型的安全事件和响应经验。
2024年12月17日,根据网安秘字〔2024〕161号,全国网安标委秘书处现组织对《网络安全标准实践指南——生成式人工智能服务安全应急响应指南(征求意见稿)》面向社会公开征求意见。如有意见或建议,请于2024年12月31日前反馈至秘书处。
联系人:王寒生 010-64102730 wanghs@cesi.cn
下载附件:
1. 《网络安全标准实践指南——生成式人工智能服务安全应急响应指南(征求意见稿)》
来源:全国网络安全标准化技术委员会秘书处,图片:Nahrizul Kadri,Unsplash