生成式人工智能数据标注和训练两项国标征求意见

两项国标一是有效提升生成式人工智能人工标注实施及应用安全性,二是开展预训练和优化训练过程中涉及的数据处理过程安全保护要求作出明确规范。

生成式人工智能数据标注和训练两项国标征求意见
出处:全国信安标委

2024年4月3日,为确保标准质量,全国信安标委秘书处面向社会广泛征求国家标准《信息安全技术 生成式人工智能数据标注安全规范》(征求意见稿)、《信息安全技术 生成式人工智能预训练和优化训练数据安全规范》(征求意见稿)的意见。

生成式人工智能已经成为人工智能领域的一个重要分支,具有广阔的应用前景和发展空间,生成式人工智能人工标注的准确性、安全性对于生成式人工智能的性能和安全应用具有重要的影响。近年来随着生成式人工智能的爆发式发展,人工标注的产业规模迅速增长,越来越多的专业标注公司和众包标注平台涌现,生成式人工智能模型的对于数据标注的需求不断增长。

2023年7月,中央网信办联合多部门发布《生成式人工智能服务管理暂行办法》,其中数据标注是重要内容,相关内容实施落地亟需配套标准支撑相关工作开展。目前国内外尚无针对数据标注活动的相关标准进行安全指导和规范。为落实《暂行办法》的相关要求,《信息安全技术 生成式人工智能数据标注安全规范》(征求意见稿)针对生成式人工智能产品研制中的人工标注环节,对人工标注规则制定、标注实施安全、标注质量及安全性核验要求、标注人员安全管理要求、过程安全控制要求、安全证实方法等方面提出规范指引。

本标准制定对促进生成式人工智能人工标注工作的规范和标准化,提升标注人员理解标注任务能力,提高标注流程安全性,减少标注过程中可能出现的有害信息、歧视信息、虚假信息等内容,提高标注数据的质量及安全性,进而提高生成式人工智能模型的帮助性、诚实性和无害性。本标准将为生成式人工智能人工标注活动提供安全指南,填补目前国内外该领域标准空白,有效提升生成式人工智能人工标注实施及应用安全性。

主要内容包括:

(1)生成式人工智能数据标注基本概念;
(2)标注任务前期准备安全要求;
(3)标注任务执行安全要求;
(4)标注结果输出安全要求;
(5)标注过程活动控制安全要求;
(6)标注安全测试方法。

《暂行办法》中第七条有关“生成式人工智能产品的预训练数据、优化训练数据”条款备受关注。《信息安全技术 生成式人工智能预训练和优化训练数据安全规范》(征求意见稿)通过“数据通用安全”和“数据处理安全”两个维度,对生成式人工智能服务的研发者开展预训练和优化训练过程中涉及的数据处理过程安全保护要求作出明确规范,以实现降低生成式人工智能服务遭受数据投毒、恶意诱导性提示等安全威胁目的。

本标准旨在于支撑《生成式人工智能服务管理暂行办法》第七条对预训练和优化训练等训练数据处理活动规范的落地实施,试图明确生成式人工智能服务研发者在预训练和优化训练等训练数据处理活动中的数据来源等方面的管理要求,解决生成式人工智能服务可能存在的被诱导生成侵害他人知识产权、个人信息等问题,提高生成式人工智能服务的安全性。

恳切希望您对该标准提出宝贵意见,并将意见于2024年06月02日前反馈给信安标委秘书处。

联系人:王姣 13661025214 wangjiao@cesi.cn

下载附件:

  1. 信息安全技术 生成式人工智能数据标注安全规范-标准文本.docx
  2. 信息安全技术 生成式人工智能数据标注安全规范-意见汇总处理表.doc
  3. 信息安全技术 生成式人工智能数据标注安全规范-编制说明.docx
  4. 信息安全技术 生成式人工智能预训练和优化训练数据安全规范-标准文本.pdf
  5. 信息安全技术 生成式人工智能预训练和优化训练数据安全规范-意见汇总处理表.doc
  6. 信息安全技术 生成式人工智能预训练和优化训练数据安全规范-编制说明.doc
相关文件下载地址
此处下载仅用于分享和非商业性质使用,并遵守相关的条款和隐私政策。

发条评论

你的电邮不会被公开。有*标记为必填。