为什么要 DG4AI ?与人工智能安全治理有何不同

我们针对全文在确保人工智能的安全、可靠和公平应用,面向人工智能的数据治理、数据安全以及最佳实践等方面问题由生成式 AI 做出的核心摘要和解答。

为什么要 DG4AI ?与人工智能安全治理有何不同
出处:数治网综合

2021年,随着以大模型为代表的生成式人工智能技术席卷全球,对人类的生产和生活都带来了革命性的变化,人工智能的发展从以模型为中心转变为了以数据为中心。以数据为中心的人工智能理论认为,好的人工智能需要高质量、大规模和多样性的数据。

数据治理的概念起源于企业管理领域,随着大数据和人工智能技术的发展,数据治理的内涵不断丰富。面向人工智能的数据治理(DG4AI)概念应运而生,旨在解决数据安全与隐私泄露、内容输出偏见与歧视以及数据“高量低质”的问题。

紧跟数字中国建设趋势落政策、学法规、读研报、用标准,有问题来 Q 小治,以下我们针对《面向人工智能的数据治理实践指南(1.0)》全文,在确保人工智能的安全、可靠和公平应用,面向人工智能的数据治理、数据安全以及最佳实践等方面问题由生成式 AI 做出的核心摘要和解答,仅作为参考,请以原文为准。下载文档请在页面底部扫码关注我们的微信公众号“idtzed”,对话框内发送“240920”或“入”添加老邪企业微信获取链接。

01 《面向人工智能的数据治理实践指南(1.0)》概览

《面向人工智能的数据治理实践指南(1.0)》是由CCSA TC601大数据技术标准推进委员会组织编写的,旨在凝聚共识、开宗明义,推动DG4AI理念的广泛应用,促进人工智能技术的健康发展。报告详细阐述了数据治理在人工智能领域的重要性、定义、主要阶段、价值以及实践方法,在国内外政策法规与标准建设发展情况中对比了美国和欧盟在人工智能数据治理方面的政策和实践。

1. 人工智能数据治理概念界定:

  • 面向人工智能的数据治理的定义:强调数据治理在AI研发全生命周期中的重要性。
  • 面向人工智能开展数据治理的主要阶段与对象:包括顶层设计、数据治理组织保障体系搭建、数据治理工程建设、数据治理运营优化与AI应用融合四个阶段。
  • 面向人工智能的数据治理价值:提高AI模型的准确性、可靠性,缩短开发周期,降低开发与维护成本,提升AI系统安全水平。
  • 面向人工智能的数据治理原则:包括标准化、透明性、合规性、安全性、负责任、公正性和可审计原则。

2. 面向人工智能数据治理的重点:

  • 数据质量治理:包括需求分析与质量目标设定、制定数据质量管理体系、数据源评估及采集、数据预处理、特征工程、数据偏见检测与矫正、常态化数据质量监控和持续改进。
  • 数据安全与隐私治理:包括建立数据全生命周期安全监督机制、制定数据集安全风险分类管理体系、数据加密、风险评估、教育与培训、监管与合规审计。
  • 数据伦理治理:包括制定数据伦理政策、提升透明度和可解释性、规范数据收集和标注、开展风险评估和缓解措施、定期审查和更新。

3. 面向人工智能的数据治理步骤:

  • 明确应用目标与需求。
  • 设计数据集治理要求与规范。
  • 开展数据集处理与研发。
  • 进行数据集洞察与交付。
  • 持续数据集运营与优化。

02 确保人工智能的安全、可靠和公平应用

在全国网络安全标准化技术委员会新近发布的《人工智能安全治理框架》中,确保人工智能技术的安全、可靠和公平应用需要多方面的共同努力,包括制定和实施有效的安全治理原则、技术应对措施、综合治理措施,以及提供安全开发应用指引。

1. 安全、可靠和公平应用的重要性

人工智能技术的安全、可靠和公平应用对于维护社会稳定、保护个人隐私和促进经济发展至关重要。

2. 安全治理原则

  • 共同、综合、合作、可持续的安全观:确保人工智能的发展与安全并重,构建多方参与的治理机制。
  • 包容审慎、确保安全:对人工智能研发及应用采取包容态度,同时严守安全底线。
  • 风险导向、敏捷治理:密切跟踪技术趋势,快速调整治理措施。
  • 技管结合、协同应对:综合运用技术和管理手段,防范应对不同类型的安全风险。
  • 开放合作、共治共享:推动国际合作,共享最佳实践,形成全球人工智能治理体系。

3. 技术应对措施

  • 针对内生安全风险:提高人工智能的可解释性和可预测性,建立安全开发规范,加强模型算法的鲁棒性和安全性。
  • 针对应用安全风险:建立安全防护机制,防止模型被干扰或篡改,提高系统的透明度和追溯能力。

4. 综合治理措施

  • 实施分类分级管理:根据功能和场景对人工智能系统进行分类分级,加强最终用途管理。
  • 建立可追溯管理制度:通过数字证书技术标识管理,明确标识要求。
  • 完善数据安全和个人信息保护规范:明确各环节的保护要求。
  • 构建负责任的研发应用体系:推进价值观、伦理观对齐,制定伦理审查准则。
  • 强化供应链安全保障:推动共享知识成果,建立开放生态。
  • 推进可解释性研究:提高人工智能决策的透明度和可信度。
  • 建立风险威胁信息共享和应急处置机制:跟踪分析安全漏洞,制定应急预案。
  • 加大人才培养力度:推动安全教育与学科同步发展。
  • 建立健全宣传教育、行业自律、社会监督机制:提高全社会安全意识。
  • 促进国际交流合作:支持在联合国框架下成立国际治理机构。

5. 安全开发应用指引

  • 模型算法研发者:在需求分析、项目立项等关键环节遵循科技伦理规范,采取内部研讨、专家评议等措施。
  • 服务提供者:公开产品和服务的能力、局限性等信息,支持使用者知情选择。
  • 重点领域使用者:审慎评估目标应用场景,定期进行系统审计,增强风险防范意识。
  • 社会公众:提高对产品安全风险的认识,选择信誉良好的产品,避免在不必要情况下输入敏感信息。

在《面向人工智能的数据治理实践指南(1.0)》中,确保人工智能技术的安全、可靠和公平应用可以通过以下几个方面来实现:

  • 建立数据全生命周期安全监督机制,确保数据在采集、处理、存储及输出过程中的安全性。
  • 制定数据集安全风险分类管理体系,对不同安全等级的数据采取差异化管理策略。
  • 应用先进的加密算法对数据进行加密,防止数据泄露。
  • 加强风险评估,评估人工智能模型对潜在威胁的反应能力和逃避监管的可能性。
  • 提供数据安全和隐私保护的培训,增强人员的安全隐私意识。
  • 建立有效的监管机制,监督人工智能系统的运行,定期进行合规审计。
  • 制定数据伦理政策,为数据处理流程提供道德和法律框架。
  • 提升透明度和可解释性,增强公众对人工智能技术的信任和理解。
  • 规范数据收集和标注,确保数据的准确性和一致性。
  • 开展风险评估和缓解措施,评估可能导致不公正或歧视性结果的风险,并采取相应的缓解措施。
  • 定期审查和更新数据伦理准则和政策,确保其与时代保持一致。
  • 实施偏差检测和纠正,识别并消除算法中的偏见。
  • 设计反歧视性算法,确保算法处理数据时不会产生歧视。
  • 建立责任与可追溯性技术,确保AI系统的决策过程有清晰的记录,出现问题时可以追溯责任方。

相关原文:[29][41][44]

03 面向人工智能的数据治理

从数据库技术的发展到大模型时代,数据治理面临的挑战包括数据“高量低质”、安全与隐私泄露频发、偏见与歧视等问题。为了应对这些挑战,开发出更负责任、更可控的人工智能应用,面向人工智能的数据治理(DG4AI,DataGovernance forArtificial Intelligence)概念应运而生。

1. 数据治理的主要阶段

顶层设计阶段:

治理目标:确立数据治理的总体框架和战略目标,确保数据治理与组织的整体战略相匹配。
工作重点:设定组织中各机构和部门的职责、权力和利益,定义符合组织战略目标的整体数据治理目标和可行的行动路径。

数据治理组织保障体系搭建阶段:

治理目标:确保面向AI的数据治理得到必要的支持和资源,包括人力、算力、算法、数据、技术和管理等支持。
工作重点:建立健全面向AI数据治理的相关管理制度和标准,并构建支持面向AI的数据治理体系。

数据治理工程建设阶段:

治理目标:基于数据战略目标,结合AI数据治理的特点,制定并执行数据治理实施计划,确保数据治理能够按照既定目标和流程进行。
工作重点:包括数据收集、数据预处理/清洗、特征工程、数据标注、数据划分、数据增强、模型训练、模型验证与测试、模型推理等实施步骤。

数据治理运营优化与AI应用融合阶段:

治理目标:提升AI应用的规模化落地效果,实现数据治理与AI应用的良性互动,形成数据治理与AI应用相互促进的闭环,实现数据价值的最大化。
工作重点:通过数据治理提升AI模型的拟合效果,同时利用AI技术优化数据治理流程,形成良性闭环系统。

相关原文:[8][14][12]

2. 数据治理的四个阶段区别

顶层设计阶段:这个阶段的重点是确立数据治理的总体框架和战略目标,确保数据治理与组织的整体战略相匹配。工作重点包括设定组织中各机构和部门的职责、权力和利益,定义符合组织战略目标的整体数据治理目标和可行的行动路径。

数据治理组织保障体系搭建阶段:此阶段的治理目标是确保面向AI的数据治理得到必要的支持和资源。工作重点在于建立健全面向AI数据治理的相关管理制度和标准,并构建支持面向AI的数据治理体系。

数据治理工程建设阶段:在这个阶段,治理目标是基于数据战略目标,结合AI数据治理的特点,制定并执行数据治理实施计划。工作重点涵盖数据收集、预处理/清洗、特征工程等多个实施步骤。

数据治理运营优化与AI应用融合阶段:此阶段的治理目标是提升AI应用的规模化落地效果,实现数据治理与AI应用的良性互动。工作重点在于通过数据治理提升AI模型的拟合效果,并利用AI技术优化数据治理流程。

其中,数据治理组织保障体系的特点包括:

  • 确保面向AI的数据治理得到必要的支持和资源,涉及人力、算力、算法、数据、技术和管理等支持。
  • 分析领导层、管理层、执行层等利益相关方的需求。
  • 建立健全面向AI数据治理的相关管理制度和标准。
  • 构建支持面向AI的数据治理体系,基于数据治理所需的专项能力和业务价值目标。

相关原文:[8][12][14]

04 面向人工智能的数据安全管理策略

针对和利用人工智能,制定有效的数据安全管理策略,可以遵循以下步骤:

  • 明确数据治理目标与需求,包括解决的业务问题、改善的业务流程或实现的业务目标。
  • 确定人工智能应用的具体场景和应用范围,包括应用的环境、用户和操作方式。
  • 与算法方、需求方和数据方共同澄清所需的数据类型、数据数量和数据质量标准,涉及数据来源、数据格式、数据标签等。
  • 评估数据获取难度,考虑数据获取的法律、道德和技术限制,以及数据采集和标注的成本和时间。
  • 制定数据标注流程,包括数据标注的步骤、标准和质量控制措施,确定标注人员的资质要求、标注工具的选择和标注结果的审核流程。
  • 明确数据质量的衡量标准和评估方法,包括数据准确性、完整性、一致性和可靠性等方面,通过制定数据质量指标和监控机制来实现。
  • 考虑合规和隐私要求,确保数据采集、标注和使用过程符合法律、道德和行业规范的要求,特别是涉及个人隐私和敏感信息的情况下。
  • 建立持续更新的数据管理规范,确保规范与技术发展和业务需求的变化保持同步,定期审查和更新数据管理政策、流程和工具。

数据安全管理策略与业务目标的结合,可以通过以下几个方面实现:

  • 明确数据治理目标:确保数据治理策略与组织的整体业务目标和战略相匹配,以支持业务需求和提升业务流程的效率。
  • 实施数据分类分级管理:根据数据的重要性和敏感性对数据进行分类,并制定相应的保护措施,确保关键数据得到适当的安全管理。
  • 加强数据访问控制:建立严格的访问控制机制,确保只有授权人员才能访问敏感数据,同时实施最小权限原则,减少数据泄露的风险。
  • 采用先进的安全技术:利用加密、脱敏、安全审计等技术手段,提高数据的安全性,防止数据在存储和传输过程中的泄露和篡改。
  • 定期进行风险评估:定期评估数据安全风险,并根据评估结果调整安全策略,确保数据安全管理策略能够及时响应新的安全威胁和业务变化。

平衡数据利用与隐私保护是一个复杂的过程,需要采取以下措施:

  • 实施隐私影响评估:在处理个人数据前,进行隐私影响评估,识别数据处理活动对个人隐私的潜在影响,并制定相应的保护措施。
  • 遵守法律法规:遵循相关的数据保护法律法规,如欧盟的通用数据保护条例(GDPR),确保数据处理活动合法合规。
  • 采用隐私增强技术:使用差分隐私、同态加密等技术手段,保护个人数据在分析处理过程中的隐私。
  • 设计隐私友好的产品和服务:在产品设计和开发阶段,考虑隐私保护的需求,确保用户隐私得到尊重和保护。
  • 提供透明的隐私政策:向用户清晰地传达隐私政策,让用户了解他们的数据如何被收集、使用和共享,以及他们对自己数据的控制权。
  • 建立用户控制和同意机制:允许用户对自己的个人数据进行控制,包括访问、更正、删除等权利,并在必要时获取用户的明确同意。

05 人工智能应用的数据最佳实践

人工智能应用要确保在数据治理阶段的数据质量、安全,并实现数据的有效利用。

1. 确保数据质量方面

在数据治理中确保数据质量通常涉及以下几个方面:

  • 需求分析与质量目标设定:明确人工智能应用对数据质量和数量的具体需求。
    设立针对性的数据质量基准和目标。
  • 制定数据质量管理体系:建立全面、严谨的数据质量评价指标体系。
    制定数据治理过程中的数据质量标准和规范。
  • 数据源评估及采集:确保数据来源的可靠性、多样性以及数据的有效性和代表性。
  • 数据预处理:包括数据清洗、数据标注和数据增强等,以提高数据质量。
  • 特征工程:提取、构造出最具价值的特征,以满足人工智能模型的需求。
  • 数据偏见检测与矫正:通过统计分析、可视化手段以及特定的偏见评估框架来发现潜在的不公平现象。
    采取措施矫正数据偏见。
  • 常态化数据质量监控:在模型训练和推理阶段进行数据质量监控,确保数据质量符合要求。
  • 持续改进:定期复盘数据质量管理活动,总结成效、发现问题。
    跟进技术发展,优化数据处理流程。

2. 数据安全保障措施

在数据治理的不同阶段保障数据安全通常包括以下措施:

  • 建立数据全生命周期安全监督机制:包括数据采集、处理、存储及输出的全面安全保障。
    实施数据处理与加密措施。
    制定严格的数据使用规定。
  • 数据加密:应用先进的加密算法保护数据在存储和传输过程中的安全。
  • 风险评估:加强模型评估,判断其对潜在威胁的反应能力。
    定期执行风险评估以识别和防范数据安全和隐私方面的风险。
  • 教育与培训:对组织内部人员进行数据安全和隐私的培训。
    向用户提供安全实践和隐私保护的教育。
  • 监管与合规审计:建立有效的监管机制,监督人工智能系统的运行。
    定期进行合规审计,确保系统的运行符合相关法规和政策。

3. 数据利用的最佳实践

数据治理中数据利用的最佳实践包括:

  • 明确数据利用目标:确定数据利用的目的和预期效果。
  • 数据整合与共享:整合不同来源的数据,确保数据的完整性和一致性。
    在保障数据安全的前提下,促进数据的共享和流通。
  • 数据开放与透明:在遵守法律法规的前提下,推动数据的开放。
    提高数据处理的透明度,增强公众对数据利用的信任。
  • 数据价值评估:对数据的价值进行评估,以便更好地利用数据资源。
  • 数据驱动决策:利用数据分析结果支持决策过程,提高决策的科学性和有效性。
  • 技术创新与应用:探索新技术在数据治理中的应用,如大数据分析、机器学习等。
  • 持续监控与反馈:对数据利用的效果进行持续监控,并根据反馈进行调整优化。

相关原文:[8][19][20]


来源:本文生成自CCSA TC601大数据技术标准推进委员会发布的《面向人工智能的数据治理(DG4AI)实践指南1.0》,下载文档请在页面底部扫码关注我们的微信公众号“idtzed”,对话框内发送“240920”或“入”添加老邪企业微信获取链接。


在此声明以上观点和内容,仅代表原作者和出处,与数治网DTZed 无关,如有出错或侵害到相关合法权益,请通过电邮与我们联系:cs@dtzed.com。

在文末扫码关注官方微信公众号“idtzed”,发送“入”直通相关数治x行业共建群、AIGC+X 成长营,@老邪 每周免费领取法规、标准、图谱等工具包。

欢迎先注册登录后即可下载检索数据治理等相关标准、白皮书及报告。更多高质量纯净资料下载,在文末扫码关注官方微信公众号“idtzed”,进入公众号菜单“治库”。