人工智能伦理技术实现路径与治理实践

从人工智能伦理的技术解决方案出发，总结当前主要的伦理落地的技术实践，从人工智能伦理技术框架、技术实现路径以及相关治理实践进行阐述。

新一代人工智能具有高度的自主性、自学习及适应能力等特征，给技术治理以及政府监管带来了新的挑战。人工智能有可能彻底改变世界，为社会、组织和个人带来诸多好处。然而，人工智能也可能会带来巨大的风险和不确定性。数据的不平衡和算法的局限性等技术性缺陷，都可能使人工智能受到偏差的影响，从而导致严重的伦理问题。因此，从技术上推进伦理准则实践落地是重要路径。伦理原则需要融入到人工智能技术的全生命周期中，例如在模型和算法在设计之初即需纳入相关伦理因素的考量，在训练过程中需要增强伦理原则的技术模块嵌入。

从人工智能伦理的技术解决方案出发，总结当前主要的伦理落地的技术实践，从人工智能伦理技术框架、技术实现路径以及相关治理实践进行阐述。

1. 人工智能伦理技术框架

人工智能伦理技术框架基于生命全周期可划分为4个阶段（见图1），其中阶段一与阶段二主要为人工智能产品上市前的研发阶段。阶段一包含人工智能产品的概念与设计两部分内容，人工智能伦理作为重要内容融入到概念和设计过程。阶段二为数据集和模型开发部分，通过基准数据集及相关诊断、人工智能伦理符合设计技术确保设计开发过程将正确的伦理观植入人工智能技术应用，以及诊断结果符合伦理规范。阶段三为上市前的产品市场准入阶段，包含了产品方的内部评测和外部评测两方面，通过人工智能评估评测技术从多个伦理维度进行分析。阶段四为应用推广和上市后的跟踪评估评测，通过应用反馈实现产品的优化。值得注意的是，以上四个阶段之间相互关联，存在多个反馈回路，伦理技术方案嵌入到人工智能产品全生命周期。

图1 人工智能伦理技术框架

相关基准数据集及诊断指标的合理性，从人工智能产品设计之初就已确定。目前相关的基准数据集以性别偏见、刻板印象偏见等为主，诊断指标包括公平性、隐私性和可解释性等。伦理嵌入技术是指将价值设计、隐私、公平、可持续等符合伦理准则的技术框架与路径采用嵌入方式加入技术模块。伦理评估评测（监管）技术是指在人工智能产品和应用在开发和推广过程中基于伦理原则进行技术审查。

从伦理技术效用角度，如公平性、鲁棒性、可解释性、隐私性可采用不同的技术和工具，应用于模型开发、内部评估评测、上市前评估评测、上市后评估评测等人工智能生命周期的不同阶段，使其满足相应指标要求（见表1）。

表1 人工智能伦理技术全生命周期赋能示例

伦理维度	模型开发—>内部评估评测—>上市前评估评测—>上市后评估评测
公平性	公平学习	公平性检测
安全性与鲁棒性	对抗防御	鲁棒性检测	对抗检测
可解释性	可解释学习		可解释评估
隐私性	隐私学习	隐私攻击与检测

目前，无论是伦理符合设计技术或是监管技术，均处于起步阶段，将伦理技术系统性融入人工智能创新还没有成熟的方法论。鉴于此，持续加大对人工智能伦理技术的研究探索，确保人工智能发展可信可持续具有重大意义。以下将重点聚焦分析隐私、安全性、透明与可解释性、公平典型伦理原则上的技术实现路径与治理实践。

2. 人工智能伦理技术实现路径

2.1 隐私性（Privacy）

数据隐私是人工智能伦理原则中最基本、最常见的要求。欧盟《通用数据保护条例》《非个人数据自由流动条例》《欧盟网络安全法案》等监管政策，以及国内《网络安全法》《数据安全法》均强调了数据隐私的重要性。人工智能作为基于数据驱动的科学研究范式，对基准数据集提供更高要求，强调数据集本身的准确性完整性和隐私性。

安全计算、联邦学习、同态加密等相关技术可以在不直接访问用户数据隐私的条件下，分布式进行人工智能模型的训练。例如，联邦学习不仅为机构间分布式机器学习模型的协同开发提供了一种用于隐私保护的技术解决方案，而且也为人工智能社区的可持续发展指明了一种新的商业模型，推动数字生态系统的可信任。此外，在预测阶段以及训练阶段的同态加密隐私保护技术、差分隐私保护技术，在保护机器学习以及深度学习中的用户敏感数据已经取得较大进展。

进一步地，在隐私攻击测试方面，针对成员推理攻击，允许访问模型输出的条件下，推断某样本是否属于训练集；针对属性推理攻击，在给定样本标签和部分特征的情况下，推断样本的其他特征，从而进一步确保人工智能模型训练的科学性和准确性。

2.2 安全和鲁棒性（security and robust）

随着人工智能算法和应用场景的复杂性增加，如何以经济高效且无差错的方式设计和实施一个安全和可信赖的系统，成为当前人工智能发展面临的一个巨大挑战。在安全与鲁棒性方面，数据投毒、后门攻击检测、伪装恶意样本、生成虚假样本影响数据集等现实问题层出不穷。为应对以上挑战，目前已形成对抗测试、博弈模型、形式化验证等多种解决方案。

（1）对抗测试。在系统研发全生命周期中加入对抗测试已经成为增强模型安全性与鲁棒性的主流方向。一般来说，对抗算法分为4个等级：随机攻击、盲盒攻击、黑盒攻击、白盒攻击。
（2）博弈模型。从博弈论的角度，将机器学习模型的交互过程建立为一个博弈模型，目标是找出一个均衡博弈状态（最优解），让防御者赢得博弈，从而提高机器学习模型的鲁棒性。以对抗样本生成和防御为核心的对抗深度学习是目前的研究热点。
（3）形式化验证。因为输入扰动地选择组合情况庞大，对抗测试无法列举出给定一组输入的所有可能输出，因此引入形式化验证作为对抗测试方法的补充十分关键。形式化验证包括完整验证程序和不完整验证程序：前者损耗较高成本来保证没有误报，但其扩展性有限；相比而言，后者泛化性较好，但是准确性较低。

2.3 透明与可解释性（Transparency and Explainable）

与机器学习中“黑匣子”概念相比，可解释的人工智能是一套流程和方法，可使人类用户能够理解和信任机器学习算法所产生的结果和输出。可解释的人工智能用于描述模型、其预期影响和潜在偏见，并且有助于描述人工智能支持的决策中的模型准确性、公平性、透明度和结果。

可解释性主要包括数据可解释、特征可解释、模型可解释、逻辑可解释等方面。

（1）数据可解释。通常称为深度模型解释，主要是基于数据分析和可视化技术，实现深度模型可视化，直观展示得到模型结果的关键依据。
（2）特征可解释。指评估特征对模型的重要程度。
（3）模型可解释。这类方法也称为可解释模型方法，主要是通过构建可解释的模型，使得模型本身具有可解释性，在输出结果的同时也输出得到该结果的原因，帮助人工智能工程师直观地打开模型“黑箱”。
（4）逻辑可解释。目前的人工智能能力直接去“学习”人的逻辑难度很大，因此当前更多是尝试如何在建模型过程中融入人工经验，从而使得模型的产出与专家判断更吻合，比如端到端地对模型决策进行解释。

可解释性诊断指标主要包括保真度（Fidelity）、模型的复杂度、解释方法的类别、解释方法的可靠性、解释结果的正确性等方面。

（1）保真度（Fidelity）。在事后可解释性中，符合黑盒模型的能力保真度是帮助利益相关者评估解释的一个基本属性。保真度的价值可以反映解释的有用性，而高保真的解释是一种有价值的解释方法的必要条件。
（2）模型的复杂度。如决策树的深度、深度神经网络的层数等，对同一类模型而言，模型复杂度越高，可解释性越差。
（3）解释方法的类别。类别主要包括建模前、建模中、建模后，一般来说建模中的可解释性最强，建模后次之，建模前最差。
（4）解释方法的可靠性。解释方法需要经过人工智能专家的认证，确保其算法的可靠性。
（5）解释结果的正确性。人工智能模型都有具体的应用场景，解释结果需要经过相关领域专家的认证，确保解释结果的正确性。

2.4 公平性（Fairness）

目前，人工智能公平性研究主要集中在评估不同群体之间或个人之间人工智能输出的差异。

（1）个体公平。认为如果两个人有相似属性，则人工智能算法应当做出相似决策。
（2）群体公平。群体公平要求人工智能算法针对特定属性区分的用户群体要做出相同的概率预测，包括人口结构均等、概率均等和机会均等。由于此类公平不假定训练数据具有任何特殊属性，容易被验证。
（3）反事实公平。在许多决策场景中，受保护的属性（如种族和性别群体）可能对预测结果产生因果性影响。

目前在人工智能公平性方面主要涉及公平性测试数据集和公平性机器学习设计。

（1）公平性测试数据集及诊断指标。公平性测试数据集和普通数据集的差别在于具有敏感属性，目前国际上对公平性机器学习算法的测试大多基于美国司法部数据集、CrowS-Pairs（衡量刻板印象偏见）、Winogender（衡量与职业相关的性别偏见）、StereoSet（衡量性别、种族、宗教和职业上的刻板印象偏见以及原始语言建模能力的基准）等典型数据集。机器学习公平性诊断指标主要包括混淆矩阵、几率平等性（Equalized odds）、人口均等（Demographic parity）、不同误判率(disparate mistreatment, DM)。
（2）公平性机器学习设计。从算法的基本定义出发，是在输入、过程及输出不同阶段描述解决问题的策略机制，包括反分类（anti-classfication)、分类均等（classification parity)、校准（calibration)。

此外，在公平性问题上，数据训练集的历史偏差、标注偏差，算法中的因果偏差、归纳偏差、属性偏差等，可以通过加强学习、差分学习、公平机器学习技术等技术措施以及例如社会学、统计学、法学、伦理学等多领域学科知识支撑进行偏误纠正。图2展示了公平性机器学习流水线。通常可以在三个阶段对模型进行去偏。第一，公平性预处理：在此阶段通常是对数据集进行校正，利用改造后的数据集进行训练；第二，公平性机器学习，主要是在模型优化过程中加入与公平性相关的正则项或者约束，使得训练出的模型无偏；第三，公平性后处理，主要是针对结果进行修正，主要用于输入数据和训练过程是黑盒的场景。

图2 公平机器学习流程

3. 人工智能伦理管理实现路径

人工智能伦理原则融入技术研发和产品开发的全过程，不仅需要具备技术工具的保障，还应通过建立完善的人工智能伦理风险管理体系，确保伦理原则的实施和技术工具的使用贯穿于组织运行的全流程之中。伦理风险管理工具应服务于伦理风险管理流程中不同阶段的治理目标和治理要求，成为伦理治理理念和原则的有形载体。人工智能伦理风险管理工具的开发应紧密围绕组织的伦理原则开展，按照功能性，可分为以下几种主要类型：

3.1 伦理风险评估工具

“伦理风险评估工具”主要运用于人工智能系统的设计与开发阶段，主要包括伦理风险分级管理机制和伦理风险评估模板，详细信息如下：

（1）伦理风险评估模板

伦理风险评估模板应当基于统一的伦理风险评估框架，通过考察系统设计使用的场景、涉及的相关主体、预期实现的功能以及对社会和个人的影响，并结合场景、主体和功能定义人工智能系统全生命周期的风险点位和干预措施。

（2）伦理风险分级管理机制

综合欧盟《人工智能法案》（草案）以及美国国家标准技术研究院《人工智能风险框架》（草案）、加拿大《自动化决策指令》等相关人工智能风险分级思路，以及我国人工智能伦理相关政策指导文件，并结合人工智能产品开发和应用的实际情况，可总结出人工智能系统伦理风险分级参考原则，详见表2。

根据上述公开、明确的伦理风险等级，并结合个人权益、公平性、透明度、安全性等影响程度，建立伦理风险分级管理机制，帮助系统开发团队建立伦理风险清单；

表2 人工智能系统伦理风险分级表

伦理风险等级	伦理风险等级简介
E4	即禁止类系统，指背离人工智能伦理原则、违反法律法规要求的人工智能系统
E3	即伦理高风险系统，指直接关系最终产品安全、个人权益、市场公平、公共安全和生态安全的人工智能系统
E2	即伦理中风险系统，指对最终产品安全、个人权益、市场公平、公共安全和生态安全具有间接或潜在重要影响的人工智能系统
E1	即伦理低风险系统，指对最终产品安全、个人权益、市场公平、公共安全和生态安全不具备明显影响的人工智能系统
E0	即伦理无风险系统，不包含机器学习算法、不具备人工智能功能的人工智能系统

3.2 隐私性

“隐私保护管理工具”的使用贯穿于系统的全生命周期，其基本内容包括：

（1）个人信息安全影响评估：针对产品研发全生命周期流程，依据《中华人民共和国个人信息保护法》、GB/T 35273-2020等要求，对产品在进行数据收集、数据传输、数据存储、数据使用以及数据加工等数据处理活动进行个人信息保护自评估，明确产品在数据处理活动中应具备的功能，包括但不限于人工信息的无痕模式、去标识化处理、申请删除以及全链路加密等功能；
（2）数据出境评估：针对存在数据出境的产品，依据《数据出境安全评估办法》等要求，对数据出境活动中双方的资质、传输目的和渠道、数据的规模、范围、种类、敏感程度进行评估。

3.3 公平性

“公平性管理工具”的使用贯穿人工智能系统的全生命周期，其基本内容包括：

（1）数据集公平性说明：用于说明所选取的数据集的完整性、可用性、具备充分的代表性等，从而降低由于数据集的缺陷、规模不足或者存在脏数据等情况所导致后续模型训练环节训练出来的模型存在偏见；
（2）系统运行机制说明：在系统开发过程中，应提供系统的运行机制说明文件，帮助用户理解系统用途、解释系统决策及可能存在的偏差；
（3）产品适用性说明：用于说明产品设计及相关功能在满足不同群体方面的考虑，是否有考虑弱势群体或十四岁及以下未成年人群体的使用需求。

3.4 问责性

“问责性管理工具”的使用贯穿于系统的全生命周期，其基本内容包括：
（1）系统开发日志：系统开发的全流程应保持完整记录，并能够明确具体责任方；
（2）系统运营日志：系统上线应完整记录系统的操作、运行及客户使用和反馈信息。

3.5 透明与可解释性

“可解释性管理工具”的使用贯穿人工智能系统的全生命周期，并可结合披露对象的不同调整信息披露的形式和内容，其基本内容包括：

（1）披露对象识别要求：基于系统的伦理风险等级，以及相关法规和政策要求，明确系统信息应披露的范围及要求；
（2）算法可解释性说明：用于说明所选取的算法类型是否具备充分的可解释性等，保障在开发设计阶段对算法的决策机制有一定的解释性说明文件，从而为算法的可解释性提供恰当、合理的说明；
（3）数据处理日志：系统开发过程中，为保证数据的可追溯性、完整性、可用性，可对数据处理活动进行记录，形成审计日志，包括但不限于数据采集、数据预处理、特征工程、模型训练、模型部署等过程；
（4）透明性功能检查清单：结合系统信息披露要求（如显著标识、更新提示等），设置上线前的功能检查列表。

3.6 安全性和鲁棒性

“安全性和鲁棒性管理工具”的使用贯穿于系统的全生命周期，同时应考虑与技术工具配合使用进行协同治理，其基本内容包括：

（1）算法分级备案管理：在系统开发过程中，应根据有关部门规定对算法进行分级备案管理；
（2）算法安全评估：并在设计开发阶段对算法进行安全评估，从人身安全、社会伦理、国家安全等方面评估算法的技术合理性和伦理安全；
（3）算法违法违规处置机制：针对算法违法违规事件，应设立算法安全应急管理机制和违法违规处理条例；
（4）数据安全管理机制：根据《中华人民共和国网络安全法》、《中华人民共和国数据安全法》等数据安全法律法规和标准文件，设立数据安全管理机制，对人工智能系统开发过程中所涉及到数据处理活动进行规范。

本文摘编自国家人工智能标准化总体组、全国信标委人工智能分委会于2023年3月发布的《人工智能伦理治理标准化指南（2023版）》，全文下载：