如何杜绝杀熟 从透明、公平和数据保护来看算法风险的治理

在此将讨论算法社会的兴起,分析算法风险背后的算法伦理问题,并选取算法透明、公平以及个人数据保护深入分析公众的认知与态度。

人工智能伦理与治理-头图
出处:清华大学数据治理研究中心

当前,人工智能算法的伦理原则基本上起源于欧美国家,提出者涵盖政府部门、社会组织、产业协会等各类主体,而同样作为人工智能发展大国的中国也开始在算法上形成自己的声音。2019 年我国《发展负责任的人工智能:我国新一代人工智能治理原则》明确了人工智能法律主体以及相关权利、义务和责任,提倡和谐友好、公平公正、包容共享、尊重隐私、安全可控、共担责任、开放协作、敏捷治理。

2021 年初由全国信息安全标准化技术委员会正式发布的《网络安全标准实践指南———人工智能伦理安全风险防范指引》,是我国首个国家层面的一般性、基础性的人工智能伦理和安全风险指南。

《指引》中提到的人工智能伦理问题和安全风险问题很大程度上就是算法的问题,并将研究开发者、设计制造者、部署应用者以及用户都纳入了行为规范范畴。《指南》定义的风险包括:

  1. 失控性风险:人工智能的行为与影响超出研究开发者、设计制造者、部署应用者所预设、理解、可控的范围,对社会价值等方面产生负面影响的风险;
  2. 侵权性风险:人工智能对人的基本权利,包括人身、隐私、财产等造成侵害或产生负面影响的风险;
  3. 歧视性风险:人工智能对人类特定群体的主观或客观偏见影响公平公正,造成权利侵害或负面影响的风险;
  4. 责任性风险:人工智能相关各方行为失当、责任界定不清,对社会信任、社会价值等方面产生负面影响的风险。

在此将讨论算法社会的兴起,分析算法风险背后的算法伦理问题,并选取算法透明、公平以及个人数据保护深入分析公众的认知与态度。

算法伦理的三个关切:透明、公平和数据保护

各国政策中人工智能伦理的主要关切都离不开透明、公平、隐私保护等方面。

1、算法透明

导致形成算法不透明的因素有很多,既有人的认知能力不足的因素,也有算法本身的因素。首先,不透明可能源于:人类无法解释大量算法模型和数据集,缺乏适当的工具来可视化和跟踪大量代码和数据,代码和数据结构太差以至于无法阅读。其次,算法不透明还根植于自学习算法(self-learning algorithms)的固有特性,算法在学习过程中自动更新决策逻辑,导致开发者对某些决策的改变缺乏详细的理解。最后,不透明还产生于算法延展性(algorithmic malleability),算法可以以连续、分布式和动态的方式重新编程,开发者可以修改早已部署的算法,导致后来的使用者不了解算法的历史。

虽然算法透明的呼声很高,但是有学者认为算法透明绝不是一个道德准则,而是一个“有利于道德条件”;相反,绝对的透明本身就会形成一个道德问题。因为算法透明虽然可以为用户提供关于算法特征和缺点的关键信息,但也会导致用户信息过载,而且算法透明还有可能损害创新。有效的增进透明的措施应该关注算法系统的可解释性。当前的解释路径主要有两种:一是解释的精度和长度根据用户以及给定算法量身定制,二是根据模型进行解释,不依赖受众。

问题在于,算法应该在何种上程度是可解释的?如何取得可解释性?本报告通过问卷调查来收集公众对算法公开、透明的态度。问卷中询问了公众在多大程度上认同算法公开的五个维度:1.算法目的、范围和用途;2.算法步骤、原理和细节;3.算法源代码;4.算法风险;5.算法开发应用。

整体上看,公众对算法公开持支持态度,尤其是算法目的、范围和用途、算法风险以及算法的开发应用。对于这三个维度,87%-94%的受访者选择了比较同意或非常同意。另一方面,对于公开算法的步骤、原理和细节以及算法的源代码,持同意态度的受访者比重显著降低。尤其对于算法的源代码,只有约 45%的受访者同意公开。由此可见,公众对算法公开的支持态度主要集中于在算法的应用推广阶段,即公众在使用人工智能产品过程中直接受算法影响的阶段。而对于算法设计过程,尤其是源代码,多数人并不认为应该公开。

图 1 公众对算法公开的态度

2、算法公平

学界尚未对算法公平的定义、测量和准则形成共识。在不同领域的文献中,公平的定义有数十种之多,且经常相互不一致。公平即非歧视与无偏见。当前,评分社会(scored society)中的算法歧视屡见不鲜,譬如价格歧视(商品的提供者以不同的价格,向交易条件相同的交易相对人提供相同等级、相同质量的商品)、就业歧视(基于种族、肤色、性别、宗教、政治见解、民族血统或社会出身等因素,在录用、晋升、薪酬等方面实施差别待遇)和信用歧视(根据种族、肤色、宗教信仰、性别、年龄、籍贯、婚姻状态等因素,对特定人的信用进行不正当的评价或给予差别对待)。

还有学者将算法偏见类型归纳为:损害公众基本权益的算法偏见,如种族歧视和性别歧视;损害竞争性利益的算法偏见,比如通过算法设置贸易壁垒、排除竞争;损害个体民事权益的算法偏见,典型代表是算法杀熟。算法决策过程中的歧视有多重来源,包括:输入到算法系统中的数据因为权重不一样而对结果产生了较大影响;使用算法本身就是一种歧视,因为算法所要执行的分类工作本身可以被视为一种直接歧视;不同场景中模型的误用也有可能导致歧视;有偏的数据集也会导致算法的歧视。

也有学者认为算法歧视滋生的肇因包括了算法研发者的偏见、样本与训练数据的偏见、算法研发公司以及企业的利益要求、算法自身原因造成的歧视以及意识主义形态。

算法歧视是数字社会算法决策的客观后果,在此情景下,了解公众在主观上如何判定算法决策结果的公正性也非常重要。算法决策对人们生活有重大影响,因此选择适当的算法公平保障措施非常重要,然而几乎未有研究去获取公众对算法公平的看法。了解公众对算法公平的认知将有助于科技工作者研发出具有公平原则的算法,这些原则需符合公众对公平概念的普遍理解。

3、个人数据和隐私保护

算法伦理问题很大一部分关涉数据,数据伦理问题是数据收集和使用过程中产生的问题,主要表现为侵犯隐私信息和垄断(数据问题更关注算法决策的输入,相比之下,算法透明和公平更关注算法决策的过程)。人工智能算法的智能性是海量数据为支撑,算法建立在数据之上,数据是训练算法和算法自学习的基本原材料。为了训练出更精准的模型,算法研发者有动机其尽量获取更多训练数据。

当前,算法所依赖的数据大部分来自传感器和人,包括用户上网新闻浏览记录、社交网络记录、网络购物记录、通讯软件聊天记录、传感器数据和监视数据等⑤,其中不可避免地涉及用户隐私信息。就算法而言,它是“数据贪婪”的(data-greedy),它驱动了算法研发机构和算法使用机构去无限制地收集、处理、使用个人信息。

算法驱动下的大规模数据收集带来的挑战表现在两个方面:一是由于数据收集者不可靠而导致的数据泄露,这不仅对个人数据权利和个人安全造成潜在损害,也对企业声誉、社会稳定和国家安全形成威胁;二是攻击者能够根据机器学习算法的输出结果逆向推理出个人敏感信息。

因此,有观点认为,个人数据和隐私保护不仅应该借助法律法规的约束,也应该在算法的设计、训练和部署过程中保证个人隐私数据不被未授权的人员直接或间接获取。

为了了解公众对数据隐私的态度,本次调查设计了两个题设。第一个题设询问公众认为最重要的四项个人隐私信息有哪些,第二个题设询问公众是否会担心有关隐私信息泄露的各种说法。由于第一个题设是排序题,本报告对受访者的排序结果进行了赋值计算,排序第一赋值为 4 分、第二赋值为 3 分、第三赋值为 2 分、第四赋值为 1 分。

图 2 展示了公众对隐私信息重要性的态度。得分最高的四类隐私信息分别是:1.基本信息,如姓名、身份证号、手机号等;2.人际关系(亲朋好友);3.经济情况;4.社交软件记录。其中基本信息与人际关系信息,得分明显高于其他项目, 表明公众对这两类隐私信息最为关心。经济情况与社交软件记录虽然得分略低于前两项,但得分仍然比其他隐私信息类型高,表明公众对这两类信息的重视程度较高。

题目选项的完整表述如下:以下常见的个人隐私信息,请选择您认为最重要的四项是什么?1.基本信息, 如姓名、身份证号、手机号等;2.人际关系(亲朋好友);3.经济情况;4.社交软件记录(微博、抖音等);5. 实时定位信息;6.与他人的交流内容(微信聊天记录、电子邮件等);7.身体健康情况;8.搜索记录(百度搜索、今日头条等);9 购买记录(淘宝、美团等);10.指纹、人脸等生物信息。

题目选项的完整表述如下:随着智能手机、软件的普及,越来越多的个人信息被保留在互联网上,以下事项中您最关心的三项是?1.个人隐私信息是否会被泄露;2.个人信息是否被他人、企业盗用牟取利益;3. 不再使用某个软件或服务时,个人信息是否可以删除;4.是否可以限制他人、企业查阅我的个人信息。对于每个题项,受访者有四个选项:否或是。否则意味着受访者不担心该题项。

图 2 公众对各类隐私信息的关心程度

图 3 呈现了公众对隐私信息潜在风险的态度。在四个题项中,公众对个人隐私信息是否会被泄露(隐私泄露)与个人信息是否被他人、企业盗用牟取利益(信息盗用)最为担心,超过 80%的受访者表达了担忧态度。相比而言,公众对不再使用某个软件或服务时,个人信息是否可以删除(信息删除)与是否可以限制他人、企业查阅我的个人信息(限制查阅)的担忧程度则明显下降,但即便如此,仍有超过半数的受访者持有担忧态度。

整体来看,公众对算法应用推广中,对个人信息隐私保护普遍持有谨慎态度,尤其关注隐私泄露和信用盗用问题。

图 3 公众对隐私信息潜在风险事项的态度

算法风险的治理

算法社会内生的风险及其背后的伦理问题需要我们规范算法的研发和运行,系统讨论算法的伦理面向及其风险治理。特别是当算法介入决策时,算法就具有了权力属性,因此面向算法的治理与治理算法本身同样重要。有学者提出“算法向善”,让社会力量主导算法的发展方向,让算法更好地服务人类社会,回到以人为本的向善。

提高算法的透明度,增加算法的可解释性。规制算法不透明的传统思路是算法公开,但是,公开算法源代码和架构对于普通公众理解算法并无太大意义,反而有可能导致算法知识产权侵权风险。因此,增进算法透明的可行且可欲的方式是公开算法决策体系。

与之相似的看法是,虽然缺乏透明度是机器学习算法的固有特征,但这并不意味着这就无法改进。比如,谷歌和 IBM 为了增进算法可解释性,开发了 Explainable AI、AI Explainability 360 和 WhatIf Tool 等工具。另一种较新也较有潜力的增强算法透明度的方法是,使用技术工具来测试和审计算法系统及其决策。测试算法是否表现出负面倾向并详细审核决策轨迹,有助于算法保持高度的透明度。

此外,在算法日益渗透日常生活的情况下,有必要加强公共教育,以提高普通公众计算素养和数据素养,以更好地实现算法的可解释性。比如,纽约大学的 AI Now 研究所制定了算法影响评估指南,旨在提高公众对机器学习算法的认识和讨论。

促进算法公平,消灭基于算法的歧视。要规制算法所导致的歧视,传统思路是在算法中禁用身份信息,但是这并不一定就能够实现身份平等,因为离开了算法决策,某些身份群体仍然可能遭受区别对待,而且禁用身份信息会导致信息与统计理论方面的质疑。有学者认为,应该避免基于用户画像的区别对待,甚至应该考虑用户的社会背景和历史背景,利用算法来消除原本遭受的不公平对待。

此外,在我国,身份(比如种族)并非导致歧视的直接原因;相反,更多歧视是由于企业为提高竞争力和盈利的市场行为所导致的。还有观点认为,促进算法公平的路径之一是第三方干预,即由算法提供者之外的实体来持有敏感数据,由此来减少由数据和模型引起的歧视。最后,鉴于目前鲜有研究讨论公众如何判断算法决策的公正性,探索算法治下的普通公众如何评估算法的公正性也同样重要。

推动个体数据权利和隐私保护立法,约束算法驱动的个人数据滥用行为。针对算法驱动的侵犯个人数据行为,传统的规制思路是个人数据赋权,即通过赋予个体一系列数据权利(比如访问权、更政权、删除权、拒绝自动分析权、转移权等)来强化个人对其数据的知情与控制。但是,个人在面对数据收集行为时经常无法做出合理判断,个人在数据处理中很难有效行使反对权利,或在发生数据权利侵害时寻求有效救济。

有学者认为,个体数据赋权的制度应该根据场景与对象来确定赋权的类型与强度;如果相关个人数据的收集与使用有利于相关个体或者有利于公共利益,就应当更多允许相关主体收集和处理个人数据;例如在扶贫助学或精准扶贫实践中,相关扶贫主体应当积极运用个人数据与算法;法律也应当允许消费者选择个性化推荐,因为此类推荐可以节省消费者的搜寻成本,有利于消费者福利和有效决策;当个人数据被用于支配而非用于促进个人利益或公共利益时,法律规制应更为严格;法律应该更多地对数据控制者与处理者施以责任,而不是仅仅依赖个体对其数据的控制,应该将伦理责任嵌入数据控制者和处理者的数据相关行为,倒逼算法治理。

本文摘自清华大学数据治理研究中心的《人工智能伦理与治理研究报告》,2021 年 7 月。全文下载: