非法收集30亿条个人数据的数字时代 隐私保护与数据安全何解?

解决好隐私保护和数据安全这些“痛点”,将受到消费者的青睐和拥抱;当竞争对手的思维还没有转变过来的时候,也是从中争取市场份额的大好机会。

隐私保护和数据安全
出处:阿里罗汉堂

早在古代文明以及宗教著作里,都提到了个人和群体隐私的需求(Banisar and Davies,1999)。亚里士多德将人的生活首先区分为公共空间和私人空间,个人对私人空间应当享有更强的控制。《礼记》中也有“将上堂,声必扬”的论述,提醒不要悄悄进入别人的隐私空间,教育人们要考虑到他人的隐私。

图 23: “隐私”概念的演变
资料来源:Ballard (2013); Holvast (2007); Dempsey (2019),罗汉堂概括整理。

不同时代隐私保护的侧重和迫切程度有所不同。19 世纪西方开始重视隐私权的保护,背景正是第二次工业革命带来的电话、电报的广泛应用,产生了信息的远距离快速传输,也带来了私人空间中的隐私信息泄露的风险。随着信息技术的发展,越来越多的信息可以通过声音、影像的方式被记录、复制、传播,这推动了 20 世纪 80 年代以来的信息保护实践。伴随着互联网,尤其是移动互联网以前所未有的速度进入人们的生活,信息交换和分享的维度、速度和量级都前所未见,相应也大大增加了隐私被侵犯、信息被泄露的风险,隐私保护成为一个全球性挑战。

回顾历史,保护隐私的制度安排也有共性,即从来都不是把隐私简单界定为一项不可剥夺的权利,而是将“隐私”视为控制信息和从自有信息中获得福利的权利(Schwartz,2004)。这种思路的背后是认识到信息分享的价值,认可消费者对涉及隐私的信息的控制权,因而允许消费者放弃部分隐私,以便享受信息分享带来的好处。在数字时代,这意味着个性化营销体验、定制化的金融服务、医疗保健、教育,以及便捷的社交网络。换句话说,为了保护好隐私,而不是流于形式,最有效的做法是将隐私视为一种可交换的商品,使参与者有权选择通过让渡部分权益得到好处。正如著名美国法学家 Richard Posner 指出,太多隐私倡导者将“避世”——即大法官 Brandeis 所说的“独处权”—— 与“保密”,即控制信息的权利混为一谈(Posner,1979)。

数字时代隐私风险源于何处?

数字时代在放大了信息分享带来的好处的同时,也增加了隐私风险。数字经济的特征是把越来越多多维度的、碎片化的、实时的小数据转化为“大数据”,在此基础上提供各类线上服务,让消费者和商家都得到好处。但因为数据的广泛使用,在数据周期的每个阶段,从数据收集到存储、分析、使用,到数据清除阶段,都存在隐私泄露和数据安全的风险。

以数据收集过程为例。看起来,数据收集只要在个人知情和同意的前提下,就没有问题。但在实践中,保护个人免受过度或未经授权的数据收集是一项艰巨的挑战。道高一尺魔高一丈,黑客和网络钓鱼者会用尽浑身解数开发出新的手段和技术来不当获取数据。

网络钓鱼是对一类骗取个人数据行为的统称。通过模仿某个值得信任的实体,与消费者的个人设备或日常服务取得联系,为的是骗取个人数据。常见的网络钓鱼方法包括 带有链接的垃圾邮件、浏览器中的弹窗,或精心编制过话术的电话钓鱼,后续常常伴随着金融盗窃或诈骗。根据卡巴斯基实验室的数据,仅在 2019 年第一季度,其 12.1% 的用户遭到攻击,而其反网络钓鱼系统阻止了超过 1 亿次将用户跳转至诈骗网站的尝试。

2018 年,一家上市公司北京瑞智华盛被曝非法收集了 30 亿条个人数据记录。该公司与各地网络运营商合作,以精准广告营销为名,获取了远程登录其操作系统的权限。然后,公司将数据收集程序嵌入运营商的系统中,自动收集客户数据,例如包含账户和密码的 cookies,以及存储在本地服务器中的数据。有了这些数据,瑞智华盛就能够在多个平台上登录众多客户的账户。该公司以每个用户 0.5 元人民币左右的价格为许多社交网络平台提供违规的营销服务,获得巨额非法利润。部分泄露的个人数据还被用于金融诈骗,带来了更大的损失。这个案例还包括不法分子对网络基础设施的肆意攻击,也警示我们要对数据的全流程风险更加关注。

图 24: 2005-2018 美国年度数据泄露的次数和记录量(百万)
资料来源:2020 Annual Data Breach Report by Identity Theft Resource Center。

网络追踪技术本意是通过追踪消费者的浏览内容,帮助网站背后的服务商发现不同客户的真正兴趣,从而有针对性地提供个性化的服务(Hoofnagle et al.,2012),但是用户通常对在线广告背后的技术一无所知(Smith et al.,1999)。网络钓鱼者和黑客可以利用这种认知上的不对称,从受害者那里窃取信息或以其他方式欺骗受害者。由于这些都发生在浏览网页的后台,受害者对他们的数据被收集的程度、由谁收集以及以何种方式收集一无所知(McDonald,2010)。此外,对许多人来说,了解这些技术的门槛太高,实际上没有办法选择摆脱追踪。

接下来分析数据存储阶段。个人数据通常存储和汇集在本地服务器或云端,都面临着被恶意攻击的潜在风险。多份报告显示,在 2016 到 2018 年期间,发生了涉及 11 TB 数据记录的泄露事件,涉及的人数超过十亿。以 Facebook 为例,2018 年 9 月的一次攻击,使得 5000 万用户的账户面临威胁,这是该公司历史上最大的一次泄露事件。随后,在 2019 年 12 月又发生了另一次数据泄露,超过 2.67 亿用户的信息被黑客论坛的在线数据库获取。其中包括用户的 ID、全名和电话号码。

Facebook 及其用户并不是唯一的受害者。其他公司及其用户也经历过数据泄露,而且形势越来越严峻(图24)。在美国,数据泄露事件的数量从 2014 年到 2017 年翻了一番。例如,威瑞森数据泄露调查报告(2015)统计了 2100 多起案件,2014 年泄露记录超过 7 亿条。截至 2021 年初,全球范围内泄露信息超过一亿人的恶性事件已经达到 29 起。

在数据使用阶段,即使在合法收集之后,也可能出现将数据挪作他用、甚至转卖数据的行为。最有名的案例之一当属 2018 年“Facebook-剑桥分析公司”数据丑闻,损害了数百万 Facebook 用户的利益。剑桥分析公司开发的应用程序“这是您的数字生活”(This is your digital life)要求 Facebook 用户同意完成一项学术调查。用户同意后,该程序收集了用户社交网络中所有信息,但是这些数据最终被用于政治目的。该丑闻导致美国联邦贸易委员会对该公司处以 50 亿美元的罚款,这是迄今为止全世界最大一笔罚款,同时对该公司实施了严格的新隐私法规。这一事件严重损害了 Facebook 的声誉。

最后,我们来看数据清除阶段。由于“被遗忘”的权利是隐私保护的一个重要方面,对历史数据的清除也是消费者的重要需求。一些搜索平台似乎在这方面取得了重大进展。比如谷歌、必应等浏览器可以要求追踪技术清除用户浏览历史。同时一旦某个设备中某条信息被删除,与其同步的所有设备也会清除该信息。另一个例子是各种浏览器开发的“隐私模式”浏览功能,在这一模式下消费者的浏览记录不会被追踪,尽管可能带来一些不便,例如自己也无法查看浏览历史,但是这类服务的推出给了不同消费者更多的选择,受到市场的好评。

隐私工程化和隐私增强技术

我们每个人在使用数字服务的时候,都在有意无意地让渡部分个人隐私。通过选择点击“购买并保存”的按钮,把自己的购买记录保存下来,享受了记录信息的便利,虽然不一定非要这样。通过允许移动应用程序访问地址、浏览历史等个人信息,我们能够获得更精准的服务。另外,黑客和网络钓鱼者永远不会消失,他们将不停“开发”新的方式来骗取消费者的信息。

如何通过法规定义和保护好隐私权,已经越来越为社会所关注。因为数据交互是经济协同的基础,法规需要发展到哪个程度,才能既保护好隐私,又能支持数字经济的发展,最终造福整个社会,是一个很大的挑战。另外,无论法规如何健全,都需要落实到行业和企业行动中去。我们在下面专门讨论在企业层面如何基于法规和原则做好隐私保护和数据安全。

历史表明,新技术一方面会带来新的挑战,也会带来解决方案。与新药研发类似,新的技术能够通过限制数据分享中潜在的“副作用”来提高数据分享的安全性、透明性和可持续性。重要的是,在数字技术提供的各种福利和保护个人隐私之间实现适当平衡,尚无证据表明严格监管和巨额罚款是唯一或者最佳方式。另一方面,我们不可能回到避世的与外界隔绝的状态。只要有人类协同,个人隐私就永远不可能得到绝对的保障。而一味地依靠事后的惩罚来打击隐私侵害行为,会耗用太多本可用于预防其他类型犯罪的资源,损失了本可实现的更高层次的个人发展和社会进步水平。

隐私保护的关键在于用好数字技术,开发出更强的保护机制和更有效的保护技术。比如数字支付系统通过利用多维信息、实时风险甄别,以及人工智能算法,让支付中的欺诈行为大大降低。我们接下来主要介绍在隐私保护实践中近些年的两个有潜力且互补的核心方向:隐私工程化(“隐私设计”)和隐私增强技术。

隐私保护工程化正成为数字时代对企业的一项核心要求。许多科技公司都已经开始践行“隐私设计(Privacy-by-Design)”的方法。隐私工程化将隐私保护的法规和“用户导向”的原则引入到软件、服务设计和使用的各个环节中,将隐私保护前置,从产品和系统设计的初始阶段就考虑到如何解决隐私保护问题。隐私工程化包含两个部分,首先是软件的设计中加入隐私保护,在交互和数据分享的各个环节都应用到最新的隐私保护技术。此外,在用户界面的设计上,让隐私相关的说明、采集信息的告知更加醒目、易懂,确保用户理解隐私条款的内容,同时帮助他们了解隐私工程技术能够保护相应敏感 信息(Rubinstein and Good,2013)。这两部分同等重要,也已经越来越多地被用于隐私保护实践中。

图 25: Privitar 数据处理循环中的数据与隐私保护
资料来源:Privitar.com

注:Privitar 是一个专门为敏感数据提供数据处理的平台。

隐私保护工程化旨在指导数据收集者、处理者和软件开发人员将核心隐私原则转化为具体的设计功能和方法论。在 Gurses 等(2011)研究者工作的基础上,经济学家Hoepman (2014)确定了在设计软件时纳入隐私因素的八种方式:“最小化、分离、聚合、隐藏、通知、控制、实施和展示。”每个设计策略都可以应用下文介绍的隐私增强技术(Privacy-Enhancing Technology ,简称 PET),开发人员可使用这些技术来实现“隐私设计模式”,并让它们在不同环境下可被复用,以应对隐私相关的设计问题。

无论何种应用中,隐私工程化的基本思路都是将个人数据的收集和处理限制在必要的最低限度。此外,数据生产者需要在收集之前获得用户的授权,在分析和投入使用之前可以使用假名对数据进行匿名处理。

如今,越来越多的互联网服务都应用了隐私工程化的方法。例如,一个提供隐私保护解决方案的数据平台 Privitar,在所有操作中采用一套以用户为中心的原则(图25)。通过一个三阶段数据隐私流程,使数据生产者能够自动设计数据流,在数据生命周期的全链路实现隐私保护的最佳实践。三阶段包括“原始数据”、“受控数据”和“安全数据”。 通过用户授权公司在业务中收集到原始数据,其中的个人信息被脱敏之前,被视为高风险,对原始数据的访问将受到严格控制。原始数据通过数据编目、加密和去标识过程成为“受控”数据。系统会用隐私计算的方法进一步加密,为受控数据创建一个受保护的数据域,最大程度避免数据泄露。在这一安全数据域内,得到授权的分析师可以在域内使用数据,用于特定目的分析工作。通过这种设计,隐私风险可以降至最低。

图 26: 隐私保护的机制设计
资料来源:罗汉堂。

在中国,蚂蚁集团已经将以用户为中心的原则应用到其数据使用的整个生命周期中(图26)。在数据收集阶段,公司必须获得用户授权,并且确定收集数据的必要性,同时禁止从未知来源收集数据。在存储阶段,数据在进入到分析使用环节之前,可以对数据进行脱敏和加密处理,以防在发生数据泄露时,数据中的信息不会泄露。同时,一个实时、全天候的监控系统会自动监测数据分析和使用过程中的异常行为,以最大限度地降低隐私风险。在使用阶段,不敏感的加密数据可以在数据分类管理下使用。最终,用户可以选择行使其删除权,抹去记录下来的个人信息。

类似的,苹果公司提出了管理数据生命周期的四个原则:(1)最大限度地减少个人数据收集,(2)在终端设备处理数据以限制不必要数据流动,(3)基于授权管理的透明性和数据控制,(4)安全的数据处理流程。这些原则旨在减少数据流处理过程中的隐私风险。苹果公司还使用“差分隐私”技术,给数据集引入噪声,通过放弃部分数据精度 来更好地保护隐私。例如,为了在不侵犯用户隐私的情况下弄清用户喜欢什么表情,每次用户点击一个表情,另一个随机表情也会和用过的表情一起被发送到数据集。无须对用户所有的活动进行精准的追踪,数据仍然足以提供有用分析所需的信息。

隐私增强技术(PET)主要针对不可信和潜在有害的数据收集者(Gürses et al., 2011),作为隐私工程化的有效补充。一般把隐私增强技术分为“硬 PET 技术”和“软 PET 技术”。硬 PET 技术利用各种“硬核”技术来降低误判可信第三方的风险。这些技术包括匿名通信渠道(对服务提供商隐藏用户的 IP 地址,同时允许通信),选择性披露凭证(允许用户对自己进行认证,并证明他们有权使用系统,而无须披露其他信息),零知识证明(允许一方向另一方证明一项陈述是真实的,但除了陈述的真实性之外无须透露任何信息),和多方安全计算等(在多方同时计算时通过机密算法只输出结果,并且不可回溯)。

以多方安全计算(multiple-party calculation ,MPC)为例,该技术被广泛用于实现各方共同提供各自的数据,用于彼此的计算分析,同时达到“零知识证明”,即除验证彼此的计算结果外,不提供任何信息(案例 2)。通过该技术,分析师可从多方的数据中获得洞察,而不用接触到各方掌握的“原始”数据,同时原始数据不能通过计算结果进行回溯,化解了各方对数据泄露的担忧。通过这种方式,无须共享原始数据就可以实现多方的数据协作,它可以放大数据的价值,同时大大降低隐私风险。

图 27: 多方安全计算
资料来源:罗汉堂。

“软 PET 技术”是一套数据管理工具,可以帮助用户自己做出更好的决策,与服务提供商共享数据,同时满足知情同意的要求,如 cookie 管理工具、隐私仪表板、广告图标等。这些工具背后的核心概念,是用户能够自己决定他们希望对数据收集者的授信程 度,因而确保数据在各种环节中的知情权和控制权。

硬 PET 技术成本可能很高(图28)。复杂的分布式计算系统和加密算法要求强大算力。例如多方安全计算系统就对算法的复杂度要求很高,在计算过程中,平台和各方的工程师之间有许多反馈回路,一个简单的结果需要反复的数据请求和计算才能得到,同时针对每种不同的应用场景和计算逻辑,该系统都需要重新定制。这样一个系统的建立和维护都需要大量的资源和人力。

目前,软 PET 技术比硬 PET 技术应用得更广泛。硬 PET 技术不仅昂贵,需要熟悉加密协议并且掌握相关专业知识,还要不断权衡商业应用场景下到底需要哪些数据,以节省成本。迄今为止,大部分中小企业和初创企业依然难以承担硬 PET 技术带来的成本。软 PET 技术的成本低得多,由于它们能让消费者直观感受到隐私体验,能很快提高公司的信誉,同时对数据收集和分析施加更少的限制,不论是对隐私保护还是企业来说都更友好。需要指出的是,先进且高度复杂的硬 PET 技术也发展迅速,更像是“未来的浪潮”。与此同时,越来越多的企业开始在其数字化业务中将隐私设计与隐私加强技术相结合,软 PET 技术与硬 PET 技术相结合,提供更全面的隐私保护机制。例如, 图29介绍了亚马逊是如何在数据使用中保护数据和隐私。

图 28: 2019-2020 全球各项安全类支出预测(百万美元)
资料来源:Gartner2020 年预测。

图 29: 亚马逊隐私保护机制
资料来源:亚马逊。

数据安全

数字服务提供商必须保证数据安全。这要求提供商具有较强的内部治理能力,并且能够及时使用最新的安全技术。行业内关于监控和风险管理的“最佳实践”的推广,为科技公司提供了一个指南,使它们能够在整个大数据生命周期中保证数据安全,并且不断更新所用的技术体系。行业自治还包括独立的认证机构、行业行为准则、利益相关者参与公司董事会等。行业内的设计和技术同时提供了前端隐私和下游安全保护,使得企业之间可以分享和输出自己的技术与实践。

图 30: 数据安全管理工具
资料来源:罗汉堂。

加强数据安全性的各类技术也在蓬勃发展(图30)。这类技术和工具包括访问控制平台、数据分类、脱敏工具、审计平台、加密工具等等,可用在数据生命周期的每个阶段。随着数字技术的广泛进步,数据安全技术和工具也在不断升级。例如近十年云计算的兴起,让企业可以在不设置任何离线存储过程的情况下,反而加快数据分析,一方面大大减少了中小企业的数据基础设施成本,另外也提供了更高的数据安全标准,发挥了技术的规模效应。

基于前面提到的数据安全管理工具和数据生命周期管理的理念,构建一个数据安全治理框架(图31)非常必要,可确保公司避免不必要的风险,并对意外事件快速做出响应。这样的框架首先需要管理层取得高度一致性,并且得到组织支持,才能畅通运行。《通用数据保护条例》自 2018 年生效后,欧盟和美国公司至少聘请了 2.8 万名数据保护官(DPO)。某公司建立了一个四层级组织,从战略层到管理层、内部控制层和执行层,用以保护数据安全,数据安全团队占公司总员工人数的 2%。为加强数据保护,还会对所有员工定期举办强制的信息安全意识培训课程。

图 31: 数据生命周期中的风险管理
资料来源:罗汉堂。

网络安全本质上是一个攻防游戏。科技公司也会模仿军队的演习手段,创设数据安全的“红蓝军”,通过“战争演习”来测试和改进他们的系统,确保他们能够及时识别并快速应对数据安全和隐私泄露的情况。有的科技公司还会创设出专门的“蓝军”单位,叫做“网站可靠性工程师”(SRE,图32),其任务是不断寻找和利用漏洞,定期“攻击”数据和隐私管理系统。这些攻击的目标范围包括数据安全、算法性能、云计算和中台软件等。“演习”也会在各个层面展开,有定期的有随机的,同时会模拟各类极端事件,使得整个系统随时处于预警状态。每年都有一个特殊的月份专门用于确保数据安全,公司内部的任何单位都可能面临来自“蓝军”的随机攻击。这种演习不仅限于对技术基础设施的网络攻击。自 2017 年以来,SRE 团队在其演习中甚至增加了物理威胁,例如模拟自然灾害、断电等冲击,并评估其对平台生存能力的影响。

总体而言,隐私保护和数据安全都需要一个整体的框架来集成技术和面向用户的设计,通过行业基于法规和社会要求的自我治理解决大部分的隐私和数据问题。这越来越成为一个社会能够顺利发挥数字革命的价值所必须具备的核心实力。通过机制和技术带 来的解决方案,可以显著缓解数据隐私和安全问题。

图 32: 某科技公司运用常设的“蓝军”不断提高风控系统
资料来源:罗汉堂。

就像食品行业里的健康和安全一样,当正确的技术应用到位时,现代食品工业中的种类和数量的大爆发不一定意味着更大的安全风险,而是恰恰相反,食物会越来越安全。随着数据隐私和安全日益得到重视,随着时间的推移,更多、更好的技术和机制将变得可用,并成为数字时代许多企业的核心竞争力。我们预计该类技术的成本将迅速下降,促进隐私保护即服务(PPaaS)和数据安全即服务(DSaaS)的发展,将使数以百万的 小公司从中获益。重要的是,对于创新的科技公司和数字服务提供商来说,解决好隐私保护和数据安全这些“痛点”,将受到消费者的青睐和拥抱;当竞争对手的思维还没有转变过来的时候,也是从中争取市场份额的大好机会。

本文摘自阿里罗汉堂《理解大数据:数字时代的数据与隐私》,全文下载: