数治入门 | 一文了解数据处理的目标、原则及环境要求

为满足数据可用性和安全性进行的数据清洗、去标识化、匿名化处理,是数据产品进场上市的条件,也是数据资产登记、交易的前提,更是数据应用、建模释放二次衍生价值的底线。

一文了解数据处理的目标、原则及环境要求
出处:中国信通院、北京国际大数据交易所

习近平总书记在 2023 年中国国际服务贸易交易会全球服务贸易峰会上发表视频致辞指出,要“推动数据基础制度先行先试改革”。《中共中央 国务院关于构建数据基础制度 更好发挥数据要素作用的意见》要求“创新技术手段,推动个人信息匿名化处理”。

规范数据清洗、去标识化、匿名化处理,有助于提升数据的可用、可信、可流通、可追溯水平,推动数据要素强化优质供给,是建立合规高效、场内外结合的数据要素流通和交易制度的重要内容。

具体来说,为满足数据可用性和安全性进行的数据清洗、去标识化、匿名化处理,是数据产品进场上市的条件,也是数据资产登记、交易的前提,更是数据应用、建模释放二次衍生价值的底线。

一、数据处理目标及关系

(一)数据清洗是数据可用的保障

数据清洗是运用一定方法修正识别到的数据问题,实现数据的规范性、完整性、一致性、准确性和可溯源性,提高数据质量的过程。数据清洗旨在满足数据的可用性要求,是数据资源预处理的第一步,也是保证后续处理结果准确、科学、有效的重要一环。数据清洗作为数据后续开发利用的基础,是数据去标识化和匿名化处理的前置步骤。

(二)去标识化是数据脱敏的关键

数据去标识化是指数据经过处理,使其在不借助额外信息的情况下无法识别特定自然人或相关标识符的过程。数据去标识化处理强调标识符的“不可识别性”,即对数据内含的相关敏感信息内容进行脱敏处理,通过去除、替换、模糊等方法,达到不借助额外信息的情况下无法识别特定自然人或相关标识符的效果。

数据去标识化与在先的标识形成过程分属数据处理的不同阶段及场景。标识形成是产生数据的过程,使得被标识对象据此可以被组织进行有效管理和开发利用。数据去标识化是标识数据产生后的加工处理过程,旨在提升标识信息的安全防护水平,确保敏感的标识内容不被未经授权的主体获取和利用。去标识化处理是强化标识数据安全性的重要保障。例如,制造业企业通过对产品、零部件、设备进行标识,形成了可精准定位产品和设备的数据资源,在委托外部第三方技术开发商进行相关应用系统开发时,需要对含有敏感内容或涉及商业秘密的数据进行去标识化处理。

数据去标识化处理暗含了相关标识符具有“复原”的可能,去标识化无法单独实现匿名化的法律效力。例如,对个人信息进行去标识化处理后的数据,仍属于个人信息范畴。

(三)匿名化是去标识化的强化

数据匿名化是指数据经过处理,无法识别特定自然人或相关标识符且不能复原的过程。数据匿名化处理在强调标识符的“不可识别性” 基础上,要求标识符同时满足“难以复原性”标准,是数据去标识化的进一步处理,即数据去标识化后应用相关技术使相关标识符难以复原的过程。经匿名化处理后数据的初始效用将受到较大程度的改变。

与数据去标识化相比,经匿名化处理后的数据即便借助了额外信息也难以识别特定自然人和被处理的标识符。例如,对个人信息进行匿名化处理后的数据,不再属于个人信息范畴。但匿名化处理仅是描述应用匿名化技术的过程,并非描述数据达到绝对匿名化的状态,完满、绝对的不可复原状态无法 100% 确定。

表 1 数据清洗、去标识化、匿名化处理的技术特点和差异

加工后数据 改造程度
(相对原始数据)
数据有用性
(针对个体记录)
数据安全性
(脱敏程度)
清洗后数据
(单独可识别)
去标识化数据
(不借助额外信息不可识别)
匿名化数据
(借助额外信息也难以复原的不可识别)

来源:中国信息通信研究院

去标识化技术和匿名化技术没有严格界分,二者核心都是通过技术手段对标识信息进行脱敏处理,实现对敏感数据内容的保护,实践中两类技术通常可以组合使用实现预期处理效果。本报告根据抗重新识别的风险能力大小和对敏感内容安全防护程度的差异,将相关技术划分为去标识化技术和匿名化技术。仍保留原始数据个体颗粒度的,纳入去标识化技术方法范畴;不再保留原始数据个体颗粒度,或原始数据记录的真实性已受到显著减损,或原始数据记录不对外披露的,纳入匿名化技术方法范畴。

二、数据处理原则

(一)合法合规

组织开展数据清洗、去标识化和匿名化处理,应满足我国法律、法规、规章和标准规范对数据安全和个人信息保护的有关规定,不得不当损害国家、社会和第三方组织及个人的合法正当权益。

(二)安全优先

组织应采取相应的管理和技术措施,保证数据加工处理过程的安全性。数据的安全性考虑是组织开展数据去标识化、匿名化处理活动的首要目的,以降低数据在后续流通、应用环节的安全风险,降低数据安全事故发生概率。

(三)平衡效用

组织应根据业务目标和安全保护要求,面向场景化应用需求,选择恰当的清洗、去标识化和匿名化处理路径和技术,在确保安全的前提下,强调数据质量要求,尽可能满足预期效用,促进数据安全性和可用性的有效平衡。

(四)技管结合

组织应综合利用技术和管理两方面措施实现数据处理的最佳效果,根据工作目标和数据安全要求制定适当的策略,选择合适的模型和技术,建立完善的管理架构、操作权限和责任机制,将技术和管理措施嵌入数据清洗、去标识化、匿名化处理全流程,并定期跟踪评估和持续改进。

(五)有效溯源

组织应明确各环节的数据处理权限和流程,对数据清洗、去标识化、匿名化设置访问控制程序,采取措施清晰记录数据处理过程的细节、使用的参数和控制措施,及时发现已经出现或可能出现的偏差或不当操作,支撑后续对数据处理过程进行维护、审计和追溯。

三、数据处理环境要求

(一)管理制度要求

组织应当遵守法律法规及强制性标准的相关要求,衔接自身数据管理制度,制定数据清洗、去标识化、匿名化处理各环节的审批流程, 推进数据分类分级管理,梳理特殊数据类型的内、外部特别管理要求,在此基础上细化数据清洗、去标识化、匿名化处理的权限要求和操作规范,并嵌入组织内部管理机制。

(二)技术能力要求

组织应当强化数据处理的基础技术保障,具备数据收集、存储、加工、分析、挖掘和安全防护的各类技术工具,具有安全、便捷、高效的技术应用系统和可信环境,熟知数据清洗、去标识化、匿名化处理的常见技术方法和应用特点,结合业务场景和内外部要求,统筹组合形成平衡数据安全要求和业务应用目的的有效数据处理技术方案。

(三)人员能力要求

组织应当提升内部人员的数据处理能力和安全防护水平,明确各岗位数据合规职责和数据处理权限要求,定期组织数据处理技能培训和安全合规教育,要求参与数据清洗、去标识化、匿名化处理的人员应当具备相应的数据处理能力,严格按照数据安全管理制度和流程进行操作。必要情况下,组织可以寻求第三方技术服务机构、法律服务机构、审计咨询机构、数据安全防护机构、检测认证机构等协助提供技术能力和业务合规支持。

(四)过程控制要求

组织应当推进数据处理过程的实时可控和动态审计,采取措施清晰记录数据清洗、去标识化、匿名化处理过程的细节、使用的参数和执行情况,监控审查去标识化各步骤实施过程,及时发现已经出现或可能出现的错误或偏差,有效采取措施进行纠正和防护,并对监控审查过程进行记录,便于日后审查、维护、回溯和审计。同时加强对第三方接收者的数据授权和授权跟踪管理,采取技术保障措施和商业流程防范去标识、匿名化数据的再识别和意外泄露。

(五)事故管理要求

组织应当完善数据处理风险和安全事件管理机制,做好数据风险识别、风险评估、风险处置等工作,制定并实施数据安全事件应急预案,针对不同等级的风险采取针对性的风险处置措施,关注涉及数据标识符、数据映射表、匿名化处理记录表等信息的泄露风险,防范恶意重新标识行为。发生数据泄露、篡改、丢失等安全事件的,应当立即采取补救措施,及时通知管理机构并按规定告知相关数据主体。

本文摘编自中国信通院、北京国际大数据交易所联合发布的《数据清洗、去标识化、匿名化业务规程(试行)》,全文下载:

更多标准、白皮书、报告等高质量纯净资料下载,在文末扫码关注官方微信公众号“idtzed”,进入公众号菜单“治库”,或按自动回复发送引号内关键词。

欢迎平台、工具、应用及案例入库、发布和召募,立即订阅数字推广DigiPacks 套餐,我们的目标是潜在客户,扫码添加老邪企业微信: