Zed案例 | 金融行业关键场景:数据脱敏和分类分级平台建设与实践

数据安全能力作为组织的核心竞争力之一,值得信赖的数据安全和敏感数据保护能力成为用户选择平台的重要维度,这在证券行业抢占大资管和财富管理市场具有重要意义。

数据脱敏和分类分级平台建设与实践
出处:数据安全推进计划

随着信息技术的飞速发展,20 世纪 90 年代开始数据库技术日益成熟,各行各业凭借计算机技术的支撑,在日常经营运作的过程中产生了海量数据,数据已然成为新技术环境下的关键生产要素。特别是近年来全球经济数字化发展力度持续加强,以大数据、5G、云计算、区块链、人工智能等新技术为代表的数字经济规模持续扩大,企业数字化转型趋势逐步升温。量变引发质变,庞大体量的数据中蕴含的商业价值或可为企业带来可观的收益。然而其中隐藏的数据安全问题日益凸显,如何保护数据挖掘技术不被滥用,如何保护公众隐私不被泄露等等问题求解成了当务之急。

国家层面,《数据安全法》、《个人信息保护法》、《网络安全法》初步构建了数据安全保护的法律框架。行业层面,证监会发布 152 号令《证券基金经营机构信息技术管理办法》。行业标准层面,发布《JR/T 0197-2020 金融数据安全 数据安全分级指南》、《JR/T 0223-2021 金融数据安全 数据生命周期安全规范》,以及2022 年 11 月份发布的《证券期货业数据安全管理与保护指引》。这些法律法规和行业标准都对敏感数据的范围以及保护措施做了涉及和规定。从国内国际形势上看,对于敏感数据的保护,特别是对个人敏感数据的保护已成为了监管重点的检查对象。在数据化转型的背景下,数据安全能力成为了组织的核心竞争力之一,值得信赖的数据安全和敏感数据保护能力成为用户选择平台的重要维度,这在证券行业抢占大资管和财富管理市场具有重要意义。

中金公司数据脱敏平台建设与实践

在中金开展数据化转型的背景下,中金数据团队以建设中金集团级别的数据中心为目标,搭建统一的数据管理平台。运营数据资产,推动中金数字化转型战略。数据治理团队负责搭建公司级的数据资产管理平台,着力在元数据管理,数据质量,数据标准,安全等领域发力,以数据资产盘点、主数据标准、STP 端到端打通为抓手,推动公司数据治理能力提升。

一、中金公司敏感数据管理常态化运营机制

1、厘清数据安全风险,明确安全治理方向

如图 3 所示,中金公司在敏感数据管理上,通过梳理敏感数据范围,制定数据脱敏制度,搭建数据脱敏平台,赋能敏感数据使用场景提升数据脱敏管理能力。

二、中金公司数据脱敏平台建设实践

1、制定敏感数据范围

针对证券期货业特有的敏感信息,目前并没有相关的标准定义,这就要求证券货业必须在法律法规的基础上,结合实际情况进行敏感范围的界定。为加强对敏感数据的有序管理,中金公司以个人敏感信息为基础,纳入金融行业和证券行业特有的以及展业过程中衍射出的敏感信息,再结合公司运营管理中出现的较为敏感的数据综合划定敏感数据范围。

图 3 中金公司敏感数据管理常态化运营机制

来源:中金公司

2、梳理敏感信息

对敏感信息梳理的作用是来自于多方面的,数据治理和数据安全管理的最终目标还是要发挥业务价值。对敏感信息的梳理动力来自于治理领域内外部两个方面。对数据治理工作内部来说,数据安全本身需要贯穿于数据治理的各个领域,如源端的数据治理,数据共享或数据权限的管理,数据资产管理平台的建设,元数据的管理,都需要通过对数据分类分级以及进行敏感标识实现数据资产的有效掌握。另一侧是来自于业务的直接需求,在企业级重点用例或端到端打通,或重点信息化项目的建设中,都需要对数据进行安全识别,便于数据流程。两个途径相互补充,各有侧重。从治理领域内部规划推出的资产盘点过程一般有序推进,更加系统化和标准。从业务侧来源的诉求可以成为敏感梳理的有效推动力,并且可以帮助在实践过程中对敏感范围进行反馈,优化敏感范围建设。

3、构建脱敏平台

为加强对敏感数据脱敏的效率与质量,中金公司于 2020 年启动脱敏平台的立项工作。在经过多次的 POC 和调研后,中金采取成熟产品加定制化开发的模式,建设了一套对成熟商业数据库、信创数据库、大数据环境都能够支持的脱敏平台,并同时兼具动态脱敏能力和静态脱敏能力,可以有效的对各类场景进行支撑。作为企业级的脱敏平台,脱敏平台应该具备以下几个特性:

1)丰富的数据库支持能力

数据库支持能力包括两个方面,一是对数据库支持的个数,二是丰富的跨库支持能力。除常见的 MYSQL、ORACLE、PG、CH 等数据库外,作为企业级的数据脱敏平台,随着大数据的不断推进,对 HIVE、impala 和国产数据库的支持能力也应该纳入考虑范围内。同时,脱敏平台应该尽量的支持跨库脱敏,以应对层出不穷的数据入湖需求和场景,减少在数据脱敏过程中的讨论成本。

2)高效的数据脱敏性能

数据加工,一般都会有性能损耗,在静态脱敏环节中,需要考虑的是大批量数据的进行脱敏和定时脱敏对目标源以及数据源的查询压力,以及批量数据静态脱敏的时间。动态脱敏中,应当充分对比实时查询与通过代理等方式在脱敏之后查询的效率损耗并不断进行优化,以期将数据损耗维持在可接受范围内,多种类型的算法策略以加强对各类脱敏需求的支持能力。

3)精准的敏感数据探查能力

事实上,数据治理团队本身定义的数据管理政策,往往也是数据治理团队无法掌握真实数据的掣肘之一,虽然可以通过元数据进行敏感数据的初步发现,但如果前期系统的词根标准化程度不高,或在指标竖表中敏感信息数据隐藏的较深,就难以通过元数据进行敏感信息梳理。另外对于企业级数据平台来说,周期性的敏感数据发现和审计也是经常需要做的工作之一,因为精准的敏感数据探查能力可以大大降低人为梳理的成本,提高数据安全治理的效率。

4、建立数据脱敏制度

为更有效的推进数据脱敏工作,在公司级数据治理政策与数据安全规范的基础上,制定了数据脱敏管理办法,通过制度规定了敏感数据的范围,规定了在跨部门合作中信息技术部,数据认责部门,法律合规部等相关部门在敏感数据管理以及脱敏管理中的权利以及义务。同时不断优化操作流程,探索利用开发效能平台,OA 等多种手段规范脱敏操作流程,打通与业务部门,运维,科技内嵌团队的工作流程,促进脱敏工作顺利实施。

三、中金公司数据脱敏实施与成果

中金公司的脱敏平台针对生产数据向测试环境恢复、样例数据展示、测试环境敏感数据审计,测试环境脱敏入湖等多种场景的数据安全需求,严格保护敏感数据的同时,大幅提高数据可用性、业务用户数据使用与数据价值发现。仅一年内累计完成910 张表、6456 项字段的敏感标识,其中 699 张表、4974 项字段借助平台完成脱敏。

数据安全等级及敏感标识是数据权限管理的重要凭据、数据授权流程的必需信息。目前累计确认了 1965 张表、42593 项字段的安全分级与敏感标识,通过对敏感数据的识别,优化了权限申请工作,加快了数据共享安全有效。

平安银行数据安全分类分级平台建设与实践

平安银行作为一家全国股份制商业银行,同时还是人行与银保监会划定的系统重要性银行,历来对客户信息和数据安全高度重视,严格遵从国家和监管机构的相关法规和要求。鉴于数据安全分类分级的基础性和重要性,平安银行投入充足资源和力量,在充分学习和交流的基础上,结合平安银行自身数据治理条件和数据特点,研究探索出“平安银行数据安全分类分级双向打标方法”,并在该方法指导下,积极研发AI 模型,开发出数据安全分类分级 AI 打标及管理平台。

一、平安银行数据安全分类分级解决思路

面对数据安全法规和监管要求,面对数据安全分类分级打标的种种挑战,我们必须回答好如下三个问题:

  1. 数据安全分类怎么分,依据什么原则分,谁来分?
  2. 安全等级如何定,有没有参考依据,准确性怎么保证?
  3. 面对海量数据,如何在成本可控与时间可控的前提下完成分类分级?

我们的解决思路首先是要区分存量和增量,存量的特点是数据量庞大,且元数质量参差不齐,甚至缺乏足够了解数据的人员,分类分级的时间紧迫且传统方法成本高昂;增量数据虽然每天也有大幅增长,但是相比存量数量有限,并且在需求分析和系统设计阶段,不乏熟悉数据的业务和开发人员,并具有准确识别数据和打标的时间窗。鉴于上述特点,平安银行提出对存量数据实施自下而上打标和对增量数据实施自上而下打标的双向打标方法,所谓自下而上打标,是指通过 AI 分类模型+逻辑判定规则相结合的机器模型扫描存量数据,依据存量数据的元数据或者存储的数据值特征,识别和判定为某类安全标签(从数据安全视角划分的数据项),并对机器扫描结果进行人工复核;所谓自上而下打标,是指数据建模期间,依靠需求分析和模型设计人员对新增数据项的理解,人工识别和判定这些新增数据项的数据安全标签,并将设计结果传导至生产数据,实现对增量数据的安全打标。

二、平安银行数据安全分类分级解决方案

1、数据安全分类分级保护矩阵

首先是制定标准,一套细化到数据项(字段级)的分类分级标签,以及与之对应的全生命周期各环节的保护措施。严格按照我国法律法规要求,结合我行实际情况, 制定我行数据安全分类分级规范条文,明确数据安全管理的基本原则,分类分级的管理要求,使数据安全分类分级有据可依。

2、自上而下与自下而上双向打标

专业的事情交给专业的人员,繁琐的劳动交给机器。基于这样的原理,我们可以采取自下而上和自上而下的双向打标模式,双向打标的整体思路如下:

  • 自上而下,即数据库模型设计阶段,从逻辑模型进行打标,对应物理表继承安全标签,数据建模人员是最了解数据的人,也是最专业的人;
  • 自下而上,即扫描物理表数据,对物理表字段进行分类分级打标,海量的存量数据打标工作交给机器。

3、数据安全 AI 打标与管理平台

双向打标方法需要一个支撑平台实现智能打标和流程管理,该平台具有 AI 模型训练和扫描的能力,具有扫描结果人工复核的能力,具备数据安全保护矩阵的建立和维护能力,打标结果向外提供服务的能力。

三、平安银行数据安全分类分级实施步骤

1、数据安全分类分级保护矩阵

根据方案,首先是制定标准,一套细化到数据项(字段级)的分类分级标签,根据我国《数据安全法》和《个人信息保护法》等基本法律,参照《JR/T 0197-2020 金融数据安全 数据安全分级指南》和《个人金融信息保护技术规范》等行业标准,结合我行数据情况,梳理形成“数据项+安全级别+保护措施”全方位数据安全分类分级保护矩阵,指导全行数据安全分类分级工作。矩阵内容如图 1 所示。

图 1 平安银行数据安全分类分级保护矩阵示例

来源:平安银行

2、制定自上而下与自下而上双向打标方案

双向打标方案如图 2 所示,自上而下——数据库模型设计阶段,从逻辑模型进行打标,对应物理表继承安全标签。自下而上——扫描物理表数据,对物理表字段进行分类分级打标。

图 2 平安银行数据安全双向打标方案

来源:平安银行

3、自下而上打标

平安银行的数据安全分类分级按照以下路径开展,第一步是制定标准,一套细化到数据项(字段级)的分类分级标签,以及与之对应的全生命周期各环节的保护措施;第二步是 AI 模型数据集数据的自动采集与整合,以及全量数据元数据的完善和补充;第三步是数据预处理,划分为训练集、验证集和测试集,做好脏数据脏符号处理以及标准化等预处理工作,提高数据集质量;第四步是搭建 AI 模型接口及配置文件处理,进行训练及预测;第五步是设置置信度参数,确认打标结果准确率,并输出打标结果;第六步是开展人工复核,通过熟悉数据的开发人员或者业务人员进行人工复核纠正,确保最终结果可以应用在实际数据应用层面。

上述步骤不是单向的,我们通过信息反馈机制不断完善前面环节的质量,比如把复核确认后的打标结果反馈到 AI 模型进行补充训练,持续提升模型准确率;通过不断检视全量数据项打标结果,发现一些新的数据安全分类分级标签,反馈到第一步持续补充完善标准。

4、自上而下数据安全打标

自上而下的数据安全打标方案作为管控增量数据库表进行数据安全打标的重要手段,在各系统进行数据库建模阶段即进行数据安全标签的打标,由该库表的设计人员进行数据安全打标,设计人员对该库表即将存储的数据尤为清楚,也是数据库表产生的“第一站”,既保证了数据安全标签的准确性,在该数据安全标签打标以后,又保证了数据安全保护措施在整个数据全生命周期的可落地性。

四、平安银行数据安全分类分级实施成效

1、打标范围全面覆盖

双向打标方案不分数据库类型,无论是关系型数据库还是大数据平台,该打标策略可覆盖全行所有系统,实现“存在即打标”的目标。

2、数据安全打标结果同步上架数据资产

双向打标的措施都具备时效快的特点,自上而下打标:数据库表落地即实现资产上架,资产上架即意味着数据安全标签的正式生效;自下而上打标:机器自动扫描,每天实现跑批任务,T+1 可实现数据安全标签上架和服务的提供。

3、低成本数据安全分类分级

自上而下打标方案中,由设计人员在库表设计之初进行数据安全打标,继承到整个数据全生命周期安全保护流程中,避免后续返工。自下而上的数据安全打标策略由 AI 智能模型进行打标,只需部署跑批任务即可实现打标,极少人工介入成本。

4、高质量的数据安全打标

自上而下打标中数据库表设计人员打标,保证数据安全准确率;自下而上由智能打标模型进行打标后,人工复核,实现高质量打标。

5、模型可持续、可拓展

双向打标后的打标成果,在实现全覆盖和高质量的情况下,将打标结果反哺给AI 智能打标模型,实现良性循环,数据安全管理可持续。同时自上而下打标模式融合在打标过程与开发设计之中,实现开发治理一体化和数据安全打标流程的可持续。AI 算法的使用,对于其他工作,例如在数据标准、数据资产等方面具有借鉴意义。

本文摘编自数据安全推进计划发布的《金融行业数据安全治理案例汇编(2022年)》,全文下载:

更多标准、白皮书、报告等高质量纯净资料下载,在文末扫码关注官方微信公众号“idtzed”,进入公众号菜单“治库”,或按自动回复发送引号内关键词。

发条评论

你的电邮不会被公开。有*标记为必填。