Zed案例 | 基于 AI 识别的数据资产管理系统建设

从资产的视角对域内数据进行摸底盘点、分级分类、关联分析、风险评估等综合安全治理,实现数据全生命周期安全管理,确保数据来源可信、访问可控、操作可查和责任可追。

基于 AI 识别的数据资产管理系统建设
出处:2024数据安全典型场景案例集

作为新型生产资料,数据资产在流通和使用过程中能不断创造新的价值。然而,由于数据价值提升、流动性加剧、防护边界模糊,以及数据自身海量无序、类型繁杂、场景多样等复杂因素的影响,数据安全风险变得异常突出,传统的以边界防护为主的网络安全手段已经难以有效应对这种挑战。因此,亟需从资产的视角对域内数据进行摸底盘点、分级分类、关联分析、风险评估等综合安全治理,实现数据全生命周期安全管理,确保数据来源可信、访问可控、操作可查和责任可追。

方案结合行业数据的本地化管理与直观可视、可查、可判、可用的实际需求,并结合相关工作机制,实现行业数据的更新维护,提高行业常态风险管理能力;进一步开展关键要素分类辨识应用,实现针对重点防护对象的判识、评估,并以一张图的形式分类分级显示成果;提供防护策略建议、专项评估报告动态更新等内容,为安全监管部门提供支撑。

一、风险分析

痛点主要包括如下四个方面:

1. 组织机构尚不具备数据分类分级能力

组织机构对数据资产的规模、存放位置、敏感数据构成与使用情况等信息尚未掌握,无法根据数据的重要程度制定安全保护策略,直接影响了后续的数据安全体系化建设。

2. 可用数据分类分级信息滞后

组织机构掌握的可用数据分类分级信息滞后,这些信息不能反映数据资产的真实情况,对数据安全能力建设效果的提升作用有限。

3. 内容识别技术准确度低

当前的内容识别技术一方面需要大量的人工干预,另一方面会产生错误的数据分类分级结果。这会导致制定的数据安全保护策略不合理,从而对数据安全产生危害。

4. 缺乏数据安全风险监测能力

组织机构对环境中敏感数据是否存在泄露、是否存在违规访问、是否有系统漏洞等情况不了解,导致数据安全工作的针对性不强。

二、解决方案

(一)数据安全分类分级服务

数据安全分类分级起承上启下的作用。

  • 承上:从运维制度、保障措施、岗位职责等多个方面的管理体系都需依托数据分类分级进行针对性编制(管理体系与分类分级的结合,可强化体系落地执行性)。
  • 启下:根据不同数据级别,实现不同安全防护,如高级数据需要实现细粒度规则管控和数据加密,低级别数据实现单向审计即可。

所以,数据分类分级是管理体系合理规划、数据安全合理管控、人员精力及力度合理利用的基础,是迈向数据安全精细化管理的重要一步。

数据分类分级工作流程包含分类分级方案预研、分类分级方案确定、分类分级方案评审 3 个环节。流程如图:

  • 分类分级方案预研主要包含预研准备、数据资产梳理、方案设计等工作;
  • 分类分级方案确定主要包含方案预审、方案汇报评审和方案发布工作;
  • 分类分级实施主要是分类分级标识和安全策略规划工作。

图 1. 数据分类分级工作流程图

(二)数据安全资产管理系统

数据分类分级方案确定后,下一步数据安全分级分类专员根据分类分级方案对数据进行分类分级标识,数据分级分类标识采用“工具”+“人工”的方式,通过自动化工具(数据安全资产管理系统)引入数据分类分级过程,加速项目实施速度,降低人力成本,降低错误率,提高输出成果的质量。

1. 系统概述

通过对全域数据扫描和深度挖掘,对组织内的数据资产(例如数据源、数据表、字段、文档等)进行梳理,绘制数据地图,建立数据资产台账,帮助用户摸清数据资产家底,直观呈现核心数据资产的分布、状态、使用、流转等详细信息。同时,数据安全资产管理系统能够利用 AI 算法、机器学习等技术,结合数据特征、元数据等信息,发现和定位敏感数据资产,并基于法律法规和行业标准,自动化完成数据资产的分类分级,为企业或组织构建数据安全运营体系打下坚实的基础。

2. 产品架构

数据安全资产管理系统充分考虑了自身安全性、易操作、易维护等多方面设计要求,采用 SOA 架构将复杂的业务逻辑、流程控制逻辑和数据存取逻辑通过在不同技术层实现,使得技术实现与平台业务相分离,确保自身数据安全和业务效能最大化。

数据安全资产管理系统可以分为数据资产探测、数据资产梳理、敏感数据识别、数据分类分级、数据资产多维分析等功能模块。

  • 数据资产探测功能帮助客户发现组织内的未知数据源;
  • 数据资产梳理功能帮助组织掌握内部数据资产现状,构建数据资产地图;
  • 敏感数据识别功能通过平台内置的个人敏感特征库,发现和定位组织内的敏感数据;
  • 数据分类分级功能通过数据特征、资产属性、环境信息等多维度,对数据资产进行自动化的分类分级打标签,为后续数据安全管控策略提供基础;
  • 数据资产多维分析从多个维度呈现资产现状,让组织管理层能够直观、全面了解数据资产现状,确保数据资产“可见、可懂、可控、可用”。

图 2. 数据资产管理系统逻辑架构图

同时,采用 AI 技术提升内容识别的准确性与识别工具的实用性和应用范围,支持结构化和非结构化数据。

  • 具体而言,方案在关键字技术的基础上引入中文分词、模糊匹配和权重匹配技术,优化普通关键字的误报率;
  • 针对正则表达式,加入数据标识符,精确匹配身份证、银行卡号、社会保障号等有技术规范的内容;
  • 对非结构化文档的识别,支持为内容提取指纹,实现敏感内容分段保存,降低干扰内容影响,提升识别敏感信息和内容来源的水平;
  • 机器学习方面基于深度神经网络,用双向门控循环单元(GRU)网络进行中文分词,用深度卷积(DCNN)网络进行文本深度特征提取,采用集成支持向量机(SVM)的方法进行文本分类。

图 3. 系统部分技术功能展示(演示环境系统截图)

数据分类分级识别中针对诸如通讯记录、征信信息、房产信息等较难通过规则配置实现自动识别打标的数据,通过个性化建模方式构建模糊规则集实现数据智能打标。

标签推荐技术实践中,主要采用经验知识与事实知识结合的理念。经验知识即标签信息可能包含的语料库或描述,如既往病史、住院记录等关键词汇;事实知识即实际的数据样本,通过多种模型的关联构建。通过机器学习技术,对待打标的数据进行预处理,如中文分词、关键词提取、词向量转换等,并利用 TF-IDF 算法进行关键词提取并结合 word2vec 算法进行词向量转换,最后计算待预测数据与每种标签对应数据的相似度得分,并依据该得分进行标签推荐。

图 4. 标签推荐功能展示(演示环境系统截图)

(三)与现有数据安全产品联动

将分类分级信息与现有数据安全产品联动,实现敏感数据信息与安全风险等内容的实时同步,形成有针对性的数据安全防护策略,实现加密、脱敏、审计、访问控制等的策略协同与联防联动。

(四)根据分类分级结果,自动监测敏感数据的流动和访问情况,在风险识别模型的基础上,采用 AI 技术提升风险识别能力

图 5. 敏感数据流转监测功能展示(演示环境系统截图)

(五)支持广泛的数据源类型

方案包括但不限于支持 Oracle、SQL Server、MySQL、DB2、SyBase、Postgres、Informix 等国际主流商用数据库,达梦、人大金仓、南大通用、金仓等国产主流商用数据库,HBASE、HIVE、HDFS、MongoDB 等主流开源大数据存储组件,华三、华为等国内主流大数据平台的数据资产识别。支持对常见非结构化数据资产识别,包括 doc、docx、xls、xlsx、ppt、pptx、pdf、txt、zip、rar、7z 等文件类型。能够识别多层嵌套压缩文件内容、由文档转换而成的图片内容。

图 6. 系统支持广泛的数据源类型(演示环境系统截图)

(六)统计报表自动化生成

本方案支持统计报表自动化生成与内容定制,能极大降低报表材料输出成本。

图 7. 统计报表自动生成(演示环境系统截图)

三、应用成效

国家政府部门为积极应对“互联网+”和大数据时代的机遇和挑战,响应全国经济社会发展与改革要求,将大数据平台的建设列为新时代信息化建设的重要工作。大数据平台汇聚了各行业的重要数据,对国计民生和社会安定至关重要。

随着大数据技术持续快速发展,机构的数据安全能力面临着越来越高的要求,但机构普遍存在安全人员短缺、数据安全防护“孤岛”化的问题,这严重阻碍了大数据技术发挥价值。因此,数据资产管理系统作为大数据平台安全保障体系的重要组成部分,将对大数据平台的数据安全防护方案发挥积极作用,成为当前大规模市场需求的重点。

某地建设的数据资产管理系统采用政务行业的数据识别规则模板和 AI 技术,对 404 张表共计 11097 个数据字段进行梳理,识别的自动化程度达到 96%,极大地降低了人力成本。

根据数据梳理结果将数据分类为四级,并制定了差异化的安全策略。为不同敏感数据制定的针对性的安全防护措施,优化了安全资源配置,使防护更加精准,整个防护体系统一管理,策略共享,防护无遗漏。

数据资产管理系统采用独有的数据安全保障架构,数据资产的梳理、展现通过数据目录和数据映像等方式进行,数据资产管理系统自身不存储、不截留用户的真实业务数据,敏感数据样例展现也采用遮蔽脱敏方式。同时,数据资产管理系统的关键配置和操作也通过分权和二次授权模式进行限制和控制,确保用户业务数据在维护、管理过程中不会曝光和泄露。

系统通过丰富的场景规则以及 AI 风险分析模型,为用户生成数据资产风险评估基线,同时综合其他相关安全数据和日志进行分析研判,实时监控、预测数据安全风险的变化趋势和偏离预警线的强弱幅度,并从行为、事件、合规性和脆弱性等维度为用户提供及时的风险预警和风险处置措施。

上述策略在保证安全能力的基础上,既减轻了安全团队压力,又提升了防护效率。数据资产管理系统项目的建设,为数据安全行业提供了一种新的治理模式,超越了只交付产品的方式,提供了具有示范效应的安全防护案例,为数字经济的发展和数据交流融通提供了行之有效的安全保障。

本文摘编自杭州市数据资源管理局指导,杭州数据安全联盟、杭州数据安全联合创新实验室发布的《2024数据安全典型场景案例集》。

在此声明以上观点和内容,仅代表原作者和出处,与数治网DTZed 无关,如有出错或侵害到相关合法权益,请通过电邮与我们联系:cs@dtzed.com。

在文末扫码关注官方微信公众号“idtzed”,发送“入”直通相关数治x行业共建群、AIGC+X 成长营,@老邪 每周免费领取法规、标准、图谱等工具包。

欢迎先注册登录后即可下载检索数据资产等相关标准、白皮书及报告。更多高质量纯净资料下载,在文末扫码关注官方微信公众号“idtzed”,进入公众号菜单“治库”。