金融领域是国内大数据发展的重要风向标,数据作为一种生产要素,是金融领域的重要资产,也是金融领域进行战略决策、风险管理、业务创新拓展的基础。金融领域积累大量的交易、客户、日志等相关数据,由于金融领域承建系统单位不同,各系统存在许多基础数据标准不统一、业务指标口径不一致,造成数据质量低下,数据应用分析结果错误,进而导致决策失误。如何提高数据利用价值、防范金融风险、提升个人数据隐私保护等情况是金融领域迫在眉睫的问题。
金融行业数据治理开展情况
为指导金融机构加强数据治理,提高数据质量,发挥数据价值,防范金融风险,提升金融机构的经营管理能力,金融领域出台了大量的政策, 主要包括:2011年银监会颁布的《银行监管统计数据质量管理良好标准(试行)》、2018年中国银行保险监督管理委员会发布了《银行业金融机构数据治理指引》、2018年中国证监会出台了《证券期货数据分类分级指引》等。金融领域在政策的指引下,基本已完成数据湖的构建,在组织内设立首席数据官,健全数据管理部门职责,利用现代金融工具,提高风险防范能力,加强金融风险制度的建设,为金融领域数字化转型改革奠定了组织基础,为其他领域数据治理发展探索出一条可落地的实践道路。
金融领域在对数据湖进行数据治理过程中,受企业发展阶段和牵头部门不一致的影响,出现了大量国际国内厂商的数据治理工具,每个数据治理工具之间无法实现相互集成,导致了在使用过程中还需要二次进行定制开发,并需要不同工具才能完成数据治理工作,这极大的影响了数字化转型的推进速度。此外,金融领域的数据安全随着技术的发展不断面临新的挑战,金融安全牵涉到政治、经济等多个方面,需在制度机制的保障上不断提升金融防范工具的水平,并急需制定一套数据治理工具开发的标准规范,打破目前工具无法互通、能力不完整等问题,保障金融领域数据治理工作有序开展。
某财险公司数据治理实践
金融监管部门近年来高度重视金融机构的数据治理工作,多次发文和组织专项工作,在数据标准化、数据质量管理、数据报送等数据治理领域提出了很多的要求和期望。除监管要求外,各家财险公司也纷纷寻求数字化转型的突破,预期解决几类痛点问题:
(1)业务系统痛点:系统间缺失标准,如字段含义不统一、业务代码不统一、指标定义不统一等;
(2)数据整合痛点:范围不够、时效慢、程度不足等;
(3)数据应用痛点:数据应用单一、数据可用性差、应用成本高等;
(4)数据管理痛点:数据战略缺失、管理流程和制度缺失、管理属主缺失、数据质量管理不足、数据孤岛严重、数据没有形成资产化等。
(一)主要建设内容
通过开展数据治理,提升数据管理能力,解决现存的各类的痛点,具体措施围绕三个目标:
1. 可知:知“分布”、理“关系”、找“差异”、定“标准”
(1)通过对公司自身数据的整体盘点,梳理数据分布地图,找到字段、参考代码、指标等分布情况;
(2)在此基础上,理清字段之间、字段与参考代码之间、字段与指标之间的各类关系,将数据分布地图通过串联形成数据关系图;
(3)同时,考虑到保险业存在很大程度的领域共通性,如果完全闭门造车、自立一派,则不利于未来与监管部门、行业其他保险公司间的数据共享,某财险公司通过多年来在保险业信息化建设的积累,形成了财险行业通用标准参考库,详细整理了各类监管标准和保险领域通用标准的汇总,内含各类标准的分组、匹配、各属性定义的差异分析等;
(4)最终,根据数据分布、关联关系和行业差异,结合公司业务发展需要,形成可持续使用的组织级数据标准,标准体系包括业务领域标准、实体标准、数据项标准、代码标准、指标标准等。
2. 可控:定“属主”、建“底座”、提“质量”
(1)为了让数据可控,首先要明确数据的属主部门,通过对数据拥有者、定义者、维护者、使用者等角色的权重分析,为数据明确属主;
(2)数据底座的建设,一是为了解决数据孤岛问题,将数据集中在一处,二是在数据进入底座时进行准入校验,拦截不合规的数据,包括无属主数据、不符合数据标准的数据等,三是在数据底座中进行数据清洗转换,降低下游系统对数据的使用成本;
(3)好的数据质量是数据可以产生价值的前提,通过开展对源端、处理端和应用端的全链质量管理,根据“发现-分析-解决-跟踪-再发现”的闭环方法,不断提升数据质量。
3. 可用:提供两个目录-数据资产目录、数据服务目录
以5W2H模型来分析如何支持用户使用数据,通过构建数据资产目录向用户提供5W(What有什么、Where在哪里、Who属主、When时效、Why定义)的帮助,通过构建数据服务目录提供2H(How怎么用、How much多少钱/成本)的帮助。
(二)数据治理平台工具建设情况
DG-5-1财险数据治理实践项目数据治理工具能力图谱
依托数据治理工具辅助完成以上数据治理工作内容,如数据资产盘点工作、数据标准梳理工作、数据底座建设、数据质量检查和数据资产目录及数据服务目录等。
其主要功能包括:
- 数据治理门户:用户工作台,可查看系统公告和便捷访问常用功能;
- 数据资产管理:提供资产地图和资产分析等功能;
- 元数据管理:重要基础模块,提供业务、技术、管理元数据管理;
- 参考代码管理;对公司代码及标准进行维护并提供接口服务;
- 指标管理:对指标标准进行维护并提供接口服务;
- 模型管理:对公司系统的数据模型进行快照、管理、差异稽核等;
- 数据血缘:深入分析数据间的处理逻辑,进行血缘分析和血缘展示;
- 数据底座:接入策略配置、数据同步、校验和清洗等数据处理功能;
- 作业管理:对各类数据处理作业进行统一管理和调度;
- 生命周期管理:对数据生命周期进行定义和数据处理实施;
- 数据质量管理:提供规则配置、质量检查、结果查询等功能。
(三)应用亮点及价值成效
- 在数据盘点方面,实践了知“分布”、理“关系”、找“差异”、定“标准”四步的成熟方法论,无论是效率还是效果均有很大的提升,彻底的对公司数据情况进行了梳理,理顺了数据中的脉络,使得最终制定的标准不是独立于公司之外或者是强加在公司之上的内容,而是真正由内而发、符合自身情况的;
- 在数据标准化方面,除了充分盘点公司现状以外,利用财险行业通用标准参考库,做到了“充分对标、求同存异”,整体标准体系符合业内主流和监管要求;
- 在数据底座方面,除进行实时采集和统一通道以外,还增加了自动化的准入校验和标准化转换处理,同时,对于上游数据结构的变化,无论是库、表、字段级别均可以根据预设的策略自动感知,完成逻辑生成、数据接入、校验、清洗等全流程,降低人为干预程度,提高数据流转效率;
- 在数据质量方面,一方面会充分复用行业积累,使用工具中内嵌的通用质量检查库进行质量检查,另一方面也向用户提供自主空间,提供业务视角和技术视角的自定义质量规则、配置检查策略等功能,从而完成专项质量检查工作;
- 在数据目录方面,通过对5W2H各个方面的服务,辅助用户便捷的 查阅、访问数据和正确的使用数据。
(四)问题与展望
数据治理是一项长期性工程,本案例内容大体介绍了目前大多数财险公司开展数据治理工作的一些措施,我们也在不断思考和优化,以期进一步的降低人为因素对数据治理工作的影响,提高自动化、智能化水平,保证持续进化的能力,更好的帮助数据真正的产生价值,使得数据成为更加优质的资产,为公司带来切实的收益。
某信托企业数据治理与应用
随着现今社会信息化水平的不断提高,数字化转型的高速发展。传统金融行业也成为了信息化、数字化转型的核心目标,数据治理更是成为其中重点的业务方向,但由于传统金融行业在信息数据建设方面经验的匮乏、数据监管难以落实、核心数据理而不治从而造成数据缺失、口径不一、核心数据无法线上采集等诸多问题。同时,数据治理组织、制度、流程及数据标准等也都亟待完善。
(一)建设内容
某企业作为一家传统金融企业,同样存在着上述的问题。基于外部 监管要求以及信托行业内部数字化转型、发展的要求,实施了本次数据治理与应用项目。针对业务应用的要求,做到全面支撑业务场景、实时响应业务需求、数据服务精细化以及深度挖掘数据应用价值。提升数据资产价值,实现数据质量管控、企业数据透明化、数据资源整合、消除数据孤岛、发掘企业数据价值。
1. 项目调研
针对本次数据质量调研和计划安排,选择在测试环境中信托公共数据中心数据仓库范围内的贴源层、基础层和数据集市进行相关质量调研,在数据治理平台中接入该数据作为检核数据进行数据探索和数据质量评估。
整理综合业务类、财务管理类、客户管理类、渠道管理类和产品管理类系统数据在贴源层和基础层的分布和映射情况,在接入数据治理平台后采集元数据信息并使用数据字典和模型文件进行元数据完善,建立血缘关系和数据地图。
梳理《中国银保监会信托业监管数据标准化规范》,并根据该规范在数据治理平台建立对应的数据标准和数据字典,通过对基础层库、表和字段元数据信息的分析和识别,建立数据标准和元数据的落标关系。
应用数据治理平台对接入后的检核数据在进行数据标准匹配、结构相似性和数据相似性分析后,应用推荐数据标准关系和数据血缘关系,在此基础上通过平台建立检核数据库、表、字段的默认质量检查规则并进行默认质量评估和生成数据质量报告。
2. 建设模块
本次案例建设内容包含以下模块及功能:
(1) 数据管理:数据源配置、检核数据接入、元数据采集、元数据管理、文档解析、元数据分级分类、元数据分析;
(2) 数据治理监管:模型导入、数据接入、接入数据检查、数据质量校验及数据评估;
(3) 数据探索评估:数据概貌分析、数据探索分析、数据质量初始评估、问题数据处理、数据质量再评估和干净数据导出;
(4) 数据检测预警:数据调用管理、检测服务管理、数据核对管理、检测规则跟踪及检测预警处理;
(5) 数据质量管理:定期质量检测、定期比对管理、质量问题处理及数据质量分析报告;
(6) 数据资产管理:数据架构管理、数据标准管理、数据服务、数据资产盘点、数据认责管理、数据资产目录、资产价值评估和数据资产地图。
3. 规章制度
案例项目共制定了10余个重要数据治理相关制度,同时配套设计了管理流程、管理办法、实施细则。在制度设计层级上分为核心制度、重要制度、专项制度及办法、细则等。在制度的撰写上严格遵守规范,并采取标准用语。制度内容的撰写参照工信部颁发的《数据资产管理实践白皮书4.0》及《银行业金融机构数据治理指引》,在制度上的设计兼顾企业内 部数据治理需要以及行业监管要求。
(二)数据治理工具应用情况
项目围绕数据价值的挖掘,以数据治理工具平台和数据治理标准体系建设相融合,为用户数据治理决策及赋能创新做支撑。以数据治理基础体系、数据平台部署和工具为核心建设内容,实现包括数据治理整体管理咨询、数据治理工具导入、数据湖构建、积累数据、管理驾驶仓、可视化大屏等数据要求。
DG-5-3某信托企业数据治理平台能力图谱
1. 数据治理架构体系
通过数据治理工具平台的应用来实现组织、制度、流程及考核体系的设立,建立了数据治理架构体系,以《数据治理章程》为核心的制度体系,以《数据资产管理白皮书》为依据,设计数据治理整体架构图。
2. 监管标准要求落实
EAST4.0监管数据报送是信托行业报送监管数据的一项重点工作,各家信托公司必须符合规范要求,本次项目构建了以EAST4.0为指导的基础数据标准体系,并通过数据治理工具平台进行了落标工作,通过数据标准对于对应数据项进行数据质量检核。
3. 大数据平台建设
数据治理工具平台同时解决用户对大数据平台的建设需求,此前客 户原有数仓是建立于关系型数据库基础之上,在信托业务日益剧增的情况下,之前的模式已无法应对日渐复杂的数据环境。本项目通过数据治理工具平台,基于Hadoop技术进行了数据仓库的重新架构和规划,对原有数仓进行了优化和调整,并加入了新数据源。
4. 数据可视化
通过本项目业务调研及数据探查,提炼出业务管理关注的核心业务指标,通过数据治理工具平台提供可视化的生动、实时的数据展现。同时,数据可视化能够帮助客户管理层实时洞察核心指标,为企业决策提供依据。
(三)应用亮点及价值成效
本次项目建设核心是通过相关工具,借助自动化、智能化的手段,对元数据进行管理、对数据检验规则进行适配与推荐,大大降低数据工作者的工作量。
通过将数据采集、元数据管理、血缘关系分析、数据事前/事中/事后分析等与AI智能技术相结合,将重复、繁杂的数据治理工作便捷化、自动化,大幅节省了企业的人力资源与时间成本。
1. 元数据自动补全
通过解析模板、模型文件、数据库设计文件、ETL工具脚本等方式自动补全元数据及数据血缘,快速定位问题数据源头,可以有效地在数据发生之初即进行问题发现,做到提前防控,提前治理。对于数据治理工作是一项创新,也有助于监管报送的及时性和准确性。
2. 智能化标准推荐
系统可提供这种智能推荐的算法,把所有系统元数据的字段项出现频次较多的字段推荐出来进行标准化处理,将大大减少人工投入,同时实现数据标准管理推荐和匹配,通过算法自动关联数据标准和数据项,降低对于手工作业的依赖。
基于多个维度对字段和标准进行对比,包括语义距离、编辑距离、出现频次等综合条件,对标准和字段距离进行综合评分,最后在用户关联过程中,按照评分进行推荐,进行字段标准关联。
3. 数据质量规则自动生成
基于元数据属性及其关联标准自动生成规则,可以对待检数据直接生成检测报告,提升数据检验和监控的效率。在系统中建立评估规则库,其中某些规则会标记为默认规则,在创建默认规则时取所有的默认规则依次和表下的所有列进行匹配,当满足匹配时,会自动创建该字段的这个规则,规则的属性参数都是自动依赖列的属性或者列关联的标准的属性填入。同时,事前的默认规则会自动同步至事中和事后,根据表的接入关系,事前的数据平台中的表配置的自动默认规则,在事中和事后与之对应的源数据库中的表在创建评估任务时,会继承事前的默认规则。
4. 数据质量问题自动化处理
采用数据清洗的方式对于问题数据进行处理,从而达到数据质量问题自动化处理的效果。在事前可以使用深度清洗功能,对存在问题的数据表配置清洗规则后,可以对问题数据进行过滤,或者根据规则配置进行修改,最终将修改后的干净数据输出到一张新表中,可以提供给用户下载或查看。
(四)问题与展望
目前传统金融企业的数据成熟度较低,建议数据中台分期执行,首先一期先完善企业的数据基础管理工作,同期完成驾驶仓一期,其二期将推动数据标准建立及数据质量提升,完成数据模型的构建,完善标签体系并发展全面的数据化服务能力,达到推动核心数据应用上线的目标。
通过持续的数据治理及数据运营工作,将数据资源转化成为有价值的数据资产,成为企业战略目标的有力抓手。\
在此,数治网DTZed特为数据人将20个通用工具能力图谱制作成一张飞行图,便于在数据治理落地过程中,不论从全局还是到各个过程域,都能做到心中有数,胸有成竹。关注数治网官微(idtzed)公众号,发送“DGA”即可获取高清大图。下载PDF版飞行图点击文末链接。
本文摘编自全国信息技术标准化技术委员会大数据标准工作组、中国电子技术标准化研究院联合发布的《数据治理工具图谱研究报告(2021版)》,全文下载:
数据治理工具图谱研究报告
更多标准、白皮书、报告等高质量纯净资料下载,在文末扫码关注官方微信公众号“idtzed”,进入公众号菜单“治库”,或按自动回复发送引号内关键词。
一条评论