一手开展企业级数据治理体系设计和持续运营

企业需要结合自身数据基础状况和业务目标,精心设计与之匹配的数据治理体系,持续地开展数据治理工作,从而为业务提供高质量的数据,让数据发挥更大的价值。

企业级数据治理建设指南
出处:滴普科技

随着数字化转型的深入,在企业日常的经营管理中,将有越来越多的业务场景需要数据分析与应用作为支撑。最终,领先企业的大部分业务都将实现由数据驱动;随着数据要素市场化相关政策的落地推广,数据会真正成为一项重要的生产要素,企业因此会更加重视数据资产的构建和运营,并推动数据资产变现。

为了更好地应对这样的变化,各行业企业都应该将数据治理作为一项基本战略,并进行长期的运营。在此过程中,企业需要结合自身数据基础状况和业务目标,精心设计与之匹配的数据治理体系,持续地开展数据治理工作,从而为业务提供高质量的数据,让数据发挥更大的价值。

从业务视角出发,利用体系化的机制与方法,减少业务流中的表、证、单、书等信息,以及数据对象在流转过程中的耗散,保证企业的业务流、信息流与数据流的一致性,让数据尽可能地还原企业的业务事实,并支撑数据的分析和应用。

一、数据治理的核心内容

数据治理核心内容通常包括三大类:数据治理体系设计,业务数据深化治理,分析数据体系设计。

1. 数据治理体系设计

数据治理体系设计的核心是为企业组织设计固定的流程和机制以指导后续数据治理工作的持续开展。

首先,数据治理体系设计需要帮助企业设计数据管理组织架构,规定数据部门、IT部门、业务部门等部门和相关人员的权责,以及协作机制。

其次,数据治理体系设计需要基于对业务系统和分析系统现状的诊断,帮助企业建立一个粗颗粒度的治理体系框架,规定主数据、数据标准、数据质量等各方面建设内容具体的执行方法,并建立模板。

最后,数据治理体系设计通常还会帮助企业基于对业务的全面梳理,建立一个概要级的包含各业务域业务概念的数据资产地图,以便企业建立对其数据资产状况的全局理解,以及在后续可以分领域、分专题持续开展数据深化治理。

图2:数据治理核心内容 来源:滴普科技

2. 业务数据深化治理

在完成数据治理体系的基础上,为了让业务部门获取高质量数据用于业务分析,企业需要按业务域或主题域,对业务数据进行深化治理,通常主要会在数据资产目录、数据标准设计、数据分布定义、数据质量提升、数据模型设计这五个方面开展以下具体工作。

■ 数据资产目录

数据治理工作的核心抓手是盘点数据资产,形成按概念数据和逻辑数据进行分级分类,覆盖企业数据资产全貌的数据资产目录。如下图所示,数据资产目录包含L1-L5层,其中,L1-L3层是按业务概念进行分类的结构,依次为业务域、子业务域和业务对象,L4-L5层分别是逻辑实体和逻辑属性,用于拆解业务对象包含的具体内容以及描述其属性。

数据资产目录对企业而言有两点主要的作用。一是数据资产的结构是基于业务线构建,可以形成对业务用户非常友好的可视化结构,同时可以关联IT系统的库表结构、数据对象实体,以及后续梳理的指标标签。从而为业务人员提供友好的数据资产入口,并支撑高阶的数据分析人员及数据开发人员找数;二是数据目录包含从业务域到业务子域到整个业务对象的目录映射,可以起到划分责任田的作用。当出现一些数据标准、跨领域的数据争议的时候,可以很容易的找到每一个数据的责任人,快速定位和解决问题。

图3:数据资产目录分级分类示例 来源:滴普科技

梳理和构建这样的数据资产目录需要从自上而下和自下而上两个方向同时推进。具体而言,在自上而下的方向,企业需要从IT系统甚至纸质表单中,识别出研发、采购、生产、销售等各业务域的关键信息,基于业务链条构建数据资产目录,并进行分级分类管理;同时,为避免单纯基于业务链条梳理可能会被忽略的业务细节,企业还需要在自下而上的方向,基于IT系统存量的数据库表进行数据盘点和映射作为补充,从而得到相对接近企业数据资产全貌的数据资产目录。

■ 数据标准设计

数据标准是涵盖了基础数据和分析类数据的定义、操作、应用等多层次的标准化体系,而数据标准设计应该面向未来的业务需求,结合考虑技术标准和业务标准。具体而言,技术标准包括了数据格式、字段长度、表结构等技术属性的标准,业务标准则包括了业务规则、业务含义、业务的管理角色等相关标准。

数据标准建立后,需要面向增量数据和面向存量数据进行数据落标。对于增量数据,数据标准可以用于约束数仓内增量的数据变更或者新增的IT系统的数据结构。对于存量数据,其数据结构可能和数据标准存在差异,由于不能强制修改存量IT系统的数据,企业通常可以基于数据标准建立与元数据的映射关系,以兼顾业务连续性需求及面向未来业务的合理性。

■ 数据分布定义

数据分布定义包括了识别数据分布、厘清数据血缘,以及识别可信数据源等工作。通过数据分布定义,企业可以增强对数据资产的理解和信任,帮助建立有效的数据模型,以及在数据出现错误时,能够快速定位数据来源,修复数据错误。

在实操层面,识别数据分布通常需要盘点数据标准在存量的业务系统和数仓内的分布情况,对于有些企业的数据分布极其复杂,如一些制造业企业有数十个系统,每个系统各管一个业务段,可能单一属性分布在十几个系统和几十张表中,需要在识别数据分布的同时厘清数据的血缘关系;在此基础上,企业还需要识别可信数据源,如从20个数据源里面定义 Top5的可信数据源,并可能需要在Top5的可信数据源里面建立交集、并集、筛除等关系。

■ 数据质量提升

高质量的数据是支撑企业进行数据分析与应用的基础。提升数据质量需要首先明确数据质量管理的目标,并建立数据质量评估标准,通过标准比对,提升数据的完整性、准确性、规范性、唯一性、一致性等;同时,通过建立相应的数据质量管理机制,在数据管理的全生命周期多方位提高数据质量。

而在企业需要针对某些业务问题,做数据质量的专题探查与提升时,企业可以通过业务梳理,收集业务人员以及IT人员遇到的问题,并对其进行根因分析,制定数据探查的规则以识别数据问题,再进一步分析这些问题的根源,如可能是业务、数据流转、系统应用功能,或者是数据结构和数据标准执行不到位等方面的问题。在此基础上给出改善建议,企业短期内可以通过映射关系解决提高数据治理,长期内则可以通过业务及数据管理动作进行改善,因为业务及数据管理动作才是数据质量产生的源头。

■ 数据模型设计

数据模型描述的是数据之间的关系,其能够提高数据的合理分布和使用。具体而言,企业在模型设计阶段,需要完成维度表、事实表以及模型关系的定义和构建,并基于前期建立的

数据标准,完成字段名称、字段描述、元数据等信息的填写,规范表结构。

同时,数据模型包括概念模型、逻辑模型和物理模型,但数据治理初始阶段通常只完成了概念模型设计,只包含对象和对象之间的关系,因此后续需要持续进行逻辑模型的建设,如加入主外键、关键属性等。此外,在做专题的主数据治理时为了实现数据清洁干净,提升质量,深化的逻辑模型设计是其重要支撑。

3. 分析数据体系设计

针对分析需求,企业还需要进一步开展分析数据体系的设计,通常包括指标管理体系设计、运营绩效指标设计、以及算法模型设计等。

■ 指标管理体系设计

指标管理体系设计的目的是厘清企业的分析数据资产,更好地支撑数据分析需求。

指标管理体系设计包括存量分析指标设计和增量分析指标设计。对于存量分析指标,需要首先对企业相关业务部门进行调研,梳理各个业务部门已经在使用的系统、报表中的指标。由于同一个指标可能被多个部门使用,需要将这些指标收集起来,做标准化设计,包括指标的聚合、收敛、规则定义等,统一指标口径;对于增量分析指标,通常的做法是参考行业领域通行的指标体系,如供应链领域的SCORE模型规定的关于供应链可靠性、实效性的一系列指标。

■ 运营绩效指标设计

对于处于管理变革阶段的企业,企业还需要进行运营绩效指标设计。企业可以基于业务方向的变化,设计一套前瞻性的考核指标体系,同时可以借鉴吸收一些行业实践的成套体系,例如IPD、MTL等,进行企业内部管理的优化,从而指引变革落地的方向。

■ 算法模型设计

对于一些需要AI算法进行高阶数据应用的企业,其还需要根据业务需求设计相应的算法模型。

如在制造业,企业通常会需要用到库存优化的算法模型,在汽车行业,车企构建车联网时,需要用到充电优化调度模型。

二、数据治理的开展路径

企业在已经建立数据治理组织架构,以及数据治理体系框架后,即可以开展具体的数据治理工作。数据治理的开展路径通常包括内部治理和外部赋能两个部分,企业在内部治理的每个阶段通常都需要由外部机构提供相应的方法论指导,并建立标准和流程,具体如下:

图4:数据治理开展路径 来源:滴普科技

1. 内部治理

数据治理的切入点是数据资产盘点。企业需要基于业务视角做数据盘点,建立对业务人员友好,可读性高的资产地图,做好数据分级分类管理;同时,企业需要按主题或业务域对数据资产的价值进行排序,确定需要优先治理的资产。

在建立数据资产地图的基础上,企业需要定义数据标准和规范,对存量数据基于数据标准做溯源映射,对增量数据则用数据标准约束新增数据的结构。

最后是数据应用的建设,包括了数据共享分发和数据分析场景。其中,共享分发可以基于原生的业务形态、业务系统数据,或者基于指标、报表、标签进行数据共享。

2. 外部赋能

首先,企业需要外部机构提供咨询服务,帮助其搭建数据治理的体系框架、数据架构,并提供方法论指导。

■ 在搭建数据治理体系框架方面,需要帮助企业建立数据治理组织,规定数据共享、数据权属设计、增量数据的标准约束、审批流程等方面的制度、流程和模板。

■ 在设计数据架构的方面,需要首先帮助企业进行现状诊断,调研和梳理企业业务体系、核心系统数据、数据应用等方面的现状;在此基础上帮助企业盘点数据资产,构建数据资产目录,建立数据标准,以及设计数据模型等。

■ 在提供方法论方面,由于企业的数据资产会随业务动态变化,所以需要帮助企业沉淀一套设计数据资产目录、数据标准和数据模型的方法和模板,使得企业后续可以根据业务变化情况定期刷新资产目录。

在具备了体系框架、数据架构和方法论赋能之后,需要帮助企业根据业务需求,在业务域数据或者主数据领域开展专题数据深化治理,从识别数据资产目录的L3层业务对象入手,建立包含概念数据-逻辑数据-物理数据的完整映射,并进一步完善数据标准,提升数据质量,设计数据模型。

在上述工作基础上,为满足企业对数据分析和应用的需求,需要帮助企业分析数据资产,设计指标体系、特定领域的算法模型,并构建数据共享机制。

最后,为了保障企业的数据治理成果可以得到呈现和有效利用,需要为企业提供平台化的产品固化数据治理成果,通常包括通过数据开发与治理平台支撑数据资产目录、数据模型、数据标准的落地,管理和共享数据资产;通过数据分析平台管理分析指标、算法模型;通过湖仓引擎存储数据模型。

三、数据治理的持续运营

在已经完成体系框架、数据架构设计,完成初步数据治理的基础上,企业还需要对数据治理进行持续运营。这是由于企业的各业务系统中,总是会不断产生新的数据,并且企业的业务总是会动态变化,导致前期已经建立的数据标准,以及指标的计算口径都会发生相应的变化,使得企业需要通过持续的数据治理,更新和维护数据资产。

传统的模式下,企业开展持续的数据治理工作通常是由专门设置的数据团队,依据前期梳理的数据治理机制和流程,并借助数据平台的数据管理功能进行,但仅靠人工维护的成本很高,且由于数据团队无法保证对业务都很了解,导致传统模式效果不够理想。

基于上述背景,近年来一些领先企业会尝试主动数据治理的模式。通过在数据治理开发平台中提供相应的功能,主动数据治理可以将治理活动嵌入到企业日常的工作流程中,通过 AI技术将新增数据,根据数据标准自动同步到元数据管理,减少数据治理成本;以及通过知识图谱,识别数据间的关联关系,构建更清晰的数据资产和数据血缘关系,方便检索数据,提高数据利用率。

此外,主动数据治理还可以通过提供数据模型评估协作功能,提高业务团队与数据团队的协作效率,当业务人员使用数据时可及时反馈数据模型的数据质量、支撑场景、数据描述等内容,数据团队可以及时掌握数据模型的应用情况和改进点,从而提升数据部门自助服务能力,消除部门间的依赖。

本文摘编自滴普科技发布的《企业级数据治理体系建设指南》。