Zed新书 | 《数据血缘:理论与业务实践》国内首发

本书深入分析了数据血缘,并提出了数据血缘元模型和相应的术语,帮助技术专业人员和业务人员在针对数据血缘的不同观点之间搭建起一座桥梁。

《数据血缘:理论与业务实践》国内首发
出处: Datamodeling数据模型开源社区

在数据量不断增长、数据生态系统复杂的时代,追踪数据从源头到目的地,及其经过的各种流程和系统的信息,对确保数据质量、合规性和决策来说至关重要。这些信息被称为数据血缘

数据血缘既能回答“这些数据从哪里来,到哪里去”这样的哲学问题,也能回答“数据是如何进行加工转换的”这样的技术问题,帮助我们深入了解数据资产的可靠性、可信度。

数据血缘的重要性超出了传统的数据治理和合规性。它在智能数据分析、数据集成、数据质量管理和数据驱动决策方面发挥着至关重要的作用。了解数据血缘,能够使组织识别数据异常、解决问题、跟踪数据转换,并确保遵守 GDPR、CCPA 等法规。

数据血缘是企业最重要的数据资产之一,而且未来它将充当更加重要的角色。

  • 一方面,完整的数据血缘信息可以有效跟踪敏感数据的全链路生命周期,实现数据安全合规。例如:源端系统中的PII(个人身份识别信息)在数仓、大数据平台、数据湖中是否得到有效的脱敏?哪些数据服务可能泄露机密?哪些数据可能被消费者获取?
  • 另一方面,数据血缘可以进行变更影响分析,即分析数据的变更对相关业务的影响。例如:当源端业务系统的数据结构发生变化时,要及时分析其对后端数据应用的影响,以便在源业务系统升级前给出合适的应对措施,保障后端应用的连续性。这种影响就如同在制造业中,上游原材料的价格波动对下游产品成本的影响。

数据血缘是元数据管理的重要手段之一。

在建设数据仓库、数据集市、商业智能及大数据系统的过程中,国内许多组织对配套元数据模块进行了多年探索,研发了许多数据血缘处理技术,试图构建一套准确、完整、实用的数据血缘图,以满足业务需要。让用户在“管理数据、使用数据”的工作中,能够了解数据的来龙去脉,做到心中有“数”。然而在实践过程中,即使经过长期的持续建设,配套元数据模块的实际效果仍会大打折扣,不尽如人意。

讲了什么内容?

  • 第一篇 数据血缘的概念统一数据血缘的定义、元模型及数据血缘类型。
    划重点:数据血缘的层级、数据血缘的多种类型及其相关性。
  • 第二篇 如何实现数据血缘关于实现数据血缘的可行性见解和建议。
    划重点:“构建数据血缘的九步方法论”、数据血缘项目的“企业”范围、记录数据血缘的多种解决方案。
  • 第三篇 如何使用数据血缘利用数据血缘结果实现不同的业务目的。
    划重点:使用数据血缘实现数据质量检查和控制、实施影响分析和根因分析。
  • 第四篇 构建数据血缘业务案例将数据血缘落地到业务案例中。
    划重点:实现数据血缘的具体步骤,实际可用的方法论工作模板。

下图是本书提到的数据血缘的元模型,可以看到数据血缘涉及业务、概念、逻辑、物理四层。

640

通常讲的“技术层面的数据血缘”指“物理层的数据流血缘”,主要是数据在大数据平台中的数据加工逻辑。事实上技术上的数据血缘一定要与业务上的数据血缘相结合。才能形成立体的数据血缘关系,可以从技术血缘追溯到业务对象、业务流程,也可以通过技术血缘洞察业务流程上的关系。

640

适合谁看?怎么看?

  • 数据管理和业务专业人员,可以针对数据血缘及其应用领域拓宽思路。与数据血缘概念有关的资源很少,主要是互联网上的文章和数据血缘解决方案供应商网站。目前,数据血缘还缺乏统一的定义,这给初学者带来了挑战。本书深入分析了数据血缘,并提出了数据血缘元模型和相应的术语,有助于不同的利益相关者针对数据血缘进行交流。
  • 具有技术背景的专业人员,可以更好地理解业务需要和数据血缘需求。不同的利益相关者对数据血缘的理解、要求和需求明显不同。技术专业人员主要关注实现物理层面上的元数据血缘,但术语对业务专业人员来说毫无意义。本书未涵盖不同数据血缘解决方案的技术细节,而是帮助技术专业人员和业务人员在针对数据血缘的不同观点之间搭建起一座桥梁。
  • 项目管理专业人员,可以熟悉数据血缘实现的最佳实践。合适的实施范围和适当的实施方法是项目成功的关键因素,许多因素都会影响项目范围、方法和方案的选择。项目管理专业人员可以从本书中获得实用的建议,并熟悉开发数据血缘业务案例的技术,以及一些数据血缘解决方案。

成功应用案例

Datablau数据血缘产品SQLink就是利用本书所介绍的内容,实现成功应用的一个落地解决方案。

640-1

Datablau血缘解析工具是一款高度自动化,简单易用的分析SQL语句并发现其中的数据血缘关系的可视化分析软件,能够满足技术人员对数据血缘快速批量化处理需求,简化处理流程,提高解析的速度和精准性,是企业做好数据治理的基础工具。主要功能如下:

  • 数据血缘在线解析Datablau血缘解析工具可以通过离线采集或者服务器文件采集任务在线分析Oracle、 Mysql、 Hivesql 在内的几乎所有主流数据库脚本、帆软和Tableau的报表文件及Excel模板。
  • 全链路字段级血缘解析Datablau血缘解析工具可以形成表级和字段级的数据血缘关系信息,支持采集埋点信息和自定义扩展属性,可以追踪完整链路来源,可视化的呈现数据的完整的流转关系。
  • 血缘关系可视化追踪Datablau血缘解析工具可以清楚地看出数据加工的各个节点,选中矢量图中任意节点,实现以此节点为起点(终点),向下(向上)追溯其影响到的其他节点路径。