如今,社交媒体、视频内容、搜索引擎、物联网设备以及交易系统等来源的数据呈指数级增长,随着实时数据从各种各样的源头不断涌入,企业需要迅速依据所获取的洞察力采取行动,从而维持自身的竞争力。有效的数据治理策略是一套允许企业正式管理重要数据资产的流程,确保正确的信息在正确的时间流向正确的人,在迈克尔·赫斯基的文章《谁统治了数据,谁就统治了世界:数据治理简史》中认为。
尽管数据治理很重要,但如果数据本身质量差,治理效果也会大打折扣。糟糕的数据治理会导致运营问题,影响预算编制和预测模型,浪费大量资金。拥有大量数据但不准确、不一致或有偏见的数据是无用的,组织必须实施持续的数据质量评估流程,以防止数据集被污染或失效。
一、数据治理的定义和重要性
大卫·P·马可博士在他的文章《数据治理计划的10个关键组成部分》中声称,数据治理是所有数据管理实施的基础,支持所有其他数据管理知识领域,如数据仓库、商业分析、大数据、主数据管理等。数据治理是一门关键的学科,支持组织负责任和有效地管理其数据资产,同时确保与战略目标保持一致。数据治理计划可以帮助组织从数据科学和商业智能工具中获得更大的价值。
1. 数据治理的定义
数据治理是指组织为有效管理其数据资产,而施行的管理数据的综合框架和实践,包含确保数据在其整个生命周期中的可用性、完整性、安全性和合规性的政策、流程、角色和标准。
2. 数据治理的重要性
数据治理的主要目标包括确保数据的准确性与一致性、防止敏感数据信息的滥用、打破跨部门的数据孤岛,以及促进信任和透明的数据文化。数据治理框架在应对大数据和人工智能技术带来的独特挑战中起着关键作用,它是所有公司数据活动的基础,涵盖了明确定义的数据角色、文件化的数据管理指南,还有评估和提高数据准确性与完整性的流程,并且提供企业数据资产的全面盘点。
二、数据治理的三大支柱
数据治理为信息存储与数据相关的业务流程构建了一个决策权和责任体系。这包括指定谁能够使用数据、在何种情况下以及运用何种方法时采取何种行动。成功的数据治理战略有三大支柱——人员、流程和技术,对于希望构建全面框架以确保数据有效管理、质量和安全性的组织而言至关重要。
1.人员
有效的数据治理涉及多个角色,例如首席数据官(CDO)和数据管理、分析以及建模等人员,还有数据治理支持委员会等。这些角色协同创建并执行数据策略,同时确保所有利益相关者知晓自己在数据管理方面的责任和义务。明确界定的角色和责任,使得每个人不仅清楚自己有效管理组织数据的责任,也了解参与该过程的其他人的责任。然而,若缺乏问责制,角色和责任就失去了意义。数据治理提供严格的数据问责制,确保个人或部门团队对自身的数据质量和数据合规性负责,进而在整个组织中营造一种所有权文化。
2.流程
组织需要制定文件化的政策,阐述如何收集、存储、处理和共享数据。应当建立并广泛分享定义与数据有关的关键术语和概念的数据字典。这有助于员工轻松地在数据环境中操作。它还能够记录公司的数据,以便员工离职时重要的数据情报依然留存。这些政策也有助于维持数据完整性和法规合规性。此外,数据治理管理中的定期评估和审计不可或缺,这是为了确保高数据质量。这包括实施数据验证、清理和丰富过程,以保持所有数据源的准确性和一致性。
3.技术
应当利用技术实现治理过程的自动化,从而提高效率。这包括用于监控数据使用、确保政策合规性以及促进所有系统和平台的数据集成的工具。应当实施健全的安全协议,以实现数据治理,并保护敏感信息免受未经授权的访问。
有许多软件可用于自动化数据治理流程的某些方面,如Alation、Ataccama One、Informatica Axon、Collibra、OneTrust、IBM Cloud Pak for Data、SAP Master等相关厂商产品,还有开源的Apache Atlas和Talend Data Fabric等。所有这些解决方案都整合了数据管理的各个方面,确保整个公司IT系统中的数据具有高质量和兼容性。
数据治理的三大支柱,即人员、流程和技术,应当协同运作,构建一种结构化的数据治理模式,使得组织能够高效管理自身的数据资产,同时确保符合法律法规要求并提升决策能力。
三、数据治理框架和指标
数据治理框架概述了企业数据治理举措的目标、范围和指导原则,并且作为所有数据建模和分析活动的基础。该框架为数据用户明确了角色界定,如首席数据官和数据管理、数据分析以及其他数据科学和建模人员等。每个角色都被赋予具体的责任和决策权,以确保数据问责。文件化的数据管理、数据质量、数据保证、数据隐私和数据安全指南,能让所有数据用户清楚自己在数据处理方面的角色、责任和义务。
此框架包含一份全面的数据资产清单,其中有元数据、数据定义和血缘详细信息。这有助于更好地了解公司的数据情况。它设定了数据质量的指标以及数据利用的方法,确保数据用户能够无缝协同工作,并且在组织内的各种平台上有效地共享数据。
数据治理框架还包含保护客户数据免受未经授权访问和数据泄露的策略。这涉及实施访问控制、加密措施并且遵守所有相关法规。同时,它还包括规定如何处理数据的政策,涵盖数据质量、安全和法规合规的标准。
同时,应当纳入评估数据治理举措有效性的指标,以及定期审查和更新以适应不断变化的数据环境的机制。这些组成部分共同支撑组织将数据作为战略资产进行管理的能力,并且增强决策能力。
四、整合AI面对大数据的V-S曲线
在大数据和人工智能背景下,稳健的数据治理策略在应对技术挑战中起着关键作用。大数据的V-S曲线中的“速度”、“多样”和“变化性”特征对数据治理提出了最大的挑战,为此将人工智能整合到数据治理实践中,可以自动化数据清理、合规监控和异常识别等任务。
1. 七个“V”
速度要求企业能够迅速生成、处理和分析数据,以便及时采取行动。多样性涉及不同类型的数据格式,增加了数据集成和分析的复杂性。变化性则意味着数据流随时间变化不一致,可能导致数据解释和使用上的困难。这些特征要求数据治理策略具备灵活性和高效性,以应对不断变化的数据环境。
- 容量:每秒生成的数据量,从兆字节到千兆字节再到太字节,甚至远远超过这些量。
- 速度:生成、处理和分析速度数据,企业需要迅速根据洞察力采取行动。
- 多样:不同类型的数据,包括结构化、非结构化和半结构化格式,如文本、图像和视频。
- 可信:数据的准确性和可靠性,高准确性意味着数据是可信的,可以用于决策。
- 价值:数据的意义和价值。
- 可变:数据流随时间变化的不一致性,这会影响数据解释和数据使用。
- 可视化:以图形格式表示复杂的数据,使利益相关者更容易快速理解数据中的模式和见解。
2. 整合人工智能
这些实例简化了数据治理工作,使组织能够基于可靠的数据洞察做出明智的决策,提高了数据治理的效率和准确性。
- 数据清理:人工智能可以自动识别和纠正数据中的错误和不一致性,减少人工干预的需求。
- 合规监控:人工智能工具可以持续监控数据使用情况,确保符合相关法规和政策,减少合规风险。
- 异常识别:通过机器学习算法,人工智能可以实时识别数据中的异常模式,帮助组织及时发现和解决问题。
五、数据治理用例
一个成功的数据治理计划能够覆盖整个组织,在数据质量管理、数据安全、数据隐私、数据可追溯性以及元数据管理等方面发挥作用。它确立了一个唯一的真实数据源,增强了客户的信任度,并最终促使公司转型成为数据驱动型企业。
乔恩·布鲁纳在他的文章《Facebook在向每位员工开放数据时学到了什么》中指出,Facebook是首批允许其员工大规模访问数据的公司之一,通过数据民主化提高了公司的灵活性和决策能力,成为数据治理成功的典范。Facebook发现,数据访问成为其成功的关键部分,避免了员工向IT部门索取数据的需求,也避免了数据过时的问题,从而提高了公司的灵活性和响应速度,能够迅速开发新产品并应对市场变化,收益远远超过了成本。
这对其他组织的启示是,开放数据访问可以促进创新和决策速度,减少IT负担,并增加数据的使用价值。其他组织可以从中学习,提倡数据民主化,培养数据驱动的文化,鼓励所有员工访问数据,从而提升决策效率和数据利用率。
数据治理在实际应用中有多重优势,包括提高数据质量、增强合规性、保护数据安全、提升业务效率和响应速度等。如一家金融机构由于客户数据管理不善而被处以反洗钱(AML)法规罚款,之后该机构建立了数据治理流程,确保准确采集和监控客户数据,从而改善了合规状况并避免了未来的处罚。医疗服务提供方为保护患者数据免遭未经授权的访问,实施了包括访问控制、数据加密和监控系统在内的健全的数据治理策略。
对于企业而言,维持高质量的数据至关重要,特别是在运用依赖准确可靠数据的AI算法时更是如此。正如作者科尔·努斯巴默·克纳夫利奇所说:
掌握世界上所有信息并不会让我们更容易沟通,反而会让沟通变得更困难。
数据治理、安全与合规哪家强?2025 数字产研及案例评选来帮,为了让您洞察产品、战略和市场的每一个细微之处,凭借 16 项严谨的评估指标,我们将深入调研以详尽的信息和分析汇总报告,助力您在产业中保持清晰的定位。
2025 我们一起在数治网院三步进阶,领取你的数智第一课,预约AI+双师开讲!完整《2025 数字产研——数据治理、安全与合规》公开课已上线,请扫码加入数治x一站式服务群@老邪 领取课件和脑图,添加 @老邪 企业微信升级成数治Pro个人、企业版助手和学习卡,更多治理、安全与合规体系课程可随到随学。
我们在人才培养上,用数据价值和责任分清CDO、CISO与DPO的职业角色(附手册),CDO需要与DPO、CISO紧密合作,确保数据管理、保护和安全之间的协调一致。这种合作有助于组织在不同数据类型的管理上达到平衡,同时满足法律和合规要求。
同时,AIGC+X 体系化终身学习助力个人和组织数据素养打造(附福利大礼包),在数据素养上规划符合业务需求的学习和成长计划,有望为每个人构建数据技能到能力的路径,有望帮助CDO促进数据民主化和数据素养所需的战略、流程和文化转变。
来源:文章引用迈克尔·赫斯基、大卫·P·马可博士、乔恩·布鲁纳等观点,本篇针对全文由生成式 AI 做出的核心摘要和解答,仅作为参考,请以原文为准。图片:Boitumelo,Unsplash