在数据领域,数据治理算是一个高频词,很多人都在谈数据治理,因为有太多的应用场景需要有数据治理的支撑才能开展。然而,对于很多在数据治理方面已经实践了多年的人来说,他们/她们已经不太愿意谈数据治理,谈的更多的是数据资产管理、资产运营与资产增值等。这种情况,让准备开展数据治理或者仅在数据治理方面有过尝试的人的困惑更大了:还要不要继续提数据治理?应该在多大的格局上看待数据治理?
数据治理领域的新概念让人眼花缭乱
IT领域一直有新概念、新技术不断涌现,其中有不少都和数据治理产生了关联,像什么基于机器学习和深度学习的数据治理、采用图数据库的数据治理、区块链数据治理、大数据环境下的数据治理、数据资产管理和运营,云端数据治理和数据治理自动化等。相信随着元宇宙概念的传播,元数据治理很快也会出现。
有些新概念是因为在数据治理中使用了相关的技术,基于机器学习和深度学习的数据治理、采用图数据库的数据治理基本上都属于这类情况。机器学习和深度学习可以用于数据标准的识别匹配、数据资产的识别和数据质量问题发现等。图数据库可以用于识别元数据中数据血缘关系。这类情况中数据治理确实用到了新概念新技术,只是技术本身已足够复杂,还需要长期迭代积累才能产生较好的效果,另外新概念中的技术只覆盖了数据治理工作的一小部分而已。
有些新概念是对新的环境、新的生态的应对,像大数据环境下的数据治理、云端数据治理和数据治理自动化,都属于这类情况,实际上并没有引入新的手段或方法。大数据环境下的数据治理,是在通常面向结构化数据的数据治理之外,增加了面向半结构化、非结构化数据的内容,实践中更多地是继承了“大数据”这个概念本身的模糊和混沌。云端相比本地对数据治理的要求并不比云端对其它数据管理工作的要求更多,只是在数据治理规划中,需要考虑到混合云、多云等多种部署方式下对实施的影响。从来都没有人想过要依靠人工完成全部的数据治理任务,数据治理自动化只是更加突出了相关工具/软件的功能模块,强调其对数据治理某些流程的帮助和促进作用。
区块链数据治理就很有蹭热点的嫌疑,不管怎么推崇区块链的本质和数据治理需求之间的契合程度,但很明显的是区块链既没有带来新的技术实现手段,又没有解决数据治理实践过程中遇到的问题,这种提法就是为了区块链而区块链,炮制了一些似是而非的方案建议而已。
数据资产管理和运营,是数据治理的演进升级或者是数据治理发展较高的阶段,当然也有人认为数据治理是基础阶段,数据资产管理和运营是超越数据治理之上的高级阶段。数据资产管理更加着眼于数据价值的实现,而不像数据治理那样中性。数据治理似乎只强调了相关的工作任务,不能让人一眼就明白数据治理的价值所在。在实际的工作中,混用数据治理和数据资产管理或者过分强调数据治理和数据资产管理的区别,会给组织中数据使用的相关人员带来更多的困惑。数据资产化的提法固然能直接体现数据的价值,但是对一个组织来说,有数据好用、把数据用好,是更直接、更重要的需求。
为什么围绕数据治理有这么多的新概念涌现,其原因不难理解。首先数据治理是一个热门领域,吸引了很多相关人员的参与。参与的人多了,带来的新内容也多了;其次作为数据治理服务的提供方也就通常说的乙方,他们需要新概念来凸显自己的方案,引起市场和客户的重视;最后,作为数据治理的主导方和实施方,他们也需要新概念来彰显自己的工作成果,作为获得相关方资源和支持的依据。
多个应用场景都离不开数据治理
由于数据治理的概念被越来越多的人接受,其应用场景也越来越广泛。新设立一个组织、构建一个新的数据生态环境、改造现有的信息系统、应对日常数据应用中的障碍、监管数据报送等,都会考虑数据治理。其中影响最大的应用场景,当属数据中台和数字化转型。
虽然数据中台不是阿里的原创,但是数据中台概念在国内的流行和认可,绝对是和阿里自身的实践及市场宣传分不开的。随着阿里号召力的式微和阿里内部去中台的传言,数据中台的影响力和热度也急剧降低,但是我们并不能因此否认数据中台的价值,就像当初不能跟风去建设数据中台一样。数据中台概念的提出就是为了促进数据的使用,解决应用系统的数据无法及时满足数量众多的、需求多样的前端应用的需要,因此在后端应用和前端需求之间设计了体量巨大的数据中台。
数据中台的架构多种多样,但无论哪一种架构,都突出设计了数据治理(或叫数据资产管理)的部分。除了要提供常规的数据获取、数据存储、数据建模、数据开发、数据服务等模块,为了保证数据可用、好用而必须进行数据标准管理、数据质量管理、元数据管理、数据安全管理、数据资源管理等,架构师是非常乐意把这一系列工作都打包塞给数据治理的,谁让数据治理一直号称自己的使命就是为了解决这些问题的呢。
相对数据中台,数字化转型是在更大的视野格局中实现数据对组织发展繁荣的保证和促进。数字化转型在组织内部的覆盖范围、影响程度、参与要求都是要远远超过数据中台的。我们当然不能脑洞大开地认为通过投彩色玻璃球、用自来水表救命、瓷砖上印老板二维码就能帮助组织实现数字化转型。需要通过持续、努力的投入,用数字化的手段来全面改造组织的流程和信息生态,实现组织的“智能、共享、在线、连接”。
组织的数字化转型必然包含管理变革、业务转型和流程重组,而数据正是这些变革有别于以往变革的关键所在。管理、业务和流程的过程和结果会通过数据体现,同时这些过程和结果又会和数据进行交互,使用内外部数据作为输入或者触发条件。组织的数字化程度越高,数据作为生产要素的重要程度越高,自然对数据的要求也越高,因而数字化转型需要数据治理的支撑,甚至可以说数字化转型的内容和数据治理的内容在某种程度上是重叠的。
不论出现在什么场景中,数据治理的目的、内容和方法都没有改变,只是需要根据场景的不同,调整工作范围、顺序、周期等。这是数据治理人员可以感到欣慰也是应该坚持的地方。
数据治理已经“走得太远”
在我自己参与过的多个数据治理项目中,有些参与不久的小伙伴看到一些数据问题时感到不可思议:“怎么能犯这么低级的错误?”,这就是完全站在数据治理自己的立场来看问题了。组织中遇到的数据问题,大部分都是在业务发展和信息生态长期演变的过程中自然而然地产生的,数据治理人员不能凭借“后见之明”保持对组织数据现状的优越感。
数据治理领域的“老兵”们对看到的数据问题倒是都能不动声色,不止如此,他们/她们已经不大屑于提数据治理了,数据资产才是经常挂在嘴边的。组织需要“第四张报表”、“数据将进入资产负债表”、“数据要素市场化”等才是在各类研讨会、论坛上能体现高专业水准的话题。
至少在2012年,就有人提出过“数据将进入资产负债表”,10年时间过去了,除了这个说法本身被提及的越来越多,我没有看到任何实质性的进展。数据不同于传统法律意义上资产的主要区别是非消耗性、非排他性,然而排他性是确定资产产权的基本要求。
进一步想,是否进入资产负债表,对于数据使用、数据价值实质上没有多大的影响。想一想一家企业的品牌影响力、用户口碑等可被归于商誉的方面,除了在并购过程中,大部分时间不会计入资产负债表,可是谁也不会忽视其重要性。数据也是一样,纠结数据是否能够以及怎样计入企业资产其实并没有太大的意义,应当关注的是如何发挥数据的价值。
数据要素的价值应当体现在生产经营的过程之中,如果相关活动的展开必须要有数据的支持,所能获取的数据能决定活动的模式和效率,这种情况之下数据自然就要素化了。目前比较热闹的是要素市场化,贵阳大数据交易所、北京国际大数据交易所、上海数据交易所、北方大数据交易中心等相继成立,让我想起上世纪90年代初期,为了响应国家发展市场经济的号召,我家乡的县城城关镇盖起了“淮南市场”吸引商铺入驻。数据要素化并不意味着数据要素需要市场化,因此这么多数据交易所并不能促进数据要素化。
阿拉伯诗人纪伯伦曾写过“我们走得太远,以至于忘记了为什么出发”,可以用来描述当下数据治理的现状。数据治理的专业人员专注于自己的领域,有时不太去想为什么会有数据治理。组织中的信息生态随业务变化而不断变化,如同自然界的生态系统演变一样,信息生态持续不断地发生着变化。信息生态中的数据,自然也体现了这种演变的结果,而不是理想的、规划的结果。
当数据在生产经营过程中参与程度越来越深,对跨部门、跨系统甚至跨组织的数据访问、数据共享、数据互操作的要求越来越多,由信息系统演化沉淀的数据和需求的差距就变得明显了,很多问题的根源在于业务制度、业务流程甚至是遗留习惯,因而仅从系统层面、架构规划层面不能有效地解决这些问题,因而才产生了数据治理所包含的一系列方法和实践,促进数据的使用。
数据的使用情况如何呢?数据使用的场景、领域覆盖面是否够广?业务人员使用数据的意识、手段是否足够?虽然这些不是数据治理能够全部回答的,但是数据治理人员应当时常这样问自己,因为这才是数据治理的出发点所在。
“测土施肥、看人开方”
在数据治理的实践过程中,很多领先的提法和做法是值得借鉴的。数据资产、数据要素的提法,有助于让管理层、让数据使用人员更加快捷、直观地理解数据的价值;数据治理自动化的提法,有助于推进相关工具、系统在数据治理领域的应用;机器学习、深度学习、图数据库等做法,有助于提高数据治理相关环节的效率。
对于听惯了“弯道超车”的我们来说,在数据治理的实践之中,不要寄希望于最前沿的数据治理方法,实现数据治理的“弯道超车”,也不要以为不讨论、不采用最前沿数据治理方法,就会被当做看不见皇帝的新衣服的蠢人。数据治理人员需要根据所处的阶段、所面临的问题,来决定数据治理的具体做法,即是要“测土施肥、看人开方”。
对于新设立的组织,肯定是希望通过数据治理的实施,从源头上进行规划和实施,避免业务流程和系统成型以后的修改与反复。新设立组成通常面临的问题是人手不足、时间紧迫,那么需要优先考虑的就是数据标准的制定、数据质量问题的管理流程、元数据记录和采集的规范、成熟工具的部署和管理制度管理流程的构建。尤其需要引起注意的是,尽管成立初期业务方人手严重不足、业务目标、范围、流程等会发生重大调整,还是需要将业务人员纳入到数据治理流程之中,提醒业务人员从数据的角度去构建业务模式及流程。
对于已经开展过数据治理但效果不甚理想的组织,其问题通常是已有的数据治理成果未能推广应用兼或不能及时更新,数据治理流程缺失或者未能实际执行。对此首先要有针对性地对已有的数据治理成果进行更新,并建立起后续的更新流程,然后再着手成果的推广应用和相关管理流程的建立或更新。在制定相关的管理制度管理流程时,需要“松制度、严执行”而不是相反,才能保证制度和流程的落实。
如果数据治理已经较为成熟,组织上下对数据治理都比较认可和支持,那么数据治理的工作重心可以放在效率提升和数据使用的推广上。针对数据治理日常工作中困难环节,考虑引入新的方法或者改进现有方法。即使是已经开展了多年数据治理实践的组织,其内部对数据的使用通常也是不均衡的,数据治理人员需要主动推进数据使用较少的部门或流程增加数据的使用,相比数据资产的确权、估值等,这能为组织带来更大的价值。
在数据治理实践中,不用刻意追求或标榜最前沿的概念和技术,而是应当把最大的注意力放到数据使用的场景之中。不用通过概念来彰显数据治理的价值,而是应该致力于促进数据在业务和流程中的应用,这样才更能体现数据的价值和数据治理的价值。
作者:隗华 Teradata天睿公司资深业务顾问