数据要素已快速融入生产、分配、流通、消费和社会服务管理等各个环节,深刻改变着生产方式、生活方式和社会治理方式。如何理解数据的内涵与特性,把握数据成为生产要素的背景和价值实现的途径,都是值得深入探讨的理论问题。
一、 数据的概念与独特属性
在广泛意义上,数据(data)就是对事实、活动等现象的记录。《辞海》(第七版)将数据定义为“描述事物的数字、字符、图形、声音等的表示形式”。按照《中华人民共和国数据安全法》中给出的定义,数据是指任何以电子或者其他方式对信息的记录。由此可见, 数据本身可以有丰富的表现形式。
数据一直伴随着人类的发展而变迁。在古代,数据呈现出规则化汇聚的特征。例如,我国古代的黄册(全国户口名册)、天文观测记录均以特定规则进行登记造册,它们对人类社会和物理世界的性质、状态与相互关系进行记录和计算,都是宝贵的古代数据遗产。计算机发明后,数据与计算机编码产生重要联系。凡可被编码为一系列 0 和 1 组成的二进制记录,都是计算机可处理的数据。早期计算机的采集、存储、计算技术尚不成熟,只能有效处理行列结构明确的数据表,此时数据更多指代这类结构化数据。近十几年来,数据存储、传输和计算的性能不断突破,数据管理、数据处理技术快速迭代,网页、声音、图像等半结构化、非结构化数据也逐渐得到有效处理和利用。
大数据时代,数据是基于二进制编码的、按预先设置的规则汇聚的现象记录。在此阶段,数据不仅是对客观现象的被动记录,越来越多的复杂现象由人们主动发掘并记录成为数据。例如,主动埋点收集的行为数据、基于关系网络挖掘的图数据、精细布放传感器捕获的物联网数据等。这种从被动到主动的转变昭示着一种新的观念,即物理空间中的一切事物都可以被预先设置的认知角度、记录规则和技术框架映射到数据空间,数据的创造融入了数据观察者或收集者的认知视角。例如,一篇文学作品,在自然语言处理的视角下只是遵循语料库规则的一条数据。
数据与信息之间虽然有复杂联系,但二者并不应混淆。从人类认知的角度看,数据是汇聚起来用于认知的原材料,信息是人类大脑可以理解和认知的事物状态和联系。在“数据-信息-知识-智慧”(Data- Information-Knowledge-Wisdom,DIKW,如图 1)模型看来,数据本身是无意义的原始事实记录,只有经过主体使用、分析和提炼,才会产生对人类有用的、具有特定功能的信息。数据能够承载信息,信息则是已经被加工为特定形式的数据。当今技术和产业更强调数据作为原材料的独特价值,依靠数据驱动可以产生大量人类理性难以直接感知到的信息,这些信息是数据价值释放的一种结果。
图 1 数据-信息-知识-智慧(DIKW)模型
来源:公开资料整理
数据与土地、劳动、资本、技术等传统生产要素相比有明显的独特性。产学研各界对数据的特性已有广泛讨论,总结各方观点可以发现,数据首先作为独特的技术产物,具有虚拟性、低成本复制性和主体多元性。这些技术特性影响着数据在经济活动中的性质,使数据具备了非竞争性、潜在的非排他性和异质性。数据的以上特性使得与传统生产要素相配套的规则体系、生态系统等难以直接沿用。
作为技术产物,数据具有虚拟性。数据是一种存在于数字空间中的虚拟资源。土地、劳动力等传统生产要素都是看得见、摸得着的物理存在,与数据形成鲜明对比。数据具有低成本复制性。数据作为数字空间中的存在,表现为数据库中的一条条记录,而数据库技术和互联网技术又能使数据在数字空间中发生实实在在的转移,以相对较低的成本无限复制自身。数据具有主体多元性。数字空间中的每条数据可能记录了不同用户的信息,数据集的采集和汇聚规则又是由数据收集者设定,用户、收集者等主体间存在复杂的关系。同时,每个企业、每个项目都可能对所用的数据资源进行一定程度的加工,每一次增删改的操作都是对数据集的改变,因而这些加工者也是数据构建的参与主体。
作为经济对象,数据具有非竞争性。得益于数据能够被低成本复制,同一组数据可以同时被多个主体使用,一个额外的使用者不会减少其他现存数据使用者的使用,也不会产生数据量和质的损耗。例如,在各类数据分析、机器学习竞赛中,同一份数据可以被大量参赛者使用。非竞争性为数据带来更普遍的使用效益与更大的潜在经济价值。数据具有潜在的非排他性。数据持有者为保护自己的数字劳动成果,会付出较高代价使用专门的人为或技术手段控制自己的数据,因而在实践中,数据具有部分的排他性。然而,一旦数据持有者主动放弃控制或控制数据的手段被攻破,数据就将完全具有非排他性。排他性是界定产品权利的重要基础,土地、劳动、资本都有明显的竞争性和排他性,可以在市场上充分实现权利流转。技术在当今专利保护制度下具有排他性,也可实现权利转让和许可。数据具有异质性。相同数据对不同使用者和不同应用场景的价值不同,一个领域高价值的数据对另一领域的企业来说可能一文不值。与数据形成鲜明对比的是资本,资本是均质的,每份资金都有相同的购买力,对所有主体同质。
综上所述,相比其他生产要素,数据的部分特性使它难以参照传统方式进行管理和利用,但其可复制、可共享、无限增长和供给的禀赋,打破了传统要素有限供给对增长的制约,为持续增长和永续发展提供了基础与可能。
二、 数据成为生产要素有深厚的技术和产业背景
生产要素是对生产过程中为获得经济利益所投入资源的高度凝练。每当出现经济增长速度快于已知要素投入增长速度时,就可以概括出新的要素来说明其余要素未能说明的剩余产出。因此,生产要素是随着生产力的发展而不断扩充的。将数据增列为生产要素的原因在于它对推动生产力发展已显现出突出价值。数据显著推动生产需要相应的技术和产业基础,随着数据相关技术和产业的发展,数据逐渐具备规模大、价值高等特征,演变为推动生产效率提升的重要要素。
20 世纪 70 年代,关系型数据库的发展使数据处理效率大幅提升, 数据推动生产的价值初步显现。在数据库诞生之前,程序员处理数据时需要直接面对操作系统的底层文件进行针对性开发,无论是数据结构还是文件格式,执行起来都有较高复杂度。1970 年,埃德加·科德(Edgar Codd)提出关系型数据库模型,指明了数据库发展的一大重要方向。随着关系型数据库的成熟,以关系代数为基础的 SQL 语言的普遍使用,以及 Oracle、DB2 等事务数据库产品的涌现,面向事务处理的OLTP(On-Line Transaction Processing,联机事务处理)系统得到应用,数据的增删改查有了标准工具和组件,数据使用者可以不再直面操作系统底层环境和数据处理底层逻辑,从而专注于上层应用系统开发,业务运转效率明显提高。
20 世纪末,挖掘数据价值的需求不断增长,数据仓库与数据分析技术迅速发展,数据在生产中的意义进一步显现。随着 1991 年万维网的提出,互联网浪潮席卷全球,数据量迅速膨胀,利用数据集进行信息分析和知识挖掘的需求不断增长。比尔·恩门(Bill Inmon)确立了数据仓库的概念,提出数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的、用于支持在线分析和管理决策的数据集合。科德则认为传统的 OLTP 在性能、适用性、性价比方面已不再适用,于1993 年提出满足多维分析的 OLAP(On-Line Analytic Processing,联机分析处理)系统。OLAP 支持复杂的分析操作,提供直观易懂的查询结果,追求满足大规模聚合分析查询的性能表现。与此同时,机器学习算法不断创新,人工智能技术正走出第二次低谷期,数据驱动的分析决策逐渐获得关注。
进入 21 世纪,数据的大规模集中和高维度分析全面推动生产效率提升。为满足数据大规模存储、高性能计算、在线实时查询等需求, 越来越多的组织开始搭建大数据平台,数据处理和分析方面的技术向分布式、基于Hadoop 的体系靠拢,对数据的管理也逐渐规范化。随着近年来平台经济迅速崛起和移动互联网的普及,数据呈现指数级爆发的增长趋势,业务数据处理及时性和快速性的需求也不断提升,各组织从 Hadoop 转向 Storm、Spark 和 Flink 体系,在吸收开源技术的基础上,不断探索流式计算、秒级采集系统的建设,构建企业级的实时数据分析体系。随着数据湖、数据中台等概念和技术加速落地,结合机器学习、人工智能等新兴技术,众多组织对数据进行统一存储计算和高质量治理,为各类应用提供数据服务,对海量数据实时处理和智能分析的能力不断增强,极大推动了生产效率的提升。
数据技术的发展伴随着数据应用需求的演变,影响着数据投入生产的方式和规模,数据在相应技术和产业背景的演变中逐渐成为促进生产的关键要素。因此,“数据要素”一词是面向数字经济,在讨论生产力和生产关系的语境中对“数据”的指代,是对数据促进生产价值的强调,即数据要素指的是根据特定生产需求汇聚、整理、加工而成的计算机数据及其衍生形态,投入于生产的原始数据集、标准化数据集、各类数据产品及以数据为基础产生的系统、信息和知识均可纳入数据要素讨论的范畴(如图 2)。对于数字化转型刚刚开始的企业, 原始数据集是维持业务系统运转、提高业务运行效率的基础资源。对于数字化较为成熟的企业,其经过清洗、预处理后的数据集具有更高质量,能够提供更准确、更全面、更有预测力的信息用于分析决策,可以为企业带来更大的效益。企业还可将自身持有的数据加工成多样的数据衍生品,在符合法律制度的前提下向外流通,使其他企业利用数据蕴含的价值参与生产活动。
图 2 数据要素主要表现形态
三、 数据要素主要通过三条途径实现价值
激活数据要素的根本目的是以多样、创新的方式投入生产,为经济社会生产创造更大的价值。数据要素究竟如何发挥其作为生产要素的价值,需要进一步分析厘清。随着信息技术的发展和产业应用的演化,数据要素投入生产的途径可概括为三次价值释放过程(如图 3)。
图 3 数据要素的三次价值释放
1. 一次价值:数据支撑业务贯通
数据投入生产的一次价值体现在支撑企业、政府的业务系统运转, 实现业务间的贯通。数据经由各个业务系统的设计而产生,用以支撑业务系统的正常运转。通过计算机对数据的读写,贯通线下与线上的界限,实现业务初步的标准化、自动化管理和运营。此过程中,数据集中产生、单一存储、形式简单,相应的治理工作也以增、删、改、查、对齐、合并等常规的数据库管理为主,多集中于局部业务领域的流程改善和相关业务数据的贯通。虽然此阶段数据并未得到深度整合与分析,数据开发利用并未得到很大关注,但数据对业务运转与贯通的支持是实现数字化转型、提高内部管理效率的第一步。
例如,20 世纪末谷歌公司成立后革新了数据存储与计算系统,得以处理当时整个互联网的数据,构建起精准高效的搜索引擎。基于庞大数据量和排序算法的搜索业务产生巨大利润,奠定了谷歌公司行业翘楚的地位。二十年前,我国以“两网、一站、四库、十二金”工程为代表的电子政务建设全面开展,经过多年推进,各级政府业务信息系统建设和应用成效显著,通过业务数字化的方式实现了数据在系统中的有效运转和贯通,公共服务水平得到全面提升,“最多跑一次”、 “一网通办”、“一网统管”、“一网协同”、“接诉即办”等创新实践不断涌现,为当今的数字政府建设奠定了基础。
为推动数据的一次价值释放,企业、政府主要工作重心是业务数字化及各类业务信息系统建设。这一阶段,各主体所持有的数据种类相对单一、计算的要求简单,技术门槛较低,关键是深入挖掘业务需求,明确业务数字化方向。如制造业企业通过建设订单数据管理系统,实现物流、信息流、资金流的对齐、核验,可有效推动整个业务流程的有序流转。随着业务信息系统的建设,企业、政府的数据实现独立存储、统一管理,大量宝贵的业务数据不断积累,为进一步挖掘数据的生产要素价值奠定了重要基础。
2. 二次价值:数据推动数智决策
数据要素投入生产的二次价值释放体现在通过数据的加工、分析、建模,可以揭示出更深层次的关系和规律,使生产、经营、服务、治理等环节的决策更智慧、更智能、更精准。在数据分析、人工智能等技术的辅助下,数据自动化、智能化的采集、传输、处理、操作构成了新的生产体系,可以实现经营分析与决策的全局优化,数据要素成为决定企业竞争力的重要因素。究其原因,数据要素二次价值释放的关键在于数据可以提供独特的观察视角,在此基础上可以构建出理解、预测乃至控制事物运行的新体系,从而摆脱经验的局限,更加即时有效地防范化解风险,创新行动方略。
例如,2012 年海尔公司利用成熟的技术工具栈,建立了针对业务管理和经营决策的完整数据链,从而实现通过业务智能化来优化管理岗位用工结构;各大银行充分整合中小企业的经营数据,挖掘更准确的企业客户画像与信用评分,由此决定中小企业贷款风险评估结果, 为中小企业低成本融资提供可能。可以看到,数据要素不仅可以投入于自有业务支撑分析决策,还能够优化传统生产要素的经营与配置, 使传统要素价值倍增,提升全要素生产效率。数据驱动的智慧化、智能化决策可以实现更少的要素资源投入创造更多的物质财富和服务, 有助于实现生产率跃升、产业链优化和竞争力重塑。
数据二次价值释放过程对企业数据挖掘和洞察能力提出更高要求。无论大势判断还是业务执行,数据都有利于消除人的认知误区和主观偏见。一方面,在对大量数据进行管理和分析的基础上,决策者需要结合对业务目标的深刻理解,运用数据呈现出的关键指标与信息深入评估发展态势,做出更具智慧的决策。另一方面,二次价值可以直接回馈一次价值,企业需要充分利用数据分析结果,寻找关键的函数、标签、画像,实现自动化的预测、分析和决策,使业务运转更智能。
3. 三次价值:数据流通对外赋能
数据要素投入生产的三次价值释放让数据流通到更需要的地方,让不同来源的优质数据在新的业务需求和场景中汇聚融合,实现双赢、多赢的价值利用。随着政府和企业数字化转型的不断深入和智能化水 平的不断攀升,各组织对于数据的渴求已经超越了自身产生的数据。政府希望各级各部门数据实现对接共享,提升政务管理和公共服务水 平;企业希望通过其他企业或政府部门的数据来丰富自身对于数据的 挖掘,因此产生了数据流通的需求。对数据提供方来说,数据流通后并不减损自身持有数据的价值,相反还有可能将这部分价值变现,带来新的业务增长点,实现双赢乃至多赢的局面。
例如,通过来自市场监督管理部门的企业注册数据、来自法院的企业判决数据、来自银行的信用数据等精准描绘企业画像,或通过来自电网的用电数据、来自电商平台的消费数据、来自物流公司的物流数据等提供宏观经济的观察指标,社会经济活动中的各类事项均可被多方来源的数据赋能,其中涉及的数据流通可能产生极大的市场规模, 使数据要素价值在多元场景中持续释放,从而将数据要素的业务价值、经济价值和社会价值显性化,为数据要素市场的发展提供强劲动力。
在数据的三次价值释放过程中,数据要素市场及其技术路径成为行业关注的焦点。在保障数据安全的前提下,各组织打通数据壁垒、优化数据配置的需求日益凸显,通过数据要素市场引入外部数据的需求尤为迫切。保障提供方数据安全、防止数据价值稀释的数据流通技术蓬勃发展,以隐私计算为代表的数据流通技术提供了“数据可用不可见”“数据可控可计量”的流通新范式,为需求方企业安全地获取和分析外部获取的数据提供了技术可能。数据安全有序流通的技术成为数据要素三次价值释放的关键,也为数据要素市场建设提供了重要的技术路径。
从数据应用的业务需求看,业界对数据的关注焦点经历了从“对内”到“对外”的变化。“十三五”时期提出“数据是钻石矿”,更多强调组织内部应用数据发挥价值;“十四五”时期提出“数据要素市场化配置”,增添了从组织对外提供和从外部获取数据的视角,进一步凸显出数据在流通中实现的价值增值。部分企业受限于资金、人才、技术水平不足,尚不具备业务数据电子化或分析决策智能化的能力,即使引入外部数据也无法有效利用,无法形成回馈业务发展的价值回路。因此,数据支撑业务贯通和促进数智决策的价值仍需要持续释放,数据流通对外赋能的价值也应在前两次价值的基础上逐步发挥。
本文摘编自中国信通院发布的《数据要素白皮书(2022年)》,全文下载:
数据要素白皮书(2022年)
更多标准、白皮书、报告等高质量纯净资料下载,在文末扫码关注官方微信公众号“idtzed”,进入公众号菜单“治库”,或按自动回复发送引号内关键词。
4 评论