当前,各省市依据“应上尽上”的原则积极推进政府各部门及相应业务系统上云。政务云平台作为数字政府建设的关键基础设施,是实现政府数据资源集中、共享和应用的通道,是推进跨部门、跨地域、跨层级数据流通和业务协同的关键引擎。
然而,数字经济时代,政务云平台数据的指数级增长与算力增速不匹配问题日益突出,严重制约数字政府发展。构建以数据为核心,以“云网边端”为支撑的分布式政务数据云基础设施,是打破算力藩篱,解决算力资源利用率低、数据隐私安全等问题的有效手段。
一、政务数据云理念
数据云是支撑数据作为生产要素的基础设施。数字时代,数据已经成为继劳动、资本、土地和创新之后的第 5 大生产要素,数据的重要性体现在它作为驱动创新和决策的核心资源,而这种驱动力对于企业、组织以及整个国家的可持续发展至关重要。数据的应用范围从智能制造、金融服务、医疗保健,一直延伸到社会治理等各个领域。然而,要充分发挥数据的价值,数据本身需要有个可以支撑和服务的基础设施,数据云应运而生。
数据云是基于算力基础设施建立的,面向数据资源的云服务支撑体系,是现实数据空间在物理隔离、安全可信的云上构建的新型基础设施。数据云应包括算力支撑层、由大模型和数据工程组成的数字底座层以及数据空间层,三者组成的数据云支撑了数据市场的正常运转,成为推动商业模式创新的坚实底座,同时也是发挥数据红利的基础。
图 1 数据云架构图
数据云定位是为数字中国提供基础支撑,打造可信数据流通体系。数据云在云上实现了同现实物理隔离一样可靠的数据隔离,同时解决现实世界算力不足、跨空间无法共享的问题;不同领域或行业可根据数据的属性和信任原则构建有边界的数据空间,在数据空间内可以基于隐私计算、数链融合等技术进行数据的可信计算与流通。数据云作为数据资源体系建设的基础环境,支撑数字技术创新体系建设,并提供可控可信的数字安全保障。
图 2 数据云定位
政务数据云是在数字政府领域的数据云实践,支撑公共数据流通内外双循环。作为数据流通应用较广的政务领域,政务数据可信流通面临诸多技术和管理挑战。
- 一是政府部门涉及众多业务领域,数据的类型和格式各异,且数据量巨大,数据来源也可能存在分散和碎片化的情况。
- 二是数据涉及政府及公众的敏感信息,必须保证数据的安全性和隐私保护。
- 三是政府部门之间数据的交流和共享需要建立可靠的机制,确保数据的一致性和完整性。
政务数据云为政府部门提供了一个集中化的数据存储和管理平台,能够统一管理各类数据,并采取严格的权限控制和数据加密措施,确保数据的安全和隐私。同时,政务数据云提供了标准化的数据交换接口和数据格式,使得政府部门之间的数据交流更加便捷和高效。
通过政务数据云,打造可信数据空间,支撑公共数据安全、可信、高效、自由流通。一方面,政府部门能够实现公共数据安全可信高效的共享,促进政务信息的互通共享,有序推动政策的落实和公共服务的优化,打通公共数据共享“内循环”。另一方面,政府能够更好地管理和利用公共数据,推动公共数据流通运营,发挥公共数据价值,促进社会稳定和发展, 打通公共数据授权运营“外循环”。
二、六大关键技术环节
政务数据云是基于算力基础设施 – 分布式云建立的,面向数据资源的云服务支撑体系,围绕数据数采、数算、数用和数据安全,构建的安全可信的新型数据基础设施。
图 3 政务数据云关键技术和环节
1. 分布式云
分布式云在当今信息技术领域扮演着至关重要的地位。一方面,分布式云以其高度灵活性、高可用性和强大的计算能力,满足了现代应用对资源的快速扩展和高性能计算的需求。另一方面,跨域算力调度、异构计算调度、OpsCenter 统一运管和云边协同等关键技术和环节构建了高效、稳定、可靠的分布式云环境,促进了云计算的发展,并为各行各业提供了强大的计算和数据处理能力。政务数据云在构建分布式云时,以下几个关键技术至关重要。
- 一是跨域算力调度。跨域算力调度允许云平台根据不同应用的需求,在多个数据中心和地理位置之间高效地调度计算资源,以确保最佳性能和负载均衡。
- 二是异构计算调度。在分布式云环境中,不同类型的计算节点和硬件设备相互协作,通过混合多态自动调度技术,将任务分配给最适合的资源,进一步提升了计算效率和性能。
- 三是统一运管。统一运管提供了集中式的监控和管理工具,可以实时监控云平台的状态、资源利用率和性能指标,并及时做出调整和优化,以确保整个云环境的稳定性和可靠性。
- 四是云边协同。随着边缘计算的兴起,云端和边缘设备之间的协同变得越来越重要。通过在边缘设备上执行部分计算任务,减轻云平台的负担,同时保持数据的安全性和隐私性,实现云边协同,对于提升分布式云的整体性能和效率具有重要意义。
2. 泛在物联和实时数据集成
为高质量实现数据资源有序共享和解决“数据孤岛”问题,构建完善政务大数据资源赋能体系,促进各行业数据的综合分析和应用,秉承“应收尽收、应归尽归”原则,全域全量数据采集通过汇聚覆盖全域的公共数据和社会数据,尤其是视频、物联感知等非结构化数据的汇聚,实现全量数据资源的统一管理。
泛在物联融合传统的物联网、视联网技术提供边端产品和物联感知平台,边端产品应具备边缘计算能力,提供 GB/s 数据处理、毫秒级时延、加密算法等能力,物联感知平台内置千级边端设备物模型,支持亿万设备连接、百万级并发等能力。
实时数据集成应支持多种采集策略。
- 一是支持多种采集方式及复杂的采集调度策略。不同类型的数据对外提供数据的方式不同,包含传统的数据库、接口、消息队列、物联网 设备协议等;应该根据不同的数据需求,提供不同的采集组件,并且支持多种数据抽取策略,包括全量抽取、时间戳增量抽取、标志位增量抽取等。同时,支持多种灵活的调度模式,满足不同周期的数据采集需求。
- 二是支持多种对账策略,满足复杂的数据核查需求。数据对账可以为汇聚平台提供一个全局的数据汇聚核对视图。一方面,提供数据事先对账能力。在进行数据汇聚前,对数据核对有问题的数据进行告警和数据修复,以保证数据汇聚的质量;另一方面,提供事后对账分析能力。对已汇聚的数据进行事后的资产盘点,对于对账失败 的数据,提供一键补数能力。另外,支持全部或者指定范围的数据对账,以满足不同的对账需求。
3. 加持 AI 大模型
政务数据来源广泛、种类繁多,数据量大、数据类型多样等特点,对数据治理能力提出了更高的要求,使用人工智能技术赋能到数据生命周期中的元数据管理、数据质量、数据开发、数据分析等各阶段,可以帮助政府更好地管理和利用数据,大幅降低数据处理和开发利用方面的实施难度和成本,提高数据的安全性、准确性和可靠性,促进政府决策的科学化、精细化和智能化。
智能数据治理技术是在传统的数据治理基础之上加持了 AI 大模型能力,按照治理对象种类的不同,应用场景的不同,采取不同的数据治理规则,充分挖掘结构化和非结构化数据的潜在价值,尽可能地降低数据利用的成本并控制可能产生的风险。
- 一是通过元数据采集、数据血缘分析、数据模型构建、数据质量管控等治理流程,勾勒数据标签画像,沉淀标准化的数据资产,实现数据资产的可视、可管、可用,输出数据服务、数据地图;
- 二是基于数据治理小模型和大模型,将数据元标准化、数据质量检测、数据开发等工作自动化、智能化,实现数据标准的推荐挂接、数据清洗转换规则智能推荐、数据开发治理任务的自动编码等能力,提升数据治理效率;
- 三是对数据资产进行智能化的数据比对,识别出数据资产之间潜在的关联关系,并自动化进行关系挂接,形成关系图谱,辅助开发者厘清数据资产之间的关系,深层挖掘数据价值。
4. 云原生分布式架构
现代分析应用需求不断由统计分析向预测分析转变、单领域分析向跨领域分析转变、被动分析向主动分析转变、非实时分析向实时分析转变、结构化数据分析向多元化数据分析转变,传统的“湖仓分离”的计算和存储模式,一定程度上实现了功能的互相补充,但难于满足政务在数据运营、价值挖掘、运维等方面的更高需求。
海量数据的高效存储与计算基于云原生湖仓一体技术,融合了数据仓库和数据湖两种架构优势,底层多套存储系统并存且互相数据共享,形成资源池,上层各引擎可以通过一体的封装接口访问,实现了同时支持联机交易和联机分析。
- 存算分离方面,外接云对象存储提供统一的、低成本、高可靠的数据湖存储,实现 s3 协议融合、动态冗余策略修改与纠删码修改、HDFS 原生接口对接等功能;事务支持方面,确保数据并发访问一致性、正确性, 实现一份数据在多个引擎间自由流动共享,避免数据在湖仓之间来回迁移;
- 开放数据格式方面,支持 Parquet、ORC、Avro、CSV 等标准数据格式,提供标准 API,实现与主流大数据、AI 计算框架无缝对接,达到数据快速写入目的,既构建于数据湖低成本的数据存储架构上,同时具备数据仓库的数据处理和管理能力;
- 数据探索方面,提高统一的数据管理以及对外的统一接口,支撑数据跨源分析、元数据采集管理;多引擎计算方面,融合 Spark、MR、Flink、HQL,能够统一开发,支持智能化作业调度,同时支撑数仓和湖的计算,流批一体。
5. 沉淀业务模型库
业务模型库通过对各政务部门高频需求的共性分析,形成通用的数据模型库、场景模型库、算法库,实现数据服务标准化、智能化、产品化。
- 在民生服务方面,提供政策类、补贴类等业务模型,以场景为驱动,以数据为核心,融合多源数据赋能具体业务场景,如高龄老人补贴、住房公积金提取等业务模型,为科学制定和调整政府改革与发展政策提供客观依据,实现政府管理手段的现代化和规范化,提高决策的科学性,助力政府实现数字化转型。
- 在营商环境方面,提供企业活跃度、异常企业识别等业务模型,为城市智慧化、数字化管理提供数据支撑,通过带动一批示范应用,发掘信息资源价值,构建智慧产业体系框架,形成创新带动发展的增长模式,促进城市管理与服务效率的发展。
- 在数字乡村方面,提供土壤质量监测、水质环境评价等产业模型,通过产业智能数据服务,加快一二三产融合的步伐,从而推动乡村产业高质量发展。助力传统产业整体实力、质量效益以及创新力、竞争力、抗风险能力提升。
- 在智慧园区方面,提供园区经济效益分析、园区能耗分析等业务模型,以区域地块、 产业、企业为维度,整合各部门数据,进行大数据分析、研判,协助园区管委会梳理月度、季度、年度园区经济分析报告。用于上报政府部门,减少人工统计、测算、评估的工作流程,提升决策准确度。
6. 安全可信数据流通
数据流通是数据产业链条中至关重要的环节。一方面,数据流通促进了不同数据源之 间的互联互通,推动了数据的共享与交换,为数据驱动型经济的发展提供了强大的支持。 另一方面,在数据流通的过程中,坚守数据隐私与安全是原则,通过一系列关键技术与环节,构建一个安全、可信、高效的数据流通体系,推动数据的合理共享与应用,助力数据产业 持续发展和创新,确保数据在流通过程中得到全方位的保护。
- 一是数据安全保护技术。数据安全保护技术是数据流通的基石。采用同态加密、差分隐私、数据脱敏等先进技术,保障数据在传输和存储中的安全性和隐私性,有效防止敏感信息泄露和数据被未授权访问。
- 二是数据共享和授权技术。数据共享与授权技术是数据流通不可或缺的环节。依托数字合约、访问控制和身份认证等技术手段,确保数据仅授权用户可访问,实现数据的合规共享和安全授权。
- 三是匿名化和去标识化技术。为了更好地保护数据主体的隐私,采用匿名化和去标识化技术,降低数据的关联性,以确保数据主体在数据流通过程中的匿名性和隐私安全。
- 四是数据加密和数字水印技术。一方面,通过数据加密技术,保证数据在传输中的机密性,另一方面,通过数字水印技术,追踪数据来源和确保数据的完整性,提升数据的可信度和可靠性。
- 五是区块链技术。通过有效应用区块链技术,为数据流通提供了分布式、不可篡改的数据存储和交易记录,以确保数据的完整性和可信性,促进去中心化的数据共享。
- 六是坚持遵循数据共享标准和规范。通过遵循数据共享标准和规范,确保数据流通过程中的数据互操作性和互联互通,让数据在不同系统之间高效流通。
本文摘编自浪潮云信息技术股份公司和中国信息通信研究院云计算与大数据研究所发布的《政务数据云发展与应用白皮书》。
欢迎平台、工具、应用及案例入库、发布和召募,立即订阅数字推广DigiPacks 套餐,目标是潜在客户。扫码添加老邪企业微信: