国家高度重视数字经济的发展,明确提出要加快数字化发展,推动数字经济和实体经济深度融合。数据作为数字经济的核心要素,其治理水平直接关系到数字经济的发展质量。2024年5月,国家发改委等《四部门发文深化智慧城市发展 推进城市全域数字化转型》,提到“构建动态更新、分类分级的数据资源管理体系”。
随着信息技术的快速发展,城市数字化转型已成为推动经济社会发展的重要驱动力。城市智能中枢作为数字化转型的核心组成部分,面临着海量数据的处理、管理和治理挑战。这些数据来自不同的部门和系统,结构复杂,质量参差不齐,亟需有效的数据治理手段来提升数据质量和应用效率。
近年来,国家和地方政府陆续出台了一系列关于数据治理的政策和标准,如GB/T 34960.5-2018《信息技术服务治理第5部分:数据治理规范》、GB/T 43697-2024《数据安全技术 数据分类分级规则》等。城市智能中枢建设中,数据资源的汇聚、整合与开发成为核心环节,数据源类型多样、涉及政府部门多、技术协调复杂,给数据治理带来挑战。
国家标准《城市全域数字化转型 城市智能中枢 数据治理要求》的制定,旨在应对城市数字化转型过程中面临的数据治理挑战,提升数据质量和应用效率,推动数字经济的发展。其试图解决的核心问题是,如何在城市智能中枢中实现全面、高效的数据治理,确保数据的准确性、一致性和安全性,从而提升城市管理的精细化和智能化水平。
此项国家标准提出一个适合城市智能中枢三融五跨业务特点的数据治理概念与模型,规范数据治理的总体架构及数据归集、治理、管理和安全等方面的要求。该标准为各地市城市智能中枢数据资源治理体系及相关系统平台的规划、设计与建设提供基础性技术规范,提升城市智能中枢数据资源的高效编目和管理能力,构建城市智能中枢数据治理体系。其中,要求涵盖了数据治理的范围、参考模型、实施过程、数据归集、治理、管理、安全等方面的内容。
01 数据治理的范围和参考模型
标准适用于指导城市智能中枢数据治理体系以及相关系统平台的规划、设计与建设。数据类型包括城市公共数据、政府数据、社会组织数据、企业数据、个人数据和物联网(IoT)数据。
城市智能中枢数据治理参考模型由五个部分组成:
- 数据战略域:位于模型顶层,是城市智能中枢数据治理的全局描述,包括但不限于数据愿景、组织制度、规划路线、评估与安全等方面。
- 数据价值域:位于数据战略域之下,城市智能中枢数据治理以数据价值为核心驱动力,可持续积累和沉淀城市数据资源与资产,城市数据价值体现在数据资产、数据流通、数据共享、数据应用等方面。
- 价值特性域:是数据价值域的延伸,包括但不限于数据利用、数据互操作、数据安全等特性。
- 治理技术域:位于数据价值域之下,描述实现数据价值所需的数据治理方式和技术手段。将已有分散的城市多源数据资源以物理统一或逻辑统一的形式归集至统一的数据平台并进行治理,对治理好的数据资源进行有效的管理和安全保护。
- 实施管控域:位于模型底层,表示城市智能中枢数据治理是在数据战略规划下,由组织和人员实施的一系列数据治理的过程和结果,描述所需的组织机制、治理流程、评估体系等内容。
02 数据治理实施过程
1. 统筹与规划
数据治理实施过程中的“统筹与规划”步骤具体包括以下内容:
- 数据资源识别:识别并分类城市各类数据资源,如政府数据、企业数据、个人数据、公共数据等。
- 数据分类分级:基于数据的来源、敏感度、用途对数据进行分类分级,明确数据流动的规则和边界。
- 数据需求分析:明确当前和未来的数据需求,实现数据资源能满足城市管理和服务中的业务需求。
- 规划数据资源:开展数据资源现状盘点,确定数据资源规划目标并编制数据资源规划文件。
- 数据处理活动:规划的数据处理活动可包括但不限于数据收集、数据存储、数据处理、数据交换、数据应用、数据删除和长期保存等。
2. 组织设立
- 跨部门治理团队:由技术、业务、法律、管理等多方参与,负责数据治理工作的推进与监督。
- 角色职责分配:明确各成员的角色职责,如数据管理员、数据分析师、数据安全员等。
- 数据治理委员会:负责战略层面的数据决策、政策制定和跨部门协调工作。
3. 资产梳理
- 数据资产分类:对元数据、主数据、参考数据、一般数据进行系统梳理,分类归档。
- 数据资产评估:评估数据的价值、质量、使用情况和潜在应用场景。
4. 规范建立
- 数据治理政策制定:明确数据管理的原则、目标和要求,覆盖数据生命周期的各个阶段。
- 数据标准化:制定数据格式、数据质量、数据交换、数据安全等方面的标准。
- 评估与考核制度:建立数据治理过程中的评估与考核机制。
5. 治理实施
- 数据集成与管理:整合来自不同部门和领域的数据,建立统一的数据管理平台。
- 数据质量控制:通过数据清洗、数据去重、数据校验等技术手段,保障数据的一致性、完整性、准确性、时效性、规范性、唯一性和可访问性。
- 数据安全与隐私保护:实施数据加密、访问控制、审计追踪、数据备份和恢复等技术。
6. 监控和评价
- 监督与评估:建立数据治理的监督与评估机制,定期对数据治理活动进行检查和评估。
- 绩效指标设定:制定衡量数据治理成效的关键绩效指标。
- 定期审查与报告:通过定期的数据治理审查,生成报告,评估各项工作是否按计划推进。
- 反馈与改进建议:基于评估结果,提出改进建议,推动治理框架的持续优化。
7. 改进和优化
- 差异分析:针对数据治理过程中出现的问题和偏差进行分析,找出治理执行与预期目标之间的差距。
- 改进执行:基于差异分析的结果,采取具体行动对数据治理体系进行优化和提升。
03 数据归集
数据归集方式包括以下几种:
库表归集:
- 整库迁移:提供源表与目标表结构一致的整库数据迁移功能。
- 多表迁移:提供源表与目标表结构一致的批量表数据迁移功能。
- 单表同步:提供源表与目标表结构不一致时数据迁移功能,支持表字段自由映射。
- 全量归集:提供源表数据全量覆盖到目标表的功能。
- 增量归集:提供源表数据增量迁移到目标表的功能,支持更新、追加、覆盖增量模式。
- 离线归集:提供源表数据周期性自动迁移到目标表的功能,支持分钟、小时、天、周、月等频率。
- 实时归集:支持实时感知源表数据增删改等变化,并自动同步到目标表;支持实时感知源表结构变化,并自动同步修改目标表结构。
文件归集:
- 数据源管理:支持 HDFS、FTP、SFTP等文件数据源迁移。
- 任务配置:提供组件拖动、组件连线、任务调试、设计布局等可视化任务配置功能。
- 任务调度:提供指定源端文件目录或自定义文件筛选规则功能。
- 解析与迁移:提供解析源端半结构化文件为结构化数据,并迁移到目标库表功能。
- 周期性迁移:提供源端文件周期性自动迁移功能,支持分钟、小时、天、周、月等频率。
接口归集:
- 数据源管理:支持连接多种网络数据传输协议,如 HTTP/HTTPS、 WebService等。
- 任务配置:提供归集接口的发布、配置、任务调试功能。
- 参数配置:提供源端接口传入变量请求参数功能。
- 时间频度调用:提供自定义时间频度调用源端接口归集功能。
- 主动与被动调用:提供主动调用接口归集和被动接收接口推送归集功能。
- 解析与迁移:提供解析源端接口返回数据为结构化数据,并迁移到目标库表功能。
04 数据治理
1. 数据标准
- 标准文件管理:包括标准文件维护、标准文件版本管理、标准文件引用情况等。
- 数据字典标准管理:对数据字典标准的数据元值域进行管理。
- 数据元标准:对数据的基本单元进行规范化的定义和描述的规则集合。
- 编码规则管理:用于约束和引用该数据标准的编码生成规则。
- 标准配置:提供数据标准内部标识符规则生成配置功能。
2. 数据质量
- 质量维度:包括一致性、完整性、准确性、时效性、规范性、唯一性、可访问性等。
- 数据质量管理:保障数据在其生存周期内的质量。
- 质量规则:基于数据质量维度,设置数据质量规则。
- 质量检测任务:包括质量检测对象的质量规则编排、任务调度配置、任务监控等。
- 数据质量分析:明确数据质量问题的分析要求,对关键数据质量问题的根本原因、影响范围进行分析。
- 质量问题管理:支持自动生成问题工单,工单信息包括但不限于工单产生时间、工单状态、工单处理进度、检测总数、问题总数和问题明细。
- 质量报告:支持创建数据质量报告模板,涵盖质量评分、问题字段明细、问题分布、告警分布、问题趋势、评分趋势等关键指标。
- 数据质量提升:支持数据质量校正,采用数据标准化、数据清洗、数据转换和数据整合等技术手段,对不符合质量要求的数据进行处理。
3. 主数据
- 主数据管理:支持对主数据进行增、删、改、查等操作。
- 主数据编码规则:提供主数据编码规则功能,能够对主数据进行编码规则定义。
- 主数据模型:提供主数据模型及类目管理功能,能够根据业务域及自定义分类方式对模型进行分类管理。
4. 数据融合
- 感知融合:支持对不同来源的感知数据进行关联性统计分析,进行原始数据融合。
- 特征融合:支持从不同来源的感知数据中提取有代表性的特征,这些特征融合成单一的特征矢量。
- 决策融合:支持在特征层融合之后,对提取出的特征矢量进行联合判断和处理,从而得出对观测目标的一致性结论。
5. 数据互操作
- 数据格式:应按照统一通用的数据格式,将不同来源的数据进行解析和处理。
- 目录规范:应按照统一的目录和规范,将不同来源、不同格式的数据进行统一索引。
- 数据集成:应支持不同数据空间的数据相互集成,支持同步数据资源目录,实现空间内和跨空间的数据资源快速发现与访问。
- 通信协议:应构建通信协议和协议更新机制,包括但不限于输入参数、输出结果、调用方式、传输方式和错误处理机制等关键要素。
05 管理
1. 元数据管理
- 元数据类型:描述数据元素的属性的种类,应符合GB/T 18391.2规定的要求。
- 元数据归集:获取数据元数据并对元数据进行组织、存储和管理的过程。
- 元数据查询:对已归集的元数据进行搜索和查看的过程。
- 元模型管理:元模型创建、维护、更新和应用的过程。
- 元数据存储:保障数据的一致性和完整性,当元数据进行更新时,相关的引用、依赖关系和索引不应被破坏。
- 数据血缘:支持手工管理元数据血缘关系,包括新增、修改、删除等操作。
2. 目录管理
- 目录编制:提供定义层级目录功能,支持导入导出目录功能,支持调整目录展示顺序功能。
- 目录资源挂接:支持对不同类型数据进行资产编目,支持基于归集元数据实现资产盘点,自动识别资产、补充资产信息并进行编目。
- 目录属性:资源目录属性主要包括基本属性、业务要素、管理要素和价值要素。
- 目录发布:支持将已编目好的资源发布至资产门户或共享系统,对外提供目录信息服务。
- 目录更新:支持通过多级审批方式,对数据资源名称、数据来源、数据资源摘要、数据资源更新周期、数据规模、数据存储周期、共享范围、服务种类服务提供方式、服务系统名称、服务系统地址等相关属性及详细数据项列表等信息进行更新。
3. 资源管理
- 资源注册:提供注册资源所属业务系统功能,支持注册不同数据类型资源功能。
- 数据预览:提供配置数据脱敏规则功能,预览数据为脱敏后数据。
- 版本管理:提供查询资源历史变更版本列表功能,并支持查看单个历史版本详情。
4. 任务管理
- 基本要求:支持对输入的多源异构数据进行全量或增量的整合加工,处理过程应包括数据提取、清洗、转换、分发、归档、处置等。
- 作业管理:提供以组件化方式开发基本的数据加工和计算任务功能,支持自定义数据处理脚本任务功能。
- 处理监控:提供查看任务列表功能,提供任务实例的基本运维操作功能。
- 配置库管理:存储处理任务、脚本元数据的数据库,应支持配置库构建、连接测试等。
06 安全
- 数据加密保护:依据国家信息系统密码应用要求,从物理和环境安全、网络和通信安全、设备和计算安全、应用和数据安全四个层面明确等级保护要求中不同级别的密钥管理和安全管理要求。
- 敏感数据识别:支持采用人工方式进行敏感数据的梳理和识别,支持基于用户指定或预定义的敏感数据及特征,通过自动化程序主动识别敏感数据。支持敏感数据识别策略和敏感数据脱敏策略,并进行管理和维护。
- 数据脱敏:支持敏感数据的脱敏规则,包括但不限于数据混淆、替换、映射、遮蔽、加密和解密、随机、可逆脱敏算法等。支持用户自定义配置脱敏策略。
- 数据分类分级:应按照GB/T 43697-2024对数据进行分类分级并根据不同级别实施相应的数据安全防护措施。
- 数据溯源:应建立数据溯源机制,如通过审计日志等方式在采集、审核校验、更正等流程中进行唯一性标识。应支持日志自动采集,从系统和应用程序中收集日志信息,支持采用区块链等技术,实现日志数据的不可篡改。
国家标准《智慧城市 城市智能中枢 数据治理要求》(现标准名称变更为《城市全域数字化转型 城市智能中枢 数据治理要求》)(计划代号:20240864-T-469)已形成标准征求意见稿。全国信标委现将该国家标准的征求意见稿公开征求意见,请于2025年2月28日前将意见和建议以电子版形式反馈至以下联系人。
联系人:刘文
电话:010-64102869
E-mail:liuwen@cesi.cn
下载附件:
- 《城市全域数字化转型 城市智能中枢 数据治理要求》征求意见稿
- 《城市全域数字化转型 城市智能中枢 数据治理要求》(征求意见稿)编制说明
- 《城市全域数字化转型 城市智能中枢 数据治理要求》(征求意见稿)意见汇总处理表
来源:全国信标委,本篇针对标准和编制说明全文由生成式 AI 做出的核心摘要和解答,仅作为参考,请以原文为准。