Zed案例 | 证券公司基于 DataOps 体系的数据治理新范式

为充分发挥数据的资产价值,对证券期货行业的大数据治理体系搭建,包括构建证券期货行业数据模型、搭建公共数据平台、建设数据服务体系以及构建组织保障体系等方面。

证券公司基于 DataOps 体系的数据治理新范式
出处:杭州玳数科技有限公司(简称袋鼠云)

随着证券行业发展,2016 年证监会《证券公司全面风险管理规范》提出建立健全数据治理和质量控制机制。2018 年证监会发布《证券数据治理操作指引(征求意见稿)》及《证券期货业数据分类分级指引》,同年,国家工信部发布 DCMM 数据管理能力成熟度评估模型,提炼组织数据管理的八大过程域,将数据能力成熟度划分 5 个发展等级,帮助进行评价。2022 年,《证券期货业科技发展“十四五”规划》《金融标准化“十四五”发展规划》的相继发布,以夯实证券期货业通用基础标准体系,促进证券期货业数字化转型与标准化的深度融合,为证券期货业高质量发展提供更多助力。标准化对数字化转型的引领和推动作用日益显现。

但许多证券机构在推进数据治理的过程中,仍然存在数据治理驱动力不足、缺少数据治理体系规划、数据认责体系不完善、数据质量难提升等诸多问题,数据治理亟须快速提升。为充分发挥数据的资产价值,通过梳理证券期货行业监管大数据治理的需求与特殊性,对证券期货行业的大数据治理体系搭建,包括构建证券期货行业数据模型、搭建公共数据平台、建设数据服务体系以及构建组织保障体系等方面。

一、解决方案

1. 基于 DataOps 体系数据治理新范式

DataOps 从环境管理开始,每个环境下都可以支持任务的编排、监控和自动化测试。每次进行跨环境的发布时,记录每次发布代码的版本,进行后期排查问题。在发布上线至生产后,袋鼠云的数据中台产品可将券商用户上述各个环节串联起来,券商用户从开发阶段可以一键发布至测试环境,经测试环境验证后,观察任务实例、数据产出的运行情况,运行无误后可发布至生产环境。如下图所示,资讯、交易、风控等主题的数据从左侧的源系统流入,中间环节是各类数据处理的工具,例如数据仓库或数据集市、AI 分析等,数据经过清洗、加工、汇总统计、数据治理等过程,最终通过 BI、定制化报表、API 等工具服务于投研、营销、经营分析等各类需求方。

图 1 基于 DataOps 数据治理架构图

2. 基于 SDOM 模型高效数仓搭建与治理

通过梳理市场证券、基金、期货、债券、回购等主要交易行为,形成行业交易模式;通过逆向梳理即将上线和线上化的信息披露项目,形成行业信息披露模式。根据证券行业相关法律法规、业务规则、制度及流程等,提取市场全业务流程和数据共性,形成具有通用性、稳定性和可扩展性的围绕客户、公司、监管、产品、交易等数据模型。

图 2 SDOM 数据标准模型

3. 基于 OLAP 的资讯数据校验

资讯数据作为券商主要数据源之一,应用广泛,涉及投资交易、资产管理、经纪与财富管理、资产托管等各个领域,往往会将资讯数据应用到资管投研一体化、投资交易、资产托管、融资融券等系统。同时由于业务的需求,往往需要从市面上采购多种异构数据源接口,例如 Wind、聚源、财联、通联、港澳资讯等,有的券商甚至采购多达二三十种的资讯数据。这些资讯面临以下问题:一是数据质量参差不齐,数据问题难以及时发现,频繁收到业务方的投诉:二是数据质量管理成本大,规则开发难度高:三是问题排查链路长,难以快速定位数据问题,缺乏全局统计视角:四是质量问题没有经验沉淀,类似问题频繁发生。对于各种资讯数据,进行跨源比对,在源头进行落标、治标的工作。通过事前规则配置、事中规则校验、事后分析报告的流程化方式,对数据的完整性、准确性、规范性、唯一性、一致性等方面进行多维度评估,保障券商数据质量。

图 3 OLAP 资讯数据校验

4. 基于数据模型的标签数据治理

金融科技的快速发展,使得证券行业的载体与社交媒体、电子商务的融合越来越紧密,券商借助数据战略打破数据边界,来构建更为全面的企业营销全景视图。面对客户活动开发周期长,运营不精准,营销效果缺乏及时追踪、运行反馈不及时,通过袋鼠云客户数据洞察平台,业务人员可透明化地使用标签,将数据黑盒变成业务语言的白盒,辅助业务决策,驱动业务增长。使用场景包括网络金融部的营销运营、异常交易监控及用户生命周期管理等。

图 4 证券标签数据治理

5. 基于 OneService 理念打造数据服务市场

数据平台将投研、资讯、投顾数据以服务化、接口化的方式提供数据使用方,屏蔽底层数据存储、计算细节,简化和加强数据的使用。可视化生成与注册数据服务管理,快速构建数据共享服务,通过多种手段标准化管控服务,可完成从数据接口创建、发布、申请/审批、调用的全生命周期管控,形成数据市场和数据服务管理平台,提高数据开发与共享效率。

图 5 证券数据服务市场

二、交付内容

1. 数据平台建设

数据平台包含数据实时开发平台和数据应用平台,实现数据的“管、 治、用”。

一是构建大数据实时开发平台,覆盖从实时数据采集到实时数据开发全链路流程,并提供运维监控曲线和日志功能。具体功能如下:

1) 实时采集,具备基于日志的实时数据采集和基于间隔轮询的实时数据采集方式,具有通过采集数据库的变化并进行还原的方式,将数据库静态的数据插入、更新、删除的动作转换为消息中间件的动态数据变化,或直接写入到 Hive进行数据落库。
2) 任务管理,平台应支持对实时同步任务的统一管理,支持 FlinkSQL 和 Flink API 作业开发支持,支持环境参数配置,历史版本管理等内容。
3) 资源管理,平台支持对实时开发过程中所使用的资源进行统一管理,支持用户上传本地 jar 资源,注册自定义函数等操作,并可实现对资源进行多版本管理。
4) 函数管理,平台集成开发过程中的常用函数,同时平台支持通过本地资源创建 UDF、UDAF、UDTF 函数,创建完成后用户可通过函数名称使用对应函数,也可以通过修改对应的资源文件,修改完成后重新提交任务即可实现在不修改代码的情况下实现函数更新。

二是构建数据应用平台,这里主要为数据服务平台,这是数据中台中最顶层的组成部分,是数据能力对外提供的接口层,通过数据服务平台赋能前端应用,是数据能力的出口。通过数据服务平台的建设,对数据能力进行抽象封装,系统实现以下目标:

1) 封装数据能力,对外提供 RESTful 接口。应用通过调用 RESTful 服务即可获取数据内容,应用程序无需了解表结构、分库分表等细节信息。
2) 横向扩展能力支持高并发和数据增长。通过增加存储节点支持数据量的增长,通过增加服务处理节点支持高并发。
3) 配置化创建数据服务。开发人员可以基于底层的数据库,在管理界面配置 SQL 数据查询语句、参数、数据库连接、权限等内容,即可创建发布一个新的数据服务

图 6 证券数据服务平台

数据服务平台的建设,将带来以下效益:

1) 减少数据复制,降低成本。应用系统无需拷贝数据内容,通过服务调用获取数据,从而降低数据存储成本,特别是包含历史数据查询的应用场景。同时,降低备份、安全等管理成本。
2) 提升应用开发效率。应用程序无需考虑大数据的分库分表设计、无需了解底层的数据存储细节,通过服务调用即可获得返回结果。大大避免数据不一致的冲突。由于同样数据无需管理多个副本,在数据发生变更时,无需复制更新,减少数据不一致的冲突。

2. 数据应用实施

完成面向大数据平台的数据血缘关系梳理。重构大数据平台合约、账户资金、持仓、特殊证券场景数据模型,并进行落标实施。完成两融客户资产负债实时统计推送、财务凭证流水实时统计推送、原生 Flink 作业 SQL 数仓化改造。

三、建设成果

1. 海量业务数据汇聚,构建金融级数据平台

大数据引擎+流批一体数据采集满足证券公司业务系统的数据汇聚,对线上和线下业务数据进行采集汇聚,提供集中的大数据技术和存储能力,保障实时多样化数据采集、数据存储、数据计算;提供强大的大数据平台基础,满足现在和未来的数据采集、存储和技术需求。

2. 统一数据开发,降低大数据开发门槛

实时开发平台满足证券公司科技部门能统一在一个平台上进行集中开发和对内外各种租户数据加工,提供统一一体化数据开发平台,满足大数据、SQL、图形化各种数据开发加工要求,降低开发工具的复杂度、数据开发成本,快速构建数据仓库。

3. 满足监管报送,实现一体化数据服务

数据服务平台,提供对内的统一数据服务和数据交换,满足金融第三方机构的监管报送要求,证券公司提供标准化的数据报送服务出口,对外能满足第三方监管报送的数据服务方式和数据使用要求。

4. 数据分析场景服务

根据某证券公司应用需求,袋鼠云为其设计了以下三种数据分析场景服务:一是客户办理的两融业务进行信用账户资产负债实时计算:

1) 实时获取柜台行情数据,并按照分钟级进行行情聚合。
2) 实时获取客户的股票持仓数据,并将客户持仓数据按照状态进行管理并动态更新,同时按照客户持仓股票代码和分钟级行情进行关联实时计算客户总持仓资产。
3) 实时获取两融客户合约流数据,根据合约类型分类计算融资负债、融券负债。按照客户融券合约股票代码和分钟级股票行情进行关联,实时动态计算并更新客户融券负债。
4) 实时获取客户资金转入数据,并更新客户的总资金资产和可用资金。
5) 实时获取客户的融券卖出获得资金以及资金使用情况并动态更新客户资产负债表。并计算持仓集中度、分组持仓市值、高风险证券持仓市值、跌破下限价证券持仓市值等指标
6) 通过多流关联的方式整合持仓、合约、资金转入、融券交易的数据最终输出客户资产负债表。
7) 实时获取客户两融授信申请、客户征信申请、客户征信审批等数据,实时监控客户的授信申请额度、授信状态、征信审批状态、审批额度等变化,推送到下游系统。

二是实时获取财务凭证流水:关联辅助核算维表(维表也存在日间变动的可能),根据财务指标计算规则,按照部门、科目维度计算财务指标日间变动数据并推送到下游。

三是原生 FLink 服务缺少监控,为增强运维监控工作,拟将以下数据迁移到实时平台:

1) 当日股基交易量、当日理财交易量
2) 当日开户数和开户流水
3) 可转债提前赎回提醒
4) 中证易签私募回访:生成回访任务提醒、回访任务成功提醒

本文摘编自杭州玳数科技有限公司(简称袋鼠云)发布的《数据治理行业实践白皮书(2023版)》,全文下载:

更多标准、白皮书、报告等高质量纯净资料下载,在文末扫码关注官方微信公众号“idtzed”,进入公众号菜单“治库”,或按自动回复发送引号内关键词。