Zed案例 | 云平台引领创新:建⾏数据技术的探索与运⽤

以新技术驱动金融场景的创新,建行已经逐步从技术的使用者变为技术的创造者。⼤数据技术的发展,带来了存储、计算成本的降低和⽤⼾体验的提升,推动了建⾏数字化的进程。

建⾏数据技术的探索与运⽤
出处:Kyligence

以新技术驱动金融场景的创新,建行已经逐步从技术的使用者变为技术的创造者。⼤数据技术的发展,带来了存储、计算成本的降低和⽤⼾体验的提升,推动了建⾏数字化的进程。建⾏技术框架分成三层,技术底座、技术平台和技术组件。

1、技术底座

1.1 为什么提出“技术底座”概念

应⽤越来越复杂,如⼀个⼤数据应⽤会涉及⼤数据、⼈⼯智能等多种技术,原来技术平台⼤多是按照技术领域建设,通过技术底座能够让各技术平台实现应⽤构建标准的统⼀。

1.2 技术底座的本质是更贴近应⽤的技术和服务

技术底座是云计算架构的北向迁移,本质上更贴近应⽤的技术服务。云计算是基础设施的范畴,提供计算、存储、⽹络资源,⽬的是资源共享,从⽽达到降低资源成本、提升使⽤效率的⽬的。技术底座是云计算架构下的 aPaaS 技术服务,实现技术快速落地以及规模化应⽤。

1.3 技术底座的构成

技术底座以建⾏⾦融科技的战略 “TOP+” 中规划的 ABCDMIX 技术为核⼼,包括⼤数据、⼈⼯智能、区块链等,在这些技术之上⽀撑全⾏应⽤的开发和运⾏。

  • 对研发的⽀持:提供了⾯向研发的⼯具、框架、⼯艺以及形成的开发服务、测试服务;
  • 对⽣产的⽀持:⾯向⽣产运⾏提供的监控、处置以及运维服务、运营服务,⽀撑应⽤的稳定运⾏。

如果给技术底座⼀个定义,就是⾯向开发和运⾏⼈员,提供开发框架、技术引擎、程序接⼝、⼯具组件、规范⼯艺等⼀系列资源的集合。

2、技术平台

2.1 平台概况

建⾏⼀直以平台化的思路进⾏信息系统建设,平台化能够让各类技术更好的融合,更便捷的⽀撑应⽤建设。技术平台通过对技术能⼒封装和整合,降低技术应⽤⻔槛,为应⽤提供⾼效研发和稳定运⾏的⽀持。建⾏⽬前有七个技术类平台,内部称为“北⽃七星”。随着技术的发展,还会有更多平台出现,重点介绍其中三个:

  • ⼤数据平台(天璇):提供数据采集、处理、分析和挖掘,数据管理和可视化分析等⼤数据能⼒;
  • ⼈⼯智能平台(天权):提供 AI 建模、标注、以及 AI 算⼒的供给;
  • 区块链平台(天枢):提供可信数据共享,信息存证及交易溯源等能⼒。

在平台的⽀撑下建⾏实现了许多应⽤,包含⾦融类应⽤,例如⻛控、营销;⽣态类应⽤,如住房租赁、养⽼扶贫;对外输出类应⽤,服务战略客⼾。

2.2 ⼤数据云平台

⼤数据云平台从 2018 年开始建设,参考了互联⽹的⼤数据技术,并结合建⾏近 20 年的数据经验打造的⾦融级⼤数据平台。实现九⼤能⼒,包括数据采集、集成、存储计算、数据管理、数据开发、数据分析挖掘、数据服务、数据安全运营、资源调度,基本覆盖数据价值全链路的开发和运⾏。在这些能⼒之上,平台提供了三⼤类服务:

  • 资源服务:提供实时计算,批量计算、图计算等环境和资源,这些服务都是云化版本,应⽤可以快速搭建⾃⼰所需的基础环境;
  • ⼯具服务:提供了数据采集、加⼯、分析等⼯具,应⽤可以快速进⾏数据处理;
  • 数据服务:⼤数据平台提供了在线的元数据管理、数据⽬录、数据服务总线等功能,⽅便对外的数据服务。

3、技术组件创新

3.1 存算分离的⼤数据引擎

存储计算分离技术不是新概念,但是⽤好不容易。建⾏⼤数据平台从建设之初就把存储计算分离作为重要的⽬标。技术上已经实现多套 MPP 集群将数据存放在统⼀的对象存储上。为了保证存储⾼效读写,在存储层增加了⾼速缓存,⼀⽅⾯实现底层不同存储的协议适配,另⼀⽅⾯实现缓存加速。

对于不同的数据计算引擎,⽆论⽤ Spark 做海量分析,还是⽤ MPP 进⾏数仓加⼯,或者⽤ HAWQ 作湖仓⼀体的处理,都能⽅便的获取底层数据,并实现数据的共享。为了让不同计算引擎间的数据能够相互识别,进⾏了引擎间的元数据打通,⽐如让 MPP 获取 Hive 表存放的位置和表结构,所有引擎实现数据互访,将不同引擎的优势形成合
⼒。

到⽬前为⽌,建⾏已经上线 10000+ 节点的云化 MPP 引擎,实现 60 多个集群共享同⼀个存储,共享的数据量 10PB 。这种云化的存算分离的 MPP 数据库在资源供给、故障恢复、节约存储、计算资源⽅⾯,⽐传统的 GreenPlum 数据库有很⼤优势。

平台还提供了基于 MPP on Hadoop 技术的湖仓⼀体引擎,可以直接读取数据湖的 HDFS ⽂件,并以 MPP 的⽅式进⾏加⼯,更加符合原来开发⼈员的习惯。

3.2 基于 Kyligence 的云化数据服务

Kyligence 在建⾏做了深度应⽤,包括:

  • Kyligence 在⼤数据云平台做了云化适配,实现租⼾隔离、弹性伸缩、⾃动化部署等,并和其他技术组件,如数据管理、数据服务等进⾏了⾼效集成和对接;
  • Kyligence 与 ClickHouse 实现了融合验证,提供统⼀的 OLAP 能⼒,在 Kyligence ⾼性能聚合分析能⼒之外,利⽤ Clickhouse 扩展了明细分析、Ad-Hoc 查询等场景的性能;
  • Kyligence 的新特性,⽐如 AI 预计算、智能路由、读写分离等在建⾏做了深度验证,取得了不错的效果。

⽬前 Kyligence 集群从申请到交付只需要 2 个⼩时,存储和访问节点数量有 900+,Cube 处理的数据量有 1PB,固定查询能够实现亚秒级响应,BI 分析可以做到秒级返回,已经⽀持 60 多个应⽤,每天通过 Kylin 接⼊的查询量有15 万笔。

3.3 双态数据研发模式

建⾏⼤数据平台⽀持稳态研发和敏态研发两种模式。稳态研发的开发和⽣产资源物理隔离,测试数据需要从⽣产 同步,开发上线有严格的管控流程,适合传统的数据加⼯场景。敏态模式则更适合数据分析和 AI 建模类应⽤,在这种模式下,开发和⽣产资源在统⼀的基础设施上,通过云化技术划分为测试环境和⽣产环境(内部称为 Offline 和 Online)。

数据⽅⾯,在统⼀的数据基础上,提供了测试数据视图和⽣产数据视图;应⽤⽅⾯,提供了在线开发和部署,提 升了数据研发效率。

敏态研发模式在⾦融业不仅是技术上的突破,更是研发流程上的创新,从这⼀点能看出建⾏在新技术、新模式的探索⽅⾯下了很⼤决⼼。⽬前敏态研发模式已经在全部分⾏和集团⼦公司上线推⼴。

3.4 数据隐私计算

建⾏数据隐私组件采⽤“集中管理 + 分布计算”的架构,集中的管理节点负责数据管理、任务调度等核⼼功能,真正的计算在各计算节点上完成,这种架构兼顾了数据安全性和易⽤性。数据隐私计算使⽤了区块链技术对计算过程进⾏存证,能够还原整个计算过程,可以对其进⾏监管审计。

建⾏内外部都有很多数据隐私计算的场景应⽤。在集团内部,总⾏和建信基⾦进⾏联合建模来分析不同客群对营销活动的响应度。通过对每⼀类客群进⾏联合建模和单边建模,对⽐两者数据,联合建模下的 AUC 平均提升10.4%,KS 最⾼提升 200%。最后,把模型评分前 15%的客群做实际营销,各客群营销效果最⾼提升 30 多倍,定位准确率最⾼提升 50%,⽬标客群覆盖率达到 90%。在外部,建⾏和上海⼤数据中⼼合作,实现遗产关怀的场景,以及和银联、多个省政府合作,在⼩微信贷、裕农扶贫等⽅⾯开拓创新的场景。

3.5 数据智能化技术

在数据智能化应⽤⽅⾯,建⾏在计算机视觉、⾃然语⾔处理、知识图谱、智能推荐等技术领域都有创新,⽐如和国家卫星资源中⼼以及各地的⼟地产权部⻔合作,通过卫星遥感图象做地权确认和农作物⻓势分析,在产量估算⽅⾯精确度能够达到 90%。再如智能审单领域,⾃研了 NLP 和 ICR 算法,把图象特征处理和⽂本特征处理放在⼀个模型中,使单据识别的准确度和速度都提升了⼀个台阶。通过智能化技术的运⽤,实现了更多数据价值的挖掘和业务创新。

3.6 ⼤数据技术信创国产化

建⾏在⼤数据技术信创国产化⽅⾯在加速推进,今年会完成⼤数据云平台的信创国产化⼯作。明年的重点是⼤数据⼯具的国产化,利⽤信创的契机,逐渐把国外软件替换为⾃主可控的软件。之后规划形成⾦融业领先的⼤数据信创能⼒,通过不断完善技术,加速⾦融业信创的进程。

3.7 前沿技术的预研

为了持续保持技术领先,建⾏在很多前沿技术上提前布局,与众多企业、⾼校、研究机构进⾏产学研合作。⽐如成⽴⾼性能⼤数据处理实验室,研究基于 Hadoop 的事务性处理;成⽴量⼦⾦融实验室,在抗量⼦加密和⾦融定价⽅⾯进⾏研究,今年已经推出国内⾸批量⼦⾦融算法,包括“量⼦期权定价”与“量⼦⻛险价值计量”,是国内⾦融领域对量⼦计算加速能⼒的⾸次尝试;与清华⼤学成⽴“声纹+”联合技术创新中⼼,研究声纹识别技术在⾦融领域的应⽤。

总的来说,建⾏在数据技术领域的研究投⼊很⼤,特别是建信⾦科成⽴后,逐步“从技术的使⽤者变为技术的创造者”,⽬标是打造⾃主领先的⾦融科技,⽤新技术驱动⾦融场景的创新。同时希望以新技术带动研发流程、⽤数模 式的升级,让数据价值更快释放。期待与更多的业界领先公司合作,共同创造多元化场景,共享⾦融科技的成果。

本文摘编自Kyligence发布的《金融行业指标中台精选案例》,全文下载:

更多标准、白皮书、报告等高质量纯净资料下载,在文末扫码关注官方微信公众号“idtzed”,进入公众号菜单“治库”,或按自动回复发送引号内关键词。

一条评论