看图数据库在金融业落地 用“三大图谱”扎根风控合规

图数据库作为深入挖掘数据信息的有力工具,以其独特的数据模型和高效的查询能力,为金融行业提供了一种全新的数据管理和分析解决方案,在金融业开展广泛应用。

看图数据库在金融业落地 用“三大图谱”扎根风控合规
出处:北京前沿金融监管科技研究院

随着企业数字化转型的深入,社交、物联网、金融、电商等领域快速发展,因此产生和收集的数据量呈现指数级的增长,传统的关系型数据库在处理复杂关系的数据方面遇到瓶颈,其对数据的管理和使用不能完全满足市场需求。企业对于数据库的需求已经从一般的数据管理演变为从复杂的数据关系中最大化提取数据价值。

在现代金融体系中,每时每刻都运行产生大量的金融数据,容量庞大、时刻变化和来源多样的金融数据,为其价值挖掘带来极大挑战。传统关系型数据库对数据模式和数据规范化有着严格的要求,但对数据关系的查询产生了极大束缚,难以满足海量数据查询及关系挖掘的业务应用场景。

传统的对少量、单维度、静态化数据的分析已经难以满足金融业数字化转型需求,多样的风险形式对风控能力提出了更高要求,越来越多的场景需要借助智能化技术。图数据库作为深入挖掘数据信息的有力工具,开始受到全行业的关注,它以其独特的数据模型和高效的查询能力,为金融行业提供了一种全新的数据管理和分析解决方案,并在金融业开展广泛应用。

一、图数据库概念解析

图数据库是指以图表示、存储和查询数据的一类数据库。此处的图不是指图片,而是以图论为理论基础,使用图模型,将关联数据的实体作为顶点(vertex)存储,关系作为边(edge)存储,解决了数据复杂关系带来的严重随机访问问题。在分类上,图数据库可归类为 NoSQL 数据库。

在图数据库中,数据间的关系和数据本身同样重要,它们被作为数据的一部分存储起来。这样的架构使图数据库能够快速响应复杂关联查询,因为实体间的关系已经提前存储到了数据库中。图数据库可以直观地可视化关系,是存储、查询、分析高度互联数据的最优办法。

在基于图的数据模型中,最常见的两种方法是标签属性图(LPG)和资源描述框架(RDF)图两种。

标签属性图模型数据对象被表示成节点(拥有一个或多个标签)、关系和属性,由顶点、边及其属性构成。图数据库通常是指基于标准属性图模型的图数据库。顶点和边都可以带有属性,节点可以通过“标签(Label) ” 进行分组。表示关系的边总是从一个开始点指向一个结束点,而且边是一定是有方向的,这使得图成为了有向图。关系上的属性可以为节点的关系提供额外的元数据和语义。

需要指出的是,最早采用标签属性图模式来设计实现图数据库的是 Neo4j,但是标签这种模式并不是数据库领域的国际标准。标签可以看做是一种特殊的数据库索引,但是它的通用性和标准化相比于数据库领域标准化的 schema(模式)会弱很多。这个问题又涉及到 NoSQL vs. SQL 中的无模式(schema-free)与 模式化(schematic)之间的差异。Neo4j 是典型的无模式图数据库。在即将面世的图查询语言(GQL)国际标准中,采用的是支持模式的方式——其优点在于对于图数据的管理更加清晰。‘

属性图模型的优点在于它具有优秀的查询性能和灵活性,可以通过局部和全局索引快速检索信息。此外,它还支持多种查询语言和图形算法,使用户可以更轻松地进行复杂的分析和查询。

RDF 主要针对文本语义的场景,用三元组来表达,因此基于RDF 图模型的图数据库又称三元组数据库。RDF 模型在顶点和边上没有属性,只有一个资源描述符,使用 Web 标识符(URI)来标识事物,并通过属性和属性值来描述资源,这是 RDF 与属性图模型间最根本的区别。在 RDF 中每增加一条信息都要用一个单独的节点表示。比如,在图中给表示人的节点添加姓名。在属性图中只需要在节点添加属性即可,而在RDF 中必须添加一个名字的单独加节点,并用 hasName 与原始节点相连。

RDF 模型的优点在于它具有灵活性和可扩展性,可以方便地添加新实体和关系,但是,RDF 模型在处理大规模数据时可能会出现性能问题,因为它需要进行复杂的图形遍历来检索信息。

二、图数据库与金融场景的融合应用

图数据库技术在海量数据多对多复杂实体关系场景中有着天然优势。图数据库技术可以从多源异构数据中分析出实体和关系,通过使用知识关联、知识检索和知识推理等方法,从中挖掘出有价值的知识信息,支持金融业务决策。图数据库技术与金融场景主要在如下几个方面进行深度融合。

1. 金融风险管理

互联网金融的兴起下,金融业务拓宽服务能力显著提升,但与此同时产生了大量的非结构化数据,数据量的剧增和关系的复杂多变性给金融风控带来了新的挑战。

传统关系型数据库在海量非结构化数据存储和复杂关系挖掘方面具有天然的缺陷。相比之下,图数据库能够融合来自金融机构销售、审批、风控、电销、交易、催收等系统的多源数据以及第三方数据,打破数据孤岛,构建全方位用户关联网络。

图数据库通过利用多维交叉关联信息深度刻画申请和交易行为,可以有效识别多种复杂的、规模化、隐蔽性的欺诈网络和洗钱网络;结合机器学习、聚类分析、连通图挖掘、风险传播等相关算法,可以实时计算用户的风险评分,在风险行为发生前预先识别,有效帮助金融机构提升效率、节省人工时间、控制成本、降低风险。应用图数据库的金融风控应用场景例如个人信贷业务,失联客户管理,金融反欺诈,洗钱路径追踪,企业图谱,个人 / 企业征信等。

2. 金融欺诈检测

洗钱手段是复杂多样的,且洗钱及相关上游犯罪呈上升趋势,在金融机构合规管理之中,它是一项非常重要的内容,属于典型的监管科技应用。

为了逃避侦查,洗钱分子在进行交易时,往往会制造出错综复杂的关系, 使资金网路内节点众多交错,所以图技术在反洗钱(AML)方面有广泛的应用,通过天然的图的复杂网络分析能力和超强算力能力,能够更准确、更高效地识别洗钱交易。以下是一些图数据库在反洗钱领域中的应用方面:

图数据库可以用于建立和维护不同实体(如个人、组织、账户等) 之间的复杂关系网络。通过这些关系网络,可以检测到洗钱行为中隐藏的模式和连接,如通过虚假账户进行资金转移、多个账户之间的交易模式等。

图数据库可以整合和分析来自多个数据源的信息,如交易记录、客户资料、开数据等,以绘制客户和账户的全面画像。通过分析这些数据的关系和属性,可以进行风险评估并识别潜在的洗钱风险。

图数据库可以监测和分析大规模的交易数据,以便及时识别异常模式和行为。例如,如果一个账户与大量与洗钱有关的实体有关联, 或者账户的交易模式与同类账户明显不同,就可能存在洗钱风险。图数据库可以帮助发现这些异常模式,并提供警报和推荐的行动。

图数据库的优势之一是能够处理实时数据,并快速更新和查询图结构。这对于反洗钱来说非常重要,因为洗钱行为可能是动态变化的。图数据库可以通过实时分析来及时发现和应对新出现的洗钱模式和策略。

图数据库可以通过可视化工具将复杂的关系网络呈现给分析人员,帮助他们更好地理解和发现洗钱行为。可视化分析可以揭示隐藏的模式、群组和其他结构,从而帮助分析人员做出更准确的决策。

3. 知识图谱构建

知识图谱本质上是一个图结构的语义网络,顶点是实体或概念,边是这些概念间的语义关系。它获取信息并将其集中到一个本体(Ontology)中,本体可以是人、概念、组织等,并应用推理器来推导新知识。它也可以被看成一个数据库,可以提高搜索引擎基于语义的数据的查询结果。

知识图谱作为图数据库的底层应用,已服务于多种行业,包括:智能问答、搜索、个性化推荐等。以智能问答为例,产品主要分为聊天机器人、行业智能问答系统两种,2023 年广受关注的 ChatGPT 就属于知识图谱的应用。开放领域的知识图谱能为聊天机器人提供广泛知识,机器不仅能和使用者聊天还能提供日常知识。行业智能问答系统则使用行业知识图谱,能够为用户有针对性的提供专业领域知识,在法律、医疗行业已得到运用。

在知识图谱的应用落地上,主要有两点因素影响着知识图谱的质量和实现——NLP 自然语言处理引擎、算法库。NLP 自然语言处理引擎决定了 NLP 爬虫平台获取数据的质量和数量,而这些原始数据作为知识图谱的知识原料又决定了知识图谱的水平。算法库中的图算法决定了图构建、图存储和图操作的能力,知识原料丰富而图算法落后,依然不能构建出强大的知识图谱。

金融机构可以利用图数据库技术构建知识图谱,将客户、账户、交易、风险、合规等相关信息进行整合形成一个图谱。这样可以更好地实现对客户 360 度全景视图,更快地识别客户需求、风险和潜在机会。需要注意的是, 尽管很多厂家都可以构造图谱,但是,缺乏图数据库的算力支撑的图谱,效率是非常低下的。

4. 市场营销分析

推荐系统本质是客户和商品之间的桥梁,基本任务是帮助客户解决信息过载的问题,从海量商品中准确并快速找到客户最喜爱、最有可能购买的产品。在互联网领域,线上推荐系统常见的应用场景大致可分两类:

  • 一个是基于用户维度的推荐,即根据用户的历史行为和兴趣偏好进行推荐,比如网易云首页的推荐歌单、小红书首页的发现等;
  • 另一个是产品维度的推荐,也就是根据用户当前浏览的商品进行推荐,比如淘宝特定商品的“找相似”功能。

不管是基于用户维度的推荐还是基于产品维度的推荐,推荐过程本质是信息过滤的过程:推荐系统通过分析用户的历史购买和当前行为模式,在用户退出页面前过滤掉不太可能引起用户兴趣的产品,再根据优先等级返回最相关 Top-N 产品列表。

“准而快”是推荐效果中的制胜关键。随着线下新零售和场景营销时代的到来 , 推荐系统需要考虑的维度日益增多:时间、地点、天气、突发事件等都会成为影响客户购物体验的重要因素。不论线上还是线下,购物者注意力持续时间越来越短,若不能按客户当下行为进行多维度实时推荐而错过适宜时机,潜在客户极有可能流失。

对零售商来说,如今产品目录变更周期短,变更速度快;潜在客户服务要求高,等待耐心低;场景营销背景下推荐维度复杂,事物关联程度高。推荐引擎需要快速理解客户画像,多维度考虑关联数据,将场景化流动性的客户兴趣与不断迭代的产品信息实时关联起来形成定制化推荐成为巨大挑战。

从数据存储到召回,再到更深一步的排序环节,系统筛选出来的商品集越集中,精度越高,推荐效果越好,但难度也随之增大。提高召回速度,帮助系统从海量商品中实时找出和客户当下兴趣以及消费场景相关的产品,便是图数据库的优势所在。

不同于关系型数据库,图数据库的 schema(数据库模式)灵活性强,可根据场景和业务需求添加不同种类的新关系、新节点、新标签形成新的子图,从而动态调整新的推荐策略,而不用担心破坏已有的查询或应用程序的功能。

通过实时收集并分析客户、购买行为、产品、好友关系、位置、营销事件等信息,全面刻画客户消费场景,针对客户的行为偏好、社交群落及消费场景,以数据、社交模型和AI 算法为驱动,配合反馈迭代式算法策略, 深度认知客户需求,实现“人 – 货 – 场”的联动,进行“千人千面”的具有可解释性的实时推荐,帮助企业快速、有效地发现海量数据中隐含的价值信息,赋能业务增长。

图数据库的模型灵活性免去了项目之初穷思竭虑将每一个细节囊括在内的烦恼,让用户根据公司业务发展和客户所在场景变化灵活改变数据模型,实现客户、产品和场景三者的高效动态关联,极大降低系统迭代的成本和开发周期。

三、银行业“三大图谱”建设案例

中国人民银行《金融科技发展规划(2022 – 2025 年)》指出,金融科技作为技术驱动的金融创新,是深化金融供给侧结构性改革、增强金融服务实体经济能力的重要引擎。图数据库是实现对海量多样化多维度数据资源进行价值挖掘和关联分析的核心技术基础设施,在银行业的数字化转型中发挥着越来越重要的作用。

1. 企业图谱:赋能数字化风控与营销场景

由于企业跨地域、集团化经营业态的发展,使得客户风险表现形式更加多元化,信息不对称进一步加剧,风险管理难度持续加大。银行为了应对复杂的经济形势,需要持续加强数字化风控能力, 扩大观察视角,从客户整体关系网络角度评判风险。同时在营销场景中,传统的营销方式已无法满足快速变化的市场要求,数字化营销是营销转型的策略之一。

某银行利用图数据库首先实现行内客户信息、风险相关数据和行外工商数据的拉通,然后提取法人、自然人、集团三类实体,和担保、抵质押、股权、法定代表人、额度使用等几十种基础关系,

并通过图算法深度挖掘担保圈、担保链、互保、集中性担保、间接持股等隐形关联关系,进而了构建企业全息图谱,共计近百亿数据; 并对复杂的关系图谱网络进行可视化建设,根据不同关系类型提供不同可视化方案,做到企业客户“一眼清”,为风险管理全流程中各类业务人员、管理人员以及各类风险管理系统提供关联分析支持。

同时企业图谱也应用于营销获客场景中,实现基于客户关系网络的营销线索挖掘,筛选出与本行存量客户有关联关系且关联关系符合一定特征的潜力客户,下发经营机构组织开展精准营销及客户关系维护,经统计此类潜力客户的营销成功率是无关系客户的 6 倍以上。

2. 交易图谱:全方位保障资金交易安全合规

将资金交易抽象为网络,将一次交易作为网络中的边,交易双方为网络中的点,每一条交易边从资金转出的一方起始,指向资金转入的一方。但是交易网络的构建与计算技术难度较大,首先是网络中的点、边数量都非常多,且随时间推移只增不减,这与相对稳定的企业集团关系是不同的。其次属性信息量也很多:点属性涉及客户的身份信息、账户信息;边属性涉及交易时间、金额、附言、渠道等。再次,图谱中会存在明显的超点,即单位时间内交易次数明显高于其他账户的账户实体。超点往往会极大影响图计算的性能。

某银行以图数据库为基础设施,构建交易图谱,应用在异常资金流向监测、交易环路挖掘等场景。票据贴现资金流向监控是典型应用案例之一:央行的 126 号文等监管文件对于票据贴现业务给出了明确的监管要求,严禁票据贴现资金回流前手,严禁以贷款、贴现资金作保证金办理银行承兑汇票,虚增存款。以往人工跟踪贴现资金流向效率较低且监控范围有限,亟需进行更高效、更全面的流向预警手段。

在图数据库高性能的图存储和计算能力基础上,结合图算法解决了上述技术难题,也为资金流向监控提供了新方案。

银行以交易流水、票据信息、背书历史、客户信息作为原数据,抽取出票据、公司、账户六类实体,和出票、收款、背书、贴现、转账、所属六种关系,进而构建形成票据的交易网络图谱;

  • 运用图算法进行社团划分与流向传播,识别交易网络中环路、汇聚、群组等复杂交易形态;
  • 运用流水中交易对手、资金用途、交易附言进行预警规则研判;
  • 运用机器学习算法预测贴现资金违规概率;

最终形成了覆盖同名划转行外、流入保证金、流入房市、流入理财、流入股市、回流前手、流入存单七类违规场景的预警信息,并提供违规案例的可解释性图谱,便捷辅助业务决策。

3. 信贷申请图谱:实现全流程实时组网风控

近年来欺诈风险呈现多产业链、多团伙等特点,团体欺诈风险识别难度愈加递增,传统的反欺诈体系已无法满足当前复杂欺诈模式的识别。同时信贷领域愈加强调掌握用户间的关联关系以及信贷申请行为的聚集性特征,而用图数据库构建关联图谱在识别用户关系和聚集性特征方面就有着不可替代的优势。该行为更好地保护客户资产安全,增强自身欺诈识别能力,利用图数据库建设了信贷全流程的实时组网风控体系,如图 1 所示。

图 1 信贷申请实时组网风控流程图

通过知识图谱平台将信贷申请信息、设备信息、联系方式、工作单位、地址、受托支付、交易等行内关系数据和外部工商数据加工成信贷申请图谱,同时应用图实时计算技术,打造从关系视角进行风险分析的实时组网风控体系,支持在贷前、贷中、贷后全流程识别关联风险。并将实时组网风控结果进行可视化展示,提供交互式分析功能,配合相关的特征指标,帮助业务核查风险。目前已为小微和消贷的 50+ 信贷产品申请提供实时组网与风险计算服务,响应时间达到毫秒级别。图数据库应用场景具体见图 2。

图 2 图数据库应用场景汇总

4. 案例成效

从 2019 年建设至今,某银行实现了知识图谱体系完成了从无到有的跨越,支持多集群批量分析、实时计算图数据;沉淀了企业图谱、信贷风险图谱、集团图谱、资金交易等多个图谱;触达风险防控、营销获客、信贷申请、票据贴现、审计、反洗钱等 20+ 业务领域;通过降本增效、智能风控、关联拓客、创新营销持续为银行创造价值。

从产业与社会层面看,图数据库提供的关联数据整合、分析、挖掘、展示能力,为金融机构高效实现数字化风控、提升业务规模、识别信贷欺诈、降低不良率等方面提供了有力支撑。为全面推动金融业高质量发展、持续提升金融服务实体经济能力、强化预警监测、打击非法金融活动提供了有力保障。

本案例以图数据库为底层基础设施,完成包含“1+2+N”模式的知识图谱体系建设,为多个业务场景提供服务。

  • 在存储方面,以国产原生分布式高性能图数据库 Galaxybase 为核心,实现了生产多模态集群,分别服务于分析场景和交易场景。
  • 在图谱工程层,提供了界面化的工程能力,能够通过“拖拉拽”的挖掘流程构建复杂图谱,针对图谱研发的全流程提供了各类组件,从而推进图谱数据和应用场景的规模化落地。
  • 在图谱服务层,为同时满足面向分析和面向交易的服务模式,构建了图谱分析模块和图谱服务引擎模块。

最终,将各项数据、服务和能力封装后,形成独立的数据应用产品,构建零售客户、法人客户和集团客户的全景视图,赋能业务发展。平台应用架构具体见图 3。

图 3 平台应用架构图

后续项目将持续优化基于图数据库的基础设施建设和便捷使用、提升图谱数量和质量、促进应用的智能化等方面持续发力,推动数据和算法在业务端的纵深赋能。

本文摘编自北京前沿金融监管科技研究院发布的《2024 高性能图数据库金融应用白皮书》。

在文末扫码关注官方微信公众号“idtzed”,回复“入”直通数治x金融服务行业群,@老邪 免费获取。

在此声明以上观点和内容,仅代表原作者和出处,与数治网DTZed 无关,如有出错或侵犯到相关合法权益,请通过电邮与我们联系:cs@dtzed.com。

欢迎先注册登录后即可下载检索数据资产等相关标准、白皮书及报告。更多高质量纯净资料下载,进入公众号菜单“治库”。