金融AI应用的“三重风险”:数据、隐私、内容,如何筑牢防线?

本文详细分析金融业人工智能应用的数据、隐私、内容“三重风险”及其防控,提出相应的安全防护框架、机制与措施建议,从而筑牢防线保障金融市场稳定与健康发展。

金融AI的“三重风险”:数据、隐私、内容,如何筑牢防线?
出处:数治网综合

随着金融行业数字化转型的快速发展,人工智能相关技术在金融领域的应用场景日趋广泛,已涵盖了产品创新、客服营销、业务运营及风险防控等多个业务场景,特别是大模型的出现,加速了人工智能金融业应用的进程,与此同时深度伪造、对抗样本等针对人工智能的新型攻击手法不断涌现,人工智能应用风险已引起金融业的高度关注。

国家网信办联七部门于 2023 年公布《生成式人工智能服务管理暂行办法》,该办法旨在促进生成式人工智能健康发展和规范应用,并规定了 AI 服务提供方的责任义务。金融监管总局在《银行保险机构数据安全管理办法》中提出,应当对人工智能模型开发应用进行统一管理,实现模型算法可验证、可审核、可追溯,就数据对决策结果影响进行解释说明和信息披露,建立人工智能应用的风险缓释措施等。

本文详细分析金融业人工智能应用的数据、隐私、内容“三重风险”及其防控,提出相应的安全防护框架、机制与措施建议,从而筑牢防线保障金融市场稳定与健康发展。

01 数据风险与防护

1.数据污染风险

若训练数据集存在错误、异常或被恶意篡改的情况,会导致模型性能下降、预测结果不准确,甚至出现安全漏洞等问题。数据采集错误、数据预处理不当、恶意攻击或人为失误都可以造成数据污染。被污染的数据在训练过程中会导致模型对噪声数据过拟,而在推理时则可能导致模型做出错误的预测或决策。

数据投毒是其中最典型的恶意攻击方式,攻击者可根据神经网络的复杂性和非线性特性,找到在特征空间中与目标样本相近的中毒样本, 并将中毒样本注入数据集,以此修改决策边界,来破坏模型的可用性,从而产生各种不正确的预测。

2.数据质量风险

数据质量在决定人工智能模型上限方面发挥着至关重要的作用,数据质量风险主要包括数据完整性与多样性风险、数据准确性及标注质量风险和数据可扩展性风险三方面:

(1)数据完整性与多样性风险:

训练数据集应包含足够多的样本,每个样本应包含所需的特征,并包含各种分布和变化,包括不同的类别、场景、时间等,否则模型将趋于过拟合,无法对新数据做出高准确率的预测或分类。金融数据的量级很大,某些交易类型或客户类型呈现长尾分布,数据采集时易产生有偏数据。

(2)数据准确性及数据标注质量风险:

训练数据的标签和特征值应准确无误,避免引入错误的标签或错误的特征值。对于需要人工标注的数据,标注应准确反映样本的真实情况,且标注过程应遵循一致的标准和规范。否则训练出的模型可能会产生错误的预测结果,导致错误决策。

(3)数据可扩展性风险:

随着时间的推移,新的数据源可能不断涌现,训练数据应易于扩展和更新。如果模型只能使用旧数据来训练,那么它的预测能力和泛化能力可能会受到限制。

3.数据窃取风险

数据窃取风险主要包括数据还原风险以及成员推理风险。 数据还原风险是通过分析机器学习或人工智能模型的输出,尝试还原模型的训练数据,以推断出原始数据的一些特征和敏感 信息。攻击者利用各种技术手段,例如生成对抗样本、附加噪声、反向工程等方法,试图逆向还原模型,从而获取训练数据的敏感信息。

成员推理风险通过分析机器学习模型的输出来确定某个特定样本是否被用于该模型的训练。攻击者利用生成对抗样本、附加噪声等方式判断某个输入数据是否属于模型的训练集,从而揭示有关训练数据的敏感信息。例如,攻击者可能利用成员推理来确定某人是否有过贷款记录、是否在银行黑名单上,或者判断某个客户是否被认为是高价值客户。

4.数据合规性

数据合规性要求数据的采集、传输、存储、使用、删除及销毁等全生命周期法规。为确保数据合规性,应定期开展数据合规性评测,建立内外审计制度,定期开展合规审计。

基于统一的大数据平台日志标准,建立数据访问行为监控服务和日志分析服务,面向接入应用提供敏感数据访问情况、用数访问等行为数据,从而保证数据使用安全合规。同时,加强对员工的培训和合规宣传,增强员工的合规和风险意识,确保员工在日常工作中能够遵循相关规定和准则。

此外,在设计和训练人工智能时,应该确保其拥有正确价值观的数据。这些价值观应该与人类社会的普遍伦理和道德原则相符,例如尊重个人隐私、平等、公正等。

5.数据机密性

保证数据机密性主要包括外部数据隐私保护和内部数据权限控制两部分。

(1)外部数据隐私保护:

一是应将相关数据和程序代码部署于封闭、安全、可靠环境中运行,防止数据和程序代码在未经授权情况下被访问或修改。

二是应用多方安全计算、联邦学习等技术,使各参与方应在无需交换原始数据、仅交换模型训练中间计算结果的情况下,联合完成机器学习模型构建。

(2)内部数据权限控制:

  • 一是应对数据进行密级分类,通过对各业务系统数据进行采样,依据数据分类分级策略,自动识别出敏感数据及分类分级结果,并基于内置脱敏算法提供统一的脱敏服务及工具。
  • 二是应对任务执行进行动态控权,按用户维度通过 SQL 解析、改写等技术提供统一的数据访问控制能力。
  • 三是在与外部或第三方进行数据交换场景中,应对数据文件进行水印标记,若数据文件出现泄露,可针对文件进行水印解析和溯源分析,追踪泄露源头。
6.数据可用性

数据可用性通过数据流转的一致性、数据防投毒等技术保障训练数据的可靠可用。通过建立上下游数据校验修正机制,确保数据在不同系统间一致流转。

可从以下三个维度保证数据可用性:

  • 一是在数据准备阶段,通过数据分布检测、错误数据清理等方式,剔除被污染的数据样本,同时要确保训练数据的完整性、多样性、准确性。
  • 二是在模型训练阶段,采用自动化建模技术,防止训练人员人为修改样本标签、插入中毒样本、修改训练数据特征。
  • 三是在模型应用阶段,通过构建输入数据的异常检测机制,防止投毒样本的源头采集。 最终建立端到端的数据清洗与防投毒能力。

02 隐私风险与保护

1.个人数据泄露风险

人工智能模型训练所需的数据多为结构化数据(数值、标签等)或非结构化数据(文本、图像、音频等),其中用户的人机交互对话、搜索记录、交易记录和行为轨迹等训练数据中可能含有个人隐私信息,若过度收集并在未获得用户授权同意的情况下违规使用此类数据进行模型训练,由于模型强大的记忆能力可能会在处理用户请求时无意间泄露,对个人的隐私造成侵犯。

同时泄露的个人隐私信息可能被恶意利用,导致身份盗用、开设虚假账户或诈骗等违法行为,导致严重的后果和风险。2019 年,苹果智能语音助手 Siri 被曝出窃取用户隐私,苹果公司在未明确告知用户被录音和分析的情况下,存在定期录下用户与 Siri 的交流,并将其发送给外包公司进行分析的行为,导致用户隐私泄露。

2.商业数据泄露风险

企业的商业隐私数据可大体分为两类,一类是企业核心代码、算法、技术或密码等敏感信息,例如软件核心源代码、密钥和凭 证等;另一类是企业的商业机密文件和资料,例如商业同、商业协议、机密报告和会议纪要等。

人工智能模型会根据开发者需求收集相关的数据用于模型优化训练,例如生成式模型会收集用户在人机交互过程中的对话内容、问答信息等进行持续的学习,但用户可能在使用过程中泄露包含企业商业隐私的信息并成为后续算法训练的数据源,造成新的数据泄露风险点,导致企业面临商业损失,包括竞争对手获取企业商业机密信息,或灰黑产的敲诈勒索等。

例如 2023 年 4 月,据《Economist》报道三星半导体员工疑似因使用 ChatGPT,导致在三起不同事件中泄露公司机密。调查原因皆因员工将公司机密资讯输入 ChatGPT 而导致。

3.数据隐私保护

数据隐私可从数据机密性角度进行相关防护,一是确保人工智能模型训练数据的法规,面向用户提高数据收集和使用的透明度,在用户知情同意的前提下遵守最小化原则收集与使用数据;

二是对训练数据采用隐私保护算法进行处理,例如匿名化技术、去标识化技术、数据脱敏技术和差分隐私技术等,确保数据在处理和分析过程中无法直接关联到具体个人。也可以使用 DLP 监测训练数据中是否含有涉及商业机密、源代码等企业隐私信息。

4.隐私安全意识培训

培训员工数据隐私安全意识,在应用人工智能模型时避免输入个人或企业的隐私信息,降低隐私泄露的风险;控制数据访问及人工智能模型使用权限,只有经过授权的员工通过身份验证后才能访问。

03 信息披露与风险防范

1.消费者知情风险

消费者知情权要求金融机构向消费者告知所提供服务的真实、全面信息。在人工智能应用场景下,金融机构违反消费者知情权的情形主要表现为模型结果误导消费者、消费者信息收集和使用过程未充分说明等。

金融机构在收集消费者数据时,若未能详尽阐述数据范围、使用规则并充分征得消费者同意,便可能侵犯其个人信息保护知情权。常见做法如冗长晦涩的隐私政策或隐蔽的同意链接,使消费者难以全面理解并预见其数据去向。

这种“点击即同意”的模式,实质上剥夺了消费者的真实知情权和选择权。同样,数据使用过程中的不透明也引发广泛关注。以 Google 与 Ascension 作为例,未经患者明确同意,数百万健康数据被用于 AI 训练,此举不仅触动了公众对个人隐私安全的敏感神经,也暴露了数据使用透明度缺失的严重问题。此类事件加剧了社会对数据滥用和隐私侵犯的担忧,强调了在数据收集与使用各环节中加强透明度和用户同意机制的重要性。

2.信息充分披露

对应用人工智能提供服务的全流程进行真实全面的说明,推进模型准确性和透明性治理、规范消费者数据收集和使用程序。

(1)模型准确性和透明性治理:

在部署人工智能模型前,金融机构应进行充分的验证和测试,确保模型的预测准确性和公平性;在模型使用过程中,定期监控模型的性能,及时发现和纠正问题。针对算法不透明问题,金融机构应当主动向消费者声明其所使用算法模型的能力缺陷及风险提示;向公众披露对算法产品自动化决策起决定性的主要参数,赋予消费者对特定人工智能服务的“算法解释请求权”。

(2)规范消费者数据收集程序:

对于信息收集而言,应当为消费者履行如实告知义务并确定理边界,尊重金融消费者的个人信息自决权。在收集客户个人信息过程中要遵循最小必要的原则,处理个人信息符合公开透明原则。

(3)规范消费者数据使用程序:

对于信息使用而言,用于 服务内容输出和优化模型的个人信息要分别明确其具体使用方式,且在获得客户同意后才能进行使用。同时,依据《个人金融信息保护技术规范》提及的 C1(账户开立时间、开户机构等)、C2(支付账号、财产信息等)、C3(账户交易密码、银行卡密码等)三类信息,在使用过程中应实施针对性的保护措施。

对于敏感程度较高的个人信息,应进行特别说明,包括但不限于对个人信息使用的方式和使用该类信息可能产生的风险和后果,且需要获得消费者的单独同意。

《5000字长文带你一次性解析金融隐私保护技术,看完秒懂!》一篇中,在保护个人信息的前提下,发挥这些数据对于金融机构及其整个行业领域的商业价值,保证其在合法、合规的条件下得到充分、有效的变现及应用。

04 内容合规风险与规避

1.内容合规风险

生成式人工智能的内容安全广义上包括输出内容的社会安全性,是否法规、遵守道德伦理和公序良俗等,具体表现在违法不良信息、内容失实、偏见歧视、违反伦理道德等方面。生成内容的安全性是公众选择使用相关产品和服务的重要影响因素之一,也是全球人工智能监管的重要事项。

对用户而言,便捷高效地得到文本、图片、音视频、代码等内容是使用生成式人工智能技术的主要用途,生成的内容越是接近或超过一般人类的创作能力,往往越能获得用户的青睐。然而,语言风格越接近人类、成的音视频越逼真,用户越是难以鉴别其中的真假。一旦训练数据遭受偏见、错误、不良等信息毒害,抑或模型存在缺陷,生成内容很可能是错误甚至是具有社会危害性的。

2.内容合规保障

为了保障生成式人工智能的内容安全,在大模型的预训练阶 段需要确保训练数据的安全性和质量。通过移除潜在的不当数据,同时添加高质量、安全的训练语料。除了删除有问题的数据外,利用数据增广的方法加入多样化的数据集,可以在预训练阶段帮助模型形成更全面的视角。

在大模型的优化阶段,利用基于人类偏好的强化学习技术优化语言模型,引导模型在生成时更接近人类价值观。基于 AI 反馈的强化学习技术使用 LLM 代替人类标记偏好,通过自我提升的方式,利用自动生成的评论和修正来训练 AI,避免了依赖大量人工标签识别有害输出。

金融业人工智能的发展需要构建以安全为基石、创新为驱动的全新监管生态,制定符合金融行业特点的人工智能监管政策,构建人工智能监管组织架构,探索分类分级监管模式,遵循风险分级、最小干预原则,完善人工智能应用系统备案制度,实现以安全促发展的目标。


免费领取你的数智第一课

2025年3月开学季起,数治网院iDigi围绕“数字ABC:分析、业务转型及以客户为中心”推出体系化课程,我们基于知识CGC▲、能力CCV▲与实用EPI▲,助力《银行保险机构数据安全实务入门不迷茫 我们公开课上见!》,通过建立覆盖全员的数据安全组织架构、建立数据分类分级制度、梳理数据全生命周期安全要求等措施,金融机构可以确保数据安全与业务发展的双向促进,如《超实用!银行保险机构数据安全合规要点和问题一文解析》提到。

升级你的职业“防护盾”,扫码申请素养测评,即可15分钟AI适配搭建微学习、微专业,开启“一人一表”“一人一课”。即日起只需¥199开卡体验单课时即赠《AI 商业进化论》一本,激活完成自主学习、预约导师开讲、Q小治答疑、实操练习、分享心得等任务,参与评选“学习显眼包”赢数治Pro学习卡、盲盒!


来源:本文摘编自《金融业人工智能应用风险研究报告》,北京金融科技产业联盟。图片:Nordwood Themes,Unsplash

发条评论

你的电邮不会被公开。有*标记为必填。