人工智能+：大模型全面监测和管理体系构建要点概览

通过持续构建并完善基础设施运营管理体系、数据治理体系、算法模型治理体系、应用服务运营管理体系、安全可信体系，达到建立健全大模型运营管理体系的目的。

当前国内外均高度重视大模型治理，2023 年 6 月，欧盟发布《人工智能法案》，提出对人工智能模型进行分级分类的治理思路。2023 年 7 月，中央网信办等七部门联合颁发《生成式人工智能服务管理暂行办法》，明确了提供和使用生成式人工智能服务的总体要求，并对生成式人工智能服务提出了分类分级的监管要求，标志着我国迈出了加快人工智能算法模型立法的重要一步。

企业级大模型治理体系建设备受关注，企业应通过建立完善的自我监管机制、强化企业社会责任、公开透明的责任报告、促进多方利益平衡等措施实现对大模型的有效治理。通过与政府和监管机构建立对话机制、紧密与产学研用各方合作、参与或创建多方协同的行业联盟、关注用户反馈与需求等方式建立健全企业级大模型运营管理体系。

图：需求分析的关键要素

一、国内外模型治理要点梳理

应用方建立健全大模型治理体系，既是满足外部要求，也符合内部发展需要。应用方建立健全大模型运营管理体系，是持续实现降本增效提质、提升核心竞争力的重要方式。应用方为达成借助大模型实现战略规划、助推业务发展等目标，可通过规范大模型管理的制度、流程和方法，实现对大模型的技术研发、能力测试、应用开发、能效评估等各项工作进行协调、控制和优化。

应用方建立和实施大模型运营管理体系，既是长期发展大模型的基础门槛，也是规范内部流程、提高业务效率和服务质量、降低运营成本，提高公信力和核心竞争力的关键举措。应用方可通过持续构建并完善基础设施运营管理体系、数据治理体系、算法模型治理体系、应用服务运营管理体系、安全可信体系，最终达到建立健全大模型运营管理体系的目的。

二、大模型运行过程实时监测

大模型部署后依赖收集监测数据和用户反馈以进行持续更新迭代，从而保证良好的运行状态和服务体验。大模型的全面监测包括但不限于监测基础设施的运行状态，监测数据的链路、质量和漂移，监测算法模型的运行情况，监测应用服务的运行状态。通过多方埋点获取实时监测数据，可进一步支撑构建风险预警防范机制，通过对突发事件采取快速反应和有序处理以降低损失，保障大模型应用的高效性、稳定性、透明性和可观测性。

1.监测基础设施的运行状态

应用方应从硬件和软件两个方面实时监测大模型基础设施的运行状态。硬件方面，应实时跟踪和监测大模型硬件设备的资源利用情况，及时识别资源利用瓶颈和调度优化潜力。通过监测内存、计算单元等使用情况计算得到资源利用率，通过监测响应时间、处理速度得到系统运行效率。

软件方面，应实时跟踪监测错误率、异常日志、进程或线程的状态以掌握系统与应用异常情况，通过监测可用性百分比、故障时间得到系统的可用性与连续性指标，及时发现软件系统和应用服务中的异常状态和潜在风险，保障应用服务的稳定运行。

2.监测数据的链路、质量和漂移

应用方应从数据链路、数据质量、数据漂移等方面对数据进行实时监测。数据链路方面，应实时监测数据链路的连通性、传输速率和数据流量等指标以诊断数据链路的状态，及时分析网络故障或瓶颈，保证数据顺畅传输。

数据质量方面，应监测数据的及时性、有效性、空置率等质量指标，及时发掘和处理数据质量问题。数据漂移方面，应监测未知数据比例、数据分布、特征关联性等数据漂移情况，及时发现数据分布和特征的变化。

3.监测算法模型的运行情况

应用方应从模型性能、模型服务和模型漂移等方面对模型算法进行实时监测。模型性能方面，应监测模型输入输出的准确率、召回率、 F1 值、BLEU、ROUGE、均方误差、平均绝对误差、响应时间等性能指标。

模型服务方面，应监测模型服务调用的成功率、并发路数、处理请求的吞吐量和延迟等指标，通过实时监测发现模型服务过程中的异常情况，并及时采取相应的措施进行处理。

模型漂移方面，通过在固定时间周期内监测PSI、CSI 等漂移指标来分析模型漂移情况，通过集成学习、主动学习、特征选择和降维、定期更新模型等方式保证模型长期稳定运行并维持预测的准确性。

4.监测应用服务的运行状态

应用方应从过程和结果两方面来监测应用服务的运行状态。运行过程方面，应实时跟踪和监测应用服务中数据资源质量、模型性能以及服务稳定性、自动化程度、问题处理速度，及时发掘运行过程中潜在的问题和瓶颈，从而快速响应，确保模型在各种应用服务中高效稳定运行。

运行结果方面，应通过监测token 数量、问题解决率、预测准确率、响应时间、插件贡献度等指标以判断大模型在业务应用中是否达到预期的效果和目标，从而形成服务上线、监测、优化、再上线的螺旋上升。

5.监测大模型的安全可信情况

应用方应通过监测手段实现安全防控和应急响应，保障大模型的安全可信。在大模型应用部署的全流程进行埋点监测，不仅能实时获取运行数据，还能追加安全防控和应急响应措施可有效预防和减少安全事件的发生，以保障业务连续稳定运营。

安全防控方面，应通过持续的安全监测来识别潜在风险，通过加强网络和物理安全防护、进行安全意识培训以及实施数据加密和访问控制等措施来防范安全事件的发生。应急响应方面，应实时监测数据并精确启动应急响应措施，预先制定应急响应计划，建立跨部门应急响应团队，制定大模型响应和恢复明确流程、定期进行应急演练以确保响应效率。

图：大模型应用成熟度评估体系

三、建立健全大模型管理体系

应用方应通过建立健全大模型运营管理体系，提高大模型综合治理水平和应用成熟度，进一步提升自身品牌影响力和核心竞争力。具体而言，应用方可通过持续构建并完善基础设施运营管理体系、数据治理体系、算法模型治理体系、应用服务运营管理体系、安全可信体系，通过建设五位一体的运营管理体系，最终形成健全的大模型运营管理体系。

1.构建基础设施运营管理体系

应用方应从灾备管理、性能优化、资产管理三个方面构建基础设施运营管理体系。灾备管理方面，应在故障事前预防、故障事中调度、故障事后改进三个关键环节建立灾备管理机制，对专业系统、生产数据、重要资料等进行备份，设计业务系统时应重点考虑冗余等措施，以确保系统能够持续运行和快速恢复。

性能优化方面，应采用自动扩缩容技术、资源动态调整技术、架构和算法优化技术、成本效益分析方法、混合云部署策略等实现性能与成本的最佳平衡。

资产管理方面，应建立统一的基础设施资产管理平台，集成监控、报警、日志分析和资源调度等核心功能，管理内容包括资产录入、资产转移、资产维修、资产借用、资产停用和资产退出等日常管理，包括计提折旧、折旧年报、资产减值准备、资产价值重估等折旧管理，包括分类明细统计报表、部门明细统计报表、新增资产统计报表和退出资产统计报表等报表管理。

2.构建数据治理体系

应用方应从大模型相关的数据架构、质量、应用、安全等方面建立健全数据治理体系。在数据架构方面，使用结构化的方式对大模型训练、微调、测试数据集进行综合分析，组织形成数据架构。根据数据的来源、模态、类型、质量等属性进行数据分布的统计。建立各应用系统、各部门之间的数据集成共享机制，促进组织内部数据的互联互通。

在数据质量方面，明确数据质量目标，根据业务需求及数据要求制定数据质量的评价准则，包括衡量数据质量的技术指标、业务指标以及校验方法。

在数据应用方面，对大模型训练和测试数据集进行统一加工和分析，对应用服务中的监测数据进行分析或建模，对已有数据集进行有选择的对外开放，同时引入外部数据集。在数据安全方面，通过对数据访问的授权、分类分级的控制、监控数据的访问等进行数据安全的管理，满足数据安全的业务需要和监管需求，实现组织内部对数据全生存周期的数据安全管理。

3.构建算法模型的治理体系

应用方应在模型更新、模型部署、模型管控等方面构建算法模型治理体系。模型更新方面，应对模型版本的变化开展有效的管理和跟踪，明确记录和审核每次版本更新。应建立质量审查机制，通过引入自动化测试、性能评估、用户反馈等措施及时发现模型问题，持续优化模型性能。

模型部署方面，应通过灰度发布、回滚机制等方式进行模型部署和更新，通过模型停用和资源释放确保资源的合理利用。应对多个模型服务进行有效调度、封装和管理，对基于模型的应用服务进行服务编排、服务托管、服务监控、服务告警，并根据需要动态调用相关插件。

模型管控方面，应对各类模型的访问和使用权限进行分级分类，应支持模型文件的注册、上传、下载、删除等操作，应支持创建新版本、回滚到历史版本、比较版本差异等操作，应提供操作日志、技术文档、模型超参数等信息以支持模型审计。

4.构建应用服务运营管理体系

应用方应从可观测性、可审计性、可持续性三方面构建应用服务运营管理体系。可观测性方面，应集成日志、指标、组件依赖、自定义监控、告警与通知等工具以展示大模型内部运行过程，以提高大模型的可解释性和可控性。

可审计性方面，应通过特征重要性、模型敏感性、模型可视化、模型解释器实现对模型的全面审计，确保大模型的内部结构和行为可以被理解和解释，以提高大模型的透明度和可信赖性。

可持续性方面，应开展成本度量、分析和优化，量化模型的投入产出比，应综合考虑创新能力、业务战略、市场需求、风险管理等多方面以制定可持续性发展的应用服务管理体系。

5.构建大模型安全可信体系

应用方应从基础软硬件、数据资源、算法模型、应用服务等层面构建大模型安全可信体系。在基础软硬件层面，应构建硬件安全性、可靠性、兼容性等硬件安全可信体系，以及软件安全性、兼容性等软件安全可信体系。

在数据资源层面，应构建数据资源管理体系以保证来源透明性、过程可控性、存储可靠性，进而保证隐私保护、过程安全、销毁安全等使用可控性。

在算法模型层面，应构建算法模型管理体系保证样本扰动、分布外泛化、对抗鲁棒性等模型鲁棒性、模型可解释性以及模型透明性，保证输出结果的公平性。

在应用服务层面，应构建服务的稳健性、安全性、合规性、可反馈性等服务安全可信体系，构建内容准确性、真实性、可追溯性、合规性、价值观对齐等内容安全可信体系。

来源：本文摘编自中国信息通信研究院发布的《大模型落地路线图研究报告（2024 年）》，全文下载请在页面底部扫码关注我们的微信公众号“idtzed”，对话框内发送“240914”或“入”添加老邪企业微信获取链接。

在此声明以上观点和内容，仅代表原作者和出处，与数治网DTZed 无关，如有出错或侵害到相关合法权益，请通过电邮与我们联系：cs@dtzed.com。

在文末扫码关注官方微信公众号“idtzed”，发送“入”直通相关数治x行业共建群、AIGC+X 成长营，@老邪每周免费领取法规、标准、图谱等工具包。

欢迎先注册，登录后即可下载检索大模型等相关标准、白皮书及报告。更多高质量纯净资料下载，在文末扫码关注官方微信公众号“idtzed”，进入公众号菜单“治库”。

打赏

标签：人工智能基础设施大模型数据应用数据架构数据治理数据质量

金融行业：分布式云典型应用场景、路径与实践

全国省市级大数据管理机构设置与职能梳理

从框架分析入手开展数据安全的复合治理模式

互联网反垄断与数据权利保护你要知道的与每个人息息相关

安全转型新标尺：用可信数据空间搭建“防火墙级”流通体系

“数字中国”哪家强？看懂“AI下乡”等三大趋势抓住万亿机会

数据标注如何“点石成金”？政务等六大案例揭秘行业新玩法

9张图看懂基础设施六大路线你也能拥有“国家总体数据观”

人工智能+：大模型全面监测和管理体系构建要点概览