随着“十四五”规划等国家政策的深化落地,人工智能(AI)发展迎来又一轮红利,特别是以ChatGPT为代表的生成AI产品预示着AI商业变现过程将进一步提速,AI工程化热度进一步提升。人工智能研发运营体系(MLOps)作为AI工程化重要组成部分,呈现出方法论逐渐成熟、落地应用持续推进的态势。
2023年3月16日,“AI工程化论坛暨MLOps实践指南发布会”在京举办。会上,中国信息通信研究院(简称”中国信通院“)发布《人工智能研发运营体系(MLOps)实践指南(2023年)》。
指南从组织如何布局和落地MLOps的角度出发,以模型的高质量、可持续交付作为核心逻辑,系统性梳理MLOps概念内涵、发展过程、落地挑战,为组织高效构建MLOps框架体系和关键能力提供方法论和实践案例的参考与借鉴,并研判MLOps未来发展趋势。
指南核心观点
1. MLOps概念渐晰,为解决AI生产过程管理问题意义明显。MLOps是通过构建和运行机器学习流水线(Pipeline),统一机器学习(ML)项目研发(Dev)和运营(Ops)过程的一种方法,目的是为了提高AI模型生产质效,推动AI从满足基本需求的“能用”变为满足高效率、高性能的“好用”,有效化解模型全链路生命周期管理存在问题,包括跨团队协作难度大、过程和资产管理欠缺、生产和交付周期长等。
2. 国内外MLOps发展百花齐放,落地仍面临问题和挑战。2015年至今,从业界意识到机器学习项目技术债给AI生产上线带来的潜在巨大影响伊始,MLOps前后经历了斟酌发酵、概念明确、落地应用三大阶段,且随着新工具不断涌现,在IT、金融、电信等行业得到了广泛应用和落地。但在这个渐进式发展过程中,MLOps落地面临着诸多挑战,包括组织落地驱动力不足、支撑工具选型难集成难、模型治理和可信道阻且长、环境间的交互难以平衡等。
3. 围绕流水线的构建,MLOps框架体系逐步完善。基于机器学习项目全生命周期,以CI/CD/CT/CM为核心,通过构建各条机器学习流水线,包含需求分析与开发、数据工程流水线、模型实验工程流水线、持续集成流水线、模型训练流水线、模型服务流水线、持续监控流水线,MLOps全生命周期闭环框架逐步完善。
4. 渐进式建设关键能力,MLOps落地效应逐步形成。通过数据处理、模型训练、构建继承、模型服务、运营监控、模型重训、实验管理和流水线管理等能力的建设,形成MLOps过程管理能力的全面把控。通过特征管理、模型管理和仓库管理等能力的建设,形成制品管理能力的提升。同时以模型安全作为AI生产过程中的关键保障之一,MLOps落地效应日益凸显。
指南目录
一、MLOps概述
(一)AI生产过程管理问题凸显
(二)MLOps概念与意义
(三)MLOps实施原则
二、MLOps发展现状与挑战
(一)MLOps发展过程
(二)MLOps落地挑战
三、MLOps框架体系
(一)机器学习项目生命周期
(二)MLOps流程架构
(三)MLOps相关角色
四、MLOps关键能力与技术实践
(一)数据处理
(二)模型训练
(三)构建集成
(四)模型服务
(五)运营监控
(六)模型重训
(七)实验管理
(八)流水线管理
(九)特征管理
(十)模型管理
(十一)仓库管理
(十二)模型安全
五、MLOps总结与展望
主要专家简介
中国信通院云计算与大数据研究所高级工程师 秦思思
重点跟踪研究人工智能工程化(包括MLOps、AI治理、模型管理、模型评测等)的发展,牵头系列标准的编制、评测、咨询等工作,担任人工智能关键技术与应用评测工业与信息化部重点实验室人工智能研发运营小组组长。
中国信通院云计算与大数据研究所工程师 胡慧
主要研究领域涵盖人工智能政策、标准、产业及生态研究,近年来重点关注人工智能工程化,人工智能关键技术与应用评测工业与信息化部重点实验室人工智能研发运营小组成员。深入钻研ModelOps和MLOps的最新进展动态,负责编制系列标准。
中国信通院云计算与大数据研究所人工智能部副主任(主持工作) 曹峰
中国通信标准化协会TC1 WG1(互联网应用总体及人工智能工作组)工作组组长,人工智能关键技术和应用评测工业和信息化部重点实验室副主任。目前主要牵头可信AI人工智能评测标准体系和能力建设,牵头工程化能力等相关评估规范制定与评测等。
更多精彩,敬请阅读解读PPT。
本指南由中国信通院云计算与大数据研究所、人工智能关键技术和应用评测工业和信息化部重点实验室联合发布,全文下载:
人工智能研发运营体系(MLOps)实践指南(2023年)
更多标准、白皮书、报告等高质量纯净资料下载,在文末扫码关注官方微信公众号“idtzed”,进入公众号菜单“治库”,或按自动回复发送引号内关键词。