工业发展是一个逐步演进的过程,经历了机械化、电气化、自动化、信息化的阶段后,当前正处于从数字化向智能化迈进的阶段。每个阶段都是工业与各类创新技术的融合,对传统制造业进行升级和改造,提高生产效率、降低成本、提升产品质量。
当前阶段,工业领域积累了大量的数据、基础能力和场景需求,为工业场景与人工智能技术的融合提供了基础条件。而人工智能逐渐展现出类似人的理解和分析能力,这些能力与工业场景的融合,将智能化带入到工业生产、运营、管理等领域,不断提升感知、认知和决策等多个环节,有望推动工业发展走向“自适应、自决策、自执行”的智能化阶段。
一、工业大模型应用面临挑战
工业数据质量参差不齐。工业领域涵盖广泛,包括 41 个工业大类、207 个工业中类、666 个工业小类,导致数据结构多样,数据质量参差不齐。此外,由于工业生产过程中的各个环节相互交织,数据之间的关联性和复杂性也较高。数据的来源、采集方式、时间戳等都会影响数据的准确性和完整性。这种数据结构的多样与质量的参差不齐给工业大模型的训练和应用带来了挑战。为了克服这一问题,需要投入大量的时间和资源进行数据清洗、预处理和校验,以确保数据的准确性和一致性。
工业数据安全要求较高。工业数据通常包含企业的核心机密和商业秘密,如工艺参数、配方、客户信息等。这些数据如果泄露或被竞争对手获取,可能会对企业的竞 争力和市场地位造成严重威胁。因此,工业企业对于数据的保护和隐私关注度非常高, 限制了数据的共享和流通。
工业大模型应用对可靠性有更严格的要求。工业生产环境往往涉及复杂的工艺流程、高精度的操作控制以及严苛的安全标准。任何模型预测或决策的失误都可能导致生产事故、质量问题或经济损失。因此,在有些领域,工业大模型应用必须具备极高 的准确性和稳定性,以确保在各种复杂和动态变化的工业场景中都能提供可靠的支持。
工业大模型应用还受到实时性的制约。工业生产对实时性的要求非常高,很多场景需要模型能够在毫秒级甚至微秒级的时间内做出响应。同时,由于计算资源的限制,模型的大小和计算复杂度也需要得到合理控制。这就需要在保证模型性能的同时,尽可能地降低计算复杂度和内存占用,以实现高效的实时推理。
二、工业大模型应用的三种构建模式
大模型的构建可以分为两个关键阶段,一个是预训练阶段,一个是微调阶段。预训练主要基于大量无标注的数据进行训练,微调是指已经预训练好的模型基础上,使用特定的数据集进行进一步的训练,以使模型适应特定任务或领域。
针对工业大模型,一是可以基于大量工业数据和通用数据打造预训练工业大模型,支持各类应用的开发。二是可以在基础大模型上通过工业数据进行微调,适配特定工业任务。三是可以在不改变模型参数的情况下,通过检索增强生成(RAG)为大模型提供额外的数据,支持工业知识的获取和生成。这三种模式并不独立应用,往往会共同发力。
图 1 工业大模型应用的三种构建模式对比
1. 模式一:预训练工业大模型
无监督预训练主要利用大量无标注数据来训练模型,目的是学习数据的通用特征和知识,包括 GPT-3/GPT-4、LLaMA1/LLaMA2 等,都是通过收集大量无标注的通用数据集,使用 Transformer 等架构进行预训练得到。预训练之后的模型已经足够强大,能够使用在广泛的任务领域。
例如,当无监督预训练技术应用于 NLP 领域时,经过良好训练的语言模型可以捕捉到对下游任务有益的丰富知识,如长期依赖关系、层次关系等。然而,另一方面完全基于互联网等通用数据训练的大模型缺乏对行业知识的理解,在应对行业问题上表现出的性能较差,因此在预训练阶段可以使用通用数据加行业数据进行模型训练,使得在基础模型的层面就具备了一定的行业专有能力。
无监督预训练工业大模型的优点是可以具备广泛的工业通用知识,最大程度地满足工业场景的需求,实现模型的最优性能与稳定性。但这一模式的缺点是需要大量的高质量工业数据集,以及庞大的算力资源,对成本和能力的要求较高,面临技术和资源的巨大挑战。在最终应用前,无监督预训练工业大模型与 GPT3 类似,同样需要通过适当的指令微调、奖励学习、强化学习等阶段,形成面向最终场景的应用能力。
SymphonyAI 推出了基于无监督预训练的工业大语言模型,该模型的训练数据包含 3 万亿个数据点,12 亿 token,能够支持机器状况诊断,并回答故障状况、测试程序、维护程序、制造工艺和工业标准相关的问题。
制造流程管理平台提供商 Retrocausa 发布的 LeanGPT™ ,也采用了无监督预训练的模式,是制造领域的专有基础模型。基于 LeanGPT™ 这一基础模型,Retrocausal 还推出了 Kaizen Copilot™ 的应用程序,可以帮助工业工程师设计和持续改进制造装配流程。
2. 模式二:微调
微调模式是在一个已经预训练完成的通用或专业大模型基础上,结合工业领域特定的标注数据集进行进一步的调整和优化,从而使模型能够适应具体的工业场景需求,更好地完成工业领域的特定任务。在微调期间,需要使用特定任务或领域量身定制的标记数据集来训练,与模型预训练所需的巨大数据集相比,微调数据集更小,单个任 务的微调通常只需要几千条到上万条有标注数据即可。
通过微调,大模型可以学习到工业细分领域的知识、语言模式等,有助于大模型在工业的特定任务上取得更好的性能。在当前主流的行业大模型构建路线中,众多行业模型都是使用基础大模型+行业标注数据集来微调得到的。
这一模式的优点是可以充分利用基础大模型的泛化能力,同时通过微调的方式,提升模型的适配性和精度,能够在特定的任务或领域上取得更好的效果,也可以针对具体行业或公司的语气、术语进行定制化。缺点在于需要收集和标注具体工业领域和场景的数据和知识,增加数据准备的成本和时间,若数据不足或嘈杂会降低模型的性能和可靠性,也可能会过度拟合,导致性能下降,或者灾难性遗忘。
Cohere 推出全面的微调套件,其中包括生成微调、聊天微调、重新排序微调和多标签分类微调等解决方案,可以满足企业在微调各种 AI 应用时的需求。基于微调,企业可以定制模型,在文本生成、摘要、聊天、分类和企业搜索等目标用例上获得更好的性能。
3. 模式三:检索增强生成
检索增强生成模式是指在不改变模型的基础上,结合行业领域的数据、知识库等,为工业场景提供知识问答、内容生成等能力。检索增强生成(Retrieval Augmented Generation,RAG)结合了检索(Retrieval)和生成(Generation)两种方法,基本思路是把私域知识文档进行切片,向量化后续通过向量检索进行召回,再作为上下文输入到基础大模型进行归纳总结。
具体而言,首先是将外部数据通过 Embedding 模型存储到向量数据库中。当用户输入查询内容时候,经过 Embedding 模型和向量数据库的内容匹配,得到 Top 排序的结果作为上下文信息一起输入给大模型,大模型再进行分析和回答。检索增强生成在私域知识问答方面可以很好的弥补通用大语言模型的一些短板,解决通用大语言模型在专业领域回答缺乏依据、存在幻觉等问题。
这种模式的优点是可以快速利用现有的基础大模型,无需进行额外的训练,只需要构建和接入行业或企业私有的知识库,就可以实现对工业领域的知识理解和应用,也可以部分消除大模型的幻觉,减少数据泄露,提高信任度和访问控制。这种模式的缺点是基础大模型可能无法充分适应工业场景的特点和需求,导致效果不佳或不稳定。
C3.AI 推出的 Generative AI 利用检索增强技术,将制造企业知识库与大语言模型分开,从而生成准确、一致的结果,且能够追溯到源文件和数据,以确保信息的准确。另外,Generative AI 还通过嵌入相关性评分机制,在未达到相关性阈值时回答 “我不知道”。例如在设备运维场景下,操作员可以利用简化的工作流程来诊断设备故障根因。当操作员发现生产问题时,可以直接进入 C3 Generative AI 搜索故障排除指南和教科书,以找出潜在原因。
4. 三种模式综合应用推动工业大模型落地
在工业大模型的训练模式中,我们可以看到三种主要的方法,每种方法都有其独特的优势和挑战。无监督预训练模式通过大量无标注数据来提升模型的泛化能力,适用于工业场景的广泛需求,但需要巨大的资源投入。基础大模型加有监督微调模式则在保留通用能力的同时,通过特定领域的数据微调,提高了模型的适配性和精度,但需要高质量的标注数据。
基础大模型结合检索增强生成(RAG)模式,通过利用预训练的基础大模型和行业知识库,为工业场景提供即时的知识问答和内容生成服务,这种方法的优势在于快速部署和利用现有资源,但可能在特定工业场景的适应性上存在局限。总结来说,这三种训练模式为工业大模型的开发提供了多样化的选择,在实际应用中,这三种模式并非只采取一种方式,往往企业最终发布的应用模型针对不同的应用场景,综合采用多种构建方式。
以 NVIDIA(英伟达)为例,开发了名为 ChipNeMo 的定制大模型,采用了无监督预训练、微调等多种模式。该模型训练收集了 Bug 总结、设计源(Design Source)、文档以及维基百科等数据,训练的 token 超过 240 亿,在商用开源的 Llama2 基础上, 采用领域自适应预训练、带有领域特定指令的监督微调(SFT),以及领域自适应检索等技术对模型进行优化,能够有效的支持芯片设计的一般问题问答、总结 Bug 文档和EDA 脚本编写等功能。
三、大模型应用探索覆盖工业全链条
从工业产品生命周期的角度,可以将工业场景概括为研发设计、生产制造、经营管理、产品服务等四个主要环节,根据整理的 99 个工业大模型的应用案例,对工业大模型的场景应用总结如下:
图 2 大模型在工业全链条的应用探索
1. 大模型通过优化设计过程提高研发效率
1.1 产品外观设计
工业产品设计涵盖了外观设计与结构设计两大关键环节。在这两个环节,大模型都展现出了其独特的价值。在结构设计方面,借助大模型的生成能力可以快速为工业产品或零件提供多种设计方案,缩短产品开发的时间并提供多种创造性的产品选项,让设计师专注于产品设计的核心工作。在外观设计方面,设计师只需提供简短的文字描述或草图,大模型便能迅速生成多张高保真度的设计效果图。这些效果图不仅满足了设计师的个性化需求,还为他们提供了丰富的选择空间,方便进一步修改与优化。
海尔设计联合亚马逊云科技以及合作伙伴 Nolibox 共同开发的 AIGC 解决方案,将大模型图像生成技术成功应用于产品设计、用户界面设计、色彩材质设计以及品牌设计等多个领域。该解决方案全面覆盖了新品设计、产品改款升级、以及渠道定制化等工业设计业务场景。其中,概念图的生成得益于 Nolibox 基于开源大模型 Stable Diffusion 的应用开发,有效地助力形成高效、精准的设计成果。
丰田研究所推出的“生成式人工智能工具”是一款专为车辆设计师打造的 AI 助手, 旨在提供创新支持。这款工具能够根据文本提示生成精确的设计草图,并允许设计师通过调整定量性能指标来构建原型草图。工具融合了计算机辅助工程的优化理论与生成式 AI 技术,能够将工程约束自然地融入设计流程中。这意味着,在生成满足设计师风格要求的图像的同时,还能综合考虑并优化诸如风阻、底盘高度等关键工程参数。
1.2 研发设计软件辅助
大模型可以与 CAD、CAE 等工业设计软件结合,通过连接相关数据库,更好地调用相关的设计模块,提升研发设计的效率。以 CAD 为例,现有的海量标准化素材库提供了大量工程制图、布局规划等数据,大模型可以利用这些数据,结合设计者的创意思路和特殊需求,生成多样化的设计方案,供设计者进行参考。另一方面,亦可对设计方案进行快速优化调整,帮助工程师以更快的速度和更少的错误创建布局。
Back2CAD 基于 Elaine CAD Bot、ChatGPT 和 Amazon AWS 等的支持推出 CADGPT™,支持虚拟助手、智能推荐、文档生成、代码生产、CAD 项目辅助等各类功能。以虚拟助手为例,CADGPT 能够基于用户前期的设计和偏好,提出替代性的方案或者现有方案的改进意见,帮助用户短时间内能够获得更好的设计结果。在代码生成方面,CADGPT 可基于用户输入的提示词生成适当的代码片段。
Cadence 推出了 Cadence.AI LLM,这是业界首个针对芯片设计的大型语言模型(LLM)技术。该工具的核心功能在于加载和处理架构规范、设计规范、集成连接规范以及芯片设计本身,为用户提供了一个强大的交互平台。用户能够通过自然语言与工具进行互动,提出各种指令,如要求列出芯片设计中的不规则网络名称、识别所有潜在的不规则引脚、自动化测试平台的连接设置、以及辅助完成工具脚本和 RTL 代码的编写。
2. 大模型拓展生产制造智能化应用的边界
生产制造环节是工业生产的核心场景,对安全性和稳定性的要求较高,目前大模型在该环节的渗透率整体不高,主要集中在代码生成、车间和设备管理和机器人控制等环节。
2.1 工业代码生成
大模型在工业代码生成的应用领域广泛,涉及到自动化、机械加工等领域。将大模型应用于工业代码生成的优势在于可以提高工业代码的质量和效率,减少人工编程的时间和成本,提高了研发者的开发效率,特别是重复性高、逻辑简单的任务。同时,自动生成的代码还可以减少人为错误的发生,提高代码的可靠性和可维护性。现有的代码生成方法或工具在处理简单需求的场景时表现较好,如行级代码补全和初级的函数级代码生成。在复杂的函数级代码生成、深入的问题分析和软件系统设计方面,还需要进一步改进和优化。
SprutCAM 结合 ChatGPT 推出 AI 产品 Éncy。这款 AI 助手通过结合 OpenAI 的 API 接口,能够理解和生成自然语言,帮助 CNC 工程师简化机械加工任务。Éncy 能够执行多种任务,包括生成基于文本描述的代码,以及使用 Python 编写代码来创建 .dxf 或 .stl 文件。此外,Éncy 还能支持工程师操作机床,回答与 SprutCAM X 软件操作相关的任何问题。例如,当工程师给出指令“在点(100, 25)处钻一个直径 10 毫米的孔”, Éncy 即可生成相应的 CAM 执行代码。
2.2 车间和设备管理
在车间管理方面,大模型能够协助监控生产线,确保工艺流程的顺畅与高效;在设备管理领域,大模型通过支持预测性维护减少停机时间,并通过精准的数据分析指导维护决策,有望成为工业智能化转型的关键驱动力。
Vanti 推出 Manufacturing COPILOT,目标是解决当前制造业专业人员在数据管理和分析方面面临的挑战。通过融合和整理来自 ERP 系统、制造执行系统(MES)、传感器以及历史记录器等多样化数据,该平台改变了数据处理方式。同时基于大模型能力,允许用户以自然语言询问并与数据互动,将复杂的数据分析过程转换为简单直观的对话。
Manufacturing COPILOT 不仅能处理和分析原始数据,还能识别并解释复杂的生产行为,转化为易于理解的、可操作的洞察。借助数据可视化技术,它提供了数据的图形化叙述,增强数据的可解释性,帮助制造业专业人士进行数据驱动的决策。此外,它还简化了测试流程,使用户能够通过自然语言查询快速验证假设,并根据可靠数据进行调整,显著提高了生产效率和操作效率。
2.3 工业机器人控制
大模型的出现可以帮助机器逐渐实现真正像人类一样交流、执行大量任务。工业 机器人和自动化工厂作为智能制造的核心载体,将作为大模型和智能制造的中间桥梁。根据微软发布的《ChatGPT for Robotics: Design Principles and Model Abilities》,目前大模型主要通过两个层面对工业机器人进行辅助,第一,作为预训练语言模型,可以被 应用于人类与机器的自然语言交互。机器通过 ChatGPT 理解人类的自然语言指令,并 根据指令进行相应的动作。第二,大模型可以帮助机器在执行路径规划、物体识别等 任务时做出相应的决策。
RoboDK 推出了 RoboDK’s Virtual Assistant,一个基于大模型的 AI 应用,专为机器人编程和仿真提供智能化的支持和指导。RoboDK’s Virtual Assistant 通过与 Microsoft Azure OpenAI Service 的集成,实现了机器人数据的高效处理和分析。该应用提供了一个自然语言用户界面,使机器人开发者和使用者可以与 AI 应用进行交互,请求专家的建议和指导。同时也可以协助用户完成诸如自动创建和修改机器人程序、优化机器人运动和路径、提高机器人性能和安全性等任务。RoboDK’s Virtual Assistant 还可以学习公司特定的信息,如机器人型号和参数、机器人应用和场景、机器人操作和故障排除手册等,为用户提供即时的支持,回答特定的问题。例如,如何选择合适的机器人、如何设置机器人工具和工件、如何解决机器人碰撞或奇异性问题等。
斯坦福大学教授李飞飞团队发布了名为“VoxPoser”的项目,该项目用大模型指导机器人如何与环境进行交互,通过将大模型接入机器人,可将复杂指令转化成具体行动规划,人类可以很随意地用自然语言给机器人下达指令,机器人也无需额外数据和训练。
3. 大模型基于助手模式提升经营管理水平
3.1 管理软件辅助
经营管理环节具备较强的通用性,因而成为大模型较容易应用的工业场景。大模型在管理软件辅助方面的应用,主要是通过自然语言交互等方式,实现对经营管理数据的智能化分析和处理。通过对 CRM、ERP、SCM 等管理软件的赋能,大模型能够提高客户关系、订单管理、供应链管理等方面的效率和质量,为企业提供更精准和个性化的服务。大模型还能够根据用户的需求或描述,自动生成报告、简报、订单等多种形式的内容,为用户提供更便捷和高效的信息服务。
Salesforce 推出一款名为“ AI Cloud ”的客户关系管理(CRM)软件,帮助客户提高生产力和效率。AI Cloud 的服务范围覆盖 Salesforce 的旗舰产品:从 Einstein 服务到工作消息应用程序 Slack 和数据分析软件 Tableau 。AI Cloud 总共有九种模型:销售GPT、服务GPT、营销GPT、商业GPT、Slack GPT、Tableau GPT、Flow GPT 和 Apex GPT。销售 GPT 可以快速自动制作个性化电子邮件;服务 GPT 可以根据案例数据和客户历史创建服务简报、案例摘要和工作订单;营销 GPT 和商业 GPT 可以将受众细分,以便根据每个买家的特点定制产品描述,或者提供如何提高平均订单价值等建议。
3.2 知识管理与问答助手
企业知识管理与问答助手类应用已经成为大模型在企业端落地的先行场景,以知识库为代表的问答助手类应用落地广泛,通过对企业的产品、服务、流程、规范、文档等方面的图像和数据进行分析,大模型能够构建和更新企业的知识库,为企业提供全面和准确的知识管理。同时,通过对用户的需求或问题进行理解和回答,大模型能够为用户提供智能的问答和辅助,解决用户在工作中遇到的各种问题,提高用户的工作效率和满意度。
Andonix 推出了 Andi,一个专为工厂工人设计的AI 驱动的制造聊天机器人。Andi 实现了工厂数据的智能化分析和处理,并提供了一个自然语言用户界面,使工厂工人可以与聊天机器人进行人性化的对话,请求专家的帮助和支持。Andi 可以协助工人完成诸如自动监控机器和流程性能、解决问题、生成行动计划、检查清单和工作指导等任务,还可以学习公司特定的信息,如机器操作和故障排除手册、质量系统、人力资源手册等,为工人提供即时的支持,回答特定的问题,如如何修复特定的机器故障代码、识别导致机器停机最多的三个问题、确定最近一小时的一次合格率(FTQ)或者澄清公司的假期政策等。
Hitachi 正在利用生成式人工智能,将维护和制造方面的专业技能传授给新员工,旨在减轻经验丰富员工退休的影响。熟练的工人利用多年经验培养的直觉,来检测可能导致事故或故障的细微异常——如设备的声音、温度或气味的变化,然而这些制造业中的隐形知识存在传递困难。日立已经开发了一个 AI 系统,可以根据工厂的三维数据,生成图像,将可能的故障——如烟雾、塌陷、轨道弯曲——投影到实际的轨道图像上,支持维护工人身临其境的学习如何检查异常。该系统有望通过让他们学习可能导致严重事故的多种问题,来提高维护工人的技能,并允许用户通过虚拟现实设备在远程地点参与培训。
4. 大模型基于交互能力推动产品和服务智能化
产品智能交互
在产品服务优化环节,将大模型的能力集成到产品中,也成为消费电子、汽车等领域产品智能化能力提升的探索焦点。BMW(宝马)基于亚马逊 Alexa 大语言模型提供的生成式 AI 技术打造全新一代个人助理。可以为驾乘人员提供更人性化的帮助,及时解答有关车辆的疑问;通过语音可实现人车智能化交互,为用户带来情感化数字体验。
腾讯新一代智能座舱解决方案 TAI4.0 从场景和用户体验出发,深度利用汽车的感知能力和大模型的学习理解能力,构建从多模交互到个性化服务的完整智能化闭环体验。基于插件工具、内容生态,为用户在智能交互、效率提升、亲子娱乐等场景下提供丰富的 Agent 能力,比如行程规划,生成式 UI 等。
智能客服与售后
腾讯将大模型客服知识问答的 SaaS 核心能力下沉,升级为智能知识引擎 PaaS 平台,以平台能力赋能各式各样知识问答前端应用的构建。基于腾讯大模型知识引擎, 比亚迪开发了 AI 语音助手应用,对其 VDS 设备(Vehicle Diagnostic System,车辆诊断系统)进行了全新升级。比亚迪维修车间的汽车维修工人,双手经常需要佩戴绝缘手套、或者沾有油污,不方便操作点击 VDS 设备。而新员工在查询汽车相关信息、维修专业知识、业务工单等方面也会存在不熟悉、缺乏业务经验等现象。智能问答机器人可以作为 VDS 内置的 AI 语音助手,只需要通过口语化的表达咨询,就可以快速实现维修知识问答,并调取相关的内容进行可视化前端呈现。
本文摘编自腾讯研究院、中国通信工业协会物联网应用分会、毕马威企业咨询(中国)有限公司、腾讯云智慧行业五部联合撰写的《工业大模型应用报告》。
在此声明以上观点和内容,仅代表原作者和出处,与数治网DTZed 无关,如有出错或侵犯到相关合法权益,请通过电邮与我们联系:cs@dtzed.com。
加入“数治x”行业社群, 300+ 高质量前沿资料免费下载,不只做个资料党,更开启你的自主个性化学习旅程,在公众号“idtzed”上回复“入”直通:
资料、学习、成长问答助手;
图解、模板、问卷行业工具包;
个人、团队数据素养水准评估;
数治连线产研导师专场直播等。