大模型由于其强大的自然语言与多模态信息处理能力,可以应对不同语义粒度下的任务,进行复杂的逻辑推理,还具有超强的迁移学习和少样本学习能力,可以快速掌握新的任务,实现对不同领域、不同数据模式的适配,这些特点使得大模型较容易的赋能其他行业,提升行业效率。
如在信息检索领域,大模型可以从用户的问句中提取出真正的查询意图,检索出更符合用户意图的结果,还可以改写查询语句从而检索到更为相关的结果;在新闻媒体领域,大模型可以根据数据生成标题、摘要、正文等,实现自动化新闻撰写。此外,大模型还可以应用于智慧城市、生物科技、智慧办公、影视制作、智慧军事、智能教育等领域。大模型仍在快速迭代更新中,有着巨大的潜力赋能更多行业,提升整个社会的运行效率。
1. 信息检索
近年来,搜索引擎提供支持的功能逐步丰富,但是仍然沿用经典的检索范式:给定基于关键词的用户查询,搜索引擎高效地从海量的文档中检索到和该查询需求相关的文档,并按照相关性排序后返回给用户。通常来说,检索系统分为离线和在线两个阶段。在离线阶段,检索系统对文档进行预处理并构建索引(包括早期的倒排索引以及近年来的向量索引)。在在线阶段,检索系统接收到用户查询后,首先进行用户查询理解,并将理解处理后的查询送入索引中,通过检索模型(如经典的BM25 等概率检索模型或者基于神经网络的检索模型)计算文档和查询的相关性,召回最相关的 TopK 候选文档,然后再采用较为复杂、性能更强的精排模型对候选文档进行排序后输出。这种以索引为核心的“索引—召回—精排”检索架构被广泛应用在各种信 息检索系统中。
以 ChatGPT 为代表的生成式大模型和以搜索引擎为代表的检索模型是两种不同的信息获取方式。传统的检索模型侧重于“检索”,可以从海量的互联网内容(或其他信息源)中获取准确的信息,但是对于检索结果通常不做深入分析,当用户信息需求比较复杂时,需要用户浏览多个结果才能获取所需要的信息。而生成式大模型则是将大量知识存储在参数化的模型中,可以直接根据用户的问题生成答案,能够更便捷地满足用户的信息需求,但是由于返回信息是模型生成的,可能会存在虚假、陈旧或错误的信息。将两种信息获取范式的优势进行融合与互补,打造更为高效、准确的信息获取技术,具有重要的科学价值与应用意义。
图 1 New Bing 的搜索模式
2. 新闻媒体
图 2 自动新闻写作广泛应用
中国科学院自动化研究所基于自主研发的音视频理解大模型“闻海”和三模态预训练模型“紫东太初”,联合新华社媒体大数据和业务场景,在 2021 年 12 月推出了“全媒体多模态大模型”。该项目通过构建大数据与大模型驱动的多任务统一学习体系,实现了对全媒体数据的统一建模和理解生成。该模型兼具语音、图像、文本等跨模态理解和生成能力。项目将加速 AI 技术在视频配音、语音播报、标题生成、海报设计等多元体业务场景中的应用。
3. 智慧城市
在智慧城市方面,阿里巴巴的多模态大模型 M6 已经被应用于在 Talk2Car 任务中。具体地,用户通过给出一个指令,比如“在前面那个绿车前面停下来”,就可以定位指令中所指的车辆。
2023 年 7 月 7 日,城市大模型 CityGPT 正式发布,旨在提升智能城市的治理能力,赋能城市经济、产业、商业、文旅、金融等领域,打造真正的城市级大脑。具体地,在认知人工智能领域首次开启了空间场景智能决策以及“元宇宙城市”可交互体验价值链,能够实现对城市-园区-商圈-社区-网点级别的智能计算与研判,为线上线下数实融合的智能决策和场景交互提供具有 AI 自学习能力的“空间 AI 专家顾问”服务。
图 3 城市 AI 大模型
4. 生物科技
DeepMind 联合谷歌旗下生物科技公司 Calico,开发了一种结合 DNA 远端交互进行基因表达和染色质状态预测的神经网络架构 Enformer,能够一次编码超过 20 万个碱基对,大幅提高了根据 DNA 序列预测基因表达的准确性。为进一步研究疾病中的基因调控和致病因素,研究人员还公开了他们的模型及对常见遗传变异的初步预测。
美国哈佛医学院和英国牛津大学的研究人员合作开发出一款可准确预测致病基因突变的AI 模型“EVE”,已预测出 3200 多个疾病相关基因中的 3600 万个致病突变,且对 26.6 万个至今意义不明的基因突变是“致病”还是“良性”做出归类。未来,该 AI 模型可帮助遗传学家和医生更精确地制定诊断、预后和治疗方案。
AlphaFold2[161]通过深度学习和人工神经网络等技术,预测蛋白质的三维结构。在此之前,预测蛋白质结构是一项非常耗时、困难且复杂的任务,需要耗费许多时间和大量的实验数据。AlphaFold2 使得人们可以在数分钟内预测蛋白质的结构。
图 4 AlphaFold2 的系统框图
5. 智慧办公
微软推出的新一代办公软件 Copilot,将大模型应用于办公场景,实现智能化协助用户提高工作效率。在文字处理软件 Word 中,Copilot 可以协助用户撰写各类文档,实现文档创作、编辑和总结等功能,用户只需用自然语言提出需求,Copilot 即可以快速生成或修改文档内容。在演示文稿软件 PowerPoint 中,Copilot 可以根据用户的要求,自动生成演示文稿幻灯片。在电子表格软件 Excel 中,Copilot 可以完成数据统计分析,并将结果以图表的形式清晰可视化呈现。
图 5 大模型与办公
6. 影视制作
在影视行业,大模型技术为内容制作和影视创作带来了新的变革。大模型可以应用于剧本创作、角色设计和音乐配乐,为影视制作带来更多元化和个性化的创意。此外,大模型还能用于视频内容分析,实现内容标签化和智能推荐,提升观众的观影体验。
图 6 大模型影视创作案例
7. 智能教育
2023 年,国内教育科技公司积极布局教育领域大模型,推出多项创新应用,以智能化手段提升教与学效果。7 月,网易有道发布面向 K12 教育的大模型“子曰”,实现个性化分析指导、引导式学习等功能,大模型能够较好地因材施教,为学生提供全方位知识支持。8 月,好未来发布数学领域大模型 MathGPT,可自动出题并给出解答,涵盖小学到高中数学知识。教育领域大模型正成为智能辅助教学的新工具,其知识整合能力可满足学生动态需求,实现个性化学习,与教师共同提高教学质量。
8. 智慧金融
2023 年 6 月,恒生电子发布多款大模型金融应用,其中金融行业大模型 LightGPT 使用超过 4000 亿字节的金融领域数据进行预训练,支持 80 多项金融专属任务,能准确理解金融业务场景需求。8 月,马上金融发布国内首个零售金融大模型“天镜”,具有知识汇集、唤醒数据价值等应用场景,可助力零售金融机构实现智能客服、精准营销、风险控制等能力。在模型训练规模不断扩大的背景下,金融行业大模型精度持续提升,已经成为金融机构实现业务智能化的重要途径。
9. 智慧医疗
2023 年 5 月,医联推出医疗语言模型 MedGPT,实现从预防到康复的全流程智能诊疗,提升实际临床应用价值。7 月,谷歌 DeepMind 研发 Med-PaLM[89]医疗大模型,其在医学考试和开放式问答上达到专家水平,回答准确率高达 86.5%,大幅超过早期版本。非专业评估者也高度认可其问诊效果。同月,京东健康发布“京医千询”大模型,可以理解医学多模态数据,并根据个性化诊疗需求进行智能决策。医疗大模型正在成为提升临床决策效率和服务水平的重要工具,通过学习处理海量医学知识,可以高效辅助各环节工作,具有广阔的应用前景。
10. 智慧工厂
服饰行业中,阿里巴巴开发的多模态大模型 M6 已成功应用于犀牛新制造,实现了例如文本到图像生成等多种应用案例。传统服装设计过程中,设计师需要花费很长的时间设计衣服并进行线上样款测试,但基于文本到图像生成技术,可以直接输入流行的服装款式描述到 M6 模型中生成相应款式图片。这项技术将原本冗长的设计流程压缩了超过十倍的时间,目前已经商业投产,并且与三十多家服装商家在双十一期间成功地进行了合作。
11. 生活服务
阿里巴巴的多模态大模型 M6 已经在众多民生服务领域产生了影响。首先,M6 除了提供文本到图像生成的能力,还被改进为可根据交互需求不断完善其生成结果。例如,在给定一张衣服图像时,用户可以保留其领子并进一步进行个性化调整。M6 改进后每次可以只生成一部分的token。随着多次迭代,其生成结果也会越来越好。另外, M6 还被用于生成营销文案,传统方法需要十万到百万级别训练数据才能达到工业级可用,M6 只需要使用原来 5% 左右的样本,即可实现百分之八十五以上的通过率。这得益于多模态预训练,即输入不仅包括题目,还可以输入图,大大增加了模型的预测效率。M6 模型还被应用于生成推荐理由,并已在阿里小蜜上线。最后,在数字人应用中,如淘宝直播,通常需要使用语音识别(ASR)将主播的口述转换为文本形式。为了提高转换质量,需要过滤掉主播口语化的语言部分。借助于多模态深度学习模型 M6,这一过程已经成功地上线实现。
12. 智能机器人
2022 年 12 月 13 日 Google 发布 Robotic Transformer-1,框架十分简洁,将图像与文本指令抽取特征,再放入 Transformer 直接训练,对 EverydayRobots 公司机器人的机械臂状态和移动底盘状态直接进行学习。
2023 年 1 月 24 日,Microsoft 发布了Control Transformer, 将大模型常用的自监督训练方式以及预训练-微调的训练部署方式延续到了控制任务上。预训练阶段,通过两个短期特征指标(预测下一时刻的观测/正运动学,预测上一时刻的动作/逆运动学)以及一个长期指标(随机遮盖一些观测-动作序列,进行预测)来学习观测-动作的特征。
13. 其他应用
在气象方面,大模型也取得了突破。2023 年 7 月 6 日,国际顶级学术期刊《自然》(Nature)杂志正刊发表了华为云盘古大模型研发团队研究成果。华为云盘古大模型使用了 39 年的全球再分析天气数据进行训练,其预测准确率与全球最佳数值天气预报系统 IFS 相当。与IFS 相比,盘古气象在相同的空间分辨率下速度提升了 10000 倍以上,同时保持了极高的精准度。
此外,大模型的应用还包括但不限于如下场景:智能创意,在游戏、广告、美术和影视等创意设计内容的领域,大模型可帮助实现角色立绘、特效设计、动画分镜等,较大提升创意设计的工作效率,降低制作成本;自动驾驶:通过融合视觉、雷达、红外等多模态传感器数据,实现对道路、车辆和行人的全方位感知和理解,推动自动驾驶技术的发展。智能辅助设备:通过语音、图像等多模态数据,为智能助理、智能家居等设备提供更自然智能的人机交互方式,以提升用户体验。
本文摘编自中国人工智能学会发布的《中国人工智能系列白皮书——大模型技术(2023 版)》。
下载所需前沿标准、白皮书和报告,加入 AIGC+X 赋能成长营,¥99 起即可开启自主学习、素养测评、社群辅助、刷题考证、资料更新等升值加薪通道。AI 共创导师就在你身边,扫码添加老邪企业微信,入群领取指南、预约宣讲:
更多内推、热招职位征集中,一起用 AI 工具打败工具人。