大规模语言模型(LLM)领域在处理长上下文、提高推理效率和减少幻觉问题方面一直面临着挑战。具体来说,传统的Transformer架构在处理长文本时存在注意力机制效率低下和信息丢失的问题,导致模型在长上下文任务中表现不佳。如何在保持模型性能的同时,提高长上下文任务的推理效率;如何减少模型在处理长文本时产生的幻觉现象;如何在现有计算资源下优化注意力机制的计算复杂度。
在此,我们从2022年到2025年间LLM领域的重要里程碑和代表性论文,一睹大模型的研究进展和技术趋势,特别是在规模、效率、智能和可控性方面取得的重大突破。
一、LLM领域趋势概述
过去几年,大规模语言模型(LLM)取得了突飞猛进的发展。从GPT-3时代参数疯长,到如今对模型效率、可控性以及能耗的全面考量,研究焦点不断演进。在2022年至2025年的关键工作中,我们可以看到几大趋势:
首先,大模型的规模依然在增长,但人们逐渐认识到“更大未必更好,训练数据同等重要”。DeepMind的Chinchilla研究表明,与其简单堆叠参数,不如按计算预算合理平衡参数量和训练语料。事实证明,一个较小的模型只要“喂饱”足够多的数据,也能击败体型更庞大的对手。
这一发现扭转了此前唯参数论的思路,引导业界在扩展模型时更加重视数据规模和质量。与此同时,Transformer架构本身在不断改进。基础的自注意力机制虽然强大,但计算代价随上下文长度二次增长。
为此,研究者提出了各种高效注意力方法和替代架构:例如FlashAttention通过优化内存访问大幅加速了注意力计算;选择性注意力机制则尝试让模型自动忽略不相关的信息,既提高性能又降低开销。更激进的创新如Retentive Network甚至引入循环网络思想,使模型在长文本推理时接近线性时间。这些探索旨在突破Transformer的效率瓶颈,让模型在处理更长文本时依然高效稳健。
模型对齐和可控性也是重点攻坚方向。早期的GPT-3虽强大却常常“不听话”,输出内容可能有害或离题。2022年的InstructGPT通过人类反馈强化学习,让模型学会遵循指令,显著提升了回答的有用性和安全性。随后的ChatGPT大获成功,证明对齐技术的价值。
然而,人类反馈过程昂贵且有主观偏差,Anthropic等提出“AI宪法”等方案,用AI自我反馈来替代部分人工标注,进一步减少了对齐成本 。总的来看,研究正使LLM变得更听话、更安全,朝着成为可靠AI助手的方向迈进。
此外,大模型正变得更开放和节能。以Meta的LLaMA和清华的GLM-130B为代表的开源模型,相继开放了数百亿参数量级的权重。这不仅让研究社区共享最先进模型成为可能,也催生了大量低成本的精调应用。为了解决庞然大物的能耗问题,量化和蒸馏等技术得到应用,把模型“瘦身”到8-bit甚至4-bit运行。
有研究者甚至尝试跳出传统矩阵运算范式,凭借特制硬件在仅仅相当于一个灯泡功耗的13瓦能耗下运行上亿参数模型 。这些努力意味着未来的LLM有望以更小的能耗为更多人所用。
二、LLM领域时间线梳理
•2022年3月 – InstructGPT(OpenAI):
首次将人类反馈强化学习(RLHF)用于大模型微调,使模型学会遵循指令并减少不良输出。经人工评估,仅13亿参数的InstructGPT在遵循指令方面竟优于1750亿参数的GPT-3。这一工作奠定了让LLM对齐人类意图的里程碑。
•2022年3月 – Chinchilla(DeepMind):
提出“大模型训练的算力最优定律”。研究发现此前的LLM参数规模远超训练语料,模型严重“欠训练”。他们在固定算力下训练了70亿参数但语料量4倍于同算力大模型的Chinchilla,性能全面超越更大的Gopher(2800亿)、GPT-3(1750亿)等,证明与其一味增大模型,不如增加训练数据。
•2022年4月 – PaLM(Google):
“Pathways语言模型”参数高达5400亿,利用谷歌Pathways多机调度系统在6144颗TPU上训练。PaLM在数百项任务上实现Few-shot学习的SOTA性能。更令人惊奇的是,随着规模增长模型涌现出链式思维推理能力。例如,配合链式思维提示,PaLM在小学数学题集GSM8K上一题多问情况下解对率达58%,超过此前GPT-3微调模型55%的记录。这标志着规模带来了质变的新能力。
•2022年7月 – 开源多语种LLM:
Meta发布OPT-175B,BigScience发布BLOOM-176B模型,首次向学界开放与GPT-3体量相当的LLM。其中BLOOM支持多达46种语言和多领域数据,体现出大模型社区协作开放的新趋势。
•2022年7月 – GLM-130B(清华大学等,ICLR 2023):
提出面向中英双语的1300亿参数预训练模型。GLM采用双向自回归统一模型架构,训练了中英各4000亿词汇。在英文基准上性能略超GPT-3,中文任务大幅领先同时期模型。更重要的是,它支持INT4量化加速推理,实现百亿级模型在单机上的高效部署 。
•2022年11月 – ChatGPT上线:
基于InstructGPT的对话代理ChatGPT公测,上线5天用户破百万。它能根据提示对话、创作内容,表现出前所未有的实用性,引发大众对LLM的关注热潮,也促使业界掀起“对话式AI”竞赛。
•2023年2月 – LLaMA(Meta):
开放了一系列7B~65B参数的基础模型,只用公共数据训练。13B参数的LLaMA在多数基准上超越GPT-3(175B) ,65B模型性能媲美Chinchilla-70B和PaLM-540B。Meta将模型权重开放给研究者,加速了开源社群对LLM的研究和精调(如衍生的Alpaca等)。
•2023年3月 – GPT-4(OpenAI):
新一代多模态LLM,可处理图像和文本输入,文本输出。GPT-4在法律考试等专业测试中达到人类上游水平(如模拟律考成绩处于考生前10% ),展示了接近人类的语言理解和推理能力。OpenAI还采用了后训练对齐(如人类反馈强化学习)来提升事实准确性并约束行为。
•2023年4月 – 可解释性和对齐新探索:
Anthropic提出“AI宪法”方案,用一套原则让AI自我评估输出是否有害,再自我改进,从而减少人工干预。此外,研究者开始剖析LLM内部机制,如Anthropic关于特征重叠*的模拟实验揭示单个神经元可同时存储多个概念 。这些工作增进了对黑箱模型的透明度了解。
•2023年中 – 高效微调与推理:
为降低大模型使用门槛,出现了如LoRA低秩适配微调和QLoRA四比特量化微调方法。例如QLoRA通过4-bit量化把65B模型微调的GPU显存需求压缩数十倍,却几乎不损性能,令个人设备上的LLM定制成为可能。另一方面,FlashAttention等优化使注意力计算更快更省显存,推理加速库和芯片的进步也持续降低大模型的能耗成本。
•2023年下半年 – 超长上下文与工具使用:
Anthropic的Claude模型率先支持10万Token上下文窗口,能够处理超长文档,这得益于特殊位置编码和高效内存管理等改进。同时,研究者探索让LLM调用外部工具和知识库,如Toolformer让模型自动决定何时调用API,以弥补闭门模型在实时知识和算术方面的不足。
•2024年 – Transformer架构新变体:
面临LLM推理耗时和幻觉问题,业界开始改进Transformer核心机制。例如微软-清华提出差分Transformer,通过两路注意力取差分抵消无关干扰,让模型更专注关键信息,显著降低长上下文下的信息遗失和幻觉。
谷歌提出选择性注意力,允许模型自动“遗忘”上下文中不再需要的部分,不增加参数却提升文本生成质量,并可大幅压缩推理时的注意力计算量。另有新的Retentive Network等架构尝试引入循环机制,实现线性时间的长序列处理和更快的推理。这些探索预示着更高效、更精确的大模型架构即将到来。
三、LLM领域精选论文解析
1、InstructGPT:让大模型听从人类指挥
代表论文: Ouyang et al., Training language models to follow instructions with human feedback, 2022 。
创新:在GPT-3基础上引入人类偏好强化学习(RLHF)微调步骤。研究者先由人工编写提示和理想输出示例,对GPT-3进行有监督微调,使其学会基本的指令-following;接着又让模型对不同回答进行比较排名,并通过强化学习让模型倾向于人类偏好的回答。这个两阶段流程显著改变了模型的行为方式。
核心洞见:逼近人类期望的输出并非只能靠增大模型规模来实现。通过反馈信号引导,模型可以学会以前未能掌握的对话礼仪、事实准确性等。“更聪明”不如“更听话”——InstructGPT证明了即使参数远少于原始GPT-3(13亿 vs. 1750亿),只要对齐得当,模型依然能给出更令用户满意的回答 。这是一个令人震惊的结果:小模型通过学习人类反馈“规矩”反而胜过了大模型。同时,有害内容和无关瞎扯显著减少,回答变得简洁有用。
影响:InstructGPT开启了对齐时代。其成功直接催生了ChatGPT等对话系统,把LLM从“会说话的预测机”转变为“听得懂指挥的助手”。如今主流LLM如GPT-4都在训练末期加入了类似RLHF的对齐步骤,以确保模型输出符合人类期望。这项工作还引发了对AI安全的重视:我们看到,透过精心设计反馈机制,可以在不改动模型架构的情况下,大幅提升模型的可靠性和安全性。
2、Chinchilla:计算最优的训练范式
代表论文: Hoffmann et al., Training Compute-Optimal Large Language Models, 2022 。
创新:系统探究了在给定算力预算下,应该如何平衡LLM的参数规模和训练语料量才能使性能最大化。此前业内默认做法是不断加大模型参数而训练数据不变,Chinchilla论文通过训练400多个不同规模和数据量的模型发现,这是低效的:当前的大模型普遍“喂不饱”,即数据量不足以充分训练那么多参数。他们提出经验定律:模型参数和训练tokens应按等比例关系增长,即参数每扩大一倍,训练数据也增加一倍。
核心洞见:研究团队据此训练了一个代号“Chinchilla”的模型,以与2800亿参数的Gopher相同的计算量为上限,但选取只有700亿参数、训练语料却是Gopher的4倍。结果Chinchilla在各项NLP基准上全面超越了Gopher,以及GPT-3、Jurassic等比它参数多数倍的模型。
这说明先前那些超大模型并未发挥出应有潜力——它们只是“块头大”,但由于训练数据不足,能力并未随参数线性增长。Chinchilla证明了喂养充足数据的重要性:在相同算力下,“小而勤学”型模型可以胜过“庞然懒学”型模型。
影响:这一发现对大模型研发策略产生了深远影响。OpenAI等在后续训练GPT-4时据称也采纳了类似思路,用更长时间和更多数据来训练,而非一味追求参数规模。业界开始重新评估此前那些超大模型的训练流程,并调低了盲目扩充参数的热情。可以说,Chinchilla工作为“大而全”转向“精而饱”提供了实验依据,优化了算力投入的性价比。在算力和环境成本日益受关注的今天,这种高效训练范式尤为具有指导意义。
3、PaLM & GPT-4:规模涌现与多模态跨越
代表论文: Chowdhery et al., PaLM: Scaling Language Modeling with Pathways, 2022 ; OpenAI, GPT-4 Technical Report, 2023 。
创新:PaLM和GPT-4分别代表了各自时代在规模和能力上的巅峰。PaLM通过谷歌Pathways系统实现了前所未有的训练规模:5400亿参数模型横跨多个TPU Pod并行训练 ,硬件利用率高达57.8% 。如此庞大的模型在几乎所有语言理解任务上取得了新的few-shot记录 。更引人注目的是,PaLM展示了随规模涌现出复杂推理能力的证据。
当研究者采用“链式思维”提示它逐步思考时,PaLM能在需要多步推理的数学和常识题上达到前所未有的成绩 。例如无需专门微调,仅通过提示,PaLM就解出了58%的GSM8K数学难题,超过了之前基于GPT-3微调+工具辅助的55%最佳水平 。这种无需额外训练却因模型规模本身带来的能力提升,被称为涌现现象,标志着超大模型开始具备一些“类智能”的推理技巧。
GPT-4则在规模和能力上更进一步,并首次引入了多模态特性。虽然OpenAI未公布其细节架构,但从表现看,GPT-4可能应用了更优化的Chinchilla式训练策略和大规模清理的数据。它不仅在语言任务上远超前代,在司法考试、数学竞赛等专业测试中接近人类高手水平;还能理解图像内容,将视觉信息融入对话。这意味着LLM开始从纯语言扩展到“视听”世界,朝通用智能更近一步。GPT-4还经过强化的RLHF对齐,表现出更强的事实准确性和安全性。
核心洞见:PaLM和GPT-4体现了“规模+良训”带来的质变:参数规模每提升一个量级,若有足够数据和新技巧(如链式思维提示、跨模态训练)相配合,模型就会掌握以前望尘莫及的能力——包括复杂推理、代码理解、跨模态分析等。这种能力并非人类直接教会,而是涌现于模型内部。这启示我们,大模型或许正在自发学到某种通用推理框架。
影响:PaLM的工作令业界意识到,巨型模型的训练在工程上可行并且值得,因为其Few-shot性能在多数任务上碾压了小模型。GPT-4的横空出世更是在社会层面引发轰动——它展示了AI在诸多专业领域挑战人类的潜力,也将多模态融合与人机对话推向新的高度。
随之而来的是对“涌现能力”的研究热潮:学界开始系统分析哪些任务会随着模型变大而突然变好,以及为什么会出现这种非线性跃升。这有助于我们把握进一步扩展模型的价值边际和可能的风险。此外,GPT-4的成功应用(如辅助编程、教育、创意写作)证明了超大模型的实用性,为更多行业采用LLM吃下定心丸。
4、LLaMA:开源小模型的巨大威力
代表论文: Touvron et al., LLaMA: Open and Efficient Foundation Language Models, 2023 。
创新:LLaMA是Meta发布的一系列中等规模LLM(参数7B、13B、33B、65B),专门使用公开数据集训练,并免费提供给学术研究 。技术上,Meta针对这些较小模型进行了精心的预训练策略:使用了海量、高质量的开放语料(如Common Crawl、维基百科等),并训练足够长时间以逼近算力极限,使模型充分收敛。此外,LLaMA采用纯Decoder架构,摒弃了有争议的颠覆性改动,旨在证明“小模型也能成大事”。
核心洞见:LLaMA项目最让人意外的发现是规模与性能的再平衡:一个只有130亿参数的模型(LLaMA-13B),在多数基准上竟然胜过了1750亿参数的GPT-3!而LLaMA-65B的表现也可以媲美当时最好的Chinchilla-70B和PaLM-540B 。也就是说,通过高效训练,小模型可以发挥出不逊于大模型的实力。这一结果再次印证了Chinchilla的结论,同时凸显了数据和训练策略的重要性。
而更大的意义在于,Meta选择开放权重。这使研究者和开发者无需巨额算力也能使用和改进这些模型。很快,Stanford等机构在LLaMA基础上微调出了Alpaca等对话模型,表现接近商业产品ChatGPT,但训练成本低廉。这掀起了开源社区改进LLM的浪潮,各种本地部署的聊天模型层出不穷。
影响:LLaMA证明了开源协作在大模型时代的可行性和价值。以前只有少数科技巨头垄断最强AI模型,而LLaMA的出现把好牌发到了人人手里。研究人员可以在其上探究新算法,开发者则能据此定制领域应用。不仅促进了学术研究(大量论文基于LLaMA做实验),也催生了诸如医疗咨询、法律问答等垂直领域的开源模型。
可以说,LLaMA平民化了LLM,极大加速了相关技术的普及与创新。此外,LLaMA展示的“小模型高效训练”思路也影响了后来者——创业公司开始尝试用更少资源训练媲美巨头产品的模型(如Mistral 7B等),推动行业进入“性能/效率”竞争的新阶段。
5、差分Transformer:让注意力回归本质
代表论文: Ye et al., Differential Transformer, 2024 。
创新:差分Transformer(Diff Transformer)是针对Transformer注意力机制的一项重要改进。传统Transformer的自注意力会对输入序列中所有词分配权重,但研究发现大模型常常“分心”:给无关背景也分配了不少注意力分数,导致关键信息被淹没。
Diff Transformer的核心想法是用差分信号消除噪音:将常规注意力机制一分为二,独立计算两组注意力分数,然后相减。由于无关词对两组注意力的贡献大致相同,相减后这些“公共噪声”被抵消,而真正相关的信息则被突出。这种设计类似于降噪耳机,用参考信号抵消背景噪音。
核心洞见:通过引入差分注意力,Transformer在提取关键信息时更为敏锐。在长文档阅读、问答等任务中,Diff Transformer显著提升了模型从冗长上下文中定位答案的能力。例如,给定一堆文档让模型找其中的答案,传统Transformer往往注意力涣散,而差分Transformer则能将注意力集中在包含答案的那段文本上 。
实验显示,在模型规模和训练数据增加的各种情况下,差分Transformer一致 outperform 原版Transformer。更有意思的是,它还改善了一些长期困扰大模型的现象:如幻觉(模型凭空编造不准确内容)和顺序敏感(提示例子顺序一变性能就降)。差分注意力让模型不被无关信息干扰,因而减少了不确定胡拼的倾向;同时模型对提示顺序的鲁棒性提升,因为它能聚焦真正重要的演示内容而不是表面顺序 。
影响:差分Transformer的提出,展示了Transformer架构在注意力机制层面依然有改良空间。它提醒我们,大模型之所以出错,有时并非缺少参数或算力,而是注意力分配方式不理想。如果能巧妙地优化计算方式,就能让同样的模型“更专心地思考”。这一理念也体现在同期谷歌提出的选择性注意力等方法上——都是为解决注意力“信息噪音”问题的尝试。
随着这类研究的推进,新一代LLM或许在不扩大规模的情况下,就能通过更聪明的注意力机制获得更佳表现。差分Transformer等工作为未来模型设计提供了新思路,即通过信号处理般的巧妙架构,使AI的“心智”更加专注、高效,减少走神和幻觉的情况。这将有助于打造在复杂任务中更可靠稳健的AI系统。
结语
各个研究都有其独特的优点和创新点,同时也存在一些不足和反思。
InstructGPT引入了人类反馈强化学习(RLHF)微调步骤,使模型能够更好地遵循人类指令,证明了即使模型参数较少,通过合适的对齐也能实现更好的性能,显著减少了有害内容和无关信息,提高了回答的质量和安全性。不过,人类反馈过程昂贵且主观,可能引入偏差。需要大量人工编写提示和理想输出示例,增加了训练成本。
Chinchilla提出了“大模型训练的算力最优定律”,强调了数据量和参数规模平衡的重要性,通过实验验证了较小但充分训练的模型可以超越更大但欠训练的模型。目前研究主要集中在NLP基准上,可能忽略了其他类型任务的适用性,而且训练数据和计算资源的需求仍然很高,对小型研究机构来说可能难以实现。
PaLM实现了前所未有的训练规模,展示了规模带来的涌现能力,在多语言理解和推理任务中表现出色。不足在于,需要大规模的计算资源和长时间训练,成本高昂,尽管展示出了涌现能力,但对这些能力的解释和理解仍需进一步研究。
GPT-4引入了多模态特性,扩展了模型的应用范围,在专业测试中接近人类水平,展示了强大的语言理解和推理能力。不过,多模态模型的训练和推理复杂度更高,需要更多的数据和计算资源来维持性能。
LLaMA提供了中等规模的模型,易于学术研究和应用开发,通过开源促进了社区协作和创新。尽管性能优异,但在某些特定任务上可能仍不及大型模型,开源模型还可能面临安全和隐私方面的挑战。
差分Transformer提出了差分注意力机制,提高了模型在长文档和复杂任务中的表现,减少了幻觉和顺序敏感等问题,提高了模型的鲁棒性。不足在于需要进一步验证其在不同任务和数据集上的适用性,改进后的模型可能在计算复杂度上有所增加。
总体而言,2022-2025年的研究让LLM在规模、效率、智能、可控等方面都取得了重大进步。从隐藏于实验室的庞大模型,到走入大众视野的聊天机器人,我们见证了技术到应用的飞跃。Transformer架构在新方法的加持下焕发出更强生命力,支撑模型理解和生成更复杂的内容。
更重要的是,研究者开始厘清“大模型为何如此智能”,并想办法让它们的行为更加符合人类期望。展望未来,随着架构优化、训练算法和对齐手段的持续创新,LLM将变得更加强大且更可控,在各行业释放出更大的潜力。
为帮助更好地了解大规模语言模型(LLM),数治网小编特别生成《数治脑图:LLM领域极具洞见的论文选读》,请扫码Q小治发送“250220”获取,升级成数治Pro个人、企业版助手和学习卡,更多人工智能、数据治理、安全与合规体系课程可随到随学。
一文让你和DeepSeek展开全局对话 用AI工具打败工具人,数治网院iDigi 即将推出AI+数据素养体系课程,为运营管理、市场营销、销售客服、产品研发、财务管理、人力资源等六大不同岗位人群充分利用DeepSeek等AI工具,课程将以入门到精通的工作全流程操作指引,涵盖数据素养、效率优化、文档辅助和内容学习四个方面三步进阶,逐步优化日常工作流程,实现效率和质量双重提升。
扫码申请素养测评,即可15分钟AI适配“一人一表”“一人一课”。只需¥199开卡体验单课时,激活完成自主学习、预约导师开讲、Q小治答疑、实操练习、分享心得等任务,参与评选“学习显眼包”赢数治Pro学习卡、盲盒!
作者:魔云兽,本文由OpenAI Deep Research生成,独家授权。图片:Bernard Hermant,Unsplash