今天,几乎所有人都同意:决定 AI 输出质量的关键,不再是模型本身,而是“喂”给它的信息。2025 年 7 月初,Andrej Karpathy 把这种信息喂养工作称作“上下文工程”;在两周后,OpenAI 研究员 Sean Grove 又提出“规范写作”。
两者看似方向不同,其实指向同一目标——让 AI 精确地理解人类意图,并稳定地给出正确结果。下面我们把前后的讨论串成一条线,讲清它们到底在说什么,以及我们该如何落地。
一、Karpathy 的上下文提醒
Karpathy 在X上转发 Shopify CEO 的一条消息,并补充:“别再只谈提示词了,真正起作用的是上下文工程。”他给出的理由很简单:
- 任何工业级 LLM 应用,都要在调用模型前塞进大量信息:任务描述、示例、外部检索结果、对话历史、可用工具、格式要求……
- 这些信息如果给少了,模型就会“瞎猜”;给多了,既浪费 token,又可能把关键信号淹没。
- 因此,工程师必须把“装填上下文”当成一门严谨的学科:什么时候取、取多少、取什么格式,都要像调 API 一样精确。
Karpathy 把整个过程拆成五个步骤,按时间先后排好:
① 把用户问题拆成子任务;
② 决定每个子任务需要哪些资料;
③ 用检索、记忆、工具调用等手段拿到资料;
④ 把资料整理成模型最容易消化的格式;
⑤ 调用模型,并对输出做验证和纠错。
只要其中任何一步出错,最终结果就会“跑偏”。所以他说,上下文工程既是科学——每一步都能量化评估,也是艺术——取舍之间需要直觉。
二、Grove 的规范升级
OpenAI 对齐团队研究员 Sean Grove 在两周后的 AI Engineer World Fair 上给出进一步答案:“比上下文更重要的,是一份可反复执行的规范(spec)。提示词只是草稿,规范才是源代码。”
Grove 用一段现场互动开场:“在座各位,有多少人把代码当作最终产出?”
一半人举手。
“如果你们把二进制文件当成最终产出,会扔掉源代码吗?”
所有人摇头。
“那为何我们在用 AI 时,总是把提示词扔掉,只留下生成的代码?”
现场哄笑,却也点出问题核心。Grove 的观点可以分三层展开。
第一层:沟通才是新的编程
AI 能力越强,写具体语法的工作量就越小;反过来,把需求讲清楚的工作量越大。因此,程序员的真正价值已经从“写代码”转向“结构化沟通”:
- 先和用户聊,把痛点翻译成目标;
- 再把目标拆成可测的标准;
- 最后把这些标准写成文字,让 AI 照着做。
这套流程里,文字版的需求文档——也就是规范——变成了最值钱的资产。
第二层:规范比代码更完整
代码只是规范的一种“有损投射”。
- 变量名会丢失原意;
- 业务背景无法反推;
- 价值观更是无从体现。
而规范可以包含:
- 业务目标;
- 输入输出格式;
- 性能与安全要求;
- 道德与合规底线。
同一份规范,今天可以生成 TypeScript,明天可以生成 Rust,后天还能直接输出测试用例或用户文档——像源代码跨平台编译一样方便。
第三层:规范可以直接训练模型
OpenAI 已经用“模型规范”做实验:
- 把规范写成 Markdown,配上一组高难度测试题;
- 用一个“裁判模型”给回答打分;
- 把得分反馈进训练循环,让大模型把规范“背”进权重。
结果是,大模型不再每次靠提示词临时回忆规则,而是把规则内化成“肌肉记忆”。这样,规范就从“人类共识”升级为“机器本能”,大幅减少了推理成本。
三、上下文和规范的交汇
表面看,Karpathy 强调“上下文”,Grove 强调“规范”;实际上,后者是前者的自然延伸。
- Karpathy 关注“单次调用前”如何把信息装填好。
- Grove 关注“多次调用、多人协作”时如何固化信息。
换句话说:
- 上下文工程解决“今天这次对话怎么喂”;
- 规范写作解决“以后所有对话都按同一套标准喂”。
两者合在一起,就是一条完整的流水线:
- 先用上下文工程跑通原型,找到哪些信息对结果最关键;
- 把这些信息提炼成规范,写成可测试的文档;
- 用规范去训练或约束模型,让它以后不必反复提醒;
- 当需求变动,再回过来更新规范,形成新版本。
四、如何落地:一张四步路线图
把上面两条路线合并,可以得到一套最小可执行的实践清单。
第一步:把一次对话拆成四层信息
从里到外依次是:
- 用户当前问题;
- 短期记忆:本轮对话上文;
- 长期记忆:用户画像、历史偏好;
- 外部知识:实时检索、工具返回。
用 Karpathy 的比喻,这四层就像四个抽屉,工程师的任务是“在正确的时间拉开正确的抽屉”。
第二步:用四种策略管理抽屉
LangChain 把上下文工程拆成四类动作,正好对应抽屉管理:
- 写入——把信息存起来(草稿板、长期记忆);
- 筛选——把相关信息拉出来(RAG、记忆检索);
- 压缩——把无用信息扔掉(摘要、裁剪);
- 隔离——把大任务拆成小任务(多 Agent、沙盒)。
把这四类动作写成脚本,就能让“装填上下文”不再靠手工。
第三步:把脚本沉淀成规范
当脚本跑稳后,立刻做三件事:
- 把“取哪些信息、取多少、取到什么格式”写成文字;
- 给每条规则配上测试用例;
- 把文字和用例一起放进 Git,像维护源代码一样维护。
这份文档就是 Grove 口中的“规范”,它同时服务人和机器:
- 对人——新人可快速复现;
- 对机——模型可据此微调或做对齐训练。
第四步:让规范自我进化
规范不是一次写完就完事。
- 每次需求变更,先改规范,再改代码;
- 每次线上事故,补一条测试用例;
- 每季度跑一次回归,确保模型仍符合旧规范。
长期下来,团队会积累出一套“活”的规范库,比任何个人经验都可靠。
五、完整示例与常见误区
1、会议调度 Agent 示例
下面用“让 AI 帮用户安排会议”举例,把四步串起来。场景如下:
用户发消息:“嘿,想确认一下,你明天方便快速碰一下吗?”
第一步:拆信息层
- 用户问题:询问明天是否有空;
- 短期记忆:昨天已聊过项目 X;
- 长期记忆:用户习惯在周三上午留空;
- 外部知识:明天的日历已满,周四上午有空。
第二步:脚本化抽屉
- 写入——把日历事件、邮件记录、用户偏好写入长期记忆;
- 筛选——根据对方姓名找到历史合作记录,决定用随意语气;
- 压缩——把日历详情压缩成一句“明天全满”;
- 隔离——把“发会议邀请”拆给邮件子 Agent。
第三步:沉淀规范
文档标题:《会议调度 Agent 规范 v1.2》
内容包括:
- 必须读取用户日历,且只读取未来 7 天;
- 必须读取与发件人最近 10 封邮件,决定语气;
- 如果当天无空,给出最近三个可选时段;
- 邮件子 Agent 必须在 5 秒内发出邀请。
每条规则后面都附一个 pytest 风格的断言,保证可自动验证。
第四步:持续迭代
- 两周后发现用户喜欢在周五下午留 buffer,于是更新规范;
- 增加测试用例:周五下午 3~5 点永远标记为 busy;
- 用新的规范重新微调模型,3 小时后上线。
2、常见误区与对策
- 误区 1:把提示词当一次性草稿
对策:任何跑通一次的提示词,24 小时内必须写成规范,否则就删掉。防止“僵尸提示”到处复制。 - 误区 2:一次塞进太多上下文
对策:给每个信息源设预算上限,例如外部检索不超过 500 token,历史对话只取最近 5 轮。超出部分用摘要或打分再决定取舍。 - 误区 3:规范写成散文没人看
对策:强制用 Markdown 列表,每条规则不超过 40 字;同时配一个可执行的测试脚本,让规范“自证有效”。
结语
2025 年的 AI 应用开发,已经走过三个阶段:
- 2023 年:比拼模型大小;
- 2024 年:比拼提示词技巧;
- 2025 年:比拼“如何把需求讲清楚并固定下来”。
Karpathy 让我们看见“上下文”的重要性,Grove 告诉我们“规范”才是最终答案。我们把两人观点合起来,就得到一条简单的落地路线。
只要按这条线执行,再小的团队都能在几周内把原型变成可靠产品,而不是永远陷在“调提示”的泥潭里。那就是:
先用上下文工程跑通单次任务 → 再把成功经验写成规范 → 用规范训练或约束模型 → 让规范随需求持续演化。
“老邪说”AI专栏系列:
- 人机协作:当你的AI助手总“已读乱回”,你还Vibe不Vibe?
- 《超4000亿!美国AI初创公司融资流向、赛道与逻辑全曝光(附一览表)》
- 《“小而美”改成“快而赚” 复刻小团队从0打造4000万营收AI爆款》
- 2018-2025 AI Agents进化简史:从“人工智障”到“超级助理”
来源:Founder Park。本篇针对全文结合生成式 AI 做出的核心摘要和解答,仅作为参考,请以原文为准。图片:Altumcode,Unsplash
碎片化学习,上 shuzhi.me !数智有你,一课开启:
- 一听微课堂破解“学用脱节”:留存率能做到81%
- 二问微学习培养“即插即用”:完课率能达到78%
- 三维微专业实现“产研融合”:在2周内完成迭代
所有课件、题库、问答基于海光认证iDTM+DeepSeek R1应用生成。免改免维云上多端AI透明化终身学习,现在我的台我来站!
更多有关模块课程、配套工具、框架问卷、服务矩阵以及整改案例等数治Pro一站式治理,欢迎扫码入群 @老邪 了解、获取。