AI Agent产品化要诀:在正确的时间拉开正确的“上下文抽屉”

要让 AI 精确地理解人类意图,并稳定地给出正确结果,上下文工程既是科学——每一步都能量化评估,也是艺术——取舍之间需要直觉。

AI Agent秒变爆款?带你精准拉开“产品化抽屉”的黄金时机
出处:数治网综合

今天,几乎所有人都同意:决定 AI 输出质量的关键,不再是模型本身,而是“喂”给它的信息。2025 年 7 月初,Andrej Karpathy 把这种信息喂养工作称作“上下文工程”;在两周后,OpenAI 研究员 Sean Grove 又提出“规范写作”。

两者看似方向不同,其实指向同一目标——让 AI 精确地理解人类意图,并稳定地给出正确结果。下面我们把前后的讨论串成一条线,讲清它们到底在说什么,以及我们该如何落地。

一、Karpathy 的上下文提醒

Karpathy 在X上转发 Shopify CEO 的一条消息,并补充:“别再只谈提示词了,真正起作用的是上下文工程。”他给出的理由很简单:

  1. 任何工业级 LLM 应用,都要在调用模型前塞进大量信息:任务描述、示例、外部检索结果、对话历史、可用工具、格式要求……
  2. 这些信息如果给少了,模型就会“瞎猜”;给多了,既浪费 token,又可能把关键信号淹没。
  3. 因此,工程师必须把“装填上下文”当成一门严谨的学科:什么时候取、取多少、取什么格式,都要像调 API 一样精确。

Karpathy 把整个过程拆成五个步骤,按时间先后排好:

① 把用户问题拆成子任务;

② 决定每个子任务需要哪些资料;

③ 用检索、记忆、工具调用等手段拿到资料;

④ 把资料整理成模型最容易消化的格式;

⑤ 调用模型,并对输出做验证和纠错。

只要其中任何一步出错,最终结果就会“跑偏”。所以他说,上下文工程既是科学——每一步都能量化评估,也是艺术——取舍之间需要直觉。

二、Grove 的规范升级

OpenAI 对齐团队研究员 Sean Grove 在两周后的 AI Engineer World Fair 上给出进一步答案:“比上下文更重要的,是一份可反复执行的规范(spec)。提示词只是草稿,规范才是源代码。”

Grove 用一段现场互动开场:“在座各位,有多少人把代码当作最终产出?”

一半人举手。

“如果你们把二进制文件当成最终产出,会扔掉源代码吗?”

所有人摇头。

“那为何我们在用 AI 时,总是把提示词扔掉,只留下生成的代码?”

现场哄笑,却也点出问题核心。Grove 的观点可以分三层展开。

第一层:沟通才是新的编程

AI 能力越强,写具体语法的工作量就越小;反过来,把需求讲清楚的工作量越大。因此,程序员的真正价值已经从“写代码”转向“结构化沟通”:

  • 先和用户聊,把痛点翻译成目标;
  • 再把目标拆成可测的标准;
  • 最后把这些标准写成文字,让 AI 照着做。

这套流程里,文字版的需求文档——也就是规范——变成了最值钱的资产。

第二层:规范比代码更完整

代码只是规范的一种“有损投射”。

  • 变量名会丢失原意;
  • 业务背景无法反推;
  • 价值观更是无从体现。

而规范可以包含:

  • 业务目标;
  • 输入输出格式;
  • 性能与安全要求;
  • 道德与合规底线。

同一份规范,今天可以生成 TypeScript,明天可以生成 Rust,后天还能直接输出测试用例或用户文档——像源代码跨平台编译一样方便。

第三层:规范可以直接训练模型

OpenAI 已经用“模型规范”做实验:

  1. 把规范写成 Markdown,配上一组高难度测试题;
  2. 用一个“裁判模型”给回答打分;
  3. 把得分反馈进训练循环,让大模型把规范“背”进权重。

结果是,大模型不再每次靠提示词临时回忆规则,而是把规则内化成“肌肉记忆”。这样,规范就从“人类共识”升级为“机器本能”,大幅减少了推理成本。

三、上下文和规范的交汇

表面看,Karpathy 强调“上下文”,Grove 强调“规范”;实际上,后者是前者的自然延伸。

  • Karpathy 关注“单次调用前”如何把信息装填好。
  • Grove 关注“多次调用、多人协作”时如何固化信息。

换句话说:

  • 上下文工程解决“今天这次对话怎么喂”;
  • 规范写作解决“以后所有对话都按同一套标准喂”。

两者合在一起,就是一条完整的流水线:

  1. 先用上下文工程跑通原型,找到哪些信息对结果最关键;
  2. 把这些信息提炼成规范,写成可测试的文档;
  3. 用规范去训练或约束模型,让它以后不必反复提醒;
  4. 当需求变动,再回过来更新规范,形成新版本。
四、如何落地:一张四步路线图

把上面两条路线合并,可以得到一套最小可执行的实践清单。

第一步:把一次对话拆成四层信息

从里到外依次是:

  • 用户当前问题;
  • 短期记忆:本轮对话上文;
  • 长期记忆:用户画像、历史偏好;
  • 外部知识:实时检索、工具返回。

用 Karpathy 的比喻,这四层就像四个抽屉,工程师的任务是“在正确的时间拉开正确的抽屉”。

第二步:用四种策略管理抽屉

LangChain 把上下文工程拆成四类动作,正好对应抽屉管理:

  • 写入——把信息存起来(草稿板、长期记忆);
  • 筛选——把相关信息拉出来(RAG、记忆检索);
  • 压缩——把无用信息扔掉(摘要、裁剪);
  • 隔离——把大任务拆成小任务(多 Agent、沙盒)。

把这四类动作写成脚本,就能让“装填上下文”不再靠手工。

第三步:把脚本沉淀成规范

当脚本跑稳后,立刻做三件事:

  • 把“取哪些信息、取多少、取到什么格式”写成文字;
  • 给每条规则配上测试用例;
  • 把文字和用例一起放进 Git,像维护源代码一样维护。

这份文档就是 Grove 口中的“规范”,它同时服务人和机器:

  • 对人——新人可快速复现;
  • 对机——模型可据此微调或做对齐训练。

第四步:让规范自我进化

规范不是一次写完就完事。

  • 每次需求变更,先改规范,再改代码;
  • 每次线上事故,补一条测试用例;
  • 每季度跑一次回归,确保模型仍符合旧规范。

长期下来,团队会积累出一套“活”的规范库,比任何个人经验都可靠。

五、完整示例与常见误区

1、会议调度 Agent 示例

下面用“让 AI 帮用户安排会议”举例,把四步串起来。场景如下:

用户发消息:“嘿,想确认一下,你明天方便快速碰一下吗?”

第一步:拆信息层

  • 用户问题:询问明天是否有空;
  • 短期记忆:昨天已聊过项目 X;
  • 长期记忆:用户习惯在周三上午留空;
  • 外部知识:明天的日历已满,周四上午有空。

第二步:脚本化抽屉

  • 写入——把日历事件、邮件记录、用户偏好写入长期记忆;
  • 筛选——根据对方姓名找到历史合作记录,决定用随意语气;
  • 压缩——把日历详情压缩成一句“明天全满”;
  • 隔离——把“发会议邀请”拆给邮件子 Agent。

第三步:沉淀规范

文档标题:《会议调度 Agent 规范 v1.2》

内容包括:

  • 必须读取用户日历,且只读取未来 7 天;
  • 必须读取与发件人最近 10 封邮件,决定语气;
  • 如果当天无空,给出最近三个可选时段;
  • 邮件子 Agent 必须在 5 秒内发出邀请。

每条规则后面都附一个 pytest 风格的断言,保证可自动验证。

第四步:持续迭代

  • 两周后发现用户喜欢在周五下午留 buffer,于是更新规范;
  • 增加测试用例:周五下午 3~5 点永远标记为 busy;
  • 用新的规范重新微调模型,3 小时后上线。

2、常见误区与对策

  • 误区 1:把提示词当一次性草稿
    对策:任何跑通一次的提示词,24 小时内必须写成规范,否则就删掉。防止“僵尸提示”到处复制。
  • 误区 2:一次塞进太多上下文
    对策:给每个信息源设预算上限,例如外部检索不超过 500 token,历史对话只取最近 5 轮。超出部分用摘要或打分再决定取舍。
  • 误区 3:规范写成散文没人看
    对策:强制用 Markdown 列表,每条规则不超过 40 字;同时配一个可执行的测试脚本,让规范“自证有效”。
结语

2025 年的 AI 应用开发,已经走过三个阶段:

  • 2023 年:比拼模型大小;
  • 2024 年:比拼提示词技巧;
  • 2025 年:比拼“如何把需求讲清楚并固定下来”。

Karpathy 让我们看见“上下文”的重要性,Grove 告诉我们“规范”才是最终答案。我们把两人观点合起来,就得到一条简单的落地路线。

只要按这条线执行,再小的团队都能在几周内把原型变成可靠产品,而不是永远陷在“调提示”的泥潭里。那就是:

先用上下文工程跑通单次任务 → 再把成功经验写成规范 → 用规范训练或约束模型 → 让规范随需求持续演化。

“老邪说”AI专栏系列:

  1. 人机协作:当你的AI助手总“已读乱回”,你还Vibe不Vibe?
  2. 《超4000亿!美国AI初创公司融资流向、赛道与逻辑全曝光(附一览表)》
  3. 《“小而美”改成“快而赚” 复刻小团队从0打造4000万营收AI爆款》
  4. 2018-2025 AI Agents进化简史:从“人工智障”到“超级助理”

来源:Founder Park。本篇针对全文结合生成式 AI 做出的核心摘要和解答,仅作为参考,请以原文为准。图片:Altumcode,Unsplash


碎片化学习,上 shuzhi.me !数智有你,一课开启:

  • 一听微课堂破解“学用脱节”:留存率能做到81%
  • 二问微学习培养“即插即用”:完课率能达到78%
  • 三维微专业实现“产研融合”:在2周内完成迭代

所有课件、题库、问答基于海光认证iDTM+DeepSeek R1应用生成。免改免维云上多端AI透明化终身学习,现在我的台我来站!

更多有关模块课程、配套工具、框架问卷、服务矩阵以及整改案例等数治Pro一站式治理,欢迎扫码入群 @老邪 了解、获取。

发条评论

你的电邮不会被公开。有*标记为必填。