谷歌眼中的 Agent :从定义到运作来为你答疑解惑

这种结合了推理、逻辑以及访问外部信息的能力,并且所有这些都连接到一个生成式 AI 模型,便引出了 Agent 的概念,即一个超越了生成式 AI 模型独立能力范围的程序。

谷歌眼中的 Agent :从定义到运作来为你答疑解惑
出处:数治网综合

人类非常擅长处理混乱的模式识别任务。然而,他们通常依赖工具——比如书籍、Google 搜索或计算器——来补充他们先前的知识,然后才得出结论。就像人类一样,生成式 AI 模型可以被训练使用工具来访问实时信息或建议现实世界的行动。

例如,模型可以利用数据库检索工具来访问特定信息,如客户的购买历史,从而生成量身定制的购物推荐。或者,根据用户的查询,模型可以进行各种 API 调用,以向同事发送电子邮件回复或代表您完成金融交易。

要做到这一点,模型不仅需要访问一套外部工具,还需要具备以自我导向的方式规划和执行任何任务的能力。这种结合了推理、逻辑以及访问外部信息的能力,并且所有这些都连接到一个生成式 AI 模型,便引出了 Agent 的概念,即一个超越了生成式 AI 模型独立能力范围的程序。

什么是 Agent ?

在其最基本的形式中,生成式 AI Agent 可以被定义为一个应用程序,它试图通过观察世界并利用其可支配的工具对其采取行动来达成一个目标。Agents 是自主的,可以在没有人为干预的情况下独立行动,特别是当提供了它们应达成的适当目标或目的时。

Agents 在达成目标的方法上也可以是主动的。即使在没有来自人类的明确指令集的情况下,Agent 也可以推理出下一步应该做什么来实现其最终目标。虽然 AI 中 Agent 的概念相当普遍且强大,但这本白皮书侧重于在发布时生成式 AI 模型能够构建的特定类型的 Agent。

为了理解 Agent 的内部工作原理,让我们首先介绍驱动 Agent 行为、行动和决策的基础组件。这些组件的组合可以被描述为一个认知架构,并且可以通过混合和匹配这些组件来实现许多这样的架构。关注核心功能,一个 Agent 的认知架构中有三个基本组件,如图 1 所示。

模型

在 Agent 的范畴内,模型指的是将用作 Agent 流程的中心决策者的语言模型(LM)。Agent 使用的模型可以是一个或多个任何大小(小型/大型)的 LM,它们能够遵循基于指令的推理和逻辑框架,如 ReAct、思维链(Chain-of-Thought)或思维树(Tree-of- Thoughts)。

模型可以是通用的、多模态的或根据您特定 Agent 架构的需求进行微调的。为了获得最佳的生产结果,你应该利用最适合你期望的最终应用程序的模型,并且理想情况下,该模型已经在与你计划在认知架构中使用的工具相关的数据签名上进行了训练。

需要注意的是,模型通常没有使用 Agent 的特定配置设置(即工具选择、编排/推理设置)进行训练。然而,可以通过向模型提供展示 Agent 能力的示例,包括Agent 在各种上下文中使用特定工具或推理步骤的实例,来进一步为 Agent 的任务优化模型。

工具

基础模型,尽管在文本和图像生成方面令人印象深刻,但仍然受到其无法与外部世界互动的限制。工具弥补了这一差距,使 Agents 能够与外部数据和服务互动,同时解锁了超越底层模型本身能力的更广泛行动范围。工具可以采取多种形式,并具有不同的复杂程度,但通常与常见的 Web API 方法(如 GET、POST、PATCH 和 DELETE)保持一致。

例如,一个工具可以更新数据库中的客户信息,或者获取天气数据以影响 Agent 向用户提供的旅行建议。通过工具,Agents 可以访问和处理现实世界的信息。这使它们能够支持更专门化的系统,如检索增强生成(RAG),这显著扩展了 Agent 的能力,超越了基础模型自身所能达成的范围。

我们将在后面更详细地讨论工具,但最重要的是要理解工具弥合了 Agent 内部能力与外部世界之间的差距,解锁了更广泛的可能性。

编排层

编排层描述了一个循环过程,它管理 Agent 如何接收信息,执行一些内部推理,并使用该推理来指导其下一步行动或决策。通常,这个循环将持续进行,直到 Agent 达到其目标或一个停止点。编排层的复杂性可以根据 Agent 及其执行的任务而大相径庭。

一些循环可以是带有决策规则的简单计算,而另一些可能包含链式逻辑,涉及额外的机器学习算法,或实现其他概率推理技术。我们将在认知架构部分讨论更多关于 Agent 编排层的详细实现。

Agents vs. 模型

为了更清楚地理解 Agents 和模型之间的区别,请考虑以下图表:

  • 模型

知识仅限于其训练数据中可⽤的内容。
基于⽤户查询的单次推理/预测。除⾮为模型明确实现,否则没有会话历史或连续上下⽂的管理。(即聊天历史)
没有原⽣⼯具实现。
没有原⽣逻辑层实现。⽤户可以将提示格式化为简单问题或使⽤推理框架(CoT、ReAct 等)来形成复杂提示以指导模型进⾏预测。

  • Agents

通过与外部系统的⼯具连接来扩展知识。
管理的会话历史(即聊天历史)允许基于⽤户查询和在编排层中做出的决策进⾏多轮推理/预测。在此上下⽂中,“轮次”定义为交互系统和 Agent之间的⼀次交互。(即 1 个传⼊事件/查询和 1 个 Agent 响应)
⼯具在 Agent 架构中原⽣实现。
原⽣认知架构使⽤像 CoT、ReAct 或其他预构建的 Agent 框架(如 LangChain)的推理框架。

认知架构:Agents 如何运作

想象一下一个忙碌厨房里的厨师。他们的目标是为餐厅顾客制作美味佳肴,这涉及规划、执行和调整的某种循环。

  • 他们收集信息,比如顾客的订单以及食品储藏室和冰箱里有什么配料。
  • 他们根据刚刚收集到的信息,进行一些内部推理,思考可以制作哪些菜肴和风味组合。
  • 他们采取行动来制作菜肴:切菜、混合香料、煎肉。

在过程的每个阶段,厨师都会根据需要进行调整,随着配料耗尽或收到顾客反馈而完善他们的计划,并利用先前结果的集合来确定下一步的行动计划。这种信息接收、规划、执行和调整的循环描述了厨师用来达成目标的独特认知架构。

就像厨师一样,Agents 可以使用认知架构来达成它们的最终目标,通过迭代处理信息、做出明智决策,并根据先前的输出调整下一步行动。Agent 认知架构的核心在于编排层,它负责维护记忆、状态、推理和规划。它利用快速发展的提示工程领域及相关框架来指导推理和规划,使 Agent 能够更有效地与其环境互动并完成任务。

针对语言模型的提示工程框架和任务规划领域的研究正在迅速发展,产生了各种有前景的方法。虽然不是详尽无遗的列表,但以下是本出版物发布时可用的一些最流行的框架和推理技术:

  • ReAct,一个提示工程框架,为语言模型提供了一个思考过程策略,用于对用户查询进行推理(Reason)和采取行动(Act),无论有无上下文示例。ReAct 提示已被证明优于多个 SOTA 基线,并提高了 LLM 的人类互操作性和可信度。
  • (CoT),一个提示工程框架,通过中间步骤实现推理能力。CoT 有多种子技术,包括自洽性、主动提示和多模态 CoT,每种技术根据具体应用都有其优缺点。
  • (ToT),一个提示工程框架,非常适合探索或战略前瞻任务。它泛化了思维链提示,并允许模型探索各种思维链,这些思维链作为通用语言模型解决问题时的中间步骤。

Agents 可以利用上述推理技术之一,或许多其他技术,来为给定的用户请求选择下一个最佳行动。例如,让我们考虑一个被编程为使用 ReAct 框架来为用户查询选择正确行动和工具的 Agent。事件序列可能如下所示:

1. 用户向 Agent 发送查询

2. Agent 开始 ReAct 序列

3. Agent 向模型提供一个提示,要求它生成下一个 ReAct 步骤及其相应的输出:

a. 问题 (Question):来自用户查询的输入问题,随提示提供
b. 思考 (Thought):模型关于下一步应该做什么的想法
c. 行动 (Action):模型关于下一步采取什么行动的决定

    • i. 这里可能发生工具选择
    • ii. 例如,一个行动可以是 [Flights, Search, Code, None] 之一,其中前 3 个代表模型可以选择的已知工具,最后一个代表“无工具选择”

d. 行动输入 (Action input):模型决定向工具提供哪些输入(如果有)
e. 观察 (Observation):行动/行动输入序列的结果

    • i.这种思考/行动/行动输入/观察可以根据需要重复 N 次

f. 最终答案 (Final answer):模型提供给原始用户查询的最终答案

4. ReAct 循环结束,最终答案被返回给用户

如图 2 所示,模型、工具和 Agent 配置协同工作,根据用户的原始查询向用户提供有根据、简洁的响应。虽然模型可以根据其先验知识猜测答案(产生幻觉),但它反而使用了工具(Flights)来搜索实时的外部信息。这些额外信息被提供给模型,使其能够基于真实的、事实的数据做出更明智的决策,并将这些信息总结给用户。

总之,Agent 响应的质量可以直接关系到模型的推理能力和对这些各种任务采取行动的能力,包括选择正确工具的能力,以及该工具被定义得有多好。就像厨师用新鲜食材精心制作菜肴并关注顾客反馈一样,Agents 依赖于合理的推理和可靠的信息来提供最佳结果。在下一节中,我们将深入探讨 Agents 连接新鲜数据的各种方式。

结语

在技术狂飙的时代,我们需要保持清醒的头脑,以数据驱动的方式去思考和决策。《AI 商业进化论》为我们提供了一个宝贵的视角,让我们能够更好地理解 AI 技术的发展趋势,提升自己的数据 + AI 素养。

为了帮助大家更好地理解和应用书中的内容,数治网院 iDigi 特推出《数据 + AI 素养双效提升》体系课程:《利用 AI 优化业务流程综合指南》、《AI 工具职场应用与效能提升指南》、《职场 AI 进化:从工具人到 AI 指挥官》等,深入解读《AI 商业进化论》的核心思想,结合 AI 技术的应用趋势、数据驱动的决策方法、全场景的实现路径以及职场 AI 进化的策略等。

  • 通过学习《利用 AI 优化业务流程综合指南》这门课程,你将系统掌握 AI 在业务流程中的应用,全面了解 AI 如何优化每个环节,解决实际业务痛点,推动智能化转型。
  • 《AI 工具职场应用与效能提升指南》聚焦 AI 工具在企业中的全场景深度应用,从运营管理到人力资源,你将全面了解 AI 工具如何提升企业效能,推动企业从经验向数据驱动的决策模式转变。
  • 而《职场 AI 进化:从工具人到 AI 指挥官》这门课程,以数据思维与 AI 素养为核心,培养人机协作时代的 AI 指挥官能力。通过多维度教学组合,从方法到实践全面掌握AI驱动业务增长的关键路径。

升级你的职业“防护盾”,扫码申请素养测评,即可15分钟AI适配搭建微学习、微专业,开启“一人一表”“一人一课”。即日起只需¥199开卡体验单课时即赠《AI 商业进化论》一本,激活完成自主学习、预约导师开讲、Q小治答疑、实操练习、分享心得等任务,参与评选“学习显眼包”赢数治Pro学习卡、盲盒!


来源:《智能体(Agents)》,谷歌,作者:Julia Wiesinger, Patrick Marlow 和 Vladimir Vuskovic,AI 翻译:魔云兽

发条评论

你的电邮不会被公开。有*标记为必填。