I. 这篇文章对于研究LLM+MARL的意义

Posted Dec 31, 2024

By floyd white

15 min read

尽管ReAct本身是单智能体（single-agent）、开环的，但它为构建单个智能体（agent）的“大脑”提供了一个极其强大和有影响力的范式。在多智能体强化学习（MARL）中，每个智能体的能力是整个系统性能的基石。

1. 构建强大的单个智能体

MARL的核心是多个智能体的互动，但前提是每个智能体自身都必须足够“聪明”。ReAct展示了如何让一个LLM不仅仅是被动地生成文本，而是成为一个能够制定计划、使用工具、并根据观察进行动态调整的行动者。这是构建高性能多智能体系统中，每一个“成员”所需要具备的基础能力。

2. 为智能体间“推理”和“规划”提供思路

MARL中最困难的挑战之一是智能体如何对其他智能体的意图、信念和未来行动进行建模和推理。ReAct的“思考（Thought）”步骤为此提供了极佳的借鉴。您可以将ReAct的思考框架进行扩展：

原始ReAct思考：“我需要找到A，所以我应该先去B地搜索。”
扩展到MARL的思考：“我看到智能体2正在前往A点，这可能是个诱饵，也可能是他要去完成任务。我应该先到高地观察，而不是直接冲过去支援，以防被埋伏。”

这种明确的、语言化的推理过程，对于处理MARL中的复杂合作与竞争策略至关重要。

3. 作为一种潜在的通信机制

多智能体系统中的通信是一个核心难题。智能体之间应该在何时、以何种方式、传递什么信息？ReAct的“思考”轨迹本身就是一种结构化、可解释的自然语言。这为智能体之间的通信提供了一种非常自然的实现方式：智能体可以直接将自己的“思考”或“计划”广播给队友，实现高效的意图共享和行为协调。

4. 提升多智能体系统的可解释性

多智能体系统的行为往往非常复杂，出现问题时很难调试（所谓的“黑盒”问题）。如果系统中的每个智能体都采用类似ReAct的架构，那么当系统行为不符合预期时，您可以通过查阅每个智能体在关键时间点的“思考”日志来诊断问题，极大地提升了整个系统的可解释性（Interpretability）和可调试性。

5. 理解当前领域的前沿和基准

ReAct是“LLM作为智能体（LLM as Agent）”这一领域的开创性工作之一。后续很多更复杂的研究，包括您提到的Reflexion等，都是在ReAct的思想上进行构建和演进的。不理解ReAct，就很难理解后续工作的动机和创新点。

总之，ReAct虽然是单智能体范式，但它提供了构建智能、可控、可解释的LLM智能体的核心“设计哲学”和“组件”。这些对于解决更复杂的LLM+MARL问题（如合作、竞争、通信和规划）是不可或缺的基础。

II. Abstarct

1. 纯推理（只思考，不行动）的缺陷

纯推理方法，如“思维链”（Chain-of-Thought, CoT），虽然能进行逻辑推导，但其过程是封闭和静态的。

容易产生事实幻觉和错误传播：由于模型无法与外部世界互动以验证信息，它完全依赖其内部存储的、可能已过时或不准确的知识。这会导致它“编造”事实（幻觉），并且一旦推理链中的某一步出错，后续步骤很可能全错。
- 证据：在 HotpotQA 任务的分析中，幻觉是 CoT 方法最主要的失败原因，占其失败案例的 56%。
无法获取最新知识：模型无法通过行动（如查询数据库或API）来更新自己的知识。对于需要最新信息才能回答的问题，纯推理方法会失败。
- ReAct 的优势：ReAct 通过引入“行动”（例如，调用维基百科API）来解决这个问题。它能获取外部的、真实的信息来支持或纠正自己的推理，从而变得更加扎实、可靠和值得信赖。

2. 纯行动（只行动，不思考）的缺陷

纯行动方法专注于生成一系列操作，但缺乏高层次的规划和理解能力。

难以分解复杂任务和追踪进度：如果没有明确的推理过程来指导，模型很难将一个复杂的目标分解成一系列合理的子任务，也容易在执行过程中“忘记”当前的状态或目标。
- 证据：在 ALFWorld 任务中，纯行动模型（Act-only）无法正确地分解目标或追踪环境状态。在另一个例子中，它因为无法理解上下文而不断产生幻觉般的无效动作。
缺乏灵活性和适应性：当遇到意外情况或环境发生变化时，纯行动模型没有一个“思考”的步骤来帮助它分析问题并调整计划。
- ReAct 的优势：ReAct 的“推理”轨迹（Thought）起到了动态规划的作用。它帮助模型创建、维护和调整行动计划，从而能够灵活应对任务中的各种变化。

总结：ReAct 的协同优势

ReAct 之所以更优越，是因为它创建了一个 “思考”与“行动”相互协同的智能循环 。

思考指导行动：模型首先生成推理（Thought），明确目标和计划。
行动获取信息：然后根据计划执行行动（Action），与外部环境交互。
观察反馈思考：行动后得到的结果（Observation）会作为新的信息，反馈给模型，用于修正或进行下一步的思考。

这个“思考 → 行动 → 观察 → 再思考”的动态过程，使得 ReAct 既具备了 CoT 的规划能力，又拥有了与真实世界交互以获取事实依据的能力，最终带来了更高的任务成功率、更强的可靠性以及更好的可解释性。

III. 主要方法

第一段：传统方法的设定与挑战

这段话首先定义了一个智能体（agent）与环境互动解决任务的标准框架，并指出了其局限性。

标准设定: 在一个时间点 t，智能体接收到来自环境的观察（observation） ot，然后根据一个策略（policy） π(at∣ct) 来选择并执行一个行动（action） at 1。这里的 ct 是智能体到当前为止的上下文（context）或历史记录，包含了它之前所有的观察和行动 2。
核心挑战: 当从上下文 ct 到正确行动 at 的映射关系非常复杂和不明确时，学习到一个好的策略会变得非常困难 3。
失败案例: 论文引用了图1中的例子来说明这种挑战：
- 在问答任务中（图1(1c)），智能体需要对整个行动历史进行复杂的推理才能得出最终答案，但它失败了 4。
- 在游戏中（图1(2a)），智能体无法从上下文中理解“水槽里没有胡椒瓶”这个事实，因此不断产生幻觉般的无效行动 5。

简单来说，第一段说明了传统“观察-行动”模式的智能体，在需要复杂推理和深刻理解上下文时，很容易失败。

第二段：ReAct 的核心思想：扩展行动空间

这段话提出了 ReAct 的核心解决方案，即通过引入“思考”作为一种新的行动来增强智能体。

核心理念: ReAct 的想法很简单，就是扩展智能体的行动空间。新的行动空间 A^ 等于旧的行动空间 A（能改变环境的行动）加上一个语言空间 L（即思考）6。公式为：A^=A∪L 7。
“思考”的定义: 一个在语言空间 L 中的行动 a^t 被称为“思考”或“推理轨迹” 8。
“思考”的特点:
- 它不直接影响外部环境，因此不会从环境中获得新的观察 9。
- 它的作用是对当前的上下文 ct 进行推理，生成有用的信息，并将这些信息（即思考本身）加入到下一步的上下文 ct+1 中，以辅助未来的推理或行动 10。
“思考”的多种用途: 论文列举了“思考”的多种功能，例如：分解任务目标、注入常识知识、从观察中提取要点、追踪任务进度、处理异常情况和调整行动计划等 11。

简单来说，第二段定义了ReAct的核心机制：让智能体除了“做”（外部行动）之外，还能“想”（内部思考）。“思考”本身也是一种行动，它的目的不是改变世界，而是更新自己的认知，以便更好地决策。

第三段：具体实现方式：使用大型语言模型

这段话解释了 ReAct 是如何通过大型语言模型（LLM）来实现的。

实现方式: 由于“思考”的可能性是无限的，从头学习会很困难 12。因此，ReAct 主要采用一种小样本提示（few-shot in-context examples）的方法，来引导一个预训练好且参数被冻结（frozen）的大型语言模型（如PaLM-540B）同时生成特定领域的行动和自由形式的语言思考 13。
两种思考策略: 根据任务的不同，ReAct 采用两种不同的策略：
1. 密集思考: 对于以推理为主的任务（如问答），让模型交替生成“思考-行动-观察”的序列 14。
2. 稀疏思考: 对于需要大量行动的决策任务（如游戏），只在最相关的、关键的位置产生“思考”，让模型自己决定何时思考、何时行动 15。

简单来说，第三段说明了ReAct并不是去训练一个新模型，而是通过巧妙的提示工程，来“激发”一个现有的大型语言模型展现出“思考并行动”的能力。

Single Agent

This post is licensed under CC BY 4.0 by the author.