← 返回首页

LLM Agent 的底层逻辑与人生哲学

就在这几天,排版系统 TeX 的作者、算法界泰斗高德纳(Donald Knuth)发表了那篇名为《Claude's Cycles》的短文——Claude Opus 4.6 竟然帮他解决了一个苦思冥想数周的哈密顿环组合数学难题。

当看到 Agent 能够独立完成任务,那种感觉无比真实:Agent 不是未来,它已然降临。

但剥开 Agent 那些令人眼花缭乱的外衣,它的底层运转逻辑究竟是什么?

学术界这么定义 Agent 循环1

Observe (观察) -> Plan (规划) -> Action (行动)

在真实的工程实践中,我更倾向于将 LLM Agent 的生命周期解构为这样一个循环:

User Prompt -> ( Thinking -> Tool Call -> Tool Result )+

(本质上是一回事

Thinking == Plan:强制模型思考(给了模型草稿纸)

Tool Call == Action:模型向外部世界伸出触角(执行代码、调用 API)。

Tool Result == Observe:模型接收物理或数字世界给出的客观反馈。

理解了这个公式,我们就拿到了解开 LLM “幻觉”之谜的钥匙。

核心洞察:Input / Output 的“Token 甜区”

我们观察现在的 LLM,会发现一个极具普遍性的现象:模型的输入(Input)和输出(Output)之间,存在一个微妙的“甜区(Sweet Spot)”。

LLM 的“阅读理解能力”(处理海量 Input tokens)极其强大,但它的“长篇大论能力”(持续生成 Output tokens)却非常脆弱。当模型连续输出的 Token 数量突破某个阈值,它的注意力就会开始涣散,逻辑链条就会断裂,随之而来的就是指数级飙升的“幻觉”2

而上述的 Agent Loop,恰恰是解决这个问题的神来之笔。

在 Thinking 和 Tool Call 阶段,我们刻意限制了模型的 Output tokens 数量。一旦模型决定调用工具,当前的生成过程就会被强制挂起(第三方 Agent 通常通过提示词限制一次做一个事情)。

紧接着,外部环境执行动作并返回 Tool Result。最绝妙的一步发生了:这个结果被拉回了系统,转换成了模型下一轮的 Input tokens。

这意味着什么?意味着我们用一套精巧的工程设计,把大模型从“危险的连续生成状态”,强行拉回了“安全的阅读理解状态”。大模型不再需要在虚无的潜空间里去“猜”答案,而是直接去“读”外部世界给出的、冷冰冰但绝对真实的客观数据。

幻觉问题,就这样在 Tool Result 的一次次拉回中,被卓有成效地抑制了。

须臾之所实践

荀子在《劝学》里写道:“吾尝终日而思,不如须臾之所学。”

而在 AI Agent 的时代,这句话或许应该改写为:“吾尝终日而思,不如须臾之所实践。”

一个没有工具调用能力的纯文本大模型,就像是一个被关在小黑屋里的哲学家。它拥有人类所有的知识储备,但只能在脑海中进行内耗式的推演(终日而思),最终不可避免地走向走火入魔(幻觉)。

而 Agent 之所以强大,是因为它长出了手脚。它通过一次次 Tool Call 与真实世界发生碰撞,又通过一次次 Tool Result 从真实世界中获取无情的反馈。

肉体(代码执行)与世界的碰撞,才是检验真理的唯一标准。对于 LLM 如此,对于在现实世界中摸爬滚打的我们,又何尝不是这样呢?


Footnotes

  1. ReAct 范式:普林斯顿大学与谷歌大脑在 2022 年底提出的经典论文 (Reasoning and Acting)。其核心结论正是:将内部推理与外部行动交织,并强制引入外部观察结果,能有效打断模型在长链条推理中陷入内部知识死循环的“幻觉链条”。

  2. 曝光偏差 (Exposure Bias):自然语言处理学术界的经典概念。指模型在自回归推理阶段,必须依赖自身上一秒生成的 Token 来预测下一个 Token。一旦中间生成出现微小偏差,误差就会随着序列长度指数级放大(Error Compounding),最终导致逻辑彻底脱轨。这是长文本输出极易崩溃的最核心原因。