WHAT - Agent 火焰图分析-平芜编程栈

文章目录

什么是火焰图
为什么叫 Flame（火焰）
在 Agent 系统里的“火焰图思维”
- 它也有“推理调用栈”
- Agent 火焰图能看什么
- - 1. Token 消耗热点
  - 2. Tool 调用热点
  - 3. 错误传播路径
  - 4. Retry 风暴
  - 5. Context 膨胀
- 为什么 Agent 特别需要火焰图
一个 Agent 火焰图例子
更深一层理解
总结

“火焰图（Flame Graph）”原本是性能分析里的概念，但放到 AI Agent 容错设计里，其实也非常有启发。

先说经典定义。

什么是火焰图

火焰图是：

用来展示“程序执行时间主要耗在哪”的可视化。

横轴：

不是时间
而是资源占比（通常 CPU 时间）

纵轴：

调用栈深度（call stack）

一个块越宽：

说明耗时越多

一个块越高：

说明调用层级越深

为什么叫 Flame（火焰）

因为：

多层堆叠
顶部尖
看起来像火苗

在 Agent 系统里的“火焰图思维”

现在有意思的来了。AI Agent 虽然不是传统程序，但：

它也有“推理调用栈”

例如：

User Goal → Planning → Search → Retrieval → Rerank → Tool Use → Browser → API → Reflection

这其实已经是：Cognitive Call Stack（认知调用栈）.

因此：Agent 也非常适合火焰图分析。

Agent 火焰图能看什么

1. Token 消耗热点

例如：

70% token 都浪费在 Reflection

说明：

self-critic 过重
prompt 冗余
recursion 太深

这是很多 Agent 最大问题。

2. Tool 调用热点

例如：

Agent: search → search → search → search

说明：agent 卡在探索循环

典型问题：

不收敛
不敢决策
context 污染

3. 错误传播路径

例如：

错误 query → retrieval 错 → planning 偏 → execution 崩

火焰图能直接看到：哪一步最先开始漂移

这对容错特别关键。

4. Retry 风暴

Agent 很容易：

失败 → retry → 再失败 → 再 retry

形成：recursive retry explosion

火焰图会非常明显：

retry() retry() retry() retry()

这在生产环境里很常见。

5. Context 膨胀

很多 Agent：

思考 → reflection → 再思考 → 再总结 → 再critic

最后：

token 爆炸
latency 爆炸
attention 稀释

火焰图会看到：某些 cognitive branch 极宽

为什么 Agent 特别需要火焰图

因为 Agent 的复杂度：

不是：代码复杂度

而是：推理复杂度

传统日志很难看懂：

Step 84: Thinking...

但火焰图能直观看到：

哪里耗时
哪里递归
哪里失控
哪里 token 爆炸
哪里循环

一个 Agent 火焰图例子

例如：

User Ask ├── Planner (10%) │ ├── Search Loop (45%) │ ├── Retrieval │ ├── Retry │ ├── Retry │ └── Retry │ ├── Reflection (30%) │ ├── Self Critic │ └── Re-plan │ └── Final Answer (15%)

你会立刻发现：Search Loop 有问题，不是模型不聪明。

而是：