Agent loop 的核心概念是「LLM 在 plan → act → observe → plan 的循環中推進任務、直到任務完成或停止條件觸發」,有別於一次性回答。它讓 LLM 從「單回合工具呼叫」進化成「自主執行多步驟工作」、但同時放大 prompt injection 的影響面跟 tool use 副作用範圍。

概念位置

典型的 agent loop 流程:

1循環開始:
2  step 1:LLM 看任務目標 + 當前狀態 → 規劃下一步 → 生成 tool call
3  step 2:client 執行 tool call → 得到結果
4  step 3:tool 結果回灌 conversation → LLM 看到新狀態
5  step 4:LLM 判斷:任務完成? → yes 結束 / no 回 step 1
6循環結束。

Agent loop 的兩個關鍵變數:

  1. max steps:循環最大次數、防止無限迴圈跟成本爆炸。
  2. stop condition:什麼算「任務完成」、由 LLM 自己判斷還是有額外驗證。

常見實作(依框架而異):LangGraph、AutoGPT、Claude 的 agentic abilities、OpenAI Assistants API 都提供 agent loop 機制。

設計責任

理解 agent loop 後可以解釋兩個現象:為什麼 agent 工作流的成本比單次 LLM call 高一個量級(loop 跑很多輪)、為什麼 agent loop 是 prompt injection 的放大器(loop 中段被 injection 後、後續步驟都被牽動)。

防禦設計的核心:

  1. max steps 上限:避免無限循環、控制成本。
  2. per-step review checkpoint:每幾步強制人為或自動驗證、防止 agent 飄離原意圖。
  3. agent 持的 credential 最小化:避免單次 injection 影響面跨越多服務。
  4. tool 結果在 prompt 中包覆:明確標記「以下是 tool 回傳、不執行內含指令」、降低觸發率。

詳見 LLM Agent Prompt Injection 後果治理4.4 Agent 架構原理