Tool-Use Permission Model
Tool-Use Permission Model
Tool-use permission model 的核心概念是「按工具副作用範圍設計 LLM 可以做什麼、何時需要人類批准」。模型只生成 tool use call,真正副作用由 client、MCP server、shell 或外部 API 執行,因此權限邊界必須放在工具層與執行環境。
概念位置
它建立在 tool use、MCP 與 sandbox 之上。核心不是模型是否「想」執行,而是執行該 tool 的 process 是否有權限、是否有 allowlist、是否需要 approval。
可觀察訊號與例子
Read-only file search 可以自動;修改檔案要 checkpoint;刪除資料、push、部署、發送外部訊息通常要 step-by-step approval。第三方 MCP server 如果能讀整個 home directory,風險高於只讀 workspace 的 server。
設計責任
先把工具分成 read、local write、external side effect、irreversible operation,再配置 sandbox、allowlist、confirmation、audit log 與 rollback。高風險工具的預設應是人類批准,而不是 prompt 裡要求模型小心。