Tracing on Tarragon

4.20 LLM tracing 與 observability

Tue, 12 May 2026 00:00:00 +0000

LLM tracing 把每次 LLM call / tool call / memory op / handoff 編成結構化 span、用 OpenTelemetry GenAI semantic conventions 標準化、是 production LLM 應用 debug / cost / quality 監控的事實標準。傳統 web app 的字串 logging 抓不到 LLM 應用的關鍵問題 — agent 為什麼選了那條路、reasoning trace 怎麼推導、tool call 為什麼 retry 三次、token 消耗為什麼比預期高 ×3。本章把 LLM tracing 的運作機制、OTel GenAI semconv、三大 use case（cost / latency / failure）跟 production eval 閉環拆成可操作的工程實務。

本章目標

讀完本章後、你應該能：

解釋 LLM tracing 跟 traditional logging 的差異。
用 OpenTelemetry GenAI semantic conventions 設計 span 結構。
用 trace 做 cost / latency 監控跟 failure debug。
把 production trace 餵回 LLM-as-judge 做品質迴路。
對自己應用判斷該用 self-host vs SaaS observability platform。

Traditional logging 為什麼不夠

LLM 應用的 debug 問題對傳統 logging 太抽象：

場景	Logging 看到	真正需要的資訊
Agent 為什麼選 tool A 不選 tool B	`tool=A` 一行	完整 reasoning trace + 當下 context + tool list
Token cost 為什麼高	`tokens=15234`	Input / output / cached token 分項 + 每 turn 累積
Why TTFT 5 秒	`ttft=5012ms`	Prefill 跟 cache miss、prompt length、queue time
Tool 為什麼 retry 三次	`tool error retry`	每次 error message + LLM 的判讀 + retry 策略
Agent 為什麼 infinite loop	大量重複 log	每 iteration 的 context + 為什麼沒判 terminate

LLM tracing 用「結構化 span + parent-child 關係 + 標準化 attribute」直接編碼這些訊息。

OpenTelemetry GenAI semantic conventions

OTel GenAI semconv 是 2024-2025 標準化中的 trace schema。核心概念：

 1Trace（一次 user query 從進來到 response）
 2  ├── Span: gen_ai.agent.invocation（agent loop iteration 1）
 3  │     ├── Span: gen_ai.client.operation（LLM call 1）
 4  │     │     attrs: model, temperature, input_tokens, output_tokens, cache_read
 5  │     ├── Span: gen_ai.tool.execution（tool: read_file）
 6  │     │     attrs: tool_name, input, output, duration
 7  │     └── Span: gen_ai.memory.read（retrieval）
 8  │           attrs: query, top_k, similarity_scores
 9  ├── Span: gen_ai.agent.invocation（iteration 2）
10  │     └── ...
11  └── Span: gen_ai.agent.terminate
12        attrs: reason, total_tokens, total_cost

主要 attribute 分類：

類別	屬性 prefix	典型內容
Model	`gen_ai.request.*`	model, temperature, top_p, max_tokens, stream
Usage	`gen_ai.usage.*`	input_tokens, output_tokens, cached_tokens
Response	`gen_ai.response.*`	finish_reason, id
Tool	`gen_ai.tool.*`	name, parameters, result
Memory	`gen_ai.memory.*`	operation, store, query, hits
Cost	`gen_ai.cost.*`	usd, currency（vendor-specific）

實作概要（Python 例）：

 1from opentelemetry import trace
 2from openinference.semconv.trace import SpanAttributes
 3
 4tracer = trace.get_tracer(__name__)
 5
 6with tracer.start_as_current_span("gen_ai.client.operation") as span:
 7    span.set_attribute(SpanAttributes.LLM_MODEL_NAME, "claude-sonnet-4-6")
 8    span.set_attribute(SpanAttributes.LLM_TEMPERATURE, 0.7)
 9
10    response = llm_client.chat(messages=...)
11
12    span.set_attribute(SpanAttributes.LLM_TOKEN_COUNT_PROMPT, response.usage.input_tokens)
13    span.set_attribute(SpanAttributes.LLM_TOKEN_COUNT_COMPLETION, response.usage.output_tokens)
14    span.set_attribute("gen_ai.usage.cached_tokens", response.usage.cache_read_tokens or 0)

實務上多用 framework auto-instrumentation（LangChain / LlamaIndex / Anthropic SDK 都有 OTel integration）、不必手寫 span。

Use case 1：Cost monitoring

Trace 是 LLM 應用 cost 監控的核心 — token usage attribute 內建、不必另外算。

實作模式：

11. Trace 端記錄 input_tokens / output_tokens / cached_tokens
22. Observability 平台用「per-model pricing table」算出 USD
33. Aggregate by：
4   - User（哪個 user 燒最多）
5   - Endpoint（哪條 API path 最貴）
6   - Feature（哪個 feature 最費 token）
7   - Time（哪天 spike）

典型 dashboard 指標：

指標	直覺
Total cost / day	整體燒錢趨勢
Cost per user	找 power user 或 abuse
Cost per request	看單 request 平均 cost、設 alert
Cached / total token ratio	Prompt cache 命中率
Output / input token ratio	輸出膨脹率、看 generation length 合理性

Use case 2：Latency / failure debug

Trace 自然編碼 latency tree、能定位「哪個 span 卡」：

1User query → response total: 5.2s
2├── Agent iteration 1: 4.8s
3│   ├── LLM call (claude): 4.2s     ← 主要時間在這
4│   │   - prefill: 3.8s             ← prefill 太久、看 prompt 是否需要 cache
5│   │   - generation: 0.4s
6│   ├── tool: read_file: 0.5s
7│   └── memory: retrieval: 0.1s
8└── Agent iteration 2: 0.4s

從這 trace 看出「90% 時間在 prefill、開 prompt cache 可以救」、不必猜。

Failure debug：

1User query → response: ERROR
2├── Agent iteration 1: success
3│   └── LLM call: tool_call(run_bash, cmd="rm -rf /")
4├── Agent iteration 2: failure
5│   └── tool: run_bash: REJECTED by permission system
6└── Agent fallback: error response
7
8從 trace 看：tool call 被 permission 擋下、不是 LLM 自己亂、而是 user query 觸發危險 tool call、permission 正確擋下。

對應 6.2 tool use 權限模型跟 hands-on permission-boundary 的判讀。

Use case 3：Production trace → eval loop

Production trace 是 LLM-as-judge 的最佳資料來源：

 1Production users
 2   ↓ 產生 trace
 3Trace storage（LangSmith / Phoenix / Langfuse）
 4   ↓ filter（e.g. user thumbs-down 的 trace）
 5   ↓ sample N 個
 6LLM-as-judge eval
 7   ↓ rubric scoring
 8找出系統性問題（哪類 query 品質差）
 9   ↓
10改 system prompt / tool / agent loop
11   ↓
12A/B test on production traces

這是 4.14 benchmarking 提的「in-house benchmark」的具體 implementation — production trace 是最真實的 benchmark dataset。

主流平台選型

平台	類型	強項	適合場景
LangSmith	SaaS（LangChain 系）	Auto-instrumentation 強、UI 完整	LangChain / LangGraph user
Phoenix	OSS + SaaS（Arize 系）	OpenInference 標準、可 self-host	想 self-host + OTel native
Langfuse	OSS + SaaS	開源強、cost 監控好	Cost / eval 中心、可 self-host
Braintrust	SaaS	Eval + tracing 一體	重 eval workflow 的 team
Datadog APM	SaaS	跟 traditional APM 整合	已用 Datadog、想統一監控
Logfire	SaaS（Pydantic）	簡潔、Python 為主	Python 為主、輕量
Self-host OTel + Jaeger	OSS	完全 self-host、最便宜	隱私敏感、cost 敏感、技術強

判讀：

個人 / 小流量：SaaS 免費 tier（LangSmith / Langfuse / Phoenix）夠用
隱私敏感（user data 不能離本機）：Self-host（Langfuse / Phoenix self-hosted、或 OTel + Jaeger）
已有 observability stack：用 OTel + 現有 Datadog / Grafana、別再加一層
重 eval：Braintrust / Langfuse 的 eval feature 強

跟 4.9 production resource 的關係

4.5 寫 production resource 的 6 個 dimension（concurrency / latency / cost / storage / observability / reliability）、其中 observability 是 4.5 點到、本章展開。讀者讀完 4.5 知道「需要 observability」、本章補「具體怎麼做」。

設計失敗模式

過度 instrument：每個 internal function 都加 span、trace overhead 大、實際 production noise 多

緩解：聚焦 LLM-related 跟跨 service 邊界、internal logic 不必 trace

PII / sensitive data 寫進 span attribute：user prompt、API key、會被 SaaS 平台看到

緩解：Span attribute 過 PII filter、敏感資料 hash / masking、跟 6.4 跨雲端邊界結合

不 sample：production 100% trace、storage / cost 爆

緩解：Production sample rate < 10%、error / outlier 100% capture

沒設 trace 保留期：trace 越累積越多、舊 trace 沒人看但仍付儲存

緩解：明確保留 policy（如 7-30 天 hot、之後 archive 或刪）

Trace 不跟 metric 串：trace 是 sample、metric 是 aggregate、debug 要兩個一起看

緩解：cost / latency 也輸出 metric（Prometheus 等）、trace 補 specific instance debug

何時不需要 tracing

純 demo / 個人玩：log 字串夠用
單一 LLM call、無 agent loop：簡單到 grep log 也能 debug
隱私極敏感且不 self-host：trace 內容流向 SaaS 是邊界、評估 risk
每 request 都 trace 的 overhead > 收益：超低 latency 場景看是否 worth it

何時過時 / 何時不過時

不會過時的部分：

LLM tracing 跟 traditional logging 的根本差異
結構化 span + parent-child 關係的 framing
Cost monitoring / latency debug / failure debug 三大 use case
Trace → eval 的閉環概念
5 個設計失敗模式

會變的部分：

OTel GenAI semconv 的具體 attribute 名稱（仍在 stabilizing）
主流 SaaS 平台（每年 1-2 個新進入者）
Auto-instrumentation 的支援度（持續擴展）
跟具體 framework 的整合方式

下一章：4.21 LLM-as-judge 評估方法、把 production trace 變成系統性 eval 的閉環。

4.24 Client-to-Server 端到端觀測串接

Mon, 22 Jun 2026 00:00:00 +0000

Client-to-server 端到端觀測串接的核心責任是讓一次使用者操作的完整路徑 — 從 browser click 到 server 處理到 response rendering — 可以用同一個 trace ID 串起來。4.10 Client-side / Synthetic / RUM 講的是概念和 vendor 定位；本篇走完一個具體場景的實作鏈路。Monitoring 模組 03 SDK 設計講的是 client 端怎麼埋點；本篇講 server 端怎麼接收和整合。

完整鏈路

以使用者在 web app 點擊「結帳」為例，一次操作產生的觀測鏈路：

 1Browser: user clicks "checkout"
 2  → RUM SDK 建立 client span（type: resource / xhr）
 3  → HTTP POST /api/checkout + W3C traceparent header
 4    → Server middleware 提取 trace context
 5    → Server 建立 child span（checkout-handler）
 6      → DB query span（order insert）
 7      → Cache span（inventory check）
 8      → Queue span（event publish）
 9    → Server 回 200 + response body
10  → Browser 收到 response → resource timing 結束
11  → RUM SDK 關閉 client span（記錄 duration + status）
12  → 統一 trace waterfall：client span 是 root、server spans 是 children

鏈路的每一段都需要 trace context 正確傳遞。任何一段斷掉，trace waterfall 就會出現孤立的 span — server 端看到的 trace 跟 client 端看到的 trace 是兩條不相關的紀錄。

Trace context propagation

W3C traceparent header

W3C Trace Context 是跨 vendor 的標準 propagation 格式。Header 長這樣：

1traceparent: 00-4bf92f3577b34da6a3ce929d0e0e4736-00f067aa0ba902b7-01
2              │  │                                │                  │
3              │  trace-id (32 hex)                 parent-id (16 hex) flags
4              version

RUM SDK 在發起 XHR / fetch 時把 traceparent 注入 request header。Server 的 trace SDK 從 header 提取 trace-id 和 parent-id，建立 child span。

Client 端注入

各 RUM SDK 的注入方式：

SDK	注入機制	配置
Datadog RUM	自動 patch XHR / fetch，注入 `x-datadog-*` + 可選 `traceparent`	`allowedTracingUrls` 設定允許注入的 domain
Sentry browser	自動 patch fetch / XHR，注入 `sentry-trace` + `baggage` + 可選 `traceparent`	`tracePropagationTargets` 設定目標 URL
OTel browser SDK	透過 `XMLHttpRequestInstrumentation` / `FetchInstrumentation` 注入 `traceparent`	`propagateTraceHeaderCorsUrls` 設定 CORS 允許的 URL

三者的共同模式：只對設定的 domain 注入 trace header。不設定白名單時，header 不會被注入到第三方 API（避免 information leakage）。

Server 端提取

Server 端的 trace SDK（OTel auto-instrumentation 或 vendor agent）從 incoming request 的 header 提取 trace context：

 1# OTel Python 範例 — auto-instrumentation 自動處理
 2# 不需要手動提取，middleware 自動讀 traceparent header
 3# 建立的 span 會繼承 client 傳來的 trace-id 和 parent-id
 4
 5# 手動提取（不用 auto-instrumentation 時）
 6from opentelemetry.propagate import extract
 7ctx = extract(carrier=request.headers)
 8with tracer.start_as_current_span("checkout-handler", context=ctx):
 9    # server logic
10    pass

CORS 限制

跨域請求時，browser 的 CORS preflight 會阻止非標準 header。Server 需要明確允許 trace header：

1Access-Control-Allow-Headers: traceparent, tracestate, sentry-trace, baggage

CORS 是 client-server trace 串接最常見的斷裂原因。Server 沒有回 Access-Control-Allow-Headers: traceparent 時，browser 會 strip 掉 trace header，server 端收到的 request 沒有 trace context，建立的 span 成為新的 root — 跟 client span 斷裂。

跨層 correlation 設計

Trace ID 串接

統一 trace-id 是最基本的 correlation。同一個 trace-id 下的所有 span（client + server）可以在 trace backend 的 waterfall view 裡按時間排列，看到完整的 request 路徑。

Session 跟 transaction 的 mapping

RUM SDK 的 session（使用者的一次造訪）包含多個 user action，每個 action 可能觸發多個 HTTP request。Mapping 關係：

1RUM session
2  └── user action (click "checkout")
3        ├── HTTP request /api/checkout  →  server transaction (trace)
4        ├── HTTP request /api/inventory →  server transaction (trace)
5        └── client-side rendering time

Datadog RUM 和 Sentry 都支援從 session replay 點進去看對應的 server trace。這個 mapping 靠的是 RUM event 裡記錄的 trace-id，跟 server trace backend 裡的同一個 trace-id 做 join。

Breadcrumbs 跟 server log 的時間對齊

RUM SDK 收集的 breadcrumbs（使用者操作序列：page view → button click → form submit）跟 server-side log 的 timestamp 需要可比對。時間對齊的前提是 client 和 server 的 clock 差距在可接受範圍（通常 < 1s）。

NTP 同步的 server 端 clock 通常精準。Client 端（browser）依賴使用者裝置的系統時間，可能偏差數秒到數分鐘。RUM SDK 通常會記錄 relative timing（相對於 session 開始的 offset），而非絕對 timestamp，來降低 clock skew 的影響。

Error correlation

Client-side JS error 跟 server-side 5xx 可能是同一個問題的兩面。Correlation 方式：

同一 trace-id：client error 發生在某個 HTTP request 的 response 處理中，該 request 的 trace-id 跟 server-side 500 的 trace-id 相同 — 直接 correlation
時間窗 + endpoint：client error 沒有 trace-id（例如 CORS block 導致 request 沒發出），用時間窗 + endpoint 模式做 fuzzy correlation
Server 無異常但 client 報錯：client-side rendering error（JSON parse failure、type error），server 端看不到 — 需要 RUM 獨立分析

Evidence package 整合

把 client-side 訊號納入 4.20 Observability Evidence Package 時，需要額外記錄：

欄位	Client-side 補充	為什麼需要
Source	標註 “RUM” 或 “Synthetic”	區分 server-side metrics 和 client-side metrics
Latency	Client perceived latency（含 DNS + network + server + rendering）	跟 server-side latency 差異是 network + rendering 時間
Known gap	Trace sampling 不一致	Client 和 server 可能各自取樣，同一個 request 不一定兩邊都有
Confidence	Client clock skew 可能影響 timestamp precision	標注 client timestamp 的精確度限制

Client perceived latency 跟 server-side latency 的差異本身就是一個觀測訊號。差異穩定在 50ms 是正常的 network overhead；差異突然從 50ms 跳到 500ms 代表網路或 CDN 出了問題 — 而這個問題 server-side dashboard 完全看不到。

失敗場景判讀

失敗訊號	判讀	下一步
Client span 存在但 server span 缺失	Trace context header 沒被 propagate — 最常見原因是 CORS block	檢查 `Access-Control-Allow-Headers` 是否包含 `traceparent`；檢查 RUM SDK 的 `allowedTracingUrls` 設定
Server 正常但 client perceived latency 高	網路延遲或 client rendering 慢	看 RUM 的 resource timing breakdown（DNS / TCP / TLS / TTFB / download / render）
Client error 但 server 無對應 request	Request 沒發出 — client-side validation 擋掉或 network offline	看 RUM breadcrumbs 確認 request 是否有送出；檢查 navigator.onLine 狀態
Trace sampling 不一致	Client 取樣到但 server 沒取樣到同一個 request	統一 sampling decision — 用 head-based sampling（decision 在 trace 起點做、propagate 到下游）
Client 和 server 的 error count 對不上	Client 包含 JS rendering error（server 看不到）；server 包含非 user-facing 的背景 job error	分開看：API error 用 trace correlation 比對、non-API error 各自歸類

Vendor 整合模式

組合	串接方式	限制
Datadog RUM + Datadog APM	原生 — 同一個 Datadog org 裡 client 跟 server trace 自動關聯	兩邊都要 Datadog plan
Sentry browser + Sentry server	原生 — `sentry-trace` header propagation	Performance monitoring 需要 Sentry paid plan
OTel browser SDK + OTel server SDK	W3C `traceparent` — vendor-neutral 標準	Browser SDK 較新、instrumentation 覆蓋度不如 server 端成熟
混合（Sentry browser + Datadog server）	手動橋接 — 確保雙方都支援 W3C `traceparent`	Trace context format 要一致；session-level correlation 需自建

同 vendor 組合的串接最自然。跨 vendor 組合只要雙方都支援 W3C Trace Context，trace-level correlation 可以通；但 session-level 的功能（session replay → server trace）需要同 vendor 才有。

交接路由

4.10 Client-side / Synthetic / RUM：概念定位和 vendor 選型
4.3 Tracing Context：server-side trace context 設計
4.22 Checkout API Evidence Package：evidence 整合到 release gate
4.20 Observability Evidence Package：evidence 欄位標準
Monitoring 03 SDK 設計：client-side SDK 埋點設計
Monitoring 06 商業方案：Sentry / Datadog RUM 的 client-side 能力比較
監控資料的雙重用途：同一份 event data 如何同時服務行為分析與訊號治理