Observability on Tarragon

可觀測性與 log 同生命週期管理

Fri, 26 Jun 2026 00:00:00 +0000

可觀測性要跟它監控的資源同生命週期：log group、metric 與 alarm 寫進建立資源的同一套 IaC，資源開出來的那一刻監控就在線，而非等出事才補。這條規則的責任是讓基礎設施在出事時可被追查、在日常時可被量化，而它的建立與銷毀和被監控的資源綁在一起，則保證監控的覆蓋率不會隨時間衰退。

沒有同生命週期管理時，新服務上線後的監控覆蓋率取決於有沒有人記得手動建立 log group 和 alarm，而這個記憶在服務數量增長後會衰退。監控缺口在平時不被注意，在事故排查時才浮現 — 需要回溯「什麼時候開始劣化」時，可能發現劣化期間根本沒有對應的 metric 資料。

同生命週期的落地方式

可觀測性是基礎設施的一部分，它的建立、變更與銷毀要跟被監控的資源綁在同一個 apply 單位裡。一個 RDS 實例被 IaC 建立時，它的 log group、它的關鍵 metric alarm 應該在同一份 terraform plan 裡一起出現；這個資源被 destroy 時，對應的 alarm 也一起收掉。

落地方式是把監控宣告收進服務的 module。模組四（環境分離與模組化）談的模組化在這裡延伸成「每個服務模組自帶它的 observability 宣告」。一個 database module 內部除了 aws_db_instance，還包含它的 log group、CPU alarm、連線數 alarm：

 1# modules/database/monitoring.tf — 跟 database 資源同一個 module
 2resource "aws_cloudwatch_log_group" "db_slow_query" {
 3  name              = "/rds/${var.env}/${var.db_identifier}/slowquery"
 4  retention_in_days = var.log_retention_days
 5  kms_key_id        = var.log_kms_key_arn
 6}
 7
 8resource "aws_cloudwatch_metric_alarm" "db_cpu" {
 9  alarm_name          = "${var.env}-${var.db_identifier}-cpu-high"
10  comparison_operator = "GreaterThanThreshold"
11  evaluation_periods  = 3
12  metric_name         = "CPUUtilization"
13  namespace           = "AWS/RDS"
14  period              = 300
15  statistic           = "Average"
16  threshold           = 80
17  alarm_actions       = [var.oncall_sns_arn]
18
19  dimensions = {
20    DBInstanceIdentifier = aws_db_instance.primary.identifier
21  }
22}

這樣 terraform apply 建資料庫的同一刻，監控就存在；terraform destroy 砍資料庫時，孤兒 alarm 也一起清掉。新環境套用同一個 module 時，監控覆蓋率自動跟著資源走，不需要額外的人工記憶。

監控脫鉤造成的兩類漂移

把監控外掛在資源之外（用另一份 IaC、另一個 repo、或手動在 console 設定）會製造兩種方向相反的漂移，兩者的共同根因都是監控跟資源不在同一個 apply 單位裡。

漂移一：新資源沒有監控

service 透過 PR 加上去了，但 alarm 的建立依賴某人事後手動進 console 設定，或等另一個 repo 的 PR 跟上。於是有些 service 有 alarm、有些沒有，覆蓋率取決於「誰記得」。沒有 alarm 的 service 出事時，事故發現路徑從「告警 → 排查」退化成「客訴 → 排查」，反應時間從分鐘級退化到小時級。

用一條查詢就能看出這個漂移有多嚴重：列出所有 RDS instance，比對各自有沒有對應的 CloudWatch alarm。沒有 alarm 的 instance 就是漂移的活證據。

1# 列出所有 RDS instance，比對有沒有對應的 CloudWatch alarm
2aws rds describe-db-instances \
3  --query 'DBInstances[].DBInstanceIdentifier' --output text | tr '\t' '\n' | while read db; do
4  count=$(aws cloudwatch describe-alarms \
5    --alarm-name-prefix "${db}" --query 'MetricAlarms | length(@)')
6  echo "${db}: ${count} alarms"
7done

漂移二：死資源留下殘響

資源砍了但 alarm 還在，orphan alarm 對不存在的 target 持續報 INSUFFICIENT_DATA，跟有效 alarm 混在同一個通知頻道裡，降低告警的訊噪比。訊噪比低到一定程度後，有效的 INSUFFICIENT_DATA（某個服務停止送 metric）也被一起略過 — 告警疲勞讓 alarm 從保護機制退化成背景噪音。

漂移二的成本不只是注意力。殘留的 alarm 會佔用 CloudWatch alarm 的配額（每個帳號有配額上限），大量孤兒 alarm 累積後，新服務要加 alarm 可能需要先清理舊的 — 這在事故當下是最不該花時間的事。

修法是把 alarm 的生命週期綁進 module：資源 destroy 時 alarm 跟著 destroy，不需要另一個流程去「記得清理」。如果因為歷史原因已經有大量孤兒 alarm，可以用 alarm 的 StateValue 為 INSUFFICIENT_DATA 且持續超過 7 天作為清理候選的篩選條件。

log group 設計

Log group 是日誌的歸屬與保存單位，它要回答兩個治理問題：留多久（retention）、誰能讀（access control）。這兩個問題寫進 IaC 才能稽核，而非依賴 vendor 的隱性預設。

Retention：三方取捨

許多雲端服務在沒有明確宣告 log group 時會自動建一個、套上「永久保留」的預設值。永久保留的問題不是技術性的 — CloudWatch Logs 可以存到無限久 — 而是治理性的：日誌無限堆積、帳單緩慢長大，而沒有人做過「這條 log 該留多久」的顯式決定。

Retention 是成本、合規與除錯需求的三方取捨：

日誌類型	除錯需求	合規需求	建議 retention
應用 log（request、error）	近 2-4 週	通常無特殊要求	14-30 天
資料庫 slow query log	近 1-2 週	通常無特殊要求	14 天
存取稽核 log（CloudTrail）	偶爾回溯	1-7 年	90-365 天 + 歸檔 S3
金流 / 交易 log	對帳用、偶爾	依法規 3-7 年	短期保留 + 長期歸檔

較合理的做法是按日誌類型分層：高頻、除錯用的 application log 設短 retention，稽核相關的 access log 按合規要求設長期保留，必要時再把冷資料用 subscription filter 歸檔到更便宜的物件儲存（S3 + Glacier）。把這些值寫進 IaC，讓「為什麼這條 log 留 90 天」是一個能在 PR 上被討論的決定，而非某人半年前在 console 點的一個數字。成本參考：CloudWatch Logs 的儲存費用約 $0.03/GB/月。一個每天產生 10GB log 的服務，30 天 retention 的月費約 $9，7 天約 $2。retention 天數的選擇是合規需求（留多久才合規）與儲存成本的直接取捨，可以按 log 類型分層設定。

觀測平台的帳單在規模化後容易超線性成長，而缺乏 per-team cost attribution 的環境只能靠全域砍 retention 或降 sampling 來控制成本，兩者都會傷害觀測品質。把 log retention 跟 cardinality budget 的決定從全域級拆到團隊級（用 tag 歸因），才能做到「該省的省、該留的留」。這個取捨在 4.C14 觀測平台成本治理有多家企業的具體經驗。

 1resource "aws_cloudwatch_log_group" "api" {
 2  name              = "/app/${var.env}/api"
 3  retention_in_days = var.env == "prod" ? 30 : 7
 4  kms_key_id        = aws_kms_key.logs.arn
 5}
 6
 7resource "aws_cloudwatch_log_group" "audit" {
 8  name              = "/app/${var.env}/audit"
 9  retention_in_days = 365
10  kms_key_id        = aws_kms_key.logs.arn
11}

Dev 環境的 retention 可以大幅縮短（7 天甚至 3 天），因為它不承擔合規責任，存取量也低，帳單節省直接對應這個差值。

存取控制與加密

「誰能讀」是 retention 之外的另一半。Log 經常夾帶 PII（使用者信箱、IP）、token 或內部結構，讀取權限要跟模組二（身分與憑證地基）建立的 IAM 角色一起管。

常見陷阱是 log 在傳輸與儲存都加密了（kms_key_id 有設），卻對整個團隊開放讀取。加密保護的是靜態資料不被未授權存取，但如果整個開發團隊都有 logs:GetLogEvents 權限，加密形同虛設 — read 權限應該縮到值班與稽核需要的最小集合。

 1# 只允許 oncall role 讀取 prod log
 2data "aws_iam_policy_document" "log_read" {
 3  statement {
 4    actions   = ["logs:GetLogEvents", "logs:FilterLogEvents"]
 5    resources = [aws_cloudwatch_log_group.api.arn]
 6  }
 7}
 8
 9resource "aws_iam_role_policy" "oncall_log_read" {
10  role   = var.oncall_role_name
11  policy = data.aws_iam_policy_document.log_read.json
12}

應用層該怎麼決定哪些欄位根本不該進 log（例如在 logger 層做 PII masking），屬於資料保護的範圍，見 backend 模組七：資安與資料保護。

metric 與 alarm 設計

Metric 與 alarm 寫進 IaC，目的是讓「資源被建立的同時就帶著它的健康判準」。Alarm 是一份成文約定：哪條 metric、跨多長的評估窗口、超過什麼值要通知誰。把這份約定寫進 code，它就能被 review、被版本控制、被跨環境複用。

症狀型 vs 成因型告警

閾值設計是訊號與雜訊的取捨。告警可以分成兩類：症狀型（symptom-based）對應的是「使用者已經受影響」的指標 — 5xx 錯誤率、p99 延遲、佇列積壓。成因型（cause-based）對應的是「某個元件在劣化但使用者可能還沒感知」的指標 — CPU 使用率、記憶體使用率、磁碟 IOPS。

收益最高的起點是：症狀型設 alarm 並綁通知，成因型留在 dashboard 上作為診斷線索。理由是成因和症狀之間不一定有直接關係 — CPU 在 80% 不代表使用者受影響（可能 auto-scaling 正在長新節點），而 CPU 在 30% 也不代表安全（可能是某個 goroutine 卡住了，CPU 反而閒下來）。如果每個成因指標都獨立設 alarm，告警數量會與資源數量等比增長，訊噪比下降後症狀型告警容易被成因型告警淹沒。

 1# 症狀型 alarm：5xx 超過閾值代表使用者已受影響
 2resource "aws_cloudwatch_metric_alarm" "api_5xx" {
 3  alarm_name          = "${var.env}-api-5xx-rate"
 4  comparison_operator = "GreaterThanThreshold"
 5  evaluation_periods  = 3
 6  metric_name         = "5XXError"
 7  namespace           = "AWS/ApiGateway"
 8  period              = 60
 9  statistic           = "Sum"
10  threshold           = 10
11  treat_missing_data  = "notBreaching"
12  alarm_actions       = [var.oncall_sns_arn]
13}
14
15# 成因型指標：CPU 放 dashboard、不設 alarm
16# 除非確認「CPU 到 X% 一定代表服務即將不可用」這個因果關係

當成因和症狀之間有明確的因果閾值（例如 RDS 磁碟用量到 90% 就會開始拒絕寫入），那條成因也值得設 alarm — 關鍵是因果關係要確認過、而非假設。

INSUFFICIENT_DATA 的處理

treat_missing_data 決定了「沒收到 metric 資料點」時 alarm 怎麼判定。這個設定常被忽略，但它在兩個情境下會造成顯著差異：

持續有資料的 metric（如 API request count）：資料突然消失通常代表服務掛了或 metric 管線斷了，應該設 treat_missing_data = "breaching" — 沒資料本身就是異常訊號。

間歇性的 metric（如錯誤 count、某個低頻 Lambda 的 invocation）：平常就沒有資料點，沒資料代表正常運作，應該設 treat_missing_data = "notBreaching" — 避免每次低谷時段都觸發假告警。

判讀方式是問自己：「這條 metric 如果 10 分鐘沒有任何資料，代表好事還是壞事？」好事用 notBreaching，壞事用 breaching，不確定用 ignore（不改變 alarm 狀態，等下一個有資料的評估週期再判定）。

告警必須連到動作

一條有用的 alarm 至少要綁定通知去向。alarm_actions 為空的 alarm 只會在 CloudWatch console 裡變色，而事故發生時沒有人會盯著 console 看 — alarm 的價值在於它主動推送到值班的人手上。

1resource "aws_sns_topic" "oncall" {
2  name = "${var.env}-oncall-alerts"
3}
4
5resource "aws_sns_topic_subscription" "pagerduty" {
6  topic_arn = aws_sns_topic.oncall.arn
7  protocol  = "https"
8  endpoint  = var.pagerduty_integration_url
9}

通知去向也該寫進 IaC — SNS topic、subscription、整合端點都是基礎設施的一部分。手動建的 SNS subscription 跟手動建的 alarm 有同樣的問題：沒人記得、沒人維護、出事才發現斷了。

把基礎告警做成 module 預設

如果每次新服務上線都要有人「記得」去加 alarm，代表 alarm 還沒進 module 模板。把基礎告警（錯誤率、延遲、健康檢查失敗）做成服務模組的預設輸出，新服務 apply 時 alarm 跟著一起生出來：

 1# modules/service/variables.tf
 2variable "alarm_5xx_threshold" {
 3  type    = number
 4  default = 10
 5}
 6
 7variable "alarm_latency_p99_ms" {
 8  type    = number
 9  default = 3000
10}

開新服務時 alarm 跟著資源一起生出來，調整閾值才是該服務 owner 的選配。預設值的選擇依據是「保守但不擾民」— 初始閾值設寬一點，上線穩定後再根據實際基線收斂。

觀測訊號的設計有一個容易忽略的盲區：aggregated metric 會遮蔽局部惡化。Discord 在三代儲存架構的遷移過程中反覆遇到同一個問題——整體 p95 延遲正常，但少數 hot partition 或大型群組的延遲已經飆升，直到使用者回報才發現。教訓是 alarm 的維度要跟業務的 fan-out 結構對齊，而非只看全域聚合。詳見 4.C13 Discord：從儲存問題回推觀測缺口。規模化後叢集的動態擴縮也會改變觀測模型——擴縮事件本身要成為觀測對象，見 4.C8 Airbnb：K8s 規模化觀測訊號治理。

基礎設施訊號 vs 客戶端行為訊號

本模組的可觀測性處理基礎設施訊號，Monitoring 監控體系處理客戶端與業務行為訊號。兩者觀測的對象不同、生命週期也不同，因此分屬不同的 code 與不同的部署管道。

基礎設施訊號是資源層的健康狀態：log group retention、CPU、佇列深度、5xx 比例、實例存活。它們跟著資源被 IaC 建立與銷毀，回答的問題是「這個系統還活著嗎、哪裡壞了」。

客戶端行為訊號則是 SDK、Collector、業務埋點那一層：使用者點了什麼、轉換漏斗在哪裡流失、前端 JS 錯誤率、自訂業務事件。它們跟著產品功能演進、不跟著基礎設施資源同生共滅。

判讀分界的問法是：這個訊號是「資源建立時就該存在」還是「功能開發時才埋」。前者進本模組的 IaC，後者進 monitoring 那層的應用程式碼。

兩者在事故排查時會合流 — 基礎設施 alarm 告訴值班「RDS CPU 飆到 95%」，客戶端訊號告訴產品團隊「結帳頁面的失敗率從 0.1% 跳到 12%」。把兩條訊號交叉比對才能判斷影響範圍。但它們的擁有者、變更節奏與部署管道不同 — 基礎設施 alarm 跟著 infra PR 走，前端埋點跟著產品 sprint 走。混在同一份 code 裡會讓「誰負責這條訊號的閾值」變模糊，也讓 infra PR 的 review 範圍擴大到不相干的業務邏輯。

跨分類引用

→ monitoring 監控體系：客戶端 SDK / Collector 那層的監控
→ 模組四：環境分離與模組化：module 化在這裡延伸成「每個模組自帶 observability 宣告」
→ 模組五：核心服務上 IaC：每個核心服務帶自己的 log 與 alarm
→ 模組七：infra 走 PR 流程：observability 變更也走 PR 與自動化護欄
→ backend 模組七：資安與資料保護：哪些欄位不該進 log、PII 處理

三層 log 設計

Fri, 19 Jun 2026 00:00:00 +0000

客戶端 log 分成三層，每層記錄不同粒度的資訊，服務不同的 debug 場景。三層的區別在於回答的問題不同：連線生命週期回答「整體流程走到哪一步」，protocol 訊息回答「通訊細節是什麼」，使用者行為回答「使用者做了什麼操作」。

連線生命週期 log

連線生命週期 log 記錄的是「流程走到第幾步、每步成功或失敗」。這一層的 log 粒度是步驟級 — 不記錄每一個封包或每一次函式呼叫，只記錄流程中的關鍵節點。

以 app_tunnel 的連線流程為例，連線生命週期包含五步：biometric 認證 → credential 讀取 → WebSocket 連線 → auth token 發送 → stream 訂閱。每步完成時記一條 log，失敗時記一條包含原因的 log。

1[conn] Step 1/5: biometric auth completed (duration: 320ms)
2[conn] Step 2/5: credential loaded (user: admin)
3[conn] Step 3/5: WebSocket connected (url: wss://...)
4[conn] Step 4/5: auth token sent
5[conn] Step 5/5: stream subscribed, ready

app_tunnel 在實機測試前六個核心元件中只有兩個有 log，且全是 W2 修復時事後補上的（T.C4）。W2-002 auth token 問題的 debug 過程中，開發者無法從任何 log 判斷失敗發生在五步中的哪一步。如果有連線生命週期 log，第一次連線就能看到「Step 3 完成，Step 4 未執行」— 直接定位到 auth token 缺失。

連線生命週期 log 在所有模式（debug 和 release）都應該啟用。這層 log 量小（每次連線 5-10 條），不影響效能，但在 production 問題回報時是第一手資訊來源。

Protocol 訊息 log

Protocol 訊息 log 記錄的是通訊協議層面的細節：發送和接收的 frame type、payload 前綴、handshake 參數、逾時值。這一層的粒度比連線生命週期更細 — 每一次 send/receive 都記錄。

1[proto] TX: text frame, payload: {"AuthToken":"base64..."} (42 bytes)
2[proto] RX: text frame, payload prefix: "0" (output data, 128 bytes)
3[proto] TX: binary frame, payload: [72, 101, 108, 108, 111] (5 bytes)

Protocol log 在 debug 時幫助確認「程式碼發送了什麼、收到了什麼」。app_tunnel 的 text/binary frame 問題（T.C1）如果有 protocol log，開發者會在 log 中看到 TX: binary frame 而非預期的 TX: text frame — 直接指向 frame type 問題。

Protocol log 在 release mode 應該能關閉。這層 log 量大（每次鍵盤輸入一條），且 payload 可能包含敏感資訊。Debug mode 預設啟用，release mode 提供開關（例如隱藏設定頁的 toggle）讓進階使用者在回報問題時開啟。

使用者行為 log

使用者行為 log 記錄的是使用者在 UI 上的操作：按鈕點擊、畫面切換、設定變更。這層 log 的粒度是操作級 — 使用者做了一個有意義的動作記一條。

1[ui] screen: HomeScreen, action: tap Connect Terminal
2[ui] screen: TerminalScreen, state: connecting → connected
3[ui] screen: TerminalScreen, action: tap back button
4[ui] screen: HomeScreen, state: returned from terminal

使用者行為 log 在兩個場景有價值：第一，debug 時還原使用者操作路徑 — 「使用者做了什麼導致問題出現」；第二，結合狀態矩陣（ux-design 模組一）做狀態轉換的實際覆蓋率分析 — 哪些狀態轉換在真實使用中經常發生，哪些從未發生。

使用者行為 log 在 release mode 啟用時需要注意隱私。記錄「使用者切換了畫面」是合理的；記錄「使用者輸入了密碼 abc123」需要 redaction 機制（monitoring 模組七資安）。

三層的關係

三層 log 各自獨立運作，debug 時通常按照從粗到細的順序使用。

粗篩：先看連線生命週期 log，確認流程走到哪一步。如果 Step 3 失敗，問題在 WebSocket 連線層。

細查：切到 protocol 訊息 log，看 Step 3 的連線嘗試中發送和接收了什麼。如果看到 binary frame 發送但沒有回應，問題可能在 frame type。

還原：如果問題和使用者操作有關（例如只在特定操作順序下觸發），看使用者行為 log，還原操作路徑。

三層 log 用同一個時間戳和 correlation ID（例如連線 session ID），讓跨層比對可行。

下一步路由

在功能規格中定義 log 點 → 功能規格中的 log 點定義方法
事後補 log 和設計產物 log 的品質差異 → 「事後補 log」vs「設計產物 log」的品質差異
Log 收集方案選擇 → 自架 log endpoint vs 商業方案
事件分類與收集策略 → monitoring 模組一監控心智模型

LLM Tracing

Tue, 12 May 2026 00:00:00 +0000

LLM tracing 的核心概念是「把 LLM 應用的每次 LLM call / tool call / memory op / handoff 編成結構化 span、串成 trace、可在 observability 平台查詢」。對應的標準是 OpenTelemetry GenAI semantic conventions（2025 stabilizing 中）。代表平台：LangSmith、Phoenix、Braintrust、Langfuse、Datadog APM、Logfire。是 production LLM 應用 debug / cost / latency 監控的事實標準、補 traditional logging 抓不到的「為什麼 agent 跑這條路」。

概念位置

跟 traditional logging 的對比：

維度	Traditional logging	LLM tracing
結構	字串 line、靠 grep	結構化 span、parent-child 樹
關聯性	弱（要靠 request-id 串）	強（trace-id + span 父子關係內建）
屬性	自由 key-value	標準化（OTel GenAI semconv）：model / temperature / token usage / cost
查詢	grep / log aggregator	Trace explorer + filter + 視覺化
LLM 特有 attr	沒有	system prompt / tool calls / token / reasoning

主流 OTel GenAI span 類型：

Span 類型	內容
`gen_ai.client.operation`	一次完整 LLM API call
`gen_ai.tool.execution`	一次 tool 執行
`gen_ai.agent`	Agent loop 一個 iteration
`gen_ai.embeddings`	Embedding call
`gen_ai.memory.read/write`	Memory 操作

每個 span 標準屬性：gen_ai.system（vendor）、gen_ai.request.model、gen_ai.usage.input_tokens / output_tokens、gen_ai.request.temperature 等。

設計責任

讀 LLM observability docs / OTel spec 看到「span」「trace」「OTel GenAI semconv」就是這 framing。寫 code 場景的判讀：

何時值得加 tracing：超過個人 demo、有實際使用者 / production 流量、開始遇到「為什麼 agent 跑這條路」debug 問題
不該自己寫 logging：用 OTel GenAI semconv 標準化、未來可換 backend（LangSmith → Phoenix → 自架）
Trace 不只 debug、也是 eval 來源：production trace 餵回 LLM-as-judge 做品質評估
跟 4.20 LLM tracing 章節的關係：本卡是定義、章節是工程實務（attribute 設計、cost monitoring、failure debug 流程）

FinTech：審計證據鏈的可觀測性設計

Thu, 07 May 2026 00:00:00 +0000

本案例的核心責任是讓審計證據與運維訊號共用同一套資料邊界。FinTech 場景下，觀測資料不只是除錯用途，也是合規證據基礎。

業務背景

一家處理線上支付的金融科技公司，每日交易量約 200 萬筆，涵蓋信用卡收單、轉帳與退款。每季有外部稽核查核交易處理的完整性與存取控制，事故發生時法務需要在 48 小時內提供特定交易的完整處理鏈證據。

初期系統把所有 log 寫到同一個 log group — application debug、request trace、交易狀態變更與使用者存取紀錄全混在一起。稽核人員要從數 TB 的 log 中撈出特定交易的完整軌跡，每次查詢耗時數小時。

技術挑戰

Operational log 與 audit log 混合

Application log 記錄 debug 資訊（SQL timing、cache hit/miss、retry），audit log 記錄業務事件（交易建立、狀態變更、存取紀錄）。兩者混在同一個 pipeline 時，retention 策略互相衝突 — debug log 留 14 天夠用，但 audit log 法規要求保留 5 年。統一設成 5 年讓儲存成本暴增，統一設成 14 天則遺失合規證據。

PII 暴露在 log 中

早期 log 直接印出 request body，信用卡號跟身分證字號散落在各種 log entry。稽核指出 PII 在 log 系統中的暴露面超過業務需要，但 log 已經寫入後無法回溯修改。

Event correlation 斷裂

交易從建立到完成經過多個服務（checkout-api → payment-gateway → settlement → notification），但各服務的 log 使用不同的 correlation key。Checkout 用 order_id，payment-gateway 用 payment_ref，settlement 用自己的 batch_id。稽核要求「給我交易 X 的完整處理鏈」時，工程師需要手動在三個系統各自查詢再人工拼接。

解法

Audit log 分離

把 audit event 獨立到專屬 pipeline：交易狀態變更、使用者存取、權限變動、退款操作各自產生結構化 audit event，寫入 immutable storage（append-only、禁止刪除與修改）。Operational log 維持 14 天 retention，audit log 走 5 年 retention + cold archive。

分離的判準是「這筆紀錄是否可能被稽核或法務要求提供」。是 → audit pipeline；否 → operational pipeline。灰色地帶（例如認證失敗 log）歸入 audit pipeline — 寧可多留不可少留。

PII redaction pipeline

在 log ingestion 階段加入 redaction processor：信用卡號遮罩為末四碼、身分證字號完全移除、email 保留 domain 遮罩使用者名稱。Redaction 發生在寫入儲存之前，原始資料不落地。

需要完整 PII 的場景（如詐欺調查）走另一條授權存取管道，跟觀測 pipeline 分離。

統一 correlation key

所有服務在交易入口處產生 trace_id 和 transaction_id，兩個 key 同時寫入每一筆 audit event 和 operational log。稽核查詢用 transaction_id 就能撈出跨服務的完整處理鏈，不需要手動拼接。

取捨

面向	混合 pipeline	分離 pipeline
建置成本	低（一套 pipeline）	中（兩套 pipeline + routing 邏輯）
儲存成本	高（全部用最長 retention）	可控（各自 retention）
查詢效率	低（audit event 淹沒在 debug log 中）	高（audit 獨立查詢）
合規風險	高（PII 暴露面大、retention 可能不足）	低（PII redacted、retention 對齊法規）
維運複雜度	低	中（需維護 routing 規則與 redaction 規則）

分離 pipeline 的最大成本在 routing 規則的維護 — 新服務上線時要確認 audit event 走對 pipeline。解法是在 SDK 層提供 emit_audit_event() 函式，讓 routing 在 producer 端決定，不依賴下游 pipeline 的內容判斷。

回寫教材的連結

4.12 Audit Log Governance：audit log 分離的設計原則與 PII 治理。
4.20 Observability Evidence Package：把 audit trail 包成可交接的 evidence package。
4.18 Observability Operating Model：audit pipeline 的 ownership 歸 platform team 還是 compliance team。
4.3 Tracing Context：跨服務 correlation key 的 propagation 設計。

判讀徵兆

讀者在自己的系統看到以下訊號時，應該回讀本案例：

稽核或法務要求提供某筆交易的完整處理鏈，工程師需要超過 1 小時才能拼出來
Log retention 設定跟法規要求不一致，但沒人確切知道差多少
PII 出現在 log search 結果中，但沒有系統性的遮罩機制
Application log 跟 audit log 用同一套 retention policy，儲存成本持續上升但沒人敢縮短
事故後法務要證據，發現關鍵時段的 log 已經因為 retention 過期而被刪除

OpenTelemetry

Fri, 01 May 2026 00:00:00 +0000

OpenTelemetry（OTel）是 CNCF 開放標準、承擔三個責任：定義 traces / metrics / logs 的資料模型（spec）、提供 vendor-neutral 的 SDK 跟 auto-instrumentation、以 OTel Collector 作為 instrumentation 跟 backend 之間的抽象層。設計取捨偏向「抽象優於 vendor-specific feature」、避免 vendor lock-in 是核心動機。多數現代 observability 平台（Datadog / Honeycomb / Grafana Cloud / Cloud Operations）都接受 OTLP。

本頁先給最短路徑、再展開日常 instrumentation 跟 Collector 部署、最後進階治理（sampling / semantic conventions / logs 成熟度）跟排錯。

本章目標

讀完本章後、你應該能：

用 OTel SDK 或 auto-instrumentation 對應用程式做 instrumentation
配置 OTLP exporter 把 telemetry 送到任一 backend
部署 OTel Collector（agent / gateway 模式）作為 backend 切換抽象層
區分 head-based vs tail-based sampling、選擇對應策略
評估從 vendor SDK 遷移到 OTel SDK 的相容性風險

最短路徑：5 分鐘把 OTel 跑起來

1# 1. 應用程式加 auto-instrumentation（範例：Python）
2# TODO: opentelemetry-bootstrap -a install
3# TODO: opentelemetry-instrument --traces_exporter otlp --metrics_exporter otlp python app.py
4
5# 2. 啟動 OTel Collector
6# TODO: docker run -p 4317:4317 -p 4318:4318 otel/opentelemetry-collector-contrib
7
8# 3. Collector 配置範例
9# TODO: otel-collector-config.yaml with otlp receiver + exporter to backend

最短路徑驗證 telemetry 從 app → Collector → backend 串通。實際 production 要評估 sampling、retention、cardinality。

日常操作與決策形狀

Instrumentation 模式

子議題：

Auto-instrumentation：Java / Python / Node / .NET / Ruby / Go 各語言成熟度不同
Manual instrumentation：開發者寫 trace span / metric instrument
Library instrumentation：opentelemetry-instrumentation-（HTTP client / DB / framework）

OTLP exporter 配置

子議題：

OTLP gRPC（4317）vs HTTP（4318）
Endpoint / headers / authentication 配置
對應指令範例：環境變數 OTEL_EXPORTER_OTLP_ENDPOINT、OTEL_EXPORTER_OTLP_HEADERS

Collector 部署模式

子議題：

Agent：跟應用程式同 host / pod、做 local buffer + enrichment
Gateway：集中部署、跨多 agent 接收、做 sampling / routing
Sidecar：K8s sidecar pattern、跟 pod 同生命週期
對應配置：receivers / processors / exporters pipeline

深入：OTel Collector 部署模式：agent / gateway / sidecar 與 pipeline 設計（三種位置責任分工、pipeline 設計、collector 失效 / 記憶體壓力 / backpressure 故障演練、容量成本邊界）。

進階主題（按需閱讀）

Auto-instrumentation 跨語言成熟度

子議題：

Java：最成熟、auto-instrumentation 廣度最大
Python：成熟、覆蓋主流 framework
Node：成熟、async context propagation 較複雜
Go：較弱（runtime 不支援 monkey patching）、多用 manual
.NET：成熟、跟 Application Insights 對齊
Ruby / PHP：相對較弱、覆蓋主流 framework

Sampling 策略

對應案例 4.C7 Datadog OTel migration。子議題：

Head-based sampling：trace 開始時決定保留與否、低成本但 lose context
Tail-based sampling：trace 完成後決定（依錯誤 / 延遲）、Collector 要 buffer 整個 trace
Sampling rate 配置（global / per-service / probabilistic）
對應工具：OTel Collector 的 tail_sampling processor、Refinery（Honeycomb）

Semantic conventions

子議題：

HTTP / DB / messaging / RPC 等的 attribute 命名規範
Resource attributes（service.name / service.version / deployment.environment）
Span name / status code convention
Migration：應用層用 OTel semantic conventions、避免 vendor-specific naming

Logs in OTel

子議題：

Logs 比 metrics / traces 較晚進 OTel spec（v1.0 較新）
Log signal 設計：log record 跟 span 關聯（trace_id / span_id）
跟 Loki / Elastic / CloudWatch 的整合
從現有 logging library 移轉的路徑（log-forwarding vs SDK）

Vendor SDK vs OTel SDK 遷移

對應案例 4.C4 X-Ray to OpenTelemetry 與 4.C7 Datadog OTel。子議題：

動機：避免 vendor lock-in、多 backend 並存、開源治理
風險：vendor-specific feature 損失（profiling / RUM 整合）
遷移路徑：dual ship → cutover → cleanup
對應 4.C9 反例：OTel migration signal drift

Resource detection

子議題：

自動偵測 cloud provider（AWS / GCP / Azure）resource attributes
K8s resource detector（pod / namespace / cluster）
Container resource detector
對應配置：OTEL_RESOURCE_ATTRIBUTES

排錯快速判讀

Telemetry 沒到 backend

操作原則：先確認 SDK 配置正確、再看 Collector 是否收到、最後看 exporter 是否成功。

1# TODO: 設 OTEL_LOG_LEVEL=debug 看 SDK 內部 log
2# TODO: 看 Collector internal metrics（zPages / Prometheus exporter）

判讀路徑：SDK → Collector → backend、三段各自獨立、要逐層 isolate。

Cardinality explosion

操作原則：metric attribute 含 high-cardinality 值（user_id / session_id）會爆 backend 成本。判讀：看 backend 的 series 數量、找 attribute 來源。

Trace span gap

操作原則：trace 不完整、看 context propagation 是否在跨 service / 跨 thread 邊界丟失。

Auto-instrumentation 不生效

操作原則：確認 SDK 版本跟 library version 對應、agent 啟動方式正確。對應 4.C7 Datadog OTel migration 的踩坑經驗。

Sampling 過頭 / 不足

操作原則：sampling rate 跟 backend 預算 + debug 需求對齊。判讀：debug 時找不到 trace（sampling 過頭）vs backend 成本爆（sampling 不足）。

何時改走其他服務

需求形狀	改走
需要 metrics 後端	Prometheus / Mimir
需要 SaaS APM 整合	Datadog / New Relic
需要 logs 後端	Elastic Stack / Loki
需要 high-cardinality debug	Honeycomb
AWS-native	CloudWatch + X-Ray
GCP-native	Cloud Operations
Error tracking	Sentry

不在本頁內的主題

各語言 SDK 完整 API
OTLP protocol binary format
各 backend 的 OTel 整合細節（見各 backend vendor 頁）
OTel project governance / sig 細節

案例回寫

直接相關案例

案例	主討論議題
4.C4 X-Ray to OTel	從 vendor SDK 遷出 OTel
4.C5 Cloud Trace OTLP	GCP Cloud Trace 接受 OTLP
4.C6 ADOT EKS pipeline	AWS Distro for OTel + EKS
4.C7 Datadog OTel migration	OTLP ingestion / vendor SDK 移轉
4.C9 OTel migration signal drift	（反例）雙軌遷移期的 signal 漂移

跨 vendor 對照

案例	對 OTel 的對應
4.C8 Airbnb K8s scale signals	K8s 規模化下 OTel Collector 拓撲 / 資源訊號分層
4.C10 規模對照	小型直接 SDK / 中型加 Collector / 大型 multi-backend

下一步路由

上游概念：4.17 Telemetry Data Quality
平行 vendor：所有 04 vendor 都可作 OTel backend
下游能力：4.20 Observability Evidence Package

4.1 log schema 與搜尋規劃

Thu, 23 Apr 2026 00:00:00 +0000

大綱

structured log schema
correlation id / request id fields
index 與 retention
query pattern

概念定位

log schema 是把事件紀錄從文字輸出變成可查詢資料的契約，責任是讓不同服務在事故時能用同一組欄位還原脈絡。

這一頁處理的是欄位與搜尋路徑。log 的價值在於事故時能用穩定欄位找到同一個 request、同一個 tenant、同一個 dependency call 與同一段錯誤鏈，寫得多本身沒有幫助。

核心判讀

判讀 log schema 時，先看 correlation fields 是否穩定，再看 search index 與 retention 是否對齊查詢需求。

重點訊號包括：

request id、trace id、tenant boundary 與 service name 是否跨服務一致
high-cardinality 欄位是否被放進可控索引，並受查詢價值與成本預算約束
retention 是否依 operational debug、audit、compliance 分層
query pattern 是否能支援 incident timeline 還原

判讀訊號

log 欄位 schema 漂移、跨服務 correlation id 對不上
事故時靠 grep 拼湊事件、無結構化查詢入口
log 索引爆量、查詢退化但無清理流程
log 含大量 free-form text、無一致關鍵欄位
retention 策略全平、舊事件查不到 / 不該留的還在留

查詢模式設計

Log 的寫入格式跟讀取需求是兩個不同的設計問題。寫入追求 schema 穩定與吞吐效率；讀取要在不同時間壓力下，用不同的查詢形狀取回不同精度的資料。同一份 structured log 至少被三種查詢模式讀取，每種模式對索引、延遲與結果形狀的要求不同。

即席診斷查詢

事故中的查詢要在秒級內定位問題。典型操作是拿到一個 request id 或 error code，加上 time window，撈出相關事件鏈。

即席查詢的索引策略是把高頻過濾欄位放進結構化索引：service name、log level、error code、request id、trace id、tenant boundary。這些欄位的共同特徵是有界或半有界（error code 有限、request id 雖然無界但查詢時一定帶精確值），查詢時用等值匹配或短範圍掃描。

即席查詢的反模式是對 free-text 欄位做全文搜尋當作主要診斷入口。全文搜尋適合探索性調查（「最近有沒有出現某個未預期的 exception message」），但事故中的時間壓力下，結構化欄位的精確查詢比全文搜尋快一到兩個數量級。

聚合趨勢查詢

Dashboard 跟告警的查詢是定期的聚合計算：過去 5 分鐘的 error count by service、過去 1 小時的 log volume by level、某個 tenant 的 warning 趨勢。這類查詢不需要看單筆 log 的內容，而是需要 count / rate / group by 的聚合結果。

聚合查詢的負載特性跟即席查詢不同。即席查詢讀少量資料、要求低延遲；聚合查詢掃大量資料、容忍較高延遲但執行頻率高（dashboard 每 30 秒刷新一次 = 每分鐘 2 次相同的重聚合）。當 log volume 成長，重複計算聚合的成本會推高 query engine 負擔。

應對策略有兩種。一是在 log pipeline 把常用聚合轉成 metrics — collector 端做 log-to-metric 轉換（例：把 level=error 的 log 計數轉成 error_log_total counter），dashboard 讀 metric 而非重掃 log。二是在查詢層設定 materialized view 或快取，讓重複查詢直接取用預計算結果。

鑑識回溯查詢

事後分析與合規稽核的查詢範圍大（跨天、跨週甚至跨月）、對完整性要求高、但延遲容忍也高（分鐘級回應可接受）。鑑識查詢常見的形狀是「某個 tenant 在過去 30 天內所有 authentication failure」或「某個 API 的 error 分布演變」。

鑑識查詢的儲存設計跟 storage tiering 直接相關。Hot tier 保留最近數天的 full-index log，warm tier 保留數週的部分索引或壓縮 log，cold tier 保留數月到數年的歸檔 log。鑑識查詢命中 cold tier 時，系統可能需要 rehydrate（把歸檔資料暫時載回可查詢狀態），這個操作本身需要時間和臨時儲存空間。

鑑識場景的關鍵設計決策是「哪些欄位在 cold tier 仍可查詢」。全部欄位都保留索引成本太高；只保留 timestamp + service name + tenant 的最小索引，能支援基本的範圍掃描，細節再用 rehydrate 後的全文搜尋補。

三種模式的資源隔離

三種查詢模式搶同一個 query engine 時，聚合查詢的持續負載會擠壓即席查詢的回應速度。事故中團隊最需要即席查詢的低延遲，但此時 dashboard 也在高頻刷新聚合查詢，兩者競爭 query 資源。

可操作的隔離方式是讓即席查詢跟聚合查詢走不同的 query priority 或 query queue。Elasticsearch 的 search thread pool、Loki 的 query-frontend queue、Datadog 的 query quota 都提供某種程度的查詢隔離。設計時要把即席查詢的延遲 SLA 當作硬性約束，聚合查詢的延遲可以被彈性排程。

交接路由

04.7 metric cardinality / cost：label 預算與保留階梯
04.8 訊號治理閉環：log-based alert 的生命週期
04.12 audit log：稽核訊號跟 operational log 的邊界
04.23 觀測查詢設計：跨訊號類型的讀取路徑系統設計

功能規格中的 log 點定義方法

Fri, 19 Jun 2026 00:00:00 +0000

Log 點定義是功能規格的一部分，和 API schema 同級。功能規格描述「這個功能做什麼」，log 點規格描述「這個功能執行時留下什麼可觀察的紀錄」。把 log 點設計前移到規格階段，讓 log 成為功能的設計產物，而非事後的 debug 工具（本章合成，TF-9 Derive）。

四類 log 點

每個功能的 log 點按執行時機分成四類。

啟動 log

功能開始執行時記錄。回答「這個功能是否被觸發了」。

啟動 log 包含觸發來源（使用者操作、系統排程、外部事件）和初始參數（連線目標、操作類型）。如果一個功能從未被觸發，啟動 log 的缺席就是線索。

步驟 log

功能執行過程中的每個關鍵步驟完成時記錄。回答「流程走到哪裡了」。

步驟 log 的粒度依功能複雜度而定。三步驟的功能每步記一條；十步驟的功能可以只記關鍵的三到五步。判斷標準是：如果這一步失敗，開發者是否需要知道失敗點在哪。

錯誤 log

步驟失敗、例外捕獲、非預期狀態出現時記錄。回答「出了什麼問題」。

錯誤 log 必須包含足夠的 context 讓開發者不需要重現問題就能判斷原因。至少包含：哪一步失敗、失敗原因（error message）、當時的關鍵狀態值。

完成 log

功能正常結束時記錄。回答「功能是否成功完成、花了多久」。

完成 log 包含執行結果和耗時。和啟動 log 配對使用 — 有啟動但沒有完成代表功能中途異常退出。

在功能規格中加可觀測性欄位

以 app_tunnel 的「連線到 ttyd 終端機」功能為例，傳統規格只寫：

輸入：使用者選擇的伺服器
處理：建立 WebSocket 連線、發送 auth token、開始接收 terminal output
輸出：終端機畫面顯示 terminal output

加上可觀測性欄位後：

類型	log 點	內容
啟動	connect.start	目標 URL、觸發來源（使用者操作 / 自動重連）
步驟	connect.biometric.done	認證結果、耗時
步驟	connect.credential.loaded	使用者名稱（密碼 redact）
步驟	connect.ws.connected	連線 URL、耗時
步驟	connect.auth.sent	token 長度（內容 redact）
步驟	connect.stream.subscribed	stream 狀態
錯誤	connect.{step}.failed	失敗步驟、error message、retry count
完成	connect.done	總耗時、最終狀態

這張表在功能規格階段就能寫出來，因為它只依賴功能的流程設計，不依賴實作細節。功能流程確定後，每一步在哪裡需要 log 點就確定了。

log 點命名規則

統一的命名規則讓 log 可以被 grep、過濾和統計。

階層式命名：{功能}.{步驟}.{事件}。例如 connect.ws.connected、connect.auth.failed。

事件後綴統一：start（啟動）、done（步驟完成）、failed（失敗）、complete（功能完成）。

和程式碼結構對應：log 點名稱對應到程式碼中的函式或模組。connect.biometric.done 對應 BiometricService.authenticate() 的成功路徑。這讓開發者看到 log 名稱就知道去哪裡找程式碼。

log 點規格的 review 檢查

功能規格 review 時，可觀測性欄位的檢查要點：

每步都有 log：流程中的每個步驟在成功和失敗時都有對應的 log 點。遺漏的步驟意味著該步驟出問題時無法從 log 判斷。

錯誤 log 有足夠 context：error log 只寫「連線失敗」不夠；需要寫「連線失敗」加上 error code、目標 URL、已完成的步驟。

敏感欄位有 redaction 標記：密碼、token、個人資料在 log 規格中標記為 redact，實作時用 redaction 機制處理。

啟動和完成配對：每個功能有啟動 log 就應該有完成 log，形成完整的生命週期。

下一步路由

三層 log 的詳細設計 → 三層 log 設計
事後補 log 和設計產物 log 的差異 → 「事後補 log」vs「設計產物 log」的品質差異
Log 中的敏感資訊處理 → monitoring 模組七資安

模組二：客戶端可觀測性

Fri, 19 Jun 2026 00:00:00 +0000

回答「使用者的裝置上發生了什麼事」。log 設計應在功能規格階段完成，跟 API schema 同級。

對應 findings

Finding	來源	內容
TF-6	T.C4	6 元件中 4 個零 log，2 個全是 W2 hotfix
TF-7	T.C4	事後補的 developer.log 格式不統一
TF-9	T.C4	log 設計應在功能規格階段完成 — 本模組主寫

待寫章節

三層 log 設計（連線生命週期 / protocol 訊息 / 使用者行為）
功能規格中的 log 點定義方法
自架 log endpoint vs 商業方案的取捨判斷
「事後補 log」vs「設計產物 log」的品質差異

跨分類引用

→ monitoring 模組二 Log Schema：本模組教「設計 log 點」，monitoring 教「log 收集到之後怎麼處理」
→ monitoring 模組七資安：log 內容可能含 secret，SDK redaction 在這裡介入
← ux-design 模組一：狀態矩陣可加「可觀測性」欄位

Gaming：高峰流量下的訊號新鮮度與 Cardinality

Thu, 07 May 2026 00:00:00 +0000

本案例的核心責任是避免高峰流量讓觀測系統本身失真。若訊號延遲與 cardinality 膨脹失控，值班決策會落在過期資料上。

業務背景

一個線上多人遊戲平台，日活躍使用者約 50 萬人。每逢賽季開跑或限時活動，同時在線人數在 30 分鐘內從平日基線暴增 8-10 倍，matchmaking 服務的 request rate 從 5k/s 衝到 50k/s，遊戲伺服器同時運行的 match instance 從數千增到數萬。

觀測系統在平日運作良好 — Prometheus 單機 scrape 500 萬 active series、Grafana dashboard 查詢秒級回應、告警在 1 分鐘內觸發。但每次活動開跑時，觀測系統本身開始劣化：dashboard 查詢從秒級變成分鐘級、告警延遲 5 分鐘以上才送到、部分 metric 直接消失。值班工程師在最需要觀測的時刻失去了可信訊號。

技術挑戰

Cardinality 爆炸

平日的 metric label 設計包含 match_id、player_id 跟 server_instance。平日 active series 約 500 萬，活動開跑後 match 跟 player 數量暴增，active series 在 30 分鐘內衝到 2000 萬。Prometheus 的 head block 記憶體從 20 GB 暴增到 80 GB，超過機器 64 GB 上限，觸發 OOM kill。

OOM 後 Prometheus 重啟需要 replay WAL，這段時間（5-15 分鐘）完全沒有 metric。活動最需要觀測的前 30 分鐘，觀測系統反而停擺。

Scrape freshness 延遲

即使 Prometheus 沒 OOM，大量 target 的 scrape 時間也會拉長。平日每輪 scrape 15 秒完成，活動期間拉長到 60-90 秒。Scrape interval 設定 30 秒時，下一輪 scrape 在上一輪還沒結束時就啟動，造成 sample 丟失跟時間錯位。Dashboard 上看到的數字可能延遲 2-3 分鐘，值班人員基於過期數據做判斷。

Alert 閾值失真

告警規則基於平日 baseline 設定 — 例如 error_rate > 1% 觸發。活動期間的 error rate 波動更大（matchmaking 短暫排隊造成的 timeout 增加是預期行為），平日閾值在活動期間持續觸發 false positive。值班人員開始 ignore alert，真正的問題（伺服器記憶體洩漏）被淹沒在噪音中。

解法

Cardinality guardrail

把高 cardinality label 從 real-time metric 移除。match_id 和 player_id 不再作為 Prometheus label，改為 log 和 trace 的欄位。Real-time metric 只保留 region、server_pool、game_mode 等低 cardinality 維度。

需要 per-match 或 per-player 分析時，走 log analytics pipeline（非 real-time，延遲 5-10 分鐘可接受）。這讓 Prometheus 的 active series 在活動期間從 2000 萬降到 800 萬，留在單機可承受範圍。

Pre-aggregation recording rules

為活動期間最常查的 pattern（per-region error rate、matchmaking queue depth、server utilization）建立 recording rules。Recording rules 在 Prometheus server 端預先計算，dashboard 查詢直接讀預計算結果，避免 heavy aggregation query 在活動期間拖慢 Prometheus。

1# recording rule 示例
2groups:
3  - name: peak_precompute
4    interval: 15s
5    rules:
6      - record: region:matchmaking_errors:rate5m
7        expr: sum(rate(matchmaking_errors_total[5m])) by (region)

Signal tiering

把觀測訊號分成兩層：

層級	訊號類型	Pipeline	Freshness	Cardinality 限制
Tier 1	Golden signals（latency、error rate、throughput、saturation）	Prometheus real-time	< 30s	嚴格（低 cardinality label only）
Tier 2	Debug signals（per-match、per-player、per-request）	Log + trace analytics	5-10 min	無限制

Tier 1 支撐告警跟即時 dashboard，保證活動期間不劣化。Tier 2 支撐事後分析跟 root cause investigation，接受延遲。

Dynamic alert threshold

活動期間啟用「高峰模式」alert profile — 調高 error rate 閾值（1% → 5%）、加長 for: duration（1m → 5m）、停用已知在活動期間會 false positive 的告警。高峰模式由活動排程系統自動觸發，活動結束後自動切回平日 profile。

取捨

面向	高 cardinality real-time	分層治理
Debug 即時性	高（per-match real-time）	低到中（per-match 延遲 5-10 min）
Prometheus 穩定性	低（活動期間 OOM 風險）	高（active series 可控）
Dashboard 回應速度	活動期間劣化	穩定（recording rules 預計算）
告警可信度	低（false positive 淹沒真問題）	中到高（dynamic threshold 降噪）
維護複雜度	低（一套 pipeline）	中（兩套 pipeline + 高峰模式切換）

分層治理的核心取捨是犧牲 per-match real-time debug 能力，換取觀測系統在高峰期間的穩定。這個取捨在活動場景成立 — 活動期間最需要的是「整體是否健康」的判斷，per-match debug 在事後分析夠用。

回寫教材的連結

4.7 Cardinality Cost Governance：cardinality guardrail 的設計原則與偵測機制。
4.17 Telemetry Data Quality：scrape freshness、sampling bias 與 signal tiering。
4.11 Telemetry Pipeline：real-time vs batch analytics pipeline 的分層設計。
4.4 Dashboard Alert：dynamic alert threshold 與高峰模式切換。

判讀徵兆

讀者在自己的系統看到以下訊號時，應該回讀本案例：

流量高峰期間 Prometheus 記憶體使用異常增長或觸發 OOM
Dashboard 在尖峰時段查詢變慢或 timeout，正好是最需要看的時候
Alert 在活動期間大量觸發但多數是 false positive，值班人員開始 ignore
prometheus_tsdb_head_series 在特定時段突然暴增，結束後回落
Metric label 中包含高 cardinality identifier（user_id、session_id、request_id）

Prometheus

Fri, 01 May 2026 00:00:00 +0000

Prometheus 是 CNCF graduated 的 metrics 系統、承擔三個責任：pull-based metrics scraping（service discovery + scrape）、PromQL 查詢與 recording rules、Alertmanager 告警與路由。設計取捨偏向「短中期 metrics + 簡單部署 + cloud-native 整合」、長期儲存交給 Mimir / Thanos / Cortex。是 Kubernetes 生態 metrics 的事實標準。

對「K8s metrics、service metrics、需要 PromQL 表達能力、自管 metrics 棧」這條路徑、Prometheus 是首選。

本章目標

讀完本章後、你應該能：

用 docker 跑起 Prometheus、配置 scrape target
用 PromQL 查詢 metrics、寫 recording rules / alerting rules
設計 service discovery（K8s / Consul / file_sd）
看懂 cardinality 訊號、避免 label explosion
評估長期儲存（Thanos / Mimir / Cortex）跟 remote write 的選擇

最短路徑：5 分鐘把 Prometheus 跑起來

先建最小 config 檔（Prometheus scrape 自己）：

1# prometheus.yml
2global:
3  scrape_interval: 15s
4
5scrape_configs:
6  - job_name: "prometheus"
7    static_configs:
8      - targets: ["localhost:9090"]

啟動並驗證：

 1# 1. 啟動 Prometheus
 2docker run -d --name prom -p 9090:9090 \
 3  -v "$(pwd)/prometheus.yml:/etc/prometheus/prometheus.yml" \
 4  prom/prometheus
 5
 6# 2. 確認 target 正常（等 15 秒讓第一次 scrape 完成）
 7curl -s http://localhost:9090/api/v1/targets | jq '.data.activeTargets[].health'
 8
 9# 3. 查詢驗證
10curl -s 'http://localhost:9090/api/v1/query?query=up' | jq '.data.result[].value[1]'

up 回傳 "1" 代表 Prometheus 能 scrape 自己。瀏覽器訪 http://localhost:9090 可用 PromQL UI 互動查詢。實際 production 要配 retention、alerting rules 與 HA。

日常操作與決策形狀

Scrape 配置與 service discovery

子議題：

Static config：手動列 target、適合小規模
File SD：動態檔案、適合外部系統推送
Kubernetes SD：K8s API server 動態發現
Consul SD：跟 Consul service registry 整合
對應配置：scrape_configs 區段

PromQL 查詢

子議題：

Instant query vs range query
Aggregation：sum / avg / max / min / count + by / without
Rate / increase（counter 處理）
Histogram quantile（histogram_quantile + bucket）
對應指令：HTTP API /api/v1/query

Recording rules / Alerting rules

子議題：

Recording rules：預先計算昂貴 query、降低 dashboard 查詢成本
Alerting rules：定義 alert condition + for duration + labels / annotations
Alertmanager：去重 / 抑制 / 分組 / routing
對應配置：rule_files

Deep Article

Prometheus 容量規劃與故障模式：單機容量邊界、cardinality 與 retention 的資源模型、常見故障模式與判讀
PromQL 與 Recording Rules 實務：常見 SLI 查詢模式、recording rules 設計慣例、效能陷阱與故障判讀
Remote Write 與長期儲存整合：remote write 配置、Mimir / Thanos / Cortex 三家比較、故障模式與容量規劃

進階主題（按需閱讀）

High availability

子議題：

Prometheus 沒原生 HA — 跑兩個 instance scrape 同 target、靠下游去重
Thanos：sidecar 模式、跨 Prometheus instance 查詢統一
Mimir：fully replicated metric storage（多 Prometheus → Mimir）
對應案例 4.C8 Airbnb K8s scale signals

Cardinality 管理

對應案例 4.C2 Gaming peak cardinality。子議題：

Cardinality = unique label combinations 數量
High-cardinality label（user_id / request_id / trace_id）會炸 Prometheus
偵測：prometheus_tsdb_head_series metric
修法：drop label / aggregation / 改用 traces backend（Honeycomb）

Remote write / read

子議題：

Remote write：Prometheus → 長期儲存（Mimir / Cortex / Thanos / Datadog / Grafana Cloud）
Remote read：查詢時拉長期儲存資料
用 receiver / agent 模式（無 local TSDB）
對應配置：remote_write / remote_read

Exporters 生態

子議題：

Node exporter（host metrics）
Blackbox exporter（HTTP / TCP / ICMP probing）
Database exporters（postgres / mysql / redis）
應用層 metrics：用 client library（prometheus_client）原生暴露
對應 ServiceMonitor / PodMonitor（Prometheus Operator）

Prometheus Operator（K8s）

子議題：

CRD：Prometheus / ServiceMonitor / PodMonitor / PrometheusRule / Alertmanager
自動發現 ServiceMonitor 物件、不手動改 scrape config
kube-prometheus-stack Helm chart
對應 4.C6 ADOT EKS 對照

Pull vs Push model

子議題：

Pull model（Prometheus default）：service discovery、health check 自然
Push model（Pushgateway）：適合 short-lived job、不建議常駐 service
為何 Pushgateway 不推：cardinality 不易管、scrape semantics 違反

排錯快速判讀

Scrape failure

操作原則：先看 target 是否健康、再看 network 跟認證。

1curl -s http://localhost:9090/api/v1/targets | jq '.data.activeTargets[] | {job: .labels.job, health, lastError}'

Cardinality explosion

操作原則：series 數量持續增長、可能 OOM。

1curl -s 'http://localhost:9090/api/v1/query?query=prometheus_tsdb_head_series' | jq '.data.result[].value[1]'

對應 4.C2 Gaming peak 的處理路徑。

Query 過慢

操作原則：query 過大範圍 / aggregation 過多 → Recording rules 預先聚合。

Alert flapping / noise

操作原則：alert 觸發頻繁但無實際問題、調整 for: duration、加 absent() check、用 Alertmanager inhibition。

Memory pressure

操作原則：Prometheus retention 跟 cardinality 決定 memory。判讀：cardinality 太大 → remote write 卸載長期儲存。

何時改走其他服務

需求形狀	改走
長期 retention（年級）	Thanos / Mimir / Cortex / Grafana Cloud
需要 logs / traces	Grafana Stack (Loki/Tempo) / Elastic
Auto-instrumentation	OpenTelemetry + Prometheus exporter
SaaS turnkey	Datadog
High-cardinality debug	Honeycomb
AWS-native	CloudWatch + Managed Prometheus
Pure push model	StatsD / InfluxDB（不在本模組）

不在本頁內的主題

PromQL 完整 syntax reference（prometheus.io/docs/prometheus/latest/querying/）
Exporter 內部實作
Alertmanager routing tree 細節
Operator CRD spec

案例回寫

直接相關案例

案例	主討論議題
4.C2 Gaming peak cardinality	Cardinality 管理 / freshness 取捨
4.C6 ADOT EKS	AWS Distro + Prometheus 整合
4.C8 Airbnb K8s scale	K8s metrics + Prometheus 規模化

跨 vendor 對照

案例	對 Prometheus 的對應
4.C7 Datadog OTel migration	從 Prometheus + Datadog 雙軌走向 OTel 對齊
4.C9 OTel migration signal drift	（反例）Prometheus 指標跟新管線的語意對不齊
4.C10 規模對照	小型單 instance / 中型 Operator / 大型 + Mimir

下一步路由

上游概念：Metrics Basics
平行 vendor：Grafana Stack（Mimir）、OpenTelemetry
下游能力：4.20 Observability Evidence Package

4.2 metrics 與 SLI/SLO

Thu, 23 Apr 2026 00:00:00 +0000

大綱

metrics 基本型別
latency histogram
error rate / throughput
SLI / SLO / error budget

概念定位

metrics 是把服務狀態壓縮成可聚合、可比較、可告警的時間序列，責任是讓團隊看見趨勢、容量與服務健康。

這一頁處理的是 metric 型別與計算語意。counter、gauge 與 histogram 各自回答不同問題；選錯型別會讓後面的 SLI、dashboard 與 alert 都建立在錯誤訊號上。

核心判讀

判讀 metrics 時，先看指標型別是否對應問題，再看分母、bucket 與 label 是否穩定。

重點訊號包括：

latency 是否用 percentile / histogram 補足 average 的盲點
error rate 的分母是否能代表真實請求量
bucket 是否覆蓋實際尾端延遲
label 是否能切出必要維度，同時不讓 metric cardinality 失控

判讀訊號

用 average 而非 percentile 追 latency、p99 失真
counter / gauge 混用、計算公式錯
histogram bucket 沒對齊實際分佈、tail latency 被截斷
error rate 分母不穩（流量低時誤觸發、高時稀釋）
商業 SLI 跟 metric 對不上、靠人解釋

聚合查詢與 recording rule

Metrics 的讀取面跟寫入面是兩個不同的效能瓶頸。寫入面的壓力來自 series 數量（cardinality）；讀取面的壓力來自查詢時的聚合計算量。兩者可以獨立失控 — series 數量合理但每次 dashboard 刷新都重算複雜表達式，query engine 一樣會過載。

Query-time aggregation 的成本

Dashboard panel 或 alert rule 每次觸發時，TSDB 對 raw series 執行聚合表達式（rate、sum、histogram_quantile）。當 raw series 數量大、查詢時間範圍長、dashboard 刷新頻率高，同一個計算會被反覆執行。

一個典型的 SLO burn rate panel 可能涉及：先算 rate、再除以 total、再跟 threshold 比較、最後乘以 window。每次刷新把整條運算鏈走一遍。當這類 panel 有十幾個、每 30 秒刷新一次，query engine 的 CPU 會被 dashboard 佔滿，留給事故即席查詢的餘量不夠。

Recording rule 把計算推到寫入時

Recording rule 是 Prometheus 生態（包括 Thanos、Mimir、VictoriaMetrics）的標準應對方式：在 TSDB 內定期執行聚合表達式，把結果寫成新的 time series。Dashboard 跟 alert rule 讀 recording rule 的輸出而非重算 raw series。

Recording rule 的設計判準是查詢頻率跟計算成本的乘積。高頻讀取（dashboard auto-refresh、每分鐘 evaluate 的 alert rule）加上高計算成本（多維度 rate + ratio + quantile）的組合最值得做 recording rule。低頻即席查詢（事故時的 ad-hoc 切片）直接查 raw series，保留完整維度。

Recording rule 的命名慣例用 level:metric:operations 格式（如 job:http_requests_total:rate5m），讓讀者從名稱直接判斷來源粒度跟計算方式。沒有命名慣例時，recording rule 增長到數百條後會難以維護跟除錯。

Rollup 與 downsampling

Rollup 解決的是時間維度的讀取成本。原始資料以 15 秒間隔採集，查詢「過去 90 天的 error rate 趨勢」時需要掃描數百萬個資料點；rollup 把舊資料聚合成 5 分鐘或 1 小時粒度，查詢時只讀取聚合後的少量資料點。

Rollup 的聚合函數選擇影響查詢語意。Counter 用 sum 合理、gauge 用 average 合理、histogram 用 average 會失去分布資訊（p99 被壓平）。設計 rollup 時要按 metric type 指定對應的聚合函數，混用會讓長時間範圍的 dashboard 產生誤導性數值。

查詢路由的透明度也是設計重點。使用者把 dashboard 時間範圍從 1 小時拉到 7 天時，系統自動從 raw series 切到 rollup series，精度從 15 秒變成 5 分鐘。如果這個切換對使用者不透明，事故中觀察到的數值變化可能是精度切換的假象而非真實服務變化。

Metrics 讀取面的資源隔離

Metrics 的 query engine 跟 log 一樣面臨多種查詢模式競爭資源的問題。Dashboard 定期刷新是穩定的背景負載；alert rule evaluation 是系統關鍵的定期負載；事故即席查詢是偶發的突增負載。三者搶同一個 query engine 時，dashboard 跟 alert 的穩定負載會壓縮即席查詢的可用資源。

Prometheus 原生的資源隔離有限，但 Thanos Query Frontend、Mimir Query Frontend、Grafana Cloud 的 query scheduler 都支援 query priority 或 query queue 分離。設計時把 alert evaluation 設為最高優先（告警不能因 query 排隊而延遲），dashboard 次之，即席查詢的延遲容忍最高但不能被完全餓死。

交接路由

04.6 SLI/SLO 訊號設計：把 metric 升級為 user-journey SLI
04.7 metric cardinality / cost：label 治理與成本邊界
04.9 continuous profiling：metrics 之外的第四角觀測訊號
04.23 觀測查詢設計：跨訊號類型的讀取路徑系統設計
4.C11 Uber M3：單機 Prometheus 到平台級 metrics 系統的演進

4.3 tracing 與 context link

Mon, 22 Jun 2026 00:00:00 +0000

大綱

trace / span 模型
trace context propagation
context 斷鏈的常見邊界與修復
sampling 策略的 tracing 面（SSoT 在 4.7）
service graph 與依賴發現
反模式

概念定位

Trace 是把一次 request 在多個服務、queue 與背景任務中的路徑串起來的診斷訊號，責任是讓團隊從症狀追到跨服務等待點。

Log 回答「某個服務發生了什麼」；metric 回答「某個服務的健康趨勢」；trace 回答「一次 request 跨多個服務時，時間花在哪、錯誤發生在哪一段」。三者互補，trace 的獨特價值在於它串起跨服務的因果鏈 — 沒有 trace，事故定位只能靠人工比對不同服務的 log timestamp。

本章處理的是 context propagation — 怎麼讓 trace context 在 HTTP call、queue 投遞、背景任務啟動等邊界上正確傳遞。Context 斷掉時，trace 從「完整路徑」退化成幾段需要人工拼接的局部紀錄，跨服務診斷的時間成本會從秒級回退到分鐘甚至小時級。

Trace 與 Span 的結構

Span 是 trace 的基本單位

一個 span 代表一段有起止時間的工作。每個 span 記錄：操作名稱（POST /api/orders）、開始與結束時間、狀態（OK / Error）、屬性（service name、http.status_code、db.statement）與事件（exception、log message）。

Span 之間透過 parent-child 關係組成 tree。一個 HTTP request 進入 API gateway 時建立 root span，gateway 呼叫 order service 時建立 child span，order service 查 DB 時建立另一個 child span。整棵 tree 共享同一個 trace id，讓所有 span 可以被聚合成一次 request 的完整路徑。

Trace 是 span tree

一個 trace 是所有共享同一個 trace id 的 span 的集合。在 waterfall view 中，trace 呈現為時間軸上的巢狀條狀圖 — root span 在最上面，child span 依序往下排列，每段的長度代表耗時。

Waterfall view 的診斷價值是「一眼看到時間花在哪」。如果 checkout API 的 total latency 是 800ms，waterfall 會顯示 payment service 佔了 600ms — 問題定位從「整個 checkout 慢」縮小到「payment service 慢」，後續 debug 只需要看 payment service 的 log 跟 metric。

Context Propagation

什麼是 trace context

Trace context 是跨服務傳遞 trace 身份的資料。最小的 trace context 包含 trace id（標識整條 trace）跟 parent span id（標識上游 span）。下游服務收到 trace context 後，建立新的 child span 並繼承 trace id，讓兩端的 span 歸屬同一條 trace。

W3C Trace Context 標準定義了 HTTP header 的傳遞格式：traceparent header 帶 trace id + parent span id + trace flags，tracestate header 帶 vendor-specific 的附加資訊。OpenTelemetry SDK 預設使用 W3C 格式；部分 vendor 有自己的 header 格式（Datadog 用 x-datadog-trace-id、AWS X-Ray 用 X-Amzn-Trace-Id），需要在 collector 或 SDK 層做格式轉換。

Propagation 的傳遞機制

HTTP call 是最常見的 propagation 路徑 — SDK 的 HTTP client middleware 自動把 trace context 注入 request header，下游 SDK 的 HTTP server middleware 自動從 header 提取 context。大部分 OpenTelemetry SDK 的 auto-instrumentation 會自動處理這一層，開發者不需要手動注入。

gRPC 用 metadata（等同 HTTP header）傳遞，機制類似。

Message queue 的 propagation 需要把 trace context 放進 message 的 header 或 metadata。Kafka 用 record header、RabbitMQ 用 message properties、NATS 用 message header。Producer 端注入、consumer 端提取。Queue 的 propagation 比 HTTP 複雜的原因是 consumer 可能在 producer 之後很久才消費 — context 的時間跨度可能從毫秒擴大到分鐘或小時。

Context 斷鏈的常見邊界

Context propagation 在以下邊界容易斷裂：

Thread / goroutine / task 邊界：同步 runtime 通常用 thread-local 存放 context，新開 thread 不會自動繼承。Go 用 context.Context 顯式傳遞，相對不容易遺漏；Java 用 ThreadLocal，啟動新 thread 或提交到 thread pool 時 context 需要手動傳遞或用 agent auto-instrumentation。Async runtime（Node.js 的 AsyncLocalStorage、Python 的 contextvars）各有自己的 context 傳播機制。

Queue / event 邊界：producer 把 trace context 注入 message header，consumer 提取並建立新 span。如果 producer 端的 SDK 沒有自動注入（例如用了原生 Kafka client 而非 instrumented client），context 就斷了。跨 queue 的 trace 在 waterfall view 中會出現時間斷層 — producer span 結束到 consumer span 開始之間可能有秒級到分鐘級的等待。

Background job / cron 邊界：cron job 或 scheduled task 沒有上游 request，沒有 trace context 可繼承。這類工作需要在啟動時建立 root span，並把 job name、schedule、trigger reason 作為 span 屬性，讓 trace 至少可以追蹤 job 內部的行為。

跨語言 / 跨 vendor 邊界：不同語言的 SDK 或不同 vendor 的 instrumentation 可能用不同的 header 格式。W3C Trace Context 標準解決了格式問題，但混用 vendor-specific SDK 時（例如一個服務用 Datadog agent、另一個用 OTel SDK），需要在 collector 層做 context format 轉換。

斷鏈的修復策略

修復斷鏈的目標是讓 trace 在邊界處重新接上，不需要人工拼接。

Queue 邊界：確保 producer 跟 consumer 都使用 instrumented client（OTel SDK 的 messaging instrumentation），而非原生 client。Instrumented client 自動處理 header 注入跟提取。Consumer 端建立的 span 用 CONSUMER kind 標記，waterfall view 會顯示 queue 等待時間。

Thread pool 邊界：Java 生態用 Context.wrap() 包裝提交到 thread pool 的 Runnable/Callable；Go 生態用 context.Context 作為第一個函數參數傳遞（這是 Go 的慣例，不需要額外處理）。Auto-instrumentation agent 可以自動處理常見 thread pool（Java 的 ExecutorService、Node.js 的 worker_threads）。

跨 vendor 邊界：在 collector 層（OTel Collector）統一轉換 header 格式。Collector 的 receiver 支援多種格式輸入，exporter 統一輸出 W3C 格式。這層轉換在 4.11 telemetry pipeline 的 collector 中介段處理。

Trace 與 Log / Metric 的關聯

Correlation id 統一

Trace id 應該同時出現在 log 的結構化欄位中。當 log 的 trace_id 欄位帶著跟 trace 相同的值，debug 工作流就能從 trace waterfall 跳到某個 span 對應的 log，或從 log 跳到完整的 trace view。

實作方式是在 logger 初始化時，把當前 span 的 trace id 注入 log 的 context fields。OTel SDK 的 log bridge 可以自動做這件事；沒有自動橋接的框架需要手動把 span.SpanContext().TraceID() 寫進 log 的 correlation id 欄位。

Exemplar：metric 到 trace 的跳板

Metric 是聚合訊號，本身不帶單一 request 的 trace id。Exemplar 是附加在 metric 資料點上的代表性 trace id — 當某個 histogram bucket 收到一個資料點時，附帶記錄產生這個資料點的 trace id。

Dashboard 上看到 latency p99 升高時，可以從 exemplar 跳到一個具體的高延遲 trace，看 waterfall 定位慢在哪。Exemplar 是 metric 到 trace 的橋樑，讓聚合訊號（metric）跟個別案例（trace）連接起來。

Service Graph 與依賴發現

Trace 資料聚合後可以自動生成 service graph — 哪些服務在呼叫哪些服務、call 的頻率、延遲分布、錯誤率。這個 graph 跟手動維護的 architecture diagram 不同：它來自實際流量，反映的是「現在真的在發生什麼」而非「設計時預期會發生什麼」。

Service graph 的價值在於依賴發現。新服務加入後，如果有 trace instrumentation，它會自動出現在 graph 上。舊服務之間新增的依賴（例如 A 開始直接呼叫 C、繞過 B）也會被 graph 反映。手動維護的 wiki 通常落後實際狀況數週到數月。

Service graph 的完整性取決於 trace 的覆蓋率。如果某些服務沒有 instrumentation 或 sampling 率太低，graph 上會出現斷點或邊權不準。把 service graph 的完整性（「有多少比例的服務有 trace」）作為觀測覆蓋率的一個指標，能推動 instrumentation 的漸進覆蓋。

詳見 4.13 service topology。

核心判讀

判讀 tracing 時，先看 propagation 是否完整，再看 sampling 是否保留可除錯樣本。

重點訊號包括：

trace id 是否能和 log、metric 共享 correlation id
async / queue / background job 是否能保留 parent-child 關係
sampling 是否能在高流量下保留錯誤與高延遲樣本（策略矩陣見 4.7）
service graph 是否能由 trace 聚合而來，並降低 wiki 手動維護成本
trace context 在跨語言 / 跨 vendor 邊界是否用 W3C 標準統一

判讀訊號

Request 跨服務後 trace 斷鏈、靠人重組
Async / queue 邊界 context 沒傳遞
採樣率太低、production debug 找不到對應 trace
Trace id 跟 log / metric 對不上、無共同 correlation key
Service graph 不存在或半年沒人看
多個 vendor SDK 混用、header 格式不一致
Background job / cron 沒有 root span、trace 無法追蹤

反模式

反模式	表面現象	修正方向
只 instrument HTTP、忽略 queue	Queue 消費後的 span 都是孤兒	Producer / consumer 都用 instrumented client
Thread pool 不傳 context	平行處理的 span 不歸屬任何 trace	用 Context.wrap() 或語言慣例傳遞 context
Trace id 沒寫進 log	從 log 找不到對應 trace、反向也找不到	Logger context 注入 trace id
混用 vendor header 無轉換	部分服務的 span 串不進同一條 trace	Collector 層統一轉換成 W3C 格式
所有 span 都是 root span	Trace 只有一層、沒有 parent-child 結構	確認 SDK 的 context extraction 有正確從 header 繼承
Background job 無 instrumentation	Job 內的 DB / HTTP call 沒有 trace 可追蹤	Job 啟動時建立 root span、內部操作作為 child span

交接路由

4.4 dashboard-alert：trace 資料在 dashboard 的呈現跟 alert 設計
4.7 cardinality / cost：sampling 策略矩陣（Head / Tail / Adaptive / Exemplar）與保留決策
4.11 telemetry pipeline：sampling 在 collector 的集中治理、跨 vendor header 轉換
4.13 service topology：trace 訊號聚合成依賴圖
4.17 telemetry data quality：sampling bias 跟 trace 完整性的資料品質
4.23 觀測查詢設計：trace 查詢作為即席診斷的一種模式

自架 log endpoint vs 商業方案的取捨判斷

Fri, 19 Jun 2026 00:00:00 +0000

Log 收集方案的選擇取決於兩個因素：使用者在哪裡（同機 / 同網段 / 外部網路），以及 log 的消費者是誰（開發者自己 / 維運團隊 / 客服團隊）。自用工具和商業產品對這兩個因素的答案不同，適合不同的方案。

自架 log endpoint 的適用場景

自架 log endpoint 適合的前提是：client 和 server 在同一個網路內（同機、同 LAN、同 VPN/tailnet），log 的唯一消費者是開發者本人。

app_tunnel 就是這個場景。Server（ttyd）和 client（Flutter app）在同一台機器或同一個 Tailscale tailnet 內。開發者同時是使用者和維運者。Log 的消費方式是 grep — 不需要 dashboard、不需要告警、不需要多人共享。

在這個場景下，自架 log endpoint 的成本遠低於商業方案。一個 Go 程式開 HTTP endpoint 接收 JSON log 寫入檔案，20 行程式碼就能完成。Client 端的 AppLogger 在 debug mode 同時寫 console 和 POST 到 endpoint。Debug 時用 grep + jq 查詢，不需要額外工具。

1Client (Flutter) → HTTP POST /log → Go receiver → JSON file → grep/jq

這個方案沒有外部依賴、沒有帳號管理、沒有費用、沒有資料隱私顧慮（log 不離開本機網路）。

商業方案的適用場景

商業方案（Sentry、Crashlytics、Datadog）適合的前提是：使用者分佈在外部網路，log 的消費者包含非開發者（維運、客服、產品），且需要告警和趨勢分析。

商業方案提供的能力包括：跨網路收集（SDK 自動處理網路不穩定和批次傳輸）、多人查看 dashboard、告警規則設定、crash 報告自動分群、用戶 session 重播。這些能力在自用工具場景下不需要，在商業產品場景下是基礎需求。

商業方案的成本包括：SDK 整合和設定、帳號和權限管理、月費（依事件量計費）、資料隱私合規（log 傳到第三方伺服器）。

判斷流程

使用者在哪裡

使用者和 server 在同一個網路內（自用工具、內部工具、開發期測試）→ 自架 log endpoint 是成本最低的選擇。

使用者在外部網路（上架 app store、SaaS 產品、B2B 部署）→ 商業方案的跨網路收集能力是必要的，自架需要處理的 edge case（離線緩衝、重試、批次傳輸）太多。

Log 消費者是誰

只有開發者自己 → grep/jq 足夠，不需要 dashboard。

包含非技術人員（客服、產品經理）→ 需要視覺化 dashboard 和搜尋介面，商業方案的 UI 是這個需求的標準答案。

是否需要告警

開發者自己用、即時看 log → 不需要告警。

有維運值班、需要被動發現問題 → 需要告警規則，商業方案內建。

混合方案

開發期用自架 log endpoint（零成本、即時可用），production 切換到商業方案 — 這個策略可行的前提是 log 層的 API 設計足夠抽象。

AppLogger 提供統一的 log 介面（log(level, name, data)），底層實作在 debug mode 寫 console + POST 到本機 endpoint，在 release mode 寫 console + 呼叫 Sentry/Crashlytics SDK。切換只改 AppLogger 的底層實作，不改呼叫端。

這個抽象的投資在自用工具階段就值得做 — 即使目前不需要商業方案，統一的 log 介面也讓 log 點的管理更一致。

下一步路由

三層 log 的詳細設計 → 三層 log 設計
在功能規格中定義 log 點 → 功能規格中的 log 點定義方法
Log 收集後的 schema 設計 → monitoring 模組二 Log Schema

Healthcare：存取可追溯性與保留邊界

Thu, 07 May 2026 00:00:00 +0000

本案例的核心責任是讓資料主權場景下的觀測仍可追溯。Healthcare 系統常同時面臨最小存取原則、資料留存規範與跨團隊協作需求。

業務背景

一個遠距醫療平台，服務多家醫療機構（multi-tenant），處理病歷查閱、處方開立、檢驗報告與預約排程。平台受 HIPAA 跟當地個資法規範，稽核單位要求能回答「哪個使用者在什麼時間查看了哪個病患的哪份紀錄」。

初期系統的存取紀錄散落在各服務的 application log 中 — 病歷服務記了一筆 GET /patient/123/records，處方服務記了一筆 POST /prescription，但兩者沒有共同的 correlation key。稽核問「護理師 A 在 3 月 15 日存取了哪些病歷」時，工程師需要在四個服務各自 grep，再用 timestamp 近似對齊，整個流程耗時半天且結果不可靠。

技術挑戰

存取 log 與 application log 混合

存取紀錄（誰看了什麼）跟 operational log（request timing、error、retry）寫在同一個 pipeline。Application log 的 retention 設定 30 天（除錯夠用），但法規要求存取紀錄保留 6 年。等到稽核來查詢時，超過 30 天的存取紀錄已經被刪。

跨服務存取鏈斷裂

一次病歷查閱可能經過 API gateway → auth service → patient service → record service → audit service 五個服務。每個服務各自記 log，但沒有統一的 access event correlation。Auth service 知道「誰」，patient service 知道「看了哪個病患」，record service 知道「看了哪份紀錄」— 三段資訊散落在三個服務的 log 中，無法自動關聯。

Multi-tenant retention 差異

不同醫療機構受不同法規管轄 — 機構 A 在美國需要 HIPAA 6 年 retention，機構 B 在歐盟需要 GDPR 的「目的限縮」原則（保留期限隨用途而定），機構 C 在台灣需要醫療法規定的 7 年。統一 retention policy 要嘛過度保留（增加成本與 PII 暴露面），要嘛保留不足（法規風險）。

解法

Data access audit log 獨立 pipeline

把存取事件從 application log 分離出來。每當使用者查閱、修改或匯出 PHI（Protected Health Information）時，產生結構化 access event：

 1{
 2  "event_type": "phi_access",
 3  "actor": "nurse-a@hospital-x.com",
 4  "patient_id": "P-2048",
 5  "resource": "medical_record/lab_result/2026-03-15",
 6  "action": "view",
 7  "trace_id": "abc123",
 8  "access_id": "acc-789",
 9  "tenant": "hospital-x",
10  "timestamp": "2026-03-15T14:22:05Z"
11}

Access event 寫入獨立的 immutable storage（append-only log），跟 application log 分開的 pipeline 與 retention。

Cross-service access chain

在 API gateway 入口產生 access_id，跟 trace_id 一起透過 context propagation 傳遞到所有下游服務。每個服務在產生 access event 時帶上這兩個 key。查詢時用 access_id 就能撈出一次存取操作在所有服務的完整軌跡，不需要手動拼接。

trace_id 用於關聯 operational 訊號（latency、error），access_id 用於關聯合規稽核。兩者可以相同也可以不同 — 關鍵是 access event 要同時帶兩個 key。

分層 retention 與 tenant-level policy

層級	儲存	Retention	用途
Hot	搜尋引擎（Elasticsearch / Cloud Logging）	90 天	即時查詢、事故調查
Warm	Object storage（壓縮）	2 年	定期稽核、合規查詢
Cold	Archive storage（冰凍）	6-7 年（依 tenant 法規）	法規保留、法務調查

每個 tenant 在平台建立時設定法規要求的 retention 期限。Pipeline 根據 tenant tag 自動把 access event 路由到對應的 retention tier。Tenant A 的紀錄到第 6 年自動歸檔到 cold，tenant B 在 GDPR 目的屆滿時觸發刪除審核。

存取 log 中的 PII 處理

Access event 本身包含 patient_id 跟 actor，這些在存取紀錄中是必要資訊（「誰看了什麼」需要這兩個欄位）。處理方式是存取控制而非遮罩 — access event storage 的讀取權限限縮到 compliance team 跟 audit 角色，engineering team 的一般查詢權限無法看到這些欄位。

取捨

面向	統一 retention	分層 + tenant-level
實作複雜度	低	高（routing 邏輯、多層 storage）
儲存成本	高（全部留最長）	可控（各層各自成本）
合規精確度	低（過度保留或保留不足）	高（對齊各 tenant 法規要求）
刪除能力	無法按 tenant 刪	可（GDPR right to erasure）
查詢效率	全量搜尋	Hot tier 秒級、Cold tier 分鐘到小時級

分層架構的最大風險是跨層查詢的延遲 — 稽核要求「給我 3 年前的存取紀錄」時，cold tier 的解凍時間可能是小時級。解法是在稽核週期前預先解凍相關 tenant 的 cold archive 到 warm tier。

回寫教材的連結

4.12 Audit Log Governance：audit log 分離與 PII 治理。
4.18 Observability Operating Model：access log pipeline 的 ownership 與 review cadence。
4.17 Telemetry Data Quality：timestamp integrity 跟跨服務時序校正。
4.3 Tracing Context：access_id 跟 trace_id 的 propagation 設計。

判讀徵兆

讀者在自己的系統看到以下訊號時，應該回讀本案例：

稽核問「使用者 X 在某段時間存取了什麼」，回答需要超過數小時的手動拼接
存取紀錄的 retention 跟法規要求不一致，但沒人確切量化差距
Multi-tenant 環境中所有 tenant 共用同一個 retention policy，無法按法規區分
跨服務的存取事件無法自動關聯，需要靠 timestamp 近似比對
PHI 相關的 log 跟一般 application log 存在同一個 storage，存取控制無法區隔

Grafana Stack

Fri, 01 May 2026 00:00:00 +0000

Grafana Stack 是 Grafana Labs 提供的 OSS observability 全棧、承擔三個責任：跨 data source 統一視覺化（Grafana）、各訊號類型專屬 backend（Loki logs / Tempo traces / Mimir metrics / Pyroscope profiles）、可自管或用 Grafana Cloud（managed）。設計取捨偏向「OSS-first + signal-specific backend + 統一查詢介面」、是 Datadog 的 OSS 替代方案。

對「需要 OSS / 自管 observability、跨 data source 統一儀表板、不想 vendor lock-in」這條路徑、Grafana Stack 是首選。

本章目標

讀完本章後、你應該能：

部署 Grafana + Prometheus + Loki + Tempo 基本棧
用 LogQL 查詢 Loki、用 TraceQL 查詢 Tempo
設計 dashboard as code（Jsonnet / Terraform）
評估 Mimir vs Thanos 的長期 metrics 儲存選擇
評估 Grafana Cloud（managed）跟自管的取捨

最短路徑：5 分鐘把 Grafana Stack 跑起來

1# 1. 用 docker-compose 跑起 Grafana + Prometheus + Loki
2# TODO: docker-compose.yml with grafana / prometheus / loki
3
4# 2. 在 Grafana 加 data source
5# TODO: Prometheus / Loki 各自的 datasource config
6
7# 3. 建第一個 dashboard
8# TODO: 用 explorer 試 PromQL + LogQL

最短路徑驗證 Grafana 起來、可訪 metrics + logs。實際 production 要評估 Mimir / Tempo + Grafana Cloud 取捨。

日常操作與決策形狀

Grafana 視覺化

子議題：

Data source 配置（Prometheus / Loki / Tempo / Postgres / MySQL / Elasticsearch）
Dashboard 設計：variable + template + panel
Dashboard as code：Jsonnet (Grafonnet) / Terraform Grafana provider
對應指令：HTTP API /api/dashboards

LogQL（Loki 查詢）

子議題：

LogQL syntax：log stream selector + filter + parser + aggregation
跟 PromQL 對齊的設計（同樣 label-based）
範例：{job="app"} |= "error" | json | line_format "..."
對應 metrics-from-logs（unwrap + rate）

TraceQL（Tempo 查詢）

子議題：

TraceQL syntax：span selector + attribute + aggregation
範例：{ span.http.status_code = 500 && duration > 1s }
Service graph：跨服務依賴自動分析
對應 trace-to-logs / trace-to-metrics 關聯查詢

Deep Article

LGTM Stack 組合運維：四個元件的責任分工、部署模式、常見故障與 dashboard provisioning
Loki 設計與操作限制：label-based index 設計、LogQL 查詢模式、cardinality 治理與 Elasticsearch 差異

進階主題（按需閱讀）

Loki 設計與限制

子議題：

Storage：S3 / GCS / 本地、按 stream 切 chunks
Label cardinality 跟 Prometheus 一樣敏感（不是 stream content）
LogQL 不適合 high-cardinality content search（用 Elastic）
對應 4.C3 Healthcare retention

Tempo trace 採集

子議題：

接受 OTLP / Jaeger / Zipkin protocol
Storage：S3 / GCS、cheap object storage
Trace ID lookup 為主、no full-text search（用 traces metrics 反向查）
對應 4.C4 X-Ray to OTel

Mimir 長期 metrics 儲存

子議題：

Prometheus remote write 接收 metric
Horizontally scalable（multi-tenant）
跟 Thanos / Cortex 的對照（Mimir 是 Cortex fork + improvements）
對應 4.C8 Airbnb K8s scale

Pyroscope continuous profiling

子議題：

CPU / memory / mutex / goroutine profiling
Flame graph 視覺化
跟 Tempo trace 關聯（trace-to-profile）
OSS（Grafana 收購）vs Pyroscope OG

Grafana Cloud（managed）

子議題：

Free tier 額度 + paid tier
含所有 stack（Metrics / Logs / Traces / Profiles）
Grafana Cloud vs Datadog cost 對照
Hybrid 模式：self-host backend + Grafana Cloud Grafana

Unified Alerting

子議題：

Grafana 9+ 統一 alerting（取代 dashboard alert + Prometheus alertmanager 分裂）
跨 data source 寫 alert rule
Multi-dimensional alert（per-label）
對應 Alertmanager 兼容

排錯快速判讀

Dashboard 載入慢

操作原則：先看 query 範圍跟 panel 數、用 query inspector 看 query 時間分布。

Loki query 過慢 / 失敗

操作原則：Loki query 需要 label filter 先縮範圍、再 content match。

1# TODO: LogQL: {namespace="prod", app="api"} |= "error"（先 label 後 filter）

Tempo span gap

操作原則：trace 不完整、看 sampling 設定 + Collector buffer 是否 drop。

Mimir ingestion 失敗

操作原則：remote_write rate / size limit 撞到 Mimir quota。判讀：Mimir HTTP 429 / 413。

Grafana 跟 Prometheus disconnected

操作原則：data source 連不上、看 Grafana log + network。

何時改走其他服務

需求形狀	改走
Pure metrics	Prometheus 單獨用
SaaS turnkey APM	Datadog
Log full-text search 為主	Elastic Stack
High-cardinality debug	Honeycomb
AWS / GCP native	CloudWatch / Cloud Ops
Error tracking	Sentry
Profile only	Pyroscope OSS / Polar Signals

不在本頁內的主題

各 Grafana plugin 細節
Dashboard 美術 / UX 建議
Grafana / Loki / Tempo / Mimir 各自完整 admin 手冊
Grafana 商業版 (Enterprise) 功能

案例回寫

直接相關案例

案例	主討論議題
4.C2 Gaming peak cardinality	Loki / Mimir 高峰下的 ingestion lag 與標籤治理
4.C3 Healthcare retention	Loki retention / compliance
4.C8 Airbnb K8s scale	Mimir scale / Prometheus 長期儲存

跨 vendor 對照

案例	對 Grafana Stack 的對應
4.C4 X-Ray to OTel	從 X-Ray 遷出後 Tempo 是 OSS trace backend 候選
4.C7 Datadog OTel migration	從 Datadog 遷出可去 Grafana Cloud
4.C10 規模對照	小型 single Grafana / 中型加 Loki+Tempo / 大型 Grafana Cloud 或 Mimir

下一步路由

上游概念：Metrics Basics
平行 vendor：Prometheus、OpenTelemetry
下游能力：4.20 Observability Evidence Package

4.4 dashboard 與 alert 設計

Mon, 22 Jun 2026 00:00:00 +0000

大綱

Dashboard 設計原則：SLI 導向 vs 指標堆疊
Alert 設計：symptom-based vs cause-based
Alert noise control 與 alert fatigue
Runbook linkage
Dashboard / alert 的生命週期與 ownership
反模式

概念定位

Dashboard 與 alert 是把觀測訊號轉成操作入口的控制面，責任是讓團隊在正常巡檢與事故響應時看到同一組事實。

Dashboard 讓人理解狀態，alert 讓人採取行動。兩者的設計問題不同：dashboard 的問題是「資訊太多、焦點不明」；alert 的問題是「通知太多、行動不明」。兩者都需要 ownership、生命週期管理與 runbook 連結。

Dashboard 設計

SLI 導向 vs 指標堆疊

Dashboard 的常見失敗模式是「把所有能拿到的指標都放上去」。二十個 panel、五十條曲線、無法在 3 秒內回答「服務現在健康嗎」。

SLI 導向的 dashboard 從使用者體驗出發：第一排 panel 回答「使用者感受到的健康狀態」（availability、latency percentile、error ratio），第二排回答「健康狀態的原因」（dependency latency、queue depth、resource utilization），第三排回答「趨勢與容量」（traffic growth、storage usage、capacity headroom）。

每個 panel 都應該能回答一個具體問題。如果團隊看了某個 panel 後的反應是「所以呢？」，這個 panel 不是放錯位置就是不該存在。

Dashboard 層級

不同使用者看不同層級的 dashboard。把所有資訊擠在同一個 dashboard 會讓每個角色都找不到自己要的。

Service overview：on-call 工程師的第一個入口。5-8 個 panel，回答「這個服務現在有沒有問題」。SLI 指標（error rate、latency p99、availability）、最近的 alert、dependency 健康。

Debug dashboard：事故中的深入診斷入口。按 dependency 分組（database panel group、cache panel group、downstream API panel group），每組顯示延遲、錯誤率、連線數。Panel 數量多但按需展開。

Capacity dashboard：容量規劃用。週到月級的趨勢圖 — traffic growth、storage usage、connection pool saturation、cost trends。刷新頻率低（每小時或每天），panel 讀 recording rule 或 rollup 資料。

Business dashboard：給非工程角色看。轉換率、使用者活躍度、營收指標。資料來源可能不只是觀測訊號，還包括 analytics 跟 business metrics。

Dashboard 的查詢效能

Dashboard 是觀測查詢設計中「聚合趨勢」模式的主要消費者（見 4.23）。每個 panel 每 30 秒刷新一次，十個團隊各自有 dashboard 就是每分鐘數百個背景查詢。

Panel 設計時要注意查詢成本：時間範圍越長、raw series 越多、聚合越複雜，query-time cost 越高。長時間趨勢 panel 應該讀 recording rule 或 rollup series，而非每次刷新都掃描 raw data。

Alert 設計

Symptom-based vs cause-based

Symptom-based alert 觸發在使用者可感知的症狀上 — error rate 升高、latency p99 超過閾值、availability 下降。Cause-based alert 觸發在內部原因上 — CPU > 90%、disk usage > 85%、connection pool exhausted。

Symptom-based 是 alert 設計的起點。原因是：cause-based alert 容易產生大量「系統在忙但使用者沒受影響」的 false alarm。CPU 短暫衝到 95% 然後回落，如果 latency 跟 error rate 都正常，這個 alert 不需要人類介入。

Cause-based alert 的價值是預防性告警 — disk usage 趨勢在兩天後會滿、connection pool 使用率在高峰時逼近上限。這類 alert 不需要立即行動，但需要在工作時間排入 task。把 cause-based alert 設成 warning（不 page）、symptom-based alert 設成 critical（page on-call），能降低 noise。

SLO-based alerting

SLO-based alerting 用 burn rate 取代固定閾值。不是「error rate > 1% 就告警」，而是「error budget 的消耗速度超過預期就告警」。

Burn rate alerting 的好處是自動適應基線。低流量時段的 1% error rate 可能只是幾筆錯誤、不值得 page；高流量時段的 0.5% error rate 可能代表大量使用者受影響。Burn rate 用「相對於 SLO 允許的錯誤量，目前消耗速度有多快」來判斷嚴重性，比固定閾值更能反映使用者影響。

SLO-based alert 的實作通常用 multi-window burn rate — 短視窗（5 分鐘）抓急性問題、長視窗（1 小時）抓慢性問題。兩個視窗都超過 burn rate 閾值時才觸發，減少單一 spike 造成的 false alarm。

SLI/SLO 訊號的詳細設計見 4.6。

Alert 的必要欄位

每個 alert rule 應該帶以下 metadata，讓收到 page 的 on-call 工程師在 30 秒內知道下一步：

Severity：critical（立即行動）/ warning（工作時間處理）/ info（記錄但不通知）
Runbook link：對應的 runbook URL，描述診斷步驟跟可能的修復動作
Owner：負責這個 alert 的團隊或服務
Dashboard link：點進去直接看相關 panel，不用自己找 dashboard
Summary：一句話描述發生了什麼（checkout error rate > 2% for 5 minutes），而非只有 alert rule 名稱

缺少 runbook link 的 alert 等於「通知了但不告訴你做什麼」。On-call 工程師收到不認識的 alert 時，第一反應是 ack 然後繼續觀察 — 這就是 alert fatigue 的起點。

Alert Noise Control

什麼是 noise

Alert noise 是「觸發了但不需要人類行動」的 alert。包括：

False positive：條件觸發但實際沒問題（短暫 spike 觸發固定閾值、maintenance 期間的預期 error）
Redundant alert：同一個問題觸發多個 alert（database 慢 → query timeout alert + error rate alert + latency alert 同時觸發）
Stale alert：條件已經不適用（服務改版後舊 alert rule 沒更新、abandoned service 的 alert 還在）

Noise rate 量測

Noise rate = 不需要行動的 alert / 總 alert。追蹤方式是讓 on-call 工程師在 ack alert 時標記「actionable」或「noise」。月度彙整 noise rate，超過 30% 的 alert rule 進入治理流程（業界常用的基線閾值，Google SRE Workbook 建議 actionable rate 維持在 70% 以上；團隊可依自身容忍度調整）。

降噪手段

Grouping：把同一個根因觸發的多個 alert 合併成一則通知。Alertmanager 的 group_by 讓同服務、同 alert name 的 alert 只發一次。

Inhibition：高嚴重性 alert 抑制低嚴重性。Database down 觸發時，所有依賴該 database 的 query timeout alert 被抑制 — 根因已知、不需要每個症狀都通知。

Silence / maintenance window：已知的維護活動期間暫停特定 alert。Silence 需要有過期時間，避免永久靜默掩蓋真實問題。

Hysteresis：alert 觸發需要條件持續 N 分鐘（for: 5m），避免瞬間 spike 觸發。恢復也需要條件持續 N 分鐘，避免「反覆觸發 → 恢復」的 flapping。

Runbook 設計

Runbook 是 alert 的行動指南。每個 critical alert 應該連到一份 runbook，描述「收到這個 alert 時該做什麼」。

Runbook 的有效結構：

症狀描述：這個 alert 代表什麼（「checkout error rate 超過 SLO burn rate」）
影響評估：誰受影響、嚴重程度（「付款功能受影響、影響所有 checkout 流程」）
診斷步驟：先看哪個 dashboard、查哪些 log、跑哪些 query
可能的修復動作：restart service、scale up、rollback deployment、failover to backup
升級路徑：如果 15 分鐘內無法解決，通知誰

Runbook 的維護責任跟 alert 的 owner 一致。Alert rule 改了但 runbook 沒更新是常見的退化 — 把 runbook 的 last-reviewed date 作為 alert 治理的審計項目。

Dashboard 與 Alert 的生命週期

Dashboard 跟 alert 都有生命週期。建立時有用，但隨服務演進可能變得過時、冗餘或誤導。沒有生命週期管理的 dashboard / alert 系統會累積 debt — dashboard 數量膨脹但無人看、alert rule 堆疊但多數是 noise。

Ownership

每個 dashboard 跟每個 alert rule 都需要明確的 owner。Owner 負責：維護 panel / rule 的正確性、定期審視 noise rate 跟使用率、在服務變更時更新對應的 dashboard / alert。

沒有 owner 的 dashboard 跟 alert 應該有過期機制 — 超過 N 天沒有人訪問的 dashboard 標記為候選淘汰、超過 N 天沒有觸發的 alert rule 審視是否仍有意義。

定期審視

Dashboard 跟 alert 的定期審視是 4.8 signal governance loop 的一部分。每季或每次重大事故後，審視：

哪些 alert 的 noise rate 過高、需要調整或刪除
哪些 dashboard 沒人訪問、可以合併或淘汰
事故中是否有缺少的 alert 或 dashboard panel

Ownership 矩陣與 metadata 欄位的詳細設計見 4.18 operating model。

核心判讀

Dashboard 跟 alert 是否有效，最直接的訊號是 alert noise rate 跟 dashboard 訪問頻率 — noise rate 超過 30% 代表通知品質退化，dashboard 長期零訪問代表資訊跟決策脫節。

重點訊號包括：

Alert 是否能對應到明確 runbook、ownership 與停止條件
Dashboard 是否有固定使用者與更新責任
Threshold 是否對齊 SLO、容量邊界或使用者影響
Noise rate 是否被追蹤並回寫治理流程
Dashboard panel 是否讀 recording rule 而非每次重算 raw data

判讀訊號

Alert 跟 runbook 沒連、收到 page 不知道做什麼
Dashboard 數量爆量、無 owner、半年無人訪問
同一訊號多個 alert 重複觸發、無 grouping 或 inhibition
Alert noise rate > 30%、ack 後無實際動作，形成 alert fatigue
Alert threshold 用直覺數字、沒對齊 SLO / 商業承諾
Dashboard panel 載入慢、因為直接查 raw series 而非 recording rule
Maintenance window 過後 silence 沒移除、真實問題被掩蓋

反模式

反模式	表面現象	修正方向
指標堆疊 dashboard	50 個 panel、看不出服務是否健康	SLI 導向重構：第一排回答健康、第二排回答原因
全部 cause-based alert	CPU / disk / memory alert 頻繁但服務正常	區分 symptom（page）跟 cause（warning）
固定閾值 alert	低流量時 false alarm、高流量時漏報	改用 SLO burn rate alerting
Alert 無 runbook	On-call 收到 page 後自行摸索、MTTR 高	每個 critical alert 必附 runbook link
Alert 無 owner	沒人維護的 alert rule 累積成 noise 來源	每個 alert rule 帶 owner metadata、定期審視
Dashboard 無過期機制	三年累積 200 個 dashboard、多數沒人看	訪問頻率追蹤 + 定期淘汰審視
同一問題觸發 N 個 alert	On-call 同時收到 5 則通知、不知道看哪個	Alertmanager grouping + inhibition

交接路由

4.3 tracing：trace waterfall 作為 dashboard 的診斷入口
4.6 SLI/SLO 訊號設計：alert 的訊號源頭、burn rate alerting 的 SLI 依據
4.8 訊號治理閉環：alert / dashboard 的生命週期維運
4.10 client-side / RUM：補 server-side 看不到的 dashboard 維度
4.14 anomaly detection：rule-based alert 之外的統計訊號
4.18 operating model：dashboard / alert 的 ownership 矩陣與 metadata 欄位
4.23 觀測查詢設計：dashboard 查詢的效能與 recording rule

「事後補 log」vs「設計產物 log」的品質差異

Fri, 19 Jun 2026 00:00:00 +0000

事後補 log 和設計產物 log 的差別在於產出時機和品質標準。事後補的 log 在 debug 壓力下產出，目的是「讓這次的問題能被定位」；設計產物的 log 在功能規格階段產出，目的是「讓未來任何問題都能被定位」。兩者的品質差異在格式統一性、覆蓋完整性和長期維護成本三個面向上表現明顯。

格式統一性

app_tunnel 在 W2 修復時補的 developer.log 格式不統一（T.C4）。不同元件由不同時間點、不同 debug 需求補上的 log，各自有各自的風格：

有的帶 name: 參數讓 log 可以按元件過濾：

1developer.log('WS connected', name: 'ConnectionManager');

有的不帶，混在全域 log 裡無法過濾：

1developer.log('auth token sent');

有的帶 // i18n-exempt 標記（因為 linter 會對 hardcoded string 報警），有的忘了加。有的把錯誤訊息放在 error: 參數，有的用字串串接。

這些不一致來自事後補 log 的結構性原因：每條 log 是在解決當下問題時加的，沒有統一規範，也沒有 review。加完能定位問題就提交，下次遇到新問題再加新的 log — 格式隨機。

設計產物 log 在產出前就有命名規則和格式規範（見功能規格中的 log 點定義方法）。所有 log 點走同一個 AppLogger 介面，name、level、結構化欄位在規格階段就定義好，實作時照規格寫。

覆蓋完整性

事後補 log 的覆蓋範圍由「哪些問題已經發生過」決定。W2-002 auth token 問題觸發了 ConnectionManager 和 TerminalScreen 的 log 補充，但 TtydProtocol、BiometricService、CredentialRepository、EnrollmentScreen 四個元件仍然零 log — 因為這四個元件在 W2 的 debug 過程中不是瓶頸。

六個核心元件中四個零 log 的狀態意味著：下次如果問題出在 BiometricService（例如特定 iOS 版本的 biometric API 行為改變），debug 又會回到「手動加 log → 重新編譯 → 插拔裝置」的循環。事後補 log 只覆蓋已知問題的路徑，對未知問題沒有防護。

設計產物 log 的覆蓋範圍由功能流程的步驟數決定。每個功能規格列出所有步驟的 log 點，不管這些步驟是否曾經出過問題。BiometricService.authenticate() 在規格中就有 start/done/failed 三個 log 點，無論是否遇過 biometric 問題。

維護成本

事後補 log 隨 debug 過程累積，沒有統一管理。隨時間推移：

某些 log 的觸發條件已經不存在了（被修復的 bug 對應的 log），但沒人清理
某些 log 的格式和新加的 log 不一致，但沒人統一
某些 log 的 context 資訊不足（當時能定位問題是因為開發者記得 context，半年後換人接手就不夠了）
某些 log 在 release build 中不該出現但忘了加條件

設計產物 log 有規格文件作為 source of truth。功能變更時更新規格中的 log 點列表，刪除的步驟對應的 log 點一起刪除，新增的步驟對應的 log 點一起新增。Log 的生命週期和功能的生命週期綁定。

從事後補過渡到設計產物

已有的事後補 log 不需要全部重寫。過渡策略是：

統一入口：建立 AppLogger 封裝，把現有的 developer.log 呼叫改為走 AppLogger。這一步不改 log 內容，只改呼叫方式，讓後續的格式統一和功能切換有統一入口。

補規格：對每個功能寫出 log 點規格表（四類 log 點），比對現有 log 和規格的差距。規格中有但程式碼中沒有的 log 點 = 覆蓋缺口，補上。程式碼中有但規格中沒有的 log 點 = 可能是過時的 debug log，評估是否刪除。

新功能走設計產物流程：從下一個新功能開始，功能規格中包含可觀測性欄位。新功能的 log 從一開始就是設計產物品質。

過渡的第一步是建立統一入口，具體的 log 點規格格式見功能規格中的 log 點定義方法。規格中的每個 log 點屬於哪一層（連線生命週期 / protocol / 使用者行為），在三層 log 設計中定義。收集到 log 之後用自架還是商業方案處理，見自架 log endpoint vs 商業方案的判斷流程。

T.C4 Client-side log 缺失導致 debug 只能靠實機盲測

Fri, 19 Jun 2026 00:00:00 +0000

這個案例的核心責任是說明「客戶端 log 設計」為什麼應該在功能企劃階段完成，而不是 debug 時才補。Log 不是 debug 工具，是可觀測性基礎設施。

觀察

app_tunnel 的六個核心元件在實機測試前的 log 覆蓋狀態：

元件	log 點數	備註
ConnectionManager	0 → 10	W2 修復後補的 `developer.log`
TerminalScreen	0 → 5	W2 修復後補的
TtydProtocol	0	encode/decode/buildAuth 無 log
BiometricService	0	isAvailable/authenticate 結果無 log
CredentialRepository	0	load/save/delete 操作無 log
EnrollmentScreen	0	QR 掃描/解析/儲存無 log

W2-004（P0：iOS 實機 WS stream 不觸發）的 debug 過程：無法從任何 log 判斷問題發生在 biometric → credential → WS connect → auth token → stream listen 的哪一步。開發者被迫在每個函式手動加 developer.log，重新編譯，插拔裝置測試，反覆數次才定位到「stream 訂閱時機」問題。

指標	值
debug 成本	每次修改→編譯→部署→測試約 3-5 分鐘
定位 W2-002 (auth token) 花費	約 30 分鐘反覆測試
若有連線生命週期 log	第一次連線就能看到「Step 3 之後無 auth token 發送」

判讀

Log 缺失把 debug 成本從秒級升到分鐘級。如果 ConnectionManager 在企劃階段就設計了「Step 1: biometric → Step 2: credential → Step 3: WS connect → Step 4: auth token → Step 5: listen stream」五步 log，W2-002 的 auth token 問題在第一次連線就能從 log 看到「Step 3 完成，Step 4 未執行」。
「事後補 log」的 log 品質較低。W2 修復時補的 developer.log 格式不統一（有的帶 name:，有的不帶；有的用 // i18n-exempt 標記，有的忘了），沒有統一的 log 層級，沒有結構化欄位。事後補的 log 是救火工具，不是可觀測性設計。
自用工具最適合自架 log 收集。app_tunnel 的 server 和 client 都在同一台機器上（或同一個 Tailscale tailnet），client 可以直接打 HTTP POST 到本機的 log endpoint，不需要 Sentry 或 Crashlytics。一個 Go 寫的 JSON log receiver（20 行）+ grep 就是完整的 debug 工具鏈。
Log 設計是功能規格的一部分。「連線到 ttyd 終端機」這個功能的規格不只是「建立 WS 連線」，還包含「每步有 log、失敗有 log、成功有 log」。跟 API 規格需要定義 request/response 一樣，連線功能需要定義 log 點。

策略

功能規格階段列出 log 點清單：每個功能的規格文件新增「可觀測性」欄位，列出啟動/步驟/錯誤/完成四類 log 點。
建立統一 log 層：封裝 developer.log 為 AppLogger，統一 name、level、格式。開發期用 developer.log，後續可切換到 HTTP log endpoint。
自架 log endpoint 方案：本機 Go server 開一個 /log POST endpoint，接收 JSON log，寫入檔案。Client 端 AppLogger 在 debug mode 同時寫 console + POST 到 endpoint。開發期 grep 查詢，不需要 dashboard。
Protocol log 獨立一層：WebSocket frame type、payload 前綴、auth handshake 結果獨立記錄，跟 business log 分開。這層 log 在 release mode 應該能關閉。

下一步路由

想設計客戶端 log 方案 → 模組二：客戶端可觀測性
想理解三層 log 設計 → 三層 log 設計
想建自架 log endpoint → 自架 log endpoint vs 商業方案

4.C4 AWS：X-Ray 到 OpenTelemetry 轉換

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是把觀測遷移從工具替換，提升為標準化策略。

觀察

AWS 已明確提出 X-Ray SDK/Daemon 的維護時程，並提供遷移到 OpenTelemetry 的路徑。

判讀

當 observability agent 與 SDK 受限於單一供應商，轉向 OTel 可以降低未來轉移成本，但需要治理採集、匯出與語意對齊。

策略

先盤點現有 instrumentation 與依賴 SDK。
先換 collector/agent，再逐步改應用端 instrumentation。
把 trace/metric 的等價驗證納入 release gate。

下一步路由

回 4.11 telemetry pipeline 與 4.17 telemetry data quality。

引用源

X-Ray to OpenTelemetry migration guide

Datadog

Fri, 01 May 2026 00:00:00 +0000

Datadog 是 all-in-one SaaS observability 平台、承擔三個責任：覆蓋 APM / logs / metrics / RUM / synthetics / security / CI visibility 全訊號類型、auto-instrumentation 廣度業界第一、跟 600+ integrations 即插即用。設計取捨偏向「turnkey + 廣度 + integration」、成本是主要取捨點。

對「想要 turnkey 體驗、不想自管 observability、多訊號類型統一平台、團隊規模可承擔成本」這條路徑、Datadog 是首選。

本章目標

讀完本章後、你應該能：

安裝 Datadog Agent、配置 APM auto-instrumentation
用 Datadog Logs / Metrics / APM 三大查詢介面
控制 cost（log indexing / metric cardinality / APM trace sampling）
寫 Monitor as code（Terraform）
評估 OTLP ingestion 跟 Datadog SDK 的取捨

最短路徑：5 分鐘把 Datadog 跑起來

1# 1. 安裝 Agent
2# TODO: DD_API_KEY= DD_SITE="datadoghq.com" bash -c "$(curl -L ...)"
3
4# 2. 啟用 APM
5# TODO: 在 Agent config 加 apm_config.enabled: true
6# TODO: 應用程式加 ddtrace-run / dd-trace-py
7
8# 3. 驗證 Agent + APM 上線
9# TODO: 在 Datadog UI 看 Host map + APM Service List

日常操作與決策形狀

Agent 安裝與配置

子議題：

安裝方式：package（apt/yum）/ container / K8s DaemonSet / Lambda extension
Agent config：core / APM / Logs / NetFlow / SNMP 各 sub-config
DogStatsD：應用層 custom metrics 入口
對應指令：datadog-agent status、/etc/datadog-agent/datadog.yaml

APM 自動 instrumentation

子議題：

各語言 tracer：dd-trace-java / dd-trace-py / dd-trace-js / dd-trace-go
Auto-instrumentation 廣度（業界最廣）
Service / Resource / Operation 三層 trace 結構
對應 4.C7 Datadog OTel migration

Logs 配置

子議題：

採集方式：Agent 採集 / Fluent Bit / Vector → Datadog
Indexing vs Archives：indexing 費錢但可查、archives 便宜但只能 rehydrate
Log Pipeline：parsing / enrichment / sensitive data scrubbing
對應 cost 控制：indexing rate / retention

Metrics

子議題:

Custom metrics（DogStatsD / Agent / API）
Metric Type：count / gauge / histogram / distribution
Cardinality 控制：每 metric 收 tags 數限制
對應 4.C2 Gaming cardinality

Deep Article

Datadog 成本治理與 Agent 配置：計價模型、custom metrics 成本控制、Agent 部署配置與常見故障
OTLP Ingestion 與 OTel 整合：Agent OTLP receiver 配置、OTel SDK feature parity、resource mapping 與故障判讀

進階主題（按需閱讀）

成本治理

子議題：

Hosts pricing（vs APM / Logs / Custom Metrics 各自獨立）
Log indexing rate 控制（Exclusion Filters）
Custom metrics 計費（per metric per host）
APM trace sampling
對應 Datadog Usage Attribution

OTLP ingestion

子議題：

Datadog Agent 接受 OTLP（gRPC + HTTP）
對 OTel SDK 用戶的優勢（avoid Datadog SDK lock-in）
對應 4.C7 Datadog OTel migration
Datadog 自家 SDK vs OTel：feature parity 取捨

Monitor as code

子議題：

Terraform Datadog provider：dashboard / monitor / SLO / synthetic
跟 IaC pipeline 整合
多環境（dev / staging / prod）配置

APM Trace Sampling

子議題：

Head-based sampling（rate-based）
Tail-based（Datadog 新功能、需 Agent 支援）
Ingestion vs Indexing sampling 兩層
對應 cost 控制

RUM / Synthetics

子議題：

RUM（Real User Monitoring）：前端用戶體驗
Synthetics：browser test / API test 主動探測
Session Replay
跟 APM 關聯：frontend trace → backend trace

Security Monitoring

子議題：

Cloud SIEM
ASM（Application Security Management、wAF/RASP）
Cloud Security Posture Management
跟 07 security 模組對照

跟 Monitoring 模組的分工

本頁從 server-side APM 平台角度說明 Datadog — agent 部署、cost governance、OTel 遷移、跟 Grafana Stack 的對照。Client-side 的 RUM 體驗（RUM SDK 四種事件、session replay、全棧追蹤的 client 端視角）見 Monitoring 模組 Datadog RUM。

兩者的交叉點是 trace context — RUM SDK 注入的 trace header 讓 client action 跟 server span 串在同一個 trace。沒有 server-side APM 的團隊用 RUM 也有價值（client-side error + performance），但全棧追蹤需要兩邊都部署。

排錯快速判讀

Agent 連不上 Datadog

操作原則：先 datadog-agent status 看 connectivity、再看 API key + region。

APM trace 缺失

操作原則：trace context propagation 在跨 service / 跨 thread 邊界丟失。

1# TODO: dd-trace-py debug mode / `DD_TRACE_DEBUG=true`

Log indexing cost 爆

操作原則：indexed log 量超預期、用 Exclusion Filter 過濾不必要 log。判讀：Datadog Usage page 看每 day indexed log。

Custom metrics 爆預算

操作原則：每 host 每 metric 計費、cardinality 高（per-user / per-request label）會爆。判讀：Metrics Summary 看 metric volume。

Monitor noise

操作原則：alert 太多、低品質、用 Composite Monitor + Recovery / No data threshold。

何時改走其他服務

需求形狀	改走
預算敏感	Grafana Stack（OSS）/ Cloud（cheaper）
需要 OSS / self-host	Grafana Stack + Prometheus
High-cardinality debug 深度	Honeycomb
AWS-only + 成本	CloudWatch
純 error tracking	Sentry
多 vendor 標準化	OpenTelemetry + 任一 backend
Logs full-text 為主	Elastic

不在本頁內的主題

各語言 dd-trace SDK 完整 API
Datadog UI 操作詳細
Pricing 詳細計算（用 Datadog Usage page）
600+ integrations 各自設定

案例回寫

直接相關案例

案例	主討論議題
4.C7 Datadog OTel migration	OTLP ingestion + SDK 移轉

跨 vendor 對照

案例	對 Datadog 的對應
4.C1 Fintech audit	Datadog Logs Indexing / Archives 作為審計證據面
4.C2 Gaming cardinality	Custom metrics cardinality 治理
4.C9 OTel migration signal drift	（反例）Datadog SDK ↔ OTLP 雙軌語意漂移
4.C10 規模對照	中大型常選 Datadog turnkey

待補 Datadog 案例：客戶 cost optimization stories、large scale 部署（Shopify / Coinbase / Zoom 等）engineering blog。

下一步路由

上游概念：4.17 Telemetry Data Quality
平行 vendor：OpenTelemetry、Grafana Stack
下游能力：4.20 Observability Evidence Package

模組四：可觀測性平台

Wed, 22 Apr 2026 00:00:00 +0000

可觀測性模組的核心目標是說明服務如何把 log schema、metrics 與 trace context 轉成可操作的診斷系統。語言教材會處理標準 logger、執行環境訊號、Diagnostic Endpoint 與 trace context 邊界；本模組負責平台、資料流與操作規則。

Vendor / Platform 清單

實作時的常用選擇見 vendors — T1 收錄 OpenTelemetry / Prometheus / Grafana Stack / Datadog / Elastic Stack / Honeycomb / AWS CloudWatch / GCP Cloud Operations / Sentry，每個 vendor 有定位、適用場景、取捨與預計實作話題的骨架。Error tracking 是獨立子維度（Sentry），跟 metrics / logs / traces 三角互補。

進入 vendor 比較前，先回到觀測、可靠性與事故服務選型判斷目前缺的是訊號層、驗證層、響應層還是閉環層。可觀測性 vendor 選型只處理訊號層與部分告警入口；可靠性驗證與事故協作要交給可靠性與事故流程。

Deep article（vendor 自身的配置、故障、容量）跟 migration playbook（跨 vendor 遷移流程）的撰寫進度見 vendors/ 的「內容覆蓋進度」段。

暫定分類

分類	內容方向
Log aggregation	log schema、索引、查詢、保留策略
Metrics	counter、gauge、histogram、metric cardinality、Prometheus
Tracing	span、trace id、trace context、OpenTelemetry
Dashboard	SLI、SLO、容量趨勢、服務健康
Alert	alert rule、noise control、runbook、on-call workflow

選型入口

可觀測性選型的核心判斷是團隊缺少哪一種操作訊號。當工程師需要還原事件脈絡時先看 log；需要趨勢與容量判斷時先看 metrics；需要跨服務路徑時先看 trace；需要共同操作入口時先看 dashboard；需要主動通知時先看 alert。

Log aggregation 適合查單一事件與錯誤脈絡；metrics 適合觀察 error rate、latency、throughput 與 queue lag；tracing 適合拆解跨服務 request path；dashboard 適合整合 SLI/SLO 與容量趨勢；alert 適合把需要動作的異常送到負責者面前，並連到 alert runbook。

接近真實網路服務的例子包括 checkout 變慢、queue lag 上升、WebSocket 斷線增加、Redis timeout 增加與下游 API 錯誤率上升。這些場景的共同問題是從症狀回到原因，因此本模組會先處理欄位、關聯、metric cardinality、查詢、視覺化與告警規則。

訊號情境庫

本模組收的是可重複套用的訊號情境，不收服務級案例庫。服務的長期時間線與事故史，留給可靠性驗證與事故處理兩個模組；可觀測性平台只保留能反覆套用在不同服務上的觀測判讀樣式，讓讀者先知道「該看哪種訊號、如何辨識失真、下一步交給誰」。

情境	先看訊號	判讀重點	下一步路由
checkout 變慢	latency histogram、trace、downstream error rate	先分辨是 app latency、DB wait、cache miss 還是外部依賴慢	需要驗證回歸時回到可靠性驗證流程
queue lag 上升	queue depth、consumer lag、retry policy、DLQ count	先判斷是 consumer 不足、downstream 變慢，還是 redelivery	需要壓力驗證與回放時回到可靠性驗證流程
metric cardinality 爆掉	label explosion、cardinality growth、query latency	先看是否為維度設計失控、tenant label 過細，或聚合點過多	需要訊號治理與告警修正時回到事故處理與復盤
trace 斷鏈	missing span、trace context propagation error、sample gap	先看 context 是否跨 thread / task / process 正確傳遞	需要補 instrumentation 時回到可靠性驗證流程
alert 太吵但真正事件沒被抓到	alert volume、burn rate、symptom-based alert mismatch	先判斷是閾值太低、維度太窄，還是只盯症狀而沒盯服務健康指標	需要事故演練與回寫時回到事故處理與復盤

這種情境庫的責任是定位訊號，服務史由可靠性驗證與事故處理承接。當讀者需要的是平台能力與判讀路由，可觀測性模組的範圍就夠了；當需要的是某個服務怎麼一路演進、怎麼歷次驗證與恢復，那是可靠性與事故模組的工作。

跟可靠性與事故模組的串接

可觀測性是「觀測 → 驗證 → 事故」閉環的起點，但閉環是雙向的：

觀測 → 事故：訊號（log spike、SLO burn rate、error rate）觸發告警、進入事故響應流程。判讀邊界由可觀測性定義、響應節奏由事故處理定義。
觀測 → 驗證：SLO / SLI 量測由可觀測性提供、是 SLO 政策與 chaos hypothesis 的 baseline。沒有可信訊號就沒有可信驗證。
驗證 → 觀測：驗證需求驅動訊號設計 — chaos experiment 需要新 metric、load test 需要新 dashboard、SLO 政策需要新 alert rule。
事故 → 觀測：每次事故 post-incident review 揭露偵測缺口（symptom-based alert 缺、訊號太晚、cardinality 不足），回寫到訊號治理。
資安 → 觀測：資安偵測、稽核證據與資料外洩風險會形成新的 log schema、audit log、alert 與 evidence chain 需求。尤其偵測覆蓋率與訊號治理會回寫到訊號治理閉環。
觀測 → 資安：log、trace、audit log 與 service topology 提供資安 triage 的事實基礎，讓稽核追蹤與責任邊界能把責任鏈落到可查證資料。
詳細閉環說明：見 Observability / Reliability / Incident Response 閉環。

跟 Monitoring 模組的串接

Monitoring 模組聚焦非 server 端 runtime — mobile app、web 頁面、本機腳本的行為蒐集、錯誤回報與 SDK 設計。本模組聚焦 server-side observability。兩者的交叉點是 trace context propagation 和 event transport format。

4.10 Client-side / Synthetic / RUM：概念定位、RUM 與 synthetic 的 server-side 整合
4.24 Client-to-Server 觀測串接：從 browser click 到 server span 的完整 trace 鏈路
監控資料的雙重用途：同一份 event data 如何同時服務行為分析（monitoring/08）與訊號治理（04）
0.15 跨模組 Checkout Episode：從 DB write 到 observability evidence 的四層端到端串聯

與語言教材的分工

語言教材處理如何產生穩定欄位與執行環境訊號。Backend observability 模組處理收集、儲存、查詢、視覺化、告警與跨服務關聯。

企業案例補充

可觀測性的案例補充重點是「訊號平台為什麼這樣設計」，不是工具比較表。閱讀時先抓資料規模、查詢延遲、保留策略與多租戶治理，再對照本模組章節。

企業案例	主要觀測選型問題	優先回讀章節
M3: Uber’s Open Source, Large-scale Metrics Platform for Prometheus	單機 Prometheus 不足時如何擴成平台層	4.2、4.11
Building Cloudflare on Cloudflare	大規模系統內部如何同時做 logs/metrics/traces	4.1、4.3
Cloudflare Observability	監控、分析、鑑識三層能力如何組合	4.4、4.20
How Discord Stores Trillions of Messages	成長後如何從儲存問題回推觀測缺口	4.17、4.18

若要擴充企業案例，先到 0.14 企業選型案例圖譜依「企業型態 × 規模階段」挑樣本，再把觀測面教訓回寫到 4.16-4.21。這樣案例擴充會先補齊覆蓋度，再補單點技巧。

第一批缺口回填建議先做三條觀測題目：FinTech 補 audit log completeness 與 evidence traceability（回寫 4.12、4.20）；Gaming 補高峰時段 signal freshness 與 cardinality guardrail（回寫 4.7、4.17）；Healthcare 補資料主權相關的 access evidence 與留存邊界（回寫 4.12、4.18）。

產業案例類型	觀測回寫重點	章節路由
FinTech	金流與帳務事件的 evidence chain、審計 log 完整性	4.12、4.20
Gaming	高峰流量下的訊號新鮮度、cardinality 膨脹與警示品質	4.7、4.17
Healthcare	存取軌跡可追溯性、資料留存邊界與跨團隊 ownership	4.12、4.18

第一批案例正文入口見可觀測性案例正文，可直接對應 4.12 / 4.17 / 4.18 / 4.20 的回寫欄位。

第二批觀測遷移案例已補： 4.C4 X-Ray 到 OTel 轉換與 4.C5 Cloud Trace OTLP 導入。兩者可直接回寫到 4.11 telemetry pipeline、4.17 telemetry data quality 與 4.18 operating model。

反例與規模對照入口： 4.C9 反例 / 4.C10 對照。

回退判讀寫法見 0.C4 回退判讀寫法，觀測案例要優先保留訊號語意、採樣策略、告警偏差與 SLO 判讀差異。

跨語言適配評估

可觀測性使用方式會受語言的 logger 生態、trace context、exception/error model、執行環境 metrics 與 instrumentation SDK 影響。同步 runtime 要保留 request context 與 thread-local 邊界；async runtime 要確認 trace context 能跨 task 傳遞；輕量並發 runtime 要觀察 task/goroutine 數量、queue lag 與下游等待。動態語言要特別管理 log schema 穩定性；強型別語言則要避免過度包裝導致 trace 與 error chain 斷裂。

章節列表

章節	主題	關鍵收穫
4.1	log schema 與搜尋規劃	設計欄位、索引與查詢方式
4.2	metrics 與 SLI/SLO	用 counter、gauge、histogram 描述服務健康
4.3	tracing 與 context link	追蹤跨服務 request path
4.4	dashboard 與 alert 設計	讓告警能對應 runbook 與容量趨勢
4.5	可觀測性威脅建模（Threat Modeling）	用盲區、告警失真與資料暴露風險盤點觀測系統
4.6	SLI 量測與 SLO 訊號設計	把可靠性目標轉成可量測訊號、餵給 6.6 SLO 政策
4.7	Cardinality 治理與成本邊界	把 cardinality 與保留階梯作為平台一級治理
4.8	訊號治理閉環	把 post-incident review 偵測缺口回寫成新訊號
4.9	Continuous Profiling	把 CPU / heap / lock profile 升級為持續訊號
4.10	Client-side / Synthetic / RUM	補 server-side 看不到的 user perceived 訊號
4.11	Telemetry Pipeline 架構	把採集到查詢分層治理、定位 pipeline 失敗
4.12	Audit Log 邊界與 PII 治理	把稽核訊號從 operational log 拆出、按法規治理
4.13	Service Topology 與 Dependency Map	把跨服務依賴變成自動發現的觀測訊號
4.14	Anomaly Detection	ML / statistical baseline alert 跟 rule-based 整合
4.15	Cost Attribution / Chargeback	把 observability 成本拆到團隊 / 服務維度
4.16	Observability Readiness Review	在服務上線、重大變更與演練前檢查 log / metric / trace / alert 是否可支援事故判讀
4.17	Telemetry Data Quality	把 missing signal、schema drift、sampling bias 與 timestamp skew 變成資料品質問題
4.18	Observability Operating Model	定義 platform / service team / on-call 對訊號、dashboard、alert 與成本的 ownership
4.19	Debuggability by Design	把可診斷性前移到 API、async workflow、dependency call 與錯誤模型設計
4.20	Observability Evidence Package	把 log、metric、trace、audit 與資料品質限制包成可交接證據
4.21	Rule-level CPU Signal Governance	把規則執行成本變成可觀測訊號，避免小變更在全域 rollout 後形成 CPU 熱點
4.22	Checkout API Evidence Package 實作示範	以 checkout 路徑示範 evidence package 如何交接到 gate 與 incident
4.23	觀測查詢設計	把讀取路徑當系統設計問題：三種查詢模式、storage tiering、pre-aggregation 與資源治理
4.24	Client-to-Server 端到端觀測串接	用一個結帳場景走完 browser click → trace context → server span → 統一 waterfall 的完整實作鏈路

註：4.1-4.24 已完成概念層、實作示範與端到端串接正文，案例庫可支援 06 與 08 的路由引用。後續工作重點為案例深挖與跨模組回寫密度提升，而非章節補齊。

個案前拓展空間

個案前拓展的責任是補足讀案例時需要的判讀框架。04 適合補「訊號是否足以支援判讀」這類跨服務能力，不適合展開單一服務的事故史。

拓展方向	補充理由	先放位置
Observability Readiness Review	服務上線前需要先知道訊號是否支援事故分級與驗證	4.16
Telemetry Data Quality	觀測資料本身也會缺漏、漂移、偏誤與時間錯位	4.17
Observability Operating Model	dashboard、alert、成本與淘汰需要明確 owner	4.18
Debuggability by Design	診斷能力需要進入 API / async / dependency 設計	4.19

本輪先完成這四個前置控制面，讓後續 06 與 08 文章有穩定的訊號前提可引用。若服務案例暴露的是訊號分類問題，回寫 4.16；若暴露的是資料品質問題，回寫 4.17；若暴露的是 owner 與治理問題，回寫 4.18；若暴露的是架構本身難以診斷，回寫 4.19。

後續深化方向

04 後續深化以「案例反例補強、跨模組回寫、證據欄位對齊」為主。可觀測性是 06 與 08 的輸入層，重點在提高 evidence package、data quality 與 incident write-back 的銜接精度。

深化方向	主要責任	回寫路由
案例反例補強	補齊遷移失敗與訊號失真案例	4.17、4.20
跨模組對位	把觀測欄位對齊 release/incident 決策欄位	6.23、8.19
成本與治理	把採樣、cardinality、chargeback 連到 owner 決策	4.7、4.15

實作探討入口

進入實作層時，04 建議先從一條最小切片開始：同一個 user journey 建立 SLI + dashboard + alert + evidence query 四件組，再把欄位直接接到 6.23 Verification Evidence Handoff 與 8.19 Incident Decision Log。

首篇示範已完成： 4.22 Checkout API Evidence Package 實作示範。

完成條件是每篇都能回答四件事：判讀訊號、風險代價、控制面邊界與下一步路由。這樣 06 的 SLO / readiness / experiment safety 與 08 的 intake / decision log / impact assessment 才能引用 04，而不需要在各自章節重寫觀測前提。

跟 Infra 可觀測性的分界

Infra 模組六：可觀測性與 log 處理基礎設施層的訊號 — log group、CloudWatch metric、alarm 跟資源同生命週期的 IaC 管理。本模組處理應用層的訊號 — 服務的延遲、錯誤率、trace、業務指標。分界的判讀是：這個訊號是「資源建立時就該存在」還是「功能開發時才埋」——前者進 infra 的 IaC，後者進本模組的應用程式碼。事故排查時兩層合流：infra alarm 告訴你哪個資源異常，本模組的 trace 告訴你哪個請求路徑受影響。

4.5 可觀測性威脅建模（Threat Modeling）

Mon, 22 Jun 2026 00:00:00 +0000

大綱

觀測系統為什麼需要威脅建模
三類弱點：觀測盲區、告警失真、資料暴露
每類弱點的判讀流程與修復方向
跟 4.4 dashboard-alert 跟 07 資安的分工

概念定位

可觀測性威脅建模的判讀目標是「觀測系統本身有哪些弱點會讓事故更難處理、更慢收斂、或擴大成資安事件」。觀測系統是事故處理的核心工具 — 工具失靈時，事故的 MTTD（偵測時間）跟 MTTR（修復時間）都會被拉長。

本章用三類弱點盤點觀測系統：觀測盲區（看不到問題）、告警失真（看到錯的東西）、資料暴露（觀測資料本身變成風險）。每類弱點有各自的判讀流程跟修復方向。

跟傳統資安威脅建模的差異：資安威脅建模聚焦「攻擊者怎麼入侵系統」；觀測威脅建模聚焦「觀測系統的設計缺陷怎麼讓事故更難處理」。兩者的交叉點在資料暴露 — 觀測資料含 secret 或 PII 時，觀測弱點直接成為資安弱點。

哪些服務要先做觀測弱點盤點

下列情境同時出現時，觀測弱點會快速放大：

服務數量增加，跨服務呼叫變深 — trace 斷鏈的影響面擴大
值班依賴告警，但告警常常失真或過量 — alert fatigue 讓真正的問題被淹沒
調查事故高度依賴人工搜尋 log — 缺少結構化查詢入口
支援工具與觀測平台可接觸敏感資料 — 觀測資料的存取控制不足

弱點一：觀測盲區

觀測盲區是「問題存在但觀測系統看不到」的狀態。盲區的危險在於它讓團隊對系統狀態的判斷建立在不完整的資訊上 — 看起來一切正常，但其實有路徑沒被觀測到。

常見盲區

Sampling 導致的盲區：head sampling 按固定比例丟棄 trace，低流量服務的錯誤樣本可能全部被丟。事故時查 trace 查不到，因為 sampling 把剛好那些 request 的 trace 丟了。修復方向是 tail sampling 或 minimum sample floor（見 4.7 sampling 策略）。

Uninstrumented 路徑：新上線的服務沒加 instrumentation、async worker 沒有 span、third-party SDK 的 HTTP call 沒被攔截。這些路徑在 service graph 上不存在，事故時團隊甚至不知道有這條依賴。修復方向是把 instrumentation coverage 作為 readiness review 的檢查項。

Context 斷鏈形成的局部盲區：trace context 在 queue、thread pool、background job 邊界斷掉後，下游的 span 成為孤兒。團隊可以看到下游服務有問題，但看不到跟上游 request 的因果關係。修復策略見 4.3 tracing。

Log schema 漂移：不同服務的 log 用不同欄位名稱記錄同一個概念（request_id vs req_id vs requestId）。查詢時用 request_id 搜尋會漏掉用其他名稱的服務。修復方向是 log schema 的跨服務統一。

盲區的判讀方式

列出所有服務，標記哪些有 trace instrumentation、哪些沒有
檢查 service graph 跟已知 architecture diagram 的差異 — 差異就是盲區
用已知的跨服務 request 做 end-to-end trace 驗證，看有沒有斷點
檢查 sampling policy，確認低流量服務跟 error sample 的保留率

弱點二：告警失真

告警失真是「觀測系統看到了、但告訴你的是錯的或沒用的」。失真比盲區更危險 — 盲區至少讓團隊知道「這裡沒資料、要用其他方式查」；失真讓團隊基於錯誤訊號做判斷。

常見失真模式

Threshold drift：alert 的閾值在設定時是合理的（error rate > 1%），但服務改版後基線變了（正常 error rate 從 0.1% 變成 0.5%），閾值沒跟著調。結果是 alert 頻繁觸發但團隊知道是 false alarm — alert fatigue 開始累積。

Aggregation 掩蓋：用 average latency 做 alert，tail latency 被掩蓋。Average 200ms 但 p99 是 5 秒 — 1% 的使用者體驗極差但 alert 沒觸發。修復方向是 percentile 跟 histogram。

Alert storm：單一根因觸發大量 alert（database 慢 → 所有依賴該 database 的服務都觸發 latency alert + error alert + timeout alert）。On-call 收到 20 則通知，分不清哪個是因、哪個是果。修復方向是 alert grouping 跟 inhibition（見 4.4 dashboard-alert）。

Stale dashboard：Dashboard 的 panel 引用的 metric name 已改名、panel 的 query 因 label 變更而回空值。Dashboard 看起來正常（曲線是平的），但其實是 no data 被渲染成 zero。修復方向是 dashboard 的 no-data alert 跟定期審視。

失真的判讀方式

追蹤 alert noise rate（每月有多少 alert 是 actionable 的）
檢查 alert rule 的 threshold 跟當前 baseline 是否對齊
確認 SLI 用 percentile 而非 average
事故復盤時問「這次的事故，alert 有沒有在對的時間告訴我們對的事」

弱點三：資料暴露

觀測資料本身是風險資產。Log 可能含 secret（API key、token、password）、trace 可能含 PII（使用者 email、電話號碼在 span attribute 中）、dashboard 可能對所有人開放且顯示敏感業務指標。

常見暴露路徑

Log 含 secret：SDK 或框架在 error 發生時把完整 request body 寫進 log，body 中的 API key、token、password 跟著進入 log storage。Log storage 的存取控制通常比 secret manager 寬鬆 — 有 log 讀取權限的人都能看到 secret。

Trace attribute 含 PII：http.url attribute 帶完整 URL（含 query parameter 裡的 email 或 token）、db.statement attribute 帶完整 SQL（含 WHERE 子句的使用者 ID）。Trace storage 的保留期可能比業務資料庫長，PII 在 trace 裡存活的時間超過必要範圍。

Dashboard 權限過寬：所有工程師都能看所有服務的 dashboard，包含財務相關的 metric（營收、訂單金額分布）。Dashboard 的存取控制粒度通常是「整個 Grafana instance」而非「per-dashboard」。

Collector / pipeline 有管理員權限：OTel Collector 或 log aggregator 以 admin 權限部署，可以讀寫 secret、修改配置、存取所有資料。Collector 被入侵時，攻擊者可以把 redaction 規則關掉、讓後續的 log 全量暴露。

暴露的修復方向

SDK 端做 redaction（在送出前掃描已知 secret pattern 並替換成 [REDACTED]）
Collector 端做 attribute 過濾（在 pipeline 中移除敏感 attribute）
Log / trace storage 做存取控制（RBAC、per-team 隔離）
Dashboard 做權限分層（業務 dashboard 需要額外授權）
定期掃描 log storage 檢查是否有未 redact 的 secret pattern

詳見 07 資安與資料保護跟 4.12 audit log governance。

設計取捨：訊號完整度與成本控制

觀測覆蓋越完整，盲區越少、事故定位越快。同時儲存、查詢與維護成本也會上升。穩定做法是先定義核心訊號與最低欄位（log schema 的 correlation fields、SLI 的 availability + latency），再按高風險路徑逐步加深觀測。

「全收」的成本問題見 4.7 cardinality；「選擇性收」的品質問題見 4.17 telemetry data quality。

核心判讀

判讀觀測弱點時，按三類依序盤點：

盲區：哪些服務或路徑沒有被觀測到？Sampling 是否丟掉高價值樣本？
失真：Alert noise rate 有多高？Threshold 跟 baseline 是否對齊？SLI 用的是 average 還是 percentile？
暴露：Log / trace 是否含 secret 或 PII？Dashboard 權限是否過寬？Collector 的存取權限是否最小化？

判讀訊號

事故時查 trace 查不到（sampling 丟掉）
Service graph 跟 architecture diagram 有明顯差異（uninstrumented 服務）
Alert noise rate > 30%（threshold drift 或 aggregation 掩蓋）
同一事故觸發 10+ 個 alert（alert storm、缺 grouping / inhibition）
Log grep 到 API key 或 token（redaction 缺失）
Dashboard 對所有人開放且顯示營收指標（權限過寬）

交接路由

4.3 tracing：context 斷鏈的修復策略
4.4 dashboard-alert：alert noise control、grouping、inhibition
4.7 cardinality：sampling 策略與保留決策
4.8 signal governance：alert / dashboard 的定期審視
4.12 audit log：觀測資料的存取控制與稽核
4.16 readiness review：instrumentation coverage 的上線前檢查
4.17 telemetry data quality：sampling bias 跟 schema drift 的品質問題
07 資安：secret management、data masking、存取控制

4.C5 Google Cloud：Cloud Trace 導入 OTLP 入口

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是說明 observability 平台轉換常來自資料通道標準化需求。

觀察

Google Cloud 在 Cloud Trace 提供 OTLP 支援，降低應用程式對特定傳輸介面的綁定。

判讀

當團隊要跨多環境與多工具，標準化傳輸協定能減少重複 instrumentation 與遷移摩擦。

策略

將 collector 與 in-process exporter 對齊 OTLP。
把 trace schema 與 sampling 規則集中治理。
在遷移期保留舊通道與新通道比對。

下一步路由

回 4.11 telemetry pipeline 與 4.18 observability operating model。

引用源

OTLP in Google Cloud Observability

Elastic Stack

Fri, 01 May 2026 00:00:00 +0000

Elastic Stack（前 ELK）是 logs-heavy observability 棧、承擔三個責任：Elasticsearch 搜尋與分析（full-text + structured query）、Beats / Logstash 採集 pipeline、Kibana 視覺化 + Elastic APM（traces）。設計取捨偏向「搜尋為核心 + 統一搜尋介面 + Elastic Security SIEM 整合」。AWS 因 2021 license 變動 fork OpenSearch、提供 Apache 2.0 替代。

本章目標

讀完本章後、你應該能：

部署 Elasticsearch + Kibana + Beats 基本棧
用 KQL / Lucene 查詢 logs、用 ES DSL 寫進階搜尋
設計 index lifecycle（hot / warm / cold / frozen）
評估 Beats / Logstash / Fluent Bit / Vector 的採集選擇
評估 Elastic License vs OpenSearch fork 的取捨

最短路徑：5 分鐘把 Elastic Stack 跑起來

1# 1. 用 docker-compose 跑 ES + Kibana
2# TODO: docker-compose.yml with elasticsearch + kibana
3
4# 2. 用 Filebeat 採集 host logs
5# TODO: filebeat.yml with inputs + output.elasticsearch
6
7# 3. 在 Kibana 查詢驗證
8# TODO: KQL: `@timestamp >= now-15m AND log.level: "error"`

日常操作與決策形狀

採集 pipeline

子議題：

Beats（Filebeat / Metricbeat / Packetbeat / Heartbeat / Auditbeat）：輕量、各自專屬
Logstash：重型 ETL（grok parsing / enrichment / 多 output）
Fluent Bit / Vector：替代採集 agent（更輕量、OSS）
對應 4.C6 ADOT EKS 對照

查詢語法

子議題：

KQL（Kibana Query Language）：直覺、適合日常查詢
Lucene query string：複雜搜尋、boolean operators
ES DSL（JSON）：API 級進階查詢
ES|QL（Elastic Query Language、ES 8.11+）：類 SQL pipeline 語法

Index 設計

子議題：

Index template（mapping / settings）
Data streams（time-series log / metrics）
Field types：keyword / text / date / numeric / object / nested
Dynamic mapping 風險：unbounded field 爆 index

Index Lifecycle Management（ILM）

子議題：

Hot phase：active write
Warm phase：read-only、查詢頻率低
Cold phase：searchable snapshot（S3 / object storage）
Frozen phase（ES 7.12+）：searchable snapshot + minimal cluster resource
Delete phase

Deep Article

Index Lifecycle Management 與 Log Pipeline：ILM policy 設計、data stream / rollover、Beats vs Elastic Agent 採集選擇、ingest pipeline 與 shard sizing、cost governance

Migration Playbook

Elastic Cloud 遷移：自管 Elastic Stack 遷移到 Elastic Cloud

進階主題（按需閱讀）

Elastic APM

子議題：

APM Server 接收 trace data
各語言 APM agent（Java / Python / Node / .NET / Go / Ruby / PHP）
接受 OTLP（ES 7.16+）
Service map / dependency 視覺化

Elastic Security（SIEM）

子議題：

SIEM dashboard / detection rule
ECS（Elastic Common Schema）跨資料統一 field naming
Sigma rule import
跟 07 security 模組對照

Cluster scaling

子議題：

Node roles：master / data / ingest / coordinating / ML / transform
Hot-warm-cold architecture
Shard sizing（推薦 20-40GB per shard）
Cross-cluster search / replication

Elastic License vs OpenSearch fork

子議題：

2021 Elastic 改 ELv2 / SSPL（非 OSI 認可）— AWS 不能提供「Elasticsearch as a Service」
AWS fork OpenSearch（Apache 2.0、基於 ES 7.10）
OpenSearch 持續演進、跟 ES 功能逐漸分歧
選擇判讀：合規 → OpenSearch；要最新 ES feature → Elastic

Searchable Snapshots

子議題：

把 cold/frozen index 存 S3 / GCS / Azure Blob
查詢時動態 hydrate、成本降 80%+
適合 logs retention 長但查詢頻率低
對應 4.C3 Healthcare retention

Vector / Fluent Bit 採集替代

子議題：

為何用 Vector / Fluent Bit：更輕、resource 用量低
Beats 在 K8s 跑起來資源耗較大
對應 cost 跟 maintainability 取捨

排錯快速判讀

Index mapping explosion

操作原則：dynamic mapping 對未知 field 自動建 index、大量 field 爆 ES。

1# TODO: GET /_cat/indices?v 看 field count
2# TODO: PUT index/_mapping 鎖定 fields

Cluster yellow / red

操作原則：cluster status 影響 query。

1# TODO: GET /_cluster/health
2# TODO: GET /_cat/shards?v 看 unassigned shards

Query 過慢

操作原則：query 結果 > 10K → 用 search_after / scroll；text field 上做 aggregation → 改 keyword field。

Disk pressure

操作原則：cluster disk > 85% → ES 進 read-only 模式。判讀：cluster.routing.allocation.disk.watermark。

Logstash backpressure

操作原則：Logstash queue full → upstream Beats 累積 backpressure。判讀：Logstash monitoring page。

何時改走其他服務

需求形狀	改走
Pure metrics	Prometheus / Mimir
純 logs 但 less search	Loki（Grafana Stack）— 更便宜
SaaS turnkey APM	Datadog
AWS-managed Elastic	OpenSearch on AWS（Apache 2.0）
Cloud-native logs	CloudWatch Logs / Cloud Logging
多 tier observability	Datadog / Grafana Stack
Enterprise SIEM	Splunk / Microsoft Sentinel

不在本頁內的主題

ES query DSL 完整 reference
Lucene scoring 演算法
Kibana dashboard 美術
Elastic ML / Anomaly Detection 細節

案例回寫

直接相關案例

案例	主討論議題
4.C1 Fintech audit	Logs 作為 audit evidence
4.C3 Healthcare retention	Index Lifecycle / retention

跨 vendor 對照

案例	對 Elastic Stack 的對應
4.C6 ADOT EKS pipeline	Beats / Logstash ↔ OTel Collector 採集 pipeline 對照
4.C10 規模對照	小型 single-node / 中型 hot-warm / 大型 hot-warm-cold-frozen

下一步路由

上游概念：4.17 Telemetry Data Quality
平行 vendor：Grafana Stack（Loki 對照）、OpenTelemetry
下游能力：4.20 Observability Evidence Package

6.5 如何新增結構化記錄欄位

Wed, 22 Apr 2026 00:00:00 +0000

新增結構化記錄欄位的核心規則是先判斷這筆資訊是給工程師除錯、給系統重播，還是給使用者查詢。不同用途對應不同記錄邊界，資料應依用途進入 log、event log 或 repository。

本章目標

學完本章後，你將能夠：

分辨 structured log、domain event log 與 state repository
設計穩定的 log 欄位名稱
判斷哪些資料不應寫進 log
用 EventLog.Append 表達事件記錄邊界
測試穩定欄位，而不是測自由文字

【觀察】先判斷記錄用途

記錄邊界的核心問題是資料要服務誰。工程師除錯、系統重播、使用者查詢是三種不同用途，對應三種不同儲存與格式責任。

記錄類型	用途	範例
structured log	操作診斷、除錯、聚合查詢	queue full、event rejected、worker failed
domain event log	記錄已發生事實、audit、replay	`notification.created`、`job.failed`
state repository	查詢目前狀態或投影	job current status、notification summary

structured log 服務操作診斷，event log 保存 normalized fact，state repository 回答目前狀態。先分清楚用途，才知道欄位該放哪裡。這個用途判斷比選擇哪個 logging package 更關鍵 — 工具決定怎麼寫，用途決定寫什麼、放哪裡。

【判讀】structured log 是操作訊號

structured log 的核心用途是讓工程師知道系統正在發生什麼，並且能用欄位查詢。它應該記錄操作訊號，而不是完整業務資料。

1logger.Info(
2    "event accepted",
3    "layer", "adapter",
4    "event_type", string(event.Type),
5    "event_id", event.ID,
6    "subject_id", event.SubjectID,
7    "correlation_id", event.CorrelationID,
8)

message 給人讀，欄位給查詢工具使用。若未來要查某種事件是否大量進入系統，event_type 欄位比文字搜尋更可靠。

常見 log 欄位可以先定義成 helper，避免不同地方拼出不同名稱：

 1func LogAttrsForEvent(event DomainEvent) []any {
 2    return []any{
 3        "event_id", event.ID,
 4        "event_type", string(event.Type),
 5        "subject_kind", string(event.SubjectKind),
 6        "subject_id", event.SubjectID,
 7        "correlation_id", event.CorrelationID,
 8        "schema_version", event.SchemaVersion,
 9    }
10}

使用時可以展開欄位：

1logger.Info("event accepted", LogAttrsForEvent(event)...)

這個 helper 保護的是 log schema。欄位名稱穩定，查詢與 dashboard 才能穩定。

【策略】reason 欄位要像 enum

reason 的核心語意是可聚合的原因分類。它應使用小集合穩定值；完整錯誤訊息則放在 error 欄位協助診斷。

1const (
2    ReasonInvalidPayload = "invalid_payload"
3    ReasonQueueFull      = "queue_full"
4    ReasonDuplicateEvent = "duplicate_event"
5    ReasonTimeout        = "timeout"
6)

記錄拒絕事件時：

1logger.Warn(
2    "event rejected",
3    "layer", "adapter",
4    "reason", ReasonInvalidPayload,
5    "event_type", string(event.Type),
6    "error", err,
7)

reason 用來統計，error 用來診斷，message 用來讓人快速理解。這三者不要混成一個大字串。

【判讀】event log 記錄 normalized fact

domain event log 的核心責任是保存已正規化的 domain event。它記錄的是系統承認的事實；raw request、debug log 與目前狀態分別屬於不同記錄邊界。

先定義 port：

1type EventLog interface {
2    Append(ctx context.Context, event DomainEvent) error
3}

memory implementation 可以先這樣寫：

 1type InMemoryEventLog struct {
 2    mu     sync.Mutex
 3    events []DomainEvent
 4}
 5
 6func NewInMemoryEventLog() *InMemoryEventLog {
 7    return &InMemoryEventLog{}
 8}
 9
10func (l *InMemoryEventLog) Append(ctx context.Context, event DomainEvent) error {
11    l.mu.Lock()
12    defer l.mu.Unlock()
13
14    l.events = append(l.events, cloneDomainEvent(event))
15    return nil
16}

event log 應該保存 DomainEvent envelope 中的穩定欄位，例如 event ID、type、subject、schema version、occurred/received time。它不需要保存 adapter 的 raw input，除非你已經明確設計 raw audit log。

【執行】event log 要保護 copy boundary

event log 的核心資料也是內部狀態。若 event 包含 slice、map 或 json.RawMessage，append 與讀取時都要避免外部修改內部資料。

1func cloneDomainEvent(event DomainEvent) DomainEvent {
2    cloned := event
3    if event.Payload != nil {
4        cloned.Payload = append(json.RawMessage(nil), event.Payload...)
5    }
6    return cloned
7}

若要提供查詢方法，也要回傳複製資料：

 1func (l *InMemoryEventLog) List() []DomainEvent {
 2    l.mu.Lock()
 3    defer l.mu.Unlock()
 4
 5    result := make([]DomainEvent, len(l.events))
 6    for i, event := range l.events {
 7        result[i] = cloneDomainEvent(event)
 8    }
 9    return result
10}

這裡展示的是教學用記錄邊界。真正 event store 還需要持久化、排序、[schema migration](/go/backend/knowledge-cards/schema-migration)、重播策略與交易語意。

【策略】state repository 保存目前狀態

state repository 的核心責任是回答目前狀態。它可以由 event 更新，但用途不同於保存所有歷史事實的 event log。

例如：

1type JobRepository interface {
2    Apply(ctx context.Context, event DomainEvent) error
3    Get(ctx context.Context, id string) (JobProjection, bool, error)
4}

event log 和 state repository 可以在 processor 中各自被呼叫：

 1type RecordingEventProcessor struct {
 2    eventLog   EventLog
 3    repository JobRepository
 4    logger     *slog.Logger
 5}
 6
 7func (p *RecordingEventProcessor) Process(ctx context.Context, event DomainEvent) error {
 8    if err := p.eventLog.Append(ctx, event); err != nil {
 9        return fmt.Errorf("append event log: %w", err)
10    }
11
12    if err := p.repository.Apply(ctx, event); err != nil {
13        return fmt.Errorf("apply state projection: %w", err)
14    }
15
16    p.logger.Info("event processed", LogAttrsForEvent(event)...)
17    return nil
18}

這段程式展示三種記錄邊界：event log 保存事實，repository 更新目前狀態，structured log 記錄操作訊號。

【判讀】記錄位置要跟錯誤發生層一致

記錄位置的核心規則是在哪一層能提供最多上下文，就在哪一層記錄。同一個錯誤通常選擇一個主要層次記錄，避免 log 被重複訊號淹沒。

常見位置：

發生位置	應記錄內容
adapter	raw input decode/normalize 失敗
router/usecase	command 被拒絕、權限不足、狀態不允許
processor	event validation、dedup、projection apply 結果
worker	queue full、外部來源失敗、重試結果

例如 adapter 解碼失敗：

1logger.Warn(
2    "callback rejected",
3    "layer", "adapter",
4    "reason", ReasonInvalidPayload,
5    "payload_bytes", len(body),
6)

這裡記錄 payload 大小即可診斷資料是否異常；完整 payload 可能包含敏感資料或過大內容。

【策略】敏感資料預設不進 log

敏感資料邊界的核心規則是 log 會被保存、轉發與搜尋，所以 token、password、完整 payload、完整個資應排除在 log 之外。

可以記錄：

ID 或 opaque identifier
payload byte length
schema version
欄位是否存在
hash 或 checksum

不應記錄：

password
access token
cookie
完整 request body
完整 personal data

若需要追蹤同一筆資料，可以記錄安全識別碼：

1logger.Debug(
2    "payload received",
3    "payload_bytes", len(body),
4    "payload_sha256", sha256Hex(body),
5)

debug log 也需要遵守同樣規則；只要可能被集中收集，就要先控制敏感資料。

【執行】log helper 測試只測穩定欄位

log helper 測試的核心目標是保護欄位名稱與值。log message 文案是給人讀的內容，通常保留調整空間。

 1func TestLogAttrsForEvent(t *testing.T) {
 2    event := DomainEvent{
 3        ID:            "evt_1",
 4        Type:          EventNotificationCreated,
 5        SubjectKind:   SubjectNotification,
 6        SubjectID:     "ntf_1",
 7        CorrelationID: "corr_1",
 8        SchemaVersion: 1,
 9    }
10
11    attrs := LogAttrsForEvent(event)
12    got := attrsToMap(attrs)
13
14    if got["event_id"] != "evt_1" {
15        t.Fatalf("event_id = %v, want evt_1", got["event_id"])
16    }
17    if got["event_type"] != string(EventNotificationCreated) {
18        t.Fatalf("event_type = %v, want %s", got["event_type"], EventNotificationCreated)
19    }
20}

測試輔助函式可以把 key-value slice 轉成 map：

 1func attrsToMap(attrs []any) map[string]any {
 2    result := make(map[string]any)
 3    for i := 0; i+1 < len(attrs); i += 2 {
 4        key, ok := attrs[i].(string)
 5        if !ok {
 6            continue
 7        }
 8        result[key] = attrs[i+1]
 9    }
10    return result
11}

這個測試直接檢查 helper 輸出，不需要真的寫 log 或解析 logger output。

【執行】event log 測試要保護 append 與 copy

event log 測試的核心目標是確認事件被 append，且外部無法透過原始 payload 或回傳值修改內部紀錄。

 1func TestInMemoryEventLogAppendCopiesPayload(t *testing.T) {
 2    log := NewInMemoryEventLog()
 3    payload := json.RawMessage(`{"topic":"deployments"}`)
 4
 5    event := DomainEvent{
 6        ID:            "evt_1",
 7        Type:          EventNotificationCreated,
 8        SubjectKind:   SubjectNotification,
 9        SubjectID:     "ntf_1",
10        OccurredAt:    time.Date(2026, 4, 22, 10, 0, 0, 0, time.UTC),
11        ReceivedAt:    time.Date(2026, 4, 22, 10, 1, 0, 0, time.UTC),
12        SchemaVersion: 1,
13        Payload:       payload,
14    }
15
16    if err := log.Append(context.Background(), event); err != nil {
17        t.Fatalf("append event: %v", err)
18    }
19
20    payload[0] = '['
21
22    events := log.List()
23    if string(events[0].Payload) != `{"topic":"deployments"}` {
24        t.Fatalf("payload was modified through original slice")
25    }
26}

json.RawMessage 本質是 []byte，所以需要 copy。這類細節很容易被忽略，測試可以把邊界固定下來。

實作檢查清單

新增結構化記錄欄位時，可以依序檢查：

這筆資料是給除錯、重播，還是查詢
structured log 是否只保存操作訊號與安全欄位
event log 是否保存 normalized domain event
state repository 是否只保存目前 projection
log 欄位名稱是否穩定
reason 是否是小集合分類
是否避免完整 payload 與敏感資料
event log 是否保護 copy boundary
測試是否檢查穩定欄位，而不是自由文字

設計檢查

檢查一：log 服務操作診斷

log 是操作診斷訊號，不是穩定查詢 API。需要使用者查詢的目前狀態，應該進 repository 或 read model。

檢查二：event log 保存 normalized fact

event log 記錄的是 normalized fact。若把暫時性錯誤、debug 訊息與 raw payload 全塞進 event log，重播與 audit 會變得不可信。

檢查三：欄位名稱維持一致

event_id、eventID、id 混用會讓查詢失效。欄位 schema 要像 API 一樣維持穩定。

檢查四：完整 payload 需要明確策略

完整 payload 可能包含敏感資料，也可能非常大。除非有明確安全與保存策略，否則只記錄大小、hash、ID 與必要欄位。

本章不處理

本章先處理 log、event log 與 repository 的分工；集中式 log 平台與可重播事件系統，會在下列章節再往外延伸：

和 Go 教材的關係

這一章承接的是 event log、state repository 與 log schema；如果你要先回看語言教材，可以讀：

可除錯的 bootstrap：把可觀測性內建進安裝腳本

Wed, 01 Jul 2026 00:00:00 +0000

Bootstrap 腳本失敗是常態，所以它的設計目標之一應該是「失敗時可診斷」：把失敗當成會發生的事來設計，預先留好定位問題的痕跡。一支自動化安裝腳本要跨越的環境差異很多——機器缺某個工具、套件清單有筆誤、某個指令在這個發行版的行為跟預期不同——任何一處都可能讓它中斷。決定你是「三分鐘看出哪裡錯」還是「對著終端機捲半天瞎猜」的，是這支腳本有沒有在設計時就把可觀測性內建進去，跟運氣無關。

可觀測性要事先設計，是因為失敗發生的當下，你能拿到的資訊就已經定型了。如果腳本只把輸出丟到終端機、失敗時只留下一句通用的錯誤，那當下你就只有那句話可看；如果它一路把帶時間戳的紀錄寫進檔案、失敗時主動印出出錯的位置，那同一個失敗就變得可定位。差別不在失敗本身，在失敗前你準備了什麼。如果你寫的是自己的 bootstrap（例如部署 dotfile 的那支 install.sh），這層要在你第一次跑它之前就設計進去，而不是等它出事才回頭加；就算腳本不是你寫的、你只是來 debug 一次失敗，下一段「找程式自己的 log」一樣適用。

為什麼會瞎找

不可觀測的腳本失敗時，你手上只有終端機捲動過的那些輸出，而那往往不足以定位真正的原因。終端機的輸出是易逝的、會被後續輸出沖掉、多個來源的訊息交錯在一起；更麻煩的是，很多失敗的「表面錯誤」離「真正原因」隔了好幾層。一個指令因為前面某個變數是空的而失敗，但它報出來的錯可能完全沒提到那個空變數——你看著一個誤導性的症狀，往上游找不到源頭。

破解這種瞎找的，常常是一份你一開始沒看的 log。很多程式在終端機只印一段摘要，卻同時把詳細的執行紀錄寫進一個 log 檔；當終端機的訊息不足以定位時，那份程式自己寫的 log 裡往往就有答案。除錯時養成「找程式自己的 log，而不是只盯著終端機捲動」的習慣，是把瞎找變成定位的關鍵一步——這也是模組七日誌判讀的核心。而對你自己寫的 bootstrap，你可以更進一步：在設計時就讓它產生這樣一份 log。

三個內建可觀測性的手法

讓一支 bootstrap 腳本可診斷，有三個低成本、效果明顯的手法，它們合起來把「失敗了」變成「失敗在第幾行、哪個指令、什麼狀態」。

log 落地：把全部輸出 tee 進帶時間戳的檔案

第一個手法是讓腳本的全部輸出同時進終端機跟一個 log 檔，而不是只進終端機。終端機的捲動是易逝的，log 檔是持久的——可以事後 grep、可以貼給別人看、可以比對前後兩次跑的差異。在 bash 裡，一行 exec 就能把後續所有 stdout 與 stderr 都導去 tee：

1LOG_DIR="${XDG_STATE_HOME:-$HOME/.local/state}/dotfiles"
2mkdir -p "$LOG_DIR"
3LOG_FILE="$LOG_DIR/install-$(date +%Y%m%d-%H%M%S).log"
4exec > >(tee -a "$LOG_FILE") 2>&1

帶時間戳的檔名讓每次跑各留一份、不互相覆蓋，事後可以回溯「上一次成功跟這次失敗差在哪」。log 檔放在 XDG_STATE_HOME（狀態資料的標準位置）底下，符合慣例、也不污染家目錄。

錯誤定位：用 ERR trap 印出出錯的行與指令

第二個手法是讓腳本在中斷的瞬間，主動報出「是哪一行、哪個指令、什麼結束碼」失敗的。配合 set -e（出錯即停）的腳本，預設只會默默地停，不告訴你停在哪。加一個 ERR trap，就能在 set -e 中斷之前先印出定位資訊：

1set -Eeuo pipefail # -E 讓 ERR trap 在函式/子 shell 也生效
2trap 'log "ERROR line $LINENO: [$BASH_COMMAND] exit=$?"' ERR

$LINENO 是出錯的行號、$BASH_COMMAND 是當下正在執行的那條指令、$? 是它的結束碼。三者合起來，輸出會長這樣：

1[00:06:51] ERROR line 40: [sudo pacman -S --needed stow git zsh] exit=1

範例裡的 pacman 換發行版會不同，這裡只是示意 trap 輸出的格式——手法本身（行號 + 指令 + 結束碼）跟發行版無關。這一行直接點名元兇。前面提過的那類「表面錯誤離真正原因隔好幾層」的情況——例如某個指令因為 which 不存在而拿到空字串、最後報一個看似無關的錯——有了這行，你會直接看到是哪一行的哪條指令掛了，不必從誤導性的症狀往回猜。set -E（-E 旗標）是為了讓 trap 在函式跟子 shell 裡也照樣觸發，少了它，包在函式裡的錯誤會漏掉。

步驟標記：用帶時間戳的 log 函式標出進度

第三個手法是在關鍵步驟前印一行帶時間戳的標記，讓你能看出腳本跑到哪、哪一步慢。一個極簡的 log 函式就夠：

1log() { printf '[%s] %s\n' "$(date +%H:%M:%S)" "$*"; }
2
3log "install.sh start | OS=$OS"
4log "Installing base packages..."
5log "Stowing configs..."

時間戳的價值在於它同時給你「進度」跟「效能」兩種資訊：失敗時，最後一行成功的 log 告訴你它跨過了哪些步驟、卡在哪一步之後；正常時，相鄰兩行的時間差告訴你哪一步耗時最久。這比沒有標記、只能從一堆套件下載輸出裡猜「現在到底在幹嘛」清楚得多。

失敗可診斷是設計目標

把這三個手法合起來，一支原本「失敗時只留一句通用錯誤」的腳本，會變成「每次跑都留一份完整 log、失敗時直接點名第幾行哪個指令、過程中每步都有時間戳」。成本是腳本開頭多幾行，回報是把未來每一次除錯從瞎找變成定位。這層可觀測性是模組八 bootstrap script 設計的延伸——那篇給安裝腳本的骨架與套件清單，這篇給它加上失敗時的診斷能力，兩篇處理的是同一支腳本的兩個層面。

這是設計階段的決定，不是事後能補的。當一支沒有可觀測性的腳本在一台陌生機器上失敗，你沒辦法回到過去讓它記錄當時的狀態——資訊在失敗的瞬間就已經流失了。所以「失敗可診斷」要跟功能一起設計進去，把它當成 bootstrap 的基本屬性，而不是出事之後才想加的補丁。

回到系列

這幾篇合起來，是把一台機器從「空的」帶到「能接收 dotfile、且部署過程可診斷」的完整地基：安裝選項判讀處理 OS 怎麼裝、工具驗證與補足處理裝完缺什麼、外部連入與無 key bootstrap 處理怎麼連進去把 dotfile 弄進來，這一篇處理當部署失敗時怎麼快速看出原因。再往前一步，把這套地基用在無人值守的長任務上、讓機器在你離開後自己跑完工作，見讓機器跑無人值守的長任務——無人盯著的任務尤其依賴這篇談的可觀測性。地基打好，後面模組一到八的 dotfile 管理才有立足點。

模組六：可觀測性與 log 一併寫進 code

Fri, 26 Jun 2026 00:00:00 +0000

可觀測性要跟它監控的資源同生命週期：log group、metric 與 alarm 寫進建立資源的同一套 IaC，資源開出來的那一刻監控就在線，而非等出事才補。少了這條規則的代價很具體：凌晨資料庫 CPU 飆到 100%、API 開始逾時，值班工程師打開 console 想看 log，卻發現那個服務根本沒接 log group、metric 也只有 vendor 預設的幾條粗線，追不到呼叫鏈、查不到錯誤訊息，只能靠重啟賭它恢復。

observability 跟 infra 同一套 code、同生命週期

可觀測性是基礎設施的一部分，承擔「讓資源在出事時可被追查」的責任，因此它的建立、變更與銷毀要跟被監控的資源綁在同一個生命週期裡。一個 RDS 實例、一個 Lambda、一個 ECS service 被 IaC 建立時，它的 log group、它的關鍵 metric alarm 應該在同一份 plan 裡一起 apply；這個資源被 destroy 時，對應的 alarm 也一起收掉，不留下對著空資源狂叫的孤兒告警。

把監控外掛在資源之外會製造兩種漂移。第一種是新資源沒有監控：service 透過 PR 加上去了，但 alarm 要某人事後手動進 console 點，於是有些 service 有 alarm、有些沒有，覆蓋率取決於誰記得。第二種是死資源留下殘響：資源砍了但 alarm 還在，半夜對著不存在的 target 噴 INSUFFICIENT_DATA，值班的人學會忽略它，告警疲勞讓真的事故也被一起忽略。兩種漂移的共同根因都是監控跟資源不在同一個 apply 單位裡。

判讀訊號很直接：如果有人能回答「這個服務有沒有 alarm」要去翻 console 而不是讀 code，監控就已經跟資源脫鉤了。修法是把監控宣告收進該資源的 module——模組四（環境分離與模組化）談的模組化在這裡延伸成「每個服務模組自帶它的 observability 宣告」，模組五（核心服務上 IaC）談的每個核心服務也應該在同一個 module 裡帶上自己的 log 與 alarm。

log group 與 retention 設計

Log group 是日誌的歸屬與保存單位，它要回答兩個治理問題：留多久、誰能讀。這兩個問題寫進 IaC 才能稽核，而非依賴 vendor 的隱性預設。許多雲端服務在你沒宣告 log group 時會自動建一個、套上「永久保留」的預設值，於是日誌無限堆積、帳單緩慢長大，而真正敏感的內容反而沒人管控存取。

Retention 是成本、合規與除錯需求的三方取捨。除錯通常只需要近幾天到幾週的熱資料；合規（如稽核軌跡、金流紀錄）可能要求保留數年；而每多留一天就多一天的儲存費。划算的做法是按日誌類型分層：高頻、除錯用的 application log 設短 retention（例如 14 到 30 天），稽核相關的 access log 按合規要求設長期保留，必要時再把冷資料歸檔到更便宜的物件儲存。把這些值寫進 IaC，讓「為什麼這條 log 留 90 天」是一個能在 PR 上被討論的決定。

1resource "aws_cloudwatch_log_group" "api" {
2  name              = "/app/${var.env}/api"
3  retention_in_days = var.env == "prod" ? 30 : 7
4  kms_key_id        = aws_kms_key.logs.arn
5}

「誰能讀」是 retention 之外的另一半，因為 log 經常夾帶 PII、token 或內部結構，讀取權限要跟身分地基一起管。存取控制掛在模組二（身分與憑證地基）建立的 IAM 角色上，加密金鑰則對應模組三、模組七一路延伸的金鑰治理。常見陷阱是 log 在傳輸與儲存都加密了，卻對整個團隊開放讀取，等於把敏感資料攤在所有人面前；read 權限應該縮到值班與稽核需要的最小集合。應用層該怎麼決定哪些欄位根本不該進 log，屬於資料保護的範圍，可往 /backend/07-security-data-protection/ 對齊。

metric 與 alarm 寫進 IaC

Metric 與 alarm 寫進 IaC，目的是讓「資源被建立的同時就帶著它的健康判準」。Alarm 不只是一個閾值，它是一份對「這個資源什麼狀態算不正常」的成文約定：哪條 metric、跨多長的評估窗口、超過什麼值要通知誰。把這份約定寫進 code，它就能被 review、被版本控制、被跨環境複用，而不是散落在某個人腦中或 console 的某個角落。

Alarm 的價值在於它連到動作，而非只是亮一盞燈。一條有用的 alarm 至少要綁定通知去向（on-call 的 SNS topic、PagerDuty、Slack），並寫清楚 INSUFFICIENT_DATA 怎麼處理——資料不足到底算正常還是異常，取決於這條 metric 平常是否持續有資料。閾值設計是訊號與雜訊的取捨：設太敏感會頻繁誤報、養出告警疲勞，設太鈍則錯過真正的劣化。划算的起點是針對「使用者已經受影響」的症狀型 metric 設 alarm（錯誤率、p99 延遲、佇列積壓），而把成因型指標（CPU、記憶體）留作 dashboard 上的診斷線索，避免每個成因都獨立告警。

 1resource "aws_cloudwatch_metric_alarm" "api_5xx" {
 2  alarm_name          = "${var.env}-api-5xx-rate"
 3  comparison_operator = "GreaterThanThreshold"
 4  evaluation_periods  = 3
 5  metric_name         = "5XXError"
 6  namespace           = "AWS/ApiGateway"
 7  period              = 60
 8  statistic           = "Sum"
 9  threshold           = 10
10  treat_missing_data  = "notBreaching"
11  alarm_actions       = [aws_sns_topic.oncall.arn]
12}

判讀訊號是：每次新服務上線都要有人「記得」去加 alarm，代表 alarm 還沒進 module 模板。修法是把基礎告警（錯誤率、延遲、健康檢查失敗）做成服務模組的預設輸出，讓開新服務時 alarm 跟著資源一起生出來，調整閾值才是該服務 owner 的選配。

跟 monitoring 系列的分工：基礎設施訊號 vs 客戶端行為訊號

本模組的可觀測性處理基礎設施訊號，monitoring 系列處理客戶端與業務行為訊號，兩者觀測的對象不同、生命週期也不同，因此分屬不同的 code 與不同的章節。基礎設施訊號是資源層的健康狀態：log group、CPU、佇列深度、5xx 比例、實例存活，它們跟著資源被 IaC 建立與銷毀，回答「這個系統還活著嗎、哪裡壞了」。

客戶端行為訊號則是 SDK、Collector、業務埋點那一層：使用者點了什麼、轉換漏斗、前端錯誤、自訂事件，它們跟著產品功能演進、不跟著基礎設施資源同生共滅，所以放在 /monitoring/。判讀分界的問法是：這個訊號是「資源建立時就該存在」還是「功能開發時才埋」。前者進本模組的 IaC，後者進 monitoring 那層的應用程式碼。兩者在事故排查時會合流——基礎設施 alarm 告訴你哪個資源異常，客戶端訊號告訴你使用者實際受了什麼影響——但它們的擁有者、變更節奏與部署管道不同，混在一起會讓「誰負責這條訊號」變模糊。

收斂成一句判準：資源建立時就該存在的訊號歸本模組的 IaC，功能開發時才埋的客戶端行為訊號歸另一層；各條延伸章節見下方跨分類引用。

章節文章

文章	主題
可觀測性與 log 同生命週期管理	log group、metric、alarm 寫進同一套 IaC，讓監控跟資源同生共滅，出事時追得到查得到

跨分類引用

→ Monitoring 監控體系：客戶端 SDK / Collector 那層的監控
→ 模組五：核心服務上 IaC：每個核心服務帶自己的 log 與 alarm
→ 模組七：infra 走 PR 流程：observability 變更也走 PR 與自動化護欄
→ backend 模組七：資安與資料保護：哪些欄位不該進 log、PII 處理

4.6 SLI 量測與 SLO 訊號設計

Mon, 22 Jun 2026 00:00:00 +0000

大綱

SLI 設計起點：user-journey 而非 system metric
量測點選擇：edge / gateway / service / dependency 各自代表什麼
Ratio metric vs latency percentile：何時用哪種
Burn rate 訊號：multi-window multi-burn-rate alert
Error budget 計算所需的 metric 結構
跟 4.2 metrics 的分工：4.2 是 counter/gauge/histogram 基礎、4.6 是 SLI 化的設計
跟 4.4 dashboard-alert 的分工：4.4 是 alert 規則治理、4.6 是 alert 的訊號源頭
反模式

概念定位

SLI 訊號設計是把可靠性目標轉成可量測資料的步驟，責任是讓 SLO 政策建立在使用者旅程與服務結果上。

CPU、memory、queue depth 可以提供系統背景，但 SLI 需要回答的是使用者層面的問題：request 是否成功、回應是否夠快、結果是否正確。SLI 量測的位置跟算式決定了 SLO 反映的是「使用者體驗」還是「基礎設施健康」— 兩者的判讀意義不同。

本章處理的是 metric 到 SLI 的轉換。4.2 定義 counter / gauge / histogram 的基礎型別；本章定義怎麼用這些型別組出代表使用者體驗的 SLI，並設計 burn rate alert 的訊號結構。SLO 政策本身（error budget freeze、release gate 決策）由 6.6 SLO 政策處理。

SLI 設計起點：User Journey

從使用者操作推導 SLI

SLI 的設計起點是「使用者在做什麼、期待什麼結果」，不是「系統有什麼 metric 可以用」。

一個 checkout 流程的使用者期待：request 成功（不會看到 error page）、回應夠快（不會等超過 3 秒）、結果正確（扣款金額正確）。對應三種 SLI：

Availability SLI：成功 request 的比例（successful_requests / total_requests）
Latency SLI：回應時間在閾值內的比例（requests_under_3s / total_requests）
Correctness SLI：結果正確的比例（需要業務邏輯判定，通常用特定 error code 或 reconciliation 結果）

每個 user journey 不需要三種 SLI 都有。Checkout 的 availability 跟 latency 是核心；correctness 靠事後對帳驗證。搜尋頁面的 latency 比 availability 更關鍵 — 使用者容忍偶發的「搜不到結果」但不容忍 5 秒的載入。

System metric 跟 SLI 的差異

CPU > 90% 不是 SLI — 它是 cause signal。CPU 高但 latency 正常，使用者沒受影響。Disk usage > 85% 也不是 SLI — 它是 capacity signal，需要處理但不代表當下使用者體驗退化。

System metric 的價值在 root cause analysis，不在 SLI。事故中先看 SLI 判斷「使用者是否受影響」，確認受影響後再看 system metric 判斷「原因是什麼」。把 system metric 當 SLI 會讓 SLO 反映基礎設施噪音而非使用者體驗。

量測點選擇

SLI 的量測點影響「看到的是誰的觀點」。同一個 request 在不同位置量測會得到不同的 latency 跟 success rate。

Edge / Load Balancer

最貼近使用者的量測點。量到的 latency 包含 network round-trip + TLS handshake + 所有 backend 處理時間。Availability 反映的是使用者實際看到的 success rate（包含 load balancer 自身的 502/503）。

優點是最能代表使用者體驗。缺點是 load balancer 的 metric 粒度有限 — 通常只有 status code 跟 latency，不帶 service-level 的維度切分。

API Gateway

比 edge 更有應用層上下文。可以按 route / method / tenant 切分 SLI。量到的 latency 不含 network round-trip（已經進入服務網路），但包含 authentication、rate limiting 跟所有下游處理。

API gateway 是多數團隊的 SLI 量測起點 — 粒度足夠、位置夠近使用者、通常已有 instrumentation。

Service level

每個服務的 handler-level metric。可以看到單一服務的 latency 跟 error rate，但不含上下游的影響。適合做 service-level SLO（「order service 的 p99 latency < 200ms」），但不直接代表 user-journey SLO。

Service-level SLI 的價值在於 SLO 階層化 — user-journey SLO 拆分成每個服務的 SLO，事故時能快速定位是哪個服務的 SLO 被打破。

Dependency level

量測外部依賴（database、cache、third-party API）的回應時間跟 error rate。Dependency metric 的角色是 SLI 退化時的歸因訊號，用來追溯因果鏈而非直接代表使用者體驗。Database latency 上升 → service latency 上升 → user-journey latency SLO 被打破 — dependency metric 幫助追溯因果鏈。

SLI 的 Metric 結構

Ratio metric：availability 跟 correctness

Availability SLI 的 metric 結構需要兩個 counter：total requests 跟 successful requests（或 failed requests）。SLI = good / total。

1# Availability SLI
2http_requests_total{service="checkout", status="2xx"} / http_requests_total{service="checkout"}

定義「good」的邊界需要明確。5xx 算 bad，4xx 呢？Client error（400）通常不算服務失敗；authentication failure（401/403）也不算。但 429（rate limit）可能代表服務容量不足，視情境可能算 bad。這個邊界要在 SLI 定義時明確寫下來。

Latency metric：threshold-based ratio

Latency SLI 用 histogram 量測，SLI 值是「在閾值內的 request 比例」。

1# Latency SLI：p99 < 500ms 的比例
2histogram_quantile(0.99, rate(http_request_duration_seconds_bucket{service="checkout"}[5m])) < 0.5
3
4# 或用 ratio 形式
5sum(rate(http_request_duration_seconds_bucket{le="0.5",service="checkout"}[5m]))
6/ sum(rate(http_request_duration_seconds_count{service="checkout"}[5m]))

Latency 閾值的選擇要對齊使用者期待而非系統能力。使用者期待 checkout 在 3 秒內完成 — 這是閾值的來源，不是「系統平均 latency 是 200ms 所以閾值設 500ms」。

Label 設計

SLI metric 的 label 需要足夠的切分能力（by service、by endpoint、by tenant），但受 cardinality 預算約束。

最小 label set：service name + method（GET/POST）+ status class（2xx/4xx/5xx）。這組 label 支撐 service-level SLO 計算。

擴展 label：endpoint path（normalize 後，例如 /api/orders/{id} → /api/orders/:id）、tenant（多租戶場景）。每增加一個 label 維度，series 數量乘法增長 — 在 4.7 cardinality 的 label 白名單中管理。

Burn Rate 與 Multi-window Alert

Burn rate 的概念

Burn rate 是「error budget 被消耗的速度」。Burn rate = 1 代表按 SLO 允許的速度正常消耗；burn rate = 10 代表消耗速度是允許值的 10 倍 — 如果持續下去，error budget 會在 SLO 週期的 1/10 內耗盡。

用 burn rate alert 取代固定閾值 alert 的好處：burn rate 自動適應流量。低流量時段的幾筆 error 可能 burn rate 很低（因為 total 也少、對 error budget 影響小）；高流量時段的相同 error rate 可能 burn rate 很高（因為 total 多、影響的使用者量大）。

Multi-window multi-burn-rate

單一時間窗口的 burn rate alert 會太吵（短窗口）或太晚（長窗口）。Multi-window 策略組合兩者：

視窗組合	Burn rate 閾值	偵測速度	用途
5min + 1hr	14.4x	快	急性問題、page
30min + 6hr	6x	中	持續退化
2hr + 3day	1x	慢	慢性消耗

14.4x 的來源：若 SLO 週期是 30 天、要在 1 小時內偵測到會耗盡 2% error budget 的問題，burn rate = (30 × 24) / 1 × 0.02 ≈ 14.4。6x 跟 1x 依此邏輯調整消耗比例跟偵測窗口。

短窗口（5min）抓急性：error rate 突然飆高、burn rate 衝到 14.4x。長窗口（1hr）做確認：退化確實持續、排除瞬間 spike。兩個窗口都超過閾值才觸發 alert，減少單一 spike 的 false alarm。

Recording rule 支撐 burn rate 計算

Burn rate 的計算涉及多個時間窗口的 ratio metric。每次 alert evaluate 都重算會給 TSDB 帶來查詢壓力。用 recording rule 把每個窗口的 error ratio 預計算，alert rule 讀 recording rule 的輸出：

1# Recording rule：5 分鐘窗口的 error ratio
2- record: slo:checkout:error_ratio:rate5m
3  expr: sum(rate(http_requests_total{service="checkout",status=~"5.."}[5m]))
4      / sum(rate(http_requests_total{service="checkout"}[5m]))

Alert rule 讀 recording rule 比每次重算 raw series 高效，也讓 burn rate 的計算邏輯集中管理。

Error Budget 的 Metric 結構

Error budget 是 SLO 週期內允許的錯誤量。SLO = 99.9% 代表 30 天內允許 0.1% 的 request 失敗。Error budget = total requests × 0.001。

Error budget 的 metric 結構需要：

Total requests（rolling window）：過去 30 天的 total request count
Failed requests（rolling window）：過去 30 天的 failed request count
Budget consumed：failed / (total × (1 - SLO target))
Budget remaining：1 - budget consumed

Budget remaining 作為 dashboard panel 跟 release gate 的輸入 — 餘額低於閾值時 freeze deployment。這個計算的 rolling window 用 recording rule 維護，避免每次查詢掃描 30 天的 raw data。

核心判讀

判讀 SLI 設計時，先看量測點是否貼近使用者，再看算式是否能穩定支援 error budget。

重點訊號包括：

Edge / gateway / service / dependency 的量測點是否各自有清楚責任
Latency percentile 與 ratio metric 是否對應不同使用者體驗
Burn rate 是否使用多時間窗，避免太吵或太晚
SLI label 是否有足夠切分能力，同時受 cardinality 預算約束
Error budget 的 rolling window 是否用 recording rule 維護

判讀訊號

Alert 用 system metric（CPU / memory）而非 user-facing 訊號
Burn rate 只有單窗、噪音多或偵測太晚
SLI 計算用平均、不用 percentile
Error budget 算式分母不穩（流量低時誤觸發、高時稀釋）
SLI 量測點離使用者太遠（內部 service 而非 edge/gateway）
SLI 沒有定義「什麼算 good request」的邊界（4xx 算不算 bad）
Burn rate 計算每次重算 raw series、沒有 recording rule

反模式

反模式	表面現象	修正方向
System metric 當 SLI	CPU/memory alert 頻繁但使用者沒受影響	改用 user-facing ratio / latency SLI
Burn rate 單窗	短窗太吵或長窗太晚、alert 價值低	組合 5min+1hr / 30min+6hr 多窗策略
SLI 用 average latency	Tail latency 被掩蓋、p99 使用者體驗失真	改用 histogram percentile
Good request 邊界不明	4xx 算不算 bad、SLI 值忽高忽低	明確定義 good/bad 分類、寫進 SLI spec
Error budget 無 rolling	月初 budget 就耗盡、剩下 20 天沒有保護機制	用 rolling window 持續計算、預警消耗速度
SLI label 無界	每個 URL path 都是獨立 SLI、series 爆炸	Normalize path、label 白名單、cardinality 預算
SLO 無 owner	沒人維護 SLI 定義跟閾值、退化時無人負責	每個 SLO 帶 owner、定期審視

交接路由

4.2 metrics：counter / gauge / histogram 基礎型別
4.4 dashboard-alert：burn rate alert 的 noise control 跟 runbook
4.7 cardinality / cost：SLI metric 的 cardinality 預算
4.10 client-side / RUM：user-journey-centric SLI 的前端訊號來源
4.23 觀測查詢設計：recording rule 支撐 burn rate 計算
6.6 SLO 政策：error budget 餘額作為 freeze 條件
6.8 release gate：burn rate 觸發 freeze
8.1 incident severity：burn rate 對應 severity 門檻
4.14 anomaly detection：跟 SLO threshold 的訊號分工

4.C6 AWS：ADOT on EKS 管線遷移

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是把 observability 遷移做成管線治理，而不是單點 agent 替換。

觀察

AWS ADOT on EKS 的實務把 metrics、traces 採集策略整合到可管理的 collector pipeline。

判讀

多代理混用雖然能運作，但在規模化時會放大配置漂移與維運成本。

策略

先統一 collector 部署模式。
將 exporter 與 sampling 規則集中管理。
以資料品質指標驗證遷移成效。

下一步路由

回 4.11 telemetry pipeline 與 4.18 observability operating model。

引用源

AWS Distro for OpenTelemetry on EKS

Honeycomb

Fri, 01 May 2026 00:00:00 +0000

Honeycomb 是 high-cardinality observability SaaS、承擔三個責任：events-based 資料模型（不是 metrics aggregation）、unknown-unknowns 偵錯能力（BubbleUp / Heatmap）、observability-driven SRE 文化代表平台。設計取捨偏向「深度優於廣度」、不追求 Datadog 的 integration 廣度、專注於 high-cardinality + distributed system debugging。

本章目標

讀完本章後、你應該能：

用 Honeycomb SDK 或 OTel 送 events 到 Honeycomb
用 BubbleUp 找 outlier 模式（unknown-unknowns）
設計 SLO + burn rate alert
配置 Refinery（tail-based sampling）
評估 Honeycomb vs Datadog 的選用判讀

最短路徑：5 分鐘把 Honeycomb 跑起來

1# 1. 應用程式加 instrumentation（Honeycomb SDK 或 OTel SDK）
2# TODO: HONEYCOMB_API_KEY + dataset 設定
3# TODO: 用 Beeline SDK 或 OTel + OTLP exporter
4
5# 2. 送 sample events
6# TODO: 觀察 trace 出現在 Honeycomb UI
7
8# 3. 用 query 介面查詢
9# TODO: SELECT count + visualize by service.name

日常操作與決策形狀

Events vs metrics 心智模型

Honeycomb 跟 metrics-aggregation 平台不同。子議題：

Event = 一個 trace span（包含 dozens of attributes）
不預先 aggregate、查詢時 group by 任意 attribute
High-cardinality 不是問題、是設計目標
對應 4.C2 Gaming peak cardinality

Instrumentation

子議題：

Honeycomb SDK（Beeline）：簡單、Honeycomb-specific、auto-instrumentation 部分
OTel SDK + OTLP：標準、vendor-neutral、推薦新部署用
Manual attribute：對 business / domain context attribute 不省略
Refinery：tail-based sampling proxy

Query 介面

子議題：

Visualize：count / count_distinct / heatmap / p50 / p95 / p99
Group by：任意 attribute（user_id / region / version 等）
Filter：WHERE clause
對應 SLO query：heatmap(duration_ms) GROUP BY service.name WHERE http.status_code = 500

Deep Article

High-Cardinality Query Model 與 BubbleUp：event-based 資料模型、high-cardinality 查詢設計、BubbleUp 異常偵測、SLO / burn rate、derived columns、dataset 設計與 OTLP ingestion

Migration Playbook

Sentry 遷移到 Honeycomb：error tracking 轉 event-based observability

進階主題（按需閱讀）

BubbleUp 分析

子議題：

給定 heatmap 異常區、自動找區隔 outlier 跟 baseline 的 attribute
適合「我看到 latency spike、但不知道哪個維度造成」
Unknown-unknowns 偵錯模式
跟 Datadog APM 的 service map 對照

SLO 與 burn rate alert

子議題：

SLO 配置（service + indicator + objective + window）
Burn rate calculation：multi-window multi-burn-rate alert
跟 knowledge cards burn-rate 對照
對應 4.C9 OTel migration signal drift

Refinery（tail-based sampling）

子議題：

為什麼需要 tail-based：保留有錯 / 高延遲 trace、丟正常 trace
Refinery 部署模式（gateway in front of Honeycomb）
Sampling rule：error / latency / per-service / dynamic
對應成本：100% ingestion 太貴、tail-based 平衡

OTLP integration

子議題：

Honeycomb 接受 OTLP（gRPC / HTTP）
應用層用 OTel SDK、傳給 Honeycomb 不用改 SDK
Multi-backend 支援：同一份 OTel data 送 Honeycomb + 其他
對應 4.C7 Datadog OTel migration

結構化 events 設計

子議題：

哪些 attribute 應加（user_id / request_id / business 維度）
哪些 attribute 不該加（PII / secrets）
Wide events 哲學：一個 event 帶 dozens of attributes、不分散到多 metric
對應 PII redaction strategy

Observability-driven development

子議題：

Charity Majors 提的 SDLC 模式：production debug 是常態
TDD + observability：寫 code 同時思考可觀測性
跟 SRE 文化整合

排錯快速判讀

Events 沒到 Honeycomb

操作原則：先看 SDK 配置（API key + dataset）、再看 network、最後看 Honeycomb status page。

Query timeout

操作原則：query window 過大或 attribute cardinality 過高造成 backend slow。判讀：縮 time window、簡化 group by。

Sampling 過頭 vs 不足

操作原則：debug 時找不到 trace（sampling 過頭）vs cost 爆（sampling 不足）。Refinery 提供 dynamic sampling 解決靜態 rate 的不足。

Burn rate alert noise

操作原則：multi-window 設計避免「短暫 spike 觸發 alert」、低 burn rate window 給長期趨勢。

跟其他 backend dual ship 不一致

對應 4.C9 OTel migration signal drift。判讀：兩個 backend 數據不對齊、看 SDK 是否 dual export、attribute mapping 是否一致。

何時改走其他服務

需求形狀	改走
廣度大、要 600+ integrations	Datadog
預算敏感	Grafana Stack（OSS）
Pure metrics	Prometheus
Logs full-text	Elastic Stack
Error tracking 為主	Sentry
Cloud-native (AWS / GCP)	CloudWatch / Cloud Ops
Self-hosted	OSS observability（Honeycomb 是 SaaS only）

不在本頁內的主題

Honeycomb SDK 完整 API
BubbleUp 內部演算法
Refinery 詳細配置
Honeycomb pricing 詳細

案例回寫

直接相關案例

案例	主討論議題
4.C2 Gaming peak cardinality	High-cardinality debug pattern
4.C9 OTel signal drift	（反例）Refinery / dual ship 對齊驗證

跨 vendor 對照

案例	對 Honeycomb 的對應
4.C7 Datadog OTel migration	從 Datadog APM 遷出時 Honeycomb 是 events 替代
4.C8 Airbnb K8s scale signals	動態叢集下 wide events 補 metrics 維度不足
4.C10 規模對照	Honeycomb 適合中大型 + observability-driven team

待補 Honeycomb 案例：Charity Majors 的 production talks、Honeycomb customer engineering blog、Refinery scale-up case。

下一步路由

上游概念：4.17 Telemetry Data Quality
平行 vendor：OpenTelemetry、Datadog
下游能力：06 reliability 模組（SLO / burn rate）、4.20 Evidence Package

5.6 Hook 系統可觀測性設計

Wed, 04 Mar 2026 00:00:00 +0000

上一章介紹了 run_hook_safely 這個頂層例外處理器，解決了「44 個 Hook 各自處理錯誤」的問題。但「捕獲錯誤」只是可觀測性的第一步。真正的問題是：

當 44 個 Hook 每天執行數百次，你怎麼知道它們運行正常？出了問題你怎麼找到原因？

本章從三個維度建立 Hook 系統的可觀測性：

維度	解決的問題	核心機制
日誌架構	每次執行的痕跡在哪裡？	Structured Logging + Log Rotation
錯誤可見性	出錯了誰來告訴用戶？	stderr 輸出 + Fallback 策略
健康監控	系統整體是否正常？	執行時間追蹤 + 日誌清理

一、日誌架構設計

1.1 需求分析

Hook 日誌系統和一般應用程式的日誌有兩個根本差異：

差異	一般應用程式	Hook 系統
生命週期	長時間運行	每次觸發執行一次（秒級）
實例數量	1-3 個服務	44 個獨立腳本
日誌量	大量、持續	少量、離散
讀者	運維團隊	開發者自己

這些差異決定了日誌架構的選擇：不需要集中式日誌服務，但需要按 Hook 名稱隔離和按時間自動清理。

1.2 目錄結構設計

 1.claude/hook-logs/
 2├── acceptance-gate-hook/
 3│   ├── acceptance-gate-hook-20260304-091523.log
 4│   ├── acceptance-gate-hook-20260304-091845.log
 5│   └── .cleanup_trigger           # 清理觸發計數器
 6├── command-entrance-gate-hook/
 7│   ├── command-entrance-gate-hook-20260304-091523.log
 8│   └── ...
 9└── phase-completion-gate-hook/
10    └── ...

每個 Hook 有獨立的日誌目錄。每次執行產生一個獨立的日誌檔案，檔名包含時間戳。這個設計的好處：

隔離性：排查問題時只需看特定 Hook 的目錄
時間線：按檔名排序就能看到執行歷史
清理：按目錄或按時間清理都很容易

1.3 日誌系統初始化

 1def setup_hook_logging(hook_name: str) -> logging.Logger:
 2    """建立並設定 Hook 日誌系統"""
 3    if not hook_name:
 4        hook_name = DEFAULT_HOOK_NAME
 5
 6    sanitized_name = _sanitize_hook_name(hook_name)
 7    root_dir = _find_project_root()
 8    log_base_dir = root_dir / ".claude" / "hook-logs" / sanitized_name
 9
10    # 建立日誌目錄（失敗時降級，不拋出異常）
11    try:
12        log_base_dir.mkdir(parents=True, exist_ok=True)
13    except OSError:
14        return _create_fallback_logger(hook_name)
15
16    logger = logging.getLogger(hook_name)
17    _clear_logger_handlers(logger)
18    logger.setLevel(logging.DEBUG)
19
20    is_debug = os.getenv("HOOK_DEBUG", "").lower() == "true"
21    _setup_logger_handlers(logger, log_base_dir, sanitized_name, is_debug)
22    return logger

這段程式碼有幾個值得注意的設計決策。

Named Logger：使用 logging.getLogger(hook_name) 取得 named logger，而非 root logger。這確保每個 Hook 的日誌設定互不干擾：

1# 每個 Hook 有自己的 logger 實例
2logger_a = logging.getLogger("acceptance-gate-hook")
3logger_b = logging.getLogger("command-entrance-gate-hook")
4# 兩者的 handlers、level、format 完全獨立

Handler 清理：每次初始化前先清除舊的 handlers。這防止同一個 logger 被重複配置（例如在測試中多次呼叫 setup_hook_logging）：

1def _clear_logger_handlers(logger: logging.Logger) -> None:
2    """清除 logger 的所有 handlers"""
3    for handler in logger.handlers[:]:
4        logger.removeHandler(handler)
5        handler.close()

注意 logger.handlers[:] 的切片複製。直接遍歷 logger.handlers 並在迴圈中 removeHandler 會修改列表長度，導致跳過元素。這是 Python 中遍歷時修改集合的經典陷阱。

環境變數控制：透過 HOOK_DEBUG 環境變數切換日誌詳細程度，不需要修改程式碼：

1# 正常模式：stdout 只顯示 WARNING 以上
2python3 my-hook.py
3
4# 除錯模式：stdout 顯示所有等級
5HOOK_DEBUG=true python3 my-hook.py

1.4 雙通道輸出

每個 logger 配置兩個 handler，分別負責不同用途：

 1def _setup_logger_handlers(logger, log_base_dir, sanitized_name, is_debug):
 2    """為 logger 配置 handlers"""
 3    # 檔案 handler：記錄所有等級，供事後分析
 4    timestamp = datetime.now().strftime("%Y%m%d-%H%M%S")
 5    log_file_path = log_base_dir / f"{sanitized_name}-{timestamp}.log"
 6    file_handler = _create_file_handler(log_file_path)
 7    if file_handler:
 8        logger.addHandler(file_handler)
 9
10    # 控制台 handler：正常模式只顯示 WARNING+，除錯模式顯示全部
11    logger.addHandler(_create_stream_handler(is_debug))

Handler	輸出目標	等級	格式	用途
FileHandler	日誌檔案	DEBUG	`[2026-03-04 09:15:23] DEBUG - message`	事後分析
StreamHandler	stdout	WARNING（正常）/ DEBUG（除錯）	`[WARNING] message`	即時回饋

為什麼 StreamHandler 輸出到 stdout 而非 stderr？這和 Claude Code 的 Hook 系統規則有關：

輸出管道	Claude Code 的解讀
stdout	正常訊息，顯示為 `hook success`
stderr	錯誤訊息，顯示為 `hook error`

日誌中的 WARNING 訊息是給開發者的提醒，不是 Hook 執行失敗。如果把 WARNING 輸出到 stderr，Claude Code 會把它當成錯誤。所以 StreamHandler 必須走 stdout。

1.5 Hook 名稱淨化

Hook 名稱會用於檔案系統路徑（目錄名和檔名），所以需要淨化：

 1def _sanitize_hook_name(name: str) -> str:
 2    """淨化 hook 名稱，移除無法用於檔案系統的字元"""
 3    if not name:
 4        return DEFAULT_HOOK_NAME
 5
 6    for char in ["<", ">", "|"]:
 7        name = name.replace(char, "-")
 8    name = name.replace("/", "-").replace("\\", "-")
 9
10    # 合併連續 "-" 並移除前後
11    while "--" in name:
12        name = name.replace("--", "-")
13    name = name.strip("-")
14
15    return name if name else DEFAULT_HOOK_NAME

這是防禦性程式設計的典型例子。雖然目前所有 Hook 的名稱都是合法的檔案名（像 acceptance-gate-hook），但不能假設呼叫端一定傳入合法名稱。淨化函式確保即使傳入也能產生合法的目錄名 invalid-name。

1.6 專案根目錄定位

日誌目錄在專案根目錄下的 .claude/hook-logs/。但 Hook 可能從不同的工作目錄被執行，所以需要動態定位：

 1def _find_project_root() -> Path:
 2    """查詢專案根目錄
 3
 4    優先順序：
 5    1. 環境變數 CLAUDE_PROJECT_DIR
 6    2. 從 cwd 向上搜尋 CLAUDE.md（最多 5 層）
 7    3. os.getcwd() fallback（永不失敗）
 8    """
 9    env_dir = os.getenv("CLAUDE_PROJECT_DIR")
10    if env_dir:
11        return Path(env_dir)
12
13    current_dir = Path.cwd()
14    for _ in range(CLAUDE_MD_SEARCH_DEPTH):
15        if (current_dir / "CLAUDE.md").exists():
16            return current_dir
17        parent = current_dir.parent
18        if parent == current_dir:
19            break
20        current_dir = parent
21
22    return Path.cwd()

三層 fallback 的設計邏輯：

優先級	方式	適用場景	失敗條件
1	環境變數	Claude Code 啟動時自動設定	手動執行時未設定
2	向上搜尋 CLAUDE.md	手動執行、測試	在非專案目錄執行
3	cwd	最後手段	永不失敗

注意搜尋深度限制 CLAUDE_MD_SEARCH_DEPTH = 5。不做深度限制的話，在 / 目錄執行時會遍歷整個檔案系統。5 層足以覆蓋大多數專案結構（/Users/user/projects/my-app/.claude/hooks/ 需要 4 層）。

二、錯誤可見性設計

2.1 核心問題：靜默失敗

IMP-003 事件是錯誤可見性設計的直接動機。7 個 Hook 因為變數作用域問題（NameError）靜默失敗了至少 2 個 session。失敗的流程是：

1Hook 執行 → NameError → run_hook_safely 捕獲 → 寫入日誌檔案 → 返回 EXIT_ERROR
2                                                    ↑
3                                              用戶看不到這裡

問題出在 _log_exception 的初版只寫入日誌檔案：

1# W25-005 之前的版本（有缺陷）
2def _log_exception(logger, hook_name, tb_str):
3    logger.critical(f"Unhandled exception in {hook_name}")
4    logger.critical(tb_str)
5    # 到這裡就結束了 -- 用戶完全不知道出錯

2.2 修正：stderr 強制可見

W25-005 在日誌寫入之後加了一行 stderr 輸出：

 1def _log_exception(logger, hook_name, tb_str):
 2    """記錄異常 traceback 到日誌"""
 3    # 1. 寫入日誌檔案（完整 traceback，供事後分析）
 4    try:
 5        logger.critical(f"Unhandled exception in {hook_name}")
 6        logger.critical(tb_str)
 7    except Exception as logging_error:
 8        # 日誌系統本身也可能失敗（磁碟滿了、權限問題）
 9        print(f"Failed to log exception: {logging_error}", file=sys.stdout)
10        print(tb_str, file=sys.stdout)
11
12    # 2. 輸出到 stderr，讓 Claude Code 顯示 "hook error"（W25-005 新增）
13    print(
14        f"[Hook Error] {hook_name} failed unexpectedly. "
15        f"Check hook logs for details.",
16        file=sys.stderr
17    )

這個設計的關鍵在於兩層輸出各司其職：

輸出	目標	內容	讀者
日誌檔案	`.claude/hook-logs/{name}/`	完整 traceback	開發者（事後分析）
stderr	Claude Code UI	簡短錯誤提示	用戶（即時感知）

為什麼不把完整 traceback 輸出到 stderr？ 因為 stderr 的內容會直接顯示在 Claude Code 的對話介面中。一段 20 行的 Python traceback 對用戶來說是噪音。只需要告訴用戶「哪個 Hook 出錯了」和「去哪裡看詳情」就夠了。

2.3 日誌系統自身的 Fallback

如果日誌系統本身出了問題（例如磁碟已滿，無法寫入日誌檔案），怎麼辦？

 1# 目錄建立失敗時的 Fallback
 2try:
 3    log_base_dir.mkdir(parents=True, exist_ok=True)
 4except OSError:
 5    return _create_fallback_logger(hook_name)  # 降級為純 stdout 輸出
 6
 7def _create_fallback_logger(hook_name: str) -> logging.Logger:
 8    """建立 Fallback Logger（僅 StreamHandler）"""
 9    logger = logging.getLogger(hook_name)
10    _clear_logger_handlers(logger)
11    logger.setLevel(logging.DEBUG)
12    logger.addHandler(_create_stream_handler())
13    return logger

Fallback Logger 只有 StreamHandler（stdout），沒有 FileHandler。這表示日誌不會被儲存到檔案，但至少 Hook 能正常運行，而且重要訊息仍然會出現在控制台。

這體現了一個重要的設計原則：可觀測性基礎設施的故障不應該導致業務功能中斷。日誌系統壞了，Hook 仍然要能工作。

2.4 IMP-005 的教訓：Import 階段的可見性

IMP-005 暴露了另一個可見性盲區：import 階段的錯誤。當模組遷移後 import 路徑沒更新，ModuleNotFoundError 在 run_hook_safely 之前就發生了：

 1#!/usr/bin/env python3
 2import sys
 3from pathlib import Path
 4
 5# 這一行在 run_hook_safely 之前執行
 6# 如果失敗，run_hook_safely 根本不會被呼叫
 7from lib.common_functions import hook_output  # ModuleNotFoundError!
 8
 9from hook_utils import run_hook_safely
10
11def main() -> int:
12    # ...
13    return 0
14
15if __name__ == "__main__":
16    sys.exit(run_hook_safely(main, "my-hook"))

run_hook_safely 的保護範圍是 main() 函式內部，但 import 發生在模組載入階段。解決方案是在 import 處加入 try-except 防護：

 1#!/usr/bin/env python3
 2import sys
 3from pathlib import Path
 4
 5# Import 防護：確保失敗時有明確的 stderr 輸出
 6try:
 7    sys.path.insert(0, str(Path(__file__).parent))
 8    from hook_utils import run_hook_safely
 9    from lib.common_functions import hook_output
10except ImportError as e:
11    print(f"[Hook Import Error] {Path(__file__).name}: {e}", file=sys.stderr)
12    sys.exit(1)

沒有 Import 防護	有 Import 防護
Claude Code 顯示 `hook error`	Claude Code 顯示 `hook error`
無法得知是哪個 Hook	`[Hook Import Error] my-hook.py: No module named 'common_functions'`
無法得知什麼原因	精確到模組名稱和檔案名稱

2.5 IMP-006 的教訓：兩條錯誤路徑

IMP-006 案例 D 揭示了一個更隱蔽的問題：Hook 有兩條不同的「失敗路徑」，但只有一條有 stderr 輸出。

 1def main() -> int:
 2    # ...驗證邏輯...
 3
 4    if should_block:
 5        # 路徑 1：業務邏輯拒絕（有意阻止）
 6        result = {"error": error_message}
 7        print(json.dumps(result), file=sys.stdout)
 8        return 2  # 只有 stdout，沒有 stderr！
 9
10    return 0
11
12# run_hook_safely 包裝
13# 路徑 2：未預期異常 -- _log_exception 已有 stderr 輸出

開發者只考慮了「未預期異常」這條路徑（由 _log_exception 處理），忘了「有意阻止」也需要 stderr 輸出。修復：

1if should_block:
2    result = {"error": error_message}
3    print(json.dumps(result), file=sys.stdout)
4    # 新增：確保用戶在 Claude Code UI 能看到拒絕原因
5    print(f"[Agent Ticket Validation] blocked: {error_message}", file=sys.stderr)
6    return 2

教訓歸納為一條規則：Hook 的所有非成功路徑都必須有 stderr 輸出。不只是 exception，業務邏輯的拒絕也算。

1Hook 執行結果
2├── 成功（return 0）→ stdout 正常訊息
3├── 未預期異常（Exception）→ stderr 由 _log_exception 處理
4└── 有意阻止（return 非 0）→ stderr 必須有原因說明  ← 容易遺漏

三、健康監控設計

3.1 執行時間追蹤

run_hook_safely 記錄每次執行的耗時：

 1def run_hook_safely(main_func, hook_name):
 2    logger = setup_hook_logging(hook_name)
 3    start_time = time.time()
 4
 5    try:
 6        exit_code = main_func()
 7        elapsed_time = time.time() - start_time
 8        logger.debug(f"Hook execution time: {elapsed_time:.2f}s")
 9        return exit_code
10    except (KeyboardInterrupt, SystemExit):
11        raise
12    except Exception:
13        elapsed_time = time.time() - start_time
14        logger.debug(f"Hook execution time before failure: {elapsed_time:.2f}s")
15        tb_str = traceback.format_exc()
16        _log_exception(logger, hook_name, tb_str)
17        return EXIT_ERROR

注意兩處 elapsed_time 的記錄位置——成功和失敗路徑各記一次。失敗時記錄「失敗前的執行時間」，可以判斷是立即失敗（import 錯誤，< 0.01s）還是在執行過程中失敗（邏輯錯誤，可能數秒）。

日誌檔案中的記錄：

1[2026-03-04 09:15:23] DEBUG - Hook execution time: 0.05s       # 正常
2[2026-03-04 09:15:24] DEBUG - Hook execution time: 2.34s       # 偏慢，值得關注
3[2026-03-04 09:15:25] DEBUG - Hook execution time before failure: 0.00s  # import 階段就失敗了

這些數據在 IMP-006 案例 C 的排查中發揮了作用。hookify plugin 的 timeout 設定為 10ms，而 Python 啟動需要約 24ms。比對 Hook 執行時間和 timeout 設定，就能定位超時問題。

3.2 日誌自動清理（Log Rotation）

44 個 Hook 每天執行數百次，日誌檔案會快速累積。自動清理機制避免磁碟空間被耗盡：

 1LOG_RETENTION_DAYS = 7
 2LOG_CLEANUP_TRIGGER_FREQUENCY = 10
 3
 4def _cleanup_old_logs(log_base_dir: Path, retention_days: int = LOG_RETENTION_DAYS):
 5    """清理超期日誌檔案"""
 6    try:
 7        cutoff_time = datetime.now() - timedelta(days=retention_days)
 8        for log_file in log_base_dir.glob("*.log"):
 9            try:
10                mtime = datetime.fromtimestamp(log_file.stat().st_mtime)
11                if mtime < cutoff_time:
12                    log_file.unlink()
13            except (OSError, ValueError):
14                pass
15    except OSError:
16        pass

為什麼不用 Python 標準庫的 RotatingFileHandler

RotatingFileHandler 按照單一檔案大小輪轉，適合長時間運行的服務。但 Hook 系統的日誌模式是每次執行一個新檔案，需要的是按時間清理舊檔案。兩者的需求場景不同：

機制	適用場景	Hook 系統需求
RotatingFileHandler	單一長期運行程序，同一個日誌檔	不適用
TimedRotatingFileHandler	單一程序按時間分割日誌	部分適用
自訂清理	多程序、每次新檔案、按時間保留	適用

3.3 清理頻率控制

每次 Hook 執行都檢查是否需要清理，這本身也有成本。所以用一個 .cleanup_trigger 檔案作為計數器，每 N 次呼叫才真正執行清理：

 1def _setup_logger_handlers(logger, log_base_dir, sanitized_name, is_debug):
 2    """為 logger 配置 handlers"""
 3    # 觸發日誌清理（降低頻率）
 4    cleanup_marker = log_base_dir / ".cleanup_trigger"
 5    try:
 6        if cleanup_marker.exists():
 7            count = int(cleanup_marker.read_text().strip() or "0")
 8            if count >= LOG_CLEANUP_TRIGGER_FREQUENCY:
 9                _cleanup_old_logs(log_base_dir)
10                cleanup_marker.write_text("0")
11            else:
12                cleanup_marker.write_text(str(count + 1))
13        else:
14            cleanup_marker.write_text("1")
15    except (OSError, ValueError):
16        pass  # 清理失敗不影響日誌功能

LOG_CLEANUP_TRIGGER_FREQUENCY = 10 表示每 10 次執行才清理一次。這是一個權衡：

頻率	好處	代價
每次（1）	日誌目錄永遠乾淨	每次 Hook 都多一次目錄掃描
每 10 次	幾乎感覺不到開銷	最多累積 10 個多餘檔案
每 100 次	開銷最小	可能累積數百個多餘檔案

為什麼用檔案而不用記憶體計數器？ 因為 Hook 是獨立程序，每次執行都是新進程。記憶體中的計數器在進程結束後就消失了。檔案是跨進程持久化的最簡單方式。

注意最外層的 except (OSError, ValueError): pass。清理機制本身的故障（例如檔案被鎖定、計數器檔案損壞）不應該影響日誌功能。這和 Fallback Logger 的設計原則一致：輔助功能的故障不阻擋核心功能。

四、三個錯誤模式的可觀測性教訓

前面三個維度的設計，很大程度源自三個真實錯誤模式（IMP-003、IMP-005、IMP-006）的教訓。把它們放在一起看，可以提煉出可觀測性設計的通用原則。

4.1 IMP-003：作用域迴歸 – 靜默失敗的代價

項目	說明
事件	7 個 Hook 因 `NameError` 靜默失敗 2+ session
根因	logger 從全域移入 main()，引用者未更新
可觀測性缺陷	`_log_exception` 只寫檔案日誌，不輸出 stderr
修正	新增 stderr 輸出（W25-005）
通用原則	錯誤必須有用戶可感知的通知管道

詳細的作用域分析見作用域迴歸案例研究。

4.2 IMP-005：Import 未同步 – 保護範圍的盲區

項目	說明
事件	5 個 Hook 因 `ModuleNotFoundError` 啟動失敗
根因	模組遷移後 import 路徑未更新
可觀測性缺陷	`run_hook_safely` 無法保護 import 階段
修正	在 import 處加入 try-except + stderr
通用原則	頂層保護的範圍必須覆蓋所有執行階段

4.3 IMP-006：隱性故障 – 錯誤路徑的完整性

項目	說明
事件	多種不同根因的 hook error 無法區分
案例 A	函式參數遺漏（部分 call site 缺少 logger）
案例 C	Plugin timeout 10ms，Python 啟動需 24ms
案例 D	有意阻止路徑缺少 stderr
通用原則	所有非成功路徑都需要可區分的錯誤輸出

4.4 共通教訓

三個錯誤模式的共通點，提煉為三條可觀測性設計規則：

規則 1：錯誤不可靜默

1# 錯誤做法：只寫日誌，用戶不知道
2logger.critical(tb_str)
3
4# 正確做法：日誌 + 用戶通知
5logger.critical(tb_str)
6print(f"[Hook Error] {hook_name} failed", file=sys.stderr)

規則 2：保護必須完整

 1# 錯誤做法：只保護 main()
 2sys.exit(run_hook_safely(main, "hook"))
 3
 4# 正確做法：import 也要保護
 5try:
 6    from lib.module import function
 7except ImportError as e:
 8    print(f"[Hook Import Error] {__file__}: {e}", file=sys.stderr)
 9    sys.exit(1)
10
11sys.exit(run_hook_safely(main, "hook"))

規則 3：錯誤要可區分

1# 錯誤做法：所有錯誤用同一種訊息
2print("hook error", file=sys.stderr)
3
4# 正確做法：包含 Hook 名稱和錯誤類型
5print(f"[Hook Error] {hook_name} failed unexpectedly", file=sys.stderr)
6print(f"[Hook Import Error] {filename}: {error}", file=sys.stderr)
7print(f"[Agent Validation] blocked: {reason}", file=sys.stderr)

五、完整的可觀測性架構

把前面的設計串在一起，一個 Hook 的完整執行路徑和可觀測性覆蓋如下：

 1Hook 被觸發
 2│
 3├─ [階段 1] Import 載入
 4│  ├─ 成功 → 繼續
 5│  └─ 失敗 → try-except 捕獲
 6│            ├─ stderr: [Hook Import Error] hook.py: error
 7│            └─ sys.exit(1)
 8│
 9├─ [階段 2] setup_hook_logging
10│  ├─ 成功 → Logger 就緒（FileHandler + StreamHandler）
11│  └─ 失敗 → Fallback Logger（僅 StreamHandler）
12│
13├─ [階段 3] main() 執行
14│  ├─ 成功 → logger.debug("execution time: Xs")
15│  │         return exit_code
16│  ├─ 業務拒絕 → stderr: [Hook Name] blocked: reason
17│  │             return 2
18│  └─ 未預期異常 → logger.critical(traceback)
19│                   stderr: [Hook Error] hook failed
20│                   return 1
21│
22└─ [階段 4] 日誌清理（每 10 次觸發）
23   └─ 清理 7 天前的日誌檔案

每個階段都有對應的可觀測性機制。沒有任何執行路徑是「靜默」的。

思考題

為什麼 _cleanup_old_logs 使用 mtime（修改時間）而非 ctime（建立時間）來判斷過期？在什麼情況下兩者會不同？
如果兩個 Hook 同時執行（例如同時觸發的 PreToolUse Hook），它們的日誌會互相干擾嗎？提示：思考 logging.getLogger(hook_name) 的行為。
目前的清理計數器用檔案系統實作。如果改用原子操作（例如 os.rename），能否解決並行存取的 race condition？值得嗎？

實作練習

寫一個日誌分析腳本：掃描 .claude/hook-logs/ 目錄，統計每個 Hook 的平均執行時間、失敗次數、最後一次執行時間。
實作 RotatingFileHandler 版本：修改 setup_hook_logging，改用單一日誌檔 + RotatingFileHandler（按大小輪轉），並比較和目前方案的優缺點。
加入健康檢查端點：寫一個 hook-health-check.py 腳本，檢查每個 Hook 目錄的最新日誌是否包含 CRITICAL 等級的記錄，輸出健康報告。

上一章：頂層例外處理機制 相關：重構陷阱與防護 – IMP-003/005/006 的重構角度分析 相關：作用域迴歸案例研究 – IMP-003 的完整技術分析

4.C7 Datadog：OTel 相容遷移實務

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是把 observability 遷移做成可逐步替換的技術路線。

觀察

Datadog 與 OTel 生態整合的做法，顯示團隊可在不一次重寫下逐步切換採集管線。

判讀

觀測遷移的主要風險是資料語意漂移與管線雙軌期成本，而非單一 agent 安裝。

策略

先建立雙軌採集的對照驗證。
把 schema 與 sampling 政策版本化。
用品質指標決定何時關閉舊管線。

下一步路由

回 4.11 與 4.17。

引用源

Datadog and OpenTelemetry

4.7 Cardinality 治理與成本邊界

Fri, 01 May 2026 00:00:00 +0000

大綱

cardinality 為何爆：unbounded label（user_id / request_id / url path）
metrics 的 cardinality 影響：時序資料庫 series 爆炸、查詢退化
log 的 cardinality 影響：索引膨脹、保留成本
trace 的 sampling 策略：head sampling vs tail sampling、tradeoff
cost-aware observability：成本作為治理輸入而非事後賬單
governance 控制面：label 白名單、ingestion quota、保留階梯
高峰場景：流量尖峰時 cardinality slope 是 leading indicator
跟 4.1 log schema 的分工：4.1 設計欄位、4.7 設邊界
跟 4.2 metrics 的分工：4.2 是 metric 種類、4.7 是 label 治理
反模式：所有事件都打高 cardinality label、預算耗盡才砍訊號、保留策略無階梯

概念定位

Cardinality 治理是把觀測維度當成有限資源管理的流程，責任是讓訊號足夠可切分，同時不讓儲存、查詢與告警成本失控。

這一頁處理的是成本邊界。可觀測性需要有選擇地收集訊號；它把高價值維度留在可查詢路徑，把低價值或無界維度放到更合適的資料層。

Cardinality 跟成本的關係是非線性的。Label 數目每增加一倍，metric series 數目可能呈乘法增長；查詢延遲、儲存大小、索引重建時間都會跟著放大。把 cardinality 視為一級治理項目，能避免「收得越多越好」的直覺推著成本上升。

Cardinality 在不同訊號的失分模式

Cardinality 在 metric、log、trace 三類訊號的影響機制不同，失分模式也不同。把三者用同一套治理規則處理，會在某類訊號上過度限制、在另一類上失控。

訊號類型	主要失分機制	控制手段	典型 trigger
Metric	TSDB series 爆炸、查詢退化	label 白名單、bucketize、aggregation	user_id / request_id 進 label
Log	索引膨脹、保留成本暴增	索引欄位限制、結構化分層、分流	完整 URL / payload 進索引欄位
Trace	sampling 後遺失高價值樣本	tail sampling、minimum sample floor、 exemplar	head sampling 比例固定

Metric cardinality 是最敏感的維度。Prometheus 等 pull-based TSDB 在 series 數超過數百萬時查詢退化、aggregation 失準、recording rule 跑不完。Cloud 託管型 TSDB 雖然容量更大，但每個 active series 的單價非常具體，cardinality 直接對應 vendor 月帳單。

Log cardinality 的失分比較緩慢。Log 的 unique 值多本身不會立即崩潰，但全文索引 + 結構化欄位索引會持續膨脹，到某個臨界點查詢從毫秒退化到秒、再到分鐘。一般診斷不易察覺，要靠 query latency 跟 index size 的長期趨勢才能發現。

Trace cardinality 的問題是另一種：sampling 過於粗暴會丟失高價值樣本。低流量服務、錯誤樣本、長尾延遲樣本若被 head sampling 平均稀釋，事故時無 trace 可看。Trace 的治理重點是 sampling 策略而非單純限制 cardinality。

高 cardinality 的常見來源

無界維度進入可查詢路徑是 cardinality 失控的最大來源。常見的「無意中變成 label」：

User / tenant identifier：把 user_id 當 label 時，每個用戶都產生一條 series。10 萬用戶 = 10 萬條 series 乘以其他 label 的笛卡爾積。
Request / session identifier：request_id、session_id、trace_id 本質是無界的，進入 metric label 後 series 無限增長。
完整 URL / path parameters：/users/123/orders/456 這類 path 進入 label，每個 unique URL 都是新 series。
錯誤訊息 / stack trace：把 raw error message 當 label 時，每次新錯誤 = 新 series。
時間戳跟亂數：偶發出現的 bug，把 timestamp、uuid 寫進 label。

這些都應該進 log 或 trace 的欄位，不該進 metric 的 label。Metric 的 label 應該是有界的維度：service name、environment、region、status code、http method、error class。

高峰場景的 cardinality 失控

高峰場景的 cardinality 治理責任是讓「平時可控的 series 上限」在尖峰時仍能維持決策可用。平時 cardinality 看似穩定，高峰時可能突然出現新 tenant、新 endpoint、新 error class 的湧入，把 series 推到平台極限；治理重點是把「成長斜率」「容量緩衝」「dry-run」「freshness gap」變成預先設計的訊號、而非高峰中即興救火。

對應 4.C2 Gaming 高峰流量下的訊號新鮮度與 Cardinality：揭露「ingestion lag、cardinality growth slope、alert freshness gap」是高峰場景的核心治理項目（三個訊號名稱屬 case 直接列出）；以下做法基於通用工程知識展開。

高峰場景的可操作做法：

把 cardinality growth slope 視為 leading indicator：series 數目的成長斜率比絕對值更早反映異常。突然出現的快速上升通常意味著新 label 值湧入或既有 label 失控。
預設容量 buffer：日常使用容量設在平台上限的 50-60%，留高峰時 cardinality 突發空間。把容量推到 90% 才追加治理會在高峰時來不及。
高峰前的 dry-run：把預期高峰流量的 cardinality 估算進 capacity model，找出可能的 unbounded label。對應 9.6 容量規劃模型。
Alert freshness gap 也要監控：高峰時 ingestion lag 上升、告警延遲、值班決策落在過期資料上的風險。把 alert freshness（資料時間 vs 當前時間）變成 dashboard 訊號。

高峰結束後做 retrospective：哪些 label 在高峰時超出預期、哪些 alert 因延遲沒及時觸發、哪些 series 應該下次提前 bucketize。這個 retrospective 是治理閉環的一部分，由 4.8 signal-governance-loop 處理長期回寫。

Sampling 策略

本章是 04 模組的 sampling 策略 SSoT — Head / Tail / Adaptive / Exemplar 四類策略集中在此；sampling 對資料品質的失真風險（low-traffic bias、error sample loss、tail latency loss）由 4.17 Sampling 與代表性處理；trace context 層的 sampling 配置由 4.3 tracing context 處理。

Sampling 策略的核心責任是控制觀測成本、同時保留足以判讀的高價值樣本。固定比例 head sampling 是最常見、也是最容易丟失高價值樣本的策略。

策略類型	機制	適用場景	主要風險
Head sampling	在 trace 開始時決定是否採樣	簡單、低延遲、collector 端低資源	不知道 trace 結果就決定、可能丟錯誤
Tail sampling	等 trace 結束後再決定（看是否錯誤、長延遲）	保留錯誤、保留 outlier	collector 要 buffer 整條 trace、資源高
Adaptive sampling	按服務、tenant、流量動態調整比例	多租戶、流量差異大	規則複雜、需要監控 sampling rate
Exemplar attachment	metric 帶代表性 trace id 樣本	從 metric 跳到 trace	不解決 sampling 本身、是補充

實務上常用組合：低流量服務用接近 100% 採樣（minimum sample floor）、高流量服務用 tail sampling 保留錯誤跟長尾、metric 帶 exemplar 讓從 dashboard 跳到 trace。

四類策略各自的適用情境：

Head sampling 適合單體應用、延遲敏感、collector 端資源吃緊的場景。代價是 trace 開始時無法判斷是否錯誤、會等比例丟掉錯誤樣本。
Tail sampling 適合微服務、需保留錯誤跟長尾的場景。代價是 collector 要 buffer 整條 trace、記憶體跟 CPU 用量明顯增加、對 cluster gateway 容量規劃壓力大。
Adaptive sampling 適合多租戶、流量差異大的場景。風險是規則複雜化會造成 sampling rate 漂移、必須持續監控每個 service / tenant 的實際保留比例、否則治理會失控。
Exemplar attachment 補強 metric → trace 跳轉、不解決 sampling 本身。在已有 head/tail sampling 的場景上加 exemplar 是低成本高價值的做法。

關鍵是 sampling policy 本身要可被服務團隊理解跟調整。把 sampling 規則寫在 collector 配置裡、版本化、跟著 release 一起管理；把當前 sampling rate 跟保留分布暴露在 dashboard 上。當服務團隊發現某段時間 trace 殘缺、要能直接查到 sampling policy 的當下值跟變更紀錄。

控制面與保留階梯

可操作的 cardinality / 成本治理控制面有四層，從預防到事後審計都要覆蓋。

設計時 label 白名單：服務團隊新增 metric 時要 review label 是否在白名單內。白名單列出有界維度（service、env、region、status_code、error_class、http_method），明確排除 user_id、request_id、完整 URL。
Ingestion 層 quota 與 cardinality limit：collector 或 vendor 端設定每服務、每 tenant 的 series 上限。超過上限時觸發告警，並啟動 graceful 降級（保留高優先 series、其他暫停）。
保留階梯：依資料熱度跟法規責任分層保留。熱資料（最近 7 天）full granularity、溫資料（7-30 天）aggregated、冷資料（30+ 天）長期歸檔。階梯設計要結合 4.12 audit log governance 的法規保留期。
成本歸屬到 owner：把 ingestion、storage、query 成本拆到服務或團隊維度。沒有歸屬的成本會被視為平台問題，治理動力不會傳到產生成本的團隊。詳見 4.15 cost attribution。

保留階梯的另一個價值是事故時的容量保護。當熱資料儲存接近滿載、可以加速冷化、主動釋放容量給當下事件、避免被動等保留期到再恢復。

Storage tiering 對查詢能力的影響

保留階梯不只是成本工具，它直接決定不同時間範圍的查詢能力。每一層的儲存介質、索引密度、rollup 精度決定了該層能回答什麼問題、不能回答什麼問題。

每一層能回答什麼

Hot tier 保留完整精度與完整索引，能支援即席診斷的所有維度切片（by service、by tenant、by error code、by request id）。當資料從 hot 移到 warm，部分索引可能被移除、精度可能被 rollup 降低，能做的查詢從「特定 request id 的完整事件鏈」退化為「某服務過去兩週的 error rate 趨勢」。到 cold tier，通常只剩 timestamp + 少數結構化欄位的最小索引，細節查詢需要先 rehydrate 回 warm 或 hot 層。

這個退化是設計選擇，但需要被使用者感知。事故復盤時，如果團隊想查兩週前的特定 request 但資料已在 warm tier 且 request id 索引被移除，他們需要知道「不是沒有資料，而是需要 rehydrate 才能查」。

跨層查詢的延遲跳變

Dashboard 的時間範圍選擇直接觸發跨層查詢。使用者從「最近 1 小時」（全部在 hot tier）拉到「最近 7 天」（hot + warm tier），查詢延遲從毫秒跳到秒級。再拉到「最近 90 天」（hot + warm + cold tier），延遲可能跳到十秒甚至分鐘級。

這種延遲跳變在事故中的影響是：incident commander 想看長期趨勢來判斷異常是突發還是漸進時，dashboard 卡在載入。應對方式是在 dashboard 設計時就把「長時間趨勢」panel 指向 recording rule 或 rollup series，讓它讀取預聚合資料而非跨層掃描 raw data。

Tier 邊界依訊號類型差異化

不同訊號類型的 tier 邊界應該不同。Error log 跟 trace 的事故診斷價值比 debug log 高，hot tier 保留期應該更長。Audit log 因合規要求可能需要長期可查詢而非純歸檔。SLO-critical 的 metric series 可能需要 hot tier 保留 30 天來支援 monthly burn rate 計算，而 debug-level 的 metric 只需要 7 天 hot tier。

把所有訊號用同一個 tier 邊界管理（「全部 7 天 hot、30 天 warm、1 年 cold」）會讓高價值訊號過早退化、低價值訊號佔用過多 hot tier 容量。依訊號優先級設定差異化的 tier 邊界是保留階梯設計的進階步驟。

詳細的跨訊號查詢設計見 4.23 觀測查詢設計。

核心判讀

判讀 cardinality 時，先看維度是否有決策價值，再看它是否有上界。

重點訊號包括：

user id、request id、完整 URL 是否進入不該承受的 metric label
log index 是否只索引常用查詢欄位
trace sampling 是否能優先保留高價值樣本
retention 是否依資料熱度與法規責任分層
cardinality growth slope 是否被監控為 leading indicator

判讀訊號

metric series 數量曲線陡升、TSDB 查詢退化
log ingestion 成本月對月雙位數成長
label 含 user_id / request_id / 完整 URL 直接送到 metric
ingestion quota 觸發時靠砍訊號救火、無 graceful 降階
保留策略全平、無冷熱分層、舊資料拖累查詢
高峰時 alert freshness gap 擴大、值班用過期資料

反模式

反模式	表面現象	修正方向
無界 label 進 metric	user_id / request_id 在 label 中	label 白名單、把細粒度放到 log / trace
預算耗盡才砍訊號	quota 觸發後緊急砍 series	平時設成長告警、緩衝容量 50-60%
保留策略全平	所有 log / metric 都留 30 天	依熱度跟法規分階、結合 audit retention
Sampling 比例固定	head sampling 10% 套全部服務	低流量 100%、錯誤強制保留、tail sampling
成本無歸屬	平台付帳、團隊無動力治理	歸屬到 service owner、進 cost attribution

交接路由

4.6 SLI/SLO：SLI metric 的 cardinality 上限
4.8 signal-governance-loop：高峰 retrospective 回寫治理
4.11 telemetry pipeline：pipeline 層 quota 執行
4.12 audit log governance：audit 保留期銜接
4.15 cost attribution：成本治理的責任分配層
4.23 觀測查詢設計：storage tiering 對查詢能力的完整設計
6.9 容量成本：observability 成本作為容量規劃輸入
vendors：各平台的 ingestion / query quota 模型

AWS CloudWatch

Fri, 01 May 2026 00:00:00 +0000

CloudWatch 是 AWS 原生 observability 服務、承擔三個責任：AWS 服務內建 metrics / logs / alarms（無需配置）、跨 AWS 服務統一觀測平面、X-Ray + Container Insights + Lambda Insights 等專用擴展。設計取捨偏向「AWS 生態深度整合 + 不用第三方 vendor + 預設 turnkey」、跨雲跟成本是主要限制。

本章目標

讀完本章後、你應該能：

用 AWS CLI / Console 查 CloudWatch metrics / logs / alarms
用 CloudWatch Logs Insights 查詢結構化 logs
配置 alarm + composite alarm + EventBridge integration
用 X-Ray 追蹤 distributed tracing
控制 CloudWatch cost（log ingestion / metric / API call）

最短路徑：5 分鐘把 CloudWatch 跑起來

1# 1. 用 CloudWatch Agent 採集 EC2 metrics + logs
2# TODO: aws-cli + cloudwatch-agent.json config
3
4# 2. 查詢 metric
5# TODO: aws cloudwatch get-metric-statistics --namespace AWS/EC2 --metric-name CPUUtilization
6
7# 3. 用 Logs Insights 查詢
8# TODO: fields @timestamp, @message | filter @message like /ERROR/ | sort @timestamp desc

日常操作與決策形狀

Metrics / Logs / Alarms 整合

子議題：

Namespace + Dimension + Metric 三層
Custom metric（CLI / SDK / Agent）
Logs group + Log stream + Log event
Alarm + Composite alarm + EventBridge rule

Logs Insights query

子議題：

Query syntax：fields / filter / parse / stats / sort
跟 KQL / LogQL 對照（CloudWatch 自家 syntax）
對應指令：aws logs start-query、aws logs get-query-results

Metrics Math

子議題：

跨 metric 算術運算（rate / sum / avg）
適合 dashboard / alarm 不直接 metric 表達的計算
對比 PromQL：CloudWatch Math 較弱、無 label join 能力

X-Ray tracing

子議題：

各語言 X-Ray SDK
Sampling rule（rate-based / reservoir）
Service map 自動 build
對應 4.C4 X-Ray to OpenTelemetry 遷移案例

Deep Article

Logs Insights 查詢與日誌治理：log group 設計、query syntax、retention policy、cross-account aggregation、subscription filter 與 cost governance
Alarms 與 Composite Alarms 操作實務：Metric Alarm、Anomaly Detection、Composite Alarm 設計、alarm actions、missing data 處理與 cost

進階主題（按需閱讀）

Container Insights / Lambda Insights

子議題：

Container Insights：EKS / ECS metrics + logs 自動採集
Lambda Insights：Lambda runtime metrics + cold start visibility
跟 Prometheus + Grafana 的 K8s 模式對照

CloudWatch Synthetics / RUM

子議題：

Synthetics：canary script 定期 probe
RUM：前端用戶體驗
跟 Datadog Synthetics / RUM 對照

Logs lifecycle

子議題：

Retention（1 day to never expire）
Subscription filter：把 logs 送到 Lambda / Kinesis / S3
Logs to S3 archive
對應 cost 控制

Cost 控制

子議題：

Logs ingestion charge（per GB）
Metrics storage charge（custom metrics + high-resolution）
API call charge（GetMetricData / Logs Insights query）
對應 4.C1 Fintech audit

CloudWatch Managed Prometheus（AMP）

子議題：

AMP：AWS managed Prometheus、scrape EKS / ECS
跟 CloudWatch 互補（CloudWatch 是 AWS-native、AMP 是 OSS standard）
對應 4.C6 ADOT EKS

AWS Distro for OpenTelemetry（ADOT）

子議題：

AWS-supported OTel distribution
跟 X-Ray / AMP / CloudWatch 都整合
推薦的 OTel adoption 路徑
對應 4.C6 ADOT EKS

排錯快速判讀

Logs Insights query 過慢

操作原則：query 範圍 + 結果集大時、用 sample 縮範圍。

1# TODO: fields @timestamp, @message | limit 100（先測 logic）

Metric not found

操作原則：metric namespace / dimension 對應錯。判讀：用 aws cloudwatch list-metrics --namespace ... 確認。

Alarm 沒觸發

操作原則：alarm period / evaluation period / datapoints 配置造成延遲或忽略。

X-Ray trace incomplete

操作原則：sampling rule 過頭、subseg context propagation 失敗。判讀：X-Ray console 看 trace timeline。

Cost 爆

操作原則：log ingestion 多、custom metric 多、Logs Insights query 量大都會貢獻。判讀：Cost Explorer 看 CloudWatch service breakdown。

何時改走其他服務

需求形狀	改走
多雲 / 跨雲統一	Datadog / Grafana Stack / OTel
進階 APM 體驗	Datadog / Honeycomb
高頻 query / 大量 log	Grafana Stack（Loki）/ Elastic
OTel standard	OTel + ADOT / AMP
GCP / Azure 生態	Cloud Operations / Azure Monitor

不在本頁內的主題

各 AWS 服務的 CloudWatch metric 名稱列表
CloudWatch Synthetics canary script 語法
Logs Insights 完整 query syntax reference
AWS IAM 跟 CloudWatch 的細部權限

案例回寫

直接相關案例

案例	主討論議題
4.C4 X-Ray to OTel	X-Ray 遷出到 OTel
4.C6 ADOT EKS pipeline	AWS Distro + EKS 觀測

跨 vendor 對照

案例	對 CloudWatch 的對應
4.C1 Fintech audit	CloudWatch Logs / S3 archive 作為 audit evidence
4.C3 Healthcare retention	Logs lifecycle / retention 對應資料主權限制
4.C10 規模對照	AWS-only 場景優先 CloudWatch

下一步路由

上游概念：4.17 Telemetry Data Quality
平行 vendor：OpenTelemetry、Cloud Operations
下游能力：4.20 Observability Evidence Package

4.8 訊號治理閉環

Mon, 22 Jun 2026 00:00:00 +0000

大綱

為何訊號需要治理閉環：alert / metric / dashboard 是會老化的資產
偵測缺口的來源：post-incident review、chaos test、日常 noise
訊號生命週期：新增 → 調整 → 淘汰
Alert 健康度量測
Dashboard 健康度量測
治理節奏與 ownership
反模式

概念定位

訊號治理閉環是把事故、演練與日常使用經驗回寫到觀測系統的流程，責任是讓 alert、metric 與 dashboard 隨服務變化而更新。

觀測資產會老化：服務拓撲會變、流量型態會變、告警接收者會離職或轉組。設定一次就不再動的 alert rule 會在數月後變成 noise 來源；建立一次就不再看的 dashboard 會累積成系統負擔。訊號治理把觀測系統當成需要持續維護的產品，而非建好就完成的基礎設施。

跟 4.4 dashboard-alert 的分工：4.4 處理設計（怎麼設計好的 dashboard 跟 alert），4.8 處理維運與淘汰（設計好之後怎麼讓它們持續有效）。

偵測缺口的來源

Post-incident review

每次事故的 post-incident review 都可能揭露偵測缺口 — 事故發生到被偵測到的時間太長、alert 觸發了但指向錯誤的方向、或根本沒有 alert 觸發。

偵測缺口的分類：

缺口類型	典型表現	回寫方向
訊號缺失	問題存在但沒有對應的 metric 或 trace	新增 metric / span
Alert 太晚	Alert 在使用者投訴後才觸發	調整閾值或加短窗
Alert 指向錯誤	Alert 觸發了但指向不相關的服務	修正 alert rule
Dashboard 沒有對應視圖	事故中需要看某個維度但現有 dashboard 沒有	新增 panel
關聯性斷裂	Log / trace / metric 無法用同一個 ID 串連	補 correlation field

Post-incident review 的 action items 中標記為「detection gap」的項目，應該指派給觀測系統的 owner，帶明確的 metric / alert / dashboard 變更規格。

Chaos test 與演練

Chaos test 跟災難恢復演練會在受控條件下暴露觀測盲區。注入 dependency failure 後，觀測系統是否在預期時間內觸發 alert？Alert 是否指向正確的方向？Dashboard 是否有足夠的 panel 支援診斷？

演練揭露的盲區跟事故揭露的盲區性質相同，但成本更低 — 在受控環境發現的缺口不會拉長真實事故的 MTTR。

日常 noise 累積

Alert noise 的日常累積是漸進式的退化 — 每個月新增幾個 alert rule 但沒有淘汰舊的，noise rate 從 10% 慢慢升到 30% 再到 50%。退化的訊號是 on-call 工程師開始忽略某些 alert（先 ack 再看、或直接 resolve 不看）。

訊號生命週期

新增

新訊號的來源：新服務上線時的 readiness review 檢查、post-incident review 的 detection gap、chaos test 暴露的盲區、新功能上線時的 SLI 定義。

新增訊號時要同時定義：metric / alert 的 owner、預期的 noise rate baseline、review 週期、淘汰條件。沒有 owner 跟 review 週期的訊號會在累積後變成治理負擔。

調整

調整的觸發條件：alert threshold 跟當前 baseline 偏差過大、dashboard panel 的資料來源（metric name、label）已改變、alert 的 runbook link 過期、noise rate 超過團隊可接受的上限。

調整是訊號治理的主要日常工作。多數訊號不需要刪除，但需要隨服務演進跟著更新。

淘汰

淘汰的觸發條件：alert rule 超過 N 天（例如 180 天）沒有觸發、dashboard 超過 N 天沒有人訪問、metric 被 recording rule 取代後原始查詢不再使用、服務已下線但 alert / dashboard 還在。

淘汰需要 owner 確認。自動淘汰（超過 180 天不觸發就自動刪除）風險太高 — 有些 alert 本來就是極低頻但極高價值（年度高峰才觸發的 capacity alert）。安全做法是自動標記候選淘汰，由 owner 在定期審視中決定保留或刪除。

Alert 健康度量測

Alert 的健康度用四個指標追蹤：

Noise rate：不需要行動的 alert / 總 alert。On-call 在 ack 時標記 actionable / noise。月度彙整。目標：< 30%。

MTTD（Mean Time to Detect）：事故開始到 alert 觸發的時間。從 incident timeline 回溯。目標：跟 SLO burn rate window 對齊（急性問題 < 5 分鐘）。

False positive rate：alert 觸發但事後確認沒有問題 / 總 alert。跟 noise rate 不同 — noise 包含 redundant alert（有問題但重複），false positive 是真的沒問題。

Coverage：有 alert 覆蓋的 user journey / 總 user journey。未覆蓋的 user journey 代表潛在的偵測盲區。

Dashboard 健康度量測

Dashboard 的健康度用三個指標追蹤：

訪問頻率：每個 dashboard 的每週 / 每月訪問次數。Grafana 的 usage analytics 或 access log 可以提供。長期零訪問的 dashboard 是候選淘汰。

Data freshness：Dashboard panel 是否顯示有效資料。Panel 因 metric name 改變或 label 漂移而回空值時，曲線看起來是平的零線 — 容易被誤讀成「一切正常」。定期掃描所有 panel 的 no-data 狀態。

Owner coverage：有 owner 的 dashboard / 總 dashboard。沒有 owner 的 dashboard 沒人負責更新，退化只是時間問題。

治理節奏

訊號治理需要固定節奏，避免「只在事故後才補訊號、平時不管」的反應式治理。

事故驅動（每次事故後）：Post-incident review 的 detection gap action items 在兩週內 close — 新增 / 調整的 metric、alert、dashboard 已部署並驗證。

定期審視（每季）：

Alert noise rate 報告：noise rate > 30% 的 alert rule 進入調整或淘汰流程
Dashboard 訪問頻率報告：零訪問 dashboard 進入淘汰審視
Orphan alert / dashboard（owner 離職或轉組、未交接）指派新 owner

年度回顧：

觀測覆蓋率（有 instrumentation 的服務 / 總服務）
SLI / SLO 的量測點跟閾值是否需要調整（業務變化、流量變化）
觀測成本 vs 事故成本的 ROI 評估

核心判讀

判讀訊號治理時，先看缺口是否有來源，再看改善項是否真的關閉。

重點訊號包括：

Post-incident review 是否把偵測缺口轉成具體 metric / alert / dashboard 變更
Chaos test 或 DR 演練是否暴露新的觀測盲區
Alert noise、ack time、false positive 是否有趨勢追蹤
Orphan dashboard 與過期 alert 是否有定期清理節奏

判讀訊號

Alert 數量只增不減、無淘汰流程
Alert noise rate > 30%、ack 後無實際動作
Dashboard 半年無人訪問、仍存在於主目錄
Post-incident review action items 大半 open > 90 天
同類事故重複發生、觀測系統無更新
Alert owner 離職後無人接手、alert 成為孤兒

反模式

反模式	表面現象	修正方向
Alert 只增不減	數百個 alert rule、多數是 noise	定期審視 + 自動標記候選淘汰
Dashboard 全是裝飾	事故時沒人打開、只有 demo 時展示	追蹤訪問頻率、零訪問的淘汰
Post-incident action 永遠 open	Detection gap 被記錄但半年沒 close	兩週 close 期限、逾期自動升級
治理只在事故後才啟動	平時不管、出事才補	建立每季定期審視節奏
Orphan alert 無人負責	Owner 離職後 alert 持續觸發但沒人處理	交接流程 + orphan 掃描
Chaos test 不看觀測面	只看服務恢復、不看 alert 跟 dashboard 表現	Chaos hypothesis 包含觀測預期

交接路由

4.4 dashboard-alert：alert / dashboard 的設計原則
4.5 威脅建模：告警失真作為觀測弱點
4.7 cardinality：新訊號的成本邊界
4.14 anomaly detection：anomaly false positive 的淘汰
4.16 readiness review：上線前的觀測覆蓋檢查
4.18 operating model：ownership 矩陣
8.5 post-incident review：action items 回寫機制
8.11 閉環：跨模組視角的閉環

9.8 效能可觀測性

Tue, 12 May 2026 00:00:00 +0000

概念定位

效能可觀測性的責任是讓容量決策有訊號基礎。沒有適當訊號時、就算有壓測結果跟容量計畫、也看不到「現在實際距離 saturation 多遠」、無法做即時調整。

跟 9.4 Saturation Discovery 的關係：9.4 找到 saturation 點、9.8 定義持續監控這個點的訊號跟 dashboard。跟 04 可觀測性模組是 sibling — 04 處理通用觀測、9.8 處理 容量規劃用 的觀測。

本章不重複 04 的訊號治理基礎、聚焦在 容量 / 效能 / 成本三條觀測線怎麼整合。讀完後讀者能設計一個「容量 dashboard」、回答「現在距離 saturation 還有多遠、什麼時候該擴」。

USE method 在 production 持續監控

USE method 不只是壓測時用、production 也要持續監控。

對每個資源（CPU / RAM / disk / network / DB connection / cache pool / file descriptor）量三個維度：

Utilization（使用率 0-100%）：直觀但會誤判
Saturation（queue depth）：早期警訊
Errors（資源層錯誤）：已經出事的訊號

為什麼不能只看 utilization：

CPU 100% 但 run queue 空 → 還能撐（單純 CPU bound）
CPU 80% 但 run queue 不斷增長 → 已 saturate（saturation 比 utilization 領先）

Saturation metric 是 capacity warning 的最早訊號：

queue depth（每個 queue / pool）
connection pool 使用率（最常見隱性 bottleneck）
thread pool / coroutine count
event loop lag（Node.js、async runtime）
GC pause time / frequency
cache hit rate / eviction rate
replication lag

Dashboard 設計：每個關鍵資源獨立 panel、同時顯示 utilization 跟 saturation。alert 在 saturation 起飛 時觸發、不是 utilization 滿。

對應案例：Lemino connection limit — connection saturation 是 RDB 的真正 bottleneck、不是 CPU；Zomato latency 降 90% — 從 TiDB 換到 DynamoDB、saturation 行為完全不同、observability 也要跟著改。

RED method：請求層的容量訊號

RED method 跟 USE 互補、從請求層看容量。

Rate：requests per second（每個 service / endpoint）
Errors：error rate
Duration：latency distribution（histogram、不是單一 percentile）

Duration 比 Errors 早：duration p99 飆通常先於 error rate 上升、是 saturation 的早期警訊。

每個 endpoint 都要有 RED：不能只看全站 average、要分 endpoint。登入 endpoint 跟結帳 endpoint 的 saturation 行為不同、混在一起看不到 issue。

Histogram 是必須、不是 nice-to-have：

只記 p99 → 看不到 p999、看不到 distribution shape
記 histogram → 可以隨時算任何 percentile、可以做 long-tail 分析
Prometheus histogram、OpenMetrics histogram 是現代標準

對應案例：GR8 Tech 25ms p95 — p95 是業務 KPI、不是技術指標、每個 endpoint 都有獨立 SLO。

p50 / p95 / p99 / p999 的取捨

不同 percentile 反映不同問題、選錯 percentile 會錯失 issue。

p50（中位數）：整體狀況、感覺正常的指標、對長尾不敏感
p95：日常 user-perceived experience、大多數用戶感受到的延遲
p99：minority but critical 用戶體驗、SLO 常訂在這
p999：極端長尾、受 GC pause / leader election / retry storm 影響、internal critical 系統訂在這

業務 SLO 通常訂 p99：「99% 用戶 request < 500ms」是常見承諾、合約 SLA 也通常基於 p99。 Internal critical 系統訂 p99.9：金融交易、即時配對、客服 SaaS（5 個 9 可用性對應 5 個 9 latency 期待）。

紀錄分布、不只紀錄 percentile：

gauge p99 → 看不到 distribution shape、看不到 multimodal 分布
histogram → 可以重新計算任何 percentile、可以對比 distribution、可以找 anomaly

對應案例：Tubi p99 < 10ms — ML inference 在 p99 才能控制用戶體驗、p50 沒意義；Coinbase sub-ms — 必須關注 p999、RAFT 系統長尾顯著。

詳見 Tail Latency 卡片。

Cost dashboard

成本訊號跟容量訊號要 並列顯示、不要分開看。

Per-service / per-endpoint cost attribution：

每個 service 自己的雲端成本
拆到每個 endpoint
跟 RPS / latency 並列、看「成本上升是因為流量還是低效」

Cost per request 的時序變化：

突然上升通常是退化訊號（新版本沒效率）
緩慢上升通常是規模訊號（用戶增加但 efficiency 沒變）

成本異常告警（vs 容量異常告警）：

容量告警：utilization > X% → 擴容
成本告警：cost spike > X% → review
兩者可能同時觸發（autoscaler 擴容也擴 cost）、要區分

跟業務 metric 對齊：cost per active user、cost per transaction、cost per ML inference。業務 metric 級別的 cost 才能 review unit economics。

對應案例：Lyft 100+ 微服務各自 cost — 微服務粒度的 cost attribution、找出哪個 service 過貴；對應 04.14 cost attribution。

Continuous profiling

Continuous profiling 是現代效能 observability 的關鍵環節 — production 持續取 profile（CPU / heap / lock）、隨時可以做 diff 跟 root cause。

工具生態：

Datadog Continuous Profiler、Pyroscope（開源 + Grafana 整合）、Parca（CNCF）
GCP Cloud Profiler、Azure Application Insights Profiler、AWS CodeGuru Profiler
Overhead 通常 < 1% CPU、放心開在 production

跟 distributed tracing 整合：trace → span → profile。一個 slow request 點下去、能看到對應 span、再下去看 profile。

Profile diff 是 release gate 的核心訊號：每次 deploy 後自動對比 baseline、退化幅度過門檻 trigger alert。詳見 9.9 Improvement Loop 跟 Profile Diff 卡片。

對應案例：Netflix 多 DB 統一後 profile 變單純 — DB 統一 → application 層 profile 噪音降低 → 退化定位更快。

Cardinality cost governance

效能 observability 的成本經常爆炸、源頭通常是 high cardinality metric。

高 cardinality 來源：

per-user metric（user_id label）
per-request metric（request_id label）
per-trace metric（trace_id label）

為什麼會爆：Prometheus 等 metric system 為每個 label 組合存獨立 time series、cardinality = 所有 label value 的笛卡爾積。100 萬 user × 100 endpoint × 10 region = 10 億 time series、儲存爆炸。

對策：

high cardinality 資訊放 log / trace、不放 metric
metric label 限制在 low-cardinality 維度（service、endpoint、region、status）
真的需要 high-cardinality 分析、用 sampled trace + log query

對應 04.10 cardinality cost governance、跟 Metric Cardinality 卡片。

訊號跟 SLO 對接

最後一層整合：每個 saturation metric 都要對應一個 SLO threshold、訊號驅動行動。

訊號 → 行動鏈：

saturation metric 超 threshold → trigger alert
alert 觸發 → trigger autoscaler / runbook / oncall
持續超 threshold → trigger error budget burn alert
error budget 用完 → trigger release freeze

Alert 不要太敏感：

false positive 浪費 oncall、長期會 alert fatigue（Alert Fatigue 卡片）
用 multi-window multi-burn-rate alert（Google SRE 推薦）
用 symptom-based alert（業務影響）而非 cause-based alert（單一資源）

跟 9.12 SLO 與 Performance Budget 直接對接。

案例對照

案例	教學重點
9.C5 Amazon Ads 99.999%	SLO 5 個 9 的訊號治理
9.C24 Genesys 12 個月 99.999%	滾動 SLO 觀測
9.C25 Tubi p99 分解	ML inference 多 stage latency budget
9.C2 GR8 Tech p95 是業務 KPI	latency 不只是技術指標

下一步路由

上游：9.4 Saturation Discovery / 9.5 瓶頸定位流程
下游：9.12 SLO 與 Performance Budget
跨模組：04 可觀測性模組（基礎訊號）

既建知識卡片

4.C8 Airbnb：Kubernetes 規模化下的觀測訊號治理

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是把平台擴縮行為轉成可觀測治理問題。

觀察

Airbnb 在 Kubernetes 規模化過程強調動態擴縮，代表觀測系統需要追上容量與拓撲變化。

判讀

若訊號模型無法反映動態叢集，告警與容量判讀容易失真。

策略

將叢集層指標與服務層指標分開治理。
在擴縮流程中保留關鍵健康訊號。
用回溯報表驗證擴縮與事故關聯。

下一步路由

回 4.13 與 4.18。

引用源

Dynamic Kubernetes Cluster Scaling at Airbnb

GCP Cloud Operations

Fri, 01 May 2026 00:00:00 +0000

GCP Cloud Operations（前 Stackdriver）是 GCP 原生 observability 套件、承擔三個責任：GCP 服務內建 Cloud Logging / Monitoring / Trace（無需配置）、跟 GCP 資源 model 深度整合（project / folder / org）、BigQuery 匯出長期 logs 跟分析。設計取捨偏向「GCP 生態 turnkey + BigQuery 整合 + Cloud Profiler 持續 profiling」、跨雲跟進階 distributed tracing 是限制。

本章目標

讀完本章後、你應該能：

用 gcloud / Console 查 Cloud Logging / Monitoring
設計 structured logging + log-based metrics
用 Cloud Monitoring uptime checks + SLO + alerting policy
用 Cloud Trace + Cloud Profiler 做 application performance
配置 BigQuery 匯出長期 logs 跟分析

最短路徑：5 分鐘把 Cloud Operations 跑起來

1# 1. GCP 預設啟用 Cloud Logging / Monitoring（free tier 額度）
2# TODO: GKE / Cloud Run / Cloud Functions 自動 log + metric
3
4# 2. 查詢 logs
5# TODO: gcloud logging read 'resource.type="gae_app" AND severity>=ERROR'
6
7# 3. 用 Logs Explorer 視覺化查詢
8# TODO: Console → Logging → Logs Explorer

日常操作與決策形狀

Cloud Logging 結構化 logs

子議題：

jsonPayload：結構化 log（推薦）
Severity 7 級（DEBUG / INFO / NOTICE / WARNING / ERROR / CRITICAL / ALERT）
Resource type / Resource labels：自動帶入
對應 4.C5 Cloud Trace OTLP

Log-based metrics

子議題：

Counter metric：log 出現次數
Distribution metric：log field 數值分布
適合：把 application log 轉成 metric trigger alert
對應指令：gcloud logging metrics create

Cloud Monitoring uptime checks / SLO

子議題：

Uptime check：HTTP / HTTPS / TCP / ICMP 多地點 probe
SLO：service indicator + objective + window + burn rate alert
Multi-window SLO alert（類 Honeycomb burn rate）
對應 knowledge cards burn-rate

Cloud Trace

子議題：

接受 OTLP（Cloud Trace 2.0+）
自動採集 GCP service（Cloud Run / GKE / App Engine）
對應 4.C5 Cloud Trace OTLP adoption
跟 X-Ray 比、distributed tracing 較基礎

Deep Article

Cloud Monitoring Metrics Model 與 MQL：GCP metrics model、MQL vs PromQL、custom metrics 設計、alerting policy 與 Managed Prometheus 整合
Cloud Logging 查詢、匯出與合規：查詢語言、log router / sink 匯出、retention 設計、organization-level 聚合、audit log 與 PII / CMEK 合規治理

進階主題（按需閱讀）

Cloud Profiler

子議題：

持續 profiling（CPU / Heap / Wall time / Mutex）
支援 Go / Java / Python / Node
Flame graph 視覺化
跟 Pyroscope / Datadog Profiler 對照

BigQuery 匯出長期儲存

子議題：

Log Router：定義 sink 把 logs 匯出 BigQuery / GCS / Pub/Sub
BigQuery 適合長期 + 分析查詢（SQL）
對應 4.C3 Healthcare retention
Cost：BigQuery storage 比 Cloud Logging cheaper

Error Reporting

子議題：

自動聚合 application error
各語言 client library（Python / Java / Node / Go）
跟 Sentry 對照（Sentry 更深 / 更廣）

Cloud Monitoring agent

子議題：

Ops Agent（取代 Stackdriver agent）：統一 logs + metrics 採集
支援 GCE / Bare metal / AWS / on-prem
配置：YAML config + receivers / processors / exporters（類 OTel Collector）

Multi-project / Multi-region 治理

子議題：

Aggregated logging sink：跨 project 集中 logs
Cross-project SLO
Workspace（前 Stackdriver workspace）已 deprecated、改用 Metrics Scope

OTLP integration

子議題：

Cloud Trace 接受 OTLP（2024 GA）
Cloud Monitoring 接受 OTel metrics（via OTel Collector + GCP exporter）
Logs in OTel 跟 Cloud Logging 整合（成熟中）
對應 4.C5 Cloud Trace OTLP

排錯快速判讀

Logs 沒出現

操作原則：先看 resource type / project 是否對、再看 IAM 權限。

1# TODO: gcloud logging read --project= --resource-type=...

Monitoring 查不到 metric

操作原則：metric name + project + filter 是否對。對應 Metrics Explorer 確認 metric 存在。

SLO alert noise

操作原則：multi-window burn rate 設計避免噪音。

Cloud Trace 太空

操作原則：sampling 不足或 SDK 沒配置。判讀：Cloud Trace 看 span count + 確認 SDK Cloud Trace exporter 設定。

BigQuery 匯出 cost 爆

操作原則：sink filter 沒收斂、所有 logs 都匯。判讀：Cloud Logging usage 看 export volume。

何時改走其他服務

需求形狀	改走
多雲統一觀測	Datadog / Grafana Stack / OTel
進階 APM 廣度	Datadog
High-cardinality debug	Honeycomb
Logs full-text 進階	Elastic / Loki
AWS / Azure 生態	CloudWatch / Azure Monitor
Error tracking 進階	Sentry

不在本頁內的主題

gcloud / Cloud Console UI 操作詳細
各 GCP 服務的內建 metric 完整列表
Cloud Trace span structure 細節
BigQuery SQL syntax

案例回寫

直接相關案例

案例	主討論議題
4.C5 Cloud Trace OTLP	OTLP 在 GCP 的採用路徑

跨 vendor 對照

案例	對 Cloud Operations 的對應
4.C1 Fintech audit	Cloud Logging + BigQuery 作為審計證據與長期分析
4.C3 Healthcare retention	BigQuery 匯出長期 retention
4.C9 OTel migration signal drift	（反例）Cloud Trace ↔ OTLP 雙軌語意對齊
4.C10 規模對照	GCP-only 場景優先 Cloud Operations

下一步路由

上游概念：4.17 Telemetry Data Quality
平行 vendor：OpenTelemetry、CloudWatch
下游能力：4.20 Observability Evidence Package

4.9 Continuous Profiling

Mon, 22 Jun 2026 00:00:00 +0000

大綱

Continuous profiling 的定位：metrics / logs / traces 之外的第四角
Profile 維度：CPU、heap、allocations、lock contention、goroutine / async task
Always-on vs on-demand：何時用哪種
Flame graph 與版本差異比較
Overhead 控制
Vendor 定位
反模式

概念定位

Continuous profiling 是把 CPU、memory、allocation 與 lock contention 變成長期可比較的 production 訊號，責任是補上 metrics、logs、traces 看不到的 callstack 成本。

Metrics 會告訴你「CPU usage 上升了」，trace 會告訴你「這條 request 的 latency 從 200ms 變成 800ms」，profile 會告訴你「增加的 600ms 花在哪幾個 function call、哪幾行程式碼」。Profile 是唯一能精確到 callstack level 的觀測訊號。

「Continuous」的關鍵差異是：傳統 profiling 是事故時才手動開啟，continuous profiling 是 production 常駐的低開銷採樣。事故時不需要重現問題 — baseline profile 已經在那裡，直接跟事故期間的 profile 做 diff。

Profile 維度

不同的 profile 維度回答不同的效能問題。服務的退化模式決定需要哪些維度。

CPU profile

回答「CPU 時間花在哪些 function」。最常用的 profile 維度。適合診斷 latency 退化（某個 function 開始佔更多 CPU 時間）跟 CPU 利用率異常（某段程式碼意外進入 hot path）。

CPU profile 用 sampling 方式採集 — 定期（例如每秒 100 次）記錄當前的 callstack。統計意義上，出現在 sample 中的次數跟實際 CPU 消耗成正比。Sampling 頻率越高精度越好，但 overhead 也越高。

Heap / memory profile

回答「memory 被哪些 function 持有」。適合診斷 memory leak（allocation 持續增長、GC 回收不了）跟 GC pressure（大量短命物件導致 GC 頻繁）。

Heap profile 記錄的是某個時間點的 live object 分布。Allocation profile 記錄的是一段時間內誰做了多少 allocation — 兩者互補。Memory leak 用 heap profile 的時間趨勢看；GC pressure 用 allocation profile 看。

Lock contention profile

回答「哪些 lock 的等待時間最長」。適合診斷 mutex contention（多個 thread / goroutine 搶同一把 lock、等待時間累積成 latency）。

Lock profile 在高並發服務的診斷中特別有用。Metrics 只能看到整體 latency 上升；trace 能看到某個 span 變慢；lock profile 能精確定位是哪把 lock 在哪個 callstack 被等待。

Goroutine / async task profile

Go 的 goroutine profile 回答「有多少 goroutine、它們在做什麼（running / waiting / blocked）」。Goroutine leak（goroutine 數量持續增長、都在等待某個 channel 或 lock）是 Go 服務常見的退化模式。

其他語言有對應的概念：Java 的 thread dump、Node.js 的 async resource tracking、Python 的 asyncio task inspection。

Always-on vs On-demand

Always-on（continuous）

Production 常駐的低開銷 profiling。CPU sampling 頻率降低（每秒 19 或 100 次，避免跟系統 timer 共振），heap sampling 用語言 runtime 內建機制（Go 的 runtime/pprof、Java 的 JFR）。

Always-on 的核心價值是 baseline — 平時就有 profile 資料，事故時可以跟 baseline 做 diff，看「哪些 function 的 CPU 消耗跟平時不同」。沒有 baseline 的 profiling 只能看「現在的 profile 長什麼樣」，無法判斷哪些是異常的。

On-demand

事故中或效能調查時手動開啟的高精度 profiling。Sampling 頻率更高、涵蓋更多維度、但 overhead 也更高（可能影響 production 服務的 latency）。

On-demand profiling 適合在 always-on profile 定位到可疑 function 後，做更細粒度的 callstack 分析。兩者搭配使用 — always-on 做日常監控跟 baseline，on-demand 做事故深挖。

Overhead 控制

Continuous profiling 的可行性取決於 overhead 是否夠低。目標是 CPU overhead < 1%、memory overhead < 10MB。

影響 overhead 的因素：

Sampling 頻率：CPU profile 每秒 100 次 vs 1000 次，overhead 差一個數量級
採集機制：eBPF-based profiler（Parca、Pyroscope eBPF）在 kernel 層採集，overhead 比 language-level profiler 低；language runtime 內建機制（Go pprof、Java JFR）overhead 居中；instrumentation-based profiler overhead 最高
資料傳輸：profile 資料定期傳到 backend 的網路跟序列化成本

Production 部署前要用 benchmark 驗證 overhead。在 load test 環境開啟 profiling、比較開啟前後的 latency p99 跟 CPU usage — 差異超過 1% 要調整 sampling 頻率或換更輕量的 profiler。

Flame Graph 與版本差異比較

Flame graph

Flame graph 是 profile 資料的標準視覺化。X 軸是 callstack 的寬度（代表 sample 佔比 = 資源消耗佔比），Y 軸是 callstack 深度（底部是 root function、頂部是 leaf function）。寬的矩形代表消耗多、窄的代表消耗少。

讀 flame graph 的方式是「從寬的開始看」— 最寬的矩形是當前最大的資源消耗者。如果某個 function 佔整個 flame graph 的 40%，它就是最值得最佳化的候選。

Diff flame graph

Diff flame graph 是兩個 profile 的差異視覺化。紅色代表新版本消耗增加、綠色代表減少。適合用在：

版本間比較：v1.2.3 vs v1.2.4 的 CPU profile diff，看新版本哪些 function 變慢
Canary 對照：canary instance vs baseline instance 的即時 diff
事故 vs baseline：事故期間的 profile vs 平時的 profile

Diff flame graph 需要 profile 帶 version / deploy label。Profile 跟版本標記失聯時，跨版本比較只能靠手動對照時間範圍 — 精確度跟效率都會下降。

Vendor 定位

Vendor	採集機制	語言支援	定位
Pyroscope	SDK + eBPF	Go, Java, Python, Ruby	開源自架，Grafana 生態整合
Parca	eBPF	語言無關（kernel 級）	開源自架，零 instrumentation
Datadog Profiler	Agent + SDK	Go, Java, Python, .NET	託管，跟 APM trace 整合
Polar Signals	eBPF（Parca Cloud）	語言無關	託管 Parca

選擇要點：如果已有 Grafana 生態（Prometheus + Loki + Tempo），Pyroscope 整合最自然。如果不想改 application code（零 instrumentation），eBPF-based 的 Parca 是選項。如果已用 Datadog APM，Datadog Profiler 跟 trace 的整合（從 trace span 跳到對應的 profile）是獨有優勢。

核心判讀

Continuous profiling 的持續價值取決於兩件事：profile 能否按版本做 diff（沒有 baseline 就無法判斷哪些 callstack 是異常的），以及 overhead 能否低到 production 常駐（overhead 過高等於回到「事故時才開」的模式）。

重點訊號包括：

Profile 是否帶有 service、version、environment 與 deploy label
Flame graph diff 是否能對照 canary / baseline
CPU、heap、lock、allocation 是否覆蓋主要退化模式
Production sampling 是否足夠低成本且常駐穩定

判讀訊號

同一段熱點程式碼反覆出現在事故 RCA 中、無 baseline profile
CPU / memory 異常時靠重現除錯、無 production profile 可對照
版本升級後 latency 退化、定位具體 callstack 需要重現環境
Profile 跟 commit / version label 失聯、跨版本 diff 需要人工對照
Profiling overhead 過高、production 環境常駐成本過高

反模式

反模式	表面現象	修正方向
Profiling 只在事故時才開	事故時開 profiler 需要時間、問題可能已消失	Always-on continuous profiling
Production sampling rate = 0	Profile 只存在於 staging、production 沒資料	調低 sampling 頻率到 overhead < 1%
Profile 跟 version 失聯	Diff 只能靠時間範圍猜、無法精確比較	Profile metadata 帶 version / commit hash label
只看 CPU profile	Memory leak 跟 lock contention 被忽略	按服務退化模式選擇 profile 維度
Profile 資料沒有保留策略	儲存持續成長、舊 profile 佔空間但沒被查	依版本保留（每版本保留 N 天）

交接路由

4.2 metrics：metrics 是聚合訊號、profile 是 callstack 級別
4.3 tracing：trace 是 request 維度、profile 是 process 維度
4.7 cardinality / cost：profile 儲存量與保留策略
4.21 rule-level CPU signal：規則執行成本的 CPU 訊號治理
8.5 post-incident review：RCA 引用 profile flame graph

4.C9 反例：OTel 遷移後訊號漂移

Thu, 07 May 2026 00:00:00 +0000

這個反例的核心責任是說明 observability 遷移失敗常以語意漂移形式出現，資料丟失反而少見。

事故長相

OTel 切換後，儀表板看起來都有資料，但 on-call 開始收到不同告警，SLO burn rate 與舊系統長期對不上。同一個事故在新舊管線裡被歸到不同 service、不同 label 或不同 latency bucket。

為什麼會擴大

觀測資料是事故判讀的入口。若 metric 名稱、label、sampling、aggregation 不一致，團隊會對同一個現象做出不同判斷，甚至在錯誤訊號上回退服務。

回退判讀

觀測遷移的回退不一定是回到舊 agent。更重要的是保留新舊訊號對照，先停止讓新管線主導告警與 SLO 判定，再修正語意對齊。若直接關掉新管線，反而會失去分析漂移原因的證據。

觀測專屬告警條件

新舊管線對同一服務的 error rate 長期偏離
missing span 或 missing metric 比例持續上升
alert 噪音增加，但事故量沒有對應增加

下一步路由

回 4.17 與 4.11。

Sentry

Fri, 01 May 2026 00:00:00 +0000

Sentry 是 error tracking 的事實標準、承擔三個責任：跨 frontend / backend / mobile 的 unhandled exception 自動聚合（issue grouping）、release-aware error tracking（regressed errors / source map）、延伸功能（APM / Continuous Profiling / Session Replay / Cron Monitoring）。設計取捨偏向「錯誤生命週期管理 + UX 強 + OSS self-host 雙軌」、不追求 metrics / logs 全面平台。

本章目標

讀完本章後、你應該能：

整合 Sentry SDK（auto-instrumentation）到 frontend / backend / mobile
配置 release + source map、追蹤 regressed errors
設計 issue grouping / fingerprint 避免 noise
用 Sentry Performance / Session Replay / Cron Monitoring
評估 self-hosted vs SaaS、跟 IR 平台整合

最短路徑：5 分鐘把 Sentry 跑起來

1# 1. 註冊 Sentry / self-host、拿 DSN
2# TODO: 從 Console 拿 project DSN
3
4# 2. 整合 SDK（範例：Python）
5# TODO: import sentry_sdk; sentry_sdk.init(dsn=..., traces_sample_rate=1.0)
6
7# 3. 觸發 test exception 驗證
8# TODO: try: 1/0 / except: sentry_sdk.capture_exception()

日常操作與決策形狀

SDK 整合（auto-instrumentation）

子議題：

各語言 SDK：Python / Node / Java / Go / Ruby / PHP / .NET / iOS / Android
自動 framework instrumentation（Django / FastAPI / Express / Rails 等）
Manual capture：capture_exception / capture_message
對應 OTel integration（Sentry 接受 OTel context）

Release / source map

子議題：

Release 標記每次部署（git SHA / version）
Source map 上傳：minified frontend code → readable stack trace
Regressed errors：之前 resolved 在新 release 又出現
對應 release health metric

Issue grouping / fingerprint

子議題：

Auto grouping：based on stack trace + exception type
自訂 fingerprint：把不同 errors 聚成同 issue
拆 issue：相同 stack 但需分開追蹤
對應 noise 控制

Performance monitoring

子議題：

Traces sampling rate
Transaction / span 結構（類 APM）
Web Vitals（前端 LCP / FID / CLS）
跟 OTel trace 互操作

Deep Article

Error Grouping 與 Fingerprinting 策略：預設 grouping 演算法、自訂 fingerprint rules、merge/unmerge、grouping 不準的判讀與大量 unique errors 的治理
Release Tracking 與 Session Replay：release health、deploy tracking、session replay 隱私設定、performance monitoring 與 OTel 整合、self-hosted vs SaaS

進階主題（按需閱讀）

Session Replay

子議題：

前端用戶體驗錄影（含 error 前後操作）
隱私設定：mask PII / block element
Sample rate 控制
跟 LogRocket / FullStory 對照

Cron Monitoring（Sentry Crons）

子議題：

監控 scheduled job 是否準時跑 + 是否成功
Schedule 配置（crontab / interval）
Heartbeat ping / 自動 alert
對應 08 incident response

Continuous Profiling

子議題：

各語言 profiler（Python / Node / Go）
CPU / memory flame graph
跟 Pyroscope / Datadog Profiler 對照

Self-hosted vs SaaS

子議題：

Self-hosted：Sentry OSS（docker-compose + 數十 service）
SaaS：sentry.io、5 levels（developer / team / business / enterprise）
規模化通常用 SaaS（self-host 維運成本高）
Privacy / compliance 場景：self-host

跟 IR 平台整合

子議題：

跟 PagerDuty / Opsgenie / incident.io 整合
Alert routing：嚴重 issue → on-call
Issue 跟 incident ticket 關聯
對應 08 incident response 模組

OTel integration

子議題：

Sentry SDK 接受 OTel context（trace_id / span_id）
跟其他 OTel backend dual ship
Sentry 自家 SDK feature 較深（vs 純 OTel）

跟 Monitoring 模組的分工

本頁從 server-side 觀測平台角度說明 Sentry — error grouping 的告警整合、performance monitoring 的 SLI 指標設計、self-hosted vs SaaS 成本、跟 OTel 的 context 整合。Client-side 的使用體驗（SDK 自動攔截設計、error grouping 的 client 端行為、session replay 的操作重播、跟自架 monitor 的比較）見 Monitoring 模組 Sentry 深入。

兩者的交叉點是 error event 的格式和 trace context propagation — client SDK 捕獲的 error 帶 trace context，server-side 的 Sentry 用同一個 trace 串接完整路徑。

排錯快速判讀

Issue 不出現

操作原則：先確認 SDK 配置（DSN + initialization）、再看 sampling rate、最後看 ad blocker 等網路問題。

Issue noise（太多 issue）

操作原則：用 fingerprint / inbound filter / rate limit 控制。判讀：Issue list 看哪些是噪音。

Release 沒對應

操作原則：release tag 沒正確傳 SDK、或 source map 沒上傳。判讀：issue 沒有 release 資訊。

Performance traces 缺失

操作原則：sampling rate 過低或 SDK 沒啟用 performance。

Session Replay 不出現

操作原則：sample rate 設定 + 隱私 setting 是否 block 過頭。

何時改走其他服務

需求形狀	改走
完整 metrics / logs 平台	Datadog / Grafana Stack / ELK
High-cardinality 分析	Honeycomb
純 backend 已有 APM	跟 Datadog APM 重疊、選一即可
替代 error tracking	Bugsnag / Rollbar / Raygun（T2 候選）
Pure logs / metrics	Prometheus / Elastic / Cloud-native
OTel-only 標準	OTel + 任一 backend

不在本頁內的主題

各語言 Sentry SDK 完整 API
Sentry self-host 部署細節
各 framework integration 細節
Sentry pricing 詳細

案例回寫

直接相關案例（待補 frontend Sentry case）

Sentry 是 04 observability 模組第二大 SaaS（次 Datadog）、但 04 cases 庫主要聚焦 OTel / Prometheus / Grafana / ELK 等後端 telemetry pipeline 場景、Sentry 直接案例（frontend error / release health）待補。

跨 vendor 對照

案例	對 Sentry 的對應
4.C1 Fintech audit	Issue 跟 audit evidence 串聯、release 對應監管要求
4.C2 Gaming peak	高峰下 issue noise / rate limit / inbound filter
4.C9 OTel migration signal drift	Sentry SDK ↔ OTel context propagation 雙軌驗證
4.C10 規模對照	Frontend / mobile-heavy team 通常選 Sentry

待補 frontend Sentry case：大規模前端團隊（Shopify / Slack / GitHub frontend）error tracking 案例、release health 落地、跟 incident.io / PagerDuty 整合案例。

下一步路由

上游概念：4.17 Telemetry Data Quality
平行 vendor：Datadog、OpenTelemetry
下游能力：08 incident response 模組

4.10 Client-side / Synthetic / RUM

Mon, 22 Jun 2026 00:00:00 +0000

大綱

Server-side 觀測的盲區
RUM（Real User Monitoring）：真實用戶端訊號
Synthetic monitoring：主動探測
Core Web Vitals 與 backend SLI 的整合
Client trace 跟 server trace 的串接
Vendor 定位
反模式

概念定位

Client-side、Synthetic 與 RUM 訊號是把使用者實際感知納入觀測系統的資料來源，責任是補上 server-side 指標看不到的網路、瀏覽器、地區與裝置差異。

服務端 200 率正常只代表 backend 有回應。使用者是否真的能完成操作，還要看 DNS 解析、CDN 快取、ISP 路由、瀏覽器渲染與 client-side JavaScript 執行。這些環節每一個都可能讓使用者的體驗跟 server-side dashboard 顯示的完全不同。

跟 monitoring 模組的分工：monitoring 模組聚焦「非 server 端 runtime 的監控體系」（SDK 設計、collector 架構、rule engine）；本章聚焦「backend 觀測系統如何整合 client-side 訊號」。交叉點是事件格式跟 transport。

Server-side 觀測的盲區

Server-side 觀測能看到「request 到達 server 之後發生了什麼」，看不到「request 到達 server 之前」跟「response 離開 server 之後」的環節。

環節	Server 能看到嗎	影響
DNS 解析	看不到	DNS 異常讓使用者完全到不了 server
CDN / edge 故障	看不到	CDN 返回 stale 或 error、server 無感
ISP 路由異常	看不到	特定地區使用者延遲暴增
TLS handshake	部分看得到	Certificate 問題讓部分 client 連不上
Browser rendering	看不到	TTFB 正常但 LCP / CLS 很差
Client-side JS error	看不到	功能壞了但 API call 正常
弱網 / offline	看不到	Request timeout 或完全沒發出

這些盲區意味著 server-side 的「一切正常」跟使用者的「用不了」可以同時存在。

RUM（Real User Monitoring）

RUM 在使用者的瀏覽器或 app 中嵌入監控 SDK，收集真實使用者的效能跟錯誤資料。跟 synthetic monitoring 的差異是 RUM 看的是真實流量，能反映真實的地理分布、裝置差異跟網路條件。

核心指標

頁面效能：First Contentful Paint（FCP）、Largest Contentful Paint（LCP）、Cumulative Layout Shift（CLS）、Interaction to Next Paint（INP）。這四個指標（Core Web Vitals 系列）是 Google 定義的使用者體驗量化標準。

JS error：未捕獲的 exception、promise rejection、resource loading failure。RUM SDK 自動攔截（window.onerror、unhandledrejection），帶 stack trace、browser info、page URL。

API call 效能：從 client 端量測的 API latency（包含 DNS + TCP + TLS + server processing + response download）。跟 server-side 量測的差異就是網路延遲跟 client 處理時間。

切分維度

RUM 資料的價值在於可以按維度切分：地區（哪個國家 / 城市慢）、裝置（mobile vs desktop、iOS vs Android）、網路型態（4G vs wifi vs 3G）、瀏覽器（Chrome vs Safari vs Firefox）。

切分後的資料能回答 server-side 回答不了的問題：「為什麼巴西的使用者比美國慢 3 倍？」（CDN 沒覆蓋巴西）、「為什麼 Safari 的 error rate 比 Chrome 高？」（某個 JS API 在 Safari 的行為不同）。

取樣與成本

RUM 的事件量跟使用者流量成正比。高流量網站的 RUM 資料量可能很大（每秒數千筆 page view + error + resource timing），成本隨之上升。

RUM 的取樣策略跟 server-side trace sampling 類似：可以全收（低流量網站）、按比例取樣（高流量）、或按條件取樣（error 全收、正常 page view 取樣）。取樣後的資料仍能看到趨勢跟 percentile，但個別 session 的完整 replay 需要該 session 被取樣到。

Synthetic Monitoring

Synthetic monitoring 用自動化的 probe 從外部網路定期發起請求，測量 availability 跟 latency。跟 RUM 的差異是 synthetic 是主動探測（沒有真實使用者也能跑），能 24/7 持續監控。

適用場景

Availability 探測：每分鐘從多個地區對關鍵頁面或 API endpoint 發 request，確認可達性。DNS 異常、CDN 故障、TLS 過期 — 這些 server-side 看不到的問題，synthetic probe 能第一時間抓到。

SLO probe：用 synthetic probe 量測關鍵 user journey 的端到端 latency（login → homepage → checkout），作為 SLO 的 client-side 量測點。

Third-party 依賴監控：探測 payment gateway、SSO provider、CDN 的可用性。這些外部依賴故障時 server-side 只能看到 timeout 或 error code，synthetic probe 能從使用者的角度看到完整影響。

常見陷阱

Synthetic probe 的探測路徑必須跟真實使用者一致。Probe 從 datacenter 內部發 request、走內部 DNS、不經過 CDN — 這種 probe 量到的 latency 跟 availability 不代表真實使用者的體驗。

Probe 應該從外部網路、經過公開 DNS、經過 CDN / edge、用真實 browser（headless Chrome）渲染頁面。Catchpoint、Pingdom、Datadog Synthetic 都提供從多個公開地理位置發 probe 的能力。

Core Web Vitals 與 Backend SLI 的整合

Core Web Vitals（LCP、CLS、INP）是 client-side 的使用者體驗指標。Backend SLI（availability、latency p99）是 server-side 的服務健康指標。兩者各自反映不同層面、需要整合看才能得到完整圖像。

整合方式是在 dashboard 上並排顯示：backend SLI panel 旁邊放 RUM 的 LCP / INP panel。當 backend latency 正常但 LCP 退化，問題在 frontend rendering 或 CDN；當 backend latency 升高且 LCP 同步退化，問題在 backend。

4.6 SLI/SLO 設計的 user-journey-centric SLI 應該同時考慮 server-side 跟 client-side 的量測點。只看 server-side 的 SLI 會低估使用者實際感知的延遲。

Client Trace 跟 Server Trace 的串接

RUM SDK 跟 backend 的 trace 串接讓一個 user action 的完整路徑可追蹤 — 從 button click 到 browser 發 API request 到 backend 處理到 response rendering。

串接方式是 RUM SDK 在發起 API request 時注入 trace context header（W3C traceparent）。Backend 的 trace instrumentation 提取 header、建立 child span。完整的 trace waterfall 從 browser span 開始、經過 backend span、到 database span。

串接的條件是 RUM SDK 跟 backend SDK 使用相同的 trace context format。OTel 生態（browser SDK + backend SDK）天然支援；混用 vendor 時需要確認 header format 一致。

Vendor 定位

Vendor	RUM	Synthetic	特點
Datadog RUM	有	有	跟 APM trace 整合、session replay
Sentry	有	無	Error tracking 為主、效能次之
New Relic Browser	有	有	全棧觀測整合
Catchpoint	無	有	Synthetic 專精、全球 probe 網路
Pingdom	無	有	簡單 availability probe
Grafana Faro	有	無	開源、Grafana 生態整合

選擇要點：已有 APM vendor 的團隊優先用同 vendor 的 RUM（trace 串接最自然）。只需要 availability probe 的用 Pingdom 或 Synthetic 功能。需要 session replay（重現使用者操作序列）的選 Datadog RUM 或 Sentry。

核心判讀

判讀 client-side monitoring 時，先看訊號是否代表真實使用者，再看 synthetic probe 是否覆蓋關鍵旅程。

重點訊號包括：

RUM 是否能按地區、裝置、網路型態與瀏覽器切分
Synthetic probe 是否從外部網路與真實入口進入
Core Web Vitals 是否能和 backend SLI 並排比較
Client trace / session 是否能和 server trace 串接

判讀訊號

使用者回報慢但 server-side latency 正常
CDN / edge 故障時內部 dashboard 全綠
行動弱網場景無 visibility、僅有 wifi 桌面端訊號
Synthetic probe 從 datacenter 內部跑、路徑跟真實使用者不同
客戶投訴定位耗時長、無 client 端 trace / RUM session

反模式

反模式	表面現象	修正方向
SLO 只看 server 200 率	CDN / DNS 故障時 SLO 一切正常	加 synthetic probe 跟 RUM 作為 SLI 來源
Synthetic probe 走內部網路	Probe latency 跟真實使用者差距大	Probe 從外部公開網路、經 DNS / CDN 路徑
RUM 無取樣策略	高流量時 RUM 成本失控	按條件取樣（error 全收、正常取樣）
Client trace 跟 server 斷裂	看不到 browser → server 的完整路徑	RUM SDK 注入 W3C trace context header
只看 overall LCP	全球平均看起來好但特定地區體驗極差	按地區 / 裝置 / 網路切分 RUM 資料

交接路由

4.6 SLI/SLO：user-journey-centric SLI 需要 client-side 量測點
4.3 tracing：client trace 跟 server trace 的 context 串接
05 部署：CDN / edge 配置變更影響 RUM 訊號
08 incident response：客戶感知影響量化
Monitoring 模組：非 server 端的監控體系設計
4.24 Client-to-Server 觀測串接：從 browser click 到 server span 的完整 trace 鏈路實作

Cloud Monitoring Metrics Model 與 MQL

Mon, 22 Jun 2026 00:00:00 +0000

本文是 GCP Cloud Operations 的 vendor deep article，深化 overview「Cloud Monitoring uptime checks / SLO」跟「OTLP integration」段。初次接觸 GCP 觀測的讀者建議先讀 GCP Cloud Operations 服務頁。

問題情境

GCP 服務預設把 metrics 寫到 Cloud Monitoring，工程師打開 Metrics Explorer 就能看到 CPU、記憶體、request count。問題通常出在三個地方：GCP 內建 metrics 的 resource model 跟應用層的 business metrics 用不同語言描述同一件事，PromQL 使用者要重新學 MQL 語法，alerting policy 的 condition type 跟 notification channel 配置比預期複雜。理解 Cloud Monitoring 的 metrics model 才能避免 custom metrics 爆量、alert noise、跟 Prometheus 生態的銜接摩擦。

核心概念

Monitored resource 與 metric descriptor

Cloud Monitoring 的資料模型有兩個軸：monitored resource 描述「誰產生了這個 metric」，metric descriptor 描述「這個 metric 量什麼」。

Monitored resource 是 GCP 自動帶入的標籤集合。GKE pod 的 monitored resource type 是 k8s_pod，帶 project_id、location、cluster_name、namespace_name、pod_name。Cloud Run revision 是 cloud_run_revision，帶 service_name、revision_name、location。這層標籤不需要工程師手動設定，GCP agent 或 SDK 自動填入。

Metric descriptor 定義 metric 的名稱、型別（GAUGE / DELTA / CUMULATIVE）、value type（INT64 / DOUBLE / DISTRIBUTION）與自訂 label。GCP 內建 metrics 用 compute.googleapis.com/instance/cpu/utilization 這樣的命名空間格式；custom metrics 用 custom.googleapis.com/ 或 workload.googleapis.com/（後者透過 OTel Collector 或 Managed Prometheus 寫入時使用）。

兩個軸相乘就是 time series 的數量。Cardinality 管理在 GCP 上等同於控制 monitored resource × metric label 的組合數。GCP 對 custom metrics 有每個 project 的 time series 配額（預設 500 per metric descriptor、可申請提高），超過時寫入會被拒。

MQL vs PromQL

Cloud Monitoring 有兩種查詢語言。MQL（Monitoring Query Language）是 GCP 自家設計的 pipeline 語法：

1fetch k8s_container
2| metric 'kubernetes.io/container/cpu/core_usage_time'
3| align rate(1m)
4| every 1m
5| group_by [resource.cluster_name, resource.namespace_name],
6    [value_cpu_usage: aggregate(value.core_usage_time)]

PromQL 在 Cloud Monitoring 上也可用（透過 Managed Service for Prometheus）。兩者的核心差異：

面向	MQL	PromQL（via Managed Prometheus）
資料來源	所有 Cloud Monitoring metrics	透過 Managed Prometheus 寫入的 metrics
查詢介面	Metrics Explorer / alerting condition	Grafana / Prometheus UI / API
Aggregation 語法	pipe-style `group_by`	函式風格 `sum by (label)`
跨 GCP 與 custom	原生支援 GCP 內建 metrics	需要轉成 Prometheus 格式
學習曲線	GCP-specific、不可搬到其他平台	跨平台標準、可搬到 Mimir / Thanos

選擇判讀：純 GCP 環境且團隊沒有 Prometheus 經驗 → MQL 起步快。已有 Prometheus / Grafana 生態 → 用 Managed Prometheus + PromQL、把 GCP 內建 metrics 透過 Prometheus-compatible exporter 導入。混合環境 → 兩者並存、GCP 原生 metrics 用 MQL 做 alerting、application metrics 用 PromQL 查詢。

配置 step-by-step

Custom metrics 設計與寫入

Custom metrics 的常見路徑有三條：

路徑一：Cloud Monitoring API 直接寫入。應用程式用 Cloud Monitoring client library 建立 metric descriptor 並寫入 time series。適合 GCP-native 應用，不需要額外 agent。

1metric type: custom.googleapis.com/checkout/latency_ms
2kind: GAUGE
3value type: DISTRIBUTION
4labels: [service, region, status_code]

路徑二：OTel Collector + GCP exporter。應用程式用 OTel SDK 產生 metrics，OTel Collector 透過 googlecloud exporter 寫到 Cloud Monitoring。Metrics 命名空間是 workload.googleapis.com/。適合已有 OTel instrumentation 的服務。

路徑三：Managed Service for Prometheus。部署 GCP 的 Managed Prometheus collector（或自管 Prometheus + remote write），metrics 存在 GCP 託管的 Monarch backend。查詢用 PromQL。適合 Kubernetes 環境且團隊熟悉 Prometheus 生態。

三條路徑可以共存。選擇判讀：先看團隊的 metrics 生態是 GCP-native 還是 Prometheus-native，再看 multi-cloud 需求。Managed Prometheus 的優勢是 PromQL 可搬、劣勢是 GCP 內建 metrics 需要額外整合。

Alerting policy 配置

Cloud Monitoring alerting policy 由三部分組成：condition、notification channel、documentation。

Condition types：

Metric threshold：metric 超過閾值 N 分鐘。適合「error rate > 1% 持續 5 分鐘」。
Metric absence：metric 消失。適合偵測 scrape 斷裂或服務停擺。
Forecasting：預測 metric 在 N 小時後超過閾值。適合 disk 滿、quota 耗盡。
Process health：GCE instance 的 process 是否存活。
Log-based：Cloud Logging 出現特定 pattern 時觸發。適合把 error log 轉成 alert。
SLO burn rate：SLO 設定後、burn rate 超過閾值。對應 burn-rate 概念。

Notification channels：Email / PagerDuty / Slack / Pub/Sub / Webhook / SMS。Pub/Sub channel 適合接自定義 automation（收到 alert → trigger Cloud Function）。

Snooze 與 maintenance window：暫時抑制特定 alerting policy。部署期間或已知維護時使用。

Managed Prometheus 整合

GCP Managed Service for Prometheus 的部署模式：

GKE 模式：啟用 GKE monitoring、Managed Prometheus collector 自動部署。不需要自管 Prometheus server。
Remote write 模式：自管 Prometheus server + remote_write 到 GCP Monarch endpoint。保留本地查詢能力，同時長期儲存在 GCP。
OTel Collector 模式：OTel Collector 用 googlemanagedprometheus exporter 寫到 Monarch。

查詢端：用 GCP Console 的 PromQL UI、或部署 Grafana + GMP datasource。PromQL 功能子集支援良好（rate / histogram_quantile / aggregation），少數進階功能（subquery）有限制。

故障演練與邊界

Custom metric 配額用盡

觸發條件：custom metric descriptor 數量超過 project 配額（預設 500），或單一 metric descriptor 的 time series 數量超過配額。

表現：API 回傳 429 或 quota exceeded error。新 time series 寫不進去，既有的不受影響。

修復：清理不再使用的 metric descriptor（describe → delete）、合併語意重疊的 metrics、減少 label cardinality。GCP Console → IAM → Quotas 可以申請提高配額，但先確認是設計問題而非真的需要那麼多 series。

Alerting policy 觸發延遲

觸發條件：alerting policy 使用的 metrics 的 alignment period 或 duration 設定過長。

表現：異常已經發生 10 分鐘，alert 才觸發。原因是 Cloud Monitoring 的 evaluation cycle 跟 metrics ingestion delay 相加。GCP 內建 metrics 的 ingestion delay 約 1-3 分鐘；custom metrics 透過 API 寫入的 delay 約 10-30 秒。

修復：把 condition 的 alignment period 設短（1 分鐘）、duration 設短（但太短會造成 flapping）。Log-based alerting condition 的 delay 通常比 metric-based 短（秒級 vs 分鐘級），緊急異常考慮用 log-based condition。

Managed Prometheus 查詢與自管 Prometheus 結果不一致

觸發條件：同一個 PromQL query 在本地 Prometheus 跟 GMP 的結果不同。

表現：dashboard 數字對不上、alert 觸發行為不一致。

修復：先確認 remote write 是否有 sample drop（看 prometheus_remote_storage_samples_failed_total）。再確認 GMP 的 PromQL 子集限制（部分 subquery 語法不支援）。最後確認 metric naming：local Prometheus 的 metric name 跟 GMP 儲存後的 naming convention 可能有差異（加了 __name__ prefix 或 resource label）。

容量與成本

Cloud Monitoring 的計費模型基於 ingested metrics volume（per million data points）。GCP 內建 metrics（agent metrics 除外）免費。Custom metrics 的前 150 MB per billing account 免費，超過後按 volume 計費。

成本治理的判讀：

最大成本來源通常是高頻率的 custom metrics 或高 cardinality label
用 monitoring.googleapis.com/billing/bytes_ingested metric 追蹤 ingestion 量
減少 scrape interval（15s → 30s 或 60s）可以直接降低 ingestion 量
Managed Prometheus 的計費跟 custom metrics 分開計算（per samples ingested）

整合與下一步

GCP Cloud Operations 服務頁：overview 與日常操作
4.7 cardinality 治理：cardinality 治理的完整策略
4.6 SLI/SLO signal：SLO burn rate alert 的訊號設計
Prometheus：Managed Prometheus 的上游概念
OpenTelemetry：OTel Collector + GCP exporter 整合
Cloud Logging 查詢、匯出與合規：同 vendor 的 logs 面

CloudWatch Logs Insights 查詢與日誌治理

Mon, 22 Jun 2026 00:00:00 +0000

本文是 AWS CloudWatch 的 vendor deep article，深化 overview「Logs Insights query」跟「Logs lifecycle」段。初次接觸 CloudWatch 的讀者建議先讀 CloudWatch 服務頁。

問題情境

CloudWatch Logs 的成本模型跟 self-hosted log stack 不同 — ingestion、storage 跟 query 分開計費，每一層都有明確的 cost lever。理解 log group 設計、retention 設定與 subscription filter 的組合，才能在 AWS-native 環境下控制日誌成本而不犧牲事故判讀能力。

Log group 設計

拆分粒度

Log group 是 CloudWatch Logs 的計費與 retention 邊界。同一個 log group 內的所有 log stream 共用 retention policy 和 access control（IAM resource policy）。

合理的拆分粒度是 一個服務一個 log group，而非一個帳號一個或一個 container 一個。服務級拆分讓 retention、查詢範圍與 IAM 權限自然對齊服務 ownership。

拆分策略	適合場景	風險
一個服務一個 log group	多數 production 服務	log group 數量增長需要 naming convention
一個環境一個 log group	非常小的團隊、staging/dev 環境	混合多個服務的日誌，查詢時需要額外 filter
一個 Lambda function 一個 log group	Lambda 預設行為	Lambda 數量多時 log group 爆量，管理成本高

Lambda 的預設行為是每個 function 自動建一個 log group（/aws/lambda/）。function 數量超過數十個後，需要用 naming convention 加 tag 控制，否則 retention policy 難以統一套用。

Naming convention

推薦格式：///，例如 /prod/checkout-api/app、/prod/checkout-api/access-log。統一前綴讓 Logs Insights 的 multi-log-group query 用 prefix matching 篩選。

Logs Insights 查詢語法

核心語法

Logs Insights 的查詢結構是 pipe-based：每行用 | 分隔，依序處理。

1fields @timestamp, @message, @logStream
2| filter @message like /ERROR/
3| parse @message "order_id=* status=*" as order_id, status
4| stats count(*) as error_count by status
5| sort error_count desc
6| limit 20

常用 command 對照：

Command	用途	注意事項
`fields`	選擇要顯示的欄位	`@timestamp`、`@message` 是內建欄位
`filter`	條件篩選	支援 `like /regex/`、`=`、`>`、`in []`
`parse`	從非結構化 log 擷取欄位	glob pattern 用 `*`、regex 用 `/pattern/`
`stats`	聚合計算	`count`、`avg`、`sum`、`min`、`max`、`pct`
`sort`	排序	預設 `@timestamp desc`
`display`	只顯示指定欄位（跟 `fields` 互補）	用在 `stats` 後只要看聚合結果

JSON 自動解析

CloudWatch Logs 會自動辨識 JSON 格式的 log event。JSON 欄位用 dot notation 存取：

1fields @timestamp, requestId, level, message
2| filter level = "ERROR"
3| stats count(*) by bin(5m)

如果 log 是 JSON 格式，parse 通常不需要 — 直接用欄位名稱。混合格式（部分 JSON、部分 plain text）時，需要用 isPresent() 判斷欄位是否存在。

效能考量

Logs Insights 的查詢成本按掃描的 data 量計費（每 GB scanned），不按結果數。減少掃描量的方式：

縮短時間範圍：事故判讀先查最近 30 分鐘，確認 pattern 後再擴大
指定 log group：避免對所有 log group 做全域查詢
用 limit 限制結果集大小（不影響掃描量，但減少資料傳輸）

跨 log group 查詢最多同時查 50 個 log group。超過時需要拆成多次查詢或用 subscription filter 把資料匯到集中儲存。

Retention policy

設定方式

Retention policy 在 log group 級別設定。每個 log group 可以獨立選擇 1 天到 10 年、或永不過期。

1aws logs put-retention-policy \
2  --log-group-name /prod/checkout-api/app \
3  --retention-in-days 30

常見 retention 策略按服務性質分：

服務類型	建議 retention	理由
核心交易路徑（checkout、payment）	90-365 天	事故回溯、合規稽核
一般 API 服務	30-90 天	事故回溯足夠，cost 可控
Background job / worker	14-30 天	失敗時看最近數天即可
Lambda / short-lived function	7-14 天	高量低價值，過期快速清理
Audit log	365 天以上或永不過期	法規要求，見 4.12 Audit Log Governance

未設定 retention 的 log group 預設永不過期 — 這是 CloudWatch 日誌成本超支的常見原因。新 log group 建立後應立即設定 retention。

FinTech 合規場景的 log group 分離

FinTech 審計證據案例揭露一個常見問題：audit log 跟 operational log 混在同一個 log group，retention 只能統一設定。結果要嘛 operational log 為了合規被迫留太久（成本浪費）、要嘛 audit log 跟著 operational log 的短 retention 被刪掉（合規風險）。

CloudWatch 的 log group 設計天然支援這種分離 — audit log 跟 operational log 用不同 log group、各自設定 retention：

Log 類型	Log group 命名	Retention	Log class
交易 audit log	`/prod/checkout-api/audit`	2555 天（7 年）	Infrequent Access
Application operational log	`/prod/checkout-api/app`	30 天	Standard
Access log（ALB / API Gateway）	`/prod/checkout-api/access`	90 天	Standard

Audit log group 的額外治理：

IAM 權限分離：audit log group 的讀取權限（logs:GetLogEvents）限縮到 compliance team 跟 security team，application developer 只能讀 operational log group。避免 audit log 被隨意查詢或汙染
Immutability：CloudWatch Logs 本身不支援 WORM（write once read many），合規要求 immutable 存檔時用 subscription filter 把 audit log 同步送到 S3 + Object Lock
Cross-account 集中：audit log 的 cross-account aggregation（見下方段落）的 IAM 權限要比 operational log 嚴格 — aggregated sink 的 destination 只能由 security team 控制

Infrequent Access log class

CloudWatch Logs 提供兩種 log class：Standard（完整查詢、即時 subscription filter、metric filter）跟 Infrequent Access（僅支援 Logs Insights 查詢、不支援即時 subscription filter 跟 metric filter、ingestion 成本約降 50%）。

Audit log 的存取模式通常是「寫入頻繁、查詢極少（只在稽核或事故時才查）」— 正好符合 Infrequent Access 的定位。把 7 年 retention 的 audit log group 設成 Infrequent Access，ingestion 成本直接砍半。

注意 Infrequent Access 的限制：不能用 subscription filter 即時轉發到 Lambda 或 Kinesis，不能用 metric filter 從 log 產生 CloudWatch metric。如果 audit log 需要即時異常偵測（例如偵測大量失敗交易），要用 Standard class + subscription filter 做即時處理、再用 Lambda 寫到長期 audit log group（Infrequent Access）。

自動化套用

用 AWS Config rule 或 CloudFormation / CDK 的 log group 定義統一設定 retention。Lambda function 自動建立的 log group 不會自動套用 retention，需要額外自動化（Lambda post-hook 或 EventBridge rule + Lambda 設定 retention）。

Cross-account log aggregation

架構模式

多帳號環境下，常見做法是設立一個「觀測帳號」（observability account），把其他帳號的 logs 匯入。

兩種匯入方式：

Subscription filter + Kinesis Data Firehose：每個 source 帳號的 log group 設 subscription filter，把 log event 送到 observability 帳號的 Kinesis Data Firehose，再寫到 S3 或 OpenSearch。適合需要長期存檔或進階查詢的場景。

CloudWatch cross-account observability：AWS 原生功能，在 monitoring account 直接查詢 source accounts 的 CloudWatch 資料（metrics、logs、traces）。設定較簡單，但查詢延遲較高，且 Logs Insights 的 cross-account 查詢有 region 限制。

匯入方式	適合場景	限制
Subscription filter + Firehose	需要 S3 archive、OpenSearch 全文搜尋、離線分析	每個 log group 最多 2 個 subscription filter
Cross-account observability	只需要 CloudWatch console 統一查詢	同 region 限制、查詢延遲較高

Subscription filter 實務

Subscription filter 可以把 log event 送到 Lambda（即時處理）、Kinesis Data Stream（緩衝）、Kinesis Data Firehose（直接寫 S3/OpenSearch）或另一個 log group。

每個 log group 最多 2 個 subscription filter — 這是硬限制。如果同一個 log group 需要同時送 S3 archive 跟即時 alerting，要用 Kinesis Data Stream 做 fan-out，讓 stream 下游各自消費。

filter pattern 語法支援 JSON 欄位匹配：

1{ $.level = "ERROR" }

只把 ERROR 級別的 log 送到 alerting pipeline，可以大幅降低下游處理量跟成本。

Cost governance

計費結構

CloudWatch Logs 的成本由三個維度組成：

計費項目	計費方式	常見比例
Ingestion	每 GB ingested	通常佔 50-70%
Storage	每 GB-month stored	通常佔 20-40%
Query（Logs Insights）	每 GB scanned	通常佔 5-15%

Ingestion 是最大成本。降低 ingestion 的手段：

調整 log level：production 只保留 INFO 以上，DEBUG 只在問題排查時短暫開啟
去除重複資訊：access log 跟 application log 不要記錄相同欄位
用 metric filter 替代 log query：高頻計數（error count、request count）用 CloudWatch Metric Filter 從 log 產生 metric，查詢成本從 log scan 轉成 metric query

成本觀測

用 CloudWatch 自己的 metric 觀測 log 成本：

IncomingBytes（per log group）：監控哪個 log group ingestion 最大
IncomingLogEvents（per log group）：監控 event 數量
AWS Cost Explorer 按 CloudWatch 拆分：看 log ingestion vs storage vs API call 的比例

降本決策樹

判斷成本是否合理的順序：

最大 ingestion 的 log group 是哪個？是否合理（核心服務的 access log 量大是正常的）
Retention 是否都有設定？未設定的 log group 會持續累積 storage 成本
是否有 DEBUG 級別 log 在 production 長期開啟？
是否有 subscription filter 把全量 log 送到外部？能否加 filter pattern 只送需要的部分

整合與下一步

觀測管線整合：CloudWatch Logs → Subscription Filter → Kinesis Firehose → S3 / OpenSearch，見 4.11 Telemetry Pipeline
Audit log 治理：合規場景的 log retention 跟 access control，見 4.12 Audit Log Governance
Evidence package：把 Logs Insights query link 跟時間窗放進 evidence，見 4.20 Observability Evidence Package
OTel 整合：ADOT 可以把 log 送到 CloudWatch Logs 或其他 backend，見 OpenTelemetry Collector 部署模式

Datadog 成本治理與 Agent 配置

Mon, 22 Jun 2026 00:00:00 +0000

本文是 Datadog 的 vendor deep article，深化 overview 的成本跟 Agent 段。初次接觸 Datadog 的讀者建議先讀 Datadog 服務頁。

定位

Datadog 是全託管觀測平台，涵蓋 metrics、logs、traces、profiling、RUM、synthetic monitoring。託管方案的核心取捨是「零運維但成本跟用量成正比」— 用得越多付得越多，而且計價維度多（host、custom metric、log ingestion、span、indexed span），成本治理需要理解每個維度的計價模型。

計價模型概覽

Datadog 的主要計價維度：

維度	計價方式	常見失控來源
Infrastructure host	每 host/月	Auto-scaling 造成 host 數量波動
Custom metrics	每 unique time series/月	Label 爆炸（同 cardinality 問題）
Log ingestion	每 GB ingested/月	Debug log level 忘記關
Log indexed retention	每 million events × 天/月	預設 retention 太長
APM host + indexed span	每 host/月 + 每 million span	Sampling 沒設、全收
Profiling	每 host/月（APM 加購）	整體成本疊加

多數 Datadog 成本失控的根因是 custom metrics 跟 log ingestion — 兩者跟 cardinality 跟 log volume 直接相關，成長可以很快。

Custom Metrics 成本控制

什麼算 custom metric

Datadog 把每個 unique 的 metric name + tag 組合算一個 time series。http_requests_total{service=checkout, method=GET, status=200} 跟 http_requests_total{service=checkout, method=POST, status=500} 是兩個 time series。

Tag 的笛卡爾積決定 series 數量。5 個 service × 4 個 method × 5 個 status = 100 個 series。加一個 region tag（3 個值）就變 300 個。加一個 endpoint tag（50 個 normalized path）就變 15,000 個。

控制策略

Tag 白名單：跟 Prometheus 的 label 白名單邏輯相同。只保留有查詢價值的 tag — service、method、status_class（2xx/4xx/5xx）。移除 user_id、request_id、完整 URL。

Metrics without Limits：Datadog 的功能 — 在 ingestion 之後、query 之前過濾 tag。所有 tag 都收但只 index / 計費特定 tag。適合「收全量但只查部分維度」的場景。

DogStatsD 聚合：Datadog Agent 的 DogStatsD 端在 Agent 層做 pre-aggregation，把客戶端的 per-request metric 聚合成 per-interval 的摘要。減少送到 Datadog 的 data point 數量。DogStatsD 聚合在 Agent 端執行，跟 TSDB 層的 recording rule 是不同位置的 pre-aggregation 機制。

Usage attribution：Datadog 的 Usage Attribution 功能把 custom metric 成本拆到 service / team tag，讓團隊看到自己的 metric 成本。對應 4.15 cost attribution。

判讀指標

Datadog UI 的 Metric Summary 頁面顯示每個 metric name 的 tag cardinality。定期（每月）檢查 top 20 高 cardinality metric，確認是否有意外的 tag 爆炸。

Log Ingestion 成本控制

Index 策略

Datadog log 的計費分兩層：ingestion（進來就計費）跟 indexing（索引後按保留天數計費）。可以 ingest 所有 log 但只 index 部分 — 非 indexed 的 log 可以在 15 分鐘的 live tail 窗口查看，之後就看不到了（除非歸檔到 S3/GCS 做 rehydrate）。

可操作的分層：

Error / warning log：index，retention 30 天
Info log（關鍵路徑）：index，retention 7 天
Debug log：不 index、只 ingest（live tail 用）；或直接不送
Access log（高量）：不 index、歸檔到 S3、需要時 rehydrate

Exclusion filter

Datadog 的 index exclusion filter 讓特定 pattern 的 log 進入 ingestion pipeline 但跳過 index。例：health check 的 access log（path:/health）每秒數百筆但沒有 debug 價值，設 exclusion filter 讓它不佔 index quota。

Log pipeline 跟 Datadog log 的對應

4.11 telemetry pipeline 的 collector 端可以在 log 送到 Datadog 之前做 filtering — 低價值 log 直接 drop、不進 Datadog ingestion（連 ingestion 費用都省）。這比 Datadog 的 exclusion filter 更節省成本（exclusion filter 仍然計 ingestion 費用）。

Agent 部署配置

Agent 部署模式

模式	部署位置	適用場景
Host agent	每台 VM 一個 agent	傳統 VM 部署
DaemonSet agent	K8s 每個 node 一個 agent	K8s 標準部署
Sidecar agent	每個 pod 一個 agent	需要嚴格隔離時
Cluster agent	K8s cluster 一個	收集 cluster-level metric

多數 K8s 部署用 DaemonSet + Cluster Agent 組合。DaemonSet agent 收集 node-level 跟 pod-level 的 metric / log / trace；Cluster Agent 收集 cluster-level 的 metadata 跟 event。

Agent 健康判讀

Agent 本身需要被監控 — Agent 故障時 Datadog 看到的是「資料消失」而非「Agent 掛了」。

判讀指標（Agent 自帶）：

datadog.agent.running：Agent process 是否存活
datadog.agent.check_run：各 integration check 是否正常
datadog.dogstatsd.packets.dropped：DogStatsD buffer 滿時丟棄的封包數

Agent 掛掉時 dashboard 會出現 gap（資料斷層）。如果所有 host 同時斷層、問題在 Datadog backend；如果特定 host 斷層、問題在該 host 的 Agent。

常見 Agent 故障

CPU / memory over-consumption：Agent 開太多 integration check 或 DogStatsD 收太多 custom metric。修復：減少 check 數量、調整 DogStatsD 的 aggregation interval、或升級 Agent 版本（新版通常更節省資源）。

Log collection 延遲：Agent 的 log tail 落後，log 到達 Datadog 的延遲增加。原因通常是 log rotation 設定跟 Agent 的 tail 設定不一致，或 log 量突然爆增超過 Agent 的處理能力。

Network connectivity：Agent 到 Datadog intake endpoint 的網路問題。Agent 會 buffer 資料並重試，但 buffer 滿（預設 100MB）後會 drop。在網路不穩的環境（edge location、受限網路），需要加大 buffer 或設定 proxy。

跟 OTel 的整合

Datadog 支援 OpenTelemetry — 可以用 OTel SDK instrumentation + OTel Collector，把資料送到 Datadog backend。這種模式讓 instrumentation 跟 vendor 解耦，但犧牲部分 Datadog-native 功能（例如 Watchdog anomaly detection 需要 Datadog Agent 的 metadata）。

整合模式的選擇跟 4.C7 Datadog OTel migration practice 的案例分析對應 — 雙軌期的成本跟語意對齊是主要挑戰。

下一步路由

Datadog 服務頁：overview 跟日常操作
4.7 cardinality：cardinality 治理的完整策略
4.15 cost attribution：成本歸因的組織治理
4.C7 Datadog OTel migration：Datadog 跟 OTel 的整合案例
OpenTelemetry：vendor-neutral instrumentation

High-Cardinality Query Model 與 BubbleUp

Mon, 22 Jun 2026 00:00:00 +0000

本文是 Honeycomb 的 vendor deep article，深化 overview「BubbleUp 分析」跟「Events vs metrics 心智模型」段。初次接觸 Honeycomb 的讀者建議先讀 Honeycomb 服務頁。

問題情境

Metrics-based 觀測系統有一個結構性限制：metric 在寫入前就做了 aggregation，之後只能沿著預先定義的 label 維度查詢。當事故需要按 user_id、request_id、feature_flag_variant 或 deployment_version 定位時，metrics 系統要嘛沒有這些維度（label cardinality 會爆），要嘛需要事先知道要看哪個維度（但事故通常是 unknown-unknowns）。

Honeycomb 用 event-based 模型解決這個問題 — 每一筆 event（通常是一個 trace span）帶幾十個 attribute，查詢時才決定 group by 哪些維度。BubbleUp 進一步自動找出區隔 outlier 跟 baseline 的 attribute，讓工程師不需要事先猜測問題維度。

理解 Honeycomb 的資料模型、查詢設計跟 BubbleUp 的工作方式，才能判斷什麼場景下 Honeycomb 比 metrics-first 系統更有效、什麼場景下 metrics-first 仍然是對的選擇。

核心概念

Event-based 資料模型

Honeycomb 的儲存引擎是 column store — 每一筆 event 是一列、每一個 attribute 是一欄。寫入時不做 aggregation，查詢時才 group by / filter / aggregate。

跟 metrics-first 系統的根本差異：

面向	Metrics-first（Prometheus）	Event-based（Honeycomb）
寫入時	按 label 組合 aggregate 成 time series	存原始 event、帶所有 attribute
查詢時	只能沿既有 label 維度查詢	任意 attribute 組合 group by
Cardinality	label 組合數 = time series 數、有上限	Attribute 組合數不影響儲存結構
成本模型	按 time series 數計費	按 events volume 計費
適合	已知維度的趨勢監控	unknown-unknowns 的事故偵錯

一筆 checkout event 在 Honeycomb 可能帶 30+ 個 attribute：service.name、http.method、http.status_code、http.url、user_id、tenant_id、region、deployment_version、feature_flag.variant、db.duration_ms、cache.hit、payment.provider、error.message 等。在 Prometheus 上，user_id 跟 tenant_id 是不能當 label 的（cardinality 爆）；在 Honeycomb 上，它們只是多一欄。

BubbleUp 的工作方式

BubbleUp 是 Honeycomb 的自動異常歸因功能。操作流程：

在 heatmap 上框選異常區域（例如 latency spike 的時間段跟數值範圍）
BubbleUp 把框選區域的 events（outlier set）跟框外 events（baseline set）做統計比較
對每一個 attribute，計算兩組 events 的分布差異（Honeycomb 使用 distribution divergence 量度）
排序差異最大的 attribute 顯示在面板上

BubbleUp 的價值在於它跳過了「猜測哪個維度有問題」的步驟。傳統 metrics dashboarding 需要工程師先想到「可能是某個 region 的問題」→ 加 region filter → 確認。BubbleUp 直接告訴你「outlier set 跟 baseline set 在 region、deployment_version、payment.provider 三個維度上分布最不同」。

BubbleUp 的限制：它需要足夠的 event 量才能做統計比較。低 QPS 服務（< 1 event/sec）在短時間窗內可能沒有足夠的 outlier events。它也不處理因果關係 — 分布差異最大的 attribute 不一定是 root cause，可能是 correlated symptom。

SLO 與 Burn Rate Alert

Honeycomb 的 SLO 功能把 service-level indicator 定義成一個 query、目標成功率定義成 SLO threshold、窗口跟 burn rate 用來觸發 alert。

SLO 設定要素：

SLI query：定義「成功」的條件。例如 WHERE duration_ms < 500 AND http.status_code < 500。
SLO target：例如 99.9%。
Window：通常 30 天 rolling window。
Burn rate alert：multi-window multi-burn-rate。1 小時窗口看快速 burn（14.4x burn rate）、6 小時窗口看中速 burn（6x）、3 天窗口看慢速 burn（1x）。

跟 Prometheus-based SLO 的差異：Prometheus SLO 通常用 recording rule 預先計算 error budget remaining，alert 基於 recording rule 結果。Honeycomb SLO 直接在 event 上做即時計算，不需要 recording rule。代價是 Honeycomb 的 SLO 計算跟平台綁定、不可搬。

對應 burn-rate 概念跟 4.6 SLI/SLO signal 的訊號設計。

配置 step-by-step

Derived Columns

Derived columns 是在 Honeycomb 查詢層建立的計算欄位，不改變原始 event。

常用場景：

Duration bucket：IF(LTE($duration_ms, 100), "fast", IF(LTE($duration_ms, 500), "normal", "slow")) — 把連續數值轉成 category、方便 group by
Error classification：IF(GTE($http.status_code, 500), "server_error", IF(GTE($http.status_code, 400), "client_error", "ok")) — 對 status code 做語意分類
Feature flag analysis：CONCAT($service.name, "-", $feature_flag.variant) — 組合 attribute 做 A/B 比較

Derived columns 的效能影響：它們在查詢時計算，不佔 ingestion 或 storage。但複雜的 derived column expression 會增加查詢 latency。

Dataset 設計

Honeycomb 的 dataset 是資料隔離的單位。設計決策：

Option A：per-environment dataset（production / staging / dev 各自獨立）。優點是查詢預設在單一環境、不需要每次加 environment filter。缺點是跨環境比較需要切換 dataset。

Option B：per-service dataset（checkout-api / payment-adapter / notification-service 各自獨立）。優點是單一服務的查詢效能好（資料量小）。缺點是跨服務 trace 需要用 trace view 跨 dataset 查。

Option C：single dataset per environment（production 一個大 dataset、所有服務混在一起）。優點是跨服務查詢不需切換、BubbleUp 能跨服務比較。缺點是資料量大、查詢稍慢、不同服務的 attribute 不一致可能造成混淆。

Honeycomb 推薦 Option C — 把同一環境的所有服務放同一個 dataset。理由是 BubbleUp 跟 trace view 的跨服務能力是 Honeycomb 的核心價值，拆太細會削弱這個優勢。用 service.name attribute 做 per-service filter。

OTLP Ingestion

Honeycomb 原生接受 OTLP（gRPC 跟 HTTP）。應用程式用 OTel SDK 產生 traces / logs、設定 OTLP endpoint 為 api.honeycomb.io:443、帶 API key header。

1# OTel Collector config example
2exporters:
3  otlp:
4    endpoint: "api.honeycomb.io:443"
5    headers:
6      "x-honeycomb-team": "${HONEYCOMB_API_KEY}"
7      "x-honeycomb-dataset": "production"

OTel SDK 跟 Honeycomb Beeline SDK 的選擇：新部署一律用 OTel SDK — vendor neutral、可搬。Beeline SDK 是 Honeycomb-specific，已進入維護模式。既有 Beeline 部署可以逐步遷移到 OTel SDK。

故障演練與邊界

Sampling 不足導致成本失控

觸發條件：高 QPS 服務（> 10K req/sec）不做 sampling、全量送 Honeycomb。

表現：月帳單高於預期。Honeycomb 按 events volume 計費、高 QPS 服務全量 ingestion 的成本可能是 Prometheus 的數倍。

修復：部署 Refinery（Honeycomb 的 tail-based sampling proxy）。Refinery 在 trace 完成後決定是否保留 — 保留所有 error trace、保留所有高 latency trace、對正常 trace 做 sampling（例如保留 10%）。Dynamic sampling 根據 traffic pattern 自動調整 sampling rate。

成本與可見度的取捨：1% sampling 意味著 99% 的正常 event 看不到。如果需要回答「過去一小時有多少 successful request」這種 count 問題，sampling 會引入統計誤差。Honeycomb 支援 sample rate annotation — query 結果會用 sample rate 做加權還原。

BubbleUp 結果不可行動

觸發條件：BubbleUp 顯示差異最大的 attribute 是「timestamp」或「trace_id」— 這些 attribute 天然在 outlier set 跟 baseline set 之間分布不同，不提供歸因資訊。

修復：在 BubbleUp 設定中排除 high-entropy attribute（trace_id、span_id、timestamp）。Honeycomb 允許設定 BubbleUp 的 ignore list。另外確保 event 帶足夠的 business-context attribute — 如果 event 只有 infra-level attribute（CPU、memory），BubbleUp 能找到的 insight 有限。

Gaming 高峰的 cardinality 情境

Gaming 案例揭露了 metrics-first 跟 event-first 系統在高峰期的根本差異。線上遊戲的賽季開跑或限時活動會讓流量在 30 分鐘內暴增 10 倍，同時 per-player、per-match-id 的 label 組合讓 Prometheus 的 active series 從 50 萬爆到 500 萬。

Prometheus 在這個場景的痛點不只是容量 — 而是 cardinality 爆炸改變了系統行為：scrape 變慢導致 metric freshness 從 15 秒退化到數分鐘、recording rule evaluation 跟不上 interval、alert 基於過期數據判斷。修法是 drop per-player label 或做 pre-aggregation、但 drop 掉之後事故時就查不到「哪個玩家的 session 異常」。

Honeycomb 的 event model 在這個場景天然有優勢 — per-player、per-match 是 event 上的 attribute，不產生 series、不影響 ingestion 效能。活動開跑時 event volume 暴增，但 Honeycomb 的 column store 只是行數增加、查詢的 IO 成本線性增長而非指數。BubbleUp 可以在高峰期直接找出「哪些 player_region × match_type 的組合延遲最高」。

代價是成本 — 10 倍的流量意味著 10 倍的 events volume、10 倍的計費。Gaming 場景通常需要搭配動態 sampling：正常 gameplay event 做 1:100 sampling、error 跟 high-latency event 全量保留。Refinery 的 tail-based sampling 在這裡是必備元件。

Honeycomb vs Prometheus 的共存

Honeycomb 不取代 Prometheus — 兩者解決不同問題。Prometheus 適合已知維度的趨勢監控（error rate dashboard、capacity trending、SLO burn rate），Honeycomb 適合 unknown-unknowns 的事故偵錯。

共存模式：application 用 OTel SDK 同時產生 metrics（→ Prometheus）跟 traces（→ Honeycomb）。Alerting 在 Prometheus 側（因為 metrics aggregation 穩定且成本低），深度偵錯在 Honeycomb 側。

雙工具成本治理模式

觀測成本治理案例提出一個在中大型團隊反覆驗證的分工：Prometheus 負責 golden signals（低 cardinality、固定 recording rules、成本可預測），Honeycomb 負責 high-cardinality debug（按需查詢、pay per event）。

這個分工的成本結構：Prometheus 的成本隨 active series 數量增長（cardinality-driven）、Honeycomb 的成本隨 event volume 增長（traffic-driven）。兩者的成本 driver 不同、scaling curve 不同 — Prometheus 在 series 爆炸時成本失控、Honeycomb 在 QPS 暴增時成本失控。把兩者放在一起、用各自的成本 sweet spot 互補、比只買一家更能控制總成本。

判讀自己是否需要雙工具的訊號：Prometheus dashboard 已經穩定、但事故時仍需要 20+ 分鐘才能定位到具體 user / request / deployment_version — 這 20 分鐘就是 Honeycomb 的價值。如果事故定位都能在 5 分鐘內靠 Prometheus label 完成，不需要加 Honeycomb。

容量與成本

Honeycomb 的計費基於 events volume（per million events ingested per month）。Event 的大小（attribute 數量）不直接影響計費（目前模型按 event 筆數、不按 payload size）。

成本治理手段：

Sampling：最直接。10% sampling = 成本降 90%。用 Refinery 做 tail-based sampling 保留重要 trace。
Attribute 精簡：減少不需要的 attribute 不直接降成本（按筆數計費），但能加快查詢。
Dataset 合併：多個小 dataset 合併成一個不影響成本，但能改善 BubbleUp 的統計品質。
Team plan vs Enterprise：不同 plan 的 retention 跟 query 配額不同。

跟 Prometheus 的成本比較：Prometheus 按 time series 數量計（self-host 的話是 infra 成本），Honeycomb 按 event 數量計。高 QPS + 低 cardinality 場景、Prometheus 成本優勢明顯。高 cardinality + 需要深度偵錯場景、Honeycomb 的 event cost 換到的是 BubbleUp 跟 arbitrary group by 的能力。

不同規模的成本形態

規模	月 event 量	預估月成本範圍	成本治理重點
小型（1-5 服務、< 1K QPS）	< 50M events	Free tier 或低帳單	不需特別治理
中型（10-30 服務、1-10K QPS）	50M-500M events	中等（依 plan）	Refinery sampling 開始有 ROI
大型（50+ 服務、10K+ QPS）	1B+ events	高（需要 Enterprise plan）	Refinery + 動態 sampling 必備、跟 Prometheus 分工控制總成本

大型場景的成本治理核心是 sampling 策略 — 全量 ingestion 的成本通常不可接受。Refinery 的 tail-based sampling 讓 error trace 跟 high-latency trace 全量保留、normal trace 做 1:10 到 1:100 sampling。Sampling rate 的選擇取決於「事故時需要多少正常 trace 做 baseline 比對」— BubbleUp 需要足夠的 baseline events 才能計算分布差異，sampling 太激進會讓 BubbleUp 的統計品質下降。

經驗值：保留至少 5-10% 的正常 trace、同時全量保留所有 error / slow trace。在 Gaming 案例的高峰期，正常 trace 的 sampling 可以暫時降到 1%（高峰流量 10 倍、1% sampling 仍有大量 baseline events），高峰結束後恢復到 10%。動態 sampling 根據當前 QPS 自動調整 — Refinery 的 DynamicSampler 會根據 key field（service.name + http.status_code）的分布自動決定 sample rate。

整合與下一步

Honeycomb 服務頁：overview 與日常操作
4.7 cardinality 治理：cardinality 在 metrics-first 跟 event-first 系統的不同治理策略
4.6 SLI/SLO signal：SLO / burn rate 的訊號設計
OpenTelemetry：OTLP ingestion 的上游標準
Prometheus：共存模式中的 metrics 面
4.C2 Gaming peak cardinality：high-cardinality 場景的案例回寫

Index Lifecycle Management 與 Log Pipeline

Mon, 22 Jun 2026 00:00:00 +0000

本文是 Elastic Stack 的 vendor deep article，深化 overview「Index Lifecycle Management」跟「採集 pipeline」段。初次接觸 Elastic 的讀者建議先讀 Elastic Stack 服務頁。

問題情境

Elastic Stack 部署後，工程師通常能快速搜尋到 log。問題出在規模成長後：index 數量膨脹導致 cluster 效能退化、disk 滿了才發現沒有 lifecycle policy、shard 太小或太大造成查詢效能不均、採集 agent 的選擇在 Beats / Logstash / Elastic Agent / Fluent Bit 之間搖擺不定。ILM 跟 log pipeline 設計是 Elastic Stack 從「能用」到「可治理」的關鍵步驟。

核心概念

Data Stream vs Index Alias

Elasticsearch 7.9+ 引入 data stream，取代傳統 index alias + rollover 模式。兩者的核心差異：

Data stream 是 append-only 的 time-series 資料結構。每個 data stream 下有多個 backing index，由 ILM 自動管理 rollover。寫入只能 append（沒有 update / delete single document），適合 log、metrics、traces。

Index alias 是傳統模式 — 手動建立 write alias 指向 current index，配合 ILM rollover action 觸發新 index 建立。支援 update / delete，適合需要修改文件的場景（例如 enrichment pipeline 的 lookup index）。

選擇判讀：time-series 資料（log / metrics / APM trace）一律用 data stream。需要文件修改的 reference data、lookup table 用 index alias。新部署預設用 data stream，除非有明確理由。

ILM Policy 設計

ILM（Index Lifecycle Management）把 index 的生命週期分成五個 phase：

Hot phase：active write + 高頻查詢。Index 在 hot data node 上，用 SSD。Rollover 條件觸發後，current index 變 read-only，新 index 繼續寫入。

Warm phase：read-only + 中頻查詢。Index 搬到 warm data node（可以是 HDD 或較便宜的 SSD）。通常在 rollover 後 1-7 天觸發。可以執行 force merge（減少 segment 數量、提升查詢效能）跟 shrink（減少 shard 數量）。

Cold phase：searchable snapshot + 低頻查詢。Index 轉成 partial searchable snapshot，資料存在 object storage（S3 / GCS / Azure Blob），本地只保留 cache。查詢可用但較慢。適合 30 天到 1 年的保留。

Frozen phase：fully mounted searchable snapshot + 極低頻查詢。資料完全在 object storage，本地無 cache。查詢最慢但成本最低。適合 1 年以上的合規保留。

Delete phase：刪除 index。保留期到期後自動清理。

 1PUT _ilm/policy/application-log-policy
 2{
 3  "policy": {
 4    "phases": {
 5      "hot": {
 6        "actions": {
 7          "rollover": {
 8            "max_primary_shard_size": "30gb",
 9            "max_age": "1d"
10          }
11        }
12      },
13      "warm": {
14        "min_age": "3d",
15        "actions": {
16          "forcemerge": {"max_num_segments": 1},
17          "shrink": {"number_of_shards": 1}
18        }
19      },
20      "cold": {
21        "min_age": "30d",
22        "actions": {
23          "searchable_snapshot": {
24            "snapshot_repository": "s3-repo"
25          }
26        }
27      },
28      "delete": {
29        "min_age": "365d",
30        "actions": {"delete": {}}
31      }
32    }
33  }
34}

Rollover 條件的選擇：max_primary_shard_size 比 max_size 更精確（直接控制單一 primary shard 大小）。目標是每個 primary shard 在 20-50 GB 之間。太小（< 5 GB）造成 shard 過多、cluster state 膨脹；太大（> 50 GB）造成 recovery 慢、query 效能下降。

儲存成長回推 lifecycle 設計

Discord 儲存成長案例揭露一個在快速成長服務反覆出現的模式：資料量倍增後才發現 ILM 的 hot → warm → cold 邊界不對、hot tier 佔比過高是最常見的成本問題。

問題的根源是 ILM policy 在服務初期設計、之後沒有隨資料量調整。一個服務從 10 GB/day 成長到 100 GB/day 時：

Hot tier 膨脹：原本 hot phase 設 7 天、10 GB/day × 7 天 = 70 GB。成長到 100 GB/day 後、hot tier 變成 700 GB、SSD 成本是原來的 10 倍
Warm tier 延遲啟動：如果 warm phase 的 min_age 仍然是 7 天、資料在最貴的 tier 停留太久
Cold/frozen phase 未啟用：初期資料量小時 cold phase 看不到成本效益、成長後才發現 30 天以上的資料全在 warm tier SSD 上

修法是把 ILM review 放進服務的 capacity review cadence（季度或半年）。Review 時看三個指標：hot_data_size / total_data_size（hot tier 佔比超過 30% 就該重新評估）、warm_tier_age_distribution（warm tier 是否堆了太多舊資料）、monthly_storage_cost_trend（成本是否跟資料量同比例增長）。

Searchable snapshot（cold/frozen phase）是成本降幅最大的一步 — 資料從 local SSD 搬到 object storage，儲存成本降 70-90%。但搬遷後查詢延遲從 ms 退化到秒級。判讀「什麼資料該移」的訊號是該 index 在過去 30 天的查詢頻率 — 沒被查過的 index 留在 warm tier 是浪費。

採集 Pipeline：Beats vs Elastic Agent vs 第三方

採集工具	定位	適用場景	管理模式
Filebeat	單用途 log 採集	成熟穩定、資源消耗低、K8s 環境輕量	手動 config / ConfigMap
Metricbeat	單用途 metrics 採集	host / container / service metrics	手動 config
Elastic Agent	統一採集 agent	logs + metrics + security + APM、Fleet 集中管理	Fleet Server 集中
Logstash	重型 ETL pipeline	複雜 parsing / enrichment / 多 output	手動 config
Fluent Bit / Vector	第三方輕量 agent	多 destination、低 resource、OTel 整合	手動 config

選擇判讀：

新部署、想要集中管理：Elastic Agent + Fleet。Fleet Server 提供 policy 集中推送、版本升級、health monitoring。代價是 Fleet Server 自身需要維運。
既有 Beats 部署、穩定運行：不急著遷移。Elastic Agent 的 Beats integration 內部仍用 Beats 引擎。
K8s 環境、resource 敏感：Filebeat DaemonSet。資源消耗 ~50-100 MB per node，比 Elastic Agent 低。
多 destination（ES + S3 + Kafka）：Logstash 或 Vector。Beats 的 output 只能寫一個 destination（除非用 output plugin hack）。
已有 OTel Collector：OTel Collector 可以直接把 log 送到 Elasticsearch（OTLP exporter 或 Elasticsearch exporter），不需要額外 Beats。

配置 step-by-step

Ingest Pipeline 設計

Ingest pipeline 在 Elasticsearch 層做 log 的 parsing 跟 enrichment，在 index 前處理。

常用 processor：

grok：regex pattern 解析非結構化 log。適合 nginx access log、syslog 等固定格式。
dissect：delimiter-based parsing。比 grok 快 5-10 倍，但只能處理固定 delimiter 格式。
date：把 log 中的 timestamp string 解析成 @timestamp。
geoip：IP 地址轉地理位置。
script：Painless script 做自訂轉換。效能代價高，只在其他 processor 做不到時使用。
set / rename / remove：field 操作。

Pipeline 設計原則：先用 dissect（快）、dissect 做不到才用 grok（慢）。Pipeline 中的 processor 數量跟複雜度直接影響 ingest 吞吐。高 volume 場景（> 10K events/sec per node）要做 ingest pipeline benchmark。

Mapping Template 與 Dynamic Mapping 治理

Mapping template 定義 index 的 field type。Dynamic mapping 對未知 field 自動建立 mapping — 這是 Elastic 的便利功能，也是最常見的治理問題。

Dynamic mapping 風險：application log 帶 arbitrary JSON payload，dynamic mapping 對每個 key 建立 field mapping。一個 log 帶 100 個 unique key → 100 個 field mapping。大量 unique key 會導致 mapping explosion（field 數量爆、cluster state 膨脹、query routing 變慢）。

治理策略：

用 dynamic: strict 或 dynamic: false（strict = 拒絕未定義 field、false = 接受但不 index）
在 mapping template 明確定義已知 field，用 dynamic_templates 控制未知 field 的行為
對 arbitrary JSON payload 用 flattened field type（ES 7.3+）— 整個 JSON 存為 keyword，可查但不逐 key index

 1PUT _index_template/app-logs
 2{
 3  "index_patterns": ["app-logs-*"],
 4  "template": {
 5    "mappings": {
 6      "dynamic": "strict",
 7      "properties": {
 8        "@timestamp": {"type": "date"},
 9        "message": {"type": "text"},
10        "log.level": {"type": "keyword"},
11        "service.name": {"type": "keyword"},
12        "trace.id": {"type": "keyword"},
13        "metadata": {"type": "flattened"}
14      }
15    }
16  }
17}

Shard Sizing

Shard sizing 是 Elastic Stack 效能的核心變數。

目標：每個 primary shard 20-50 GB（Elastic 官方建議）。每個 data node 管理的 shard 數量上限約 20 per GB heap（預設 heap 一般設 30 GB → ~600 shard per node）。

場景	日 ingest 量	primary shard 數	rollover 頻率	建議
小型（< 10 GB/day）	5 GB	1	每天或 max_size 30 GB	簡單 ILM 即可
中型（10-100 GB/day）	50 GB	2-3	每天	warm + cold ILM
大型（100+ GB/day）	500 GB	10-15	每小時或 max_size 30 GB	hot-warm-cold-frozen 全用

Shard 過多的症狀：cluster state 過大（_cluster/stats 的 indices.shards.total 數千或數萬）、master node CPU 高（維護 cluster state）、recovery 慢。

Shard 過大的症狀：single shard query 慢（> 500ms for simple filter）、segment merge 時間長、recovery 時單一 shard 復原需要數分鐘。

Shard count 治理

大量 index 場景（微服務架構下每個服務每天產生一個 data stream backing index）容易累積過多 shard。一個 50 服務的組織、每個服務每天 rollover 一次、primary + 1 replica = 100 shard/day。30 天後 hot + warm tier 有 3000 個 shard。

Elasticsearch 的經驗法則是每個 data node 管理的 shard 數量上限約 20 per GB heap。30 GB heap 的 node 約能管 600 個 shard。3000 個 shard 需要至少 5 個 data node 才不觸發效能退化。

降低 shard 數量的手段：

ILM shrink action：warm phase 把 primary shard 數量縮減（例如 3 → 1）。適合查詢頻率下降的舊 index
延長 rollover 週期：如果單個服務的日資料量只有 1-2 GB，每天 rollover 產生的 shard 太小。調整 rollover 條件為 max_primary_shard_size: 30gb（讓系統自動決定 rollover 時機）而非固定 max_age: 1d
合併小服務：QPS 很低的服務共用同一個 data stream（用 service.name field 區分），減少 data stream 數量

監控指標：_cat/health 的 active_shards 持續觀察趨勢。設 alert 在 shard count 超過 data_node_count × 500 時通知（留 buffer 給 recovery 跟 rebalance）。

故障演練與邊界

ILM rollover 沒觸發

觸發條件：ILM policy 已設定但 rollover action 沒有執行。常見原因：index 沒有正確關聯到 ILM policy、或 ILM 被暫停（_ilm/stop）。

判讀：用 GET /_ilm/explain 看 ILM 狀態。managed: false 代表 index 不受 ILM 管理。step: ERROR 代表 ILM 卡在某個 action。

修復：確認 index template 的 index.lifecycle.name 指向正確的 ILM policy。如果 ILM step error，用 POST /_ilm/retry 重試。

Searchable snapshot 查詢延遲高

觸發條件：cold / frozen phase 的 searchable snapshot index 被高頻查詢。

表現：query latency 從 ms 級退化到秒級。原因是每次查詢需要從 object storage（S3 / GCS）拉資料。

修復：cold phase 有 local cache、查重複 query 較快；frozen phase 無 cache、每次都拉。如果查詢頻率高到需要 sub-second 回應，這些 index 不應該在 cold/frozen phase — 調整 ILM policy 的 min_age 讓它們留在 warm phase 更久。

Cross-cluster search vs replication

Cross-cluster search（CCS）：查詢時 fan-out 到遠端 cluster。適合偶爾跨 cluster 查詢、不需要常駐複製。代價是查詢 latency 包含跨 cluster 的網路延遲。

Cross-cluster replication（CCR）：把 index 從 leader cluster 持續複製到 follower cluster。適合 DR、地理就近讀取。代價是複製的 storage 跟網路頻寬成本。

選擇判讀：「偶爾查」→ CCS。「需要低延遲讀 + DR」→ CCR。兩者可以並存。

容量與成本

Elastic Stack 的成本由三個維度決定：

License tier：Basic（免費、含 ILM / data streams）→ Gold（ML / alerting）→ Platinum（SIEM / endpoint）→ Enterprise。Elastic Cloud 的計費另加 infrastructure cost。

Data tier storage：hot tier 用 SSD（最貴）、warm tier 用 HDD 或便宜 SSD、cold/frozen tier 用 object storage（最便宜）。ILM 的 phase 設計直接影響 storage cost。

Node 數量：每增加 data node 增加 compute 成本。Shard sizing 跟 ILM 設計決定需要多少 node。

成本最佳化優先序：

ILM + searchable snapshot：30 天後移到 cold/frozen，storage 成本降 70-90%
Shard sizing：避免 shard 過多造成的 cluster overhead
Ingest pipeline：在 ingest 層 drop 不需要的 field，減少 index size
Mapping 治理：避免 mapping explosion 造成的 cluster state overhead
Retention policy：明確設定 delete phase，不讓過期資料佔空間

整合與下一步

Elastic Stack 服務頁：overview 與日常操作
4.11 telemetry pipeline：採集 pipeline 在觀測架構中的定位
4.17 telemetry data quality：mapping drift 跟 field missing 的資料品質面
4.C3 Healthcare retention：ILM + searchable snapshot 在合規場景的應用
Elastic Cloud migration：從自管 Elastic 遷移到 Elastic Cloud

LGTM Stack 組合運維：Loki + Grafana + Tempo + Mimir

Mon, 22 Jun 2026 00:00:00 +0000

本文是 Grafana Stack 的 vendor deep article，深化 overview 的元件組合段。初次接觸 Grafana Stack 的讀者建議先讀 Grafana Stack 服務頁。

定位

Grafana Stack（LGTM = Loki + Grafana + Tempo + Mimir）是自架觀測平台的完整選項，四個元件各自承擔一類訊號的儲存跟查詢。理解每個元件的責任邊界、部署模式跟故障特性，才能避免「裝了四個元件但不知道哪個壞了」的黑盒問題。

四元件的責任分工

元件	訊號類型	查詢語言	儲存後端	角色
Loki	Log	LogQL	Object storage + BoltDB	Log aggregation、grep 替代品
Mimir	Metric	PromQL	Object storage	Prometheus 的可擴展長期儲存
Tempo	Trace	TraceQL	Object storage	Trace 儲存、span 搜尋
Grafana	視覺化	—	—	Dashboard、alert、data source

Grafana 是查詢 / 視覺化層，Loki / Mimir / Tempo 是儲存 / 查詢層。Grafana 本身不存觀測資料，它連接 data source（Loki / Mimir / Tempo / Prometheus / Elasticsearch）做查詢跟渲染。

四個元件獨立部署、獨立擴展、各自有健康指標。一個元件故障不影響其他元件 — Loki 掛了時 Grafana 的 metric dashboard 跟 trace 查詢仍然正常，只有 log panel 會報錯。

部署模式

Monolithic mode

四個元件（或其中幾個）跑在同一個 process / container。適合小規模（每天數 GB log、數十萬 metric series、少量 trace）。部署最簡單 — 一個 docker-compose 或 Helm chart 起全套。

限制是沒辦法獨立擴展 — log 量大但 metric 量小時，monolithic mode 不能只加 Loki 的資源。

Microservices mode

每個元件拆成獨立的 deployment、各自 autoscaling。Loki 拆成 distributor / ingester / querier / compactor；Mimir 拆成類似的元件；Tempo 也有對應的分層。

適合中到大規模。部署跟維運複雜度顯著上升 — 每個元件的每個子服務都需要獨立的 health check、autoscaling 設定、persistent volume。

選擇判準

條件	建議模式
團隊 < 5 人、日 log < 10 GB	Monolithic
需要獨立擴展某一類訊號	Microservices
不想自管、預算足夠	Grafana Cloud
已有 Prometheus、只需要加 log / trace	漸進式加 Loki + Tempo

常見故障模式

Loki：ingester OOM

Loki ingester 把 log chunks 保存在記憶體，高流量時容易 OOM。觸發條件是突然的 log 量爆增（部署後 error storm、某服務開了 debug log level）。

判讀指標：loki_ingester_memory_chunks、process_resident_memory_bytes。修復方向：調整 chunk flush interval（更頻繁寫入 object storage、降低記憶體壓力）、加 ingester replica、或在 pipeline 層（OTel Collector）做 log volume rate limit。

Mimir：compactor 卡住

Mimir compactor 負責合併 ingester 寫入的 block。Compactor 卡住時，block 數量持續增長、query 需要掃描更多 block、延遲上升。

判讀指標：cortex_compactor_runs_completed_total 停滯、cortex_bucket_blocks_count 持續增長。修復方向：檢查 object storage 的寫入權限跟延遲、增加 compactor 資源（CPU / memory）、或暫時停止 ingestion 讓 compactor 追上。

Tempo：trace not found

使用者用 trace ID 查詢時回 “trace not found”，但 trace 確實存在。常見原因是 Tempo 的 bloom filter / compacted block index 還沒包含該 trace（ingestion 到可查詢有延遲），或 trace 被 retention policy 刪除。

判讀方式：查 trace 的 timestamp 是否在 retention 範圍內、查 tempo_ingester_traces_created_total 確認 ingestion 正常、查 compactor 是否正常運行。

Grafana：dashboard provisioning 漂移

用 provisioning（YAML / JSON 檔案）管理 dashboard 時，手動在 UI 修改的 dashboard 會在下次 provisioning 同步時被覆蓋。團隊成員在 UI 調整了 panel、下次重啟 Grafana 後修改消失。

修復方向：dashboard 修改統一透過 git → provisioning pipeline（GitOps），UI 只用於臨時調整跟探索。把 provisioning 的 allowUiUpdates 設為 false、強制所有變更走 git。

Dashboard Provisioning

Dashboard 的管理方式影響長期維護成本。手動在 UI 建立 dashboard 的起步最快，但隨 dashboard 數量增長會出現版本不一致、無法 rollback、owner 不明的問題。

Infrastructure as Code

Dashboard JSON 存在 git repo、透過 provisioning 同步到 Grafana。變更走 PR review、有版本歷史、可以 rollback。

Grafana 的 provisioning 機制讀 YAML config，指定 dashboard JSON 的來源（local file / HTTP / API）。Helm chart 部署時把 dashboard JSON 放在 ConfigMap 或 persistent volume。

Grafonnet / Jsonnet

用 Jsonnet（Grafana 的 dashboard-as-code library）產生 dashboard JSON。適合大量相似 dashboard 的場景 — 每個服務一個 dashboard，結構相同但 data source 跟 label 不同。

Grafonnet 的學習曲線比直接寫 JSON 高，但在 dashboard 數量 > 20 個時開始有維護效率的回報。

下一步路由

Grafana Stack 服務頁：overview 跟日常操作
Prometheus 服務頁：Mimir 的上游 metric 來源
OTel Collector 部署模式：LGTM 的 ingestion 入口
4.11 telemetry pipeline：pipeline 各層的治理
4.18 operating model：dashboard / alert 的 ownership

Prometheus 容量規劃與故障模式

Mon, 22 Jun 2026 00:00:00 +0000

本文是 Prometheus 的 vendor deep article，深化 overview「Cardinality 管理」跟「Memory pressure」段。初次接觸 Prometheus 的讀者建議先讀 Prometheus 服務頁。

定位

Prometheus 的容量模型跟傳統資料庫不同 — 它的容量邊界主要受 active series 數量（cardinality）跟 retention 期決定，而非資料筆數或 disk size。理解 Prometheus 的資源消耗模型，才能判斷什麼時候單機夠用、什麼時候需要 remote write 卸載或遷移到 Mimir / Thanos。

資源消耗模型

Memory：由 active series 決定

Prometheus 把近期的 time series 保存在記憶體（head block）。每個 active series 大約消耗 3-4 KB 記憶體（含 index、chunks、postings；Prometheus TSDB 的業界經驗值，實際依 label 長度與 chunk encoding 而定）。

Active series	預估 memory（head block）	適合的機器規格
10 萬	~400 MB	任何 VM
100 萬	~4 GB	8 GB VM
500 萬	~20 GB	32 GB VM
1000 萬	~40 GB	64 GB VM

這是 head block 的記憶體，不含 query execution 跟 WAL replay 的暫時開銷。Heavy PromQL query（大範圍 aggregation、多 series join）會額外消耗數 GB 的暫時記憶體。

判讀指標：prometheus_tsdb_head_series 代表當前 active series 數量，process_resident_memory_bytes 代表實際記憶體使用。兩者的比值偏離預期時（例如 50 萬 series 但記憶體用了 10 GB），可能是 query 記憶體壓力或 WAL corruption。

Disk：由 retention 期與 ingestion rate 決定

Prometheus 的 disk 消耗 = ingestion rate × retention 期 × 壓縮後每 sample 大小（約 1-2 bytes，Gorilla 壓縮算法下的業界經驗值）。

Ingestion rate	Retention	預估 disk
10 萬 samples/sec	15 天	~130 GB
10 萬 samples/sec	30 天	~260 GB
50 萬 samples/sec	15 天	~650 GB

Disk I/O 的瓶頸通常在 compaction — Prometheus 定期把 head block 壓縮成 persistent block。Compaction 期間的 disk write 跟 CPU 使用會短暫上升。SSD 環境下 compaction 通常不是問題；HDD 環境下可能造成 scrape timeout。

CPU：由 scrape 數量與 query 負載決定

Scrape 本身的 CPU 消耗不高（HTTP GET + parse），但 scrape 數量 × scrape 間隔決定了基本的 CPU 基線。1000 個 target × 15 秒間隔 = 每秒 ~67 次 scrape，單核可以處理。

Query 是 CPU 的主要消耗者。Recording rule evaluation、alert rule evaluation、dashboard panel 查詢各自佔 CPU。Recording rule 數量增長到數百條時，evaluation 的 CPU 消耗可能成為瓶頸。

判讀指標：prometheus_rule_evaluation_duration_seconds 的 p99 超過 evaluation interval 時，rule 跑不完、alert 會延遲。

Cardinality 失控的判讀

Cardinality 是 Prometheus 最常見的容量問題。一個意外的高 cardinality label（user_id、request_id、完整 URL）可以在分鐘內把 series 數從 10 萬推到 100 萬、消耗數 GB 記憶體。

判讀訊號

prometheus_tsdb_head_series 持續成長、斜率陡峭
prometheus_tsdb_head_active_appenders 成長（新 series 的寫入速率）
Prometheus 的 memory 持續上升、最終 OOM kill
Query 延遲增加（更多 series 要掃描）
Compaction 時間變長

定位方式

1# 找出哪個 metric name 的 series 最多
2topk(10, count by (__name__)({__name__=~".+"}))
3
4# 找出哪個 job（scrape target）的 series 最多
5topk(10, count by (job)({__name__=~".+"}))
6
7# 找出某個 metric 的哪個 label 組合在爆
8count by (method, status) (http_requests_total)

修復方向

Label 白名單：在 scrape config 或 relabeling rule 中 drop 高 cardinality label
Metric relabeling：metric_relabel_configs 在 scrape 後、寫入前移除特定 label
Recording rule 替代：把高 cardinality metric 聚合成低 cardinality 的 recording rule，下游只讀 recording rule
移到 traces：user_id / request_id 這類維度放在 trace 的 span attribute 而非 metric label

常見故障模式

OOM Kill

觸發條件：active series 超過記憶體容量、或 heavy query 消耗大量暫時記憶體。

表現：Prometheus process 被 kernel OOM killer 終止。重啟後 WAL replay 可能需要分鐘到十分鐘（取決於 WAL 大小），期間 scrape 跟 query 都不可用。

預防：設定 memory limit alert（process_resident_memory_bytes / machine memory > 70%）、tracking cardinality growth slope、query timeout 限制。

Scrape timeout 連鎖

觸發條件：target 的 metrics endpoint 回應慢（> scrape_timeout）、或 target 數量超過 Prometheus 的並行 scrape 能力。

表現：up metric 為 0、scrape_duration_seconds 升高、dashboard 出現資料斷層（missing data points）。大量 target 同時 timeout 時，Prometheus 的 scrape goroutine pool 被佔滿，影響其他健康 target 的 scrape。

修復：調整 scrape_timeout（預設 10s，太短會造成 false timeout）、把慢 target 移到獨立的 scrape pool、或把 metrics endpoint 的回應最佳化（減少 expose 的 metric 數量）。

WAL corruption

觸發條件：Prometheus process 非正常終止（OOM kill、機器斷電）時，WAL 可能損壞。

表現：重啟後 WAL replay 失敗、Prometheus 無法啟動。Error log 顯示 WAL corrupted 或 invalid segment。

修復：刪除損壞的 WAL segment（丟失對應時間段的資料），重啟 Prometheus。嚴重時刪除整個 data 目錄重新開始（丟失所有歷史資料）。WAL 的持久性保證不如資料庫 — Prometheus 設計上允許短暫資料丟失，長期儲存靠 remote write 到 Mimir / Thanos。

Recording rule evaluation lag

觸發條件：recording rule 數量多且表達式複雜、evaluation 時間超過 evaluation interval。

表現：prometheus_rule_group_last_duration_seconds 超過 prometheus_rule_group_interval_seconds。Dashboard 讀 recording rule 的 panel 看到的資料落後當前時間。Alert rule 也在同一個 evaluation pipeline 裡，evaluation lag 會讓 alert 延遲觸發。

修復：把重的 recording rule 拆到獨立的 rule group（各自 evaluation interval）、最佳化 PromQL expression（減少 aggregation 層數、縮小 time range）、或把 recording rule 卸載到 Mimir（ruler component 獨立擴展）。

何時該從單機 Prometheus 遷出

訊號	下一步
Active series > 500 萬、memory 吃緊（32 GB VM 上 head block ~20 GB + query overhead 接近上限）	Remote write 到 Mimir / Thanos 做長期儲存
需要跨 region / cluster 查詢	Thanos query 或 Mimir multi-tenant
Recording rule evaluation lag 持續	把 rule evaluation 卸載到 Mimir ruler
需要 HA（single Prometheus = SPOF）	兩個 instance + Thanos dedup
Retention 要 > 90 天但 disk 不夠	Remote write + 短 local retention

遷出的第一步通常是加 remote write — Prometheus 繼續本地 scrape 跟短期查詢，長期資料寫到遠端。這是最低風險的演進路徑，不需要改 scrape config 或 PromQL。

下一步路由

Prometheus 服務頁：overview 跟日常操作
4.7 cardinality：cardinality 治理的完整策略
4.2 metrics basics：recording rule 跟 rollup 的查詢面設計
Grafana Stack：Mimir 作為 Prometheus 的長期儲存後端
4.23 觀測查詢設計：recording rule 在查詢設計中的定位

Sentry Error Grouping 與 Fingerprinting 策略

Mon, 22 Jun 2026 00:00:00 +0000

本文是 Sentry 的 vendor deep article，深化 overview「Issue grouping / fingerprint」段。初次接觸 Sentry 的讀者建議先讀 Sentry 服務頁。

問題情境

Error grouping 決定 Sentry 的使用體驗。Grouping 太粗（不同 bug 被合併成同一個 issue），團隊會漏掉新問題；grouping 太細（同一個 bug 被拆成數百個 issue），issue list 變成 noise。理解 Sentry 的 grouping 演算法跟自訂 fingerprint 機制，才能讓 issue list 反映真實的 bug 數量而非 error event 數量。

預設 Grouping 演算法

Stack trace 為主

Sentry 的預設 grouping 策略以 exception type + stack trace 為核心。兩個 error event 會被歸到同一個 issue，如果它們的 exception type 相同、且 stack trace 的「相關 frame」相同。

「相關 frame」是 Sentry 的判定結果 — 它會過濾掉標準函式庫、框架內部 frame 跟已知 noise frame，只留下 application code frame。這個過濾邏輯叫 stack trace rules，由 Sentry 的 grouping 引擎自動決定。

Grouping 版本

Sentry 的 grouping 演算法有多個版本（稱為 grouping config）。新建的 project 自動用最新版（截至 2024 年是 newstyle:2023-01-11），舊 project 可能還在用舊版。升級 grouping config 會改變 issue 的歸屬 — 之前合併的 event 可能被拆開，之前分開的可能合併。

確認目前的 grouping config：Project Settings → General Settings → Event Grouping。升級前先用 Sentry 的 grouping preview 功能測試影響範圍。

非 exception 事件

沒有 stack trace 的事件（capture_message、breadcrumb-only event、CSP violation）用 message 內容做 grouping。相同 message template 的事件歸到同一個 issue。

message 中如果包含動態值（user ID、request ID、timestamp），Sentry 會嘗試辨識並忽略動態部分。但辨識不完美 — 如果 message 格式不一致，同一種錯誤可能被拆成多個 issue。

自訂 Fingerprint

何時需要自訂

預設 grouping 不夠用的常見場景：

場景	問題	Fingerprint 解法
外部 API timeout	不同 caller 的 stack trace 不同，但根因相同	用 `{{ default }}` + error type 做 fingerprint
Database connection error	每個 query 的 stack trace 不同	用 error message pattern 做 fingerprint
前端 minified code	source map 缺失導致 frame 不穩定	先修 source map 上傳，而非硬 fingerprint
Rate limit / 429 error	大量 429 拆成數百個 issue	用 HTTP status code 做 fingerprint

Server-side fingerprint rules

在 Project Settings → Issue Grouping → Fingerprint Rules 設定。語法：

 1# 所有 ConnectionError 歸成一個 issue
 2error.type:ConnectionError -> connection-error
 3
 4# 特定 message pattern 歸成一個 issue
 5message:"Rate limit exceeded*" -> rate-limit
 6
 7# 特定 module 的所有 error 歸成一組
 8module:payment.gateway.* -> payment-gateway-error
 9
10# 組合條件
11error.type:TimeoutError module:external.api.* -> external-api-timeout

Server-side rules 的優先順序：越後面的 rule 優先順序越高。如果一個 event 匹配多條 rule，用最後一條。

SDK-side fingerprint

在 SDK 的 before_send callback 中設定 event.fingerprint：

1def before_send(event, hint):
2    if "ConnectionError" in str(hint.get("exc_info", "")):
3        event["fingerprint"] = ["connection-error"]
4    return event
5
6sentry_sdk.init(dsn="...", before_send=before_send)

SDK-side 跟 server-side 的差異：

面向	Server-side rules	SDK-side fingerprint
設定位置	Sentry Web UI	程式碼
部署速度	即時生效	需要 deploy
可見性	團隊都能看到跟修改	散在程式碼裡
複雜邏輯	只支援 pattern matching	可用任意程式邏輯

優先用 server-side rules — 集中管理、即時生效。SDK-side 用在 server-side rules 表達不了的複雜邏輯。

`{{ default }}` 組合

Fingerprint 中的 {{ default }} 代表 Sentry 預設的 grouping 結果。跟自訂值組合使用：

1# 用預設 grouping + environment 維度拆分
2fingerprint: ["{{ default }}", "{{ environment }}"]

這樣同一個 bug 在 staging 跟 production 會分成兩個 issue，方便分別追蹤。

Merge 與 Unmerge

事後修正

當 grouping 不準時，Sentry 提供事後修正：

Merge：選擇多個 issue，合併成一個。合併後的 issue 保留所有 event，但只保留一個 issue ID。適合預設 grouping 太細（同一 bug 被拆成多個 issue）的情況。

Unmerge（拆分）：從一個 issue 中選擇部分 event，拆出成新 issue。適合預設 grouping 太粗（不同 bug 被合在同一個 issue）的情況。

Merge/Unmerge 的限制

Merge 跟 Unmerge 都是「貼 OK 繃」— 只影響現有 event，新進的 event 仍然用原來的 grouping 邏輯。如果根因是 grouping 太粗或太細，應該修 fingerprint rule，而非持續 merge/unmerge。

判讀順序：

發現 grouping 不準
先用 merge/unmerge 處理現有 issue（止血）
分析 root cause — 是 stack trace 不穩定、message 有動態值、還是缺 fingerprint rule
加 fingerprint rule 永久修正
驗證新進 event 的 grouping 是否正確

Grouping 不準的判讀

太細的訊號

Issue list 中出現大量「相似標題但不同 ID」的 issue
單一事件只有 1-2 個 occurrence 的 issue 大量出現
同一個使用者操作觸發的 error 被分散到多個 issue

常見原因：message 中包含動態值（user ID、timestamp、request path）、source map 缺失（前端）、stack trace 包含 generated code frame。

太粗的訊號

一個 issue 的 event 數量持續增長，但 event detail 看起來是不同問題
Issue 的 status 被 resolve 後馬上 regress，但新 event 跟原因不同
團隊 ignore 了一個「雜 issue」但裡面混著真正需要處理的 bug

常見原因：exception type 太通用（RuntimeError、Exception）、fingerprint rule 太粗（把整個 module 的 error 合成一個 issue）。

大量 Unique Errors 的治理

問題：Issue 爆量

project 的 issue 數量超過數千時，issue list 失去可操作性。on-call 打開 Sentry 看到 2000 個 unresolved issue，等於沒有 triage。

治理策略

Inbound filter：在 Project Settings → Inbound Filters 設定，丟棄已知的 noise event（browser extension error、crawler error、legacy browser error）。丟棄在 ingestion 層，不消耗 quota。

Rate limit：project 或 key 級別的 rate limit。超過限額的 event 被丟棄。適合防止單一 bug 的暴增 event 耗盡 quota，但不解決 issue 數量問題。

Alert rule 搭配 ownership：用 Sentry alert rule 把特定 tag（service、team、module）的新 issue 通知對應 team。不是所有 issue 都要同一個人看。

定期 triage cadence：每週或每兩週的 triage session，把 issue 分成 fix / ignore / merge 三類。Sentry 的 For Review tab 自動列出需要初次 triage 的 issue。

Auto-resolve：設定 auto-resolve policy — 超過 N 天沒有新 event 的 issue 自動 resolve。避免舊 issue 永遠佔據 unresolved list。

治理後的穩態

合理的穩態是：unresolved issue 數量穩定在數十到數百，每週新增 issue 跟 resolve issue 數量大致平衡。如果 unresolved 持續增長，先檢查是否有 noise event 沒被 filter，或 fingerprint 太細。

整合與下一步

Error tracking 跟 observability 的邊界：Sentry 處理 error lifecycle、metrics/logs/traces 處理系統行為，見 4.17 Telemetry Data Quality
OTel context 整合：Sentry SDK 接受 OTel trace_id / span_id，讓 error 跟 trace 關聯，見 OpenTelemetry Collector 部署模式
Release tracking 跟 session replay：見 Release Tracking 與 Session Replay
事故響應整合：嚴重 issue → alert → on-call，見 08 Incident Response 模組

OTel Collector 部署模式：agent / gateway / sidecar 與 pipeline 設計

Tue, 16 Jun 2026 00:00:00 +0000

本文是 OpenTelemetry 的 vendor deep article，深化 overview「Collector 部署模式」段。初次接觸 OpenTelemetry 的讀者建議先讀 OpenTelemetry 服務頁，再回到本文。指令於 2026-06-16 用 otel/opentelemetry-collector-contrib:0.154.0 在 docker 實機驗證。

應用程式產生的 telemetry 跟最終存放的 backend 之間需要一個中介層 — OTel Collector 就是這個中介。應用只負責用 OTLP 把資料吐給 collector，collector 負責接收、處理、轉發，兩邊解耦。部署這個 collector 的第一個決策是它擺在哪裡（同 host、集中 gateway、還是 pod sidecar），而非配置細節。位置決定了 buffer 能力、enrichment 時機與失效影響面。

問題情境：telemetry 直送 backend 的三個代價

應用程式直接用 vendor SDK 把 telemetry 送到後端，會在規模變大時撞到三個問題。第一是耦合：每個服務都寫死了某個 backend 的 endpoint 與認證，換 backend 要改所有服務重新部署。第二是缺乏 buffer：backend 短暫不可用時，telemetry 直接丟失，因為應用程式不會為了觀測資料保留重試佇列。第三是 enrichment 分散：每個服務各自加 resource attribute、各自做 sampling，標準難統一。

Collector 把這三件事收斂到一個中介層。應用只認 collector 的 OTLP endpoint，換 backend 只改 collector 配置；collector 有 queue 與重試；enrichment 與 sampling 在 collector 統一做。但這個中介層擺在哪裡，決定了它各自解掉多少。

服務數少、backend 單一且穩定時，應用直送 backend 是合理起點 — 上述三個代價在小規模下可控。Collector 是規模化後的升級：當 backend 要換、服務數成長到 enrichment 要統一、或 sampling 需求出現時，再引入 collector 補這一層。

核心概念：三種部署位置的責任分工

Collector 的部署位置分三種，差別在「離應用多近」與「聚合多少來源」。

Agent 模式把 collector 跟應用程式放在同一個 host 或同一個 K8s node（DaemonSet）。它的責任是做 local buffer 與 host 層 enrichment：應用透過 localhost 把 telemetry 吐給同機的 collector，延遲極低、不跨網路；collector 補上 host name、container id 這類只有在本機才知道的 resource attribute。agent 的價值是「離應用最近」，應用送出 telemetry 後就不必管後續，buffer 與重試由同機 collector 承擔。

Agent 解了「離應用近、不丟資料」的問題，但它只看得到本機 — 需要全域視野的處理放不進去。Gateway 模式補這一塊：把 collector 集中部署成一個獨立的服務叢集，跨多個 agent 或多個應用接收 telemetry，負責需要全域視野的處理：tail-based sampling（要看完整 trace 才決定採不採）、跨來源的 routing（不同 telemetry 送不同 backend）、集中的 rate limit 與成本控制。gateway 的價值是「集中決策」，把只有匯流後才做得到的處理放在這一層。

Sidecar 模式在 K8s 把 collector 當成跟應用 pod 同生命週期的 sidecar container。它的責任跟 agent 相似（local buffer、pod 層 enrichment），差別在隔離粒度是 pod 而非 node：比 DaemonSet agent 更貼近單一 pod（共享 pod 網路、隨 pod 起停），適合需要 pod 級獨立配置或強隔離的場景，代價是每個 pod 都多一份 collector 的資源開銷。

常見部署是兩層組合：agent（DaemonSet）做 local buffer + host enrichment，再把資料送到 gateway 叢集做 tail sampling 與 routing。agent 解掉「離應用近、不丟資料」，gateway 解掉「需要全域視野的處理」，兩層各司其職。

pipeline 模型：receivers / processors / exporters

不論擺在哪個位置，collector 的內部都是同一個 pipeline 模型：telemetry 從 receivers 進來、經過 processors 加工、由 exporters 送出。三者用 service.pipelines 依訊號類型（traces / metrics / logs）串接。以下是最小可驗證配置，三個區塊（receivers / processors / exporters）對應 pipeline 的三個階段，各自職責在後面逐段說明。這份配置在 docker 驗證過可正常啟動並端到端流通（validate --config 回傳 0、送 5 條 trace 後 debug exporter 完整輸出 spans）：

 1receivers:
 2  otlp:
 3    protocols:
 4      grpc:
 5        endpoint: 0.0.0.0:4317
 6processors:
 7  memory_limiter:
 8    check_interval: 1s
 9    limit_mib: 256
10    spike_limit_mib: 64
11  batch:
12    timeout: 5s
13    send_batch_size: 1024
14exporters:
15  debug:
16    verbosity: detailed
17service:
18  pipelines:
19    traces:
20      receivers: [otlp]
21      processors: [memory_limiter, batch]
22      exporters: [debug]

receivers 定義「資料怎麼進來」，OTLP（gRPC 4317 / HTTP 4318）是標準入口。processors 定義「資料怎麼加工」，順序有意義：memory_limiter 放最前面，先擋住記憶體爆掉；batch 放後面，把零散 span 攢成批次再送，降低下游請求數。此處 256 / 64 MiB 是 demo 用量，production 應依 container memory limit 按比例設定（常見做法是 limit_mib 設為 container memory 的 80%、spike 設為 limit 的 20-25%）。exporters 定義「資料送到哪」，正式環境會是 OTLP 到 backend 或某 vendor exporter，這裡用 debug 驗證流通。service.pipelines 才是真正生效的接線：只有被掛進某個 pipeline 的元件才會運作，定義了卻沒掛進 pipeline 的元件不生效。

processor 順序是常見踩雷點。memory_limiter 要排在第一個，讓它在資料進入後續 processor 前就有機會審查與拒收；batch 排在它之後，因為如果 batch 先跑，telemetry 會先在 batch processor 累積成大批，等觸發記憶體限制時壓力已經更高、拒收效果下降。需要 sampling 時，head sampling 可以放 agent 層的 pipeline，tail sampling 必須放 gateway 層（它要匯流完整 trace），且同一 trace 的所有 span 要路由到同一個 gateway 實例（用 trace-id 維度的 load balancing exporter），否則各 gateway 節點各看片段、tail 決策仍不完整。

Production 故障演練

Collector 失效的影響面取決於部署模式，這是選位置時要先想清楚的。agent 模式下，單一 node 的 collector 掛掉只影響該 node 的應用，且應用送往 localhost 失敗可以 fail-fast；gateway 模式下，gateway 叢集掛掉會影響所有上游 agent，因此 gateway 必須多副本 + 負載均衡，不能單點；sidecar 模式下，失效影響面比 agent 更窄（只影響同 pod 的應用），但每個 pod 各自是獨立失效點，pod 數多時同時出狀況的機率也高。演練時要分別注入「單 agent 掛」與「gateway 叢集不可用」，確認前者影響被局限、後者有 agent 層 buffer 兜著。

記憶體壓力是 collector 最常見的故障。telemetry 流入速度超過 exporter 送出速度時，資料在 collector 內累積、記憶體上升，沒有保護會 OOM 被 kill、整段 telemetry 全丟。memory_limiter processor 是這道防線，它定期（check_interval）檢查記憶體並用兩個閾值分級反應：記憶體超過軟上限（limit_mib 減去 spike_limit_mib）時強制觸發 GC 並開始拒收，給回收一個緩衝區間；超過硬上限（limit_mib）時全面拒收新資料。只設 limit_mib、不設 spike_limit_mib 是不完整的配置，等於沒有軟性緩衝、直接撞硬牆。演練時用高於 exporter 吞吐的速率灌資料，確認 memory_limiter 在軟上限就介入、collector 存活，而不是 OOM。

Backpressure 的傳遞要驗證到底。當 backend 變慢、exporter queue 滿，collector 的 OTLP receiver 會回壓給上游（gRPC 層用 resource-exhausted 拒收）。在 agent 模式這個回壓會傳到應用的 OTLP exporter，應用 SDK 的 queue 也會滿——此時 SDK 的反應取決於 exporter 配置，要確認 queue-full 策略設為 drop 而非 block，讓 telemetry 被丟棄而非阻塞業務執行緒（各語言 SDK 預設不同，不能假設一定是 drop）。演練要確認「backend 慢 → collector 回壓 → 應用丟 telemetry 但業務不受影響」這條鏈成立，避免觀測系統的壓力反噬主流程。

觀察訊號	判讀	對應動作
collector 容器頻繁 OOM restart	memory_limiter 閾值過高或未啟用	調低 limit_mib、確認 spike_limit_mib 有設
exporter queue depth 持續飽和	下游 backend 回應慢或不可用	查 backend 狀態、確認 exporter retry 與 timeout 設定
receiver refused spans 計數上升	memory_limiter 啟動拒收、collector 處於壓力狀態	查上游流量是否異常、考慮擴容 gateway 或調降 sampling
gateway 全部不可用、agent buffer 開始丟棄	全域 telemetry 中斷	確認 gateway 多副本與負載均衡、agent 的 queue 與 drop 策略
telemetry 到 backend 有延遲但不丟失	batch processor 正常攢批	正常行為、確認 batch timeout 符合預期

Capacity / cost 邊界

agent 與 gateway 的成本曲線不同，選型要對著規模看。agent（DaemonSet）的成本是「每個 node 一份 collector」的固定開銷：node 多時總開銷隨 node 數線性成長，但每份 collector 只處理本機流量、單份負載可控。gateway 的成本是「集中叢集」：份數少但每份要扛匯流後的總流量，要按總 telemetry 吞吐量做容量規劃與水平擴展。

兩層架構的成本判讀是：agent 層用最小配置（夠做 buffer + enrichment 即可，limit_mib 設小），把重處理（tail sampling、大量 routing）集中到 gateway，讓 gateway 的擴展跟總流量綁定、agent 的開銷跟 node 數綁定。把 tail sampling 誤放在 agent 層是常見的成本錯誤——agent 看不到完整 trace、做不了正確的 tail sampling，還白白吃掉每個 node 的記憶體。

gateway 層的 processor 是攔截高 cardinality attribute 的有效位置：在 telemetry 流入 backend 前用 attributes / transform processor 把高 cardinality label（user id、request id 當 metric label）移除或降維，比讓它流到 backend 後才治理便宜。高 cardinality 的 attribute 會在下游 backend 炸開成本，是另一條要在 collector 攔截的成本線。這條跟 4.7 Cardinality 治理與成本邊界對齊。

整合 / 下一步

Collector 部署模式是 OTel 落地的第一個決策，它的下游是 sampling 策略與 backend 選型。決定了 agent + gateway 兩層後，tail sampling 的設計接到 gateway 層的 pipeline；exporter 指向哪個 backend 則回到何時改走其他服務的 vendor portability 判讀。

pipeline 的訊號治理與資料品質回到 4.11 Telemetry Pipeline 架構與 4.17 Telemetry Data Quality；cardinality 攔截回到 4.7 Cardinality 治理與成本邊界。

4.C10 對照：規模差異下的觀測遷移

Thu, 07 May 2026 00:00:00 +0000

這篇對照的核心責任是提醒觀測遷移是治理能力轉換，工具替換只是表面動作。

小型團隊常見判讀

小型團隊最怕雙軌過久。若同時維護兩套儀表，通常會先耗盡人力。小團隊更需要短期對照、快速收斂，而不是一次拉滿所有治理流程。

中型團隊常見判讀

中型團隊會碰到 schema 漂移與標籤膨脹。這個階段的失敗常見於「看得到數據，但看不懂是否同一語意」，導致告警與容量判讀彼此矛盾。

大型團隊常見判讀

大型團隊的觀測遷移會牽涉成本分攤、採樣策略、collector 拓撲。若只追求功能對齊，往往在遷移後才出現成本暴增與告警漂移。

這個情境的專屬告警條件

新舊管線 error rate 或 burn rate 偏差長期超標
missing signal 比例持續上升
同一事件在兩套儀表板得到相反結論

觸發條件時應停止切換，先修資料語意與採樣策略，再決定是否繼續遷移。

判讀訊號

判讀重點是「兩套觀測是否仍在描述同一個系統狀態」。當 error rate、burn rate、trace coverage 三者任一長期偏離，就代表遷移證據不可信，應先停切換再修資料品質。

邊界判讀

這篇對照只處理觀測遷移的判讀邊界，不處理各 vendor 的實作細節。主要風險是把資料語意不一致當成短暫噪音，導致團隊在錯誤證據上推進切換。

下一步路由

先回到 4.17 Telemetry Data Quality 修正語意與採樣，再到 4.11 Telemetry Pipeline 校正雙軌管線。若已影響事故判讀，交接到 8.18 Incident Intake。

Datadog OTLP Ingestion 與 OTel 整合

Tue, 23 Jun 2026 00:00:00 +0000

本文是 Datadog 的 vendor deep article，深化 overview「OTLP ingestion」段。初次接觸 Datadog 的讀者建議先讀 Datadog 服務頁。

問題情境

兩種觸發情境會讓團隊需要 Datadog 的 OTLP ingestion：

團隊已經使用 Datadog APM，但新服務或新語言想用 OTel SDK 避免 vendor lock-in。Datadog SDK 覆蓋的語言有限（Go / Java / Python / Ruby / Node / .NET / PHP / C++），如果服務用 Rust / Elixir / Kotlin multiplatform，OTel SDK 的覆蓋更廣。

另一種情境是團隊原本用 OTel + Jaeger 或 OTel + Grafana，現在想把 visualization 遷到 Datadog 但不想重新 instrument。OTLP ingestion 讓 OTel SDK 產出的 traces / metrics / logs 直接送進 Datadog，不改 application code。

核心概念

Datadog Agent 的 OTLP receiver

Datadog Agent 6.32+ 內建 OTLP receiver，接受 gRPC（port 4317）和 HTTP（port 4318）兩種 protocol。Agent 收到 OTLP 資料後轉換成 Datadog 內部格式，走跟 Datadog SDK 相同的 pipeline（sampling、tagging、forwarding to Datadog backend）。

這代表 OTLP path 的資料在 Datadog UI 裡跟 Datadog SDK path 的資料一樣被處理 — 相同的 APM trace waterfall、相同的 service map、相同的 error tracking。差異在 metadata 完整度（見下方 feature parity）。

三種 signal 的 OTLP 支援度

Signal	OTLP 支援	到 Datadog 的對應
Traces	完整（OTLP gRPC / HTTP）	APM traces、service map、error tracking
Metrics	完整（OTLP gRPC / HTTP）	Custom metrics（按 metric 計費）
Logs	有限（Agent 7.54+ 支援 OTLP logs）	Datadog Logs（按 ingestion volume 計費）

Traces 的 OTLP 支援最成熟、metrics 次之、logs 最新。混合環境常見做法是 traces + metrics 走 OTLP、logs 走 Datadog Agent 的原生 log collection（file tailing / container stdout）。

Datadog SDK vs OTel SDK feature parity

功能	Datadog SDK	OTel SDK → Datadog
Distributed tracing	有	有（完整）
Continuous profiling	有	無（Datadog 專有）
ASM（Application Security）	有	無（需要 Datadog library）
CI Visibility	有	無
Dynamic instrumentation	有	無
Runtime metrics（GC、thread）	自動	需手動配置 OTel metric instrumentation
Log correlation（trace_id 注入 log）	自動	需手動配置（MDC / context propagation）
Unified service tagging	自動（`DD_SERVICE` / `DD_ENV` / `DD_VERSION`）	需 resource attribute mapping

判讀：如果團隊需要 profiling / ASM / CI Visibility，對應服務仍需 Datadog SDK。其他服務可以用 OTel SDK + OTLP ingestion，兩者在同一個 Datadog org 共存。

配置 step-by-step

Datadog Agent OTLP 設定

1# datadog.yaml
2otlp_config:
3  receiver:
4    protocols:
5      grpc:
6        endpoint: 0.0.0.0:4317
7      http:
8        endpoint: 0.0.0.0:4318

Agent 重啟後用 datadog-agent status 確認 OTLP receiver 啟動。

OTel SDK endpoint 配置

1# 環境變數（語言無關）
2export OTEL_EXPORTER_OTLP_ENDPOINT="http://datadog-agent:4317"
3export OTEL_EXPORTER_OTLP_PROTOCOL="grpc"
4export OTEL_SERVICE_NAME="checkout-api"
5export OTEL_RESOURCE_ATTRIBUTES="deployment.environment=production,service.version=1.2.3"

Resource attribute → Datadog tag mapping

Datadog Agent 自動把 OTel resource attributes 轉成 Datadog tags：

OTel resource attribute	Datadog tag	備註
`service.name`	`service`	Datadog unified service tagging 的核心
`deployment.environment`	`env`	必填、否則 Datadog UI 的環境篩選失效
`service.version`	`version`	用於 deployment tracking
`host.name`	`host`	Agent 通常自動帶、不需手動設
`container.name`	`container_name`	K8s 環境自動帶

如果 resource attribute 沒設 deployment.environment，Datadog 會把 trace 歸到 env:none — 在 APM 介面幾乎不可見。這是最常見的 OTLP onboarding 問題。

OTel Collector → Datadog（alternative path）

如果不想讓 application 直連 Datadog Agent，可以在中間放 OTel Collector：

 1# otel-collector-config.yaml
 2exporters:
 3  datadog:
 4    api:
 5      key: ${DD_API_KEY}
 6      site: datadoghq.com
 7
 8service:
 9  pipelines:
10    traces:
11      receivers: [otlp]
12      processors: [batch]
13      exporters: [datadog]

OTel Collector 的 datadog exporter 直接把資料送到 Datadog backend（不經 Agent）。適合已有 OTel Collector 基礎設施、不想每個 node 都部署 Datadog Agent 的場景。

故障與邊界

Resource attribute mapping 不對齊

OTel 的 service.name 用 dot notation（如 com.example.checkout），Datadog 預設用 hyphen（如 checkout-api）。如果 mapping 不一致，同一個服務在 Datadog APM 的 service map 會出現多個節點（OTel path 一個、Datadog SDK path 一個）。

修法：統一 service.name 命名。如果兩種 SDK 並存，在 OTel SDK 的 resource attribute 設跟 Datadog SDK 的 DD_SERVICE 完全相同的值。

Metric naming convention 差異

OTel metric 用 dot notation（http.server.request.duration），Datadog 預設用 underscore（http_server_request_duration）。Agent 會自動轉換（dot → underscore），但如果團隊同時有 Datadog SDK 產出的 metric 跟 OTel SDK 產出的 metric，兩者可能在 Datadog 裡產生重複（語意相同但名稱不同）。

修法：用 OTel Collector 的 metricstransform processor 在 export 前統一命名，或在 Datadog 用 metric alias 合併。

Log correlation 在 OTLP path 的限制

Datadog SDK 自動把 dd.trace_id 和 dd.span_id 注入 application log（如 Python logging、Java MDC）。OTel SDK 不做這件事 — log correlation 需要手動設定（把 trace_id 從 OTel context 注入 logging framework）。

如果 log correlation 缺失，Datadog 的 trace → log 跳轉功能失效。修法依語言不同：Java 用 MDC + OTel Java agent 的 log context instrumentation；Python 用 opentelemetry-instrumentation-logging；Go 需要手動從 span context 取 trace ID 寫到 log field。

容量與成本

OTLP path 的計費跟 Datadog SDK path 相同：

Signal	計費單位	OTLP vs Datadog SDK
APM traces	Per ingested span	相同
Metrics	Per custom metric（unique metric name × tag combination）	相同
Logs	Per ingested GB	相同

成本差異不在 ingestion pricing，在 feature access。用 OTel SDK 失去 Profiling / ASM / CI Visibility，這些功能需要 Datadog SDK。如果團隊需要這些功能，走 OTLP 反而要為核心服務額外部署 Datadog SDK — 雙 SDK 的 maintenance cost 可能超過直接全用 Datadog SDK。

判斷分水嶺：如果 > 80% 的服務不需要 Profiling / ASM，走 OTLP + 少數服務用 Datadog SDK 是合理的混合模式。如果核心服務都需要 Profiling，全用 Datadog SDK 更簡單。

整合與下一步

Datadog 服務頁：overview 與日常操作
Datadog 成本治理：Agent 配置與 cost control
4.C7 Datadog OTel migration：從 Datadog SDK 轉向 OTel 相容模式的治理案例
OpenTelemetry Collector 部署模式：OTel Collector → Datadog 的 alternative path
← New Relic migration：New Relic → Datadog 的遷移中 OTLP 扮演的橋接角色

Grafana Loki 設計與操作限制

Tue, 23 Jun 2026 00:00:00 +0000

本文是 Grafana Stack 的 vendor deep article，深化 overview「Loki 設計與限制」段。初次接觸 Grafana Stack 的讀者建議先讀 Grafana Stack 服務頁。

問題情境

團隊從 ELK stack 或 CloudWatch Logs 遷到 Grafana Stack 時，Loki 是 log backend 的預設選擇。遷移後最常遇到的衝擊是查詢模式的根本差異：Elasticsearch 做 full-text index（寫入時索引每個欄位、查詢時任意搜尋），Loki 只 index labels（寫入時只索引 stream labels、查詢時先篩 stream 再 grep content）。

這個差異是刻意的設計選擇 — Loki 的目標是「Prometheus for logs」：用跟 Prometheus metrics 相同的 label 體系管理 logs，讓 log 查詢跟 metric 查詢使用同一組 label selector。代價是失去 full-text search 的即時性。理解這個設計哲學才能正確設計 label、寫出有效率的 LogQL、避免常見的效能陷阱。

核心概念

Like Prometheus, but for logs

Prometheus 用 label set 識別 time series — {job="checkout", instance="10.0.1.5"} 是一條 series。Loki 用相同概念識別 log stream — {job="checkout", namespace="production"} 是一條 stream。同一條 stream 的所有 log entries 存在同一組 chunks。

Elasticsearch 的索引模式是「寫入時建 inverted index、查詢時走索引」。Loki 的索引模式是「寫入時只記錄 stream label → chunk 的 mapping、查詢時先用 label 選 stream、再在 chunk 內做 grep」。

這代表：

有 label filter 的查詢很快 — Loki 只掃對應 stream 的 chunks
沒有 label filter 的查詢很慢 — Loki 要掃所有 stream 的 chunks（相當於 full scan）
Label cardinality 跟 Prometheus 一樣敏感 — 高 cardinality label 產生大量 stream、每個 stream 的 chunk 很小、index 膨脹

Stream 與 chunk

一條 stream = 一組唯一的 label set。每條 stream 的 log entries 依時間排序存在 chunks 裡。Chunk 是 Loki 的最小儲存單位。

1Stream: {job="checkout", namespace="production"}
2  └─ Chunk 1: [2026-06-22T00:00 ~ 2026-06-22T01:00] (compressed)
3  └─ Chunk 2: [2026-06-22T01:00 ~ 2026-06-22T02:00] (compressed)
4  └─ ...

Chunk 存在 object storage（S3 / GCS / MinIO），index 存在 key-value store（BoltDB / TSDB，3.0 起預設 TSDB）。Object storage 便宜（相比 Elasticsearch 的 SSD），這是 Loki 成本優勢的來源。

跟 Elasticsearch 的根本差異

面向	Loki	Elasticsearch
索引對象	只索引 labels（stream metadata）	索引所有欄位（full-text + structured）
查詢模式	Label selector → stream → grep content	Query DSL / KQL → inverted index lookup
寫入成本	低（不建 content index）	高（建 inverted index + doc values）
查詢成本	取決於 stream 篩選效率（label 越精準越快）	取決於 index 覆蓋度（indexed field 查詢快）
儲存成本	低（object storage）	高（SSD / local disk）
Full-text search	不支援（只有 line filter grep）	原生支援
適用場景	已有 Prometheus/Grafana 生態的 log aggregation	需要 full-text search 的 log analytics / SIEM

判讀：如果團隊的 log 查詢模式是「先選 service/namespace/pod、再看時間範圍內的 log entries」，Loki 足夠。如果查詢模式是「在所有 log 裡搜某個 error message 或 request ID」，Elasticsearch 的 full-text index 更適合。

配置 step-by-step

Label 設計原則

Label 設計是 Loki 最重要的操作決策。原則跟 Prometheus 相同：低 cardinality、穩定、有查詢意義。

Label	Cardinality	適合當 label	理由
`job`	低（服務數量）	適合	篩選到特定服務
`namespace`	低	適合	篩選到特定環境
`pod_name`	中（pod 數量）	視情境	K8s 環境常用但 pod 頻繁重建會產生大量短命 stream
`level`（info/warn/error）	低（3-5 值）	適合	快速篩選 error log
`request_id`	極高（per-request）	不適合	每個 request 一條 stream、chunk 極小、index 爆炸
`user_id`	高	不適合	同上
`trace_id`	極高	不適合	用 Tempo 查 trace、不用 Loki label

request_id / user_id / trace_id 不應該是 label，它們應該在 log content 裡用 structured JSON 欄位表達，查詢時用 LogQL 的 line filter 或 parser 提取。

LogQL 常見查詢模式

Stream selector + line filter（最基本）：

{job="checkout", namespace="production"} |= "error" |= "timeout"

先選 stream、再 grep 包含 “error” 和 “timeout” 的 log lines。|= 是包含、!= 是不包含、|~ 是 regex。

Structured metadata parser（JSON log）：

{job="checkout"} | json | status_code >= 500 | line_format "{{.method}} {{.path}} {{.status_code}}"

| json 解析 JSON log entry 的欄位，後續可以用欄位做 filter 和格式化。

Metric 聚合（log → metric）：

sum by (status_code) (rate({job="checkout"} | json | __error__="" [5m]))

計算每 5 分鐘每個 status_code 的 log entry 速率。這是 Loki 的「metric from logs」能力 — 不需要額外的 metrics pipeline，直接從 log 產生 time series。

Loki config 核心段

 1# loki-config.yaml
 2schema_config:
 3  configs:
 4    - from: 2024-01-01
 5      store: tsdb
 6      object_store: s3
 7      schema: v13
 8      index:
 9        prefix: loki_index_
10        period: 24h
11
12storage_config:
13  tsdb_shipper:
14    active_index_directory: /loki/index
15    cache_location: /loki/cache
16  aws:
17    s3: s3://loki-chunks-bucket
18    region: us-east-1
19
20limits_config:
21  ingestion_rate_mb: 10
22  ingestion_burst_size_mb: 20
23  max_streams_per_user: 10000
24  max_label_name_length: 1024
25  max_label_value_length: 2048

limits_config 是防護網。max_streams_per_user 限制每個 tenant 的 stream 數量，超過時新 stream 的 log 被拒（HTTP 429）。這是 label cardinality 爆炸的最後防線。

故障與邊界

Label cardinality 爆炸

觸發條件：label 包含高 cardinality 值（pod UID、request ID、container ID）。每個唯一 label set 產生一條 stream，stream 數量快速增長。

表現：loki_ingester_memory_streams 持續上升、ingester memory 增長、最終觸發 max_streams_per_user 限制（429 error）。跟 Prometheus series explosion 是同一個問題的 log 版本。

修法：檢查產出大量 stream 的 label。Loki 的 /loki/api/v1/labels 和 /loki/api/v1/label/{name}/values API 可以列出所有 label 值。找到高 cardinality label 後，從 promtail / alloy 的 pipeline 中移除該 label、改放進 log content 的 structured field。

Stream rate limit

觸發條件：單一 stream 的 ingestion rate 超過 per_stream_rate_limit（預設 3 MB/s）。通常是某個 service 大量噴 debug log。

表現：Loki 回傳 429 + rate limit exceeded error。部分 log entries 被丟棄。

修法：先解決 log 噴量問題（降低 debug log level 或加 sampling）。如果噴量合理（高 QPS 服務），調高 per_stream_rate_limit 或拆分 stream（加一層 label 分散流量）。

大時間範圍查詢 timeout

觸發條件：LogQL 查詢沒有精確的 label filter、時間範圍 > 24 小時。Loki 要掃描大量 chunks、query timeout（預設 3 分鐘）觸發。

表現：Grafana 顯示 query timeout error。

修法：查詢時先用 label selector 縮小 stream 範圍（{job="checkout", namespace="production"} 而非 {namespace="production"}），再用 line filter 進一步篩。如果業務需要長時間範圍的 log analytics，考慮用 LogQL 的 metric aggregation（rate(...) / count_over_time(...)）替代原始 log 掃描。

Chunk target size 與 ingestion rate 的關係

chunk_target_size（預設 1.5 MB）控制 chunk 的大小。ingestion rate 低的 stream 可能幾個小時才填滿一個 chunk — 這段期間 chunk 停在 ingester memory 裡。大量低 ingestion rate 的 stream（= 高 cardinality label）會讓 ingester 同時持有大量未 flush 的 chunks，佔用記憶體。

修法方向：降低 chunk_idle_period（預設 30 分鐘，時間到即使 chunk 未滿也 flush），或減少低 cardinality stream 的數量。

容量與成本

Loki 的成本結構跟 Elasticsearch 根本不同：

成本項	Loki	Elasticsearch
儲存	Object storage（S3/GCS）— 便宜	SSD / local disk — 貴
Index	小（只索引 labels）	大（inverted index + doc values）
查詢 compute	每次查詢 grep chunks — CPU 密集	走 index — 相對輕
適合的 workload	高 volume、低 query frequency	高 query frequency、需要 full-text

Loki 在「每天寫 TB 級 log、偶爾查一下」的場景成本遠低於 Elasticsearch。但在「每天查數百次、需要快速 full-text search」的場景，Elasticsearch 的 pre-indexed 查詢效能更好，Loki 每次 grep 的 compute cost 反而更高。

成本治理的判讀：監控 loki_ingester_bytes_received_total（ingestion volume）和 loki_querier_query_duration_seconds（query cost）。如果 query duration 持續上升，先檢查是 label filter 不夠精確還是 query 時間範圍太大。

整合與下一步

Grafana Stack 服務頁：overview 與全棧操作
LGTM Stack Operations：Loki 在 LGTM 全棧中的部署位置
4.12 Audit Log Governance：Loki 不適合 audit log 的 compliance 查詢（無 immutable storage 保證、無 fine-grained access control）— 合規需求用 BigQuery 或 dedicated audit backend
Healthcare 存取追溯案例：分層 retention 在 Loki 用 tenant-level retention policy 實現
4.1 Log Schema：log 欄位設計影響 Loki 的 label 設計與 parser 效率
Elasticsearch ILM 與 Log Pipeline：需要 full-text search 時的替代方案

4.C11 Uber：M3 大規模 Metrics 平台

Mon, 22 Jun 2026 00:00:00 +0000

Uber 的 M3 案例揭露了 metrics 系統從「每個團隊各跑一套 Prometheus」到「全公司共用的 metrics 平台」的轉折點。轉折的核心判斷是：當 active series 總量超過單機 Prometheus 的記憶體上限、且多個團隊需要跨叢集查詢時，自建平台層的成本低於持續橫向複製 Prometheus 實例的成本。

業務背景

Uber 的服務觀測涵蓋行程追蹤、即時定價、ETA 計算、司機定位、支付結算與推播通知。每個微服務都暴露 Prometheus-compatible metrics，隨著服務數量成長到數千個，寫入速率達到每秒數十億 data points。

早期每個團隊各自部署 Prometheus，各管自己的 retention、scrape config 與 alerting rules。規模小時這個模式運作良好 — 每個 Prometheus 實例只需要處理自己團隊的幾萬到幾十萬 series。但當組織成長到數百個團隊、數千個服務時，散落的 Prometheus 實例帶來三個問題。

技術挑戰

單機記憶體天花板

Prometheus 的 TSDB 把 active series 放在記憶體的 head block，每個 series 消耗約 3-4 KB（詳見 Prometheus 容量規劃）。當單一 Prometheus 實例需要 scrape 的 series 超過 1000 萬時，head block 就需要 40+ GB 記憶體。加上 query execution 跟 WAL replay 的暫時開銷，單機很容易 OOM。

團隊的第一反應是按服務拆分多個 Prometheus 實例，但這讓跨服務查詢變得困難 — 要看一條 request 從 gateway 到 payment 的 latency 分布，需要分別查三個 Prometheus 再手動關聯。

Retention 與長期趨勢

Prometheus 預設 retention 15 天。容量規劃與季度趨勢分析需要 90 天甚至 1 年的歷史資料。把 Prometheus retention 拉長到 90 天，disk 跟 memory 需求同步上升，而且 compaction 效率在資料量大時會下降。

團隊需要的是分層 retention — 近期資料保留全精度、歷史資料做 downsampling 後保留更久。Prometheus 原生不支援 downsampling。

高可用與跨叢集查詢

Prometheus 沒有原生 HA — 標準做法是跑兩個 instance scrape 同一批 target，靠下游去重。但兩個 instance 各自獨立儲存，查詢只打一個；instance 故障切換時會有短暫資料缺口。

跨叢集查詢更困難。Prometheus federation 可以做簡單的 metric 聚合，但 federation 本身是 pull-based scrape — federation target 太多或 series 太大時，federation Prometheus 自己也會 OOM。

解法：M3 平台

Uber 開發了 M3 — 一個 Prometheus-compatible 的分散式 metrics 平台，由三個核心元件組成。

M3DB：分散式 time series storage

M3DB 是分散式 TSDB，資料按 namespace 和 shard 分布在多個節點。每個 namespace 可以有不同的 retention 和 resolution — 例如 realtime namespace 保留 2 天全精度，aggregated_1m namespace 保留 90 天 1 分鐘精度。這解決了 retention tiering 的問題。

M3DB 的記憶體模型跟 Prometheus 不同 — 近期資料在記憶體，冷資料在 disk，不像 Prometheus 把所有 active series 都放 head block。這讓它能處理遠超單機 Prometheus 的 series 數量。

M3 Coordinator：統一查詢入口

M3 Coordinator 接收 PromQL 查詢，轉譯後分發到 M3DB 節點，聚合結果後返回。對 Grafana 和 alerting rules 來說，M3 Coordinator 的 API 跟 Prometheus 完全相容 — 不需要改 dashboard 或 alert config。

M3 Aggregator：寫入路徑聚合

高 cardinality 的原始 series 在寫入 M3DB 前先經過 M3 Aggregator 做 pre-aggregation — 例如把每秒的 request count 聚合成每分鐘，再寫入長期 namespace。這控制了長期儲存的資料量跟成本。

取捨

面向	Prometheus standalone	M3 平台	Mimir / Thanos（替代）
部署複雜度	低（單一 binary）	高（M3DB + Coordinator + Aggregator）	中到高
單機 series 上限	~500 萬-1000 萬	不適用（分散式）	不適用
Retention tiering	無	原生支援	Thanos compactor / Mimir 支援
PromQL 相容	原生	相容	相容
社群活躍度	高（CNCF）	低（Uber 主導、2023 後維護縮減）	高（Grafana Labs / 社群）
適用規模	單團隊到中型組織	大型組織（數十億 series）	中型到大型

M3 的最大風險是社群活躍度 — Uber 自 2023 年後縮減了 M3 的開發投入，Grafana Mimir 成為更活躍的替代。新專案選型時，Mimir 跟 Thanos 的社群支援度跟 Grafana 生態整合度都優於 M3。M3 的價值在於它驗證了「分散式 TSDB + 寫入路徑聚合 + retention tiering」這組設計模式，這組模式在 Mimir 跟 Thanos 裡以不同形式被採用。

回寫教材的連結

4.2 Metrics Basics：active series、cardinality 與 recording rules 的基礎模型，M3 的 pre-aggregation 對應 recording rules 的平台化版本。
4.11 Telemetry Pipeline：M3 的 Aggregator 是 pipeline 中 processing 層的實例。
Prometheus Remote Write 與長期儲存：M3 是 remote write 目標之一，跟 Mimir / Thanos / Cortex 的比較在該文。
4.7 Cardinality 治理：M3 的 per-namespace cardinality limit 是治理機制的生產實例。

判讀徵兆

讀者在自己的系統看到以下訊號時，應該回讀本案例：

單一 Prometheus 實例 memory 接近機器上限，開始 OOM restart
多個 Prometheus 實例各自 scrape，跨服務查詢需要手動關聯
Retention 15 天不夠做季度趨勢分析，但拉長 retention 資源撐不住
團隊開始問「我們的 metrics 總共有多少 series、誰佔最多」但沒有統一的 cardinality 觀測
Grafana federation dashboard 查詢越來越慢或經常 timeout

引用源

M3: Uber’s Open Source, Large-scale Metrics Platform for Prometheus

Cloud Logging 查詢、匯出與合規

Mon, 22 Jun 2026 00:00:00 +0000

本文是 GCP Cloud Operations 的 vendor deep article，深化 overview「Cloud Logging 結構化 logs」跟「BigQuery 匯出長期儲存」段。初次接觸 GCP 觀測的讀者建議先讀 GCP Cloud Operations 服務頁。

問題情境

Cloud Logging 對 GCP 服務是預設開啟的 — GKE、Cloud Run、Cloud Functions 的 stdout/stderr 自動進 Cloud Logging，工程師不需要配置就能查。問題出在後續階段：log 量成長後的成本控制（GCP 的 ingestion 計費讓高 volume 服務成本快速累積）、合規需求要求特定 log 保留特定時間（healthcare / fintech 的 7 年留存）、organization-level 的 log 聚合與存取控制（多 project 集中 audit）、以及 PII 在 log 中的遮罩與加密。理解 Cloud Logging 的 router / sink 架構跟 retention bucket 才能從「預設全收」走向「可治理的 log pipeline」。

核心概念

Log Router 與 Sink

Cloud Logging 的資料流是 log entry → log router → sink → destination。每一筆 log 進入 Cloud Logging 後，log router 根據 inclusion filter 跟 exclusion filter 決定這筆 log 送到哪些 destination。

Sink 是 log router 的輸出端點。每個 GCP project 預設有兩個 sink：_Required（admin activity audit log、system event，不可關閉）和 _Default（其他所有 log、送到 _Default log bucket、可修改 filter）。工程師可以建立自訂 sink，把符合條件的 log 送到 BigQuery、Cloud Storage、Pub/Sub 或 Splunk。

Exclusion filter 在 log router 層攔截 — 被排除的 log 不會寫入任何 sink destination，也不計入 ingestion 計費。這是成本控制的第一道防線。

Inclusion filter 在 sink 層生效 — 只有符合 filter 的 log 會送到該 sink 的 destination。

路由順序很重要：exclusion filter 先執行（全域攔截），然後 _Required sink 攔走必留 log，然後 _Default sink 跟自訂 sink 各自的 inclusion filter 平行執行。一筆 log 可以同時送到多個 sink。

Retention 與 Log Bucket

Cloud Logging 的儲存單位是 log bucket。每個 project 預設有兩個 bucket：

_Required bucket：admin activity audit log 跟 system event，保留 400 天，不可刪除或修改 retention
_Default bucket：其他所有 log，預設保留 30 天，可調整為 1-3650 天

自訂 log bucket 可以設定不同 retention 期。常見用法：把 application log 留 30 天、把 audit log 留 7 年（送到自訂 bucket 或 BigQuery）。

Cloud Logging 的 ingestion 計費跟 storage 計費是分開的。前 50 GiB/month per billing account 的 ingestion 免費；超過後按 ingestion volume 計費。_Required log 的 ingestion 免費。Storage 在 _Default bucket 的前 0.5 GiB 免費，自訂 bucket 按用量計費。

成本治理判讀：高 volume 服務（例如 GKE 的 container stdout）的成本主要來自 ingestion，而非 storage。Exclusion filter 攔掉不需要的 log 是最直接的降成本方式。

查詢語言

Cloud Logging 的查詢語言用在 Logs Explorer 跟 gcloud CLI：

1resource.type="k8s_container"
2resource.labels.cluster_name="prod-us-central1"
3severity>=ERROR
4jsonPayload.order_id="ord-12345"
5timestamp>="2026-06-22T00:00:00Z"

語法特點：field path 用 . 分隔、支援 comparison operators（= / != / > / >= / < / <=）、支援 boolean（AND / OR / NOT）、支援 regex（=~ / !~）。

跟 KQL（Elastic）或 LogQL（Loki）相比，Cloud Logging 查詢語言更接近 structured filter 而非 full-text search。Full-text 搜尋要用 textPayload: 或 jsonPayload: prefix。進階分析（aggregation、time bucketing、join）需要匯出到 BigQuery 後用 SQL 做。

配置 step-by-step

Organization-level log 聚合

多 project 環境下，集中 log 的標準做法是在 organization 或 folder level 建立 aggregated sink：

1gcloud logging sinks create org-audit-sink \
2  bigquery.googleapis.com/projects/central-audit/datasets/org_audit_logs \
3  --organization=123456789 \
4  --include-children \
5  --log-filter='logName:"cloudaudit.googleapis.com"'

--include-children 讓 organization 下所有 project、folder 的符合 log 都送到同一個 BigQuery dataset。Sink 的 service account 需要 destination 的寫入權限（BigQuery Data Editor）。

適用場景：SOC 團隊需要跨 project 的 audit log 查詢、compliance team 需要集中的 data access log 存檔、security team 需要異常 IAM 變更的全域偵測。

Data Access Audit Logs 啟用

GCP 的 audit log 分三類：

Admin Activity：對資源的管理操作（建立 / 刪除 / 修改 IAM）。預設開啟、不可關閉、不計費。
Data Access：對資源的讀取操作（BigQuery query、GCS read、Cloud SQL connect）。預設關閉（除 BigQuery）、需手動啟用、計費。
System Event：GCP 系統自動操作。預設開啟、不可關閉、不計費。

Data Access audit log 的啟用是 per-service、per-project（或 org level）。啟用後 log 量會大幅增加 — 一個高 QPS 的 Cloud SQL 服務可能每秒產生數百筆 data access log。成本跟 volume 判讀要先做。

建議做法：先對 security-sensitive 服務啟用（IAM / KMS / Cloud SQL / GCS），其他服務按需啟用。用 exclusion filter 精細控制 — 例如只保留 ADMIN_READ 跟 DATA_WRITE、排除 DATA_READ（read 量通常遠大於 write）。

VPC Flow Logs 與 DNS Logs 的觀測用途

VPC Flow Logs 記錄每一筆通過 VPC 的網路流量元資料（src/dst IP、port、protocol、bytes、packets）。啟用方式是 per-subnet 設定、支援 sampling rate（100% / 50% / 10%）。

DNS Logs 記錄 VPC 內的 DNS 查詢（query name、response code、source VM）。啟用方式是 per-VPC 或 per-policy 設定。

觀測用途：

異常流量偵測：VPC Flow Logs 送到 BigQuery 後用 SQL 找出異常流量模式（大量對外連線、非預期 port、跨 region 資料傳輸）
網路效能分析：量測 inter-service latency、跨 AZ 流量比例
安全稽核：DNS Logs 偵測 DNS tunneling 或 C2 callback

成本注意：VPC Flow Logs 在高流量服務上的 ingestion 量非常大。100% sampling + 高 QPS 服務可能每天產生 TB 級 log。建議用 sampling rate 控制、或只對 security-sensitive subnet 啟用 100%。

自建 vs managed pipeline 的取捨

Cloudflare 觀測案例展示了自建觀測 pipeline 的理由 — 全球 300+ edge locations、每秒數十億 request 的規模下，SaaS 觀測平台的帳單不合理，自建 pipeline 的 compute 成本反而更低。

但多數團隊的結論是反過來的。GCP 環境下，Cloud Logging 的 managed pipeline（log entry → router → sink → BigQuery / Cloud Storage）幾乎不需要維運人力。自建等價的 pipeline（Fluent Bit → Kafka → Elasticsearch / BigQuery）需要維運 Kafka cluster、Elasticsearch cluster、Fluent Bit DaemonSet 的升級與監控。

判斷分水嶺的兩個維度：

維度	偏向 managed（Cloud Logging）	偏向自建
Log volume	< 1 TB/day	> 10 TB/day（SaaS ingestion 成本超過自建 compute）
查詢需求	Logs Insights + 偶爾 BigQuery	需要 Elasticsearch 的全文搜尋 + aggregation + visualization

1-10 TB/day 的灰色地帶取決於查詢模式 — 如果 Logs Insights 能滿足 90% 的查詢、BigQuery 能處理剩下 10% 的分析，不需要自建。如果團隊需要 Kibana dashboard、Elasticsearch alerting、或跨 cloud 的統一 log backend，自建可能更合理。

Healthcare 分層 retention 在 GCP 的實現

Healthcare 案例的核心需求是分層 retention — 不同 log 類型有不同的法規留存要求（data access audit log 要 6 年+、application operational log 要 90 天、debug log 要 7 天）。

在 GCP 上用三層架構實現：

Hot 層（Cloud Logging custom bucket）：application log 保留 90 天、audit log 保留 1 年。設定 custom log bucket + retention。優點是 Logs Explorer 直接可查、延遲低。

Warm 層（BigQuery）：audit log sink 到 BigQuery dataset，BigQuery 的 partition expiration 設 2 年。需要分析跟 correlation 時用 SQL 查。成本低於 Cloud Logging storage。

Cold 層（Cloud Storage + Object Lifecycle）：BigQuery 的 scheduled export 或直接 Cloud Logging sink 到 GCS bucket。Object lifecycle rule 把 90 天以上的 object 轉 Nearline / Coldline / Archive class。最終刪除設定在 7 年。

三層各自的 access control 要獨立設定 — cold 層的 GCS bucket 只有 compliance team 有讀取權限，application team 看不到。CMEK 在三層都啟用（Cloud Logging custom bucket 的 CMEK + BigQuery dataset 的 CMEK + GCS bucket 的 CMEK），金鑰由安全團隊集中管理。

PII 治理與 CMEK

Cloud Logging 中的 PII 治理有三層：

第一層：不寫入。Application 端在 log 之前就遮罩 PII（email → ***@***.com、credit card → last 4 digits）。這是最有效的方式，因為一旦寫入 Cloud Logging，即使後續刪除 log entry，在 deletion 前可能已經被 sink 匯出到 BigQuery / GCS。

第二層：log 層過濾。用 exclusion filter 把含 PII 的 log field 排除（例如排除特定 jsonPayload field）。限制是 Cloud Logging 的 exclusion filter 只能排除整筆 log entry，不能 redact 單一 field。需要 field-level redaction 的話，在 OTel Collector 或 Fluentd 層做 processor 處理、再送到 Cloud Logging。

第三層：加密。Cloud Logging 預設用 Google-managed encryption。需要自管金鑰的場景（HIPAA / PCI-DSS / 金融監管）用 CMEK（Customer-Managed Encryption Keys）。CMEK 設定在 log bucket 層 — 自訂 log bucket 可以指定 Cloud KMS key。_Default bucket 也可以啟用 CMEK（需要把 _Default bucket 的 region 從 global 改成特定 region）。

存取控制：Cloud Logging 的 IAM role 分 roles/logging.viewer（讀 log）、roles/logging.privateLogViewer（讀含 data access 的 log）、roles/logging.admin（管理 sink / bucket / filter）。Audit log 的存取用 roles/logging.privateLogViewer、不是一般的 roles/logging.viewer。對應稽核追蹤與責任邊界的 GCP 實作。

故障演練與邊界

Exclusion filter 設太寬，重要 log 被丟掉

觸發條件：為了降成本建立 exclusion filter，但 filter expression 太寬泛（例如排除整個 severity=INFO），連帶排除了 business-critical 的 info-level log。

表現：事故時查不到關鍵 log、audit 證據鏈斷裂。因為 exclusion filter 在 ingestion 前執行，被排除的 log 無法回補。

預防：exclusion filter 建立後先用 gcloud logging read 驗證哪些 log 會被排除。用 Logs Explorer 的 preview 功能確認 filter 不會命中關鍵 log。對 audit log 和 security log 不設 exclusion filter。

BigQuery sink 匯出成本失控

觸發條件：org-level aggregated sink 把所有 log 送到 BigQuery，沒有 inclusion filter 限制。

表現：BigQuery storage 跟 streaming insert 成本暴增。一個中型 GKE cluster 每天可能產生 100+ GB 的 container log，全部送 BigQuery 的月成本可能超過 Cloud Logging 本身。

修復：在 sink 加 inclusion filter（只送 audit log 或 error-level log 到 BigQuery）。高 volume 的 application log 送 Cloud Storage（成本更低），需要查詢時用 BigQuery external table 做 federated query。

Log entry size 超過限制

觸發條件：application log 寫入超過 256 KB 的單筆 log entry（Cloud Logging 的 per-entry 上限）。

表現：超過限制的 log entry 被截斷或拒絕寫入。

修復：application 端控制 log entry size — 大型 payload（request body / response body / stack trace）做 truncation 後再 log。需要完整內容的場景，把 payload 寫到 GCS、log 中只留 GCS URI。

容量與成本

計費項目	免費額度	超出後計費
Ingestion（非 `_Required`）	50 GiB/month per billing account	per GiB ingested
Storage（`_Default` bucket）	0.5 GiB	per GiB-month
Storage（custom bucket）	無免費額度	per GiB-month
`_Required` log ingestion	不計費	不計費
BigQuery sink streaming insert	依 BigQuery 計費	per GB inserted

成本最佳化優先序：

Exclusion filter：攔掉不需要的 log、最直接
降 log level：application 端把 verbose debug log 關掉
Sampling：高 QPS 服務的 request log 做 sampling（在 application 端或 OTel Collector 層）
BigQuery sink filter：只送需要長期分析的 log 到 BigQuery
Cloud Storage sink：高 volume + 低查詢頻率的 log 送 GCS、按需用 BigQuery external table 查

整合與下一步

GCP Cloud Operations 服務頁：overview 與日常操作
Cloud Monitoring Metrics Model 與 MQL：同 vendor 的 metrics 面
4.12 Audit Log 邊界與 PII 治理：跨 vendor 的 audit log 治理策略
4.C1 Fintech audit evidence：審計證據鏈的案例回寫
4.C3 Healthcare retention：長期保留的合規設計
07 security 模組：data access audit log 的安全面

CloudWatch Alarms 與 Composite Alarms 操作實務

Mon, 22 Jun 2026 00:00:00 +0000

本文是 AWS CloudWatch 的 vendor deep article，深化 overview「Alarm + Composite alarm + EventBridge rule」段。初次接觸 CloudWatch 的讀者建議先讀 CloudWatch 服務頁。

問題情境

CloudWatch Alarm 是 AWS 原生的告警機制，跟 Prometheus Alertmanager 或 Datadog Monitor 的定位相同 — 把 metric 異常轉成可操作通知。CloudWatch Alarm 的特性是跟 AWS 服務深度整合（Auto Scaling、SNS、Lambda、Systems Manager），但告警邏輯表達力比 PromQL alerting rule 弱。Composite Alarm 是 CloudWatch 用來降低 alert noise 的方式，把多個 alarm 的布林組合當成觸發條件。

Metric Alarm 基礎

Alarm 參數

每個 metric alarm 由五個參數決定行為：

參數	說明	常見設定
Metric	要監控的 metric（namespace + metric name + dimension）	`AWS/EC2 CPUUtilization InstanceId=i-xxx`
Statistic	聚合方式（Average / Sum / Maximum / Minimum / p99）	根據 metric 性質選擇
Period	每個 data point 的時間窗	60s（standard）/ 10s（high-resolution）
Evaluation periods	連續幾個 period 超過閾值才觸發	3-5 個 period 減少 flapping
Threshold	觸發閾值	跟 SLO 對齊

Evaluation periods 的意義是「連續 N 個 period 都違反閾值才進入 ALARM 狀態」。設太低（1 個 period）容易 flapping，設太高（10 個 period）會延遲告警。多數場景 3 個 period × 60 秒 = 3 分鐘是合理起點。

Datapoints to Alarm

除了 evaluation periods，CloudWatch 還有 Datapoints to Alarm 參數 — 在 evaluation periods 的窗口中，至少幾個 datapoint 超過閾值就觸發。例如 3 of 5 代表最近 5 個 period 中有 3 個超過閾值就觸發。

這個設計讓告警在有缺失 datapoint 的環境下更穩健。容器重啟、Lambda cold start 或 scrape timeout 都可能造成某些 period 沒有 datapoint，M of N 模式避免因為缺失資料而延遲告警。

Anomaly Detection Alarm

用途

Anomaly Detection alarm 用機器學習模型建立 metric 的 baseline band，metric 偏離 band 就觸發。適合沒有固定閾值的 metric — 例如 request count 在白天高、晚上低，用固定閾值會在晚上誤報或白天漏報。

設定

1aws cloudwatch put-anomaly-detector \
2  --namespace AWS/ApplicationELB \
3  --metric-name RequestCount \
4  --dimensions Name=LoadBalancer,Value=app/my-alb/xxx \
5  --stat Sum

Anomaly Detection 需要至少兩週的歷史資料才能建立可靠 baseline。新服務上線初期先用固定閾值 alarm，等累積足夠資料後再切換。

Band width 控制

Anomaly Detection band 的寬度用標準差倍數控制（預設 2）。band 太窄（1x）容易誤報，太寬（3x）漏報。生產經驗是 API latency 用 2x、batch job duration 用 3x（batch 的自然波動較大）。

Composite Alarm

問題：Alert noise

單一 metric alarm 太多時，on-call 會收到大量相關但重複的通知。一個下游服務故障可能同時觸發 latency alarm、error rate alarm、timeout alarm、queue lag alarm — 都指向同一個根因，但各自通知。

解法：布林組合

Composite Alarm 用布林表達式組合多個 alarm，只在組合條件成立時觸發。

1ALARM("checkout-latency-high")
2AND ALARM("payment-error-rate-high")
3AND NOT ALARM("scheduled-maintenance-window")

這個組合代表：checkout latency 高且 payment error rate 也高，但排除了計畫維護視窗 — 才通知 on-call。

設計原則

Composite Alarm 的設計應該反映事故判讀邏輯，而非機械式組合。三個常見模式：

Symptom + cause 組合：外部症狀（latency 高）加上內部原因（DB connection pool 飽和）同時成立才通知。避免 latency 短暫抖動就告警。

Cross-service correlation：多個服務同時出現異常時觸發「可能是 shared dependency 問題」的 composite alarm。一個服務異常可能是部署問題，多個同時異常更可能是共用依賴（load balancer、DNS、shared database）。

Suppression window：用 maintenance window alarm 做 NOT 條件，在計畫維護期間抑制告警。

限制

Composite Alarm 最多引用 5 個 child alarm
巢狀深度最多 1 層（composite 不能引用另一個 composite）
Composite Alarm 本身不產生 metric，只做觸發邏輯

超過 5 個 child alarm 時，需要把相關 alarm 先組成一個 composite，再讓上層 composite 引用。但因為不支援巢狀，實際能組合的 alarm 數量有限。複雜告警邏輯需要用 EventBridge rule 搭配 Lambda 處理。

Alarm actions

常見 action 類型

Alarm 進入 ALARM 狀態時可以觸發多種 action：

Action 類型	用途	設定方式
SNS Topic	通知 on-call（email、SMS、PagerDuty integration）	alarm action → SNS ARN
Auto Scaling policy	自動擴容	alarm action → scaling policy ARN
Lambda function	自訂邏輯（建 ticket、關閉服務、修改 config）	alarm action → Lambda ARN（透過 SNS）
Systems Manager runbook	自動執行 remediation runbook	alarm action → SSM automation ARN
EC2 action	停止 / 重啟 / 終止 instance	alarm action → EC2 action（僅限 EC2 metric）

生產環境通常同時設定 ALARM 跟 OK action — ALARM 時通知 on-call，回到 OK 時自動 resolve incident。忘記設 OK action 會造成 on-call 收到告警但不知道何時恢復。

跟 EventBridge 整合

CloudWatch Alarm 狀態變更會自動送到 EventBridge（事件類型 CloudWatch Alarm State Change）。EventBridge rule 可以做更靈活的路由：

根據 alarm name pattern 路由到不同 SNS topic
根據 alarm description 中的 severity tag 決定通知管道
多個 alarm 同時進入 ALARM 時觸發 incident 建立

EventBridge 的路由能力彌補了 CloudWatch Alarm 本身路由邏輯簡單的限制。

Missing data 處理

四種策略

Alarm evaluation 遇到缺失 datapoint 時，有四種處理方式：

策略	行為	適合場景
`missing`	維持上一個狀態	多數場景的預設選擇
`breaching`	視為超過閾值	metric 消失本身就是問題（heartbeat metric）
`notBreaching`	視為正常	metric 在低流量時段自然消失
`ignore`	跳過該 period	不影響 evaluation window

breaching 適合 heartbeat 類型的 metric — 服務應該持續回報 metric，停止回報代表服務掛了。notBreaching 適合流量驅動的 metric — 凌晨沒有 request 時自然沒有 latency datapoint，不應該觸發告警。

選錯 missing data 策略是 alarm flapping 的常見原因。Lambda function 的 metric 在沒有 invocation 時沒有 datapoint，用預設的 missing 或 breaching 都會造成問題。Lambda metric alarm 應該用 notBreaching。

Cross-region 限制

CloudWatch Alarm 跟 metric 綁定在同一個 region。跨 region 告警的兩種方式：

Cross-account observability：monitoring account 可以看到 source account 的 CloudWatch 資料，但 alarm 仍然必須建在 metric 所在的 region。

Custom metric replication：用 Lambda 或 Kinesis 把 metric 從 source region publish 到 central region，在 central region 建立統一 alarm。增加複雜度跟延遲，但能集中管理告警。

多數團隊選擇在每個 region 建各自的 alarm，用統一的 SNS topic（跨 region publish 到 central topic）收斂通知。告警邏輯去中心化，通知管道集中化。

Cost 考量

CloudWatch Alarm 的主要成本來自：

計費項目	計費方式	常見數量
Standard resolution alarm	每 alarm / month	多數服務 10-50 個 alarm
High-resolution alarm（10s）	每 alarm / month（3 倍 standard）	只用在關鍵 SLI
Anomaly Detection alarm	每 alarm / month（含 ML 模型）	比 standard 貴約 2-3 倍
Composite Alarm	免費	只算 child alarm

數量控制的判準：每個服務 10-30 個 metric alarm 加 2-5 個 composite alarm 是合理範圍。超過 100 個 alarm 時先檢查是否有冗餘（同一 metric 不同 period 的重複 alarm）。

整合與下一步

告警設計原則：alarm 跟 dashboard 的搭配，見 4.4 Dashboard 與 Alert 設計
SLI/SLO 對齊：把 alarm 閾值跟 SLO 對齊，見 4.6 SLI 量測與 SLO 訊號設計
Log-based alerting：從 log 產生 metric 再建 alarm，見 CloudWatch Logs Insights 查詢與日誌治理
事故響應整合：alarm → EventBridge → PagerDuty / incident tool，見 08 Incident Response 模組

PromQL 與 Recording Rules 實務

Mon, 22 Jun 2026 00:00:00 +0000

本文是 Prometheus 的 vendor deep article，深化 overview「PromQL 查詢」跟「Recording rules / Alerting rules」段。初次接觸 Prometheus 的讀者建議先讀 Prometheus 服務頁。

問題情境

Recording rules 把昂貴的即時聚合預先計算成低延遲 series，降低 dashboard 查詢成本並穩定 alerting 表達式。三個觸發點會讓團隊需要認真處理 PromQL 與 recording rules：

Grafana dashboard 的某些 panel 載入超過 10 秒。原因通常是 panel 直接查詢高 cardinality 的原始 metric，每次載入都做一次完整的 range query aggregation。Recording rules 預先計算聚合結果，dashboard 只讀計算好的 series，查詢時間從秒級降到毫秒級。

Alert 表達式想表達「最近 5 分鐘的 error rate 超過 1% 且持續 2 分鐘」，但寫出來的 PromQL 要麼漏抓（counter reset 時 rate 歸零）、要麼誤報（absent series 觸發 NaN 比較）。這類問題的根源是對 counter vs gauge 的語意差異理解不夠精確。

Recording rules 堆了上百條但沒有命名慣例，新加的 rule 不確定是否跟既有 rule 重疊、也不確定 evaluation 順序是否正確。缺乏結構化的 rule 管理會讓 rule group 的 evaluation 時間逐漸超過 interval。

核心概念

Counter 與 gauge 的查詢差異

Counter 是單調遞增的累計值（total requests、total bytes sent），只在 process 重啟時 reset。Gauge 是瞬時值（temperature、goroutine count、queue depth），隨時上下波動。

查詢 counter 必須用 rate() 或 increase() — 直接讀 counter 的原始值沒有業務意義（「從啟動到現在共 5 百萬個 request」不是有用訊號）。rate() 回傳每秒平均增量，increase() 回傳區間內的總增量。兩者都自動處理 counter reset — 當值突然下降時（process restart），rate 不會回傳負值。

查詢 gauge 直接讀原始值即可，用 avg_over_time()、max_over_time() 等做區間統計。

常見錯誤是對 gauge 用 rate（結果無意義 — 溫度的「每秒變化率」不是有用訊號）、或對 counter 直接取 max_over_time（只拿到 counter 的最大累計值、不是最大 QPS）。

rate 與 increase 的差異

rate(http_requests_total[5m]) 回傳 5 分鐘內的平均每秒 request 數。increase(http_requests_total[5m]) 回傳 5 分鐘內的總增量，等於 rate() * 300。

選擇取決於讀者的心智模型：SLI dashboard 用 rate（「每秒多少」直觀）；報表用 increase（「過去一小時多少筆」直觀）。

Range 的選擇有一個實務邊界：range 至少要涵蓋 2 個 scrape interval。15 秒 scrape interval 搭配 rate(...[30s]) 是最小可用 range；rate(...[15s]) 可能只抓到一個 sample，回傳 NaN。production 常用 [5m] 作為預設 range — 足夠平滑短暫抖動、又不會過度延遲異常偵測。

histogram_quantile 的 bucket 設計

Prometheus histogram 使用預定義 bucket 邊界收集觀測值分布。histogram_quantile(0.95, rate(http_request_duration_seconds_bucket[5m])) 計算 p95 延遲。

Bucket 邊界的設計直接影響精確度。預設 bucket（0.005, 0.01, 0.025, … 10）適合 HTTP request 延遲場景。如果服務的 p50 在 200ms 而 bucket 只有 0.1 跟 0.25 兩個相鄰邊界，p50 的計算會在 100ms-250ms 之間做線性內插，精確度受限。

設計 bucket 的判準：p50 和 p99 附近各要有 2-3 個相鄰 bucket，讓內插結果接近真實值。SLO 的 latency threshold 也應該落在某個 bucket 邊界上 — 例如 SLO 是 p95 < 500ms，那 500ms 應該是一個 bucket 邊界。

每個 bucket 是一個 time series。10 個 bucket 的 histogram + 4 個 label 組合 = 40 個 series。Bucket 數量增加到 30 個時，同一個 metric 的 series 數量膨脹 3 倍。Bucket 設計要在精確度與 cardinality 之間取捨。

Label matching 規則

PromQL 的 binary operation（/、+、comparison）預設要求兩邊的 label set 完全一致才做 matching。這會在 error rate 計算時造成問題：rate(http_requests_total{status=~"5.."}[5m]) 的 label set 含 status、但 rate(http_requests_total[5m]) 的 total 不含 status。

解法是在分子做 aggregation 時 drop 掉 status label：

1sum by (job, method) (rate(http_requests_total{status=~"5.."}[5m]))
2/
3sum by (job, method) (rate(http_requests_total[5m]))

on() 和 ignoring() 修飾符可以在不做 aggregation 的前提下控制 matching，但可讀性較差。production 推薦的做法是先用 sum by() 控制輸出的 label set，讓兩邊的 label 對齊。

配置：常見 SLI Pattern

Error rate

 1# recording rule: 每 5 分鐘計算一次 error rate
 2groups:
 3  - name: sli_error_rate
 4    interval: 30s
 5    rules:
 6      - record: job:http_request_error_rate:ratio_rate5m
 7        expr: |
 8          sum by (job) (rate(http_requests_total{status=~"5.."}[5m]))
 9          /
10          sum by (job) (rate(http_requests_total[5m]))

命名慣例 level:metric:operations 來自 Prometheus 官方建議：job 是聚合的 level、http_request_error_rate 是語意、ratio_rate5m 是操作。遵循慣例讓團隊成員看到 rule 名稱就知道它的聚合粒度與計算方式。

Latency percentile

1      - record: job:http_request_duration_seconds:p95_rate5m
2        expr: |
3          histogram_quantile(0.95,
4            sum by (job, le) (rate(http_request_duration_seconds_bucket[5m]))
5          )

le label 是 histogram bucket 邊界，sum by (job, le) 把 instance 維度聚合掉、保留 bucket 結構。如果漏掉 le，histogram_quantile 會回傳錯誤結果。

Throughput

1      - record: job:http_requests:rate5m
2        expr: sum by (job) (rate(http_requests_total[5m]))

三個 SLI — error rate、latency、throughput — 組成服務的 RED metrics（Rate、Errors、Duration）。Recording rules 預先計算後，dashboard 只需讀三個 series。

Alerting rule 搭配 recording rule

1  - name: sli_alerts
2    rules:
3      - alert: HighErrorRate
4        expr: job:http_request_error_rate:ratio_rate5m > 0.01
5        for: 5m
6        labels:
7          severity: page
8        annotations:
9          summary: "{{ $labels.job }} error rate above 1% for 5 minutes"

Alert 表達式讀 recording rule 而非原始 metric。好處有二：alert evaluation 更快（讀預先計算的 series）、alert 表達式與 dashboard panel 使用同一組 recording rule（確保看到的數字一致）。

故障與邊界

Series churn 導致 absent() 判斷失準

absent(up{job="myapp"}) 用來偵測 target 完全消失（沒在 scrape）。但在 K8s 環境，pod 頻繁 rolling update 會造成 series churn — 舊 pod 的 series 消失、新 pod 的 series 出現。短暫的時間窗內 absent() 可能誤觸。

修法：用 absent_over_time(up{job="myapp"}[5m]) 替代，要求整個 5 分鐘區間都沒有 series 才觸發。或用 count(up{job="myapp"}) == 0 明確檢查 series 數量。

Recording rules circular dependency

Rule group A 的 rule 讀 rule group B 的 recording rule、group B 又讀 group A 的結果。Prometheus 按 group name 字母序 evaluate，circular dependency 會讓一方讀到上一輪的 stale 結果。

預防方式：recording rules 形成 DAG（有向無環圖）。Prometheus 文件建議把 rule 分成 aggregation 層級 — 底層 group 算 raw metric 的 aggregation、上層 group 算 recording rule 的 aggregation。同一個 group 內的 rule 按宣告順序同步 evaluate。

大 range query OOM

Dashboard panel 用 rate(metric[30d]) 查詢 30 天 range — Prometheus 要載入 30 天的 samples 到記憶體做計算。100 萬 series × 30 天 × 15 秒 interval ≈ 1.7 億 samples per series 是不可能完成的查詢。

修法：長時間 range 必須用 recording rules 做 step-down aggregation。先用 rate(...[5m]) recording rule 每 30 秒算一次、再用 avg_over_time(recording_rule[30d]) 查詢。Recording rule 的 series 數量通常比原始 metric 少一到兩個數量級。

Prometheus 2.x 支援 --query.max-samples flag 限制單一 query 能處理的 sample 數量（預設 5000 萬），超過就回傳 error。這是 OOM 的最後防線、不是常態。

Counter reset 導致 rate 異常

Process 重啟時 counter 歸零。rate() 和 increase() 自動偵測 counter reset 並補償，但有邊界條件：如果 scrape interval 內發生多次 restart（例如 crash loop），rate() 可能低估真實值（只能偵測到一次 reset）。

這種情境下的判讀：如果 rate() 的結果明顯低於預期、且同時段有 pod restart 紀錄，rate 低估是正常的。修法是解決 crash loop 本身、而非調整 PromQL。

容量與 Cost

Recording rules 的 CPU 成本 = rule 數量 × 每條 rule 的 evaluation 時間 × (1 / evaluation interval)。

Rule 數量	平均 evaluation 時間	Interval	每秒 evaluation 消耗
50	10ms	30s	50 × 0.01 / 30 = 0.017 core
200	50ms	30s	200 × 0.05 / 30 = 0.33 core
500	100ms	15s	500 × 0.1 / 15 = 3.33 core

表中的 evaluation 時間是 10 萬到 50 萬 active series 規模下的經驗值。Series 數量影響 evaluation 時間 — 100 萬 series 的 complex aggregation 可能 500ms+，跟表中假設偏差很大。用 prometheus_rule_group_last_duration_seconds 量測自己環境的實際值。

500 條 complex rule 搭配 15 秒 interval 會消耗超過 3 個 CPU core 在 rule evaluation 上。這時候的修法方向有三：

把 evaluation interval 放寬到 30s 或 60s（犧牲即時性）
把 rule 表達式最佳化（減少 aggregation 層數）
把 rule evaluation 卸載到 Mimir ruler（水平擴展）

Recording rules 產生的新 series 也會增加 cardinality。200 條 recording rule × 平均 5 個 label 組合 = 1000 個新 series，通常可接受。但如果 recording rule 沒做 aggregation 而是直接 alias（record: new_name expr: old_metric），cardinality 不會減少，只增加了寫入成本。

判讀指標：prometheus_rule_group_last_duration_seconds 跟 prometheus_rule_group_interval_seconds 的比值。前者超過後者時，evaluation 跑不完、dashboard 跟 alert 都會延遲。見容量規劃與故障模式的 Recording rule evaluation lag 段。

Recording rules 作為成本控制工具

觀測成本治理案例提出一個被低估的用法：recording rules 不只是加速查詢、也是控制 remote write 成本的手段。

模式是這樣的：application 暴露 200 個 label 組合的原始 metric（per-endpoint × per-status × per-region），recording rule 聚合成 5 個 label 組合（per-service × per-region）。如果 remote write 設定了 write_relabel_configs drop 掉原始 series、只 forward recording rule 產生的 aggregated series，remote write bandwidth 跟長期儲存的 cardinality 都大幅降低。

 1# Step 1: recording rule 做 aggregation
 2groups:
 3  - name: cost_optimized
 4    rules:
 5      - record: service_region:http_requests:rate5m
 6        expr: sum by (service, region) (rate(http_requests_total[5m]))
 7
 8# Step 2: remote write 只送 aggregated series
 9remote_write:
10  - url: "http://mimir:9009/api/v1/push"
11    write_relabel_configs:
12      - source_labels: [__name__]
13        regex: "service_region:.*"
14        action: keep

這個模式的取捨：長期儲存只有 aggregated 資料、無法回溯到原始 per-endpoint 維度。如果事故時需要 per-endpoint 的歷史資料，要麼保留原始 series 在本地 Prometheus（短期 retention）、要麼接受長期儲存只有 aggregated 粒度。

適用場景判斷：如果 dashboard 跟 alert 都只看 service-level 聚合、per-endpoint 維度只在即時除錯時才需要（Prometheus 本地 15 天 retention 夠用），這個模式的成本節省值得。如果有合規需求要 per-endpoint 歷史資料（例如 FinTech 案例的 evidence chain），就不能 drop 原始 series。

Evaluation interval 對 CPU 的影響

Rule group 的 interval 決定 evaluation 頻率。同一組 rules 從 30s interval 改成 15s interval，CPU 消耗翻倍。從 30s 改成 60s，CPU 減半但 alert 跟 dashboard 的即時性下降。

經驗值：

場景	建議 interval	理由
SLI / SLO recording rules	30s	平衡即時性跟成本、多數 burn rate alert 的最小 window 是 5 分鐘
Capacity trending rules	60s-120s	趨勢不需要秒級即時性
High-frequency operational rules	15s	需要跟 scrape interval 對齊的場景（例如 real-time anomaly detection）

15 秒 interval 的 rule group 要特別注意 evaluation 時間 — 如果 evaluation 本身花 12 秒，只剩 3 秒 buffer。prometheus_rule_group_last_duration_seconds 持續接近 prometheus_rule_group_interval_seconds 時，要麼拆 rule group 到不同 Prometheus instance、要麼放寬 interval。

整合與下一步

Alertmanager

Alert rule 寫在 Prometheus 的 rule_files 內、觸發後送到 Alertmanager。Alertmanager 負責去重、分組、抑制與路由（route to PagerDuty / Slack / email）。Alert rule 的表達式跟 recording rule 共用同一組語意 — 讀 recording rule 而非原始 metric。

Grafana dashboard

Grafana 的 Prometheus datasource 直接查 PromQL。Dashboard panel 推薦讀 recording rule series 而非寫 raw PromQL — 減少 dashboard 載入時間、確保 dashboard 跟 alert 看到的數字一致。

對齊 SLI/SLO

Recording rules 產生的 SLI metrics 是 4.6 SLI/SLO 訊號設計的資料來源。SLO burn rate alert 也讀同一組 recording rule。確保 SLI recording rule 的 time window 跟 SLO window 對齊（例如 SLO 用 30 天 rolling window，recording rule 至少提供 5m 和 1h 兩個 aggregation 粒度給 burn rate 計算）。

交接路由

Prometheus 服務頁：overview 跟日常操作入口
容量規劃與故障模式：recording rules 成長後的資源衝擊
Remote Write 與長期儲存整合：recording rule 在 remote write 架構下的部署選擇
4.6 SLI/SLO 訊號設計：recording rules 如何餵給 SLO burn rate
4.7 Cardinality 治理：recording rules 作為 cardinality 減量手段
4.23 觀測查詢設計：recording rules 在 pre-aggregation 與 query tiering 中的定位

Sentry Release Tracking 與 Session Replay

Mon, 22 Jun 2026 00:00:00 +0000

本文是 Sentry 的 vendor deep article，深化 overview「Release / source map」跟「Session Replay」段。初次接觸 Sentry 的讀者建議先讀 Sentry 服務頁。

問題情境

Release tracking 讓 Sentry 從「error 收集器」升級成「部署品質追蹤器」。每次部署標記一個 release，Sentry 自動計算 crash-free sessions、regressed errors 跟 release health。Session Replay 進一步把 error 的觸發脈絡從 stack trace 擴展到使用者操作錄影。兩者搭配使用時，團隊能看到「這個版本部署後、哪些使用者遇到什麼操作導致什麼錯誤」的完整鏈路。

Release Health

核心概念

Release health 追蹤每個版本的使用者體驗品質。核心指標：

指標	定義	健康閾值
Crash-free sessions	沒有 unhandled error 的 session 百分比	99.5% 以上
Crash-free users	沒有遇到 unhandled error 的使用者百分比	99.5% 以上
Adoption rate	使用此版本的 session 佔比	依 rollout 策略
Error count	此版本的 error event 數量	不應比前一版高

Crash-free sessions 跟 crash-free users 的差異：sessions 是頻率加權（一個使用者一天開 10 次 app，10 次都算），users 是去重的。Mobile app 通常看 crash-free users（使用者感知），web 通常看 crash-free sessions（頻率反映服務品質）。

Release 標記

在 SDK 初始化時傳入 release 標記：

1sentry_sdk.init(
2    dsn="...",
3    release="checkout-api@1.2.3",
4    environment="production",
5)

Release 命名慣例：@ 或 git SHA。用語意版本方便比較，用 git SHA 方便對應 commit。CI/CD pipeline 在 deploy step 自動設定。

Deploy 標記

Release 建立後，用 Sentry CLI 或 API 標記 deploy：

1sentry-cli releases deploys checkout-api@1.2.3 new \
2  --env production \
3  --started $(date -u +%s) \
4  --finished $(date -u +%s)

Deploy 標記讓 Sentry 知道某個 release 何時部署到哪個環境。issue list 的 “First seen in release” 跟 “Regressed in release” 依賴這個資訊。

Regressed Error 偵測

Sentry 會追蹤已 resolve 的 issue。如果新 release 重新觸發了已 resolve 的 issue，Sentry 標記為 regression。這比人工追蹤有效 — 團隊不需要記住哪些 bug 修過，Sentry 自動偵測回歸。

Regression 通知的準確度取決於 grouping 品質。如果 grouping 不準（見 Error Grouping 與 Fingerprinting），regression 偵測也會不準 — 不同 bug 被合成同一 issue 時，resolve 一個 bug 後另一個觸發會被誤判為 regression。

Source map 上傳

前端 minified code 的 stack trace 不可讀。上傳 source map 讓 Sentry 還原原始 source code 位置：

1sentry-cli releases files checkout-api@1.2.3 upload-sourcemaps \
2  --url-prefix '~/static/js' \
3  ./build/static/js

Source map 上傳必須在 deploy 前完成，且 release 版本跟前端 build 版本一致。版本不一致時，Sentry 找不到對應的 source map，stack trace 仍然是 minified。

CI/CD 整合：在 build step 之後、deploy step 之前上傳 source map。多數框架（Next.js、Vite、Webpack）有 Sentry plugin 自動處理。

Session Replay

核心能力

Session Replay 錄製使用者在網頁上的操作。Sentry 記錄的是 DOM mutation 跟使用者事件的結構化資料，播放時 replay DOM 變化，效果類似影片但資料量遠小於螢幕錄影。

replay 跟 error 關聯：Sentry 在 error event 中附帶 replay ID，讓工程師從 issue detail 直接跳到 error 發生前後的使用者操作。

隱私設定

Session Replay 預設會遮罩敏感資訊：

遮罩類型	預設行為	自訂方式
文字內容	所有文字替換成 `*`	`maskAllText: false` 關閉、或用 CSS class `sentry-mask` 指定
輸入框	所有 input value 遮罩	`maskAllInputs: false` 關閉（注意 PII 風險）
圖片	不遮罩（但從原始 URL 載入）	`blockAllMedia: true` 遮蔽所有媒體
特定元素	不遮罩	加 `data-sentry-block` attribute 完全隱藏

PII 合規考量：

預設 maskAllText: true + maskAllInputs: true 是安全起點
GDPR / CCPA 場景需要額外確認：replay 資料存在 Sentry SaaS（美國資料中心），跨境傳輸需要評估
Self-hosted Sentry 可以把 replay 資料留在自己的基礎設施

Sampling 策略

Session Replay 會增加前端 SDK 的 payload 大小跟 Sentry 的 event quota。用 sampling rate 控制：

1Sentry.init({
2  dsn: "...",
3  replaysSessionSampleRate: 0.1,  // 10% 的 session 錄影
4  replaysOnErrorSampleRate: 1.0,  // error 發生時 100% 錄影
5});

推薦策略：replaysSessionSampleRate 用低值（1-10%），replaysOnErrorSampleRate 用 100%。目的是確保每個 error 都有 replay 可看，但不錄所有正常 session。

高流量網站（每日百萬 session 以上）可能需要把 replaysSessionSampleRate 設到 0，只在 error 時才錄。session replay 的 quota 消耗速度可以在 Sentry Usage Stats 頁面監控。

Performance Monitoring

Transaction-based tracing

Sentry 的 performance monitoring 用 transaction / span 結構（跟 OpenTelemetry 的 trace / span 概念對齊）。每個 HTTP request、page load 或自訂操作是一個 transaction，transaction 內的子操作是 span。

1with sentry_sdk.start_transaction(op="checkout", name="POST /api/checkout"):
2    with sentry_sdk.start_span(op="db", description="insert order"):
3        # DB operation
4        pass
5    with sentry_sdk.start_span(op="http", description="payment gateway"):
6        # External API call
7        pass

自動 instrumentation 會自動建立 transaction 跟 span（HTTP framework、DB driver、HTTP client）。手動 span 用在自訂業務邏輯或自動 instrumentation 沒覆蓋的路徑。

OTel context 整合

Sentry SDK 支援 OTel context propagation — 如果 upstream service 用 OTel SDK 產生 trace，Sentry SDK 會接受 traceparent header 中的 trace_id 跟 parent_span_id，把自己的 transaction 接到同一條 trace。

整合方式：

場景	設定
Sentry SDK 接收 OTel context	預設支援 W3C Trace Context、不需額外設定
Sentry 資料送到 OTel backend	用 Sentry 的 OTel exporter（experimental）
OTel SDK 送資料到 Sentry	OTel SDK → OTLP exporter → Sentry（Sentry 支援 OTLP ingestion）

常見架構：backend service 用 OTel SDK + Collector，frontend 用 Sentry SDK（前端 error tracking 跟 session replay 是 Sentry 的強項）。兩者透過 trace_id 關聯，在 Sentry 看 frontend error + replay，在 OTel backend 看 backend trace。

Web Vitals

前端 SDK 自動收集 Core Web Vitals（LCP、FID / INP、CLS）跟 TTFB。這些指標跟 error 在同一個 dashboard，讓團隊在 release 後同時看 error regression 跟效能 regression。

Web Vitals 的觀測不需要額外設定 — 前端 SDK 自動收集。但 sampling rate 會影響資料量 — tracesSampleRate 設太低時，Web Vitals 的 sample 數量可能不夠做統計比較。

Self-hosted vs SaaS

決策維度

維度	SaaS（sentry.io）	Self-hosted
維運	Sentry 負責	自己維運（docker-compose、20+ 容器）
資料位置	Sentry 資料中心（美國為主）	自己的基礎設施
功能完整度	全功能	社群版功能略少（部分企業功能不含）
升級	自動	手動（每月有新版、升級需要停機）
成本模型	Event-based pricing	基礎設施 + 人力成本
Replay / Profiling	含	含（但 storage 自負）

何時選 self-hosted

資料必須留在特定地理區域（GDPR / 特定產業法規）、或企業 security policy 不允許 error data 送到第三方 — 這是 self-hosted 的核心理由。

Self-hosted Sentry 的維運成本常被低估：20+ 個容器（Kafka、ClickHouse、PostgreSQL、Redis、Snuba、Relay 等）、升級可能需要資料庫 migration、troubleshooting 時沒有 vendor 支援。中小團隊通常 SaaS 的 event pricing 比 self-hosted 的人力成本低。

混合模式

部分團隊用混合模式：production error 送 Sentry SaaS（低維運），但 audit-sensitive 的資料（PII-heavy environment）走 self-hosted。兩套 Sentry instance 各自獨立，不共享 issue。

整合與下一步

Error grouping 策略：在 issue 數量失控前建立 fingerprint rule，見 Error Grouping 與 Fingerprinting
觀測證據整合：把 Sentry issue link 放進 evidence package，見 4.20 Observability Evidence Package
Client-side monitoring：Sentry 的前端 SDK 跟 RUM 的定位互補，見 4.10 Client-side Monitoring
事故響應整合：Sentry alert → PagerDuty / incident.io，見 08 Incident Response 模組

New Relic → Datadog：APM schema 對位 + agent 替換 + dashboard 重建

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link New Relic 跟 Datadog。跑 migration-playbook-methodology 6 維 audit 後對映 Schema = High（NRQL ↔ Datadog query、APM agent 不同）→ Type A phased translation。

問題情境

中型 SaaS 跑 New Relic 3-5 年、production observability 飽和、團隊發現幾個問題：cost 暴漲（per-host APM + custom event + synthetic）、APM trace 對 Kubernetes-native workload 不夠細、跟 PagerDuty / Slack integration 雖然有但 latency 偏高。同期 Datadog 在 K8s monitoring + APM 端深度整合、cost model 在 100-500 host 規模更可預測。

評估遷移時、發現 New Relic → Datadog 不是「換個 agent 就好」 — APM schema、NRQL 查詢語言、custom dashboard、synthetic monitoring rule 全部要 重新對位；application code 端的 agent 也要 完全換 binary。是 Type A 高 schema 差 migration、不是 drop-in。

為什麼遷：cost / k8s-native / vendor consolidation 三條 driver

Driver	觸發場景
Cost	New Relic per-host pricing + custom event + synthetic 加總爆、Datadog 在 K8s 場景單 host 多 container 更划算
K8s-native	Datadog agent 對 K8s sidecar / DaemonSet / autodiscovery 更深
Vendor consolidation	已用 Datadog log / metric、APM 統一 vendor 降工具切換 cost

反向 driver（Datadog → New Relic）：

New Relic 對 full-stack observability（APM + browser + mobile + synthetic）的整合包仍領先
已深用 New Relic NRQL 跟 New Relic University 培訓的 organization、不切

Schema 對位

New Relic concept	Datadog 對應
APM agent (NR Java / Python / Node)	Datadog agent + APM tracer library
NRQL query	Datadog query (Metric / Log / Trace)
Synthetic monitor	Datadog Synthetic Tests
Custom event	Datadog custom metric / log event
NRQL alert condition	Datadog monitor
New Relic dashboard	Datadog dashboard (need rebuild)
Apdex score	Datadog APM `apm.service.errors` + `apm.service.latency`
Distributed trace	Datadog APM trace（OpenTelemetry-compatible）

Phase 0：Audit + classify

列所有 application 跟對應 NR agent version
列所有 NRQL alert / dashboard / synthetic monitor
估每月 cost 跟 Datadog 對比

Phase 1：Schema 對位 + Datadog cluster 建置

Datadog organization 申請 / IAM integration
VPC peering / private link (如果用 self-hosted agent)

Phase 2：Translation pipeline (3-tier)

Tier 1: Datadog 端 import tool（API-based NRQL → Datadog query 轉換、cover ~40-60%）
Tier 2: LLM-assisted（剩餘 query / dashboard）
Tier 3: manual (synthetic / complex correlation)

Phase 3：Parallel run (dual-agent 4-8 週)

兩個 agent 跑同 application、metric / trace / log 雙端輸出、SOC 比對 detection coverage / alert / dashboard 一致性。

Phase 4：Cutover + cleanup

Application 端切 agent
New Relic license downgrade / cancel
Decommission timeline 3-6 個月（保留歷史查詢能力）

Pre-cutover 列所有 NR-specific metric、application code 改用 OpenTelemetry-style metric 命名
Datadog query 端 rebuild、用 application-level metric name 而非 vendor-specific
長期：metric naming 用 OpenTelemetry semantic conventions、避免 vendor lock

Capacity / cost

維度	New Relic	Datadog
Pricing model	per-host + custom event / synthetic	per-host APM + log indexing + custom metric
K8s-friendly	中、autodiscovery 有但配置複雜	高、K8s-native autodiscovery first-class
Migration cost	-	2-4 FTE × 2-3 個月
Operational FTE	0.3-0.6	0.3-0.6（相當）

整合 / 下一步

跟 Datadog → Grafana Stack migration 對位

兩種 Datadog 端的後續路線：

切到 Datadog 後 繼續用（穩定 multi-year）
切到 Datadog 後 再切 Grafana Stack 省 cost（multi-tool 拆分、Type D）

多數 organization 第一輪 NR → Datadog 已花 2-3 個月、不會立刻再切；至少穩定 1-2 年。

跟 OpenTelemetry 對齊

Migration 順便升 OTel 化 application、避免下次 vendor 切換重複工作量。

Self-managed Prometheus → Grafana Cloud Metrics：feature × ops × cost 對照

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link Prometheus 跟 Grafana Stack（Grafana Cloud Metrics、Mimir-backed）。跑 migration-playbook-methodology 6 維 audit 後對映 Operational = High → Type C operational redesign hybrid。

Feature / ops / cost 三維對照

維度	Self-managed Prometheus	Grafana Cloud Metrics
Storage backend	Local disk + remote_write (optional)	Mimir + S3 (auto cold tier)
Retention	TSDB local 15 天 default	13 個月 default、可延長
HA	Two Prometheus + sidecar	Built-in multi-AZ
Cardinality limit	自管 limit + recording rule	1.5M active series / tier、scale-up 配額
Query API	PromQL + Prometheus HTTP API	完全相容
Alert	Alertmanager self-managed	Grafana Cloud Alerting
Dashboard	Grafana self-managed	Grafana Cloud (included)
Long-term storage	Thanos / Cortex / Mimir 自管	Mimir 內建
Cost (mid-tier)	$500-2000 / mo + ops FTE	$300-1500 / mo (按 series)
Operational FTE	0.3-0.8	0.05-0.15

跑 6 維 diff dimension audit：

維度	等級
Schema / API	Low（PromQL + API 完全相容）
Operational	High（HA / retention / scaling 全託管）
Paradigm	Low（同 Prometheus metric paradigm）
Components	Low
Application change	Low（remote_write endpoint 改）
Data topology	Low

Operational = High → Type C standard。

為什麼遷：retention / ops / vendor consolidation 三條 driver

Driver	觸發
Retention	Prometheus TSDB local 預設 15 天、長期 retention 需要 Thanos / Cortex / Mimir 自管
Ops FTE	Self-managed Prometheus + Alertmanager + Grafana 自管全部加起來 0.5-1 FTE
Vendor consolidation	已用 Grafana Cloud（logs / traces）、metric 加進 stack 統一

Operational redesign

Concept	Self-managed	Grafana Cloud Metrics
Cluster bootstrap	Helm chart + manual config	UI 一鍵建
HA	Two Prometheus 配置	內建 multi-AZ Mimir
Long-term retention	Thanos / Cortex / Mimir 自管	Built-in (S3-backed)
Cardinality control	Manual recording rule + relabel	Adaptive sampling + cardinality limit
Alerting	Alertmanager 自管	Grafana Cloud Alerting (integrated)
Dashboard	Grafana self-host	Grafana Cloud (free tier 包含)

Migration 4-phase

Phase 0：Audit

列所有 Prometheus job / scrape config
統計 active series 數（Mimir tier 計費基準）
估 retention 需求

Phase 1：Grafana Cloud setup

Account + organization 設定
API key for remote_write
Grafana Cloud Mimir endpoint 啟用

Phase 2：Dual-write

 1# prometheus.yml
 2remote_write:
 3  - url: https://prometheus-prod-XX-prod-us-central-0.grafana.net/api/prom/push
 4    basic_auth:
 5      username: 
 6      password: 
 7    write_relabel_configs:
 8      # Optional: drop high-cardinality before sending
 9      - source_labels: [__name__]
10        regex: 'high_card_metric_.*'
11        action: drop

跑 4-8 週、確認 query 結果一致 + cost 在預期。

Phase 3：Cutover

Dashboard / alert 切到 Grafana Cloud endpoint
應用層 / Grafana 自管 instance 關閉 query 對 self-managed Prometheus

Phase 4：Cleanup

Self-managed Prometheus stop scrape
留 1-2 月歷史查詢能力（用 archive snapshot）
Decommission

Phase 2 期間用 promtool tsdb dump + mimirtool 把 self-managed historical 灌進 Mimir
或保留 self-managed Prometheus read-only 6 個月（給 historical query）
Long-term：retention 從 cutover 開始算、historical 是 one-time backfill

Capacity / cost

維度	Self-managed	Grafana Cloud Metrics
Compute (100 host, 100K series)	$500-1000 / mo + ops	$300-800 / mo
Operational FTE	0.3-0.8 = $3K-8K	0.05-0.15 = $500-1500
Long-term retention	Thanos / Cortex / Mimir 自管	Built-in 13 個月
Total (mid-tier)	$4K-9K / mo (含 FTE)	$1K-2.5K / mo
Migration cost	-	1-2 FTE × 1-2 個月

整合 / 下一步

跟 Datadog → Grafana Stack migration 對位

兩條 Grafana Stack 路線：

Self-host (Mimir + Loki + Tempo) on K8s：開源、自管
Grafana Cloud：SaaS、operational simplification

本篇是「self-managed Prometheus → Grafana Cloud」、互補；如果跑兩階段（self-host → Cloud）跟「Datadog → Grafana Cloud」差不多。

跟 OpenTelemetry 整合

OTel Collector 可同時 ship 到 Mimir (metric) + Loki (log) + Tempo (trace)；Migration 順便升 OTel 化避免下次 vendor 切換重複。

Sentry → Honeycomb：trace 不是 error、是不同 observability paradigm

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link Sentry 跟 Honeycomb。跑 migration-playbook-methodology 6 維 audit 後對映 Paradigm = High（error tracking ↔ wide-event observability）→ Type E paradigm shift。

Trace 不是 error、是不同 paradigm

把 Sentry → Honeycomb 當「trace tool 替換」是最常見的誤判 — Sentry trace 是 error 上下文、Honeycomb trace 是 observability 第一性：

概念	Sentry	Honeycomb
核心 paradigm	Error tracking + transaction trace	High-cardinality wide-event observability
第一性 unit	Error event	Wide event (span with N fields)
Trace 角色	Error 的「附帶 context」	Observability 主軸、每 event 是 trace span
Sampling	Error 全收 + transaction sample	Adaptive sampling、保留 anomaly
Query model	Filter + group by + aggregation	High-cardinality 多維 query (BubbleUp / heatmap)
User base	Developer (debug error)	SRE + Platform (debug system behavior)
Cost model	Per-error event + transaction	Per-event (wide event volume)

核心差異不在「Honeycomb 是 better Sentry」、在「兩者是不同 observability paradigm」：

Sentry 適合 application-level error debug — 拿到 error stack trace + minimal context、快速 fix
Honeycomb 適合 system-level behavior debug — 看流量分佈 / 多維 correlation / 異常 outlier、找 為什麼這個 user 在這個時段在這個 endpoint 慢

Migration scope 包含 paradigm reset — 不是 SDK 換、是 SRE / Dev team 對 observability 的心智模型重設。

為什麼遷：observability 成熟度 / cardinality / cost 三條 driver

Driver	觸發
Observability 成熟度	Application 規模到跨多 service / multi-tenant、Sentry error tracking 不夠細、SRE 要看 high-cardinality 多維 query
High-cardinality	Sentry tag system 限制 cardinality（~1000 unique value）、Honeycomb native 支援 millions cardinality
Cost	Per-error pricing 對 high-error volume 場景爆、Honeycomb per-event 在 wide event 場景更可預測

反向 driver（Honeycomb → Sentry）：

Pure error tracking 場景、Honeycomb wide-event 過度設計
Frontend / mobile 客戶端 error tracking、Sentry 對 web/mobile/desktop SDK 成熟度高

6 維 audit

維度	等級
Schema / API	Medium（event schema 概念不同、SDK 完全換）
Operational	Low（兩者都 SaaS、operational 對等）
Paradigm	High（error tracking ↔ wide-event observability）
Components	Low（同 1 個 observability vendor）
Application change	High（SDK 換 + instrumentation 重設計）
Data topology	Low

Paradigm = High（其他 Low-Medium）→ Type E paradigm shift；application change 雖 High 但是 paradigm 的 downstream。

結構：partial migration + 混合架構是 long-term default

跟 Kafka ↔ NATS / Redis → Memcached 同 Type E pattern：

不存在 complete migration：Sentry 對 frontend error tracking 強項、Honeycomb 對 backend system observability 強項
長期混合架構：frontend / mobile 保留 Sentry、backend / SRE 走 Honeycomb
Application 重設計：instrumentation 用 OpenTelemetry、避免 vendor SDK lock-in

Application 重設計範例

 1# Before: Sentry SDK
 2import sentry_sdk
 3sentry_sdk.init(dsn='https://x@sentry.io/y')
 4
 5try:
 6    process_order(order_id)
 7except Exception as e:
 8    sentry_sdk.capture_exception(e)
 9    raise
10
11# After: OpenTelemetry + Honeycomb
12from opentelemetry import trace
13from opentelemetry.sdk.trace import TracerProvider
14from opentelemetry.sdk.trace.export import BatchSpanProcessor
15from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
16
17trace.set_tracer_provider(TracerProvider())
18trace.get_tracer_provider().add_span_processor(
19    BatchSpanProcessor(OTLPSpanExporter(endpoint='https://api.honeycomb.io', headers={'x-honeycomb-team': 'YOUR_API_KEY'}))
20)
21tracer = trace.get_tracer(__name__)
22
23with tracer.start_as_current_span('process_order') as span:
24    span.set_attribute('order.id', order_id)
25    span.set_attribute('user.id', user_id)
26    span.set_attribute('order.amount', order.amount)  # high-cardinality 自然
27    span.set_attribute('order.region', region)
28    try:
29        process_order(order_id)
30        span.set_status(trace.Status(trace.StatusCode.OK))
31    except Exception as e:
32        span.set_status(trace.Status(trace.StatusCode.ERROR, str(e)))
33        span.record_exception(e)
34        raise

差異：

Sentry 只 capture exception + 簡 context
Honeycomb 對每 operation 寫 wide event 含 high-cardinality field（user.id / order.amount / order.region）
SRE 端能跑 WHERE order.region = "us-west-2" AND duration > 5000 的 multi-dim query

Migration 流程

 11. Audit application：列所有 Sentry SDK 使用 + capture pattern
 22. 分類處理 plan:
 3   - Pure error tracking (frontend): 保留 Sentry
 4   - Backend system trace: 切 Honeycomb / OTel
 5   - Error + context (混合): 雙寫期 evaluate
 63. OpenTelemetry instrumentation 化:
 7   - 用 OTel SDK 取代 vendor SDK
 8   - Honeycomb 是 OTLP target、跟 vendor lock 解耦
 94. Backend application 切 Honeycomb (3-6 個月)
105. Frontend / mobile 保留 Sentry
116. SRE training: Honeycomb BubbleUp / heatmap / multi-dim query

Pre-migration 估：用 OTel pilot 跑 1-2 週、估真實 event volume
Sample rule 設計：retention 7 天 hot + 30 天 cold + 1 年 archive、降 cost
混合架構保留：frontend / mobile 走 Sentry、backend 走 Honeycomb、避免一邊 cost 爆

Case 5：Alert paradigm 不對等

徵兆：Sentry alert 簡單（error rate / latency p99 threshold）、Honeycomb trigger 配置複雜（SLO + burn rate + BubbleUp）；SOC 學習曲線 1-2 個月。

修法：

Migration 含 alert rebuild scope：Honeycomb trigger 不直接對位 Sentry alert、要重寫
SLO-driven alert：用 Honeycomb SLO 取代 Sentry threshold alert、降 alert fatigue
PagerDuty integration：兩家都支援、routing rule 跟 dedup 要 review

Capacity / cost

維度	Sentry	Honeycomb
Pricing model	Per-error + transaction	Per-event (wide event)
Cost (mid-tier)	$500-2000 / mo	$400-3000 / mo (依 event volume)
Sampling	Built-in transaction sampling	Refinery (additional component)
Cardinality	~1000 unique value / tag	Millions / field
Application complexity	Low (SDK + capture exception)	Medium (OTel + wide event instrument)
Migration cost	-	2-4 FTE × 2-3 個月

整合 / 下一步

跟 OpenTelemetry 整合

OTel 是 vendor-neutral instrumentation、Honeycomb 是 OTLP backend；application 端 OTel 化後可以同時 ship 到多個 backend（dev 端 Jaeger / production 端 Honeycomb / fallback 端 Tempo）。

跟 Datadog → Grafana Stack 對位

兩條 observability 路線：

Grafana Stack (Mimir / Loki / Tempo)：self-host or Grafana Cloud、open source baseline
Honeycomb：SaaS-only、focus wide-event observability

選擇取決於 observability paradigm：trace-heavy 走 Tempo / Honeycomb、metric-heavy 走 Mimir / Datadog。

4.11 Telemetry Pipeline 架構

Fri, 01 May 2026 00:00:00 +0000

大綱

為何要把 telemetry 當 pipeline 看：每層有獨立失敗模式與成本邊界
分層責任：agent（採集）、collector（聚合 / 轉換）、ingest（寫入 buffer）、storage（保留 / 查詢）、query（dashboard / alert）
buffer 與 backpressure：collector 端緩衝、ingest 滿時的降級策略
OpenTelemetry Collector 的角色：vendor-neutral 中介層
pipeline 失敗時的 graceful degradation：訊號斷一層、其他層仍可用
multi-tenant 環境的 quota / 隔離
觀測遷移流程：先換 collector 再換 instrumentation、雙軌期保留對照
跟 4.7 cardinality 的分工：4.7 是治理輸入、4.11 是 pipeline 執行
反模式：pipeline 是黑盒、無 self-monitoring；agent 直連 vendor 無 collector 中介；ingest 滿時直接 drop 無告警

概念定位

Telemetry pipeline 是把訊號從 service process 帶到查詢與告警面的資料路徑，責任是讓採集、轉換、寫入、儲存與查詢各層都有可觀測的邊界。

這一頁處理的是觀測系統本身的可靠性。當 pipeline 是黑盒，訊號消失時團隊需要額外排查服務是否真的沒事件，或 agent、collector、ingest、query 哪一層失效。

Pipeline 視角的另一個價值是把採集策略跟儲存後端解耦。應用層只需要產生標準訊號，pipeline 處理 schema 轉換、sampling、enrichment、routing 與 vendor 對接；當儲存後端或 vendor 改變時，應用層不必重新 instrument。

分層責任與失敗模式

Pipeline 各層責任不同，失敗模式也不同。把 pipeline 視為單一黑盒會讓事故定位停在「訊號不見了」這層觀察，無法回答是哪一層的問題。

分層	主要責任	典型失敗模式	健康訊號
Agent	從 process / host 抓取原始訊號	升版需重啟、container restart 造成短期缺洞	export queue depth、dropped batches
Collector	聚合、轉換、enrichment、routing	OOM、配置漂移、規則衝突	receiver / processor / exporter 指標
Ingest	接收並寫入 buffer 或排隊	滿載拒收（429）、區域故障	ingestion success rate、queue depth
Storage	保留資料、支援查詢索引	索引膨脹、保留策略誤刪、查詢退化	storage size、query latency
Query	dashboard / alert / 即席查詢	查詢逾時、aggregate 失真、permission 漂移	query QPS、p95 latency、permission 拒絕

Agent 層的關鍵風險是部署綁定。若 agent 跟應用同進程，升版需要重啟服務；若 agent 是獨立 DaemonSet 或 sidecar，升版可以獨立進行，但要承擔網路與資源額外開銷。Agent 自身故障時，service 看起來健康，dashboard 看起來空，事故指揮會把這個空白誤讀成系統靜默。

Collector 層是 pipeline 最有彈性的地方，也是最容易漏掉自我觀測的地方。OpenTelemetry Collector 的 receiver / processor / exporter 各自有 metrics，部署時要把這些 metrics 自身送回觀測平台。配置漂移是長期維護的主要失敗：sampling 規則改了沒紀錄、attribute 重命名沒同步、tail sampling decision window 縮短，都會讓下游看到的訊號跟以前不同。Collector 的三種部署位置（agent / gateway / sidecar）與 pipeline 設計細節見 OTel Collector 部署模式。

Ingest 層的失敗模式集中在容量邊界。當 vendor 端 quota 觸發或內部 queue 滿，ingest 會回 429 或直接丟棄；應用層通常無感、dashboard 顯示流量下降。這層需要把拒收事件本身變成告警訊號、讓事故定位即時看到拒收量、避免靠事後對賬發現。

Storage 跟 query 層的失敗多半是漸進式：保留策略誤刪、查詢隨時間退化、索引隨流量膨脹。這類失敗不會在當下觸發告警，要靠週期性審視 storage size、query latency 與 retention compliance 才能發現。

Buffer 與 Backpressure

Buffer 是 pipeline 吸收瞬時尖峰的緩衝，責任是讓 collector 跟 ingest 在後端短暫故障或速率不足時仍保住高價值訊號。

In-memory queue：吸收秒級尖峰、容量小、process 重啟會丟。
Persistent queue（local disk、Kafka）：吸收分鐘到小時級積壓、有持久性、需要額外運維成本。
Spillover storage（S3 等冷儲存）：當 hot path 滿載時，把低優先訊號暫存到便宜後端、之後 replay。

Backpressure 策略決定 buffer 滿時的行為。block 策略會讓上游採集慢下來、可能影響應用；drop oldest 跟 drop newest 各自影響 timeline 的開始或結束；sample-by-priority 則保留錯誤、長尾與低流量樣本、丟棄一般成功 request。Buffer 跟 backpressure 策略要在容量規劃階段顯式設定、進 release flow、避免事故時臨時拍定。

Buffer 對事故判讀的影響是 freshness。當 buffer 累積分鐘級資料時，dashboard 看到的指標其實落後當前狀態；incident commander 看到 error rate 下降時，需要知道是真的恢復還是 buffer 尚未排空。把 buffer depth 跟 ingest delay 暴露成 dashboard 指標，能避免事中決策建立在過期資料上。

Buffer 跟 backpressure 怎麼選：低延遲容忍 + 容量充足的場景用 in-memory queue + drop oldest（保留最新狀態）；高訊號完整性需求（例：audit log、事故證據）用 persistent queue + block 或 sample-by-priority；高流量爆量但允許部分遺失（例：debug log）用 spillover storage + drop newest。事故時的回退路徑是「在 backpressure 政策中先標明哪類訊號絕對保留、哪類訊號可丟」、避免事故當下臨時決定。

OpenTelemetry Collector 的中介定位

OpenTelemetry Collector 把採集、轉換與 routing 從應用程式抽離，責任是讓觀測 vendor 跟採集 SDK 各自演進。

Collector 在 pipeline 中扮演三個角色：

Vendor-neutral 中介：應用層只需 export OTLP，collector 端決定要不要把資料同時送到多個後端（Datadog、Honeycomb、self-hosted Prometheus）。切換 vendor 時不需要改應用層。
Schema / sampling 集中治理：attribute 重命名、敏感欄位 redaction、tail sampling decision、cardinality 限制都集中在 collector，不分散在每個服務。
Topology 適配層：collector 可以部署為 sidecar（與應用同 Pod）、DaemonSet（每個 node 一份）或 gateway（集中接收）。不同部署形態適合不同規模與隔離需求，並不互斥；大型部署常見「應用 → sidecar → cluster gateway → 後端」的多級拓樸。

對應 4.C5 Cloud Trace OTLP 導入：標準化傳輸協定降低跨環境的 instrumentation 重複，揭露「資料通道標準化」是觀測平台轉換的常見起點。對應 4.C6 ADOT on EKS 管線遷移：多代理混用在規模化時放大配置漂移，揭露 collector 集中治理的營運價值。兩個案例的具體實作差異留給原案例，本章關注的是 collector 在 pipeline 中的責任邊界。

觀測遷移的執行順序

觀測遷移的執行順序決定短期雙軌成本能否轉化為長期語意一致性。把替換風險限制在採集中介層、是先換 collector / agent、再換應用層 instrumentation 的設計理由。

可重複套用的順序是先換採集中介、再換採集點：

先換 collector / agent：把 collector 從 vendor-specific 換成 vendor-neutral（如 OTel Collector），同時保留舊 vendor 的 exporter，讓資料同時送到新舊後端。這層替換對應用層無感，可以快速完成。
建立雙軌對照：以新舊後端對照 SLI 是否一致（query 設計、偏差閾值、退出條件等對照細節由 4.17 telemetry data quality 處理）、差異超過閾值時停止下一步。
逐步改應用端 instrumentation：把應用層的 vendor-specific SDK 換成 OTel SDK，分服務分批進行。每批切換後重跑對照驗證。
以對照驗證進入 release gate：在 release pipeline 加上「新舊管線 SLI 偏差」檢查，作為遷移階段的閘門。對照穩定後才能關閉舊管線。

執行順序的設計理由：collector 是 vendor-neutral 抽象、可以雙軌並存承受對照成本；應用層 instrumentation 改動會跨眾多 service team、變更面廣、要在 collector 對照穩定後才大規模推進。把次序反過來容易在 instrumentation 全面改完才發現 collector 抽象有缺失、被迫重做。

對應 4.C4 X-Ray 到 OpenTelemetry 轉換：揭露「先 collector 後 instrumentation」的階段切換方向。對應 4.C7 Datadog OTel 相容遷移實務：揭露「雙軌期成本跟語意漂移是遷移期主要風險」（單一 agent 安裝是次要議題）。本章關注的是執行順序，schema drift 跟資料品質的對照驗證細節由 4.17 處理。

規模差異下的遷移節奏

遷移節奏由團隊規模、可承受雙軌成本、配置漂移風險與治理成熟度共同決定。本段聚焦遷移期的節奏取捨；常態 ownership 配置由 4.18 規模差異下的角色配置處理，兩者 lens 不同。

對應 4.C10 規模差異下觀測遷移：揭露三種規模團隊的失敗模式骨架；以下三段的具體操作做法均屬通用工程知識展開、case 本身只列方向。

小團隊的核心風險是雙軌維護消耗人力。同時看兩套 dashboard、雙倍 alert noise、雙倍 on-call 負擔，很容易讓遷移本身拖累業務維運。小團隊適合用「短期對照、快速收斂」策略：把對照期壓到一個迭代週期內，固定一個服務作為先導，把問題在小範圍內收斂，再快速複製到其他服務。

中型團隊的失敗模式集中在 schema 漂移。服務數量增加後，attribute 命名一致性、service name 規約、label cardinality 邊界容易在雙軌期擴散。中型團隊要在遷移開始前先固化 semantic convention，並在 collector 層自動校驗；不固化會在遷移後拼湊出多套互相矛盾的 dashboard。

大型團隊的主要失敗集中在治理面：collector 拓樸（sidecar / DaemonSet / gateway 的選擇）、sampling 政策、成本分攤、tenant 隔離都會在遷移後顯著影響成本與告警品質。大型團隊用「pilot region 先行、其他 region 批次跟進」策略、把 collector 配置版本化、變更接到 release gate。大型團隊的回退單位通常是 region 或 tenant 群、不是整體切回。

三類團隊的共同教訓是：先決定「何時可以關閉舊管線」的退出條件，再開始遷移。沒有退出條件的雙軌會無限期延長，最後在成本壓力下被動關閉，反而失去對照驗證的能力。

遷移漂移的回退判讀

漂移回退的責任是把降級決策權跟資料採集分離、讓回退保留可分析的對照證據。直接關閉新管線會失去漂移原因的線索、後續再遷移容易出同樣的事故。

對應 4.C9 OTel 遷移訊號漂移反例：揭露遷移失敗的主要型態是語意漂移、回退要保留對照證據。

漂移發生時，主要訊號是「兩套儀表板看似都有資料、但對同一事故的判讀不同」。新舊管線對同一服務的 error rate 長期偏離、missing span 或 missing metric 比例上升、alert 噪音增加但事故量沒對應增加，都是漂移在 pipeline 層的表現。

回退判讀的核心是分辨「遷移問題」跟「服務問題」。比較穩定的回退節奏：

先停止讓新管線主導告警跟 SLO 判定，把告警入口切回舊管線。
保留新管線採集、但只作為對照證據，不參與決策。
用對照資料找出語意漂移點（attribute 名稱、sampling 規則、aggregation 視窗），分項修正。
修正後重新進入雙軌對照、確認偏差收斂、再讓新管線恢復主導。

這個流程把回退視為降級決策權的釋放、而非整體關閉訊號採集。把回退做成可重播流程，下次遷移才能避免在錯誤訊號上做服務回退。

Multi-tenant 與 Quota

Pipeline 的多租戶治理責任是讓單一服務或團隊的爆量不會拖累其他租戶。沒有租戶隔離時，單一服務的 cardinality 爆炸或 sampling 失控會直接耗盡 pipeline 容量。

可操作的隔離手段：

Ingestion quota per tenant：限制單一服務的 ingest rate，超過時觸發降級或退單。
Buffer 與 storage 分區：高優先 tenant 使用獨立 buffer 或 storage shard，避免 noisy neighbor。
Sampling 政策 per tenant：成本敏感 tenant 走較高採樣比例，關鍵 tenant 走 minimum sample floor。
Cost attribution：把 ingestion、storage、query 成本拆到 tenant，回到 4.15 cost attribution。

Quota 觸發時的告警設計比 quota 本身更重要。沒有告警的 quota 等於沒有 quota，因為觸發後訊號靜默，事故定位會把靜默誤讀為系統穩定。

讀取路徑作為 pipeline 的延伸

Pipeline 的分層敘事（agent → collector → ingest → storage → query）在 query 這層停得太早。寫入路徑的資料從 agent 流到 storage 是單向的；讀取路徑從 query engine 向 storage 發起請求，方向相反、效能瓶頸不同、治理責任也不同。把 query 視為 pipeline 的終端消費者而非獨立系統，才能完整理解觀測資料的生命週期。

Query engine 的責任邊界

Query engine 在 pipeline 中的責任是把儲存層的資料轉換成使用者可操作的回應。這包括 query planning（決定掃描哪些 shard、哪些 tier）、聚合計算（rate / sum / quantile）、結果快取與 query 排程。

Query engine 的設計取捨跟儲存層不同。儲存層追求寫入吞吐與持久性；query engine 追求查詢延遲與併發能力。兩者獨立擴展 — 寫入量大但查詢量小的場景，storage 需要更多容量但 query engine 不需要；反過來，dashboard 多但寫入量穩定的場景，query engine 需要更多 CPU 但 storage 不需要。

Query-time 的資源隔離

Query engine 服務三種查詢模式：alert rule evaluation（系統關鍵、定期、不可延遲）、dashboard 刷新（高頻、穩定、可容忍短暫延遲）、即席診斷（偶發、突增、事故中最需要低延遲）。三者搶同一個 query engine 時，穩定的背景負載會擠壓突發的即席查詢。

資源隔離的可操作方式：

Query priority：alert evaluation 最高、即席查詢次之、dashboard 最低。Alert 不能因為 dashboard 重查詢排隊而漏發。
Query queue 分離：不同類型的查詢進不同的 queue，各自有併發上限。Thanos / Mimir 的 query-frontend 支援 query 分類與排程。
Query timeout 差異化：alert evaluation 設短 timeout（跑不完就是問題）、即席查詢設中等 timeout、dashboard 的大範圍查詢允許較長 timeout。
Query cost estimation：在查詢執行前估算掃描量，超過閾值的查詢降級或拒絕，避免單一 heavy query 拖垮整個 query engine。

Buffer lag 對查詢 freshness 的影響

寫入面的 buffer lag 會直接影響讀取面的 freshness。當 collector 或 ingest 端有分鐘級的 buffer 累積，query engine 讀到的是延遲過的資料。Dashboard 顯示的 error rate 可能反映的是兩分鐘前的狀態；incident commander 看到 error rate 下降，可能是 buffer 開始排空而非服務真的恢復。

把 buffer lag 轉成查詢面的可見指標是基本的設計要求。在 dashboard 上顯示「資料延遲：目前最新資料點是 N 秒前」，讓讀取者知道自己看到的資料有多新。當 lag 超過告警閾值，除了觸發 pipeline 健康告警外，dashboard 本身也應該標示警告狀態。

跨訊號類型的查詢設計見 4.23 觀測查詢設計。

核心判讀

判讀 telemetry pipeline 時，先看每一層是否有健康訊號，再看滿載時是否能降級。

重點訊號包括：

agent、collector、ingest、storage、query 是否各自有 SLI
buffer 與 backpressure 是否能保住高價值訊號
multi-tenant quota 是否能隔離單一服務爆量
collector 是否保留 vendor-neutral 的轉換空間
遷移期是否有雙軌對照、是否有退出條件

判讀訊號

訊號間歇性消失、需要人工判斷是 pipeline 還是 service 問題
agent 升版需要 service 重啟、運維成本高
ingest 拒收（429）發生時、應用層無感
切換 vendor 需要改所有 service 的 instrumentation
pipeline 自身無 SLI、健康度靠經驗判斷
遷移期雙軌維護過久、退出條件不明

反模式

反模式	表面現象	修正方向
Pipeline 是黑盒	訊號消失時靠經驗判斷層級	每層暴露 SLI、量化 self-monitoring
Agent 直連 vendor 無中介層	切換 vendor 要改所有應用層	加 collector 作為 vendor-neutral 中介
Ingest 拒收靜默	429 觸發但應用層 / 告警都無感	把拒收事件變成告警與 dashboard 指標
雙軌無退出條件	遷移期無限延長、成本不斷雙倍	預設退出 SLI 偏差閾值、加入 release gate
配置漂移無版本控制	collector 規則改了沒紀錄	collector 配置進 git、變更走 release flow

交接路由

4.7 cardinality / cost：pipeline 各層的 quota
4.17 telemetry data quality：雙軌對照的資料品質判讀
4.18 operating model：collector / pipeline 的 ownership 邊界
4.23 觀測查詢設計：讀取路徑的系統設計與資源治理
05 部署：collector 部署形態（DaemonSet / sidecar / gateway）
6.4 chaos：pipeline 故障模擬作為 chaos 場景
4.15 cost attribution：pipeline 各層的成本歸屬
4.C12 Cloudflare 內部觀測：大規模自建 pipeline 的三層能力設計

4.C12 Cloudflare：內部觀測平台的三層能力

Mon, 22 Jun 2026 00:00:00 +0000

Cloudflare 的觀測架構把 monitoring、analytics 和 forensics 拆成三層 pipeline，三層各自承擔不同的 resolution、retention 和查詢模式。規模到達每秒數十億 request、300+ edge location 時，用同一套 pipeline 處理三種能力會同時在成本跟查詢延遲上碰壁。

業務背景

Cloudflare 的服務涵蓋 CDN、DNS、DDoS 防護、Workers 邊緣運算與 Zero Trust 安全。每秒處理數十億 HTTP request，分布在全球 300+ 資料中心。觀測資料量極大 — 僅 HTTP request log 每秒就產生數百 GB 未壓縮的結構化日誌。

早期觀測用單一 pipeline 處理所有資料，隨著資料量成長，pipeline 面臨三個壓力：monitoring 需要秒級即時性但不需要全量資料；analytics 需要完整資料但可以延遲分鐘級；forensics（鑑識）需要保留原始事件但查詢頻率極低。

技術挑戰

資料量與成本

每秒數十億 request 的全量日誌，即使壓縮後仍是 PB 級月儲存量。把全量資料送到集中式 log backend（無論是自建 Elasticsearch 或 SaaS Datadog）的 ingestion 成本本身就是天文數字。

Cloudflare 公開表示過去曾用過 Kafka + Elasticsearch + Grafana 的組合，但隨著 edge 節點增加，centralized ingestion 的頻寬跟儲存成本持續超線性成長。

Edge 到 Core 的延遲

觀測資料從 300+ edge 節點匯聚到中心叢集，網路延遲跟 bandwidth 是物理限制。monitoring 需要秒級判斷（alert 要快觸發），但全量日誌的傳輸延遲可能是分鐘級。

查詢模式衝突

on-call 值班需要的是 dashboard 上的 aggregated metrics（error rate、latency percentile、traffic volume），查詢要快、資料要即時。analytics 團隊需要的是全量日誌做 ad-hoc 查詢（某個 IP 在過去 24 小時的 request pattern），查詢可以慢、但資料要完整。forensics 需要的是單一事件的原始內容（某筆 request 的完整 header 跟 body），查詢極少但需要保留數月。

三種查詢模式在 resolution、freshness 跟 retention 上的需求完全不同，用同一套 backend 處理會讓所有人的體驗都變差。

解法：三層觀測能力

Monitoring：pre-aggregated metrics + alerting

edge 節點在本地做 pre-aggregation — 把每秒的 request count、error count、latency histogram 聚合成每 10 秒的 metric batch，push 到中心的 metrics backend。資料量從 PB/月壓縮到 TB/月。

Alerting 跟 dashboard 只看聚合後的 metrics，查詢延遲在毫秒級。metrics backend 用 Prometheus-compatible 儲存，Grafana 作為查詢入口。

Analytics：sampled + full-fidelity log pipeline

analytics 層接收全量日誌但做分層處理：高流量 endpoint 的日誌做 adaptive sampling（保留 1%-10%），低流量跟異常 request 保留全量。日誌送到自建的 columnar store（Cloudflare 用 ClickHouse 類的 OLAP 引擎），支援 ad-hoc 查詢。

Retention 30-90 天，查詢延遲在秒到分鐘級。成本比 monitoring 層高但仍可控 — sampling 是關鍵的成本旋鈕。

Forensics：原始事件歸檔

需要完整保留的事件（安全事件、DDoS 攻擊、客戶投訴關聯的 request）寫入冷儲存（object storage）。查詢走 batch 模式（scan-based），延遲在分鐘到小時級。

Retention 按合規需求保留 6 個月到數年。成本主要是儲存（object storage 便宜），ingestion 跟 query 成本極低。

取捨

面向	單一 pipeline	三層拆分
架構複雜度	低（一條路走完）	高（三條路各自維護）
成本可控度	差（全量資料走同一條路，成本隨 traffic 線性成長）	好（每層各自有成本旋鈕）
查詢一致性	高（同一個 backend 查）	低（三個 backend，查詢語言可能不同）
Freshness	被最慢的一段拖住	每層獨立（monitoring 秒級、analytics 分鐘級、forensics 小時級）
Debugging 路徑	短（一個入口）	長（先看 monitoring 判斷層級、再決定進 analytics 或 forensics）

三層拆分的最大風險是 debugging 路徑變長 — on-call 先看 dashboard 發現異常，再到 analytics 查 sampled log 找 pattern，最後到 forensics 查原始事件確認細節。如果三層之間的 correlation ID（trace ID、request ID）沒有對齊，跨層查詢會斷掉。

回寫教材的連結

4.1 Log Schema：三層共用的欄位設計（correlation ID、timestamp、service tag）是 log schema 的規模化實例。
4.3 Tracing Context：跨層 correlation 依賴 trace context propagation，edge → core 的 context 傳遞是挑戰。
4.11 Telemetry Pipeline：三層拆分就是 pipeline 的 routing 跟 processing 層設計。
4.15 Cost Attribution：三層各自的成本旋鈕（sampling rate、retention、storage tier）是成本歸因的實作入口。

判讀徵兆

讀者在自己的系統看到以下訊號時，應該回讀本案例：

觀測平台帳單主要被全量日誌 ingestion 佔據，但 90% 的日誌沒人查過
Dashboard 查詢越來越慢，因為查詢打的是存了全量資料的同一個 backend
on-call 跟 analytics 團隊對觀測 backend 的需求衝突（一個要快、一個要全）
edge / CDN / 多 region 架構下，central pipeline 的 ingestion bandwidth 成為瓶頸
安全團隊要求保留原始事件 6 個月以上，但 hot tier 儲存成本撐不住

引用源

Remote Write 與長期儲存整合

Mon, 22 Jun 2026 00:00:00 +0000

本文是 Prometheus 的 vendor deep article，深化 overview「Remote write / read」段。初次接觸 Prometheus 的讀者建議先讀 Prometheus 服務頁。

問題情境

Remote write 把 Prometheus 的 metrics 即時推送到外部長期儲存，解決單機 retention 上限與跨實例統一查詢的限制。三個觸發點會讓團隊需要 remote write 與長期儲存：

Prometheus 預設 retention 是 15 天。業務需要回顧 90 天的趨勢（容量規劃、季度 SLO 報告、成本歸因），本地 disk 不夠放。加大 disk 可以延長 retention，但 Prometheus 的查詢效能會隨資料量下降 — 本地 TSDB 不做 downsampling，查 90 天 range 的 query 要掃描全量 sample。

多個 Prometheus 實例分散在不同叢集（prod-us、prod-eu、staging），團隊需要一個統一查詢入口看跨叢集 metrics。每個 Prometheus 各自保存自己的資料，沒有跨實例查詢能力。手動切換 Grafana datasource 容易遺漏某個叢集的異常。

單機 Prometheus 是 SPOF — process crash 或 VM 故障時 metrics 完全不可用。跑兩個 Prometheus 各自 scrape 同一組 target 可以達到 HA，但兩份資料有微小差異（scrape 時間偏移），下游查詢需要 dedup。

Remote write 解決這三個問題：Prometheus 保持短期本地儲存（scrape + 即時查詢），同時把 metrics 串流到長期儲存後端。長期後端負責壓縮、downsampling、跨實例查詢與 HA dedup。

核心概念

Remote write protocol

Prometheus 透過 HTTP POST 把 time series 送到 remote write endpoint。每次 POST 包含一批 samples（protobuf 編碼、snappy 壓縮），由 Prometheus 的 WAL（write-ahead log）驅動 — WAL 記錄所有 scrape 到的 samples，remote write 從 WAL 讀取並串流到遠端。

這個設計意味著 remote write 是 best-effort 但有 buffer：如果遠端暫時不可達，samples 會堆在 WAL 裡等重試。WAL 的大小有上限（--storage.tsdb.wal-segment-size，預設 128 MB per segment），堆積太多會導致 WAL 佔用大量 disk。

Exemplar forwarding

Prometheus 2.26 開始支援 exemplar — 在 histogram 或 counter sample 上附加 trace_id / span_id。Remote write 也能把 exemplar 送到支援的後端（Mimir、Grafana Cloud、Tempo）。Exemplar 讓讀者從 metric anomaly 一鍵跳到對應的 trace，是 metrics-to-traces 橋接的關鍵能力。

啟用方式：scrape config 加 enable_features: [exemplar-storage]，remote write endpoint 支援 exemplar 即可自動 forward。

Dedup 策略

跑兩個 Prometheus HA pair 時，兩個實例都 scrape 同一組 target、都 remote write 到同一個後端。後端會收到兩份幾乎相同但不完全一致的 samples（scrape 時間差 ±1-2 秒）。

Thanos 和 Mimir 都有 dedup 機制：Thanos 在 query 層根據 external_labels（replica label）做 dedup，每個 time window 只取一個 replica 的值。Mimir 在 ingester 層做 dedup，同一個 series 的重複 sample 在寫入時合併。

Dedup 的前提是兩個 Prometheus 實例設定不同的 external_labels（例如 replica: a / replica: b），讓後端能辨別哪些 series 是同一組的不同副本。

配置

Remote write 基本設定

 1# prometheus.yml
 2remote_write:
 3  - url: "http://mimir-distributor:9009/api/v1/push"
 4    queue_config:
 5      capacity: 10000
 6      max_shards: 30
 7      max_samples_per_send: 5000
 8      batch_send_deadline: 5s
 9    write_relabel_configs:
10      - source_labels: [__name__]
11        regex: "go_.*"
12        action: drop

queue_config 控制 remote write 的並行度與批次大小：

capacity：內存中暫存的 sample 數量。太小會頻繁 flush、太大會佔記憶體
max_shards：並行的 write goroutine 數量。Shard 太少會造成 backlog、太多會壓垮遠端
max_samples_per_send：每次 POST 的 sample 數量。5000 是常用值
batch_send_deadline：即使 batch 沒滿也在這個時間內 flush，避免低流量時 sample 延遲太久

write_relabel_configs 在 remote write 前過濾 series — 不需要長期保存的 internal metrics（go runtime、scrape metadata）可以在這裡 drop，減少長期儲存的 cardinality 與成本。

External labels（HA 與多叢集）

1global:
2  external_labels:
3    cluster: prod-us
4    replica: a

cluster label 區分來源叢集，replica label 讓長期儲存做 dedup。每個 Prometheus 實例的 external_labels 必須唯一。

三家長期儲存比較

維度	Mimir	Thanos	Cortex
架構模式	Microservice（distributor / ingester / compactor / querier）	Sidecar + Store Gateway + Compactor + Query	Microservice（跟 Mimir 同源、Mimir 是 Cortex fork）
部署複雜度	中（Helm chart，最少 4 個元件）	中高（sidecar 綁 Prometheus pod，元件分散）	高（元件多、已進入維護模式）
Query layer	原生 PromQL + split/merge	Thanos Query 做 fan-out + dedup	原生 PromQL（跟 Mimir 共用）
多租戶	原生（X-Scope-OrgID header）	有限（靠 label 或獨立部署）	原生（Mimir 繼承）
Downsampling	支援（compactor 做 1h/5m 降取樣）	支援（compactor）	支援
開發狀態	活躍（Grafana Labs 主推）	活躍（CNCF incubating）	維護模式（Grafana Labs 把精力轉到 Mimir）
對象儲存	S3 / GCS / Azure Blob	S3 / GCS / Azure Blob / 本地	S3 / GCS
成本模型	自管 compute + storage；Grafana Cloud 按 active series 計費	自管 compute + storage	自管（不推薦新部署）

選擇判準依三個維度排序：

已經在用 Grafana 生態（Grafana dashboard、Loki、Tempo）：Mimir 是最自然的選擇，跟 Grafana Stack 的整合最深，Grafana Cloud 可以免管 Mimir。

需要最小化對 Prometheus 的改動：Thanos sidecar 模式不改 Prometheus 配置（sidecar 讀本地 TSDB block），適合「先加長期儲存、Prometheus 維持現狀」的漸進路徑。但 sidecar 綁 Prometheus pod，K8s 環境外的部署更複雜。

多租戶需求：Mimir 原生支援多租戶隔離（每個 tenant 獨立 TSDB、query isolation），Thanos 的多租戶靠 label 或獨立部署。

Cortex 是 Mimir 的前身，新部署不推薦。既有 Cortex 部署可參考 Grafana Labs 的 Mimir migration guide。

Uber M3 的第四條路

Uber M3 案例選擇了自建 M3DB 而非 Mimir / Thanos / Cortex — 原因是 M3DB 在 2018 年啟動時、Mimir 尚未存在、Cortex 還在早期階段、Thanos 也剛開源。M3DB 的設計核心是 namespace-level retention（不同 namespace 不同 retention 跟 resolution）、跟 Uber 的 etcd service discovery 深度整合。

M3 的經驗對後來的三家有直接影響：Mimir 的 per-tenant retention、Thanos 的 downsampling compactor、都能追溯到 M3 先踩過的問題。今天做新部署不需要重走 M3 的路 — Mimir 跟 Thanos 已經成熟。但 M3 案例揭露的設計判準仍然有效：

跨 cluster 查詢需要 fan-out + dedup：三家都實作了這個能力，但部署配置跟 dedup 策略各有差異
Downsampling 是長期成本控制的必要手段：不做 downsampling、90 天 range query 的效能跟成本都不可接受
多租戶隔離不只是 query 層面：ingestion rate limit 跟 storage quota per tenant 才能防止「一個團隊的 cardinality 爆炸拖垮整個平台」

故障與邊界

Remote write backlog 佔滿 WAL

觸發條件：遠端不可達（network 問題、後端過載）持續超過數分鐘，WAL segment 堆積。

表現：prometheus_remote_storage_bytes_total 停止增長（寫不出去）、prometheus_wal_storage_size_bytes 持續增長、disk 使用率上升。嚴重時 WAL 佔滿 disk，Prometheus 無法寫入新 sample、連 local scrape 也受影響。

修復：先恢復遠端連線。WAL backlog 會在連線恢復後自動 catch up — Prometheus 按 WAL 順序重送積壓的 samples。如果 catch up 時間太長（例如堆了數小時），remote write 的 max_shards 可以暫時調高加速回補，但要注意不要壓垮剛恢復的遠端。

預防：監控 prometheus_remote_storage_queue_highest_sent_timestamp_seconds 跟 current time 的差距 — 差距代表 remote write 延遲。差距超過 5 分鐘時告警。設定 WAL 的 disk 空間上限（--storage.tsdb.max-block-duration 搭配 retention 控制 total disk）。

Target 不可達時的 retry storm

觸發條件：remote write endpoint 回傳 5xx 或 429（rate limit），Prometheus 進入指數退避重試。大量 shard 同時 retry，CPU 跟 network 消耗上升。

表現：prometheus_remote_storage_retried_samples_total 增長、CPU 使用上升、remote write 延遲拉大。如果後端本來就過載，retry storm 會讓情況惡化。

修復：remote write 配置中的 min_backoff / max_backoff 控制 retry 間隔（預設 30ms / 5s）。可以調高 min_backoff 減緩 retry 頻率。長期修法是讓後端回傳 429 搭配 Retry-After header，Prometheus 會遵守。

Metrics 語意 drift

觸發條件：多個 Prometheus 實例的 write_relabel_configs 不一致、或 external_labels 設定有誤。

表現：同一個 metric 在長期儲存中出現語意不同的 series — 有些 instance 保留了某個 label、有些 drop 掉了。Dashboard 查詢結果不一致（取決於查到哪個實例的 series）。

修復：remote write 的 write_relabel_configs 集中管理（配置模板或 Prometheus Operator 的 PrometheusSpec.remoteWrite）。每次修改 relabel 規則後，驗證所有實例的 series label set 一致。Mimir 的 active_series API 可以列出目前所有 active series 的 label set。

Remote write protocol 版本不匹配

觸發條件：Prometheus 版本跟長期儲存後端期望的 remote write protocol 版本不一致。Prometheus 2.x 使用 remote write v1（protobuf + snappy），部分較新後端開始支援 v2（native histogram 支援、metadata 改進）。

表現：後端回傳 400 Bad Request。Prometheus 對 4xx 的預設行為是不 retry（視為 client error、retry 無意義），samples 被 drop。prometheus_remote_storage_samples_failed_total 增長但不像 5xx 那樣有明顯的 retry storm — 靜默丟失更難察覺。

修復：確認 Prometheus 版本跟後端的 protocol 相容性。Mimir / Thanos 的文件通常標明支援的 remote write protocol 版本。版本不匹配時升級 Prometheus 或降級後端配置。

何時單機 Prometheus 不夠

三個訊號同時出現時，remote write + 長期儲存從「可選」變成「必要」：

Active series 超過 500 萬。單機 Prometheus 在 500 萬 series 左右開始出現記憶體壓力（head block ~20 GB）、WAL replay 時間拉長（重啟要數分鐘）、compaction 佔用 CPU。Uber 在 M3 專案遇到的正是這個天花板 — 數十個叢集各自 scrape 的 metrics 匯總後 series 數遠超單機能力，但「用更大的 VM 跑 Prometheus」不是解法，因為 Prometheus 的 TSDB 是單線程 compaction、垂直擴展的效益有上限。

Retention 需求超過 30 天。本地 TSDB 的 retention 拉長時，range query 的效能線性退化 — 查 90 天 range 要掃描的 block 數量是 15 天的 6 倍。Downsampling 是長期儲存後端的標準能力（Mimir / Thanos compactor 把 5 分鐘 resolution 降到 1 小時），但 Prometheus 本地 TSDB 不做 downsampling。Uber 的 M3DB 設計了 namespace-level retention（short-term 48h full resolution、long-term 1y downsampled），讓查詢成本不隨 retention 線性成長。

跨叢集統一查詢。多個 Prometheus 各自 scrape 不同 cluster 時，工程師需要一個入口看「所有 cluster 的 checkout error rate」。手動切 Grafana datasource 容易遺漏。Remote write 把所有 Prometheus 的 metrics 匯入同一個長期儲存、用單一查詢入口（Mimir querier / Thanos Query）做 fan-out。

這三個需求在中型公司（50-200 服務、3+ K8s cluster）通常在 1-2 年內同時浮現。規劃 remote write 時不用等三個都出現 — 任一個出現就是啟動的合理時機。

容量與 Cost

Remote write bandwidth

Remote write 的 bandwidth ≈ ingestion rate × 每 sample 壓縮後大小（約 1-2 bytes with snappy）。

Ingestion rate	估算 bandwidth	對應規模參考
10 萬 samples/sec	~100-200 KB/s	小型：5-10 服務、1 cluster
50 萬 samples/sec	~500 KB/s-1 MB/s	中型：50 服務、2-3 cluster
200 萬 samples/sec	~2-4 MB/s	大型：200 服務、5+ cluster
1000 萬 samples/sec	~10-20 MB/s	平台級：Uber M3 等級

每個 active series 在 15 秒 scrape interval 下每秒產生 ~0.067 個 sample。100 萬 active series 的 ingestion rate ≈ 6.7 萬 samples/sec，對應 ~70-140 KB/s remote write bandwidth。這個數字在內網環境下通常不是瓶頸。

真正的瓶頸在兩個地方：roundtrip latency 決定單 shard 吞吐上限（每次 POST 等回應才發下一批）、後端 ingestion capacity 決定能消化多少 samples/sec。Mimir 的 distributor 跟 ingester 可以水平擴展，但每加一個 ingester 增加 compute 成本。bandwidth 只是 capacity planning 的第一步，實際規模要用 Mimir 的 cortex_distributor_received_samples_total 跟 cortex_ingester_memory_series 做持續觀測。

長期儲存的 compaction 與 downsampling cost

Mimir 和 Thanos 的 compactor 定期合併 block 並做 downsampling（5m → 1h 粒度）。Compaction 消耗 CPU 和 disk I/O，但跑在長期儲存自己的 compute 上，不影響 Prometheus。

成本結構：

Compute：distributor + ingester + querier + compactor 的 CPU / memory。Mimir 官方建議 ingester 是最吃資源的元件（記憶體中保存 active series）
Object storage：S3 / GCS 的儲存量 ≈ ingestion rate × retention × 壓縮率。Compaction 跟 downsampling 會降低儲存量（通常 2-5x 壓縮）
Query cost：長 range query 需要讀大量 block — 在 cloud object storage 上是 GET request 成本。Mimir 用 index cache（memcached）降低重複查詢的 GET request

跟 Prometheus 本地 TSDB 比，長期儲存把 disk cost 換成 object storage cost（通常更便宜），但增加了 compute cost（長期儲存的 ingester / querier / compactor）。判斷轉折點的方式是比較本地 SSD cost × retention 跟 object storage cost + compute cost。retention 超過 30 天時，object storage 的成本優勢通常明顯。

整合與下一步

接 Grafana Stack LGTM

Mimir 是 Grafana Stack LGTM（Loki + Grafana + Tempo + Mimir）的 metrics 後端。Prometheus remote write 到 Mimir 後，Grafana 用 Mimir 作為 Prometheus-compatible datasource，查詢語言仍是 PromQL。Exemplar forwarding 讓 Mimir metrics 可以連結到 Tempo traces。

接 Telemetry Pipeline

Remote write 在 4.11 telemetry pipeline 中扮演 metrics ingestion 段。如果同時使用 OpenTelemetry Collector，Collector 可以作為 remote write 的中繼（接收 Prometheus scrape → OTLP export → Mimir OTLP endpoint），但多一層中繼增加了 failure point。直接 Prometheus → Mimir remote write 是最簡路徑。

接 Cost Attribution

長期儲存的多租戶能力讓 4.15 cost attribution 可以按 tenant / team / service 拆分 metrics 成本。Mimir 的 per-tenant active series quota 同時控制 cardinality 與成本。

交接路由

Prometheus 服務頁：overview 跟日常操作入口
PromQL 與 Recording Rules 實務：remote write 架構下 recording rules 的部署位置選擇
容量規劃與故障模式：remote write 作為容量超限時的卸載路徑
Grafana Stack：Mimir 作為長期儲存的完整操作指南
4.11 Telemetry Pipeline：remote write 在 pipeline 架構中的定位
4.15 Cost Attribution：多租戶 metrics 的成本拆分

Datadog → Grafana Stack：把 $50K/month bill 拆解到 self-hosted observability

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 Datadog（source）跟 Grafana Stack（target）。跟前三篇 migration（Splunk → Elastic phased / Redis → DragonflyDB drop-in / PostgreSQL → Aurora hybrid）對照、本篇是 cost-driven multi-tool migration — 不是換一個產品、是把 一站式 SaaS 拆成 五個專責 OSS / cloud component。

$50K/month bill 拆解：先看錢花在哪、再決定怎麼遷

中型 SaaS（100-500 host、5K-50K metric series、TB-level log/day）的 Datadog 月帳單長這樣：

計費項	平均單價	中型 SaaS 估算 / month
Infrastructure host	$15-23 / host	200 host × $20 = $4,000
APM host	$31 / host	100 host × $31 = $3,100
Custom metrics	$0.05 / 100 series	30K series × $0.05 = $1,500
Log ingest	$0.10 / GB ingested	50TB × $0.10 = $5,000
Log retention（15-day）	$1.27 / million events	50G event × $1.27 = $6,350
Log indexing	$1.70 / million events	50G × $1.70 = $8,500
Network	$5 / host	200 × $5 = $1,000
RUM / Session	$1.50 / 1000 session	30M session × $1.5 = $4,500
Synthetics	$5 / 10K test runs	50K test = $25
Total	-	$34,000 / month（保守估）

擴張到 500 host / 100TB log 的 production：$80K-150K / month 範圍。Grafana stack（self-hosted on K8s + Grafana Cloud 部分服務）對等 capacity 通常 $8K-30K / month — 2.5-5x cost reduction。

但 cost 不是唯一 driver。其他 driver：

Multi-cloud / hybrid：Datadog 集中、Grafana 可分散部署符合資料 residency
OpenTelemetry-first：Grafana stack 對 OTel 是 native、Datadog 仍 vendor-specific agent
Long-term retention：Loki 用 S3 cold tier 跑 1 年 retention 比 Datadog 便宜 10-50x

五個責任、五個 component：不是替換一個產品

Datadog 是 一站式 SaaS、單一 agent + 單一 UI 包 5 個責任。Grafana stack 把責任拆給 5 個專責 component：

責任	Datadog 處理	Grafana Stack 對應
Metric	Datadog metric	Mimir（Prometheus-compatible long-term）
Log	Datadog Logs	Loki（label-indexed log）
Trace	Datadog APM	Tempo（trace-only object storage）
Dashboard	Datadog dashboard	Grafana
Agent / shipper	Datadog Agent	Alloy（OTel-based collector）+ Grafana Agent / Promtail

Migration 是 五個獨立 stream、不是單一 cutover。SRE 對「一個 agent 包所有」的心智模型要拆。

Migration 結構：每個 component 各自 phased、整體 staggered

不像前三篇 migration 是線性流程、本篇是 5 個 parallel migration stream + 跨 stream coordination：

1           Phase 0           Phase 1            Phase 2          Phase 3
2           Audit             Deploy             Dual-ship        Cutover
3Metric    [audit]──→        [deploy Mimir]──→ [dual-ship]──→  [cutover]
4APM       [audit]──→        [deploy Tempo]──→ [dual-ship]──→  [cutover]
5Log       [audit]──→        [deploy Loki]──→  [dual-ship]──→  [cutover]
6Dashboard [audit]──→        [deploy Grafana]──→ [rebuild]──→   [cutover]
7Alert     [audit]──→        [deploy Alertmgr]──→ [parallel]──→ [cutover]

每個 stream 獨立做 dual-ship + cutover、不必同步；通常 Metric 先遷（cardinality 議題暴露最快）、然後 Log、最後 APM（trace correlation 最依賴 dashboard / alert）。

Agent migration：Datadog Agent → OTel Collector / Alloy

Datadog Agent 是 vendor-specific binary、抽出來換成 OpenTelemetry Collector / Grafana Alloy：

 1# alloy config (HCL-like)
 2prometheus.scrape "k8s_pods" {
 3  targets = discovery.kubernetes.pods.targets
 4  forward_to = [prometheus.remote_write.mimir.receiver]
 5}
 6
 7prometheus.remote_write "mimir" {
 8  endpoint {
 9    url = "https://mimir.internal/api/v1/push"
10  }
11}
12
13loki.source.kubernetes "pods" {
14  targets = discovery.kubernetes.pods.targets
15  forward_to = [loki.write.production.receiver]
16}
17
18otelcol.receiver.otlp "default" {
19  grpc {}
20  output {
21    traces = [otelcol.exporter.otlp.tempo.input]
22  }
23}

Migration 期間 dual-shipper 是標準作法：

Datadog Agent 跟 Alloy 並存（短期 capacity 兩倍）
同 host 同時 ship 兩端、觀察一致性
漸進 disable Datadog Agent 的 metric / log / APM 子模組

Production 故障演練

Case 1：Cardinality 爆，Mimir 端 series 暴增

徵兆：Datadog 端 30K series、ship 到 Mimir 後 series 變 500K、Mimir indexer OOM。

根因：Datadog 內部對 tag 做 自動 aggregation 跟 low-cardinality enforcement；Prometheus / Mimir 對 每個 unique label set 算一個 series、application code 的 high-cardinality label（user_id / request_id）直接爆。

修法：

Audit 階段 跑 topk(100, count by (__name__) ({__name__=~".+"})) 找 high-cardinality metric
drop high-cardinality label：Alloy / OTel collector 端 relabel 規則 drop user_id 等 unbounded label
改 histogram bucket：高 cardinality 通常來自 label combination、改用 fixed-bucket histogram
適當改 metric 為 log：請求 ID 是 trace context、不該是 metric label

Case 2：Log volume cost 預估失準

徵兆：Loki 部署 1 個月後 S3 帳單比預估高 2x；object storage 跟 query GB-scan 都超預期。

根因：Datadog 對 log 做自動 sampling / aggregation、bill 是 indexed event；Loki 是 全量 raw ingest + S3 cold storage、按實際 byte 計費。raw log volume 比 indexed event 高 3-10x。

修法：

Ingest-side sampling：Alloy / Promtail 端 sample debug / info log、只 ingest warn / error 全量
Log structure：JSON log 比 text log 壓縮率高、Loki S3 size 少 50%
Retention tier：hot 7 天 S3 standard / cold 1 年 S3 Glacier、retention budget 控制

Case 3：Datadog dashboard 不能直接轉 Grafana

徵兆：Migration 計畫設「dashboard 自動轉換」、實際跑 Datadog API export → Grafana import、80% dashboard 缺 widget / metric 對不上。

根因：

Datadog query syntax 跟 Grafana / Mimir 的 PromQL 不直接相容
Datadog widget type（top-list / hostmap）Grafana 沒對應
Tag-based aggregation 對應 Prometheus label 但語法不同

修法：

接受重建：production-grade dashboard 必須人工重建、不要期待自動轉
Prioritize：先重建 SOC 用 / production-critical 30%、其他 deprecate
migration window 增 4-6 週：dashboard rebuild 是 underestimated effort

Case 4：Alert routing 換邏輯，PagerDuty integration 不通

徵兆：Cutover 後 alert 不送 PagerDuty、SOC 半小時才發現；alert 端 webhook 配置正確、但 payload format 跟 Datadog 不同、PagerDuty 端 rule 過濾掉。

根因：

Datadog alert payload 含 event_type=alert、PagerDuty integration 用這個 routing
Alertmanager 預設 payload 結構不同
PagerDuty rule 端針對 Datadog event 寫 schema、Alertmanager event 不 match

修法：

Pre-cutover test：Alertmanager → PagerDuty 跑 dry-run、send test alert 驗證
PagerDuty Service：建獨立 Grafana-source Service、不共用 Datadog Service
Alertmanager template：用 webhook 自定 JSON template、payload 接近 Datadog 結構

Case 5：SLO definition 跟 monitor type 對不上

徵兆：Datadog SLO 跑 99.9% availability、轉到 Grafana SLO + Mimir 後實際 9X% 數字不一致；SOC 跑 dashboard 比對 5 個 SLO、4 個誤差 0.1-0.3%。

根因：

Datadog SLO 計算 over time window 用內部 query；Grafana SLO 用 PromQL 寫公式
Datadog 對 success_rate 處理 missing data 跟 PromQL 預設不同
Time bucket boundary 處理差異

修法：

重定義 SLO 在 PromQL：不嘗試「複製」、是「重定義」、認真寫 PromQL 表達式
接受 ±0.1% drift：production-critical SLO 跑 dual-track 1-2 個月、tune PromQL 到 acceptable drift
SLO migration 不是 dashboard migration 子集：獨立 stream、留更多時間

Capacity / cost 對照

維度	Datadog	Grafana Stack（self-hosted on K8s）
Setup cost	低（SaaS）	中高（K8s deploy + storage backend）
Operational cost (200 host)	$34K / month	$8-12K / month（含 S3 + K8s）
Operational cost (500 host)	$80-150K / month	$15-30K / month
Operational FTE	0.1-0.3	1-2 FTE（K8s + storage + Grafana operator）
Long-term retention	$1.27 / million event for 15+ day	S3 + Loki：~$0.02 / GB / month
Multi-cloud / hybrid	受 Datadog region 限	自由部署
Vendor lock-in	高	低（OSS + OTel）
Time to value	1-2 週	4-8 週
Migration cost (one-time)	-	1-3 FTE × 3 個月

Break-even point：~150 host 規模、3 年 amortized 後 self-hosted cheaper；< 100 host 規模 SaaS 較 ROI 高。

整合 / 下一步

跟 OpenTelemetry 對齊

Migration 是 OTel-first 轉型 的機會：

Application code 用 OTel SDK、避免 Datadog SDK lock-in
Trace context propagation 走 W3C Trace Context
未來換 backend 不用再改 application

跟 Splunk → Elastic 對照

兩篇都是 cost-driven SaaS migration、但細節差：

Splunk → Elastic 是 SIEM 領域、schema translation 是核心議題
Datadog → Grafana 是 multi-tool 拆分、agent + dashboard 重建是核心
共同 pattern：dual-ship → parallel run → cutover

反向遷移（Grafana Stack → Datadog）

存在但少數 — 主要是 operational complexity reduction（不想自管 Mimir / Loki）；schema 對位方向相反、agent 換回 Datadog Agent。

下一步議題

Grafana Cloud 混合：部分 component（Tempo）用 Grafana Cloud SaaS、其他 self-host、混合架構
OpenTelemetry Collector 跟 Alloy 取捨：兩者都是 OTel-based、Alloy 是 Grafana 自家 fork
Vector vs Alloy vs Fluentd：log shipper 戰場、cost / 功能 / OTel 整合度比較

Self-managed ELK → Elastic Cloud：5 年 ELK 集群的 lifecycle 收尾

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link Elastic Stack 跟 Elastic Cloud。跑 migration-playbook-methodology 6 維 audit 後對映 Operational = High（self-managed → Elastic managed）→ Type C operational redesign hybrid。

5 年 ELK 集群的 lifecycle 收尾

跟前批 PostgreSQL → Aurora 同 Type C、本文用 lifecycle-driven entry — 看 5 年 ELK 集群典型壽命曲線：

年份	Phase	集群狀態
0-1	Build	3 node、簡單部署、SOC 學 Lucene query / dashboard / alert
1-2	Scale-out	5-7 node、shard 計畫、hot/warm/cold tier、index lifecycle management
2-3	Degrade	10+ node、shard 過多、query latency 升、upgrade window 開始痛
3-4	Save	加 dedicated master / cross-cluster replication、ops cost 飛漲
4-5	Migrate decision	評估走 Elastic Cloud（managed）或下一個 SIEM vendor

多數中型 organization 在 lifecycle 第 4-5 年遇到 operational ceiling — SRE team 0.5-1.5 FTE 跑 ELK ops、新 feature 開發停滯、cost 跟 alternative observability vendor 比較。Elastic Cloud 把 operational stack 全託管、SOC 留在 Lucene query + dashboard + alert 層、不再管 cluster sizing。

為什麼遷：FTE / availability / version cadence 三條 driver

Driver	觸發
FTE	Self-managed ELK 0.5-1.5 FTE 跑 ops、Elastic Cloud 降到 0.1-0.3 FTE
Availability	Cross-AZ failover 自管太複雜、Cloud 內建
Version cadence	Elasticsearch 8.x quarterly release、self-managed upgrade window 是痛點、Cloud 自動

6 維 audit

維度	等級
Schema / API	Low（Elasticsearch API 完全相容）
Operational	High（cluster mgmt 全託管）
Paradigm	Low（同 Elasticsearch + Kibana + Beats / Logstash）
Components	Low
Application change	Low-Medium（連線 endpoint + auth 改）
Data topology	Low

Operational = High → Type C standard。

Operational redesign 對位

Concept	Self-managed ELK	Elastic Cloud
Cluster bootstrap	手動 install + config	UI / API 一鍵建 deployment
HA	自管 master / dedicated voting / cross-AZ	內建 multi-AZ
Upgrade	手動 rolling restart 6-12 小時	自動 patch + minor version
Backup	自管 snapshot to S3	內建 snapshot lifecycle
Shard management	手動 ILM policy	UI-driven ILM
Security	自管 X-Pack / SSL cert	內建 + 自動 cert rotation
Monitoring	自管 Metricbeat → 自己集群	內建 deployment monitoring

Migration 4-phase

Phase 0：Pre-migration audit

列 application 連線 endpoint (Logstash / Beats / SDK direct)
列 ILM policy + retention setting
估 deployment size（hot tier RAM / cold tier storage）

Phase 1：Elastic Cloud deployment 建置

選 region + provider（AWS / GCP / Azure）
Hot tier RAM × N + cold tier S3-backed × N
Snapshot lifecycle 配置

Phase 2：Data migration

Cross-cluster replication (CCR) 從 self-managed → Cloud（推薦、incremental）
或 snapshot + restore（簡單但需要 maintenance window）

Phase 3：Cutover + cleanup

Application 端切 endpoint
Self-managed 端 read-only 1-2 月
Decommission

Production 故障演練

Case 1：Application endpoint hardcode、cutover 失敗

徵兆：cutover 後 N 個 application 仍連舊 endpoint、log / metric 斷流。

根因：endpoint 寫死在 config file、deploy 時沒一起改。

修法：endpoint 用 ENV variable + service discovery、cutover 是 single deploy。

Case 2：CCR replication lag、cutover 時資料 gap

徵兆：CCR 跑 1 週、cutover 前 lag 200ms 看似 OK；application 切到 Cloud 後 search 顯示 缺最近 5 分鐘 data。

根因：CCR replication 不保證即時 catch up、cutover 期間仍可能 lag；且 follower index 對 write 不接受。

修法：

Cutover 流程加 drain window — 停 application write 5-10 分鐘、等 CCR catch up
確認 follower index 已 promote 成 write-capable
監控 CCR lag、< 100ms 才 cutover

Case 3：Auth 改變、SOC alert 失效

徵兆：cutover 後 SOC dashboard 顯示「authentication failed」、SIEM rule 全失效。

根因：self-managed 用 X-Pack basic auth、Cloud 用 API key + SSO；SOC tooling 沒改 auth。

修法：

Pre-cutover 列所有 tool 連線 ELK 的 auth
改 API key、用 IAM-friendly token rotation
Cloud 端 enable SSO + 設 service account

Case 4：Cost 暴漲、cold tier 設定錯

徵兆：第一個月 Cloud 帳單比預估高 50%；cold tier 用 fast storage（hot-tier-level）而非 S3-backed。

根因：Cloud deployment template 預設 hot 是 fast、cold 也是 fast（slow 需要明示）；team 沒 review template。

修法：

Pre-cutover review deployment template、確認 cold tier = searchable snapshot to S3
Cost monitor 第一週密集 check
Hot tier RAM 估算 conservative

Case 5：Snapshot 跨 region 失效

徵兆：DR drill 切 region 失敗；Cloud 內建 snapshot 是 same-region、不跨 region。

根因：multi-region DR 需要 cross-region snapshot 或 multi-deployment、不是預設。

修法：

評估 DR 需求、是否需要 cross-region
配 additional deployment in DR region + CCR
Cost 增 50-100%、是 DR 投資不是 cost optimization

Capacity / cost

維度	Self-managed ELK	Elastic Cloud
Compute cost (5 node)	$1,000-2,000 / mo	$1,500-3,000 / mo
Storage cost	EBS	included + 加 S3 cold tier
Operational FTE	0.5-1.5 = $5K-15K	0.1-0.3 = $1K-3K
Total (5 node, mid-tier)	$6K-17K / mo	$2.5K-6K / mo
Migration cost	-	1-2 FTE × 1-2 個月

整合 / 下一步

跟 Splunk → Elastic Security migration 對位

兩篇都到 Elastic 生態、但 Splunk → Elastic Security 是 Schema 高差 Type A、本篇是 Operational 高差 Type C；如果同時跑兩個 migration、Splunk → Elastic Security 先、ELK Cloud 後（避免雙重變動）。

跟 Application observability stack 整合

Elastic Cloud + APM + OpenTelemetry：cutover 後可以 順便升 OTel 化 application、避免下次 vendor 切換重複工作。

0.12 觀測、可靠性與事故服務選型

Sat, 02 May 2026 00:00:00 +0000

觀測、可靠性與事故服務選型的核心責任是把操作風險拆成「看得見、驗得過、接得住」三層能力。可觀測性平台處理訊號是否足以支援判讀，可靠性驗證流程處理失敗是否能被安全預演，事故處理與復盤處理事故是否能被接住、分工與回寫。

這三類服務常被一起採購或一起導入，但它們回答不同問題。觀測平台回答「現在發生什麼」，可靠性工具回答「失敗前能否先驗證」，事故平台回答「事情發生後誰做什麼」。選型時先分清能力層，再比較 vendor、SaaS、OSS 或自建方案，能降低工具堆疊與流程空轉的風險。

選型錨點

選型錨點是先問服務要降低哪一種操作不確定性。當團隊只知道系統「好像怪怪的」，優先補訊號；當團隊知道風險但缺少安全驗證路徑，優先補可靠性驗證；當團隊知道事故已發生但協作混亂，優先補事故流程。

能力層	核心問題	對應模組	常見服務類型
訊號層	發生什麼、影響哪裡	可觀測性平台	telemetry、APM、log、dashboard
驗證層	風險能否提前預演	可靠性驗證流程	CI、load test、chaos、SLO
響應層	誰接手、如何收斂	事故處理與復盤	on-call、IR、status、postmortem
閉環層	教訓如何回寫	觀測、驗證與事故閉環	workflow、action tracking

訊號層的責任是讓系統行為可被查詢與判讀。這一層的選型重點是資料模型、查詢能力、關聯能力、保留成本與告警品質；產品名稱排在後面，因為 log、metric、trace 與 error event 是否能互相串接，才是事故時真正影響判讀速度的條件。

驗證層的責任是讓風險在事故前被安全暴露。這一層的選型重點是測試是否接近真實 workload、故障注入是否有停止條件、SLO 是否能被量測、release gate 是否能阻止高風險變更；工具越強，越需要 blast radius 與權限邊界。

響應層的責任是讓事故進入可交接流程。這一層的選型重點是 paging、升級、角色分工、狀態更新、decision log、stakeholder mapping 與 post-incident action tracking；工具的價值來自流程一致性，通知訊息數量只是輔助訊號。

閉環層的責任是把事故與演練教訓回寫到系統設計。這一層可能由 incident platform、ticket system、runbook repository 或內部 workflow 承擔；判準是 action item 是否能被排序、驗證、關閉，並回到訊號治理、可靠性演練或事故流程。

判讀順序

操作服務選型的穩定順序是「症狀 → 缺口 → 能力 → 工具」。症狀描述使用者痛點或工程痛點，缺口描述目前缺少的判讀或流程，能力描述需要補的系統責任，工具才是最後的落地選項。

症狀	主要缺口	優先能力	下一步路由
客訴比告警早	訊號覆蓋不足	symptom-based alert	dashboard 與 alert
事故時 trace 接不上 queue	關聯線索斷裂	context propagation	tracing 與 context link
發版後才發現容量曲線崩壞	失敗前驗證不足	load / perf gate	load test
chaos 實驗影響超出預期	實驗安全邊界不足	experiment guardrail	experiment safety boundary
多人同時修事故但決策互相覆蓋	指揮與紀錄不足	command / decision log	incident decision log
對外狀態更新慢於內部復原	stakeholder 節奏不足	status / comms	stakeholder comms

客訴比告警早代表系統的外部痛點先於內部訊號出現。這種情境應先補服務健康指標、使用者可感知訊號與 alert runbook，再討論要用哪個監控平台；否則平台上線後仍可能只收集到工程師方便看的資料。

trace 接不上 queue 代表跨邊界關聯失效。這種情境應先檢查 trace context、correlation id、message metadata 與 sampling 策略，再選擇 OpenTelemetry backend、APM SaaS 或 log search 方案。

發版後才發現容量曲線崩壞代表驗證層缺少 gate。這種情境應先建立 workload model、baseline、回歸門檻與 release gate，再選 load test 工具或 performance dashboard。

chaos 實驗影響超出預期代表驗證工具先於安全邊界。這種情境應先定義 steady state、blast radius、停止條件與授權範圍，再決定使用 chaos mesh、fault proxy 或商業 chaos 平台。

多人同時修事故但決策互相覆蓋代表響應層缺少 command model。這種情境應先定義 incident commander、scribe、owner、decision log 與 handoff，再導入 IR 平台或 chat workflow。

對外狀態更新慢於內部復原代表 stakeholder 節奏不足。這種情境應先定義影響評估、更新頻率、外部狀態頁與客戶溝通責任，再選 status page 或 customer comms 工具。

服務組合策略

服務組合策略的核心原則是先選最小閉環，再擴展平台覆蓋。完整閉環至少包含一個可判讀訊號、一個可驗證門檻、一個可接手流程與一個可回寫的 action tracking；缺任一層時，工具組合就會變成單點能力。

組合型態	適合情境	主要風險
雲端原生整合	團隊集中在單一 cloud provider	跨雲、跨 SaaS 與高階查詢受限
OSS 可組裝平台	團隊有平台工程能力	維護、升級、容量與成本治理重
All-in-one SaaS	團隊需要快速覆蓋與低維運	成本、資料鎖定與自訂邊界受限
混合式最小閉環	既有工具已分散	整合責任與 ownership 容易模糊

雲端原生整合適合雲端邊界清楚的團隊。它能快速取得 infrastructure 訊號、IAM 整合與預設 dashboard，但跨外部 SaaS、跨語言 trace 或高基數探索時，需要提前確認資料出口與查詢能力。

OSS 可組裝平台適合有平台團隊維護 ingestion、storage、query 與 dashboard 的組織。它能降低 vendor lock-in 並保留彈性，但容量規劃、升級、安全修補、保留策略與 on-call 都會變成內部成本。

All-in-one SaaS 適合需要快速建立可觀測、告警與事故協作的團隊。它能把 log、metric、trace、APM、paging 或 workflow 整合在單一產品，但成本模型、資料保留、客製化限制與資料治理要在導入前確認。

混合式最小閉環適合已經有多套工具的團隊。它的重點是定義哪個系統是 alert source、哪個系統是 incident source of truth、哪個系統負責 action item closure；整合邊界比新增工具更重要。

導入順序

導入順序的責任是降低一次導入多套工具的失敗風險。觀測、驗證與事故服務應依照事故風險與團隊成熟度逐層補齊，功能清單只適合放在能力判準之後。

先補最小訊號：定義 SLI、error rate、latency、dependency failure、queue lag 與 customer-facing symptom。
再補最小告警與 runbook：讓 alert 指向可執行動作，避免只把噪音送到 on-call。
接著補驗證門檻：把 load、contract、migration、chaos 或 SLO 變成 release 前後的 gate。
然後補事故協作：定義 paging、severity、角色、decision log、status update 與 post-incident review。
最後補閉環治理：把偵測缺口、演練缺口與 action item 回寫到觀測、驗證與事故流程。

這個順序讓工具投資跟風險暴露同步。若團隊在沒有基本訊號時先導入 incident workflow，事故流程會缺少證據；若在沒有實驗安全邊界時先導入 chaos 工具，驗證本身會變成風險來源；若在沒有 action tracking 時只做 postmortem，復盤會停在文字紀錄。

交接路由

交接路由的責任是把服務選型判斷送到正確模組。選型章只決定「需要哪一類能力」，後續模組負責欄位、流程、工具與實作細節。

需要判斷訊號是否足以支援診斷時，進入可觀測性平台。
需要判斷失敗是否能被安全驗證時，進入可靠性驗證流程。
需要判斷事故是否能被接住與回寫時，進入事故處理與復盤。
需要比較具體 vendor 時，先讀各模組的 vendors index，再回到本章確認工具是否補到正確能力層。

完成判準

本章完成的判準是能把工具需求翻成能力需求。當團隊能說清楚「我們缺的是訊號、驗證、響應還是閉環」，選型討論才適合進入 vendor 比較。

檢查時可以問四個問題：

現在的痛點是看不見、驗不過、接不住，還是回寫斷掉？
這個工具補的是哪一層能力，會產生哪些新操作成本？
導入後誰負責維護資料品質、流程品質與 action closure？
如果三個月後事故型態改變，哪個 tripwire 會提醒團隊重新評估？

4.12 Audit Log 邊界與 PII 治理

Fri, 01 May 2026 00:00:00 +0000

大綱

audit log 跟 operational log 的本質差異：對象、不變性、保留、法規
audit log 該記什麼：who / what / when / where / outcome、不可被應用層改寫
不變性保證：append-only storage、tamper-evident hash chain、independent retention
PII 治理：log 中的 PII 偵測、data masking、tokenization、最小揭露原則
法規維度：GDPR / HIPAA / SOC2 / 個資法對保留期與存取的要求
跨團隊存取證據連續性：避免責任鏈斷在團隊邊界
跟 4.1 log schema 的分工：4.1 是欄位設計、4.12 是治理邊界
跟 07 資安的交接：稽核責任邊界
反模式：audit 跟 operational 混在同 stream；PII 直接打進 log；audit log 跟 application DB 同保留期

概念定位

Audit log 是把責任、授權與敏感操作留下可稽核證據的訊號，責任是支援合規、責任追蹤與安全事件調查。

這一頁處理的是 governance 邊界。Operational log 服務於除錯，audit log 服務於證據；兩者可以共享部分欄位，但保留、不變性、存取權限與 PII 規則不同。

Audit log 的治理優先序跟 operational log 相反。Operational log 優先服務當下的事故定位、追求即時性與覆蓋廣度；audit log 優先服務未來的責任追蹤、追求完整性、不變性與長期可查詢。當這兩種優先序衝突時，audit 治理要勝過 operational 便利性。

兩種 log 的責任分工

Audit log 跟 operational log 承擔兩條獨立治理鏈：前者服務證據與責任追蹤、後者服務除錯與事故定位。兩者在對象、保留、不變性、權限與粒度上的差異決定它們需要走分開的 pipeline、storage 與保留策略。把 audit log 視為 operational log 的子集、混在同一 stream 治理、會在第一次合規稽核或法規請求時讓證據鏈被打斷（典型徵兆是「靠 grep operational log 拼湊稽核需求」）。

維度	Operational log	Audit log
主要對象	工程師、SRE、IC	合規、法務、安全事件調查、外部稽核
主要目的	還原事件、定位 root cause	證明授權、責任追蹤、事件不可否認
保留期	7-30 天為典型、依除錯需求	數月到數年、依法規與合約
不變性	通常可被 rotate、aggregate、re-index	append-only、tamper-evident
存取權限	工程團隊廣泛存取	最小授權、存取本身也要被稽核
內容粒度	高頻、雜訊容忍	低頻、語意精準、欄位穩定
查詢期望	秒級、即席	分鐘到小時級、結構化、可重現

Operational log 在 incident timeline 還原時是主力證據。它的失分容忍度高：丟掉 1% 的 log 通常不影響 root cause 分析。

Audit log 的失分容忍度極低。一次授權記錄遺失、一個欄位漂移、一段時區錯位，都可能讓事後責任追蹤失效。這個差異決定 audit log 必須走獨立 pipeline、獨立 storage、獨立保留策略。

核心欄位與不變性

Audit event 的核心責任是回答五個問題：誰（who）、做了什麼（what）、何時（when）、在哪（where）、結果如何（outcome）。任一欄位缺失，責任追蹤鏈就有缺口。

欄位	內容	失分風險
who	認證主體（user id、service account）	用 IP 代替主體 → 多人共用無法區分
what	操作類型 + 對象 ID	只記操作不記對象 → 無法重現範圍
when	事件時間（含時區）+ ingest 時間	單一 timestamp → 無法判斷漂移
where	來源 IP、region、tenant、session	缺 tenant → 跨租戶事件無法區分
outcome	成功 / 失敗 / 拒絕 + 拒絕原因	只記成功 → 失敗操作無痕跡

不變性保證有三層遞進：

Append-only storage：寫入後不可修改、不可刪除。一般 object storage（S3 Object Lock、GCS Bucket Lock）或 immutable database table 可實作。
Tamper-evident hash chain：每個 audit event 含前一個 event 的 hash，篡改任一筆會破壞整條 chain。需要週期性 anchor 到外部時間戳服務或第三方公證。
Independent retention：audit log 的保留期跟 application DB 解耦，application 刪資料不影響 audit。retention 由合規團隊定義、不由應用團隊調整。

對應 4.C1 FinTech 審計證據鏈：揭露「audit log completeness、event correlation integrity、retention policy drift」是合規場景的核心治理項目，本章關注的是治理邊界跟欄位設計，事件相關的 evidence 包裝由 4.20 處理。

跨團隊存取證據連續性

跨團隊 audit 治理的核心責任是維持責任鏈在團隊邊界上的連續性。應用團隊記應用層事件、基礎設施團隊記 infra 層存取、IAM 團隊記授權變更，三段證據各自必要、但只有拼接後才能還原一次跨團隊敏感操作。常見失敗來自團隊邊界上的責任鏈斷裂 — 而非單一團隊技術不到位 — 任一段缺失都會讓事後復盤無法閉合。

對應 4.C3 Healthcare 存取可追溯性與保留邊界：揭露「access evidence continuity、retention boundary violations、timestamp integrity」三個方向。Healthcare 場景把這個問題放大，但跨團隊存取連續性是所有合規場景的共同議題。

讓存取證據跨團隊連續的可操作做法：

共用 correlation field：把 request id、trace id、session id 拉到應用層、infra 層、IAM 層共用，讓三段 log 可以拼起來。
明確團隊 ownership 邊界：每類 audit event 指定唯一 owner team，避免「應該是另一隊負責」的責任轉嫁。
跨團隊 retention 對齊：應用 audit、infra audit、IAM audit 的保留期要對齊或互為超集，避免一段過期一段還在的拼接斷裂。
跨團隊查詢入口：合規團隊有單一查詢介面能跨三段 log 拉同一 correlation id 的完整證據鏈。

把這些做法寫進 4.18 operating model 的 ownership 矩陣，能避免單次合規請求引發跨團隊的拼接工作。

Retention 與保留策略漂移

Retention 是 audit log 跟 operational log 最大的治理差異。Operational log 通常用 30-90 天 rotation；audit log 依資料類型跟法規可能要 1-10 年。

把 audit log 跟 operational log 用同一條 retention 策略治理，會在合規稽核時被抓出來。常見的失敗：

audit log 跟 application DB 同保留 90 天、不符 GDPR / HIPAA / 金融法規。
audit log 經過 aggregation 處理、原始事件丟失、但 aggregated view 無法滿足法規要求。
retention 策略由應用團隊調整、不經合規團隊審批、容易在成本壓力下被縮短。

Retention 漂移的偵測手段：把 retention compliance 變成可查詢的訊號。週期性對照各類 audit log 的實際留存時間跟政策要求、偏差超過閾值時觸發告警、讓漂移在治理週期內就被處理、避免等到稽核時才發現。

對應 4.C1 FinTech retention policy drift 跟 4.C3 Healthcare retention boundary violations：兩個案例的判讀訊號都把 retention 偏離列為一級訊號（兩 case 的表格行明示這點）；本章在此基礎上補上「偏離視為治理事件、retention compliance 變成可查詢訊號」的展開、屬章節推論。

保留階梯（hot / warm / cold tier）與成本歸屬的詳細設計見 4.7 控制面與保留階梯。

PII 治理與最小揭露

PII 在 log 治理裡是雙重風險：寫入時的合規風險、長期保留時的外洩風險。Audit log 的長保留期讓 PII 風險被放大。

可操作的 PII 治理層次：

寫入前 redaction：應用層在輸出 log 時用結構化欄位 + 顯式 marking，避免把整個 request body 序列化進 log。
Pipeline 層 PII 偵測：collector 加上 PII pattern 偵測（信用卡號、身分證、token），預設遮罩、例外要顯式授權。
Tokenization / pseudonymization：把直接識別碼換成 token，token 跟原值的映射存在獨立、受嚴格授權的 vault 中。
存取本身的稽核：誰存取了哪段 audit log、何時存取、為什麼存取，本身也是 audit event。

最小揭露原則的實作關鍵是「預設遮罩、需要時申請」。把預設值設成揭露，會在某次事故除錯為了方便而打開、之後忘記關閉。預設遮罩讓每次解碼都是可追蹤的事件。

核心判讀

判讀 audit log 時，先看事件是否能回答 who / what / when / where / outcome，再看資料是否受到獨立保護。

重點訊號包括：

audit event 是否不可由一般應用流程修改
PII 是否經過 redaction、tokenization 或最小揭露
retention 是否符合法規與客戶合約要求
security incident 與 operational incident 是否能引用同一條證據鏈
跨團隊存取的 correlation field 是否連續

判讀訊號

稽核需求出現時、靠 grep operational log 拼湊
log 中發現 credit card / 身分證 / token 等 PII
audit log 跟 application 同 retention（30 / 90 天）、不符法規
應用層帳號可寫入 / 修改 audit log
法規稽核請求耗時數週、事件鏈定位需要人工補洞
跨團隊查詢同一 correlation id 拼不出完整鏈

反模式

反模式	表面現象	修正方向
Audit 跟 operational 同 stream	用一條 pipeline 處理所有 log	拆獨立 pipeline、獨立 storage
PII 直接進 log	信用卡、身分證在 raw log 中可見	Pipeline 層偵測 + 預設 redaction
同保留期治理	audit log 跟 application DB 同 90 天	依法規重訂保留期、retention compliance 變成告警
應用層可改寫 audit	service account 對 audit storage 有 write/delete 權限	append-only + tamper-evident hash chain
跨團隊責任鏈斷裂	同一事件三段 log 互不關聯	共用 correlation field、跨團隊 retention 對齊

交接路由

4.1 log schema：欄位設計
4.7 cardinality / cost：audit 的長期保留成本
4.18 operating model：跨團隊 audit ownership 矩陣
4.20 evidence package：audit log 進入 evidence 交接
07 資料保護：PII redaction 與責任邊界
8.5 post-incident review：事故證據鏈引用 audit log
8.17 security vs operational IR：證據鏈來源
4.23 觀測查詢設計：鑑識回溯查詢模式跟 audit log 的長期查詢設計

4.C13 Discord：從儲存問題回推觀測缺口

Mon, 22 Jun 2026 00:00:00 +0000

Discord 的儲存演進案例從觀測角度回推一個教訓：儲存成長問題通常先表現為觀測缺口。不是資料庫變慢了才去看 metric，是該有的 metric 從一開始就沒設計。每一次儲存遷移（MongoDB → Cassandra → ScyllaDB）都揭露了上一階段缺少的訊號。

業務背景

Discord 處理 trillions of messages。訊息是核心 user journey — 文字、圖片、附件、thread、搜尋全部依賴訊息儲存層。從 2015 年到 2023 年，Discord 的訊息儲存經歷三代架構。

每一代遷移都由 production 問題觸發 — 追查後發現儲存層已經撐不住，才啟動下一代架構。追查過程中反覆出現的盲區是：觀測訊號不夠早、不夠細或不夠可信。

技術挑戰

MongoDB 階段：latency tail 不可見

早期用 MongoDB 儲存訊息。隨著使用者成長，部分大型 server（Discord 的群組概念）的訊息量遠超平均值。這些 server 的查詢 latency 偶爾飆升到秒級，但 aggregated latency metric（p50、p95）看起來正常 — 因為大型 server 的 request 數量在整體中佔比極低。

缺少的訊號：per-server latency breakdown。aggregated metric 遮蔽了局部惡化。

Cassandra 階段：hot partition 沒有早期訊號

遷移到 Cassandra 後，partition key 設計（channel ID）讓某些高流量 channel 成為 hot partition。Cassandra 的 compaction 在 hot partition 上延遲，讀取 latency 上升。

問題由使用者回報「訊息載入很慢」才被發現，alert 沒有提前攔截。事後回看，Cassandra 的 read latency per partition 跟 compaction pending bytes per table 這兩個 metric 都有異常，但沒有人在 dashboard 上設 alert — 因為這兩個 metric 在 Cassandra 的預設 monitoring 裡不是 first-class 告警對象。

缺少的訊號：hot partition 識別跟 compaction health 的主動告警。

ScyllaDB 遷移階段：dual-read 沒有比對 metric

從 Cassandra 遷移到 ScyllaDB 的過程中，Discord 做了 dual-read（同時讀舊資料庫跟新資料庫、比對結果）。dual-read 的正確性比對有做，但 latency 跟 error rate 的比對 metric 設計不完整 — 知道結果一致，但不知道 ScyllaDB 在特定 query pattern 下是否比 Cassandra 慢。

遷移後才發現某些 query pattern 在 ScyllaDB 上的 tail latency 比 Cassandra 高，需要額外的 schema 調整。如果 dual-read 階段就有 per-query-pattern latency comparison metric，這個問題可以在 cutover 前發現。

缺少的訊號：migration 期間的 per-pattern latency comparison。

教訓

三次遷移暴露的觀測缺口有共同結構：

缺口類型	MongoDB 階段	Cassandra 階段	ScyllaDB 遷移
維度不夠細	aggregated latency 遮蔽局部惡化	table-level metric 遮蔽 partition-level 問題	整體 dual-read match rate 遮蔽 per-pattern 差異
告警設計缺失	沒有 per-entity latency alert	沒有 hot partition alert	沒有 latency comparison alert
發現方式	使用者回報	使用者回報	遷移後才發現

共同模式：觀測訊號的粒度不夠、或告警只設在 aggregated 層 — 局部惡化被平均值淹沒，直到使用者感受到影響才被發現。

三個缺口的修正方向也一致：

把 entity-level metric（per-server、per-partition、per-query-pattern）從 debug-only 提升為 first-class 觀測訊號
在 aggregated alert 之外加 percentile 跟 tail latency alert（p99.9 而非只看 p95）
Migration 期間把 latency comparison 做成 per-pattern 的 real-time dashboard，不只看 overall match rate

回寫教材的連結

4.17 Telemetry Data Quality：aggregated metric 遮蔽局部惡化是 data quality 問題 — 訊號存在但粒度不足以判讀。
4.18 Observability Operating Model：觀測缺口反覆出現代表 operating model 缺少「新服務上線 / 遷移時強制檢查觀測覆蓋」的 gate。
4.19 Debuggability by Design：per-entity latency breakdown 跟 migration comparison metric 應該在系統設計時就規劃，不是事故後補。

判讀徵兆

讀者在自己的系統看到以下訊號時，應該回讀本案例：

使用者回報問題但 dashboard 看起來正常 — aggregated metric 可能遮蔽局部惡化
資料庫或儲存層偶爾變慢但找不到原因 — 可能缺少 per-entity 或 per-partition metric
Migration 做了 dual-read 但只比對正確性、沒比對 latency — 遷移後才發現效能回歸
告警設計只有 error rate 跟 aggregated latency — 缺少 tail latency 跟 entity-level alert

引用源

How Discord Stores Billions of Messages（MongoDB → Cassandra 階段）
How Discord Stores Trillions of Messages（Cassandra → ScyllaDB 階段）

0.13 操作控制 vertical slice 實作入口

Thu, 07 May 2026 00:00:00 +0000

操作控制 vertical slice 的核心責任是把「看得見、驗得過、接得住、回寫得動」落到同一個服務流程。這一章把 evidence package、steady state、incident decision log 與 action item closure 串成第一個可實作切片。

大綱

實作目標：選一個核心 user journey，建立最小操作控制閉環
輸入：服務入口、核心依賴、SLO / SLI、告警、驗證場景、事故流程
產出：evidence package、verification evidence handoff、incident decision log、write-back item
邊界：先做 artifact 與路由，工具與語言實作留給 04 / 06 / 08 與語言教材
驗收：能從一次異常走完 triage、verification、decision、write-back

實作目標

Vertical slice 的目標是先做一條可回放的操作控制路徑。選一個核心 user journey，例如 checkout、message delivery、document publish、login 或 invoice generation，讓這條路徑同時具備觀測證據、驗證門檻、事故決策與回寫機制。

這一輪的交付是 artifact 與流程責任。工具可以是現有 log search、dashboard、ticket、runbook repository 與 chat；重點是資料欄位與流程責任先成立，後續才判斷是否需要 Prometheus、OpenTelemetry backend、PagerDuty、incident.io 或 chaos tooling。

選擇服務切片

服務切片的選擇責任是找到最能暴露 04 / 06 / 08 交接問題的路徑。第一條 slice 應該具備使用者影響、依賴邊界、可量測訊號與可驗證失敗模式。

候選切片	適合原因	常見失敗模式
Checkout	直接連到收入與客戶痛點	payment timeout、inventory lag
Message delivery	同時包含同步入口與非同步處理	queue lag、redelivery loop
Login	影響所有後續功能	identity provider outage
Document publish	涵蓋寫入、背景工作與通知	stale read、worker backlog
Invoice	牽涉正確性與客戶信任	duplicate charge、missing file

Checkout 適合第一輪，因為它同時暴露 latency、dependency failure、customer impact 與 rollback decision。若團隊沒有交易路徑，可以選 message delivery 或 login；判準是這條路徑一旦失效，on-call 需要在 15 分鐘內做出明確決策。

Message delivery 適合用來驗證 async observability。它能暴露 request id、correlation id、queue lag、DLQ、retry policy 與 replay runbook 的交接品質。

Artifact 契約

Artifact 契約的責任是讓每個環節都有可交接輸出。這些 artifact 可以先用 Markdown、ticket 欄位或 incident template 表達，等流程跑通後再導入工具自動化。

Artifact	最小欄位	來源章節	下游使用
Observability evidence package	source、time range、query link、owner、data quality、confidence、known gap	4.20	triage、release gate、PIR
Verification evidence handoff	hypothesis、scope、steady state、workload / fault、result、decision、owner	6.23	release gate、runbook、drill
Incident decision log	timestamp、decision、context、evidence、owner、expected effect、rollback condition	8.19	handoff、stakeholder update、PIR
Incident evidence write-back	finding、evidence、target artifact、owner、closure signal、review date	8.22	dashboard、experiment、runbook

Observability evidence package 是第一個 artifact。它保存查詢、時間窗、資料品質與 owner，讓後面的驗證與事故流程使用同一組事實。

Verification evidence handoff 是第二個 artifact。它把一次 load test、chaos drill、DR rehearsal 或 readiness review 的結果轉成 release gate 與 incident drill 可用的證據。

Incident decision log 是第三個 artifact。它把事中決策、證據、預期效果與回退條件保存下來，讓交班與復盤可以直接引用。

Incident evidence write-back 是第四個 artifact。它把事故學習轉成 dashboard、alert、SLO、experiment、runbook 或 automation boundary 的修改項。

實作步驟

實作步驟的責任是讓 slice 能被單次演練走完。每一步都產生一個可檢查輸出，避免流程只停在口頭共識。

選定服務切片與核心 user journey。
定義 steady state：success rate、latency、queue lag、data correctness、customer impact。
補 observability evidence package：dashboard、query、trace、log、audit、data quality。
補 verification evidence handoff：load、chaos、DR 或 rollback rehearsal 的 hypothesis 與 result。
建 incident intake template：source、confidence、impact scope、evidence link、severity candidate。
建 incident decision log template：decision、owner、expected effect、rollback condition。
建 write-back template：finding、target artifact、closure signal、review date。
跑一次 tabletop 或 game day，確認 artifact 能被實際填寫。
把缺口回寫到 04 readiness、06 experiment 或 08 runbook。

第一步要避免選太大的系統。選「checkout」比選「整個支付平台」更好，因為 slice 需要在一輪演練中跑完。

第二步要先定義穩態。沒有 steady state，load test、chaos 與 incident recovery 都會缺少共同終點。

第三步要保留 data quality 限制。若 trace sampling、log drop 或 metric ingest delay 會影響判讀，限制要跟 evidence 一起交接。

第四步要把驗證結果變成下游可用語言。Pass、conditional、fail 都要附上 scope、hypothesis 與下一步路由。

第五到第七步要先用輕量 template。template 跑通後，再把欄位搬進 incident tool、ticket system 或 runbook platform。

第八步要實際演練。tabletop 可以先驗證欄位與角色，game day 再驗證工具與訊號。

最小 template

最小 template 的責任是讓第一輪不用等待工具導入。以下欄位可以直接放進 Markdown、ticket、incident doc 或 runbook。

 1service_slice:
 2  journey: checkout
 3  owner: payments-team
 4  steady_state:
 5    success_rate: ">= 99.9% over 30m"
 6    latency: "p95 <= 800ms"
 7    queue_lag: "<= 5m"
 8    customer_impact: "failed checkout count <= threshold"
 9
10evidence_package:
11  source: "dashboard / log query / trace / audit"
12  time_range: "incident window plus baseline"
13  query_link: "stable query URL or saved query name"
14  owner: "service or platform owner"
15  data_quality: "sampling, freshness, missing fields"
16  confidence: "confirmed / suspected / weak"
17  known_gap: "missing signal or schema drift"
18
19verification_handoff:
20  hypothesis: "payment provider timeout triggers fallback within 2m"
21  scope: "staging or 10% production traffic"
22  workload_or_fault: "timeout injection against provider adapter"
23  result: "pass / conditional / fail"
24  decision: "release / block / follow-up / runbook update"
25  owner: "closure owner"
26
27incident_decision:
28  timestamp: "2026-05-07T10:15:00Z"
29  decision: "enable checkout fallback"
30  context: "provider timeout and rising failed checkout"
31  evidence: "evidence_package link"
32  owner: "incident commander or service owner"
33  expected_effect: "failed checkout drops within 10m"
34  rollback_condition: "fallback stale data exceeds threshold"
35
36write_back:
37  finding: "provider timeout alert lacks tenant dimension"
38  target_artifact: "dashboard / alert / experiment / runbook"
39  closure_signal: "game day triggers tenant-scoped alert within 5m"
40  review_date: "next readiness review"

這份 template 的價值是把四個 artifact 放在同一份文件中。第一輪可以手動填寫，第二輪再拆到不同工具。

驗收門檻

驗收門檻的責任是判斷 slice 是否已經能支援實際事故。完成狀態要由團隊能否沿著 artifact 做出同一組判斷來確認。

驗收項目	通過訊號	回寫位置
Triage	on-call 能用 evidence 判斷是否啟動事故	8.18 intake
Verification	release owner 能讀 handoff 做放行判斷	6.8 release gate
Decision	IC 能用 decision log 交班與回退	8.19 decision log
Communication	stakeholder update 能引用同一組 impact	8.10 comms
Write-back	PIR action item 有 target 與 closure	8.22 write-back

Triage 通過代表 evidence 能支援事故啟動。若 on-call 還需要臨場重新找資料，回到 4.16 readiness 與 4.20 evidence package。

Verification 通過代表驗證結果能支援 release 決策。若 release owner 只看到 pass / fail，回到 6.23 handoff 補 hypothesis、scope 與 data quality。

Decision 通過代表事故現場有共同記憶。若交班後需要重問背景，回到 8.19 decision log 補 context、evidence 與 rollback condition。

Write-back 通過代表事故學習有落點。若 action item 只有「補監控」或「更新文件」，回到 8.22 write-back 補 target artifact 與 closure signal。

Tripwire

Tripwire 的責任是提醒團隊何時回到概念層補缺口。Vertical slice 的目的在於快速暴露 routing chain 哪裡斷掉，再用最小修正補上 artifact 與 owner。

訊號	判讀	下一步
evidence 找不到 owner	觀測 operating model 缺口	回到 4.18 owner 與 review cadence
pass / fail 缺少決策力	verification handoff 缺口	回到 6.23 補 scope、hypothesis、decision
IC 交班缺少共同記憶	decision log 缺口	回到 8.19 補最近決策、未完成動作與 rollback 條件
PIR action 缺少關閉力	write-back 缺口	回到 8.22 補 closure signal 與 review date
template 填寫成本過高	欄位過多或工具摩擦	刪到最小欄位，再跑一次 tabletop

這些 tripwire 出現時，先修 artifact 與流程，再考慮導入新工具。工具能降低填寫成本，但欄位責任與 owner 需要先清楚。

交接路由

0.12 operations control service selection：判斷目前缺的是訊號、驗證、響應還是閉環。
4.20 observability evidence package：建立可交接觀測證據。
6.22 steady state definition：定義實驗與事故共用成功條件。
6.23 verification evidence handoff：把驗證結果交給 release 與 incident。
8.19 incident decision log：保存事中決策與回退條件。
8.22 incident evidence write-back：把事故學習回寫成可關閉改善。

4.13 Service Topology 與 Dependency Map

Fri, 01 May 2026 00:00:00 +0000

大綱

為何依賴拓撲需要獨立節點：人工維護的依賴圖永遠過時
拓撲訊號的來源：trace（4.3）、service mesh（mTLS / sidecar）、network flow log
服務 graph 的維度：呼叫頻率、latency、錯誤率、版本
依賴變化告警：新增依賴、刪除依賴、依賴方向反轉
blast radius 分析：上游失效時下游影響範圍預測
動態叢集下的拓撲追蹤：擴縮事件如何回寫拓撲訊號
跟 4.3 tracing 的分工：trace 是單 request、topology 是統計聚合
跟 05 deployment platform 的整合：service mesh 部署
反模式：架構圖只在 wiki 上、跟實際流量漂移；新依賴上線缺 review；拓撲圖回答「這服務掛了誰受影響」需要人工追查

概念定位

Service topology 是把跨服務依賴從文件轉成可觀測資料的能力，責任是讓團隊能用實際呼叫關係判斷依賴、影響面與變更風險。

這一頁處理的是服務關係圖。Trace 解釋單次 request、topology 解釋一段時間內的依賴結構；兩者合起來才能回答「這個服務壞了會影響誰」。

人工維護的依賴圖在快速變動的微服務環境下會持續漂移。新服務上線、舊服務下架、依賴方向反轉、版本切換都會發生在 wiki 圖更新之前；事故時依賴 wiki 圖判讀 blast radius，會把過期的依賴結構誤當成當前事實。

拓撲訊號的來源

Service topology 的可信度取決於資料來源是否反映真實流量。常見的訊號來源各有覆蓋範圍跟限制：

來源	覆蓋範圍	主要限制
Trace（4.3）	應用層呼叫關係、含 latency / 錯誤率	需要 instrumentation 覆蓋、有採樣偏誤
Service mesh	sidecar / mTLS 拦截的所有跨服務流量	依賴 mesh 部署、不含外部依賴
Network flow log	L3 / L4 連線記錄、含外部依賴	缺少應用語意、難判斷哪個 service
API gateway log	外部入口流量、含 client / API 維度	只看到 gateway 視角、不知道內部呼叫

實務上常用組合：trace 作為主要來源（提供應用語意跟錯誤率），service mesh 作為補充（補上未 instrument 的服務），network flow log 作為兜底（揭露未管理的外部依賴）。

把不同來源的拓撲訊號合併時，要顯式記錄每段依賴的來源。當 trace 看不到某段依賴、service mesh 卻看得到時，可能意味著 instrumentation 缺失或服務 bypass mesh，這本身是治理訊號。

服務 Graph 的維度

服務 graph 的責任是把跨服務依賴量化成可判讀的訊號、支援事故決策跟容量規劃。每段依賴關係要帶上維度（頻率、latency、錯誤率、版本、可選性）、才能在事故時被直接使用、而非只能呈現拓撲輪廓。

呼叫頻率：高頻依賴跟低頻依賴的失效影響不同。高頻依賴失效會立即放大成 5xx，低頻依賴失效可能要數小時才浮現。
Latency 分布：依賴 p50 / p99 latency 決定下游 timeout 應該設多少。沒有 latency 訊號的依賴圖無法支援 timeout 設計。
Error rate：依賴的錯誤率提供 budget 訊號。當某依賴錯誤率上升，下游應觸發降級、保護自身可用性、避免進入無限重試放大故障。
版本 / API contract：依賴的版本變化跟 API contract 變更要進拓撲訊號。版本升級後若某段依賴消失，可能是 contract breaking。
方向跟可選性：是必要依賴（失效 = 服務失敗）還是可選依賴（失效 = 功能降級），影響事故分級。

這些維度進入拓撲訊號後，配合 6.14 dependency budget 才能把依賴可靠性變成可量化決策。

依賴變化的治理

依賴關係的變化本身是訊號。新增依賴、刪除依賴、依賴方向反轉，都是值得告警的事件。沒有依賴變化偵測時，新服務接入往往跳過依賴 review，事故發生才從 trace 反查到「原來這條 path 已經接了三個月」。

可操作的依賴變化告警：

新增依賴 alert：當 trace 出現新的 service-to-service 呼叫，觸發 review。新依賴是否在預期內、是否經過 contract review、是否有 fallback。
依賴消失 alert：某段穩定存在的依賴在 N 分鐘內 trace 看不到，可能是 instrumentation 漏、可能是上游被誤改、可能是真實事故的早期訊號。
依賴方向反轉：A → B 變成 B → A 通常意味著 refactor 或誤改、應該觸發 review。
循環依賴偵測：環狀依賴會在事故時放大恢復難度、應該在拓撲訊號層級就阻擋。

動態叢集下的拓撲訊號

動態叢集下拓撲訊號的責任是讓觀測模型追上實際依賴結構的變化。Pod 數量浮動、node 換代、service IP 變化、跨 cluster 流量重新分配都會在分鐘級內改變服務間的可達性、若拓撲訊號停留在週期性快照、事故時看到的會是過期結構。

對應 4.C8 Airbnb K8s 規模化下的觀測訊號治理：揭露「叢集擴縮跟工作負載變動需要回寫觀測模型」「叢集層指標跟服務層指標要分開治理」「擴縮事件跟事故關聯要可回溯」三個方向（case 直接列出）；以下展開的 service 層級節點、跨 cluster failover、drill-down 設計屬通用 K8s observability 經驗、case 本身未細說。

動態叢集對拓撲訊號的挑戰有三個面向、性質不同、各自的對應做法也不同。

拓撲節點不穩定 是資料模型層的問題。Pod 短暫存在、IP 不固定、若直接把 Pod 當拓撲節點、graph 會分鐘級持續抖動、事故時看到的依賴結構不可信。對應做法是把節點層級從 Pod / IP 提升到 service（service name + version + region）、把 instance / Pod 層級放到 dashboard drill-down、讓主拓撲圖反映穩定的服務依賴而非瞬時實例分布。

擴縮事件 vs 真實事故區分 是訊號分辨層的問題。HPA scale-up / scale-down、cluster autoscaler 加 node 失敗、Pod 重啟、health check 短暫失敗，這些擴縮動作本身會產生跟事故相似的訊號（5xx 短暫升高、reconnect、依賴連線中斷）、若沒分辨機制、值班會把擴縮過程的正常波動誤判成事故、或把真正的事故誤判成擴縮。對應做法是把擴縮事件本身打進 timeline、跟事故 timeline 共用同一張圖、判讀時對齊看。

跨 cluster 流量變化 是視角層的問題。multi-cluster 部署下、流量可能因 cluster 變更從 cluster A 切到 cluster B、若拓撲圖只看單 cluster 視角、B cluster 突增的流量會被解讀為 traffic spike、漏掉真正的 failover 事件。對應做法是讓拓撲圖呈現跨 cluster 邊界、把 cluster 間流量變化也標到圖上、避免 cluster 邊界成為觀測盲區。

把叢集層指標（node count、Pod count、HPA event）跟服務層指標（call rate、error rate、latency）分開治理，是動態叢集環境的基本要求。叢集層指標的 owner 通常是 platform team、服務層指標的 owner 通常是 service team，兩者放在同一 dashboard 上要清楚標示來源跟責任。

擴縮事件回溯到事故關聯的另一個價值是 capacity retrospective。當 HPA 在事故前後觸發、scale-up 是否足夠、scale-down 是否過快，都需要把擴縮 timeline 跟事故 timeline 拼起來看，回到 6.9 容量成本跟 9.6 容量規劃的回寫。

Blast Radius 推導

Blast radius 分析的核心責任是回答「如果這個服務或依賴失效、哪些上游 / 下游會受影響、影響多深」。沒有實時拓撲訊號時，這個分析靠經驗、容易低估或高估。

實時 topology 加上依賴可選性標記後，blast radius 可以分層推導：

直接下游：直接呼叫該服務的服務、立即受影響。
間接下游：透過中間服務間接依賴、影響時間延後。
可降級下游：依賴是 optional、失效會觸發降級但不失敗。
必要下游：依賴是 mandatory、失效會傳播成服務失敗。

事故時把 blast radius 從拓撲推導出來、再對照實際看到的 5xx 跟 SLO burn rate、能驗證影響面是否符合預期。當實際影響超出推導 blast radius、通常意味著存在未紀錄依賴。

核心判讀

判讀 topology 時，先看資料是否來自真實流量，再看依賴變化是否能被治理。

重點訊號包括：

service graph 是否包含呼叫方向、頻率、latency 與 error rate
新增依賴是否能觸發 review 或 alert
blast radius 是否能從上游 / 下游關係推導
topology 是否能餵給 dependency budget 與事故型態判讀
動態擴縮事件是否打進 timeline、能跟事故區分

判讀訊號

事故時回答「誰呼叫這服務」需要人工追查
新服務接入無依賴 review、出事後才發現連結
架構文件跟實際呼叫關係漂移、半年沒更新
service mesh 部署但拓撲訊號未被使用
循環依賴存在但無人發現
擴縮事件造成的短暫錯誤被誤判成事故

反模式

反模式	表面現象	修正方向
Wiki 架構圖	圖跟實際流量漂移半年	從 trace / mesh 自動生成、持續更新
新依賴無 review	trace 出現新依賴沒人知道	新依賴 alert、依賴 review 進 release flow
拓撲節點用 Pod / Instance	動態叢集下圖持續抖動	service 層級節點、Pod 放 drill-down
叢集跟服務指標混在一張圖	platform 跟 service 責任不清	分層 dashboard、明確 owner
Blast radius 靠經驗推導	影響面評估不準、事後才發現遺漏	從拓撲訊號自動推導、跟實際影響對照

交接路由

4.3 tracing：拓撲訊號的原始來源
4.18 operating model：叢集層 / 服務層 ownership 分工
05 部署：service mesh 配置
6.5 pre-mortem（規劃中）：依賴失效路徑分析
6.9 capacity cost：擴縮事件 retrospective
6.14 dependency budget：拓撲是依賴可靠性評估的資料來源
8.9 事故型態庫：cascading failure 型態的拓撲依據

4.14 Anomaly Detection

Mon, 22 Jun 2026 00:00:00 +0000

大綱

Anomaly detection 跟 rule-based alert 的分工
Baseline 模型類別
Anomaly 訊號的處理路徑
False positive 與 alert noise 共用預算
Explainability：anomaly 要能定位到維度
Vendor 定位
反模式

概念定位

Anomaly detection 是用統計基線或模型找出偏離常態的訊號，責任是補上 rule-based alert 難以事先列舉的變化。

Rule-based alert 抓已知模式 — 團隊事先定義「error rate > 1% 就告警」。Anomaly detection 抓未知模式 — 系統觀察到「今天的 latency 分布跟過去 30 天的同時段不同」。兩者互補：rule-based 精確但只能抓團隊已預見的問題，anomaly detection 有噪音但能發現團隊沒想到的退化。

Anomaly 適合作為提示層（hint），通常先進 dashboard 或低 severity 路由，再由 SLO 判讀或人工確認決定是否升級。把 anomaly 直接接 page 是噪音爆量的常見原因。

跟 Rule-based Alert 的分工

面向	Rule-based alert	Anomaly detection
觸發條件	固定閾值或 burn rate	偏離統計基線
抓什麼	已知模式（團隊事先定義）	未知模式（歷史基線判斷）
精確度	高（閾值明確）	低到中（統計偏差 = 候選，需要確認）
False positive	閾值對齊時低	較高（季節性未建模、促銷、release）
適合的 severity	Critical / Warning	Info / Warning（確認後才升級）
維護成本	隨服務變化需調整閾值	模型要持續 retrain 或校正

最有效的整合方式：rule-based alert 處理已知的 SLO violation（symptom-based、高 severity），anomaly detection 處理趨勢異常跟 novel failure mode（低 severity、dashboard widget）。兩者共用 alert fatigue 的 noise budget — anomaly 的 false positive 也算進整體 noise rate。

Baseline 模型類別

Seasonal baseline

按日夜、週末、節慶、促銷等週期建立基線。同一個指標的「正常範圍」在週一上午跟週日凌晨不同。Seasonal model 用歷史同期資料建立預期帶（expected band），偏離帶外視為 anomaly。

Seasonal baseline 的失敗模式是週期性假設錯誤 — 業務改變後流量模式跟歷史不同（新產品上線改變了週末流量），模型用錯誤的基線判斷。需要定期驗證模型跟實際流量的吻合度。

Moving window baseline

用過去 N 分鐘 / 小時的資料建立動態基線。比 seasonal model 簡單、延遲更低，但對突發變化更敏感（release 後 latency 自然變化可能觸發 anomaly）。

Moving window 適合不需要週期性建模的指標 — 連線數、queue depth、goroutine count 等「預期穩定、突變代表問題」的指標。

ML-based（forecast / clustering）

用機器學習模型做時間序列預測（Prophet、ARIMA）或高維度聚類（isolation forest、DBSCAN）。能處理複雜的多變量異常（A 指標上升 + B 指標下降 = 異常，但各自單獨看都在正常範圍）。

ML 模型的成本是訓練、retrain、模型版本管理跟 explainability。多數團隊的起步方式是先用 seasonal + moving window（不需要 ML pipeline），等 false positive 管理穩定後再引入 ML。

Anomaly 訊號的處理路徑

Anomaly detection 的輸出是「這個指標在這段時間偏離基線」— 候選訊號，不是確認的問題。處理路徑決定 anomaly 是有用的提示還是噪音來源。

Dashboard widget：anomaly 標記在 time series panel 上（標色、annotation），讓巡視 dashboard 的工程師注意到。低成本、零噪音（不通知任何人）、但需要有人主動看。

Low severity alert（info / warning）：anomaly 進入 alerting pipeline，但 severity 設為 info 或 warning。不 page on-call、但記錄在 alert history 中。事故發生後可以回溯「事故前有沒有 anomaly 提早預警」。

Conditional escalation：anomaly 搭配 rule-based 條件升級。「Latency 偏離基線 + error rate 超過 SLO burn rate」→ 升級為 critical。單獨的 anomaly 不足以 page，但跟其他訊號組合時有判讀價值。

Explainability

Anomaly 觸發時，工程師需要回答「為什麼異常」 — 是哪個服務、哪個 endpoint、哪個 tenant、哪個地區導致的。只告訴你「overall latency 異常」但不說維度，診斷價值有限。

可操作的 explainability 有兩層：

維度歸因：anomaly detection 系統自動拆分異常到子維度 — 「overall latency 異常，主要來自 region=us-east + endpoint=/api/search」。Datadog Watchdog 跟 New Relic AI 提供這種維度下鑽能力。

Root cause hint：anomaly 跟其他訊號（deploy event、config change、dependency error spike）的時間關聯。「Latency anomaly 開始的時間跟 v2.3.1 deploy 吻合」— 提示 root cause 可能跟 deploy 有關。

Vendor 定位

Vendor	定位	特點
Datadog Watchdog	託管 anomaly + 維度歸因	跟 APM / log / metric 整合、auto-detect
New Relic AI	託管 anomaly + root cause suggest	全棧觀測整合
Prophet（自建）	開源 time series forecast	需要自建 pipeline、training、serving
Anomalo	資料品質 anomaly	偏 data pipeline、非 infra 觀測

自建 vs 託管的判準：團隊是否有 ML pipeline 維運能力。託管方案的好處是零 ML 運維、跟觀測平台深度整合；自建的好處是可控性高、可以針對業務邏輯客製模型。

核心判讀

Anomaly detection 最常見的失敗是 baseline 沒對齊流量週期（週末自然下降被判成異常）跟異常觸發後無法歸因到具體維度（只知道「latency 異常」但看不出是哪個 service、哪個 region）。

重點訊號包括：

Baseline 是否理解日夜、週末、節慶與促銷週期
Anomaly 是否能指出 service、tenant、region 或 endpoint 維度
False positive 是否納入 alert noise governance
Anomaly 與 rule-based alert 是否有清楚分工

判讀訊號

Alert 規則寫到數百條、仍漏掉 novel failure mode
已知 anomaly 訊號被忽略、靠人工巡視 dashboard
Anomaly 觸發後無人能解釋「為什麼異常」
模型未對齊週期性（週末 / 節慶 / promo）造成噪音
同一指標 anomaly + rule alert 重複觸發、無協調

反模式

反模式	表面現象	修正方向
Anomaly 直接接 page	On-call 被統計偏差淹沒	Anomaly 先走 info/warning、conditional 才升級
Baseline 沒對齊季節性	週末 / 節慶流量自然變化觸發 false positive	用 seasonal model 或 exclude 已知事件窗口
Anomaly 跟 rule alert 重複	同一問題兩個來源觸發、noise 翻倍	共用 noise budget、anomaly 在 rule 已觸發時抑制
模型不可解釋	Anomaly fired 但工程師不知道看什麼	要求維度歸因能力、否則只作 dashboard widget
自建 ML 但無 retrain pipeline	模型用半年前的 baseline、precision 持續下降	建立定期 retrain 或改用託管方案

交接路由

4.4 dashboard-alert：anomaly 升級 alert 的條件
4.6 SLI/SLO：跟 SLO burn rate 的訊號分工
4.8 signal governance：anomaly false positive 的淘汰
4.18 operating model：anomaly 系統的 ownership

4.C14 觀測平台成本治理：從帳單驚嚇到可預測成本

Mon, 22 Jun 2026 00:00:00 +0000

觀測成本治理案例來自多家企業的共同經驗：觀測平台帳單每季成長 30%，管理層問「為什麼監控這麼貴」但沒人能歸因。問題的核心不是「花太多」而是「花在哪不知道」— 沒有 per-team cost attribution 的觀測平台，成本優化只能靠全域砍 retention 或降 sampling，兩者都會傷害觀測品質。

業務背景

這個案例綜合三個組織的經驗模式：

一家中型 SaaS 公司用 Datadog 做全端觀測（APM + logs + metrics + RUM）。月帳單從 $15K 成長到 $60K，兩年內四倍。CFO 問 CTO「這筆錢買到什麼」，CTO 轉問 platform team，platform team 說不出哪些團隊佔多少。

一家金融科技公司自建 Grafana Stack（Prometheus + Loki + Tempo + Mimir）。自建沒有 SaaS 帳單，但 Kubernetes 節點跟 storage 的成本持續增加。infra team 知道 Mimir 的 storage 在成長，但不知道是哪些 metric label 造成的 cardinality 爆炸。

一家遊戲公司用 CloudWatch 做 AWS 原生觀測。Logs 的 ingestion 費用佔帳單 70%，但追查後發現 90% 是 debug-level log，只在排錯時用到，平常沒人查。

技術挑戰

沒有 cost attribution

觀測帳單通常是 organization-level 的一筆支出。SaaS 帳單按 hosts、custom metrics、log volume、APM spans 計費；自建平台按 compute 跟 storage 計費。兩種模式都缺少「這些費用是哪個 team / service 造成的」的歸因。

沒有 attribution 的後果是所有優化都是全域操作 — 砍 retention 從 30 天到 7 天影響所有人，降 sampling 從 100% 到 10% 影響所有服務。需要觀測資料的團隊被平均到成本節省裡，不需要的團隊搭便車。

Cardinality 爆炸

Metrics 成本的主要 driver 是 cardinality — unique label combination 的數量。常見的 cardinality 爆炸來源：

把 user ID 或 request ID 放進 metric label（每個 unique user 產生一組 series）
動態的 endpoint path（/api/users/123 每個 user ID 是一個 label value）
多租戶 label 過細（tenant × region × service × endpoint 的笛卡兒積）

一個失控的 label 可以讓 series 數量從 10 萬跳到 1000 萬。SaaS 的計費是 per custom metric，自建的代價是 Prometheus / Mimir 的 memory 跟 storage。

Log volume 失控

Debug-level log 在開發階段有用，但 production 環境裡通常只在排錯時被查。全量 debug log 送進 hot tier（Elasticsearch、Loki、CloudWatch Logs）的 ingestion 跟 storage 成本是最大的 log 成本來源。

問題是沒人敢降 debug log — 「萬一出事需要 debug log 怎麼辦」。恐懼驅動的 log level 設定讓 log volume 只升不降。

Trace sampling 恐懼

類似的恐懼存在於 trace sampling — 「如果剛好那筆有問題的 request 被 sample 掉怎麼辦」。100% tracing 的成本在中等規模（每秒數萬 request）就開始顯著。

解法

Cost attribution by team / service

第一步是讓成本可見，歸因先於優化。

SaaS 平台：用 Datadog 的 usage attribution 或 Grafana Cloud 的 usage reporting 把 ingestion 按 service tag / team tag 拆分。每個 team 看到自己的 metric series、log volume 跟 span 數量。

自建平台：在 Mimir / Loki 的 tenant 維度或 Prometheus 的 namespace 維度拆分 storage 跟 query cost。用 4.15 Cost Attribution 的框架把 infra cost 按 service ownership 分配。

Attribution 本身就能驅動行為改變 — 當團隊看到自己佔了 40% 的 log volume、而且 95% 是 debug level 時，他們會主動調 log level。

Cardinality budget per team

Attribution 之後，為每個 team / service 設定 cardinality budget（active series 上限）。超出 budget 的 series 進入 review 流程 — team 決定哪些 label 可以 aggregate 或移除，而非由 platform 單方面 drop。

Budget 的設定依據是 baseline measurement + growth rate，不是拍腦袋。先觀察 3 個月的 cardinality 趨勢，把 budget 設在 baseline 的 1.5 倍，每季 review。

Log tiering

把 log 從「全部進 hot tier」改成分層：

Log level	目的地	Retention	查詢延遲
Error / Warn	Hot tier（Loki / Elasticsearch）	30 天	即時
Info	Warm tier（壓縮 + 延遲查詢）	14 天	秒到分鐘
Debug	Cold archive（object storage）	7 天	分鐘到小時

Debug log 仍然保留，但不進昂貴的 hot tier。需要排錯時從 cold archive 拉回 — 多等幾分鐘的代價遠低於全量 hot tier 的持續成本。

Adaptive sampling

Trace sampling 從 uniform 改成 adaptive：

錯誤 request 100% 保留
高 latency request（> p99）100% 保留
正常 request 依 traffic volume adaptive sampling（高流量 endpoint 低 sample rate、低流量 endpoint 高 sample rate）

Adaptive sampling 保留了排錯最需要的 trace（error 跟 outlier），砍的是正常 request 的重複 trace。

取捨

面向	不治理	治理後
成本趨勢	隨 traffic 超線性成長	跟 traffic 線性成長或低於線性
觀測覆蓋	全量（但可能是低品質的全量）	分層（high-value 資料保留全量、low-value 降級）
Debug 體驗	所有資料都在 hot tier、查得快	部分資料要從 cold archive 拉、多等幾分鐘
團隊自主性	無限制（cardinality 跟 log level 隨意）	有 budget 跟 policy 約束
治理人力	零（直到帳單爆炸才開始）	需要 platform team 持續維護 attribution + budget + policy

治理的最大風險是「砍過頭」— 在事故期間發現 debug log 被移到 cold archive 查不到、或 trace 被 sample 掉找不到問題 request。Adaptive sampling 跟 error retention 100% 是安全網，但安全網的設計本身需要定期 review（例如 error 的定義是否涵蓋了所有異常模式）。

回寫教材的連結

4.15 Cost Attribution：per-team cost visibility 是治理的起點。
4.7 Cardinality 治理：cardinality budget 跟 label review 的操作流程。
4.11 Telemetry Pipeline：log tiering 跟 adaptive sampling 是 pipeline 的 routing 跟 processing 層配置。

判讀徵兆

讀者在自己的系統看到以下訊號時，應該回讀本案例：

觀測帳單每季成長 > 20%，但服務的 request volume 成長遠小於此 — cardinality 或 log volume 可能在失控成長
管理層問「監控花多少錢、誰在用」但沒人能回答
曾經做過「全域降 retention」或「全域降 sampling」的成本優化，但幾個月後成本回升
Platform team 花大量時間處理「Prometheus OOM」或「Elasticsearch disk full」而非改善觀測品質
團隊的 debug log level 在 production 預設開著，理由是「不知道什麼時候需要」

1.14 Production Slow Log Closed Loop

Wed, 27 May 2026 00:00:00 +0000

1.13 應用層查詢反模式列出了 query 反模式清單跟每請求預算、但沒覆蓋一件事：production slow log 怎麼從「事故時才看」變成「定期審視能 catch 反模式」。本章把 slow log 包成 closed loop — 採集、分析、PR review 整合、regression 偵測四個動作串起來、讓反模式在進 production 之前就被攔下。

Slow log 的兩種讀法

多數團隊把 slow log 當「事故診斷工具」— 服務變慢時去翻一下、找出當下的罪魁禍首。這條讀法在事故時有效、但有 systemic 缺陷：所有 catch 到的反模式都已經影響使用者一段時間。

另一條讀法是把 slow log 當「定期審視訊號」— 每週 / 每 release cycle 抓 slow log top-N、看哪些 query 模式持續存在、哪些是新出現的。這條讀法的關鍵在於「對比基線」、不是「找絕對閾值」。

兩種讀法的對比決定了 closed loop 的設計方向：

維度	事故診斷工具	定期審視訊號
觸發時機	服務變慢時被動翻	排程定期掃
比較對象	跟絕對閾值比（query > 1 秒）	跟上週 / 上次 release 的 slow log 分布比
處理路徑	找出 root cause → 立即修	收進 PR backlog → 排序 → 規律修
介入點	事故發生後	反模式被引入後、影響使用者前
對應角色	On-call / SRE	整個團隊（每週輪流 review）

定期審視這條讀法是本章的核心、後續四個動作都環繞它建立。

Loop 第一步：採集

Slow log 採集的設計關鍵是「採集標準要穩定、retention 要夠長」。常見的採集配置選擇：

Threshold 設定：MySQL long_query_time、PostgreSQL log_min_duration_statement 設多久才記？常見 default 1 秒太寬鬆、會漏掉「200ms-1s」這層慢但累積成大量壓力的 query。建議 100ms 或更低（依 application 需求）。
採集對象：純 SELECT 慢？還是含 INSERT/UPDATE/DELETE？寫路徑慢通常代表 lock contention 或 transaction 範圍問題、跟讀路徑反模式不同、要分開分析。
Retention：log 保留多久？至少 30 天（覆蓋一個 sprint）、有資源的話 90 天（覆蓋季度 regression 對比）。雲端 managed DB（RDS / Aurora）的 slow log 通常自動匯出到 CloudWatch / S3、設定 retention policy 而不是依賴 DB instance 本身的 log。
Sample rate：高流量服務全採會把 disk I/O 拖垮。Production 環境用 sampling（如 10% 取樣）平衡採集完整度跟系統壓力。

採集出來的 raw log 不適合直接讀、要先 normalize。

Loop 第二步：Normalize 與聚合

Raw slow log 每筆都帶具體參數（WHERE user_id = 12345、WHERE user_id = 67890），直接看會看到上千筆「不同 query」。實際上多數是同一個 query template 的不同參數實例。

Normalize 動作把參數抽掉、留 query shape：

WHERE user_id = 12345 → WHERE user_id = ?
IN (1, 2, 3, 4, 5) → IN (?)
字串常數同樣抽掉

工具上：MySQL 用 pt-query-digest（Percona Toolkit）；PostgreSQL 用 pg_stat_statements extension（已內建 normalize）；雲端用 vendor 工具（AWS Performance Insights、GCP Query Insights、Azure SQL Insights）。Normalize 後可以按 query shape 聚合、看哪些 shape 累計時間最長、出現次數最多、平均延遲最高。

聚合後產出三條訊號：

Top-N by total time：累計時間最長的 query — 改一條就能省最多 DB 壓力
Top-N by count：出現次數最多的 query — 改一條就能降最多 connection 占用
Top-N by avg latency：平均延遲最高的 query — 個別 request 體驗最差的

三條訊號可能指向不同 query、各自值得 attention。

Loop 第三步：PR review 整合

把 slow log 的 top-N 帶回 PR review 是 closed loop 的關鍵。常見三種整合機制：

每週 slow log review 會議：固定時段（每週 30 分鐘）、團隊輪流 owner、把 top-10 過一輪、決定每筆是修 / 留 / 標 acceptable。產出進 backlog、不是當場修。
PR-level query budget check：CI 加 middleware 統計每個 endpoint 的 query 數（per 1.13 query 預算）、超過閾值的 PR 在 review 時觸發討論。這層比 slow log 早、catch 的是「新引入」反模式。
Production regression alert：當某個 query shape 的 P99 latency 比上週 baseline 偏高 50%+、自動發 alert 給該服務 owner。這層 catch 的是「漸進惡化」反模式（如資料量增加、index 失效）。

三層機制按介入點分層：PR check 是「進 production 前」、weekly review 是「進 production 後的固定盤點」、regression alert 是「漸進惡化的訊號偵測」。三層覆蓋率最高、單跑任一層都會漏。

Loop 第四步：Regression 偵測

Slow log 的對比基線需要主動維護。沒有基線、定期審視會退化成「每次都看到同樣的 top-10、習以為常」。建立基線的常見做法：

每 release 凍結 baseline：上線新版本前抓一份 slow log snapshot、release 後跟它比。新增的 query shape 跟惡化的 query shape 都會浮出來。
資料量分位點 marker：在 schema 加註「這張表預期 1M / 10M / 100M 行的 query 計畫」、實際成長到對應規模時驗證 plan 是否還對。Index 失效常常是「資料量過某個門檻、optimizer 改用 full scan」造成的。
跨 release 趨勢圖：把 slow log top-10 的累計時間做時序圖、看一年的趨勢。穩定升高代表反模式 / 資料成長壓力、突然升高代表新引入問題。

Regression 偵測的 false-positive 風險是「業務本身在變、流量本身在長」、不是反模式造成的。用「query shape 佔比」而非「絕對延遲」當訊號可以降低 false positive — 某個 query shape 從佔 5% 變成佔 30%，不論絕對延遲是否升高、都值得審視。

判讀訊號

訊號	判讀重點	對應動作
Slow log top-10 一直是同一批 query	Closed loop 沒形成、review 退化成擺設	啟動 PR-level query budget check 或 weekly review
某個 query shape 突然從 top-100 升到 top-10	新版本引入反模式 / 流量結構變化	對照最近 release diff、找出引入時點
Top-N 累計時間穩定升高、但 query shape 沒變	資料量增加、index 退化或 query 計畫漂移	EXPLAIN 對比、檢查是否該加 covering index 或 partition
Slow log 異常稀少（< 預期）	Threshold 設太寬、或採集 sample rate 太低	降 threshold、提高 sample rate
同一個 endpoint 在 PR check 過、production 卻爆	PR 環境資料量太小、CI 無法 catch 大資料量退化	加 production-like load test、或在 CI 用 anonymized prod data

常見誤區

把 slow log 當「事故工具」、不做定期審視。事故時的 slow log 是 lagging indicator — 反模式已經影響使用者一段時間才被看見。定期審視是把它變成 leading indicator 的關鍵。

把 threshold 設太鬆（1 秒、5 秒）。多數反模式落在 100ms-1s 區間、設 1 秒會漏掉。Threshold 應該對齊「user-perceived 慢」門檻、通常 100-500ms。

把 top-10 當「不能動」。一些 top-10 是業務本質慢（複雜 report、bulk write）、改起來代價遠超效益。Review 時要明示標記「acceptable」、避免下週又被當未解決問題討論。

定位邊界

本章專注「production slow log 怎麼變成 closed loop」。當問題進入具體反模式分析（這條 query 是哪種反模式？怎麼改？）、回到 1.13 應用層查詢反模式；進入 EXPLAIN 解讀細節、回到 1.2 schema design；進入 application-side query 數量控制機制（ORM middleware、query log 觀察），跨到 04 observability 模組。

案例回寫

09 案例庫中、slow log closed loop 直接示範的案例稀少（多數案例談規模 / vendor、不談 ops loop 設計）。可用以下案例反向追問：

9.C39 DoorDash：Aurora Postgres 寫入瓶頸 — 寫入飽和被識別為 vendor 層問題、但若 production slow log loop 早期就 catch 到 transaction 範圍跟熱 row 競爭、可能延後遷移時點。對照本章可問：DoorDash 在啟動遷移前、是否有定期 slow log review 機制？
9.C14 Standard Chartered：合規驅動容量規劃 — 容量規劃以合規為驅動、但 query 預算假設若無 production 驗證、規劃出的 TPS 上限會偏低。對照本章「Regression 偵測」段：合規 cluster 是否有 query shape 趨勢圖？

反向追問框架（per #146）：案例本身不直接示範 closed loop、但用「啟動 vendor 升級前、closed loop 能不能延後撞牆」這條追問、能看出 slow log loop 的事前價值。

跨模組路由

與 1.13 query 反模式的交接：1.13 給反模式清單、本章給「定期 catch 它們」的機制。
與 04 observability 的交接：slow log 採集跟聚合是 observability 的子問題、跨服務的 query trace 需要 04 的 telemetry pipeline。
與 9.5 瓶頸定位的交接：9.5 用 USE / RED method 定位、本章用 slow log 在 DB 層做更精細的 query-level 定位。
與 06 reliability ci-pipeline 的交接：PR-level query budget check 是 CI 環節、屬 06 模組的 release gate 設計。

下一步路由

要看具體反模式怎麼修、回 1.13 應用層查詢反模式。要把 query 觀測接進完整 telemetry pipeline、進 04 observability。要看 PR-level check 怎麼接 release gate、進 6.8 release gate。

4.15 Cost Attribution / Chargeback

Mon, 22 Jun 2026 00:00:00 +0000

大綱

為何需要 attribution：共享平台模式下成本無人擁有
拆分維度：team / service / environment / tenant / cost driver
拆分的訊號來源：metric label / log tag / span attribute
Showback vs chargeback
Attribution dashboard 設計
Vendor 帳單拆分能力
反模式

概念定位

Cost attribution 是把 observability 成本拆回團隊、服務、環境與成本來源的治理能力，責任是讓使用訊號的人也看見訊號成本。

Observability 平台（自架或託管）的成本來自三個層面：ingestion（收了多少資料）、storage / retention（保留了多久）、query（查了多少次跟多大範圍）。沒有 attribution 時，這三層的成本由平台團隊背，產品團隊把 observability 當免費資源 — 新增 metric label、延長 retention、加 dashboard panel 都沒有成本意識。

跟 4.7 cardinality 的分工：4.7 是技術治理工具（控制 cardinality、sampling、retention 階梯），4.15 是組織治理工具（讓成本對應到 owner、驅動 owner 採取行動）。

拆分維度

按 service / team

最基本的拆分。每個服務產生的 ingestion 量（events/sec、series count、log volume）歸到服務 owner。團隊是多個服務的集合。

實作方式：metric 跟 log 的 service label / tag 是拆分的基礎。如果 label 穩定且全覆蓋，用 sum by (service) 就能拆分 ingestion 成本。Label 不穩定（部分服務沒打 service tag）或 label 值漂移（service name 改名但 cost 系統沒更新）會讓拆分不準。

按 environment

Production / staging / dev 環境的成本各自歸因。常見發現是 staging 環境的 observability 成本跟 production 相當 — staging 開了跟 production 一樣的 retention、sampling 率、dashboard，但 staging 的觀測需求遠低於 production。

可操作的做法：staging 跟 dev 環境用更短的 retention（7 天 vs production 的 30 天）、更高的 sampling 比例、關閉不需要的 dashboard。把 environment 的成本差異展示在 attribution dashboard 上，讓團隊自行判斷 staging 的 observability 是否過度。

按 cost driver type

Ingestion / storage / query 三層的成本增長模式不同、控制手段也不同。

Ingestion 成本：跟 events/sec 跟 series count 成正比。控制手段是 sampling、cardinality 限制、低價值訊號過濾。歸因到產生訊號的服務。

Storage / retention 成本：跟資料量 × 保留期成正比。控制手段是 retention 階梯（4.7）、rollup 跟 storage tiering。歸因到資料保留政策的 owner。

Query 成本：跟查詢次數 × 掃描量成正比。控制手段是 recording rule、query cache、query cost estimation（4.23）。歸因到 dashboard 跟 alert rule 的 owner。

三層分開歸因的價值是精確定位成本增長來源。「這個月成本增長 30%」→ 是 ingestion 增長（某服務開了新 metric）還是 query 增長（某人加了 heavy dashboard panel）？分層歸因讓回答這個問題只需要查一個 dashboard。

按 tenant（多租戶場景）

Multi-tenant 平台的 observability 成本跟 tenant 的活躍度有關。大 tenant 產生的事件量可能是小 tenant 的 100 倍，但如果 observability 成本平攤，小 tenant 補貼大 tenant。

Tenant-level attribution 需要 metric / log / trace 帶 tenant label。Label 的 cardinality 問題在 4.7 處理 — tenant label 在 metric 層通常過高 cardinality（每個 tenant 一條 series），可以改在 log 或 trace 層按 tenant 統計 ingestion 量。

Showback vs Chargeback

Showback：讓團隊看到自己產生的 observability 成本，但不實際扣款。透明化驅動行為改變 — 當 team A 發現自己的 log ingestion 成本是其他團隊的 5 倍時，自然會開始檢視「是不是 debug log 開太多」。

Chargeback：把 observability 成本從團隊的預算中實際扣除。驅動力更強，但需要精確的 attribution（誤差會讓團隊不信任系統）跟組織層面的支持（財務流程、管理層買單）。

多數團隊的起步方式是 showback。Showback 的 attribution 精度要求比 chargeback 低 — 差 10-20% 的歸因不影響行為改變的驅動力。Chargeback 需要差 < 5% 才能讓團隊接受。

Attribution Dashboard 設計

Attribution dashboard 回答三個問題：

誰在燒？ — 按 service / team 排序的成本排行榜。前 10 個服務通常佔 70-80% 的成本。
燒在哪一層？ — 前 10 個服務的 ingestion / storage / query 成本比例。
趨勢是什麼？ — 月對月的成本趨勢、哪些服務的成本增長最快。

Dashboard 的更新頻率可以低（每天或每週），因為 attribution 驅動的是策略決策而非即時操作。Panel 讀 pre-aggregated 資料（daily cost summary table），查詢成本本身很低。

Attribution dashboard 的 owner 是 observability platform team，但 actionable insight 的 owner 是各服務團隊。Platform team 負責維護 attribution 的精確性跟 dashboard 的正確性；服務團隊負責看自己的成本趨勢跟採取控制行動。

Vendor 帳單拆分能力

Vendor	帳單拆分能力	限制
Datadog	Usage attribution by tag（service / team / env）	需要事先定義 attribution tag
Honeycomb	Team-based usage tracking	按 dataset 拆分、不按 service
Grafana Cloud	Usage dashboard by data source	需自建 attribution layer
自架 Prometheus + Loki	自建 cost model（series count × price / log volume × price）	完全自定義但維護成本高

自架的 attribution 精度最高（因為完全可控），但維護成本也最高。託管 vendor 通常提供 service 或 team 級的 usage attribution，但跨 ingestion / storage / query 的分層拆分需要用 vendor API 自建 dashboard。

核心判讀

Cost attribution 的核心目標是讓成本對應到能採取行動的 owner — 成本只有總額而無歸屬時，沒有團隊有動力控制。

重點訊號包括：

Ingestion、retention、query 是否能分開歸因
Team / service / environment label 是否穩定
Showback 是否足以改變行為，或需要 chargeback
高成本訊號是否能對應事故、SLO 或除錯價值

判讀訊號

成本季度增長、無人能說「哪個團隊 / 服務在燒」
高成本服務跟高價值服務不對應、無 ROI 視角
平台團隊背所有預算、產品團隊把 observability 當免費資源
Attribution dashboard 存在但無 owner、半年沒看
Vendor 帳單只有總額、無服務級拆分
Staging 的 observability 成本跟 production 相當但無人注意

反模式

反模式	表面現象	修正方向
平台吸收所有成本	產品團隊沒成本意識、ingestion 無限增長	Showback 起步、讓團隊看到自己的成本
Attribution 顆粒度太粗	只有總額、定位成本來源要人工拆帳	按 service + cost driver type 拆分
Chargeback 精度不夠	團隊質疑歸因結果、不信任系統	先用 showback、精度穩定後再轉 chargeback
Attribution label 漂移	Service name 改了但 cost 系統沒更新	Label 同步機制 + 定期 reconciliation
成本只看帳單不看 ROI	砍最貴的 metric 但那是 SLO 唯一訊號來源	成本決策同時評估「砍掉後事故定位會變慢多少」

交接路由

4.7 cardinality / cost：技術層面的成本治理工具
4.11 telemetry pipeline：pipeline 各層的成本歸屬
4.18 operating model：platform team 跟 service team 的 cost ownership
4.23 觀測查詢設計：query 成本的 estimation 跟治理
6.9 capacity / cost：observability 成本作為整體容量規劃的一部分
4.C14 觀測平台成本治理：從帳單驚嚇到可預測成本的綜合情境

4.16 Observability Readiness Review

Sat, 02 May 2026 00:00:00 +0000

大綱

readiness review 的責任：在 production 前確認訊號能支援分級、定位、回復與復盤
檢查面向：log schema、metrics、trace context、dashboard、alert
上線前判準：核心 user journey 是否有 SLI、錯誤是否有 correlation key、依賴是否可追蹤
變更前判準：新依賴、新 queue、新 feature flag 是否帶出新訊號需求
演練前判準：game day / chaos / DR drill 是否能被 04 訊號觀察
跟 06 的交接：readiness 缺口進入 reliability readiness / release gate
跟 08 的交接：readiness 缺口影響 severity trigger、runbook 與 decision log
反模式：服務先上線、事故後才補 dashboard；alert 有通知但缺定位欄位；trace 需要人工對回 log

Observability readiness review 的價值在於把「事故時才會被問到的問題」提前成上線條件。服務進 production 前，團隊需要先確認訊號能回答三件事：哪裡出問題、影響到誰、下一步由誰處理。

概念定位

Observability readiness review 是把「訊號是否足以支援操作」變成上線前檢查的流程，責任是讓服務進入 production 前已具備基本診斷能力。

這一頁處理的是準備度。工具已存在時，仍需要確認訊號是否對應使用者旅程、依賴邊界、事故分級與復盤證據。

readiness review 不等於打勾清單。它是一次跨角色對齊：服務團隊確認事件語意，平台團隊確認採集與查詢路徑，on-call 確認事故前 10 分鐘真的能定位。三者同時成立，才算可操作準備度。

適用情境

Observability readiness review 適合放在服務生命週期的高風險節點。這些節點共同特徵是：一旦變更進入 production，第一次異常就會依賴既有訊號做判讀。

情境	檢查重點	缺口代價
新服務上線	核心旅程、依賴、owner 是否可觀測	事故初期只能靠人工猜測
重大變更	新 queue、新依賴、新 flag 的訊號	新風險進 production 後才暴露
架構拆分	trace、correlation、service name	事件鏈跨服務後斷裂
演練前	chaos、load、DR 行為是否可被看見	演練結果缺少可驗證證據
事故後	復盤缺口是否回寫成新訊號	同類事故仍以相同盲區重演

新服務上線時，readiness review 的責任是確認基本診斷能力已經存在。典型服務至少要能從 request、tenant、region、dependency 與錯誤分類回到同一條事件鏈，讓 on-call 能在前 10 分鐘判斷影響範圍。

重大變更時，readiness review 的責任是確認變更帶來的新風險已有訊號。加入新的外部 API、queue、background job、feature flag 或資料同步流程，都會增加新的失效面；每個失效面都應有對應 log、metric、trace 或 alert。

演練前，readiness review 的責任是確認驗證行為能被觀測。chaos experiment、load test 或 DR drill 需要同時產生故障與判讀證據，讓團隊能確認 steady state、blast radius 與回復狀態。

核心判讀

判讀 observability readiness 時，先看服務的核心旅程是否有訊號，再看事故時能否從症狀走到原因。

重點訊號包括：

核心 user journey 是否有 SLI/SLO 與 error rate
log 是否有 request id、trace id 與 tenant 欄位
trace 是否覆蓋同步、async、queue 與 background job 邊界
dashboard 是否能支援 on-call 的前 10 分鐘判讀
alert 是否能連到 runbook 與 owner

檢查面向	最小可用判準	常見失真
事件關聯	request / trace / tenant 可串成同一條事件鏈	欄位命名不一致、跨服務拼接失敗
服務健康	SLI 與 error rate 能反映核心旅程	指標只反映系統資源、不反映用戶結果
路徑可視	trace 能覆蓋 sync + async + queue	background job 與 queue 邊界斷鏈
操作入口	dashboard / alert 能支撐前 10 分鐘	告警有通知、沒有定位與下一步

Review 流程

Readiness review 的流程是從使用者旅程走向操作路由。先從服務承諾的體驗開始，再反推工具與訊號清單，才能讓監控資產對應事故時的實際判讀。

定義核心旅程與失敗後果。
對每個旅程列出依賴、async workflow 與資料寫入點。
為每個失效點指定 log、metric、trace 或 dashboard。
驗證 alert 是否連到 owner、runbook 與下一步動作。
標記尚未補齊的訊號缺口，決定是否阻擋上線或納入 follow-up。

核心旅程是 readiness review 的錨點。購物服務的核心旅程可能是 checkout、payment、order confirmation；內容平台可能是 upload、publish、read path；B2B API 可能是 authentication、request processing、webhook delivery。訊號需要優先對到這些旅程，再補 CPU、memory 與 pod restart 等資源層訊號。

依賴圖是 readiness review 的第二層。每個資料庫、cache、broker、third-party API、object storage 與 internal service 都應能被定位為 upstream 或 downstream，並且在 trace、metric 或 log 中留下可查詢欄位。

操作路由是 readiness review 的交付物。當 alert 觸發時，on-call 需要知道先看哪個 dashboard、用哪個 query、找哪個 owner、用哪個 runbook、何時升級到 incident commander。

判讀訊號

服務上線 checklist 有監控項目，但沒有事故判讀欄位
新依賴上線後，dashboard 看不到 upstream / downstream 影響
alert 觸發後仍需要人工 grep 多個系統拼事件鏈
chaos 或 DR 演練產生故障，但 04 訊號沒有反映出預期現象
事故復盤 action item 反覆要求「補監控」

在真實服務中，最常見的 readiness 缺口是工具已存在，但工具沒有對到決策。例如 alert 可以 page on-call，但查詢第一步就要跨三個系統手動對帳，代表 readiness 還停在可見層，尚未進入可操作層。

控制面

Readiness review 的控制面是把檢查結果轉成可執行決策。每個缺口都要被分類為阻擋、降級接受或後續改善，並且留下 owner 與期限。

缺口類型	判斷方式	處理路由
阻擋	影響核心旅程、事故時無替代判讀	暫停上線，補 04 訊號或 06 readiness
降級接受	風險可被 runbook 或人工查證承接	標記限制，接到 08 intake 與 decision log
後續改善	不影響首輪定位，但影響長期治理	進入 04.8 signal governance loop
淘汰整理	舊 dashboard 或 alert 干擾判讀	進入 4.18 operating model

阻擋條件應該以「事故時是否能決策」為核心。核心旅程 SLI、request correlation、upstream / downstream 分辨能力與 alert owner 都是第一次事故能否被接住的基本條件。

降級接受需要明確寫出限制。若某個低流量背景任務暫時缺 trace，但有 log query、DLQ dashboard 與人工 replay 流程可以承接，團隊可以接受短期限制；限制需要進入 incident decision log，避免事中被誤讀為完整訊號。

後續改善適合處理長期品質問題。dashboard 可用但查詢成本過高、alert 可行但 noise 偏高、欄位命名需要統一，這些缺口適合進入 signal governance，讓上線決策與長期治理分流。

常見反模式

Observability readiness 的反模式通常來自把「有監控」誤當成「可操作」。監控存在只是起點，能支援判讀、路由與回復才是 readiness。

反模式	表面現象	修正方向
事後補 dashboard	事故發生後才知道缺哪些面板	把核心旅程面板列為上線條件
告警只有通知	on-call 收到 page 後仍需重新找證據	alert 必須帶 owner 與 runbook
trace 需要人工拼 log	跨服務路徑靠 request id 手動對回	統一 trace context 與 log 欄位
readiness 只看平台工具	平台 green，但服務旅程不可判讀	從 user journey 反推訊號需求
checklist 無阻擋條件	每次都勾選通過，但缺口持續存在	定義 block / accept / follow-up

事後補 dashboard 的風險是把第一次事故變成探索行為。事故期間的主要工作應是止血與決策；如果團隊還在建立第一個查詢、猜欄位語意、找 owner，代表 readiness 沒有完成。

告警只有通知會把壓力丟給 on-call。有效 alert 應該同時提供症狀、範圍、第一個查詢入口與下一步路由，讓值班者能直接進入判讀流程。

與 06 和 08 的關係

Observability readiness 是可靠性驗證與事故處理的輸入層。06 需要用它判斷驗證前提是否成立，08 需要用它判斷事故 evidence 是否足以啟動流程。

在 06 中，readiness 缺口會影響 load test、chaos、DR drill 與 release gate。驗證行為需要可觀測訊號支撐，測試結果才足以證明系統維持在可接受狀態內。

在 08 中，readiness 缺口會影響 severity trigger、incident intake 與 decision log。若 evidence 不完整，事故指揮需要先標記資料限制，再決定是否升級、降級或等待更多證據。

交接路由

04.1 log schema：補事件關聯欄位
04.2 metrics：補服務健康與容量指標
04.3 tracing：補跨服務與 async context
04.4 dashboard / alert：補操作入口與通知條件
4.5 威脅建模：觀測盲區跟資料暴露的上線前檢查
06.19 reliability readiness：把觀測準備度納入上線前門檻
08.18 incident intake：把訊號接進事故 intake 與 evidence triage

4.17 Telemetry Data Quality

Sat, 02 May 2026 00:00:00 +0000

大綱

telemetry data quality 的責任：確認觀測資料本身可信
缺漏類型：missing signal、partial trace、dropped log、stale metric
漂移類型：schema drift、label drift、service name drift、semantic convention drift
偏誤類型：sampling bias、low-traffic bias、high-cardinality truncation
時間類型：clock skew、ingest delay、out-of-order event、timezone mismatch
品質指標：completeness、freshness、consistency、accuracy、coverage
跟 4.11 telemetry pipeline 的分工：pipeline 看路徑，data quality 看資料可信度
反模式：dashboard 看起來正常但資料少一半；trace sample 漏掉錯誤；timestamp 導致 timeline 錯序

Telemetry data quality 的核心是把「觀測資料失真」當成一級事件。服務事故判讀建立在觀測資料上，資料品質不穩時，團隊會把資料缺口誤讀成系統行為，進而做出錯誤分級、錯誤回復或錯誤 SLO 判斷。

概念定位

Telemetry data quality 是把觀測資料當成資料產品治理的能力，責任是讓 log、metric、trace 與 alert 的判讀建立在可信資料上。

這一頁處理的是資料可信度。訊號存在不等於訊號可信；缺漏、漂移、偏誤與時間錯位都會讓事故判讀走向錯誤路徑。

資料品質治理最有效的做法是把品質指標產品化：讓 completeness、freshness、drift、sampling coverage 也進 dashboard 與告警，讓團隊在事故前就能看見資料限制。

品質模型

Telemetry data quality 的品質模型由五個面向組成。這五個面向分別回答資料是否存在、是否及時、是否一致、是否代表真實流量，以及是否足以覆蓋關鍵旅程。

品質面向	核心問題	常見資料
Completeness	該出現的訊號是否完整出現	drop rate、coverage、gap
Freshness	訊號是否足夠接近事件發生時間	ingest delay、stale metric
Consistency	欄位、命名與語意是否跨服務一致	schema drift、label drift
Accuracy	數值與事件語意是否反映真實狀態	duplicate event、wrong unit
Coverage	高風險旅程與低流量邊界是否被涵蓋	sampling policy、trace ratio

Completeness 是事故判讀的基礎。log、metric 或 trace 的缺口如果沒有被標示，dashboard 會呈現一條看似平順的線，實際上可能只是 ingestion pipeline 丟了資料。

Freshness 決定資料能否支援事中決策。告警延遲、metric scrape delay、trace export queue backlog 與 log indexing lag 都會讓 incident commander 用過期資料判斷是否擴大或回復。

Consistency 決定資料能否跨服務拼接。service name、region、tenant、environment、error class 與 semantic convention 若在不同系統漂移，單一服務看起來正常，跨服務事件鏈卻會斷裂。

Accuracy 決定資料能否代表真實狀態。常見問題包含錯誤單位、重複計數、counter reset 誤判、histogram bucket 設錯與 status code mapping 錯誤。

Coverage 決定資料能否覆蓋高風險邊界。低流量服務、VIP tenant、錯誤樣本、長尾 latency 與 rare dependency failure 常被 sampling 或聚合策略稀釋。

核心判讀

判讀 telemetry data quality 時，先看資料是否完整與新鮮，再看不同訊號之間是否能互相對齊。

重點訊號包括：

log / metric / trace 是否有 coverage 與 drop rate
schema 是否有版本與 drift 偵測
sampling 是否保留錯誤、高延遲與低流量樣本
timestamp 是否能支援 incident timeline 還原
dashboard 是否標示資料延遲、缺口與查詢範圍

品質面向	最小可用判準	失真後果
完整性	drop rate、coverage 可被量測	事故定位依賴不完整證據
一致性	欄位語意與命名跨服務一致	事件鏈需要人工拼接
代表性	sampling 覆蓋高風險樣本	錯誤被平均化，誤判風險
時間性	timestamp 與 delay 可追蹤	timeline 錯序，決策先後顛倒

缺漏與漂移

缺漏是 telemetry data quality 最容易造成錯誤安全感的問題。缺漏發生時，圖表通常不會直接報錯，而是呈現較低的流量、較少的錯誤或不完整的 trace。

缺漏類型	真實服務樣貌	判讀風險
Missing signal	新服務路徑沒有 instrument	核心旅程失敗但 dashboard 正常
Partial trace	async job 或 queue consumer 缺 span	事件鏈停在同步 request
Dropped log	ingest burst 時 log 被丟棄	錯誤率下降被誤判為恢復
Stale metric	scrape 成功但資料停在舊 timestamp	incident timeline 被拉歪

Missing signal 代表觀測需求沒有覆蓋服務路徑。常見場景是新 feature flag 開啟後走到新 code path，但 SLI、log schema 與 trace 還停在舊路徑。

Partial trace 代表跨邊界 context 缺少完整傳遞。request 進入 queue 後，如果 message 缺少 correlation id 或 consumer 缺少 span，團隊只能知道 request 發出去，背景流程的失敗時間與失敗點會留在盲區。

Dropped log 代表資料流量超過 pipeline 或成本限制。burst error 發生時，如果 log pipeline 開始 sampling 或丟棄，事故團隊看到的錯誤量會比真實狀態少。

Schema drift 是長期維護最常見的品質問題。欄位改名、label 粒度改變、service name 不一致、semantic convention 升級，都會讓查詢與 dashboard 在沒有明顯錯誤的情況下失準。

Sampling 與代表性

本段聚焦 sampling 對資料品質的失真風險；sampling 策略（Head / Tail / Adaptive / Exemplar）的 SSoT 在 4.7 Sampling 策略。

Sampling 的責任是控制觀測成本，同時保留足以判讀的高價值樣本。sampling policy 若只按固定比例抽樣，最容易丟掉低頻但高風險的事件。

Sampling 風險	失真方式	控制面
Low-traffic bias	低流量服務樣本太少	對低流量服務設定 minimum sample floor
Error sample loss	錯誤 request 被普通比例抽掉	對 error、timeout、high latency 強制保留
Tenant skew	大 tenant 壓過小 tenant	以 tenant 或 plan 做分層 sampling
Cardinality truncation	高維度 label 被截斷或合併	標示 truncation，保留 top-K 與 overflow
Tail latency loss	長尾 latency 被平均值掩蓋	使用 histogram 與 exemplar

Low-traffic bias 會讓小服務或小 tenant 的問題長期不可見。這些路徑平時量小，但可能承擔高價值客戶、管理操作或資安事件；抽樣策略需要保留最低樣本量。

Error sample loss 會直接破壞事故判讀。錯誤、timeout、retry exhausted、DLQ、payment failure 與 authorization failure 應該有更高保留權重，因為它們代表決策價值高於普通成功 request。

Cardinality truncation 需要明確揭露。當平台為了成本截斷 label 或聚合 tenant 維度時，dashboard 應標示資料限制，讓讀者知道當下看的是聚合視角與可用粒度。

時間對齊

時間對齊是 incident timeline 的基礎能力。事件發生時間、採集時間、寫入時間、查詢時間與顯示時區若未分清，事故復盤會把原因與結果順序看反。

時間問題	常見來源	事故後果
Clock skew	host、container、client 時鐘不同	事件先後被重排
Ingest delay	exporter queue 或 indexing lag	告警與圖表晚於真實事件
Out-of-order event	async pipeline 或 retry 寫入	同一 trace 的 span 順序錯亂
Timezone mismatch	人工紀錄與平台顯示時區不同	對外通訊與內部 timeline 衝突

Clock skew 會讓跨服務事件鏈失去可信度。若 API、worker、database proxy 與 observability collector 的時間基準不同，trace 中的等待點可能看起來是負時間或錯誤順序。

Ingest delay 會影響事中決策。incident commander 看到 error rate 下降時，需要知道資料是即時下降，還是 pipeline 還沒收完高峰區段。

Timezone mismatch 常出現在 status page、support ticket、vendor notice 與內部 timeline 對接時。所有事故證據都應保留原始時間與標準化時間，避免復盤時重排錯誤。

判讀訊號

同一事故在 log、metric、trace 中呈現不同時間線
service name / region / tenant label 在不同系統拼不起來
低流量服務的錯誤被 sampling 稀釋
pipeline drop 發生但 dashboard 沒提示資料缺口
post-incident review 發現判讀基於不完整資料

常見場景是「圖看起來穩，但資料在悄悄掉」。例如 ingest 層 partial drop 後 error rate 下降，看似健康，實際是訊號少了高風險區段。這類情況若沒有資料品質指標，會讓事故決策建立在錯誤安全感上。

控制面

Telemetry data quality 的控制面是把資料限制顯性化。資料品質不需要追求完美，但需要讓讀者知道目前能相信什麼、限制在哪裡、何時需要改用其他 evidence。

為每種 telemetry 設定品質指標。
在 dashboard 標示 freshness、coverage 與 known gap。
對 schema drift、drop rate 與 sampling policy 建立告警。
在 incident decision log 記錄資料限制。
在 post-incident review 中回寫造成判讀錯誤的資料品質缺口。

品質指標本身也需要 owner。平台團隊可以維護 pipeline drop、ingest delay 與 semantic convention；服務團隊需要維護 service-specific schema、business event 與 user journey coverage。

資料限制應直接出現在操作入口。若某 dashboard 的 trace sample 只保留 10%、某 tenant label 被聚合、某時間區段有 log gap，讀者應在同一個畫面看到限制，並把限制納入當下決策。

常見反模式

Telemetry data quality 的反模式來自把查詢結果視為事實本身。查詢結果只是資料產品的輸出，仍然受採集、轉換、抽樣、儲存與查詢限制影響。

反模式	表面現象	修正方向
dashboard 即事實	圖表下降就判斷服務恢復	顯示資料延遲與 coverage
schema 漂移無治理	查詢突然少資料但沒人知道	欄位版本與 drift 偵測
sampling policy 黑箱	錯誤樣本被抽掉仍用比例推估	公開 sampling policy 與例外規則
timeline 單時間戳	只記顯示時間，不記事件原始時間	同時保留 event / ingest / query
成本截斷不標示	高 cardinality 被合併但仍當完整資料	標示 truncation 與聚合粒度

dashboard 即事實會讓事故決策失去資料謙遜。圖表顯示健康時，仍要確認資料有沒有缺口、延遲或抽樣偏誤，尤其在 pipeline 自身承受壓力時。

sampling policy 黑箱會降低服務團隊的風險判讀品質。平台可以為成本抽樣，但抽樣規則要能被服務團隊理解，並且允許錯誤、高延遲與低流量關鍵路徑保留更高權重。

遷移期的雙軌對照驗證

觀測平台遷移是資料品質最容易失分的窗口。新舊管線並存期間，若沒有顯式對照驗證，語意漂移會在 dashboard 看起來「都有資料」的情況下緩慢偏離，直到事故時才浮現。

雙軌對照的核心責任是把新管線當被檢驗的對象、用舊管線作為對照基準。新舊管線同時採集相同訊號、用相同 query 對照 error rate、p95 latency、burn rate、trace coverage 是否一致；偏差超過閾值時先停止下一步遷移、保留證據後再決定下一步。

對應 4.C7 Datadog OTel 相容遷移實務：揭露「先建立雙軌採集對照、用品質指標決定何時關閉舊管線」的做法。對應 4.C9 OTel 遷移訊號漂移反例：揭露遷移失敗的主要風險來自語意漂移 — metric 名稱、label、sampling、aggregation 在新舊管線間出現微小差異，導致同一現象被歸到不同 service / label / latency bucket。

可重複套用的對照驗證做法：

固定一組 baseline query：選定關鍵服務的核心 SLI query（error rate、p99 latency、throughput），新舊管線各跑一份、定期比對。
設定偏差閾值：每個 SLI 設可接受偏差（例如 ±5%）。超過閾值的時段標記為待調查，不能無視。
追蹤 missing signal 比例：missing span、missing metric、missing log 的比例是漂移的早期指標。比例持續上升時，停止下一批服務切換。
退出條件顯式化：「對照偏差連續 N 天 < X%」作為關閉舊管線的退出條件，把雙軌期變成有界的、不是無限延長。

遷移期的告警條件本身也是治理項目。新舊管線對同服務的 error rate 長期偏離、missing span / missing metric 比例持續上升、同一事件在兩套 dashboard 得到相反結論、這些都該成為高優先告警、讓漂移在發生當下即時可見、避免堆積到 retrospective 才被注意。

雙軌期的成本是顯而易見的：兩份採集、兩份儲存、兩份查詢。但放棄對照的代價更大 — 沒有對照證據，事故時無法分辨是「服務問題」還是「遷移問題」，回退也失去依據。詳細的回退判讀流程由 4.11 telemetry pipeline 處理，本章關注的是品質指標的對照設計。

與 SLO 和事故的關係

Telemetry data quality 是 SLO 與事故 evidence 的可信度前提。SLI 若建立在失真資料上，error budget、burn rate alert 與 release freeze 都會被錯誤資料牽動。

在 SLO 場景中，資料品質缺口會直接改變可靠性政策。若 availability SLI 漏掉 mobile client、region label 漂移、error sample 被抽掉，團隊會高估可靠性並繼續放行高風險變更。

在事故場景中，資料品質限制需要進入 incident decision log。當 IC 做出升級、降級、等待或 rollback 決策時，應同時記錄當下 evidence 的 completeness、freshness 與 confidence。

交接路由

4.1 log schema：治理欄位漂移
4.7 cardinality / cost：sampling 策略矩陣、高維度截斷與成本取捨
4.11 telemetry pipeline：追查 drop、delay 與 ingest 問題
4.14 anomaly detection：避免模型學到偏誤資料
4.18 operating model：品質指標的 platform / service ownership 邊界
8.19 incident decision log：標記事中判讀使用的資料品質限制
4.23 觀測查詢設計：pre-aggregation 跟 raw data 的一致性驗證
4.C13 Discord 儲存→觀測缺口：儲存演進反覆暴露觀測盲區的教訓

4.18 Observability Operating Model

Sat, 02 May 2026 00:00:00 +0000

大綱

operating model 的責任：定義誰擁有訊號、誰維護 dashboard、誰處理 alert、誰承擔成本
角色分工：platform team、service team、on-call、incident commander、security / compliance
ownership 欄位：owner、review cadence、retention、cost center、runbook link、deprecation date
生命週期：新增、審核、使用、修訂、淘汰
治理節奏：dashboard review、alert review、cost review、post-incident write-back
跟 4.15 cost attribution 的關係：成本歸屬是 operating model 的一部分
跟 08 的關係：事故時使用同一組 owner 與 escalation route
反模式：平台團隊擁有所有 alert；service team 不看 dashboard；成本無 owner

Observability operating model 的價值是把觀測從「工具責任」改成「服務責任」。平台團隊提供共用能力，服務團隊提供業務語意，on-call 使用這些資產做決策；operating model 負責固定三者的接口。

概念定位

Observability operating model 是把觀測資產的責任分配明確化的治理模型，責任是讓訊號有人維護、告警有人回應、成本有人決策。

這一頁處理的是 ownership。可觀測性需要平台工具、服務脈絡、操作責任與淘汰條件一起維持。

這層的判準是事故當下能否立刻知道誰要看哪個面板、誰有權調整閾值、誰負責決定淘汰過期訊號。dashboard 數量與 alert 覆蓋率只是輔助訊號。

角色分工

Observability operating model 的角色分工以「誰能做決策」為核心。owner 是有權維護、調整、下架或升級觀測資產的人，名義聯絡人只能作為補充欄位。

角色	核心責任	決策權限
Platform team	採集、儲存、查詢、成本與標準	pipeline、schema convention、quota
Service team	服務語意、核心旅程與業務事件	service dashboard、SLI、alert rule
On-call	事中判讀、runbook 使用與升級	silence、escalate、incident intake
Incident commander	事故優先序、通訊節奏與決策紀錄	severity、rollback、status update
Security / compliance	audit log、PII、retention 與 evidence	retention、masking、access review
Finance / cost owner	成本歸屬、預算與 chargeback	quota、retention tier、cost review

Platform team 的責任是維持共同語言。它需要定義 service name、environment、region、tenant、trace context、retention tier 與成本政策，讓跨服務查詢可行。

Service team 的責任是維持服務語意。它需要定義哪些 user journey 是核心、哪些錯誤影響用戶、哪些 dependency failure 需要 alert、哪些 dashboard 仍有操作價值。

On-call 的責任是把資產用在事中決策。alert 應能帶到 dashboard、runbook 與 owner，讓 operating model 真正進入操作流程。

Security / compliance 的責任是把觀測資料的證據價值與資料風險同時納入治理。audit log、PII redaction、retention 與 access review 需要在觀測模型中有明確 owner。

核心判讀

判讀 operating model 時，先看每個觀測資產是否有 owner，再看 owner 是否有權限與節奏採取行動。

重點訊號包括：

dashboard 是否有明確使用者與 review cadence
alert 是否有 runbook、owner 與 escalation path
高成本訊號是否能對應服務價值與成本中心
post-incident review 是否能回寫到訊號 owner
orphan dashboard 與 stale alert 是否有清理流程

資產類型	Owner	週期	關閉條件
Dashboard	service team + on-call	月檢	無使用者、無判讀價值
Alert	service owner	週檢	重複、誤報高、無行動
Query / Schema	platform + service	變更檢	欄位漂移、查詢成本失控
Cost Attribution	cost owner	月檢	成本缺少服務價值對應

觀測資產欄位

Observability asset 需要像服務 artifact 一樣有 metadata。沒有 metadata 的 dashboard、alert、query 與 schema 會在幾個月後變成無人敢刪、無人敢改、也無人信任的資產。

欄位	責任	判讀用途
Owner	指定維護與決策責任	事故時知道找誰
User	說明誰會使用這個資產	判斷是否仍有操作價值
Runbook link	連到下一步操作	讓 alert 能轉成行動
Review cadence	定義檢視頻率	避免 stale dashboard / alert
Cost center	對應服務或團隊成本	支援 chargeback 與 retention 決策
Retention tier	指定保存時間與查詢粒度	平衡法規、事故與成本
Deprecation date	標示預計下架或重檢日期	避免觀測資產永久堆積
Data limitation	標示抽樣、缺口與聚合限制	避免事中誤讀資料

Owner 欄位要搭配權限才有意義。有效 owner 需要能調整 threshold、更新 dashboard、下架 query 或決定 retention，讓 ownership 成為可執行責任。

User 欄位能避免 dashboard 變成展示資產。面板若沒有明確使用者，例如 on-call、service owner、capacity planner 或 compliance reviewer，就很難判斷它是否仍值得維護。

Runbook link 是 alert 從通知變成行動的關鍵。每個可 page 的 alert 都應連到第一步查詢、初始判讀、升級條件與 rollback / degrade / wait 的決策路由。

Cost center 讓觀測成本有業務語意。高 cardinality、長 retention、full-fidelity trace 與大量 log indexing 都有價值，但價值需要由能受益的服務或團隊承擔與檢視。

生命週期

Observability operating model 的生命週期是新增、審核、使用、修訂與淘汰。這個生命週期讓訊號保持有用，並讓觀測資產累積在可治理範圍內。

新增：服務變更、事故復盤、演練需求或合規要求產生新訊號。
審核：確認 schema、成本、owner、runbook 與 retention。
使用：進入 dashboard、alert、incident intake 或 SLO 計算。
修訂：根據噪音、缺口、成本與使用頻率調整。
淘汰：移除 stale alert、orphan dashboard、過期 query 與無價值高成本訊號。

新增訊號需要清楚的需求來源。最好的來源是 user journey、SLO、incident review、game day 或 audit requirement；最弱的來源是「可能有用」。

審核訊號需要同時看語意與成本。欄位是否穩定、cardinality 是否可控、retention 是否合理、PII 是否被遮罩、owner 是否能維護，都是訊號上線前的固定問題。

淘汰是 operating model 的必要能力。舊 alert 沒有人敢關，會增加 alert fatigue；舊 dashboard 沒有人敢刪，會讓事故時不知道哪個面板可信。

判讀訊號

alert 觸發後沒人知道該由平台或服務團隊處理
dashboard 存在但半年無人打開
成本暴增時只能找平台團隊吸收
post-incident review 指派 action item，但沒有訊號 owner
service team 調整欄位後，平台查詢與 dashboard 斷裂

實務上常見的治理斷點是「有 owner 名字，缺 owner 權限」。owner 需要能調整 alert、建立或下架 dashboard、分配成本，治理流程才會停在資產責任人，減少回流到平台集中處理的積壓。

治理節奏

Operating model 的治理節奏把觀測資產拉回日常工程流程。review cadence 的重點是定期回答「這個資產還能支援決策嗎」，會議只是其中一種執行形式。

節奏	核心問題	典型輸出
Dashboard review	面板是否仍有人用、是否對應旅程	更新、合併、下架
Alert review	alert 是否可行動、噪音是否可接受	threshold 調整、silence、runbook
Cost review	成本是否對應服務價值	retention tier、sampling policy
Schema review	欄位是否穩定、是否跨服務一致	schema migration、drift 修正
Post-incident write-back	復盤缺口是否回寫到訊號與 owner	新 alert、新 dashboard、新 runbook

Dashboard review 應看使用情境與操作價值。面板需要支援 on-call 的前 10 分鐘、capacity planning 或 SLO review；脫離這些用途的面板適合合併、重命名或下架。

Alert review 應看行動品質。alert 若經常觸發但缺少明確處置，通常更適合變成 dashboard signal、ticket 或長期治理項。

Cost review 應看服務價值。觀測成本上升不一定是壞事，但需要能說明這些成本降低了哪一種事故風險、合規風險或容量風險。

規模差異下的角色配置

Operating model 的角色配置隨組織規模調整。可投入的治理人力、可承受的協調成本、可維持的審核頻率三項一起決定當前該採哪種配置。把大組織的治理模型套到小團隊會造成過度治理；把小團隊的鬆散模型套到大組織會造成責任懸空。

本段聚焦常態 ownership 配置（不同規模下角色矩陣的差異）；遷移期的節奏取捨由 4.11 規模差異下的遷移節奏處理、兩者 lens 不同。

對應 4.C10 規模差異下觀測遷移：揭露「規模差異會放大不同治理失分模式」的方向；case 主場景是觀測遷移、本章將此 frame 借用到常態 operating model 場景、以下展開屬通用工程知識補充。

小型組織的 operating model 重點是「角色合一、節奏明確」。一個 SRE 同時承擔 platform、service、on-call、cost owner 多重身份。治理重點是顯式記錄當前 ownership 跟 review cadence、避免角色合一被誤讀成默契傳遞（「大家都管 = 沒人管」是典型失敗）。Dashboard review、alert review、cost review 可以合併在同一個月會中，但要有具體的決議紀錄。

中型組織開始出現 platform 跟 service team 的分化，治理失分集中在介面定義。schema convention、cardinality 限制、cost center 命名規約若未在 platform / service 之間明確化，會在跨服務查詢時持續出現拼接斷裂。中型組織適合先固化「平台保證什麼、服務保證什麼」的契約，再擴大角色拆分。

大型組織的 operating model 牽涉多層 platform team、跨地區 on-call、合規 / 安全 / 財務的橫切責任。治理失分的核心來源是審核節奏跟不上資產成長速度 — 角色分工通常已經清晰，但每週 / 每月人工 review 數百個 dashboard / alert 不切實際。大型組織需要自動化的 stale dashboard 偵測、orphan alert 提示、retention compliance 報表，把 review 從手動週期變成事件驅動，讓治理隨資產數量自動擴展。

三類組織的共同前提是先把 ownership 視為可演進的、再決定當前該採哪種配置。組織成長過程中 ownership 矩陣會反覆調整，每次調整都要把新配置寫進文件、進入 release / runbook 流程、讓 ownership 變更跟釋出流程同步可見。

常見反模式

Observability operating model 的反模式通常是責任集中或責任懸空。前者讓平台團隊成為所有訊號的瓶頸，後者讓服務團隊在事故時找不到可信入口。

反模式	表面現象	修正方向
平台擁有所有 alert	服務語意缺失，告警只能看基礎設施	service owner 擁有服務級 alert
服務各自為政	欄位、命名、retention 不一致	platform 提供 schema convention
owner 缺權限	只能被追責，缺少資產修正能力	owner 取得調整、下架與預算權限
成本無歸屬	高成本訊號由平台吸收	cost center 與 retention tier
復盤無回寫	action item 停在文件	write-back 到 dashboard / alert

平台擁有所有 alert 會讓服務語意被削弱。平台知道 pipeline 與 infra，但通常不知道某個錯誤是否影響 checkout、資料同步、帳單或客戶 SLA。

服務各自為政會讓跨服務事故難以判讀。每個服務都可以有自己的 dashboard，但 service name、environment、region、tenant、error class 與 trace context 需要共用標準。

復盤無回寫會讓 operating model 停在文件。post-incident review 揭露的偵測缺口、runbook 缺口與成本缺口都應回到對應 owner 的資產生命週期。

與事故流程的關係

Observability operating model 是事故流程的責任基礎。事故期間，IC 需要知道哪些訊號可信、哪個 owner 能解釋欄位、誰能調整 alert、誰能決定保留或匯出 evidence。

在 incident command 中，observability owner 不一定是 incident commander，但必須能提供訊號解釋與操作建議。當 telemetry data quality 有限制時，owner 需要把限制交給 scribe 或 decision log。

在 runbook lifecycle 中，dashboard、alert 與 query 都應被視為 runbook 的依賴。runbook 更新時，如果沒有同步更新觀測資產，下一次事故仍會走到舊入口。

交接路由

4.4 dashboard / alert：設計 owner、runbook 與停止條件
4.8 signal governance loop：淘汰 stale alert 與 orphan dashboard
4.13 service topology：動態叢集環境下、cluster 層 vs 服務層的 ownership 路由
4.15 cost attribution：把成本接回 owner 與服務
08.2 incident command roles：事故時使用相同 ownership 模型
08.16 runbook lifecycle：把觀測資產接進 runbook 版本治理

4.19 Debuggability by Design

Sat, 02 May 2026 00:00:00 +0000

大綱

debuggability by design 的責任：讓系統設計本身支援定位、重現與證據收集
API 設計：request id、error code、idempotency key、semantic status
async workflow：message id、correlation id、retry count、dead-letter reason
dependency call：timeout、fallback、upstream response、circuit state
error model：可分類錯誤、可追蹤錯誤鏈、可對應使用者影響
診斷入口：diagnostic endpoint、health check、probe
跟語言教材的分工：語言處理 logger / error chain，04 處理跨服務診斷能力
反模式：事後補 log；錯誤只回 500；async 任務缺 correlation id；依賴失敗無上下文

Debuggability by design 的核心是讓系統在設計時就暴露足夠上下文。事故時需要的資訊若沒有在 API、message、dependency call 與 error model 層留下來，後端平台再完整也只能收集到片段訊號。

概念定位

Debuggability by design 是把可診斷性當成服務設計輸入的做法，責任是讓系統在出問題時自然留下定位所需的脈絡。

這一頁處理的是設計前移。觀測工具只能收集系統吐出的訊號；如果 API、async workflow、dependency call 與 error model 沒有診斷欄位，事後補平台也只能看到破碎片段。

這層與可觀測平台互補：平台負責收、存、查，設計負責產生可判讀語意。兩者任一缺失，都會讓事故定位時間呈倍數增加。

設計輸入

Debuggability by design 的設計輸入是「未來出問題時需要回答什麼問題」。系統設計時先列出這些問題，才能決定 API、message、dependency call 與 error model 要留下哪些欄位。

問題	需要的設計輸入	常見位置
這次失敗影響哪個請求或用戶	request id、tenant、user journey	API、log schema、trace
這個 async 任務從哪裡來	correlation id、message id、causation id	queue、worker、event log
失敗來自本服務還是外部依賴	upstream name、timeout、response class	HTTP client、adapter
這個錯誤能否重試或回放	retry count、idempotency key、DLQ reason	worker、consumer、DLQ
事故時能否安全查系統狀態	diagnostic endpoint、probe、read-only view	admin / diagnostic surface

Request id 與 trace id 的責任不同。request id 通常對應對外請求與支援查詢，trace id 對應跨服務路徑；兩者互相連結時，支援查詢與工程診斷都會有穩定入口。

Correlation id 與 causation id 能讓 async workflow 保留因果。事件進入 queue、fan-out、retry、DLQ 或 replay 後，團隊需要知道它從哪個 request 或上游事件來，並且知道目前是哪一次處理嘗試。

Diagnostic endpoint 的責任是提供低風險查詢入口。它是受權限、速率、遮罩與審計保護的操作面，讓 on-call 能查健康、依賴、queue、cache 或 feature flag 狀態。

核心判讀

判讀 debuggability 時，先看關鍵流程是否保留 correlation，再看錯誤是否能路由到下一步。

重點訊號包括：

API request 是否有穩定 request id 與錯誤分類
async message 是否有 correlation id、retry count 與 DLQ reason
dependency call 是否記錄 upstream、timeout、fallback 與 response class
error chain 是否能連到 trace、log 與 user impact
diagnostic endpoint 是否能支援 on-call 的低風險查詢

設計層	最小可診斷欄位	事故價值
API	request id、error code、idempotency key	快速對齊請求與結果
Async / Queue	message id、correlation id、retry reason	還原跨流程事件鏈
Dependency	upstream、timeout、fallback state	分辨本地問題與外部依賴問題
Error Model	error class、context、impact hint	路由到正確處理流程

API 可診斷性

API 可診斷性的責任是讓每一次 request 都能被支援、工程與事故流程共同定位。API 不只回傳成功或失敗，也要留下足夠語意讓團隊知道錯在哪個層級。

API 欄位	設計責任	事故價值
Request ID	對齊客訴、log、trace 與支援查詢	從用戶回報回到後端事件
Error code	穩定分類錯誤語意	分辨 validation、auth、quota
Idempotency key	保護重試與重播	避免 recovery 時重複副作用
Semantic status	表達可重試、已接受、部分完成	支援客戶端與後端一致處置
Impact hint	標示 user-facing 或 internal-only	支援 severity 初判

Request ID 是支援與工程之間的共同鑰匙。客戶只知道某次操作失敗，支援需要 request id 或可查詢等價欄位，才能把客訴轉成 incident intake evidence。

Error code 應該表達穩定語意，並保持內部實作封裝。PAYMENT_PROVIDER_TIMEOUT、QUOTA_EXCEEDED、TOKEN_EXPIRED 這類分類能支援路由；隨程式碼結構變動的錯誤字串則會讓查詢與客戶端處置不穩定。

Idempotency key 是 recovery 的診斷欄位。當 retry、rollback、replay 或補償流程啟動時，團隊需要知道哪些請求已被接受、哪些副作用已完成、哪些可以安全重送。

Async Workflow 可診斷性

Async workflow 可診斷性的責任是讓事件離開同步 request 後仍保留因果鏈。queue、worker、event handler 與 scheduled job 會把時間拉長、路徑拉開，欄位不足時最容易形成診斷斷點。

Async 欄位	設計責任	事故價值
Message ID	標識單一訊息	查詢 delivery、ack、redelivery
Correlation ID	串回原始 request 或 workflow	還原跨流程事件鏈
Retry count	記錄處理嘗試次數	分辨 transient 與 poison case
DLQ reason	記錄進入 dead-letter queue 原因	支援 replay 與修復排序
Consumer version	標示處理程式版本	追查 rollout 或 schema 相容性

Message ID 讓團隊能看見單一訊息的生命週期。它應該能串到 publish、broker delivery、consumer ack、redelivery、DLQ 與 replay。

Correlation ID 讓 async 任務保留業務脈絡。缺少 correlation id 時，DLQ dashboard 只能顯示失敗數量，tenant、request 與 user journey 影響範圍會留在人工追查階段。

Retry count 與 DLQ reason 讓回復路徑可排序。高 retry count 可能代表下游依賴失效，也可能代表 poison message；兩者需要不同處置。

Dependency Call 可診斷性

Dependency call 可診斷性的責任是讓團隊分辨本地問題、下游問題與保護機制啟動。每一次外部依賴呼叫都應留下足夠上下文，支援等待、降級、切換或升級 vendor incident 的判斷。

Dependency 欄位	設計責任	事故價值
Upstream name	穩定標示依賴服務	分辨哪個下游失效
Deadline	標示呼叫預算	判斷 timeout 設計是否合理
Response class	聚合成功、4xx、5xx、timeout	支援 error rate 與 vendor triage
Fallback state	記錄是否進入降級	判斷用戶影響是否被吸收
Circuit state	記錄 circuit breaker 狀態	分辨保護機制或真實恢復

Upstream name 需要是穩定維度。若每個 adapter 使用不同名稱，dashboard 與 trace 很難把同一個供應商或內部依賴聚合在一起。

Deadline 是 dependency call 的診斷欄位。timeout 發生時，團隊需要知道是下游慢、呼叫預算過短、queue backlog 導致開始太晚，還是 retry policy 放大壓力。

Fallback state 讓事故團隊知道保護是否生效。服務錯誤率可能沒上升，是因為 fallback 吸收了下游失敗；若沒有 fallback 訊號，團隊會低估風險。

Error Model 可診斷性

Error model 可診斷性的責任是把錯誤轉成可分類、可路由、可復盤的語意。錯誤不只服務於程式控制流，也服務於事故判讀與使用者影響評估。

錯誤層級	設計責任	路由方向
Validation error	輸入不符合契約	API contract / client 修正
Authorization error	身分或權限不足	IAM / security triage
Dependency error	外部依賴回應失敗或超時	vendor / downstream triage
Capacity error	資源、queue 或 quota 不足	capacity / load shedding
Data consistency error	寫入、讀取或 migration 不一致	reliability / migration gate

錯誤分類應該讓下一步明確。internal error 適合作為最後防線；主要分類需要支援 on-call 判斷是重試、降級、rollback、升級資安，還是進入資料修復。

Error chain 需要保留上下文。過度包裝錯誤會讓原始 dependency、timeout、request id 或 schema version 消失；完全不包裝則會把底層細節直接丟給外部使用者。好的 error model 會分開內部診斷語意與外部穩定契約。

判讀訊號

事故時只能看到「500」，需要重跑才能定位原因
queue message 進 DLQ 後缺少原始 request 脈絡
外部 API timeout 無 upstream 名稱、耗時與 fallback 狀態
錯誤被包裝後 trace 與 error chain 斷裂
health check 顯示 healthy，但核心旅程已經失效

典型情境是 queue 任務在三次重試後進 DLQ，但缺少 request 與 tenant 脈絡。工程師可以看到「失敗很多」，後續需要先補「誰受影響、哪個流程壞、該先修哪一段」的判讀資訊。這就是設計期缺欄位造成的診斷斷點。

控制面

Debuggability by design 的控制面是把診斷欄位納入設計審查與契約驗證。可診斷性若只靠事後補 log，會在每次新 API、新 workflow 或新 dependency 上重複遺漏。

在 API design review 中檢查 request id、error code、idempotency 與 impact hint。
在 async workflow review 中檢查 message id、correlation、retry 與 DLQ reason。
在 dependency review 中檢查 timeout、deadline、fallback 與 upstream naming。
在 error model review 中檢查分類、內外部語意與 error chain。
在 contract testing 中驗證關鍵診斷欄位與錯誤語意。

設計審查需要明確區分必填欄位與情境欄位。request id、trace context、error class 與 owner 通常是跨服務必填；idempotency key、DLQ reason、circuit state 則依 workflow 與依賴類型決定。

Contract testing 可以保護可診斷性。若 API 或 event schema 調整後移除了 correlation id、error code 或 retry metadata，測試應該阻擋這類破壞，因為它會讓事故判讀退回人工拼接。

常見反模式

Debuggability by design 的反模式是把診斷能力推遲到事故後。事故後補 log 可以修下一次，已發生事件的證據缺口則會留在復盤限制中。

反模式	表面現象	修正方向
事後補 log	每次事故才知道缺哪個欄位	設計審查納入診斷欄位
錯誤只回 500	客戶、支援與 on-call 缺少分類	建立穩定 error code 與 error class
Async 缺 correlation	DLQ 只有失敗數量，無業務脈絡	message schema 保留因果欄位
Dependency 黑箱	timeout 只顯示本地錯誤	adapter 統一 upstream 與 response class
Diagnostic endpoint 無治理	查詢有用但風險過高或無審計	權限、遮罩、速率與 audit log

事後補 log 的代價是已發生事故會留下復盤缺口。若缺少原始 request、tenant、message 或 dependency 欄位，工程師只能用間接推論重建時間線。

錯誤只回 500 會把所有問題導向同一條路由。validation、authorization、dependency、capacity 與 data consistency 的處置完全不同，錯誤模型應該支援這些分流。

Diagnostic endpoint 無治理會把可診斷性變成資安風險。診斷入口需要最小權限、資料遮罩、速率限制與 audit log，並且只提供事故判讀需要的 read-only 資訊。

與語言教材的分工

Debuggability by design 位在 Backend 服務設計層。語言教材負責如何在特定 runtime 中傳遞 context、包裝 error、實作 middleware、處理 async local storage 或 goroutine context；本章負責定義跨語言都需要保留的診斷語意。

同步 runtime 的重點是 thread-local、connection pool 與 blocking dependency call 是否能保留 request context。async runtime 的重點是 task、promise、callback 與 queue boundary 是否能保留 trace context。goroutine 或 lightweight task runtime 的重點是廉價並發是否放大下游壓力，並且是否保留 deadline 與 cancellation。

不同語言可以用不同實作方式，但 API、async workflow、dependency call 與 error model 的診斷責任相同。這也是 Backend 章節保留跨語言抽象的理由。

交接路由

04.1 log schema：定義診斷欄位
04.3 tracing：保留跨服務 context
04.11 telemetry pipeline：確保診斷訊號能被採集
06.10 contract testing：把錯誤模型與外部契約納入驗證
08.18 incident intake：把設計期留下的診斷欄位轉成 evidence

4.20 LLM tracing 與 observability

Tue, 12 May 2026 00:00:00 +0000

LLM tracing 把每次 LLM call / tool call / memory op / handoff 編成結構化 span、用 OpenTelemetry GenAI semantic conventions 標準化、是 production LLM 應用 debug / cost / quality 監控的事實標準。傳統 web app 的字串 logging 抓不到 LLM 應用的關鍵問題 — agent 為什麼選了那條路、reasoning trace 怎麼推導、tool call 為什麼 retry 三次、token 消耗為什麼比預期高 ×3。本章把 LLM tracing 的運作機制、OTel GenAI semconv、三大 use case（cost / latency / failure）跟 production eval 閉環拆成可操作的工程實務。

本章目標

讀完本章後、你應該能：

解釋 LLM tracing 跟 traditional logging 的差異。
用 OpenTelemetry GenAI semantic conventions 設計 span 結構。
用 trace 做 cost / latency 監控跟 failure debug。
把 production trace 餵回 LLM-as-judge 做品質迴路。
對自己應用判斷該用 self-host vs SaaS observability platform。

Traditional logging 為什麼不夠

LLM 應用的 debug 問題對傳統 logging 太抽象：

場景	Logging 看到	真正需要的資訊
Agent 為什麼選 tool A 不選 tool B	`tool=A` 一行	完整 reasoning trace + 當下 context + tool list
Token cost 為什麼高	`tokens=15234`	Input / output / cached token 分項 + 每 turn 累積
Why TTFT 5 秒	`ttft=5012ms`	Prefill 跟 cache miss、prompt length、queue time
Tool 為什麼 retry 三次	`tool error retry`	每次 error message + LLM 的判讀 + retry 策略
Agent 為什麼 infinite loop	大量重複 log	每 iteration 的 context + 為什麼沒判 terminate

LLM tracing 用「結構化 span + parent-child 關係 + 標準化 attribute」直接編碼這些訊息。

OpenTelemetry GenAI semantic conventions

OTel GenAI semconv 是 2024-2025 標準化中的 trace schema。核心概念：

 1Trace（一次 user query 從進來到 response）
 2  ├── Span: gen_ai.agent.invocation（agent loop iteration 1）
 3  │     ├── Span: gen_ai.client.operation（LLM call 1）
 4  │     │     attrs: model, temperature, input_tokens, output_tokens, cache_read
 5  │     ├── Span: gen_ai.tool.execution（tool: read_file）
 6  │     │     attrs: tool_name, input, output, duration
 7  │     └── Span: gen_ai.memory.read（retrieval）
 8  │           attrs: query, top_k, similarity_scores
 9  ├── Span: gen_ai.agent.invocation（iteration 2）
10  │     └── ...
11  └── Span: gen_ai.agent.terminate
12        attrs: reason, total_tokens, total_cost

主要 attribute 分類：

類別	屬性 prefix	典型內容
Model	`gen_ai.request.*`	model, temperature, top_p, max_tokens, stream
Usage	`gen_ai.usage.*`	input_tokens, output_tokens, cached_tokens
Response	`gen_ai.response.*`	finish_reason, id
Tool	`gen_ai.tool.*`	name, parameters, result
Memory	`gen_ai.memory.*`	operation, store, query, hits
Cost	`gen_ai.cost.*`	usd, currency（vendor-specific）

實作概要（Python 例）：

 1from opentelemetry import trace
 2from openinference.semconv.trace import SpanAttributes
 3
 4tracer = trace.get_tracer(__name__)
 5
 6with tracer.start_as_current_span("gen_ai.client.operation") as span:
 7    span.set_attribute(SpanAttributes.LLM_MODEL_NAME, "claude-sonnet-4-6")
 8    span.set_attribute(SpanAttributes.LLM_TEMPERATURE, 0.7)
 9
10    response = llm_client.chat(messages=...)
11
12    span.set_attribute(SpanAttributes.LLM_TOKEN_COUNT_PROMPT, response.usage.input_tokens)
13    span.set_attribute(SpanAttributes.LLM_TOKEN_COUNT_COMPLETION, response.usage.output_tokens)
14    span.set_attribute("gen_ai.usage.cached_tokens", response.usage.cache_read_tokens or 0)

實務上多用 framework auto-instrumentation（LangChain / LlamaIndex / Anthropic SDK 都有 OTel integration）、不必手寫 span。

Use case 1：Cost monitoring

Trace 是 LLM 應用 cost 監控的核心 — token usage attribute 內建、不必另外算。

實作模式：

11. Trace 端記錄 input_tokens / output_tokens / cached_tokens
22. Observability 平台用「per-model pricing table」算出 USD
33. Aggregate by：
4   - User（哪個 user 燒最多）
5   - Endpoint（哪條 API path 最貴）
6   - Feature（哪個 feature 最費 token）
7   - Time（哪天 spike）

典型 dashboard 指標：

指標	直覺
Total cost / day	整體燒錢趨勢
Cost per user	找 power user 或 abuse
Cost per request	看單 request 平均 cost、設 alert
Cached / total token ratio	Prompt cache 命中率
Output / input token ratio	輸出膨脹率、看 generation length 合理性

Use case 2：Latency / failure debug

Trace 自然編碼 latency tree、能定位「哪個 span 卡」：

1User query → response total: 5.2s
2├── Agent iteration 1: 4.8s
3│   ├── LLM call (claude): 4.2s     ← 主要時間在這
4│   │   - prefill: 3.8s             ← prefill 太久、看 prompt 是否需要 cache
5│   │   - generation: 0.4s
6│   ├── tool: read_file: 0.5s
7│   └── memory: retrieval: 0.1s
8└── Agent iteration 2: 0.4s

從這 trace 看出「90% 時間在 prefill、開 prompt cache 可以救」、不必猜。

Failure debug：

1User query → response: ERROR
2├── Agent iteration 1: success
3│   └── LLM call: tool_call(run_bash, cmd="rm -rf /")
4├── Agent iteration 2: failure
5│   └── tool: run_bash: REJECTED by permission system
6└── Agent fallback: error response
7
8從 trace 看：tool call 被 permission 擋下、不是 LLM 自己亂、而是 user query 觸發危險 tool call、permission 正確擋下。

對應 6.2 tool use 權限模型跟 hands-on permission-boundary 的判讀。

Use case 3：Production trace → eval loop

Production trace 是 LLM-as-judge 的最佳資料來源：

 1Production users
 2   ↓ 產生 trace
 3Trace storage（LangSmith / Phoenix / Langfuse）
 4   ↓ filter（e.g. user thumbs-down 的 trace）
 5   ↓ sample N 個
 6LLM-as-judge eval
 7   ↓ rubric scoring
 8找出系統性問題（哪類 query 品質差）
 9   ↓
10改 system prompt / tool / agent loop
11   ↓
12A/B test on production traces

這是 4.14 benchmarking 提的「in-house benchmark」的具體 implementation — production trace 是最真實的 benchmark dataset。

主流平台選型

平台	類型	強項	適合場景
LangSmith	SaaS（LangChain 系）	Auto-instrumentation 強、UI 完整	LangChain / LangGraph user
Phoenix	OSS + SaaS（Arize 系）	OpenInference 標準、可 self-host	想 self-host + OTel native
Langfuse	OSS + SaaS	開源強、cost 監控好	Cost / eval 中心、可 self-host
Braintrust	SaaS	Eval + tracing 一體	重 eval workflow 的 team
Datadog APM	SaaS	跟 traditional APM 整合	已用 Datadog、想統一監控
Logfire	SaaS（Pydantic）	簡潔、Python 為主	Python 為主、輕量
Self-host OTel + Jaeger	OSS	完全 self-host、最便宜	隱私敏感、cost 敏感、技術強

判讀：

個人 / 小流量：SaaS 免費 tier（LangSmith / Langfuse / Phoenix）夠用
隱私敏感（user data 不能離本機）：Self-host（Langfuse / Phoenix self-hosted、或 OTel + Jaeger）
已有 observability stack：用 OTel + 現有 Datadog / Grafana、別再加一層
重 eval：Braintrust / Langfuse 的 eval feature 強

跟 4.9 production resource 的關係

4.5 寫 production resource 的 6 個 dimension（concurrency / latency / cost / storage / observability / reliability）、其中 observability 是 4.5 點到、本章展開。讀者讀完 4.5 知道「需要 observability」、本章補「具體怎麼做」。

設計失敗模式

過度 instrument：每個 internal function 都加 span、trace overhead 大、實際 production noise 多

緩解：聚焦 LLM-related 跟跨 service 邊界、internal logic 不必 trace

PII / sensitive data 寫進 span attribute：user prompt、API key、會被 SaaS 平台看到

緩解：Span attribute 過 PII filter、敏感資料 hash / masking、跟 6.4 跨雲端邊界結合

不 sample：production 100% trace、storage / cost 爆

緩解：Production sample rate < 10%、error / outlier 100% capture

沒設 trace 保留期：trace 越累積越多、舊 trace 沒人看但仍付儲存

緩解：明確保留 policy（如 7-30 天 hot、之後 archive 或刪）

Trace 不跟 metric 串：trace 是 sample、metric 是 aggregate、debug 要兩個一起看

緩解：cost / latency 也輸出 metric（Prometheus 等）、trace 補 specific instance debug

何時不需要 tracing

純 demo / 個人玩：log 字串夠用
單一 LLM call、無 agent loop：簡單到 grep log 也能 debug
隱私極敏感且不 self-host：trace 內容流向 SaaS 是邊界、評估 risk
每 request 都 trace 的 overhead > 收益：超低 latency 場景看是否 worth it

何時過時 / 何時不過時

不會過時的部分：

LLM tracing 跟 traditional logging 的根本差異
結構化 span + parent-child 關係的 framing
Cost monitoring / latency debug / failure debug 三大 use case
Trace → eval 的閉環概念
5 個設計失敗模式

會變的部分：

OTel GenAI semconv 的具體 attribute 名稱（仍在 stabilizing）
主流 SaaS 平台（每年 1-2 個新進入者）
Auto-instrumentation 的支援度（持續擴展）
跟具體 framework 的整合方式

下一章：4.21 LLM-as-judge 評估方法、把 production trace 變成系統性 eval 的閉環。

4.20 Observability Evidence Package

Sat, 02 May 2026 00:00:00 +0000

大綱

evidence package 的責任：把分散的 observability 資料包成可交給 reliability 與 incident response 的證據
資料來源：log、metric、trace、audit log、dashboard、query、client-side signal、deployment event
欄位：source、time range、owner、query link、data quality、confidence、known gap、retention
跟 4.17 的關係：telemetry data quality 提供資料限制，evidence package 提供交接格式
跟 6.23 的關係：可靠性驗證使用同一格式保存 experiment evidence
跟 8.18 / 8.19 的關係：事故 intake 與 decision log 使用同一組 evidence link
反模式：只貼 dashboard 截圖；query 沒有時間窗；evidence 沒標示 sampling / freshness 限制

Observability evidence package 的核心是把可觀測資料從「查詢結果」升級成「可交接證據」。事故與驗證需要一組能說明來源、時間窗、可信度、限制與 owner 的 evidence。

概念定位

Observability evidence package 是可觀測性模組交給可靠性驗證與事故處理的證據包，責任是讓 log、metric、trace 與 audit log 能被重用、回放與復盤。

這一頁處理的是交接格式。4.17 Telemetry Data Quality 說明資料是否可信；evidence package 說明如何把可信度、查詢入口與限制一起交給下游流程。

證據包的價值在於保存判讀上下文。只有截圖時，讀者看不到 query、時間窗、sampling、資料延遲與 owner；有 evidence package 時，後續 release gate、incident decision log 與 post-incident review 才能回放同一組事實。

Evidence 欄位

Evidence 欄位的責任是讓每個觀測證據都可查、可解釋、可追蹤。欄位不需要複雜，但要覆蓋事中判讀與事後復盤的最小需求。

欄位	責任	判讀用途
Source	標示資料來源	區分 log、metric、trace、audit
Time range	標示查詢時間窗	對齊 incident timeline
Query link	保留可重跑查詢	支援 handoff 與復盤
Owner	指定可解釋資料的人	避免 evidence 失去語意
Data quality	標示 completeness / freshness	防止資料限制被誤讀
Confidence	標示 confirmed / suspected	支援分級與決策
Known gap	標示 missing signal 或 drift	回寫 04 readiness 與 data quality
Retention	標示保存期限	支援 audit、PIR 與長事故

Source 欄位讓讀者知道 evidence 的能力邊界。Metric 適合看趨勢，log 適合看事件細節，trace 適合看路徑，audit log 適合看責任鏈。

Time range 是 evidence package 的基本欄位。事故前後 30 分鐘、部署期間、DR drill 時窗、burn rate 短窗與長窗都需要明確，否則同一張圖可能被不同人解讀成不同結論。

Query link 比截圖更重要。截圖適合溝通當下狀態，query link 才能讓下一班 on-call、可靠性 owner 或 PIR reviewer 重跑同一個判讀。

Data quality 欄位讓 evidence 保留限制。sampling ratio、ingest delay、schema drift、log drop、cardinality truncation 與 timestamp skew 都應直接出現在證據包中。

資料來源

Evidence package 的資料來源要按判讀責任分層。每一層回答的問題不同，下游使用時也要保留這個差異。

資料來源	回答問題	常見限制
Log	單一事件發生了什麼	schema drift、drop、PII masking
Metric	趨勢是否偏離穩態	聚合粒度、cardinality、延遲
Trace	失效卡在哪個服務或依賴邊界	sampling、async 斷鏈
Audit log	高風險操作與責任鏈如何形成	權限限制、retention、法規要求
Dashboard	操作視角如何快速判讀	面板版本、查詢成本、owner
Client-side signal	使用者感知是否和 server 一致	browser / region / device bias
Deployment event	近期變更是否與異常時間線重疊	rollout 粒度、feature flag owner

Log evidence 適合進入 incident intake。它要保留 request id、tenant、region、error class 與 trace id，讓事故候選能被查證。

Metric evidence 適合進入 SLO、release gate 與 steady state 判讀。它要保留時間窗、分母分子、聚合粒度與資料延遲，讓 burn rate 與容量判斷可回放。

Trace evidence 適合支援 dependency 與 async workflow 判讀。它要標示 sampling policy 與缺失 span，讓下游知道 trace 能支持到哪個邊界。

Audit log evidence 適合支援資安、資料修復與高風險操作。它要保留 access path、retention、masking 與 chain of custody 限制。

打包流程

Evidence package 的打包流程是從問題開始。先問下游要做什麼決策，再選擇足以支援該決策的資料與工具入口。

定義 evidence 要支援的決策：readiness、release gate、incident intake、decision log 或 PIR。
選擇最小資料集合：metric 看趨勢、log 看事件、trace 看路徑、audit 看責任。
補上 time range、query link、owner 與 data quality。
標示 confidence 與 known gap。
把缺口回寫到 4.16 readiness、4.17 data quality 或 4.18 operating model。

Readiness 用的 evidence package 要回答「服務是否能被判讀」。它重視核心旅程、依賴、dashboard、alert、trace 與 owner。

Reliability 用的 evidence package 要回答「驗證是否有結果」。它重視 steady state、stop condition、experiment timeline、SLO burn 與回復訊號。

Incident 用的 evidence package 要回答「事故是否需要啟動、升級或回退」。它重視 source、impact scope、confidence、decision log 與 stakeholder update。

資料庫 migration 用的 evidence package 要回答「資料語意是否能進入下一階段」。它重視 validation query、row count、mismatch sample、replication lag、slow query 與資料限制；完整服務路徑可接到 1.7 Schema Migration Rollout 證據。

案例中的證據包判讀

證據包的價值要放回真實事故才看得清楚。Cloudflare 2019 與 AWS S3 2017 都不是「缺資料」，而是「資料若沒被包成可交接證據，決策會慢、通訊會亂、回寫會斷」。

Cloudflare 2019 的第一波判讀來自跨區 CPU、5xx 與 latency 同步惡化。這組訊號如果只有圖表截圖，團隊只能知道「全網變慢」；把 query link、time range、rule rollout event 與 confidence 一起交接，才能快速形成「先回滾規則」的決策。

AWS S3 2017 的關鍵是恢復分層：GET/LIST/DELETE 與 PUT 回線時間不同，且狀態頁通訊入口也受依賴影響。證據包若保留 subsystem 狀態、操作類型影響範圍與已知限制，對外更新才不會把「部分恢復」誤寫成「全面恢復」。

兩個案例共同指向同一個判讀原則：證據包要保留「能支持當下決策」的最小閉環，蒐集越多越好的思路反而製造噪音，至少包含事件時間窗、跨訊號對位、資料限制與決策責任人。

誤判風險與修正路徑

事故中的誤判多半源自證據包缺少判讀上下文，演算法本身很少是問題。當 evidence 只有結論沒有限制，下游就會把暫時訊號當成穩定事實。

誤判場景	為何會誤判	修正路徑
圖表短暫回穩就宣告恢復	缺少時間窗與回線連續性門檻	在 evidence 補 recovery window 與 steady state 對位
trace 看起來正常	缺 sampling ratio 與 missing span	在 evidence 補 data quality 與 known gap
對外說法過度樂觀	缺 subsystem 分層狀態與限制說明	在 evidence 補 scope / limitation / next update
回滾決策反覆	缺 deployment event 與影響範圍對位	在 evidence 補 rollout event、impact scope 與 owner
復盤找不到依據	只留截圖，沒有 query 與時間窗	在 evidence 補 query link 與 retention

修正路徑的核心是把 evidence package 當成事故中的工作物，而不是事故後整理物。當下有完整欄位，後續 8.19 決策紀錄才有可回放證據，8.22 回寫才有可追蹤缺口。

常見反模式

Evidence package 的反模式通常來自把資料貼出來就當作證據交接。證據需要上下文，否則只是一段輸出。

反模式	表面現象	修正方向
只貼 dashboard 截圖	事後缺少可重跑查詢	保留 query link 與 time range
Query 無時間窗	同一查詢不同時間跑出不同結論	標準化 time range
缺資料品質限制	sampling / drop / delay 被忽略	引用 4.17 data quality 欄位
Evidence 無 owner	下游無人能解釋欄位語意	指定 service / platform owner
Retention 未標示	PIR 或 audit 時證據已過期	標示 retention 與保存責任

只貼 dashboard 截圖會讓 evidence 失去可回放性。截圖可以當摘要，query、時間窗與資料限制則提供復盤與交接能力。

缺資料品質限制會讓下游高估證據。若 trace sampling 只保留 10%、log pipeline 有 drop、metric 有 ingest delay，這些限制要跟證據一起交接。

交接路由

4.16 observability readiness：補 evidence package 所需的訊號入口
4.17 telemetry data quality：標示 completeness、freshness、drift 與 sampling 限制
4.18 operating model：指定 evidence owner、retention 與 review cadence
1.7 Schema Migration Rollout 證據：把 validation query 與資料限制包成 migration gate 可用的證據
6.23 verification evidence handoff：把驗證結果包成同一格式
8.18 incident intake：把 evidence package 轉成事故候選
8.19 incident decision log：把 evidence package 連到事中決策

4.21 Rule-level CPU Signal Governance

Thu, 07 May 2026 00:00:00 +0000

Rule-level CPU signal governance 的核心責任是讓規則與策略執行成本可被提前判讀，避免高成本規則在全域 rollout 後才以 5xx 與 latency 形式被動暴露。

概念定位

Rule-level CPU signal governance 是把「哪一條規則在吃 CPU」變成可量測、可回退、可治理的觀測能力，責任是補上服務級 CPU 指標看不到的規則層風險。

服務級 CPU 只告訴團隊「系統變慢了」，rule-level 訊號才告訴團隊「是哪個規則讓系統變慢」。兩者一起存在，事故才能從症狀快速收斂到可操作原因。

核心判讀

判讀順序是先看服務級異常，再下鑽到規則層成本分佈。若 CPU、latency、5xx 同步惡化，且 rule hit 分佈在短時間發生偏移，通常代表規則層出現新的成本熱點。

訊號	代表意義	第一波決策價值
Rule hit rate 突增	某規則命中流量異常放大	先核對最近規則推送與 traffic pattern
Rule-level CPU p95 / p99 上升	規則執行成本惡化	先降級或回退高成本規則
CPU hotspot 只集中在少數規則	問題可收斂到有限規則集合	優先處理 top-N 規則
回退後 rule-level 成本快速回穩	異常與新規則高度關聯	凍結同批 rollout，進入 replay 驗證
Rule trace 缺失	無法確認成本來自哪個分支與 payload	先補埋點再擴大 rollout

訊號模型

Rule-level CPU 訊號模型的重點是同時保留成本、命中與上下文。只有成本沒有命中，無法判斷影響面；只有命中沒有成本，無法判斷風險等級。

訊號欄位	用途	常見陷阱
rule_id / rule_version	對應具體規則版本	規則改版未更新版本標記
match_count	量測命中流量	未按 tenant / region 分層
exec_cpu_ms	量測規則執行成本	只看平均值，忽略長尾
input_class	區分 payload 類型與風險來源	缺少分類導致 replay 不可重現
rollout_stage	對齊分批 rollout 狀態	觀測資料無法對應 rollout 階段
fallback_action	記錄降級、旁路或阻擋策略是否觸發	事故後難以回放決策

控制面

Rule-level CPU signal governance 的控制面是把「測到異常後要怎麼停」直接接到 rollout 流程，而不是只做監控展示。

對高風險規則建立 rule-level CPU baseline 與異常門檻。
把 rule-level 訊號接到 staged rollout gate。
對 top-N 高成本規則建立自動降級或回退條件。
在 evidence package 記錄當次 rollout 的 rule-level 成本分佈與限制。
在 post-incident review 回寫新 payload 類型與新風險樣式。

常見反模式

反模式	表面現象	修正方向
只看服務級 CPU	知道有問題但找不到高成本規則	補 rule_id / version / cost 埋點
規則測試只跑功能正確	事故時才看見計算成本爆點	增加 representative payload replay
rollout 與觀測脫鉤	分批推送但缺乏階段判讀依據	把 rollout_stage 變成必填訊號欄位
回退無證據包	復盤只剩結論，缺成本時間線	接 4.20 evidence package

案例回扣

Cloudflare 2019 事故顯示高成本 regex 可以在全網同步推送下快速放大。Rule-level CPU 訊號治理的價值是把這類風險前移到 rollout 過程，而不是等到全球 5xx 才回頭排查。

交接路由

4.22 Checkout API Evidence Package 實作示範

Fri, 08 May 2026 00:00:00 +0000

Checkout API evidence package 的核心責任是把同一條交易路徑的訊號整理成可交接證據，讓放行與事故判斷用到同一組事實。

服務路徑與邊界

本篇服務路徑是 client -> checkout-api -> payment-adapter -> order-db。觀測邊界只處理「這條路徑目前是否可判讀」，不處理重試策略與回退決策本身；後者交給 06 與 08。

要先定義 evidence package 的最小欄位：Source、Time range、Query link、Owner、Data quality、Confidence、Known gap。這些欄位在事故期與放行期共用，避免兩套語言。

實作步驟

固定交易路徑的觀測主鍵：trace_id、order_id、tenant_id、region。
建立三組查詢入口：延遲分布（p50/p95/p99）、錯誤率與錯誤類別、下游 payment dependency timeout。
為每組查詢補欄位：時間窗、資料延遲、採樣比例、目前 owner。
在 deploy 前把同一份 evidence package 連到 6.8 Release Gate。
事故期間把同一份 evidence package 連到 8.19 Incident Decision Log。

判讀訊號

訊號	判讀重點	對應動作
p95 latency 升高但 error rate 無明顯變化	可能是下游慢查詢或連線池飽和	先查 dependency span 與 DB wait
payment timeout 增加且 trace 斷在 adapter	下游依賴退化，不是本地 CPU 飽和	進 6.8 依賴風險 gate，限制放行
log 有錯誤但 metric 沒反映	訊號覆蓋不一致或聚合粒度不對	回寫 data quality，補 query 與聚合維度
dashboard 正常但客訴增加	可觀測性盲區或取樣偏差	提升 client-side signal 權重並標示 known gap
同版不同區域行為差異大	區域配置或依賴拓樸差異，非單點程式回歸	補 region 維度 evidence，進 8.18 分流 triage

常見誤區

把 evidence package 寫成 dashboard 截圖集合，會失去可重跑性。沒有 query link 與時間窗，事故交班時很難重建判讀脈絡。

把 confidence 省略也會導致誤判。事故前期資料常不完整，若不標示 suspected 與 known gap，下游決策容易把猜測當成結論。

案例回寫

這條路徑可用 GCP 2019 Network Incident 回寫。先看跨服務訊號如何失真，再回到本章檢查欄位是否能支撐「先分流、再判斷」。

這個案例主要支撐的是「證據欄位完整度」判讀，不直接支撐 release gate 停損門檻設計；停損規則要回到 6.8。

跨模組路由

與 4.17 的交接：資料限制與偏差回到 Telemetry Data Quality。
與 6.8 的交接：放行判斷使用同一份 evidence package。
與 6.23 的交接：驗證證據欄位對齊 Verification Evidence Handoff。
與 8.19 的交接：事故決策直接引用 evidence link 與 confidence。

下一步路由

要把證據轉成放行條件，接著讀 6.25 Provider Dependency Release Gate 實作示範。

4.23 觀測查詢設計

Mon, 22 Jun 2026 00:00:00 +0000

大綱

觀測資料的讀寫不對稱：一種寫入路徑對應多種讀取路徑
三種查詢模式：即席診斷、聚合趨勢、鑑識回溯
Storage tiering 與查詢路由：hot / warm / cold 不只是成本分層、是查詢能力分層
Pre-aggregation 策略：recording rule、materialized view、rollup 的使用情境與維護成本
Query 資源治理：priority、queue 分離、timeout 差異化、cost estimation
觀測領域的讀寫分離：CQRS 的特化應用
反模式：把 raw log 當 OLAP 查、dashboard 查詢直打 raw storage 無 pre-aggregation、recording rule 跟 raw query 重複計算

概念定位

觀測查詢設計是把「產生訊號之後怎麼被讀取」當成獨立的系統設計問題。觀測資料的寫入路徑（agent → collector → ingest → storage）在 4.11 telemetry pipeline 處理；本章處理的是讀取路徑 — 從 storage 經 query engine 到 dashboard、alert 與即席查詢的資料流。

寫入路徑的設計目標是吞吐穩定、schema 一致、成本可控；讀取路徑的設計目標是在不同的時間壓力下，用對的精度取回對的切面。兩者的效能瓶頸不同、擴展方向不同、治理責任也不同。把讀取當寫入的附屬處理，會在流量成長後遇到「寫入正常但查詢崩潰」的局面。

觀測資料的讀寫不對稱

觀測資料有一個 application data 不常見的特性：同一份資料被多種完全不同的查詢形狀讀取，每種查詢的時間壓力、精度需求、結果形狀差距可以到三個數量級。

寫入面相對單純。不管是 log、metric 還是 trace，寫入都是 append-only、schema 由產生端定義、吞吐由流量決定。寫入路徑的設計問題集中在 cardinality 控制（4.7）、pipeline 可靠性（4.11）與 sampling 策略。

讀取面則至少有三種模式，各自有獨立的 SLA、索引需求與資源消耗模型。把三種模式混在同一個未分化的 query engine 裡，會在任何一種模式的負載增長時拖累其他模式。

三種查詢模式

即席診斷

事故中的查詢，責任是在秒級內定位問題。

查詢形狀是精確 filter + 短時間範圍：拿一個 request id 查關聯事件、拿一個 error code 加 time window 撈錯誤樣本、拿一個 trace id 展開完整 span tree。

對儲存的要求：需要 hot tier 的完整索引、完整精度、毫秒到秒級回應。即席查詢幾乎不命中 warm 或 cold tier — 事故通常發生在「現在」或「剛才」。

資源特性：低頻（事故時才有）、單次掃描量小、但延遲要求最嚴格。事故中的每一秒等待都在消耗 MTTR。

聚合趨勢

Dashboard 跟 alert rule 的查詢，責任是提供持續的服務健康視圖。

查詢形狀是 group by + aggregation + 中等時間範圍：過去 5 分鐘的 error rate by service、過去 1 小時的 latency p99 by endpoint、過去 24 小時的 log volume by level。Dashboard 每 30 秒到 1 分鐘刷新，alert rule 每 1 到 5 分鐘 evaluate。

對儲存的要求：可以讀 recording rule 或 rollup 的預聚合資料，不需要完整精度。延遲容忍比即席查詢寬（秒級到十秒級），但查詢頻率比即席查詢高兩到三個數量級。

資源特性：高頻、穩定、佔 query engine 的常態負載大頭。一個 Grafana dashboard 有 20 個 panel、每 30 秒刷新一次 = 每分鐘 40 個查詢；十個團隊各自有 dashboard = 每分鐘 400 個背景查詢。

鑑識回溯

事後分析、合規稽核與根因調查的查詢，責任是在大時間範圍內還原完整脈絡。

查詢形狀是寬時間範圍 + 條件掃描：過去 30 天某 tenant 的所有 authentication failure、過去 90 天某 API 的 error 分布演變、某次事故前後 48 小時的完整 log 流。

對儲存的要求：會命中 warm 甚至 cold tier。完整性比延遲重要 — 漏掉一筆 audit log 比多等 30 秒更嚴重。可能需要 rehydrate（把 cold tier 歸檔資料暫時載回可查詢狀態）。

資源特性：低頻但單次掃描量極大。一個 cold tier 的全量掃描可能佔用 query engine 數分鐘的計算資源。

三種模式的設計衝突

三種模式搶同一個 query engine 時，聚合趨勢的穩定高頻負載會佔滿常態資源、擠壓即席診斷的突發需求；鑑識回溯的大範圍掃描會吃掉臨時資源、拖慢同時進行的即席查詢。

事故中是衝突最嚴重的時刻：incident commander 在做即席診斷、dashboard 在高頻刷新聚合趨勢、事後調查團隊可能同時在做鑑識回溯。三種負載同時打在同一個 query engine 上，誰先退讓取決於 query 資源治理的設計。

Storage tiering 與查詢路由

Storage tiering 在讀取路徑上的責任不只是降低儲存成本，而是為不同時間範圍的查詢提供對應的查詢能力。每一層的儲存介質、索引密度、資料精度共同決定該層能回答什麼問題。

每一層的查詢能力

層級	查詢延遲	可用索引	資料精度	適合的查詢模式
Hot	毫秒到秒	完整結構化索引 + 全文索引	原始精度	即席診斷
Warm	秒到十秒	結構化索引（可能移除低價值欄位索引）	原始或輕度 rollup	聚合趨勢
Cold	十秒到分鐘	最小索引（timestamp + service + tenant）	rollup 或歸檔	鑑識回溯

查詢跨越 tier 邊界時，回應時間由最慢的 tier 決定。Dashboard 時間範圍從「最近 1 小時」（全部 hot）拉到「最近 30 天」（hot + warm + cold），查詢延遲可能從毫秒跳到分鐘。這個延遲跳變需要在 dashboard UI 上提示使用者。

查詢路由的設計

查詢路由的責任是根據查詢的時間範圍跟精度需求，自動選擇最合適的 tier 跟資料精度。

時間範圍在 hot tier 內：直接查 raw data，完整精度。
時間範圍跨越 hot 跟 warm：hot 部分查 raw data、warm 部分查 rollup series，query engine 負責拼接。
時間範圍延伸到 cold tier：cold 部分需要 rehydrate 或走 object storage 查詢路徑，延遲大幅增加。

查詢路由的透明度影響使用者信任。使用者需要知道目前看到的資料是什麼精度、來自哪一層、是否有 freshness lag。Grafana 的 annotation 機制可以在 dashboard 上標示 tier 邊界跟精度切換點，避免使用者把精度變化誤讀成服務異常。

Rehydrate 的操作成本

Cold tier 的資料通常儲存在 object storage（S3、GCS、Azure Blob），查詢前需要 rehydrate — 把資料從歸檔格式解壓、重建索引、載入到可查詢狀態。這個操作有時間成本（分鐘到小時）、儲存成本（臨時佔用 hot/warm 空間）跟計算成本（CPU 用在解壓跟索引重建）。

Rehydrate 是事故事後分析跟合規稽核的常見操作。設計 tiering 時要把 rehydrate 的 SLA（多久可以完成）、容量（同時可以 rehydrate 多少資料）跟觸發方式（手動 / API / 自動 policy）納入規劃。

Pre-aggregation 策略

Pre-aggregation 是把讀取時的計算成本轉移到寫入時的策略。觀測領域有三種常見的 pre-aggregation 機制，適用場景跟維護成本不同。

Recording rule

Recording rule 在 TSDB 層定期執行 query expression，把聚合結果寫成新 series。適合 metrics 的高頻聚合查詢（SLO burn rate、error ratio、跨服務 latency summary）。

Recording rule 的維護成本集中在規則增長後的管理。數百條 recording rule 需要命名慣例、版本控制、執行時間監控（rule evaluation duration）與定期審計（是否有 rule 不再被 dashboard 或 alert 引用）。

Log-to-metric 轉換

在 collector 端把高頻 log pattern 轉成 metric。適合「從 log 衍生的聚合查詢」— 例如把 level=error 的 log 計數轉成 error_log_total counter，把 specific exception 的出現率轉成 gauge。

Log-to-metric 的好處是讓 dashboard 讀 metric 而非重掃 log volume。維護成本在於 collector 配置要跟 log schema 保持同步 — log 的 field name 改了，轉換規則沒跟著改，metric 會靜默歸零。

Rollup / downsampling

Rollup 把高精度時間序列聚合成低精度版本。適合長時間範圍的趨勢查詢（90 天 error rate 趨勢、capacity planning 的年度成長曲線）。

Rollup 的設計關鍵是聚合函數必須按 metric type 選擇。Counter 用 sum、gauge 用 average（或 min/max 保留極端值）、histogram 需要保留 bucket boundary 而非做 average（否則 percentile 計算會失真）。混用聚合函數是 rollup 最常見的 silent data corruption。

Pre-aggregation 的維護成本

Pre-aggregation 不是免費的。每一條 recording rule、每一個 log-to-metric 轉換、每一層 rollup 都需要：

儲存空間：預聚合結果本身佔用 series 或 index 空間，增加 cardinality 負擔。
計算資源：定期執行聚合需要 CPU，rule evaluation lag 會讓 dashboard 看到過期資料。
配置維護：規則需要跟 schema、label、service 保持同步，漂移會靜默產生錯誤資料。
除錯成本：dashboard 讀的是 recording rule 輸出，事故時可能需要同時查 raw data 驗證 recording rule 是否正確。

設計時的判準是：預聚合的讀取節省是否大於維護成本。高頻讀取（dashboard auto-refresh、alert evaluation）的聚合計算值得 pre-aggregation；低頻讀取（月度報表、偶發 ad-hoc query）直接查 raw data 更簡單。

Query 資源治理

觀測平台的 query engine 是共用資源，需要顯式的治理機制避免單一查詢類型或單一使用者耗盡資源。

Query priority 與排程

Query engine 需要知道每個查詢的優先級，在資源不足時讓高優先查詢先執行。

查詢類型	建議優先級	理由
Alert evaluate	最高	告警延遲直接影響 MTTD，不可因其他查詢排隊而漏發
即席診斷	高	事故中的查詢，每秒延遲消耗 MTTR
Dashboard 刷新	中	穩定背景負載，短暫延遲不影響決策品質
鑑識回溯	低	延遲容忍高，可排程到低負載時段執行
Ad-hoc 探索	最低	非事故的探索性查詢，可被其他類型搶佔

Query timeout 差異化

不同查詢類型設不同的 timeout：alert evaluation 設短 timeout（30 秒到 1 分鐘，跑不完說明 query 有問題）、即席診斷設中等 timeout（1 到 5 分鐘）、鑑識回溯允許較長 timeout（10 到 30 分鐘）。統一 timeout 會讓鑑識查詢被過早截斷、或讓 alert evaluation 等太久。

Query cost estimation

在查詢執行前估算掃描量（掃描的 series 數、time range、shard 數），超過閾值的查詢被拒絕或降級。避免單一 heavy query（例：跨所有 service 的 90 天 full-resolution 聚合）拖垮 query engine。

Query cost estimation 對使用者的回饋要足夠清楚。拒絕查詢時要說明「這個查詢預計掃描 N 條 series × M 天，超過單次查詢上限；請縮小時間範圍或增加 filter 條件」，而不是只回 timeout 或 500 error。

Query cache

聚合趨勢查詢的特徵是高頻重複 — 同一個 dashboard panel 每 30 秒查一次，查詢的時間範圍大部分重疊。Query cache 在 query-frontend 層快取最近的聯合結果，下一次刷新只需要增量計算新進的資料區間。

Thanos Query Frontend、Mimir Query Frontend、Grafana Cloud 的 query splitting + caching 都實作這個模式。Cache 的命中率直接影響 query engine 負載 — 高命中率讓 query engine 的常態負載下降、留更多資源給即席查詢。

觀測領域的讀寫分離：CQRS 的特化應用

觀測查詢設計的底層問題是讀寫不對稱 — 寫入跟讀取的形狀、頻率、SLA 都不同，單一模型無法同時服務。這個問題在 application data 層有成熟的設計框架：CQRS。觀測領域面對的是同一類不對稱，但不對稱的程度更極端，實作層級也不同。

觀測場景的不對稱比 application 更極端

CQRS 知識卡描述了讀寫不對稱的三個維度（形狀、頻率、SLA）。觀測場景在這三個維度上都比典型 application 更極端：

形狀不對稱：application 的 read model 通常是一到兩種（列表頁、報表）。觀測的讀取面至少三種：即席診斷要精確 filter + 完整精度、聚合趨勢要 group by + pre-aggregated、鑑識回溯要寬範圍 + 完整性優先。三種形狀對索引、精度、儲存層的需求互斥。

頻率不對稱：application 的讀寫比通常在 10:1 到 100:1 之間。觀測的 dashboard 每 30 秒刷新一次、alert 每分鐘 evaluate、十個團隊各自有 dashboard — 讀取頻率可以到寫入的千倍以上，而且是持續穩定的背景負載而非突發。

SLA 不對稱：application CQRS 的讀寫 SLA 差距通常在同一個數量級（毫秒 vs 數百毫秒）。觀測的三種讀取模式 SLA 跨三個數量級 — 即席診斷要求毫秒到秒級、聚合趨勢容忍秒到十秒級、鑑識回溯容忍分鐘級。

觀測領域怎麼實作讀寫分離

CQRS 在 application 層透過 event handler、projector、read store 實作。觀測領域用自己的 first-class 機制做同樣的事：

CQRS 概念	觀測領域的對應	設計責任
Write model	Raw series / log / span — append-only 寫入	Schema 穩定、吞吐
Read model	Recording rule、rollup、log-to-metric 轉換	讀取最佳化
Projection	Collector 端的 aggregation / enrichment / routing	寫入到讀取模型的轉換
Event 同步延遲	Recording rule evaluation lag、rollup delay、buffer freshness lag	最終一致性的延遲窗口
多 read store	Storage tiering（hot / warm / cold 各自支援不同查詢模式）	不同 SLA 的讀取走不同儲存層

CQRS 的代價在觀測領域同樣存在

CQRS 知識卡列出的三項代價（最終一致性、同步可靠性、多模型維護）在觀測場景都找得到對應：

最終一致性：Recording rule 每 N 秒 evaluate 一次，dashboard 看到的聚合結果落後 raw data。Rollup 的延遲更長。事故中 incident commander 看 dashboard 做決策時，需要知道資料的 freshness — 這就是 CQRS 的 read model 延遲在觀測領域的具體表現。

同步可靠性：Recording rule evaluation 本身可能失敗（expression 太重跑不完、TSDB 暫時不可用）。Log-to-metric 轉換可能因 schema 漂移而靜默歸零。這些同步失敗跟 application CQRS 的 projector 失敗是同一類問題 — read model 看起來有資料但其實是過期的。

多模型維護：Metric schema 變更後，raw series、recording rule、rollup、dashboard query 都需要同步更新。Recording rule 引用的 label name 改了沒跟著改，aggregation 結果會靜默錯誤。這跟 application 的「schema migration 要同時更新 write model 跟所有 read model」是同一個維護負擔。

術語邊界

觀測領域的讀寫分離跟 CQRS 概念對應，但在業界溝通中直接說「log 的 CQRS」或「metrics 的 CQRS」會造成混淆。觀測領域有自己的 first-class 術語（recording rule、rollup、tiering、query routing），跟 application CQRS 的術語（command、query、projection、read model）平行但不互通。

理解 CQRS 的讀者可以把觀測查詢設計視為「infrastructure-level 的讀寫分離」，同樣的設計原則（分離的動機、最終一致性的代價、多模型維護的負擔）在不同層級重複出現。但設計決策時要用觀測領域的術語，把 recording rule 跟 rollup 當第一等公民，而非 CQRS 的衍生品。

核心判讀

判讀觀測查詢設計時，先看三種查詢模式是否有對應的資源與資料形狀，再看 pre-aggregation 跟 tiering 是否對齊實際查詢負載。

重點訊號包括：

即席查詢在事故中的延遲是否在秒級以內
Dashboard 刷新是否佔用過多 query engine 資源
長時間範圍查詢是否有 rollup / recording rule 支撐
Storage tiering 的查詢路由是否對使用者透明
Alert evaluation 是否有最高 query priority
Pre-aggregation 規則是否跟 schema 保持同步

判讀訊號

Dashboard 載入時間持續退化、panel timeout 增加
Alert rule evaluation duration 成長、偶發 missed evaluation
事故中即席查詢被 dashboard 背景負載擠壓
長時間範圍的查詢精度突變但使用者不知道
Recording rule 輸出跟 raw query 結果不一致
Rehydrate 需求頻繁但沒有預設流程
Query engine CPU 被少數 heavy query 佔滿

反模式

反模式	表面現象	修正方向
Raw log 當 OLAP 查	聚合查詢掃 TB 級 log、timeout	用 log-to-metric 轉換把常用聚合推到 metric 層
Dashboard 直打 raw storage	Panel 載入慢、query engine 過載	用 recording rule / rollup 支撐高頻 panel
Recording rule 跟 raw query 重複	同一個指標有兩條查詢路徑、數值不一致	統一入口：dashboard 讀 recording rule、ad-hoc 讀 raw
所有查詢同一個 priority	Alert 被 dashboard 查詢排隊延遲	Query priority 分級、alert evaluation 最高
Tier 邊界對使用者不透明	拉長時間範圍時數值突變但不知為何	Dashboard 標示 tier 邊界跟精度切換
Rollup 聚合函數混用	Histogram percentile 在長時間視圖被壓平	按 metric type 指定聚合函數、histogram 保留 bucket
所有訊號同一個 tier 邊界	高價值訊號過早退化、低價值訊號佔 hot	依訊號優先級設差異化 tier 邊界

交接路由

4.1 log schema：log 的即席 / 聚合 / 鑑識三種查詢模式細節
4.2 metrics：metrics 的 recording rule 與 rollup 設計
4.7 cardinality / cost：storage tiering 對查詢能力的影響
4.11 telemetry pipeline：讀取路徑作為 pipeline 的延伸
4.15 cost attribution：query 資源的成本歸屬
4.17 telemetry data quality：pre-aggregation 與 raw data 的一致性驗證
4.18 operating model：query 資源治理的 ownership
Monitoring 讀寫分離：Monitor 專案的讀寫分離具體應用

4.24 Client-to-Server 端到端觀測串接

Mon, 22 Jun 2026 00:00:00 +0000

Client-to-server 端到端觀測串接的核心責任是讓一次使用者操作的完整路徑 — 從 browser click 到 server 處理到 response rendering — 可以用同一個 trace ID 串起來。4.10 Client-side / Synthetic / RUM 講的是概念和 vendor 定位；本篇走完一個具體場景的實作鏈路。Monitoring 模組 03 SDK 設計講的是 client 端怎麼埋點；本篇講 server 端怎麼接收和整合。

完整鏈路

以使用者在 web app 點擊「結帳」為例，一次操作產生的觀測鏈路：

 1Browser: user clicks "checkout"
 2  → RUM SDK 建立 client span（type: resource / xhr）
 3  → HTTP POST /api/checkout + W3C traceparent header
 4    → Server middleware 提取 trace context
 5    → Server 建立 child span（checkout-handler）
 6      → DB query span（order insert）
 7      → Cache span（inventory check）
 8      → Queue span（event publish）
 9    → Server 回 200 + response body
10  → Browser 收到 response → resource timing 結束
11  → RUM SDK 關閉 client span（記錄 duration + status）
12  → 統一 trace waterfall：client span 是 root、server spans 是 children

鏈路的每一段都需要 trace context 正確傳遞。任何一段斷掉，trace waterfall 就會出現孤立的 span — server 端看到的 trace 跟 client 端看到的 trace 是兩條不相關的紀錄。

Trace context propagation

W3C traceparent header

W3C Trace Context 是跨 vendor 的標準 propagation 格式。Header 長這樣：

1traceparent: 00-4bf92f3577b34da6a3ce929d0e0e4736-00f067aa0ba902b7-01
2              │  │                                │                  │
3              │  trace-id (32 hex)                 parent-id (16 hex) flags
4              version

RUM SDK 在發起 XHR / fetch 時把 traceparent 注入 request header。Server 的 trace SDK 從 header 提取 trace-id 和 parent-id，建立 child span。

Client 端注入

各 RUM SDK 的注入方式：

SDK	注入機制	配置
Datadog RUM	自動 patch XHR / fetch，注入 `x-datadog-*` + 可選 `traceparent`	`allowedTracingUrls` 設定允許注入的 domain
Sentry browser	自動 patch fetch / XHR，注入 `sentry-trace` + `baggage` + 可選 `traceparent`	`tracePropagationTargets` 設定目標 URL
OTel browser SDK	透過 `XMLHttpRequestInstrumentation` / `FetchInstrumentation` 注入 `traceparent`	`propagateTraceHeaderCorsUrls` 設定 CORS 允許的 URL

三者的共同模式：只對設定的 domain 注入 trace header。不設定白名單時，header 不會被注入到第三方 API（避免 information leakage）。

Server 端提取

Server 端的 trace SDK（OTel auto-instrumentation 或 vendor agent）從 incoming request 的 header 提取 trace context：

 1# OTel Python 範例 — auto-instrumentation 自動處理
 2# 不需要手動提取，middleware 自動讀 traceparent header
 3# 建立的 span 會繼承 client 傳來的 trace-id 和 parent-id
 4
 5# 手動提取（不用 auto-instrumentation 時）
 6from opentelemetry.propagate import extract
 7ctx = extract(carrier=request.headers)
 8with tracer.start_as_current_span("checkout-handler", context=ctx):
 9    # server logic
10    pass

CORS 限制

跨域請求時，browser 的 CORS preflight 會阻止非標準 header。Server 需要明確允許 trace header：

1Access-Control-Allow-Headers: traceparent, tracestate, sentry-trace, baggage

CORS 是 client-server trace 串接最常見的斷裂原因。Server 沒有回 Access-Control-Allow-Headers: traceparent 時，browser 會 strip 掉 trace header，server 端收到的 request 沒有 trace context，建立的 span 成為新的 root — 跟 client span 斷裂。

跨層 correlation 設計

Trace ID 串接

統一 trace-id 是最基本的 correlation。同一個 trace-id 下的所有 span（client + server）可以在 trace backend 的 waterfall view 裡按時間排列，看到完整的 request 路徑。

Session 跟 transaction 的 mapping

RUM SDK 的 session（使用者的一次造訪）包含多個 user action，每個 action 可能觸發多個 HTTP request。Mapping 關係：

1RUM session
2  └── user action (click "checkout")
3        ├── HTTP request /api/checkout  →  server transaction (trace)
4        ├── HTTP request /api/inventory →  server transaction (trace)
5        └── client-side rendering time

Datadog RUM 和 Sentry 都支援從 session replay 點進去看對應的 server trace。這個 mapping 靠的是 RUM event 裡記錄的 trace-id，跟 server trace backend 裡的同一個 trace-id 做 join。

Breadcrumbs 跟 server log 的時間對齊

RUM SDK 收集的 breadcrumbs（使用者操作序列：page view → button click → form submit）跟 server-side log 的 timestamp 需要可比對。時間對齊的前提是 client 和 server 的 clock 差距在可接受範圍（通常 < 1s）。

NTP 同步的 server 端 clock 通常精準。Client 端（browser）依賴使用者裝置的系統時間，可能偏差數秒到數分鐘。RUM SDK 通常會記錄 relative timing（相對於 session 開始的 offset），而非絕對 timestamp，來降低 clock skew 的影響。

Error correlation

Client-side JS error 跟 server-side 5xx 可能是同一個問題的兩面。Correlation 方式：

同一 trace-id：client error 發生在某個 HTTP request 的 response 處理中，該 request 的 trace-id 跟 server-side 500 的 trace-id 相同 — 直接 correlation
時間窗 + endpoint：client error 沒有 trace-id（例如 CORS block 導致 request 沒發出），用時間窗 + endpoint 模式做 fuzzy correlation
Server 無異常但 client 報錯：client-side rendering error（JSON parse failure、type error），server 端看不到 — 需要 RUM 獨立分析

Evidence package 整合

把 client-side 訊號納入 4.20 Observability Evidence Package 時，需要額外記錄：

欄位	Client-side 補充	為什麼需要
Source	標註 “RUM” 或 “Synthetic”	區分 server-side metrics 和 client-side metrics
Latency	Client perceived latency（含 DNS + network + server + rendering）	跟 server-side latency 差異是 network + rendering 時間
Known gap	Trace sampling 不一致	Client 和 server 可能各自取樣，同一個 request 不一定兩邊都有
Confidence	Client clock skew 可能影響 timestamp precision	標注 client timestamp 的精確度限制

Client perceived latency 跟 server-side latency 的差異本身就是一個觀測訊號。差異穩定在 50ms 是正常的 network overhead；差異突然從 50ms 跳到 500ms 代表網路或 CDN 出了問題 — 而這個問題 server-side dashboard 完全看不到。

失敗場景判讀

失敗訊號	判讀	下一步
Client span 存在但 server span 缺失	Trace context header 沒被 propagate — 最常見原因是 CORS block	檢查 `Access-Control-Allow-Headers` 是否包含 `traceparent`；檢查 RUM SDK 的 `allowedTracingUrls` 設定
Server 正常但 client perceived latency 高	網路延遲或 client rendering 慢	看 RUM 的 resource timing breakdown（DNS / TCP / TLS / TTFB / download / render）
Client error 但 server 無對應 request	Request 沒發出 — client-side validation 擋掉或 network offline	看 RUM breadcrumbs 確認 request 是否有送出；檢查 navigator.onLine 狀態
Trace sampling 不一致	Client 取樣到但 server 沒取樣到同一個 request	統一 sampling decision — 用 head-based sampling（decision 在 trace 起點做、propagate 到下游）
Client 和 server 的 error count 對不上	Client 包含 JS rendering error（server 看不到）；server 包含非 user-facing 的背景 job error	分開看：API error 用 trace correlation 比對、non-API error 各自歸類

Vendor 整合模式

組合	串接方式	限制
Datadog RUM + Datadog APM	原生 — 同一個 Datadog org 裡 client 跟 server trace 自動關聯	兩邊都要 Datadog plan
Sentry browser + Sentry server	原生 — `sentry-trace` header propagation	Performance monitoring 需要 Sentry paid plan
OTel browser SDK + OTel server SDK	W3C `traceparent` — vendor-neutral 標準	Browser SDK 較新、instrumentation 覆蓋度不如 server 端成熟
混合（Sentry browser + Datadog server）	手動橋接 — 確保雙方都支援 W3C `traceparent`	Trace context format 要一致；session-level correlation 需自建

同 vendor 組合的串接最自然。跨 vendor 組合只要雙方都支援 W3C Trace Context，trace-level correlation 可以通；但 session-level 的功能（session replay → server trace）需要同 vendor 才有。

交接路由

4.10 Client-side / Synthetic / RUM：概念定位和 vendor 選型
4.3 Tracing Context：server-side trace context 設計
4.22 Checkout API Evidence Package：evidence 整合到 release gate
4.20 Observability Evidence Package：evidence 欄位標準
Monitoring 03 SDK 設計：client-side SDK 埋點設計
Monitoring 06 商業方案：Sentry / Datadog RUM 的 client-side 能力比較
監控資料的雙重用途：同一份 event data 如何同時服務行為分析與訊號治理

Trace Context

Mon, 22 Jun 2026 00:00:00 +0000

Trace context 的核心概念是「讓同一個 request 在跨服務呼叫中保持同一條追蹤線」。它包含 trace id（標識整條 trace）、span id（標識上游 span）與 trace flags（sampling 決策），讓下游服務建立的 span 能歸屬同一條 trace。

概念位置

Trace context 是跨服務診斷的關聯層，跟 correlation id 互補 — correlation id 關聯業務流程、trace context 關聯技術呼叫路徑。它的傳遞機制決定 trace 能不能完整串起 — context 斷掉的地方，trace 就從「完整路徑」退化成需要人工拼接的局部紀錄。

W3C Trace Context 標準定義了 HTTP 的傳遞格式：traceparent header 帶 version + trace id + parent span id + trace flags，tracestate header 帶 vendor-specific 附加資訊。OpenTelemetry SDK 預設使用 W3C 格式。部分 vendor 有自己的 header（Datadog 用 x-datadog-trace-id、AWS X-Ray 用 X-Amzn-Trace-Id），跨 vendor 時需要在 collector 層轉換。

使用情境

系統需要 trace context 的訊號是延遲或錯誤跨越多個服務。Checkout 變慢時，trace context 讓 tracing 系統把 API gateway、order service、payment service、database query 的 span 串成一條路徑，在 waterfall view 中直接看到時間花在哪。

Context 在 HTTP call、gRPC metadata、queue message header 上傳遞。Queue 邊界的 propagation 比 HTTP 複雜 — consumer 可能在 producer 之後很久才消費，context 的時間跨度從毫秒擴大到分鐘。

設計責任

Trace context 設計要處理四個邊界的傳遞：HTTP / gRPC（SDK auto-instrumentation 自動處理）、queue（需要 instrumented client 注入 message header）、thread pool（需要語言級的 context 傳播機制）、background job（需要在 job 啟動時建立 root span）。

斷鏈的常見原因和修復策略見 4.3 tracing 與 context link。Sampling 決策跟 trace context 的關係見 4.7 sampling 策略。

監控資料的雙重用途：行為分析與訊號治理

Mon, 22 Jun 2026 00:00:00 +0000

SDK 埋的每一筆 event 有兩個下游消費者：產品團隊用它做行為分析（轉換率、留存、歸因），工程團隊用它做訊號治理（cardinality 控制、成本歸因、事故判讀）。兩邊各自有教學章節（Monitoring 08 Business Analytics 和 Backend 04 可觀測性），但讀者常不知道這是同一份資料的兩種消費方式。本文是橋。

同一份資料、兩種消費路徑

 1SDK 埋點（event / error / metric / lifecycle）
 2  │
 3  ├── 行為分析路徑 → Monitoring 08
 4  │     消費者：PM / 行銷 / 產品
 5  │     方法：funnel / cohort / attribution / A-B test
 6  │     決策：改 UI、調定價、投廣告
 7  │
 8  └── 訊號治理路徑 → Backend 04
 9        消費者：SRE / platform team / on-call
10        方法：cardinality budget / cost attribution / signal governance
11        決策：降 cardinality、調 sampling、改 alert、產出 evidence

這不是兩套埋點。同一個 button.click event，產品團隊看的是「哪個步驟流失最多使用者」，工程團隊看的是「這個 event 的 cardinality 是否在預算內、ingestion cost 是否合理」。event 相同，切入角度不同。

資料格式的交叉點

Monitoring SDK 送出的事件格式（02 Log Schema）和 Backend 04 的 log schema / OTel event format 有共通欄位：

欄位	Monitoring SDK 格式	Backend 04 / OTel 格式	交叉用途
timestamp	`timestamp`（ISO 8601）	`TimeUnixNano`	兩邊都需要精確時間做時序查詢
event type	`type`（event/error/metric/lifecycle）	`SeverityText` / `SpanKind`	行為分析按 type 做 funnel；訊號治理按 type 做 cardinality budget
source	`source.sdk` / `source.platform` / `source.app`	`Resource` attributes	行為分析按 platform 切分；訊號治理按 service 做 cost attribution
trace context	手動注入（若有）	`TraceId` / `SpanId`	client-to-server 端到端追蹤的串接欄位
payload	`data`（自由 JSON）	`Attributes` / `Body`	行為分析讀 business fields；訊號治理讀 operational fields

格式一致性的價值是一份 event 同時餵 BigQuery（行為分析）和 Grafana Loki（訊號查詢）不需要格式轉換。如果兩邊各自定義 schema，同一個 event 要寫兩次 adapter，schema drift 的風險倍增。

資料治理的衝突

同一份資料被兩邊消費時，治理需求會衝突：

面向	行為分析需要	訊號治理需要	衝突點
保留期	長期保留（年級，趨勢與 cohort 需要歷史資料）	短期保留（30-90 天，debug 用完即丟）	成本 vs 分析完整度
粒度	高粒度（per-user、per-session、per-action）	低粒度（聚合到 service / endpoint 維度）	cardinality 爆炸 vs 分析精度
PII 處理	去識別但需保留 user segment（國家、裝置、方案）	完全匿名或 redacted	分析需求 vs 合規要求
取樣	低取樣或全量（行為趨勢需要完整分布）	可以高取樣（error 全收，正常 request 取樣即可）	成本 vs 覆蓋度
查詢延遲	可接受分鐘級（batch analytics）	需要秒級（incident debug 不能等）	儲存分層與查詢 backend 選擇

這些衝突無法靠「選一邊」解決。行為分析少了歷史資料就看不到趨勢；訊號治理存太多高粒度資料就 cardinality 爆炸。解法是分流。

解法：在 transport 層分流

把 SDK 送出的 event 在 collector 或 pipeline 層分流到不同 backend，各自按需求治理：

Hot path：即時訊號

error 和 metric 類事件即時進入 04 telemetry pipeline（Loki / Prometheus / Tempo），短期 retention（30-90 天），服務 on-call debug 和 incident triage。這條路徑要求秒級延遲、低 cardinality（聚合維度）。

Warm path：行為分析

全部四類事件進入 data warehouse（BigQuery / ClickHouse / Snowflake），長期 retention（年級），服務 funnel、cohort、attribution 和 A/B test。這條路徑接受分鐘級延遲、高粒度（per-user / per-session）。

Cold path：合規留存

audit-level event 進入 archive storage（Cloud Storage / S3 / Glacier），法規要求的年級保留（GDPR 刪除請求、HIPAA 6 年、金融業更長）。這條路徑寫入後幾乎不查詢，查詢時接受小時級延遲。

分流的關鍵設計

分流在 transport 層做，不在 SDK 層做。SDK 統一送出全部 event 到同一個 endpoint，pipeline 按 event type / source / tag 路由到不同 backend。

1SDK → Collector / OTel Collector / Cloud Logging
2         │
3         ├─ [type=error OR type=metric] → Hot path (Loki / Prometheus)
4         ├─ [all events]                → Warm path (BigQuery)
5         └─ [audit=true]               → Cold path (Cloud Storage)

SDK 不需要知道下游有幾個消費者。新增一個消費者（例如新的分析平台）只要在 pipeline 加一條路由，不用改 SDK。

實作考量

分流的實作方式取決於 pipeline 架構：

架構	分流機制	適用場景
自架 collector（Monitoring 04）	Rule engine 按 event type 寫不同 output file / HTTP endpoint	小規模、自用場景
OTel Collector	Processor + 多個 Exporter 組成 pipeline fan-out	中規模、已採用 OTel
Cloud Logging（GCP）	Subscription filter + Sink（BigQuery / Cloud Storage / Pub/Sub）	GCP 生態
Kinesis / Firehose（AWS）	Firehose delivery stream + Lambda transform	AWS 生態

不論哪種架構，分流後的每條 path 要各自設定 retention、sampling、PII handling 和 cost budget。Hot path 的 cardinality 治理規則不該影響 warm path 的分析粒度；warm path 的長期保留成本不該擠壓 hot path 的 freshness。

常見誤區

用兩套 SDK 替代分流

在 client 端同時整合行為分析 SDK（Mixpanel）和 error tracking SDK（Sentry），看似分工清楚，實際是兩套 schema、兩份 ingestion cost、兩組 PII 風險面、兩套 consent 管理。同一個 user action 在兩個平台各記一次，但欄位名、timestamp 精度、user identifier 可能不同，跨平台 correlation 困難。

統一 SDK + pipeline 分流的成本通常低於雙 SDK 的整合與治理成本。

Hot path 存全量高粒度

把 per-user / per-session 的完整事件直接灌進 Prometheus 或 Loki，會導致 cardinality 爆炸（4.7 Cardinality 治理）。Hot path 的正確做法是在 pipeline 層做 aggregation 或 relabeling，只保留 service / endpoint / status 等低 cardinality 維度。高粒度資料走 warm path。

Warm path 不做 PII 處理

行為分析需要 user segment，但不需要 PII 原文。warm path 的 ingestion pipeline 應該在寫入 warehouse 前做 PII redaction（hash user_id、truncate IP、strip email）。Monitoring 07 去識別化的策略同時適用於 hot 和 warm path。

讀者路由

如果你想	先讀
理解 event 格式設計	Monitoring 02 Log Schema
理解行為分析方法	Monitoring 08 Business Analytics
理解訊號治理和成本控制	Backend 04 Cardinality 治理、4.15 Cost Attribution
理解 pipeline 分流架構	Backend 04 Telemetry Pipeline
理解 PII 去識別化	Monitoring 07 Security Privacy
理解 client-to-server 端到端觀測串接	Backend 04 Client-to-Server 觀測串接

Retention

Mon, 22 Jun 2026 00:00:00 +0000

Retention 的核心概念是「資料或事件在系統中保留多久」。它影響 storage cost、audit 能力、replay 能力、debug 時間窗口、合規義務與資料刪除責任，跟 storage tiering 與 rollup 共同構成資料生命週期管理。

概念位置

Retention 連接資料生命週期跟查詢能力。不同類型的資料需要不同保留期限 — log 的 debug 用途可能只需要 7 天、audit log 因合規要求可能需要 1 年以上、metrics 的 raw data 可能保留 15 天但 rollup 保留 90 天。

Retention 跟 storage tiering 搭配運作 — hot tier 保留最近的高精度資料、warm / cold tier 保留較舊的低精度或歸檔資料。保留期限的設定見 4.7 cardinality 與成本邊界的保留階梯段。

使用情境

系統需要 retention 設計的訊號是事故排查或資料修復需要回看歷史。若 event stream 只保留 24 小時，三天前的錯誤就無法靠 replay 重建。反過來，無限保留會讓儲存成本持續成長。

設計責任

Retention 要同時考慮成本（儲存 × 時間）、法規（合規要求的最短保留期跟 GDPR 要求的最長保留期可能衝突）、資安（高敏感資料保留越久風險越高）、replay 需求（MQ 的 retention 影響 consumer 的 catchup 能力）跟 debug 能力（retention 太短讓事後分析無資料可用）。不同訊號類型用不同 retention 是基本做法 — error log 保留比 debug log 長、audit log 保留比 operational log 長。

可觀測性案例正文

Thu, 07 May 2026 00:00:00 +0000

這個資料夾的核心責任是把觀測案例變成可回寫章節。案例表格提供線索，正文負責輸出訊號邊界與路由。

章節列表

章節	主題	核心責任
4.C1	FinTech 審計證據觀測	把審計與證據鏈變成可觀測訊號
4.C2	Gaming 高峰訊號治理	把高峰流量下訊號失真風險前移
4.C3	Healthcare 存取可追溯性	把資料主權場景的存取證據做成治理閉環
4.C4	X-Ray 到 OTel 轉換	把觀測遷移標準化成可分段執行流程
4.C5	Cloud Trace OTLP 導入	把資料通道標準化納入觀測平台治理
4.C6	ADOT on EKS 遷移	把 collector/agent 管線轉換成集中治理
4.C7	Datadog OTel 遷移實務	把 APM 採集轉成 OTel-compatible 流程
4.C8	Airbnb K8s 規模化訊號	把叢集擴縮行為接回觀測與容量治理
4.C9	反例：OTel 遷移訊號漂移	雙軌採集未對齊導致告警與 SLO 判讀失真
4.C10	對照：規模差異下觀測遷移	不同規模團隊在觀測遷移的風險與流程差異
4.C11	Uber M3 大規模 Metrics	從散落的 Prometheus 到統一 metrics 平台
4.C12	Cloudflare 觀測三層能力	monitoring / analytics / forensics 拆分
4.C13	Discord 儲存→觀測缺口	每次遷移暴露觀測盲區的共同結構
4.C14	觀測成本治理	attribution + cardinality budget + tiering

可觀測性 Vendor 清單

Fri, 01 May 2026 00:00:00 +0000

可觀測性 Vendor 清單的核心責任是把工具名稱放回 telemetry contract、signal ownership、data quality、cardinality 與成本治理的判斷。每個服務頁先回答它承擔 metrics、logs、traces、errors、APM 或平台原生觀測的哪一段，再討論資料模型、查詢能力、成本與案例回寫。觀測這塊能力的買 vs 建特別現實：自建 telemetry stack（Prometheus、Grafana、Loki）、買 observability SaaS（Datadog、New Relic、Grafana Cloud），還是用雲端原生（CloudWatch、Cloud Monitoring）— 取捨與遷出代價見 0.22 能力級買 vs 建。

讀法

可觀測性服務要從訊號責任進入。讀者如果要建立 metrics baseline，先回到 Metrics Basics；如果要處理資料品質，先回到 4.17 Telemetry Data Quality；如果要交付 evidence，先回到 4.20 Observability Evidence Package。

教學順序同步

可觀測性服務頁的教學順序是先建立 OpenTelemetry 標準入口，再比較 metrics / logs / traces backend、SaaS observability 與 cloud-native 工具。這個順序服務 E1-E7 所有 checkout episode：每個服務變更都要把訊號整理成 evidence package，讀者要先理解 signal quality，再進入 vendor 能力與成本模型。

T1 服務頁大綱

服務	類型	頁面要回答的核心問題
OpenTelemetry	Standard / SDK	instrumentation、collector、semantic convention 如何降低 vendor lock-in
Prometheus	Metrics	pull model、PromQL、cardinality 與 retention 如何取捨
Grafana Stack	OSS / Cloud stack	Grafana、Loki、Tempo、Mimir 如何組成可觀測性平台
Datadog	SaaS APM	all-in-one APM、logs、traces、profiling 與成本治理如何取捨
Elastic Stack	Search / logs	log search、index lifecycle、APM 與資料量成本如何治理
Honeycomb	High-cardinality	event-based observability 與 high-cardinality 查詢如何支援除錯
AWS CloudWatch	AWS-native	AWS metrics、logs、alarms 與 account / region 邊界如何管理
GCP Cloud Operations	GCP-native	Cloud Monitoring、Logging、Trace 與 GCP resource model 如何整合
Sentry	Error tracking	error event、release、trace、session replay 如何連到 owner action

內容覆蓋進度

每個 vendor 服務頁下會擴充兩類文章：deep article（vendor 自身的配置、故障、容量、走 6-section 模板）跟 migration playbook（跨 vendor 遷移流程、走 6-type 結構）。「→ X」代表遷移到 X 的 playbook、「← X」代表從 X 遷入、其他形式代表 same-vendor 的 topology / version / config 變動。

Vendor	Deep article	Migration playbook
AWS CloudWatch	Logs Insights 治理 / Alarms 與 Composite	—
Datadog	成本治理與 Agent 配置 / OTLP Ingestion 與 OTel 整合	← New Relic / → Grafana Stack
Elastic Stack	ILM 與 Log Pipeline	→ Elastic Cloud
GCP Cloud Ops	Monitoring MQL / Logging 匯出合規	—
Grafana Stack	LGTM Stack Operations / Loki 設計與操作限制	Prometheus → Cloud Metrics
Honeycomb	High-Cardinality BubbleUp	← Sentry
OpenTelemetry	Collector 部署模式	—
Prometheus	容量規劃與故障模式 / PromQL 與 Recording Rules / Remote Write 與長期儲存	—
Sentry	Error Grouping Fingerprinting / Release Tracking Session Replay	—

進度（2026-06-23）：9 個 T1 vendor 全部有 deep article（共 21 篇）。OpenTelemetry 後續候選：Sampling 策略 / Auto-instrumentation。各 vendor 進階主題的更多 deep article 見各自 _index.md 的「預計實作話題」段。

服務頁撰寫欄位

欄位	可觀測性服務頁要保留的問題
服務責任	它承擔 signal standard、metrics、logs、traces、error tracking 還是 APM platform
適用壓力	cardinality、retention、debug speed、multi-cloud、compliance、成本哪個壓力最明顯
替代邊界	OSS stack、cloud-native、SaaS APM、specialized error tracking 的機會成本
操作成本	instrumentation、agent、collector、index、retention、query cost、PII governance
Evidence	dashboard、query link、trace sample、log sample、alert rule、data quality note
案例回寫	事故、capacity、release gate 與 cost attribution 如何回寫成 evidence package

服務頁標準章節

章節	可觀測性服務頁要補的內容
服務定位	它是 standard、metrics backend、log search、trace backend、APM 還是 error tracking
本章目標	讀者能判斷 signal ownership、data quality、cardinality、retention 與 cost
最短判讀路徑	用「現在缺哪個訊號會阻止決策」快速判斷該看 metrics、logs、traces 或 errors
日常操作與決策形狀	instrumentation、collector、agent、dashboard、alert、retention
核心取捨表	OSS stack、SaaS APM、cloud-native、specialized tool 的機會成本
進階主題	high-cardinality、sampling、multi-cloud、PII redaction、cost attribution
排錯與失敗快速判讀	missing signal、label explosion、trace gap、log index cost、alert noise
何時改走其他服務	標準化先用 OpenTelemetry、規模化 metrics 轉 managed backend、事故協作轉 08
不在本頁內的主題	每種語言 SDK 完整教學、dashboard 美術、所有 query cookbook
案例回寫與下一步路由	回到 4.20 evidence package、9.8 performance observability、8 incident cases

跨 vendor 議題對照

橫向議題在不同 vendor 用不同 mechanism 達成。本表列同一議題在 9 個 vendor 的對應位置、確保大綱不缺漏、讀者跨 vendor 查找時有索引。

議題	OTel	Prometheus	Grafana Stack	Datadog	Elastic Stack	Honeycomb	CloudWatch	Cloud Ops	Sentry
訊號類型	全（標準）	metrics	全 stack	全 + Security	logs + APM	events / traces	全 AWS-native	全 GCP-native	errors + APM
採集模式	SDK + Collector	Pull scrape	mixed	Agent push	Beats / Agent	SDK / OTLP	Agent / native	Agent / native	SDK push
查詢語言	N/A	PromQL	PromQL/LogQL/TraceQL	Datadog query	KQL / ES DSL	Honeycomb query	Logs Insights	Logs query	Issue filter
Cardinality	由 backend 決定	受限（series）	Mimir / Loki 各自	計費 per dim	Mapping limit	設計目標 (high)	計費 per metric	計費 per metric	issue grouping
部署模式	OSS standard	OSS self-host	OSS / Cloud	SaaS only	OSS / Cloud	SaaS only	AWS managed	GCP managed	OSS / SaaS
成本模型	取決 backend	self-host CapEx	self-host / Cloud	hosts + signals	self-host	events volume	ingestion + API	ingestion + API	events volume
多雲 / 跨平台	是（標準）	是 (OSS)	是	是	是	是	AWS-only	GCP-only	是
OTel 相容度	原生	exporter	OTLP receiver	OTLP ingestion	OTLP ES 7.16+	OTLP 原生	ADOT	OTLP Trace 2.0+	OTel context
主討論案例	C2/C3/C4/C5/C8	C1/C6/C7	C6/C11	C5	C5/C6	C7	C1/C8	C3	待補

對照表的用途有三：

寫某 vendor 頁時、檢查橫向議題是否有對應的進階主題子段
讀者選型時、知道對應 mechanism 在不同 vendor 的形態
評估遷移風險：訊號類型 + 部署模式 + OTel 相容度三維度合併判讀

下面 8 段把對照表的每行展開、避免裸表格成為終點。

訊號類型

訊號類型決定 vendor 解決哪一段觀測問題。OpenTelemetry 是 standard、覆蓋 traces / metrics / logs；Prometheus 純 metrics；Grafana Stack 全 stack（各 backend 各司其職、Loki + Tempo + Mimir + Pyroscope）；Datadog 全 + Security + RUM + CI；Elastic Stack logs 為主 + APM；Honeycomb events-based（不是 metrics aggregation）；CloudWatch / Cloud Operations 雲原生全 stack（含 traces / profiler）；Sentry 專精 error tracking + 簡易 APM。

選型判讀：缺哪個訊號 → 補對應 vendor；想 turnkey 全棧 → Datadog / cloud-native；想 OSS 全棧 → Grafana Stack；error tracking 已有 → Sentry / Bugsnag 補強。

採集模式

採集模式影響部署複雜度跟 instrumentation 工作量。OTel 是 SDK + Collector 兩層；Prometheus 是 pull scrape（service discovery）；Grafana Stack 各 backend 模式不同（Loki push / Tempo OTLP / Mimir remote write）；Datadog Agent push；Elastic Beats / Logstash / Agent；Honeycomb SDK push 或 OTLP；CloudWatch / Cloud Ops 雲服務內建 + Agent；Sentry SDK push。

選型判讀：服務在 K8s + 想自管 → Prometheus pull + Operator；應用層 push → OTel SDK + Collector；不想配 instrumentation → Datadog / cloud-native 自動。

查詢語言

查詢語言差異影響 dashboard / alert 設計成本。Prometheus PromQL（業界 metrics query 標準）；Grafana 支援 PromQL（Mimir）/ LogQL（Loki）/ TraceQL（Tempo）；Datadog 自家 query syntax；Elastic KQL / Lucene / ES DSL / ES|QL；Honeycomb point-and-click + 簡單 query；CloudWatch Logs Insights syntax；Cloud Ops 類似但 GCP-specific；Sentry 是 issue filter、不算 query language。

選型判讀：跨 vendor 統一 → 學 PromQL + LogQL（Grafana 通用）；vendor-specific → 依該 vendor 學；OTel 不解決 query 問題（純 instrumentation 標準）。

Cardinality 處理

Cardinality 是 observability 成本跟可用性的關鍵。Prometheus 受限（series 爆炸會 OOM）；Datadog custom metrics 計費 per dimension；CloudWatch / Cloud Ops metrics 計費 per metric；Elastic mapping field limit；Honeycomb 設計目標就是 high-cardinality（events-based）；Grafana Stack Mimir 多 tenant 各自 cardinality budget；Sentry 用 issue grouping 替代 cardinality 概念。

選型判讀：high-cardinality 是核心需求（per-user / per-request debug）→ Honeycomb；中等 cardinality + 成本敏感 → Prometheus + 設計謹慎；任意 cardinality + 計費承擔 → Datadog。

部署模式

部署模式決定運維責任歸屬。OTel 是 standard、各 backend 各自部署；Prometheus OSS self-host；Grafana Stack OSS self-host / Grafana Cloud；Datadog / Honeycomb / Sentry SaaS（Sentry 有 self-host OSS）；Elastic OSS / Elastic Cloud / OpenSearch fork；CloudWatch / Cloud Ops 雲原生 managed。

選型判讀：要極致控制 → self-host OSS；不想運維 → SaaS（Datadog / Honeycomb / Sentry）；已在 AWS / GCP → 雲原生 + 補強；混合模式 → OTel 抽象層 + 多 backend。

成本模型

成本模型差異大、容易誤判。OTel 本身無成本、取決下游 backend；Prometheus self-host CapEx（compute + storage）；Grafana Stack self-host CapEx 或 Grafana Cloud OpEx；Datadog hosts + signal 各自計費（容易堆疊）；Elastic self-host CapEx 或 Elastic Cloud；Honeycomb events volume；CloudWatch / Cloud Ops ingestion + API call；Sentry events / users / replays 計費。

選型判讀：可預期固定成本 → self-host（CapEx）；流量不穩 → SaaS（OpEx + 預警）；多訊號類型 → Datadog 容易爆、Honeycomb 計費單純；AWS / GCP-only 場景 → 雲原生通常 cheaper than 第三方 SaaS。

多雲 / 跨平台

多雲決定 vendor 鎖定風險。OTel 是抽象層、最不 lock-in；Prometheus / Grafana Stack / Elastic / Datadog / Honeycomb / Sentry 都支援多雲；CloudWatch AWS-only；Cloud Ops GCP-only；Azure Monitor Azure-only（T2 候選）。

選型判讀：多雲 → 避免 AWS / GCP-only vendor、用 Datadog / Grafana Stack / OTel + multi-backend；單一雲 → 雲原生通常成本最低；既有混合 → OTel 標準化 + 漸進遷移。

OTel 相容度

OTel 相容度影響 vendor 切換成本。各 vendor 接受程度：

完全相容（drop-in）：Honeycomb / Grafana Tempo / Cloud Trace（2.0+）
接受但 feature 落後 vendor SDK：Datadog / CloudWatch（X-Ray 整合）/ Elastic APM
跟 OTel 互補但設計不同：Prometheus（exporter pattern）/ Sentry（OTel context）

選型判讀：未來想換 vendor → 從 day 1 用 OTel SDK；不換 vendor → vendor SDK 較深；多 backend dual ship → OTel 幾乎是唯一可行路徑。

撰寫批次

批次	服務頁	撰寫目的
O1	OpenTelemetry	建立 instrumentation standard、collector 與 vendor portability
O2	Prometheus / Grafana Stack	建立 metrics baseline、cardinality 與 OSS platform 判準
O3	Elastic Stack / Datadog / Honeycomb / Sentry	建立 logs / APM / high-cardinality / error tracking 對照
O4	AWS CloudWatch / GCP Cloud Operations	建立 cloud-native observability 與 account / project 邊界

後續候選

類型	候選服務	寫作重點
Enterprise APM	New Relic、Dynatrace、Splunk Observability	SaaS APM、enterprise workflow、成本治理
OSS / Hybrid	SigNoz、Chronosphere、VictoriaMetrics、Thanos、Cortex	Prometheus scale、managed metrics、OpenTelemetry ingestion
Tracing	Jaeger、OpenSearch Observability	trace backend、OpenTelemetry-native ingestion、log correlation
Logs / pipeline	Fluent Bit、Fluentd、Vector、OpenSearch	log shipping、filtering、index lifecycle、cost
Error tracking	Bugsnag、Rollbar、Raygun	release health、frontend / backend error ownership
Cloud-native	Azure Monitor	Azure resource model、Log Analytics、cost boundary

主流覆蓋檢查的重點是分開 instrumentation、metrics、logs、traces、APM 與 error tracking。OpenTelemetry 是標準入口，Prometheus / Thanos / Cortex / VictoriaMetrics 是 metrics 路線，Loki / OpenSearch / Elastic 是 logs / search 路線，Jaeger / Tempo 是 tracing 路線，Datadog / New Relic / Dynatrace / Splunk 是 SaaS APM 路線。

下一步路由

上游：4.17 Telemetry Data Quality
上游：4.20 Observability Evidence Package
服務路徑：4.22 Checkout API Evidence Package 實作示範
跨模組：9.8 效能可觀測性

Trace ID

Mon, 22 Jun 2026 00:00:00 +0000

Trace ID 的核心概念是「分散式追蹤中同一條呼叫路徑的全域識別碼」。一個 trace 由多個 span 組成，trace ID 讓 tracing 系統把散落在不同服務的 span 聚合成同一次操作的完整路徑。

概念位置

Trace ID 是 tracing 的頂層關聯欄位。W3C Trace Context 標準使用 128-bit 隨機值（32 hex chars）；部分 vendor 使用 64-bit（Datadog 舊版、Zipkin v1）。混用不同長度時需要在 collector 層做 ID 轉換或 padding。

Trace ID 跟 request id 的定位不同：request id 是單一服務內的請求識別碼（通常由 API gateway 或 load balancer 產生），trace id 是跨服務的追蹤識別碼（由第一個 instrumented service 產生）。兩者可以共存在同一筆 log 的不同欄位，各自服務不同的查詢需求。

使用情境

Trace ID 的診斷價值是「拿到一個 ID 就能看到整條 request 路徑」。事故中從 error log 拿到 trace ID，貼進 tracing UI（Jaeger、Grafana Tempo、Datadog APM），直接看 waterfall view 定位瓶頸。

Trace ID 也是 log / metric / trace 三者的關聯樞紐。Log 的結構化欄位帶 trace ID 時，debug 工作流可以從 log → trace 或 trace → log 雙向跳轉。Metric 的 exemplar 帶 trace ID 時，可以從 dashboard 的 latency spike 跳到具體的高延遲 trace。

設計責任

Trace ID 要透過 trace context 在 HTTP header、queue message header、thread context 上傳遞。Log 層面，trace ID 應作為必要欄位寫入 structured log（見 4.1 log schema）。Sampling 策略要確保錯誤與高延遲 trace 有足夠保留率，避免事故時 trace ID 存在於 log 但對應的 trace 資料已被 sampling 丟棄。

Span

Mon, 22 Jun 2026 00:00:00 +0000

Span 的核心概念是「trace 中的一段有起止時間的工作」。每個 span 記錄操作名稱、開始與結束時間、狀態（OK / Error）、屬性（service name、http.status_code、db.statement）與事件（exception message）。

概念位置

Span 是 tracing 的基本單位。HTTP handler、database query、cache call、broker publish、consumer handle 與外部 API 呼叫都可以形成 span。Span 之間透過 parent-child 關係組成 tree — 共享同一個 trace id 的所有 span 構成一條完整的 trace。

Span 有四種 kind：CLIENT（發起呼叫）、SERVER（接收呼叫）、PRODUCER（投遞訊息）、CONSUMER（消費訊息）。Kind 影響 trace backend 怎麼計算 service-to-service 的延遲跟依賴方向。

使用情境

系統需要 span 的訊號是單一 request 裡有多個步驟，需要知道哪一步變慢或出錯。Checkout trace 中 payment span 佔 80% 時間，問題焦點就落在付款依賴或其網路路徑。

設計責任

Rollup 是 storage tiering 在時間維度的具體實作。它跟 recording rule 的差別在於：recording rule 是降維度（把多個 label 聚合成一條 series），rollup 是降時間精度（把 15 秒的點變成 5 分鐘的點）。兩者經常搭配使用。

設計責任

設計 rollup 時要定義每一層的精度、保留期、聚合函數與查詢路由規則。聚合函數的選擇影響查詢語意：對 counter 做 sum 跟對 gauge 做 average 是合理的；但對 histogram 做 average 會失去分布資訊。

查詢路由是 rollup 設計的關鍵配套。使用者查詢 7 天範圍時系統自動路由到 5 分鐘粒度、查詢 90 天範圍時路由到 1 小時粒度。若路由不透明，使用者會對精度差異產生困惑。

使用情境

需要 rollup 的訊號是 TSDB 儲存成本持續成長、長時間範圍的 dashboard panel 查詢逾時、或保留政策因為儲存限制被迫縮短。Thanos compactor、Cortex/Mimir compactor、VictoriaMetrics downsampling 都是常見實作。

在觀測領域的查詢設計見 4.2 metrics 聚合查詢跟 4.23 觀測查詢設計。

Storage Tiering

Mon, 22 Jun 2026 00:00:00 +0000

Storage tiering 按資料被查詢的頻率與時間壓力，把資料放在不同速度與成本的儲存層。最近的資料放在快速儲存（hot tier），較舊的資料依序移到較慢但便宜的儲存（warm tier、cold tier），最終可歸檔到 object storage 或離線備份。它跟 rollup 共同構成觀測資料的生命週期管理，受 retention 期限驅動。

概念位置

Storage tiering 是觀測資料管理的基礎設施層決策，影響查詢能力、成本結構與保留政策。它跟 rollup 的分工是：tiering 決定資料放在哪種儲存、rollup 決定資料以什麼精度存放。兩者共同構成觀測資料的生命週期管理。

設計責任

設計 tiering 時要定義每一層的查詢 SLA、儲存成本、資料轉移觸發條件與跨層查詢行為。

層級	典型儲存	查詢延遲	資料精度
Hot	SSD / in-memory TSDB	毫秒到秒	原始精度
Warm	HDD / 分散式儲存	秒到十秒	原始或輕度 rollup
Cold	Object storage / S3	十秒到分鐘	rollup 或歸檔

跨層查詢是 tiering 設計的關鍵問題。當查詢範圍橫跨 hot 跟 warm 兩層時，回應時間由最慢的那層決定。使用者在 dashboard 把時間範圍從「最近 1 小時」拉到「最近 7 天」時，查詢延遲可能從毫秒跳到秒級，體驗落差需要在 UI 或文件中說明。

使用情境

需要 tiering 的訊號是觀測儲存成本持續成長但大部分查詢只命中最近的資料、或保留期因為成本壓力被迫縮短導致鑑識與稽核需求無法滿足。Elasticsearch ILM、Loki 的 chunk storage 分層、Thanos / Cortex 的 object storage backend 都是常見實作。

Tiering 對查詢能力的影響見 4.7 cardinality 治理跟 4.23 觀測查詢設計。

Materialized View

Mon, 22 Jun 2026 00:00:00 +0000

Materialized view 把查詢結果預先計算並持久儲存，是 read model 的一種實作方式。它跟一般 view 的差別在於 materialized view 有實體儲存，查詢時讀取的是快照而非即時計算。

概念位置

Materialized view 是 read model 的一種實作方式。在關聯式資料庫中它是 SQL-level 的物化查詢；在觀測領域，recording rule 扮演類似角色 — 把聚合計算的結果寫成新的 time series。兩者的共同設計問題是更新頻率、一致性延遲與維護成本。

設計責任

設計 materialized view 時要定義刷新策略（定時 / 觸發 / 手動）、資料新鮮度容忍上限、儲存成本與失效重建流程。刷新頻率決定讀取的 freshness — 每分鐘刷新的 materialized view 最多落後一分鐘，對 dashboard 場景通常足夠，對即席事故診斷可能不夠。

使用情境

需要 materialized view 的訊號是同一個複雜查詢被多個消費者反覆執行（dashboard panel、定期報表、alert rule），而且每次查詢的計算成本高到影響原始資料源的效能。在觀測場景中，SLO burn rate、跨服務 error ratio、多維度 latency percentile 是常見的 materialization 候選。

在資料庫的應用見 1.8 State Ownership。在觀測領域的應用見 4.23 觀測查詢設計。

終端機看 nginx 請求：GoAccess、ngxtop 與何時該用 pipeline 而非 TUI

Mon, 15 Jun 2026 00:00:00 +0000

Web 伺服器日誌監控工具把 nginx／Apache 的 access log 解析成終端機可讀的請求統計，讓遠端 SSH 進去的那台機器上，能即時看到現在誰在打、打哪些路徑、回什麼狀態碼、吃多少頻寬。它跟系統監控（btop 看 CPU／記憶體）的差別在於觀測對象：系統監控看主機資源，這類看的是 HTTP 請求流。

本文承接終端機圖形化工具總覽的 TUI 工具脈絡，屬監控的 web 請求子題。但比起工具本身，更該先分清的是「什麼時候用終端機看請求、什麼時候不該」，這放在最後一節。

GoAccess：即時請求儀表板

GoAccess 把 access log 解析成全螢幕的即時儀表板，責任是把一份 log 變成可讀的請求分析：狀態碼分布、top 請求路徑、不重複訪客、頻寬、回應時間、訪客的 OS 與瀏覽器。它既能開互動 TUI，也能輸出 HTML／CSV／JSON 報表。

驗證它解析的正確性可以走非互動模式 — 餵一份 nginx access log、指定格式、輸出報表：

1goaccess access.log --log-format=COMBINED -o report.html

--log-format=COMBINED 是對應 nginx 標準 combined 格式的預設。實測對一份 13 筆請求的 log，GoAccess 正確分出 9 筆 2xx、4 筆 4xx，並列出 top 路徑（/ 佔多數、/missing 等 404）、訪客 host、user-agent 與頻寬。互動模式（不加 -o）則是同一份資料的全螢幕即時版，連線中持續更新。

ngxtop：top 風格的請求即時表

ngxtop 把 access log 做成 top 風格的即時表，責任是用最精簡的版面看「現在最熱的請求路徑與其狀態碼分布」。它比 GoAccess 輕、聚焦在請求路徑與狀態碼，適合快速掃一眼。

1ngxtop -l access.log --no-follow

--no-follow 處理現有 log 後就退出（預設會持續跟隨新進的 log）。

這裡有一個實測會撞到的 gotcha：ngxtop 的 log 格式要跟實際的 nginx log_format 完全對上，否則它靜默回 0 records。nginx 官方 image 的預設 log_format 在標準 combined 之後多了一個 "$http_x_forwarded_for" 欄位，ngxtop 的預設格式不含它，結果就是「跑得起來、但一筆都沒解析到」。對策是用 -f 餵實際的格式：

1ngxtop -l access.log --no-follow \
2  -f '$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent" "$http_x_forwarded_for"'

格式對上後，ngxtop 正確處理 13 筆、分出 9 筆 2xx 與 4 筆 4xx，跟 GoAccess 的結果一致。相較之下 GoAccess 的 --log-format=COMBINED 對尾端多出的欄位較寬容。判讀訊號很明確：ngxtop 顯示 0 records 時，先懷疑的是格式沒對上，而非沒有流量。

何時用終端機看請求、何時不該

工具會用之後，真正該分清的是使用時機。監控 nginx 請求依目的走兩條完全不同的路。

當下排查與 ad-hoc 觀測，用終端機。情境是「伺服器現在很忙，進去看誰在打」「某個 endpoint 的 5xx 突然變多，即時看是哪一條」。這時 GoAccess／ngxtop／tail -f access.log 直接在那台機器上看當下狀況，是遠端 SSH 除錯的日常，也是這類 TUI 工具的主場。

持續的生產監控，不用終端機。沒有人 24 小時盯著 GoAccess。生產環境的請求監控走 pipeline：指標面用 nginx 的 stub_status（基礎）或 VTS 模組／nginx-prometheus-exporter（細到 per-status、per-upstream 的請求率），由 Prometheus 抓、Grafana 畫儀表板並設告警；日誌面把 access log 送到 Loki／ELK／Datadog 之類做查詢與長期保存。

分界濃縮成一句：終端機 TUI 答「這台機器現在怎樣」，pipeline 答「趨勢如何、超標叫我」。所以請求一直都有被監控，只是持續監控的那份在 Prometheus 與日誌平台、不在終端機。生產 pipeline 的設計（metrics、dashboard、SLO、告警與 vendor 選型）屬後端觀測性的範圍，見可觀測性平台；當排查升級成事故、需要止血與復盤的協作流程時，見事故處理與復盤。

下一步路由

系統資源（CPU／記憶體／磁碟）的即時監控：TUI 監控工具。
把即時觀測擺進可持久化的多工器 pane：tmux 基礎。
這類工具在遠端工具分類中的定位：終端機圖形化工具總覽。

SQLite Observability and Runbook

Thu, 21 May 2026 00:00:00 +0000

SQLite observability and runbook 的核心責任是把低操作成本服務補成可交接的 production evidence。SQLite 的元件少，但正式服務仍需要觀測 busy errors、WAL growth、backup freshness、restore drill、disk usage、migration result、file permission 與 application-level query health。

本文的判讀錨點是：SQLite 的 observability 要貼近 file、process、filesystem 與 application。它通常沒有 server DB 那種長駐監控平面，因此 runbook 要把 signal 從 app metrics、log、scheduled job、file metadata 與 restore evidence 裡組出來。

Signal Inventory

Signal inventory 的核心責任是列出 SQLite production 化後最能預告事故的訊號。這些訊號要放進 dashboard、log search 或 scheduled report，讓事故前後都能直接查。

Signal	來源	代表風險	建議反應
`SQLITE_BUSY` count	app log / metric	writer contention、long reader	查 transaction duration、busy timeout
WAL file size	filesystem metric	checkpoint lag、long reader	查 checkpoint result、reader age
Backup age	scheduled job metric	RPO 擴大	重跑 backup、檢查 storage
Restore drill age	release evidence	RTO 信心下降	排程 restore drill
Disk free	host / platform metric	write failure、checkpoint failure	清理、擴容、降級寫入
Migration version	app startup / metadata	schema drift	block release、跑 validation
Integrity check result	maintenance job	corruption / storage issue	進入 restore decision

SQLITE_BUSY 是 writer boundary 的最直接訊號。它可能代表長交易、read cursor 未關、parallel test 共用 DB、checkpoint 壓力或 write burst；runbook 要先查 query duration 與 transaction boundary，再調 busy timeout。

WAL size 是 checkpoint 與 reader 壓力的綜合訊號。WAL 持續成長時，先確認是否有長 reader、backup process、未完成 transaction 或 checkpoint 失敗；接著才考慮手動 checkpoint。

Backup age 是 RPO 的可觀測版本。若目標 RPO 是 5 分鐘，dashboard 就要顯示 last successful backup / replica time 與警戒線。

Backup Evidence

Backup evidence 的核心責任是證明資料可被拿回來。SQLite backup 的完成標準包含成功建立備份、保存 sidecar 語意、恢復到新路徑、通過 integrity check、跑 application smoke test。

Evidence	最小內容	失敗時路由
Backup job result	timestamp、duration、file size、target	重跑 job、檢查 credential / disk
Restore artifact	restored path、checksum、row count	回前一份 backup、檢查 WAL / snapshot
Integrity result	`PRAGMA integrity_check;`	停止寫入、進入 corruption triage
Application smoke test	啟動、讀核心頁、寫測試資料	rollback、保留 evidence
Retention note	保存天數、刪除策略、legal hold	更新 data protection policy

SQLite 官方 backup API 與 CLI .backup 是備份設計的基礎路由。WAL mode 下，直接複製單一 .db 檔容易漏掉 sidecar file 的時序；runbook 應使用 SQLite-aware backup 或經過 checkpoint / stop-the-world 的 snapshot。

1sqlite3 app.db ".backup 'backup/app-2026-05-21.db'"
2sqlite3 backup/app-2026-05-21.db "PRAGMA integrity_check;"

這段命令提供最小 restore evidence 的起點。正式演練要把備份檔複製到隔離路徑，使用相同 application version 啟動，跑核心 read/write smoke test，再記錄耗時與失敗條件。

Migration Evidence

Migration evidence 的核心責任是讓 SQLite schema change 可回退、可審查、可交接。單檔 DB 在使用者裝置或服務節點上升級時，migration 失敗會直接影響啟動、資料讀取與同步。

Evidence	內容	Release gate
Schema version	`PRAGMA user_version` 或 migration table	app startup 比對 expected version
Pre-migration snapshot	backup path、size、checksum	migration 前完成
Validation query	row count、FK check、domain invariant	migration 後立即執行
Smoke test	核心 read/write workflow	app release gate
Rollback route	restore snapshot 或 block startup	migration 失敗時啟動

Migration log 要包含版本、耗時、row count、錯誤、validation result 與 rollback decision。若 SQLite file 位於 end-user device，log 還要能被使用者支援流程收集，避免事故只停在「app 開不起來」。

1PRAGMA user_version;
2PRAGMA foreign_key_check;
3SELECT COUNT(*) FROM orders;

這些 query 是 migration 後的最小 evidence。正式服務要再補 domain-specific invariant，例如「所有 active subscription 都有 owner」、「所有 pending mutation 都有 idempotency key」。

Incident Runbook

Incident runbook 的核心責任是把 SQLite 事故分流到正確處置。SQLite 常見事故包含 disk full、busy storm、WAL growth、bad migration、corruption suspicion、backup failure 與 permission error。

Incident	第一個判讀問題	立即處置
Busy storm	有長 transaction 或 write burst 嗎	暫停非必要寫入、查 transaction duration
Disk full	DB / WAL / backup 哪個吃掉空間	停止寫入、清理 backup、擴容
WAL growth	checkpoint 被誰阻擋	查 reader、跑 checkpoint evidence
Bad migration	schema version 與 app version 是否一致	停止 rollout、restore snapshot、保留 failed DB
Corruption signal	integrity check 是否失敗	進入 read-only、restore last good backup
Backup failure	credential、network、destination 是否可用	切換 destination、補跑 restore drill

Busy storm 要先保護使用者操作。可以降低 write endpoint、停用背景 job、延長 retry backoff，然後用 log 查最長 transaction 與最多重試的 query。

Disk full 要先停止寫入。SQLite 在 disk full 時可能讓 write / checkpoint / backup 同時失敗；runbook 要保留剩餘空間、DB file、WAL file、backup directory 與 tmp directory 的大小。

Bad migration 要保留 failed artifact。先複製 failed DB 到 evidence path，記錄 schema version、app version、migration id、validation error，再執行 rollback。

Dashboard and Alert Route

Dashboard and alert route 的核心責任是讓 SQLite 被納入正式服務的可觀測系統。SQLite signal 常來自 application，因此 metric 命名要接近操作問題。

Metric name example	類型	用途
`sqlite_busy_total`	counter	writer contention
`sqlite_query_duration_ms`	histogram	slow query / long transaction
`sqlite_wal_size_bytes`	gauge	checkpoint pressure
`sqlite_backup_age_seconds`	gauge	RPO evidence
`sqlite_restore_drill_age_days`	gauge	RTO confidence
`sqlite_disk_free_bytes`	gauge	disk full prevention
`sqlite_migration_version`	gauge	schema drift

Alert 要連到 runbook，並提供可執行的第一步。每個 alert 至少要有 owner、severity、first query、rollback condition 與 escalation route。

Log schema 要保留 query category，而非只記原始 SQL。正式服務通常應避免把完整 SQL 與 PII 直接寫入 log；可以記 operation name、duration、row count、error code、busy retry count 與 correlation id。

Handoff

Handoff 的核心責任是讓下一個維護者知道 SQLite service 的邊界。交接文件要把「誰負責檔案」、「誰負責備份」、「誰能執行 restore」、「何時升級資料庫」寫清楚。

最小 handoff 包含：

Database file path、sidecar file policy、journal mode 與 PRAGMA baseline。
Backup command、destination、retention、last restore drill。
Migration command、schema version、rollback route。
Alert list、dashboard link、incident owner。
Known limits：writer concurrency、file size、edge / sync boundary。
Next route：PostgreSQL、D1 / Turso、Litestream / LiteFS 的評估條件。

Handoff 的重點是把低操作成本保留下來。SQLite 的好處來自少元件；可交接文件讓少元件不等於少 evidence。

下一步路由

Observability / runbook 完成後，下一步要接到具體演練。Backup 與 restore 讀 SQLite backup restore drill；WAL 與 busy 讀 WAL busy reproduction；正式服務的 evidence 可對齊 Observability Evidence Package 與 Incident Decision Log。