Mon, 22 Jun 2026 00:00:00 +0000

Retry policy 的核心概念是「定義失敗後何時再試、試幾次、用什麼間隔、何時停止」。重試可以吸收暫時性故障（網路抖動、下游短暫不可用），但也可能放大下游壓力或重複造成副作用，因此跟 idempotency 與 dead-letter queue 是成對設計。

概念位置

Retry policy 跟 dead-letter queue 構成錯誤處理的兩層機制 — retry 處理暫時性失敗，DLQ 承接 retry 耗盡後仍無法處理的訊息。Retry 跟 idempotency 是成對的設計 — 有 retry 就要有 idempotent consumer，否則重試可能造成重複扣款、重複發通知。

Retry 跟 retry storm 的關係是：大量 consumer 同時 retry 失敗的訊息會形成下游的流量尖峰，把暫時性故障放大成全系統問題。Exponential backoff + jitter 是緩解 retry storm 的標準做法。

使用情境

Choreography（編舞）：每個服務監聽事件、自行決定下一步動作、不需要中央協調者。耦合低；業務流程散落、debug 困難。
Orchestration（編排）：用一個中央 saga orchestrator 持有 state machine、逐步呼叫各服務並追蹤狀態。流程集中可見；orchestrator 是單點。

可觀察訊號與例子

電商 checkout 是典型 saga：下訂單 → 扣庫存 → 扣餘額 → 出貨。任一 step 失敗、反向觸發補償（退款、回滾庫存、取消訂單）。Order management、支付清算、跨服務交易都會用到。補償 transaction 失敗率非零、saga 引擎需要 retry + dead letter queue 處理。

設計責任

補償 transaction 必須是 idempotent — saga 引擎在故障重試時會重放補償。缺 idempotent 設計時、saga 補償會變成新事故來源。Choreography vs orchestration 的選擇要看「業務流程穩定度」— 流程穩定可走 choreography 簡化耦合、流程多變或 audit 要求高選 orchestration 保留 state machine。Saga timeout 跟 step timeout 要明示、確保 saga 推進到終態（成功或補償完成）。

Backpressure

Thu, 23 Apr 2026 00:00:00 +0000

Backpressure 的核心概念是「下游處理能力不足時，讓上游感知並放慢」。它把上游從「盲目送出」轉為「依下游能力送出」，讓系統在壓力下排隊、拒絕、降級或削峰，以保護下游資源並維持整體可預測性。Backpressure 的本質是「壓力從下游往上游傳遞」的訊號通道，覆蓋範圍比單純的拒絕策略更廣。可先對照 In-Process Channel。

概念位置

Backpressure 出現在 in-process channel、queue、worker pool、HTTP client、connection pool、broker 的 consumer 與 stream pipeline。它處理的是速度不匹配：進入速度高於處理速度。

Backpressure 與 rate limit 的差別在於資訊流向：rate limit 由上游主動設閘門（「每秒最多 N 個」），屬於容量規劃；backpressure 由下游回饋壓力（「我現在只能吃 M 個」），屬於動態調速。兩者常搭配使用：rate limit 處理已知的規劃容量，backpressure 處理無法預先預測的即時變化。

可觀察訊號

需要 backpressure 的訊號包含 queue depth 上升、記憶體持續增加、timeout 比例擴大、consumer lag 加深、下游 error rate 上升。當這些指標同時出現而上游流量維持穩定時，代表處理鏈某一段已成為瓶頸，壓力需要向上傳遞，而不是繼續往 buffer 堆積。

接近真實網路服務的例子

通知服務在行銷活動期間收到大量派送任務。若任務直接交給 worker 處理，worker 很快會塞滿下游第三方 API 的連線配額，latency 暴增、重試加倍，最終把佇列塞爆。導入 backpressure 後，服務依下游 API 實際吞吐動態調整 worker 取件速度：API 回應變慢時 worker 取件速度自動下降，上游請求端收到「任務已接收但延後送達」的回覆。整條 pipeline 的處理速度由最慢的一段決定，系統保留在可預測、可恢復的狀態。

設計責任

Backpressure 導入後，團隊需要定義以下邊界：buffer 大小、排隊上限、等待期限、拒絕策略、retry policy、load shedding 與對使用者的回饋（429 / 503 / 延後通知）。觀測上應能看到 queue depth、in-flight 數量、處理耗時、drop count、timeout、下游 error rate，並把關鍵指標放進 dashboard。

設計取捨的核心是 buffer 尺度：buffer 太小會讓瞬間尖峰被過度拒絕，流失可接受的請求；buffer 太大則延遲失控並可能拖累記憶體。穩定做法是「有限 buffer + 明確拒絕策略」，讓系統在超載時 fail fast，避免把壓力延後累積成更大的雪崩。

監控系統中 collector 用 HTTP 429 向 SDK 傳遞背壓的具體實作見監控知識卡：Backpressure。

Consensus Protocol

Wed, 27 May 2026 00:00:00 +0000

Consensus protocol 的核心責任是「讓多個獨立節點在訊息可能延遲、丟失、亂序的網路環境下、仍能對同一個值或同一個決策達成一致」。常見演算法：Paxos（理論基礎、難實作）、Raft（教學友善、Etcd / Consul / CockroachDB 採用）、ZAB（ZooKeeper 採用）、Multi-Paxos / EPaxos（Paxos 工程變體）。是 leader election 跟 distributed lock 的底層機制、跟 replication channel 互補（consensus 保證一致順序、replication 負責複製狀態）。

概念位置

Consensus protocol 處於分散式系統的協調控制底層、上面分別構築 leader election、state machine replication、cluster membership 三類能力。每筆 write 通常要跨 majority quorum 節點 round trip — 5 節點 cluster 失去 3 節點以上就停寫保護（防範 split-brain）。對比 gossip protocol（SWIM、Serf）— consensus 給「強一致順序」、gossip 給「最終一致成員管理」、各自適用情境。

可觀察訊號與例子

Etcd / Consul / ZooKeeper 都是 consensus 服務、被 Kubernetes、Vault、Patroni 等系統當 coordination backend。實測 commit latency 隨 cluster 大小升高（3 節點同 AZ ~ 1-5ms、5 節點跨 region 可能 50-200ms）。故障恢復期間 election timeout 典型 150-500ms、期間短暫不可寫。CockroachDB / Spanner 在 OLTP write 路徑同樣依賴 consensus、是寫入延遲的下限。

設計責任

水平擴展 stateful 服務時、若依賴 distributed lock 或 leader election 來協調工作、要把 consensus latency 算進事故時的 RTO。Quorum 大小設計要考慮「容忍 N 節點失效」需要至少 2N+1 節點。跨 region 部署的 consensus 服務、要明示「region 失效時降級為 read-only」的策略 — region 失效時 quorum 可能跨不過、要事先規劃降級路徑。

Rate Limit

Thu, 23 Apr 2026 00:00:00 +0000

Rate limit 的核心概念是「限制某個主體在一段時間內可以使用的資源量」。主體可以是 user、API key、IP、tenant、endpoint、worker、producer 或內部服務。

概念位置

Rate limit 是容量保護與公平性工具。它可以保護登入、搜尋、匯出、第三方 API、webhook endpoint 與下游服務，降低單一來源耗盡共享資源的風險。可先對照 Producer。

可觀察訊號與例子

系統需要 rate limit 的訊號是少數使用者或客戶端造成大量 request。匯出報表 API 缺少 rate limit 時，單一 tenant 的批次工作可能佔滿 database connection pool，影響其他 tenant 的正常查詢。

設計責任

限流設計要定義主體、窗口、配額、超限回應、例外權限與觀測欄位。對外 API 要提供清楚的 retry-after 或配額資訊；內部服務要搭配 alert、token bucket 與容量規劃。完整的實作指南（單機 middleware、Redis 分散式限速、配額設計）見 Rate Limit 實作。

監控系統中 per-SDK rate limiting 和偽造流量防護的具體實作見監控知識卡：Rate Limiting。

Stale-While-Revalidate

Wed, 27 May 2026 00:00:00 +0000

Stale-while-revalidate（SWR）的核心概念是「TTL 過期後仍可立即回舊版本給使用者、同時背景發出 origin request 拉取新版本更新快取」。使用者體驗永遠快、新鮮度有「最多 stale max-age + swr」秒的上限。是天然的 cache stampede 緩解機制 — 把「TTL 過期那一刻 N 個請求同時打 origin」變成「TTL 過期那一刻 1 個請求打 origin、其他 N-1 個拿舊版」。

概念位置

SWR 處於 HTTP cache 失效策略層、跟 TTL、Cache Invalidation 是兄弟概念。TTL 定義「何時 expire」、SWR 定義「expire 之後仍允許用舊版的時間窗口」、cache invalidation 定義「主動清掉」。跟 Stale-If-Error 屬不同維度但常一起配置 — SWR 處理過期、SIE 處理錯誤。

可觀察訊號與例子

Cache-Control: max-age=60, stale-while-revalidate=600 的服務行為：60 秒內 cache 完全新鮮、60-660 秒之間 client 仍立即拿到舊版（但 cache 已背景重整）、660 秒後才強制等 origin response。Cloudflare / Fastly / Varnish 都支援、瀏覽器 cache 也尊重這個 directive。

新鮮度敏感的場景（庫存、價格、權限）應限縮 SWR 範圍或關閉、保住 stale 風險的上限；blog 文章、商品描述、靜態 metadata 適合 SWR 降低 origin 壓力。

設計責任

選擇 SWR window 要在「origin 壓力」跟「freshness budget」間取捨。Window 越長、origin 壓力越低、stale 容忍度越高；window 越短、freshness 越接近 TTL、但 cache stampede 緩解效果下降。常見組合是 stale-while-revalidate 設成 max-age 的 5-10 倍。資料新鮮度敏感場景要走白名單路徑、由 endpoint 個別 opt-in 開啟 SWR。

Circuit Breaker

Thu, 23 Apr 2026 00:00:00 +0000

Circuit breaker 的核心概念是「下游持續失敗時，暫時停止呼叫該下游」。它讓 application fail fast、使用 fallback 或進入 degradation，降低每個 request 都等待同一個失效依賴的風險。

概念位置

Circuit breaker 是失敗隔離工具。它通常搭配 timeout、retry policy、rate limit、fallback 與 dashboard 使用；目標是控制故障擴散，而非修復下游。

可觀察訊號與例子

系統需要 circuit breaker 的訊號是下游錯誤率高、latency 飆升，並拖慢上游服務。推薦服務持續 timeout 時，商品頁可以短暫停止呼叫推薦，改顯示熱門商品。

設計責任

Circuit breaker 要定義開啟條件、半開探測、恢復條件、fallback 行為與 alert。設計時要控制短暫波動對可用性的影響，因此門檻與 metrics 要一起調整。

Stale-If-Error

Wed, 27 May 2026 00:00:00 +0000

Stale-if-error（SIE）的核心概念是「cache 過期後若 origin 回 5xx 或不可達、用舊版本頂著、確保使用者仍能拿到回應」。是 cache 充當 fallback 的明示授權 — 把 origin protection 從「降低 origin 流量」延伸到「origin 故障時保持服務」。跟 Stale-While-Revalidate 屬不同維度但常一起配置 — SWR 處理過期、SIE 處理錯誤。

概念位置

SIE 處於 HTTP cache 失效策略層、是 cache 從「降延遲工具」升級成「fallback 機制」的關鍵 directive。跟 TTL、Cache Invalidation 是兄弟。觸發條件跟 SWR 不同：SWR 是「TTL 過期但 origin 正常」、SIE 是「origin 出錯」— 一個是 condition-driven、一個是 error-driven。

可觀察訊號與例子

W3C Trace Context 標準定義了 HTTP 的傳遞格式：traceparent header 帶 version + trace id + parent span id + trace flags，tracestate header 帶 vendor-specific 附加資訊。OpenTelemetry SDK 預設使用 W3C 格式。部分 vendor 有自己的 header（Datadog 用 x-datadog-trace-id、AWS X-Ray 用 X-Amzn-Trace-Id），跨 vendor 時需要在 collector 層轉換。

使用情境

系統需要 trace context 的訊號是延遲或錯誤跨越多個服務。Checkout 變慢時，trace context 讓 tracing 系統把 API gateway、order service、payment service、database query 的 span 串成一條路徑，在 waterfall view 中直接看到時間花在哪。

Context 在 HTTP call、gRPC metadata、queue message header 上傳遞。Queue 邊界的 propagation 比 HTTP 複雜 — consumer 可能在 producer 之後很久才消費，context 的時間跨度從毫秒擴大到分鐘。

設計責任

概念位置

Histogram 是 metrics 中描述分布的工具，跟 counter（計數）跟 gauge（瞬間值）互補。Average 只能說明中心趨勢；histogram 可以支援 percentile（p95 / p99）、SLI 計算跟 burn rate 判斷。

Prometheus 的 histogram 用累積 bucket（le label）實作 — 每個 bucket 記錄「值 <= le 的觀測次數」。PromQL 的 histogram_quantile() 從 bucket 資料估算 percentile。

使用情境

系統需要 histogram 的訊號是少數慢 request 會影響使用者體驗但 average 看不出來。Checkout 平均延遲 100ms 看起來良好，但 p99 若超過 3 秒，1% 的使用者體驗極差。Histogram 讓這個長尾可見。

設計責任

Histogram bucket boundary 要依 SLO 閾值跟實際延遲範圍設計。Bucket 太粗（只有 100ms / 500ms / 1s）會讓 percentile 估計跳躍式變化；太細會增加 cardinality（每個 bucket 是一條 time series）。常見做法是在 SLO 閾值附近密集、在兩端稀疏。詳見 4.2 metrics basics。

Bucket

Thu, 23 Apr 2026 00:00:00 +0000

Bucket 的核心概念是「histogram 中用來統計觀測值範圍的界線」。每個 bucket 代表小於等於某個上限的觀測值累積數。可先對照 Buffer。

Sampling 是觀測成本控制工具。它可以是固定比例、依錯誤保留、依延遲保留、依 tenant 保留或 adaptive sampling。可先對照 Schema Migration。

可觀察訊號與例子

系統需要 sampling 的訊號是 trace 或 log 成本隨流量快速成長。Checkout 成功 request 可低比例採樣，錯誤與高延遲 request 則應提高保留率。

設計責任

Sampling 要定義保留規則、偏差、查詢限制與事故期間調整方式。抽樣後的資料適合診斷趨勢，但某些 audit 或法規資料需要完整保留。

監控 SDK 中靜態取樣和動態取樣（背壓觸發）的具體實作見監控知識卡：Sampling。

Correlation ID

Mon, 22 Jun 2026 00:00:00 +0000

Correlation ID 的核心概念是「把同一個業務流程中的多筆紀錄關聯起來的識別碼」。它是 log schema 的核心欄位，可以跨 request、queue message、background job、log、trace 與外部 API 呼叫。

概念位置

Correlation ID 跟 trace id 的定位不同。Trace id 偏向一次技術呼叫路徑（一個 HTTP request 經過多個服務）；correlation ID 可以代表更長的業務流程（一筆訂單從建立到付款到出貨，跨越多個獨立 request）。

Correlation ID 是 log schema 的核心欄位。Log 帶 correlation ID 時，跨服務跟跨 async 邊界的事件可以用同一個 ID 查出完整業務流程。見 4.1 log schema。

使用情境

系統需要 correlation ID 的訊號是事故排查需要跨同步與非同步邊界。訂單建立 request、付款事件、寄信 job 與出貨事件共享同一 correlation ID，讓客服跟工程師追到完整流程。

設計責任

Correlation ID 要在入口（API gateway 或 first service）建立或從 upstream 接收，並傳遞到 log、message header、trace context 與外部呼叫。欄位名稱要穩定（跨服務一致，避免 request_id vs req_id vs requestId 的漂移），避免把敏感資料當成 ID。

Request ID

Thu, 23 Apr 2026 00:00:00 +0000

Request ID 的核心概念是「識別單次 request 的 ID」。它讓同一個 request 在 API Gateway、application、database log 與 error response 之間可以被追蹤。

概念位置

Request ID 是同步 request 診斷的基本欄位。它通常比 trace 簡單，適合放在 log、response header 與客服查詢流程中。可先對照 API Gateway。

可觀察訊號與例子

系統需要 request ID 的訊號是使用者回報錯誤時，工程師需要快速找到對應 log。錯誤頁顯示 request ID，客服可以把 ID 交給工程師查完整處理路徑。

設計責任

Request ID 要在入口統一產生或接受可信上游傳入，並在 response、log、trace 與下游呼叫中保留。安全設計要避免讓外部可控 ID 汙染內部查詢或造成 spoofing。

Trace ID

Mon, 22 Jun 2026 00:00:00 +0000

Trace ID 的核心概念是「分散式追蹤中同一條呼叫路徑的全域識別碼」。一個 trace 由多個 span 組成，trace ID 讓 tracing 系統把散落在不同服務的 span 聚合成同一次操作的完整路徑。

概念位置

Trace ID 是 tracing 的頂層關聯欄位。W3C Trace Context 標準使用 128-bit 隨機值（32 hex chars）；部分 vendor 使用 64-bit（Datadog 舊版、Zipkin v1）。混用不同長度時需要在 collector 層做 ID 轉換或 padding。

Trace ID 跟 request id 的定位不同：request id 是單一服務內的請求識別碼（通常由 API gateway 或 load balancer 產生），trace id 是跨服務的追蹤識別碼（由第一個 instrumented service 產生）。兩者可以共存在同一筆 log 的不同欄位，各自服務不同的查詢需求。

使用情境

Trace ID 的診斷價值是「拿到一個 ID 就能看到整條 request 路徑」。事故中從 error log 拿到 trace ID，貼進 tracing UI（Jaeger、Grafana Tempo、Datadog APM），直接看 waterfall view 定位瓶頸。

Trace ID 也是 log / metric / trace 三者的關聯樞紐。Log 的結構化欄位帶 trace ID 時，debug 工作流可以從 log → trace 或 trace → log 雙向跳轉。Metric 的 exemplar 帶 trace ID 時，可以從 dashboard 的 latency spike 跳到具體的高延遲 trace。

設計責任

Trace ID 要透過 trace context 在 HTTP header、queue message header、thread context 上傳遞。Log 層面，trace ID 應作為必要欄位寫入 structured log（見 4.1 log schema）。Sampling 策略要確保錯誤與高延遲 trace 有足夠保留率，避免事故時 trace ID 存在於 log 但對應的 trace 資料已被 sampling 丟棄。

Span

Mon, 22 Jun 2026 00:00:00 +0000

Span 的核心概念是「trace 中的一段有起止時間的工作」。每個 span 記錄操作名稱、開始與結束時間、狀態（OK / Error）、屬性（service name、http.status_code、db.statement）與事件（exception message）。

概念位置

Span 是 tracing 的基本單位。HTTP handler、database query、cache call、broker publish、consumer handle 與外部 API 呼叫都可以形成 span。Span 之間透過 parent-child 關係組成 tree — 共享同一個 trace id 的所有 span 構成一條完整的 trace。

Span 有四種 kind：CLIENT（發起呼叫）、SERVER（接收呼叫）、PRODUCER（投遞訊息）、CONSUMER（消費訊息）。Kind 影響 trace backend 怎麼計算 service-to-service 的延遲跟依賴方向。

使用情境

系統需要 span 的訊號是單一 request 裡有多個步驟，需要知道哪一步變慢或出錯。Checkout trace 中 payment span 佔 80% 時間，問題焦點就落在付款依賴或其網路路徑。

設計責任

Span 設計要控制名稱粒度、屬性選擇、錯誤狀態與敏感資料。Span 名稱太粗（所有 HTTP call 都叫 HTTP）會看不出瓶頸；太細（每個 URL path parameter 都獨立命名）會讓 span 名稱成為無界維度、影響 trace backend 的聚合效能。

屬性要帶足夠的診斷資訊但避免敏感資料。http.url 帶完整 URL 可能含 query parameter 裡的 token；db.statement 帶完整 SQL 可能含使用者資料。需要在 SDK 或 collector 層做 redaction。

Symptom-Based Alert

Mon, 22 Jun 2026 00:00:00 +0000

Symptom-based alert 的核心概念是「alert 優先偵測使用者或產品可感知的症狀」。症狀包括錯誤率、延遲、可用性、資料延遲、付款失敗與訊息未送達。

概念位置

Symptom-based alert 跟 cause-based alert 分工不同。CPU 高、queue depth 高、GC 頻繁是可能的原因；checkout 失敗率升高才是直接的產品症狀。Symptom-based 適合 critical severity（page on-call），cause-based 適合 warning severity（工作時間排入 task）。

Symptom-based alert 是 4.4 dashboard-alert 建議的 alert 設計起點 — 先確認使用者是否受影響、再看系統原因。

使用情境

系統需要 symptom-based alert 的訊號是 on-call 被大量低層訊號吵醒，但無法判斷使用者是否受影響。付款成功率下降應立即告警；單台 instance CPU 高則可先進 dashboard 觀察或走自動修復流程。

設計責任

Symptom-based alert 要連到 SLI / SLO、runbook 與影響判斷。SLO-based alerting 用 burn rate 量化症狀嚴重度 — 「error budget 消耗速度是允許值的 14 倍」比「error rate > 1%」更能反映使用者影響規模。完整設計見 4.6 SLI/SLO 訊號設計。

Runbook Link

Thu, 23 Apr 2026 00:00:00 +0000

Runbook link 的核心概念是「alert 或 dashboard 直接連到對應處理流程」。它讓 on-call 從訊號直接進入可執行步驟，並降低對搜尋文件或個人記憶的依賴。

概念位置

Runbook link 是 observability UX 的一部分。它把 alert、dashboard、log query、rollback、擴容、停用 feature 與升級聯絡方式串起來。

可觀察訊號與例子

系統需要 runbook link 的訊號是告警發出後，處理者仍要在聊天紀錄或文件庫中找下一步。Consumer lag 告警應直接連到 lag dashboard、DLQ 查詢、擴容指令與 replay runbook 注意事項。

設計責任

Runbook link 要保持有效、可搜尋、版本化。每次事故後應確認連結是否真的支援當次處理，並補上缺少的查詢與判斷條件。

Alert Fatigue

Mon, 22 Jun 2026 00:00:00 +0000

Alert fatigue 的核心概念是「過多低品質告警讓處理者對告警失去敏感度」。當告警常常沒有使用者影響、沒有行動步驟或頻繁自動恢復，on-call 會開始忽略訊號 — 包括真正需要處理的那些。

概念位置

設計時要定義版本相容、錯誤處理、欄位演進與測試方式。Communication Protocol 的目標是讓雙方知道哪些行為是約定的一部分，格式複雜度應盡量收斂。

HTTP Client

Thu, 23 Apr 2026 00:00:00 +0000

HTTP client 的核心概念是「application 對外部 HTTP 服務發出 request 的呼叫邊界」。這個邊界需要管理 timeout、deadline、connection pool、retry policy、TLS、錯誤分類與觀測欄位。

概念位置

HTTP client 是常見下游依賴入口。它可能呼叫付款、通知、搜尋、身份驗證、第三方 API 或內部微服務；每個 client 都會把外部延遲與失敗帶回 application。可先對照 Timeout。

可觀察訊號與例子

系統需要整理 HTTP client 的訊號是下游 API 變慢後，上游 request latency 與 worker 等待同步上升。付款 API timeout 時，checkout 要能快速分類錯誤、限制重試並保留使用者流程。

設計責任

HTTP client 要定義連線池、timeout、retry budget、backoff、jitter、circuit breaker、authentication、TLS 與 log / metrics / trace 欄位。不同下游應有獨立設定與觀測名稱。

Container

Thu, 23 Apr 2026 00:00:00 +0000

Container 的核心概念是「把應用程式與執行環境封裝成可交付單位」。它通常承載 application binary、runtime 依賴、config 與啟動命令。可先對照 Resource Limit。

設計時要定義健康條件、移除條件、回切條件與排空時間。Load balancer 本身不處理業務邏輯，但它直接影響可用性、切換速度與連線體驗。

Queue

Mon, 22 Jun 2026 00:00:00 +0000

Queue 的核心概念是「把等待處理的工作依序放入一個可觀測的等待區」。它讓 producer 和 consumer 在時間上解耦，也讓系統可以用等待長度、等待時間與處理速率評估容量壓力。

概念位置

Queue 可以存在於 application 內部（in-process channel + worker pool），也可以由 broker、database table 或 stream platform 提供。Application 內部的 queue 隨 process 生命週期消失；跨 process、需要保存與重放的 queue 通常需要 durable queue 或 broker。

Queue 跟 topic 的差異：queue 的語意通常是「一筆訊息被一個 consumer 處理」（competing consumers），topic 的語意是「一筆訊息可以被多個 consumer group 各自處理」（fan-out）。但不同 broker 的術語定義不同 — RabbitMQ 的 queue 跟 Kafka 的 partition 在消費語意上有本質差異。

使用情境

系統需要 queue 的訊號是進入速度跟處理速度會短暫不一致。寄信、報表匯出、圖片轉檔、訂單狀態同步都適合先排入 queue，再由 consumer 依照容量處理。Queue depth 跟 oldest item age 會反映延遲壓力 — queue depth 持續增長代表 consumer 來不及消化，需要擴展 consumer 或降低進入速率。

設計責任

Queue 要定義容量上限、排序語意（FIFO / priority / delay）、保存期限（retention）、消費模式（pull vs push）、失敗處理（retry policy + dead-letter queue）、backpressure 策略（滿了怎麼辦 — block / drop / reject）與觀測欄位。設計上要區分「等待可以接受」跟「等待會傷害產品結果」— 付款入帳能短暫排隊，互動式 API response 通常需要更短的等待期限與更明確的拒絕策略。

Sticky Session

Fri, 24 Apr 2026 00:00:00 +0000

Sticky Session 的核心概念是「讓同一個 client、session 或 connection 在一段時間內持續命中同一個服務實例」。它是一種負載平衡策略，常用來維持本機狀態、暫存資料或未外部化 session 的可用性。可先對照 Stream Pipeline。

概念位置

Sticky Session 位在 client、load balancer、application instances 與 session state 之間。它改變的是流量分派規則，不是應用邏輯本身。可先對照 Stream Pipeline。

可觀察訊號

系統需要 sticky session 的訊號是：

服務仍保存本機狀態，短期內不容易外部化
多步驟互動需要維持同一個後端實例
session state 還沒移到共享儲存或快取

接近真實網路服務的例子

聊天室、即時遊戲、某些登入流程、需要本機暫存的舊系統，常會要求同一個使用者在 session 期間保持 sticky routing。

設計責任

設計時要定義黏著的判斷鍵、有效時間、失效後怎麼重新導向、以及單一 instance 故障時如何處理 session 遷移。Sticky Session 會讓負載分佈變得不均，因此要清楚知道它是權宜策略，不是預設最佳解。

Probe

Thu, 23 Apr 2026 00:00:00 +0000

Probe 的核心概念是「平台主動探測服務狀態的訊號」。它常見於 readiness probe 與 liveness probe，也可能擴展到 startup probe。可先對照 Producer。

概念位置

Probe 位在 platform 與 application 之間，讓調度系統知道 instance 是否可接流量、是否仍存活，或是否仍在啟動中。可先對照 Producer。

可觀察訊號

系統需要 probe 的訊號是啟動、擴容、故障、健康檢查與回收流程需要自動化判斷。沒有 probe，平台只能用硬編碼規則猜測服務狀態。

接近真實網路服務的例子

Kubernetes 會用 probe 決定 instance 是否加入流量池。Readiness probe 檢查能否接流量；liveness probe 檢查 process 是否卡死；startup probe 則可保護啟動較慢的服務。

設計責任

設計時要讓 probe 簡單、快速、穩定，並且只反映它自己的責任範圍。Probe 不應該做昂貴查詢或深度業務判斷，否則平台訊號會不穩定。

Startup Probe

Tue, 23 Jun 2026 00:00:00 +0000

Startup probe 的核心概念是「在服務啟動期間持續探測、確認初始化完成後再交棒給 liveness 與 readiness probe」。它保護啟動時間長的服務（JVM warmup、大量依賴連線建立）不被 liveness 在初始化期間判定失敗而反覆重啟。可先對照 Probe。

概念位置

設計責任

Socket 相關設計要定義連線數上限、read / write timeout、idle timeout、connection pool、buffer 大小與關閉流程。操作上要觀察連線數、timeout、reset、重連次數與下游 latency，避免網路等待耗盡 application 的 worker 或檔案描述符。

Idle Timeout

Fri, 24 Apr 2026 00:00:00 +0000

Idle Timeout 的核心概念是「一段時間沒有活動就關閉連線或回收會話」。它和一般 request timeout 不同，重點是避免空閒連線長時間佔住資源，跟等待單次操作完成的 request timeout 不同。可先對照 Impact Scope。

概念位置

Idle Timeout 位在 socket、load balancer、proxy、application 與 connection pool 之間。它常用來保護連線資源，避免長時間閒置造成檔案描述符、memory 或 session state 浪費。可先對照 Impact Scope。

可觀察訊號

系統需要 idle timeout 的訊號是：

長連線長時間沒有資料交換
空閒連線數量持續累積
load balancer 或 proxy 需要回收無效連線

接近真實網路服務的例子

WebSocket 連線、HTTP keep-alive、反向代理連線池或 application 內部 socket pool，常會透過 idle timeout 回收不再使用的連線。

設計責任

設計時要定義閒置判定條件、關閉前通知、重連策略與是否允許不同層級使用不同 timeout。Idle Timeout 應該和 read/write timeout、request timeout 區分開來，避免把不同問題混在一起。

Request Routing

Fri, 24 Apr 2026 00:00:00 +0000

Request Routing 的核心概念是「根據 request 的特徵，決定它應該被送到哪個服務或哪條處理路徑」。它處理的是入口層的分派規則，而不是訊息 broker 內部的 routing rule。可先對照 API Gateway。

概念位置

Request Routing 位在 client、API Gateway、Load Balancer 與 application 之間。它通常依 host、path、header、method、tenant、版本或地區決定流量走向。

可觀察訊號

系統需要 request routing 的訊號是：

同一個對外入口要支援多個服務或版本
不同路徑需要不同安全政策、觀測欄位或後端處理
需要在不改 client 的情況下調整入口分派

多個 consumer 組成 consumer group 來分攤處理負載。Consumer 的處理速度跟錯誤行為直接影響 consumer lag（積壓深度）跟 dead-letter queue（無法處理的訊息去處）。

使用情境

系統需要辨識 consumer 的訊號是資料已經送入系統但產品結果還沒完成。付款事件送入後，入帳 consumer 要更新帳務狀態；通知事件送入後，寄信 consumer 要呼叫郵件服務。兩者都要清楚記錄處理成功、暫時失敗與永久拒絕。

Consumer 的處理模式影響系統的可靠性保證。Ack / nack 的時機決定「訊息什麼時候算處理完成」；idempotency 決定「重複收到同一筆訊息時是否會產生副作用」。

設計責任

Consumer 要定義併發數、ack / nack 條件、錯誤分類（暫時性 vs 永久性）、idempotency、retry policy、隔離區、graceful shutdown 與觀測欄位。

操作面要能觀測：處理速率（messages/sec）、失敗類型分布、oldest unprocessed message age、consumer lag、dead-letter queue 累積量與下游 dependency latency。Consumer lag 持續增長是容量不足的 leading indicator。

Health Check

Fri, 24 Apr 2026 00:00:00 +0000

Health Check 的核心概念是「讓平台用一個簡單回應判斷服務是否值得接流量或是否需要介入」。它是狀態判斷的入口語意，不等於 readiness、liveness 或 diagnostic endpoint 本身。可先對照 Histogram。

概念位置

Health Check 位在 load balancer、platform、diagnostic endpoint 與 application 之間。平台會依這個回應決定是否導流、是否重啟，或是否需要進一步檢查。可先對照 Histogram。

可觀察訊號

系統需要 health check 的訊號是服務需要一個快速、低成本、可自動化的狀態回應，讓平台不用靠猜測判斷是否正常。

接近真實網路服務的例子

Load balancer 以 health check 判斷 instance 能否接新流量；運維工具以 health check 快速確認服務是否仍回應；Kubernetes 會把 health check 的責任拆到 readiness / liveness / startup probe。

設計責任

設計時要讓 health check 保持簡單、穩定、低成本，並且只反映它被設計要回答的問題。更細的流量條件交給 readiness，更細的存活條件交給 liveness，更完整的操作介面交給 diagnostic endpoint。

Server-Sent Events (SSE)

Thu, 23 Apr 2026 00:00:00 +0000

Server-Sent Events 的核心概念是「server 用持續的 HTTP response 對 client 單向推送事件」。它比 WebSocket 更適合單向通知、直播更新與簡單即時狀態流。可先對照 Offline Catch-up。

概念位置

SSE 位在 HTTP 之上，適合 server 主導的事件串流。它常用於通知、進度更新、系統訊號與簡化版即時 feed。可先對照 Offline Catch-up。

可觀察訊號與例子

系統需要 SSE 的訊號是 client 只需要接收事件、不需要頻繁回傳雙向互動。活動進度條、批次作業狀態、公告 feed 與監控看板更新都可能使用 SSE。

設計責任

SSE 設計要定義斷線重連、事件 ID、補送起點與保留窗口。若 client 離線後仍要完整補回資料，仍要搭配 offline catch-up 或正式儲存路徑。

Topic

Mon, 22 Jun 2026 00:00:00 +0000

Topic 的核心概念是「用主題名稱描述一類事件或訊息」。Producer 把事件發布到 topic，broker 再依照訂閱關係、routing rule 或 stream 模型把事件交給對應 consumer。

概念位置

Topic 是事件分流的命名邊界。它讓訂單、付款、會員、通知、庫存等事件可以被不同服務訂閱，也讓團隊用事件種類思考資料流與責任範圍。

Topic 跟 partition 的關係是：topic 是邏輯命名空間，partition 是 topic 內的物理分片。Topic 跟 fan-out 的關係是：多個 consumer group 訂閱同一個 topic，每個 group 各自消費全量事件，實現 fan-out。

在 RabbitMQ 生態中，topic 對應 exchange + routing key 的組合；在 NATS 中 topic 對應 subject。概念相同但術語跟語意細節不同。

使用情境

系統需要 topic 設計的訊號是同一個事件來源會供多個 downstream 使用。付款完成事件可以給出貨、通知、報表與風控使用；所有事件都混在同一條 queue 時，consumer 會承擔更多過濾與相容性成本。

Topic 命名規則影響長期治理。orders.payment.completed 比 event_1 更容易被搜尋跟管理。命名規則要在團隊間統一、進 queue contract 管理。

設計責任

Topic 設計要定義命名規則、事件 schema、相容性策略（schema evolution）、權限控制（誰能 publish / subscribe）、retention 期限、replay runbook 範圍與 ownership（哪個團隊負責這個 topic）。操作面要能依 topic 查看 publish rate、consumer lag、錯誤率與 dead-letter queue 數量。

Resource Limit

Fri, 24 Apr 2026 00:00:00 +0000

Resource Limit 的核心概念是「限制一個服務實例可使用多少 CPU、memory 或其他運行資源」。它會直接影響啟動、排程、延遲、穩定性與故障型態，當成單純的部署參數會低估其影響面。可先對照 Retention。

概念位置

Resource Limit 位在 container、runtime、deployment platform 與 scheduler 之間。它決定服務在資源不足時是被 throttling、被拒絕排程，還是因記憶體超限而被終止。可先對照 Retention。

可觀察訊號

系統需要 resource limit 的訊號是：

多個 instance 需要共享固定主機資源
單一服務可能因記憶體成長或 CPU 尖峰影響其他服務
平台需要用上限保護整體節點穩定性

可觀察訊號

系統需要 expand / contract 的訊號是：

舊版本與新版本會同時存在
新功能需要先讓舊程式不壞掉
移除舊欄位或舊路徑前，必須先讓新版本穩定接上
migration 不能一次做完

Trace 在 waterfall view 中呈現為時間軸上的巢狀條狀圖，root span 在最上面、child span 依序往下。診斷價值是一眼看出延遲瓶頸 — checkout 總延遲 800ms 中 payment span 佔 600ms，問題定位立刻縮小範圍。

使用情境

系統需要 trace 的訊號是單一服務的 log 只呈現局部。Checkout 變慢時，trace 可以顯示時間主要花在庫存查詢、付款 API、database lock 或通知 worker。跨服務錯誤（upstream 回 500 但不知道是哪個 downstream 引起的）也依賴 trace 定位。

Trace 聚合後可以自動生成 service topology — 哪些服務在呼叫哪些服務、call 頻率、延遲分布、錯誤率。這個 graph 反映實際流量而非設計文件。

設計責任

Trace 設計要處理 trace context 傳遞（HTTP header、queue message header、thread context）、sampling 策略（head / tail / adaptive）、span 命名慣例、敏感資料 redaction、跨語言 SDK 相容性與 log correlation（trace id 寫進 log 欄位）。

高流量服務需要控制採樣成本，同時保留錯誤與高延遲樣本。Sampling 策略的完整討論見 4.7。Context propagation 在不同邊界（HTTP / queue / thread pool / background job）的斷鏈風險與修復見 4.3。

Migration Gate

Fri, 24 Apr 2026 00:00:00 +0000

Migration Gate 的核心概念是「在遷移流程中，用明確條件決定能不能進下一階段或正式切換」。可先對照 Migration。

概念位置

Migration Gate 位在 migration、backfill、correctness check、data completeness 與 cutover 之間。它是遷移內部的階段控制點，不等於一般的 release gate。可先對照 Migration。

可觀察訊號

系統需要 migration gate 的訊號是：

新舊狀態會並存一段時間
進下一階段前要先確認資料已補齊或結果已比對
切換前必須先確認副作用可控
遷移失敗時要能停在安全階段

接近真實網路服務的例子

資料搬遷到新 table 後，先確認 row count、關聯完整性與抽樣結果，再決定能否進入 cutover；搜尋索引重建完成後，先通過 correctness check 與 shadow read，再把讀取流量切過去。這些決定都屬於 migration gate。

設計責任

Migration Gate 要定義每一階段的通過條件、資料證據、擁有者與停止條件。它的目標是讓遷移不只是「做完」，而是「安全地前進或回頭」。

Pub/Sub

Thu, 23 Apr 2026 00:00:00 +0000

Pub/Sub 的核心概念是「publisher 把事件送到主題，訂閱者依主題即時接收」。它擅長 fan-out 與低延遲通知，但通常不承諾完整歷史保存或離線補送。

概念位置

Pub/Sub 常用在即時通知、presence 變更、前端狀態廣播與跨節點訊號同步。它和 durable queue 的差異在於：pub/sub 偏即時分發，durable queue 偏可靠處理。

可觀察訊號與例子

當需求是「在線訂閱者盡快收到訊息」時，pub/sub 是常見候選。例如聊天室 typing indicator、任務進度更新、dashboard 即時刷新。若訂閱者離線後仍要補送，通常需要搭配 offline catch-up 或 durable storage。

設計責任

設計時要明確訊息是否可遺失、是否需要持久化、是否需要重播。若需求轉向高可靠，應把關鍵事件切到 strong reliability 路徑。

Dashboard

Mon, 22 Jun 2026 00:00:00 +0000

Dashboard 的核心概念是「把多個觀測訊號組成可判讀的服務狀態畫面」。它讓團隊用同一個視角查看 SLI / SLO、latency、error rate、traffic、saturation、queue depth、consumer lag 與下游依賴狀態。

概念位置

Dashboard 是告警與排障之間的判讀層。Alert 告訴團隊需要注意，dashboard 幫團隊判斷影響範圍、變化趨勢與可能原因，runbook 則把判讀結果轉成處理步驟。

Dashboard 分層服務不同使用者：service overview 給 on-call 工程師、debug dashboard 給事故中的深入診斷、capacity dashboard 給容量規劃。把所有資訊擠在同一個 dashboard 會讓每個角色都找不到自己要的。

使用情境

系統需要 dashboard 的訊號是事故中需要快速回答「影響多大、從何時開始、哪個依賴異常」。Dashboard 也是日常巡檢的入口 — on-call 工程師每天先看 service overview 確認服務健康，再處理 alert queue。

設計責任

Dashboard 設計要服務具體決策。每個面板應對應一個可回答的問題（「服務現在健康嗎」「延遲瓶頸在哪」「容量還夠嗎」）。高 cardinality、缺少單位或只呈現低層資源的圖表會增加判讀成本而非降低。

Dashboard panel 的查詢效能影響使用體驗 — 長時間趨勢 panel 應讀 recording rule 或 rollup 資料，避免每次刷新都掃描 raw series。Dashboard / alert 的完整設計見 4.4。

Fan-out

Mon, 22 Jun 2026 00:00:00 +0000

Fan-out 的核心概念是「一個事件被多個訂閱者各自獨立處理」。它讓單一 producer 發布一次事件，多個下游各自消費、各自處理、各自管理進度跟錯誤。

概念位置

Fan-out 常搭配 pub/sub 模型、topic 跟 consumer group 實作。在 Kafka 中，多個 consumer group 訂閱同一個 topic 就是 fan-out — 每個 group 各自從 offset 0 開始消費。在 RabbitMQ 中，fanout exchange 把訊息複製到所有綁定的 queue。在 GCP Pub/Sub 中，多個 subscription 訂閱同一個 topic。

Fan-out 跟 fan-in（多個來源合併成一個流）是相反的拓撲。兩者可以組合成事件處理管線。

使用情境

order.paid 事件同時觸發出貨準備（物流服務）、交易通知（通知服務）、營收紀錄（報表服務）與風控評估（風控服務）。Producer 不需要知道有哪些 consumer — 加減 consumer 不影響 producer 的程式碼。

Fan-out 降低了 producer 跟 consumer 之間的耦合，但擴大了排障範圍 — 一筆事件的處理結果散落在多個 consumer，需要用 trace context 或 correlation id 串連。

設計責任

設計 fan-out 時要為每個訂閱者定義可靠性等級跟回復策略。通知服務短暫失敗可以 retry；報表服務落後可以批次追補；但出貨服務的失敗可能需要人工介入。把所有下游綁成同一個失敗域（一個 consumer 卡住就全部暫停）會讓 fan-out 的解耦價值消失。每個 consumer group 應該獨立管理 consumer lag、dead-letter queue 跟 replay runbook。

Validation Query

Mon, 11 May 2026 00:00:00 +0000

Validation query 的核心概念是「用可重跑查詢證明資料語意是否符合遷移規則」。它連接 correctness check、backfill 與 migration gate，讓資料變更不只靠 job log 或人工抽樣判斷。

概念位置

Validation query 位在 schema migration、data reconciliation 與 evidence package 之間。Correctness check 定義要驗什麼，validation query 則把規則落成可查、可保存、可交接的證據。

可觀察訊號

系統需要 validation query 的訊號是：

新舊欄位或新舊資料模型會並存一段時間
backfill job 顯示完成，但仍需要證明資料語意正確
cutover 前要知道 mismatch 集中在哪些資料範圍
事故修復後要留下可回放的資料證據

接近真實網路服務的例子

訂單服務把 status 裡的付款語意拆到 payment_state 時，validation query 可以比對每批訂單的新舊語意、缺值筆數、mismatch sample 與 replication lag 對位。這些結果會進入 release gate，而不是只停在 migration job 的成功訊息。

設計責任

Validation query 要保留 query version、time range、資料範圍、mismatch 分類與 owner。它的目標是支援 rollback window 與 incident decision log 判讀，讓團隊能知道下一步是繼續、暫停、回退讀取，還是做資料修補。

Alert

Mon, 22 Jun 2026 00:00:00 +0000

Alert 的核心概念是「把需要人或自動流程處理的服務症狀轉成通知」。好的 alert 連到產品影響、判斷條件、dashboard、runbook 與升級流程。

概念位置

Alert 是可觀測性進入操作流程的入口。Symptom-based alert 優先偵測使用者可感知結果（error rate、latency p99）；cause-based alert 偵測內部原因（CPU、queue depth、connection pool）。Symptom-based 用於 page on-call、cause-based 用於 warning 級通知。

Alert 觸發後由 on-call 工程師承接，按 runbook 的步驟診斷跟處理。

使用情境

系統需要 alert 設計的訊號是服務異常需要在使用者大量回報前被發現跟處理。付款成功率下降、API availability 低於 SLO、consumer lag 持續擴大或 DLQ 快速增加，都應觸發可行動通知。

設計責任

Alert 設計要定義門檻、持續時間（for duration）、severity、通知對象、抑制規則、runbook link 與回復條件。每個 alert rule 帶 owner metadata — 沒有 owner 的 alert 會在服務演進後退化成 noise 來源，形成 alert fatigue。

SLO-based alerting 用 burn rate 取代固定閾值，自動適應流量變化。完整的 alert 設計見 4.4、SLO-based alerting 見 4.6。

Read Compatibility

Mon, 11 May 2026 00:00:00 +0000

Read compatibility 的核心概念是「讀取路徑在過渡期同時理解新舊資料語意」。它連接 Expand / Contract、schema migration 與 fallback，讓新欄位或新資料模型可以先進入 production，再逐步切換讀取權。

概念位置

Read compatibility 位在 dual write、cutover / switchover 與 migration gate 之間。雙寫處理寫入一致性，read compatibility 處理讀取方如何在缺值、延遲回填或版本混跑時仍能給出一致判讀。

可觀察訊號

系統需要 read compatibility 的訊號是：

新欄位已新增，但歷史資料尚未全部 backfill
新舊程式版本會同時服務流量
rollback 後舊版本仍需要讀懂 production 資料
內部後台、對帳或報表的切換節奏不同於使用者可見路徑

接近真實網路服務的例子

訂單服務新增 payment_state 後，讀取時可先看新欄位，缺值時回到舊 status 的付款語意。客服後台可以先用這條相容讀取路徑驗證資料，再逐步讓使用者可見查詢改用新欄位。

設計責任

Read compatibility 要定義讀取優先順序、fallback read 條件、資料新鮮度限制與停止條件。它要搭配 validation query 與 rollback strategy，避免 cutover 後才發現舊版本或長尾讀取路徑無法判讀資料。

Offline Catch-up

Thu, 23 Apr 2026 00:00:00 +0000

Offline catch-up 的核心概念是「接收端離線期間漏掉的事件，如何在重新連線後補齊」。它是即時通道與正式狀態之間的補償設計。可先對照 Durable Queue。

概念位置

Offline catch-up 常出現在 WebSocket、mobile push 與跨區域同步。即時通道只負責在線時低延遲傳遞，離線後的完整性通常由 durable queue、event log 或資料庫狀態查詢提供。

可觀察訊號與例子

例如聊天訊息在使用者離線時不能遺失，重新上線後需要補拉缺失訊息；typing indicator 可以不補送。兩者差異來自事件語意，而不是傳輸通道本身。

設計責任

設計時要定義補送範圍、游標或版本、補送時限與去重規則，並把流程寫入 runbook。

Runbook

Mon, 22 Jun 2026 00:00:00 +0000

Runbook 的核心概念是「把事故判斷與操作步驟標準化」。它是 alert 的行動指南，描述 on-call 工程師看到特定訊號時如何確認影響、查哪些資料、採取哪些緩解、何時升級，以及如何驗證恢復。

概念位置

Runbook 是 alert 的行動指南。Alert 告訴 on-call 工程師有問題，runbook 告訴他們「收到這個 alert 時該做什麼」。每個 critical alert 應該連到一份 runbook — 缺少 runbook link 的 alert 等於「通知了但不告訴你做什麼」，是 alert fatigue 的起點。

Runbook 也服務於 post-incident review — 事故中實際執行的步驟跟 runbook 預設的步驟比較，差異就是 runbook 需要更新的地方。

使用情境

系統需要 runbook 的訊號是同一類事故每次都靠個人經驗處理。DLQ 快速增加時，runbook 應引導處理者查看錯誤分類、payload 範圍、最近部署、replay 條件與暫停 consumer 的判斷。

設計責任

Runbook 的有效結構：症狀描述、影響評估、診斷步驟（先看哪個 dashboard、查哪些 log）、可能的修復動作（restart / scale / rollback / failover）、升級路徑（15 分鐘內無法解決時通知誰）。維護責任跟 alert 的 owner 一致 — alert rule 改了但 runbook 沒更新是常見的退化。完整設計見 4.4。

Fallback Read

Mon, 11 May 2026 00:00:00 +0000

Fallback read 的核心概念是「新讀取路徑尚未穩定時，暫時回到舊資料語意或舊讀取來源」。它連接 read compatibility、fallback 與 rollback-window，讓 cutover 失敗時可以先限制在讀取判讀層。

概念位置

Fallback read 位在 cutover / switchover、schema migration 與 rollback strategy 之間。它保留新資料結構、暫時把讀取判斷交回舊語意或舊來源，比完整 rollback 成本低且破壞性小。

可觀察訊號

系統需要 fallback read 的訊號是：

新欄位讀取後 mismatch 升高
客服後台、報表或使用者可見查詢結果漂移
寫入路徑已經收斂，但讀取模型或索引尚未穩定
release gate 允許暫停 cutover，但尚未需要資料修補

接近真實網路服務的例子

訂單服務把付款狀態拆到 payment_state 後，客服後台若發現新欄位判讀 mismatch 升高，可以先回到舊 status 的付款語意讀取，讓客服分類回到基線，同時保留 backfill 與 validation query 繼續查證。

設計責任

Fallback read 要定義觸發條件、讀取優先順序、可維持多久、哪些入口適用，以及何時重新嘗試 cutover。它要與 validation query 和 incident decision log 對齊，避免讀取回退變成沒有證據的永久分岔。

Strong Reliability

Thu, 23 Apr 2026 00:00:00 +0000

Strong reliability 的核心概念是「關鍵事件在失敗條件下仍可被恢復到可接受狀態」。它不代表絕對零失敗，而是要求可追蹤、可補償、可驗證。可先對照 Message Persistence。

概念位置

高可靠路徑常用在金流、庫存、權限與稽核事件。這些路徑通常需要 message persistence、retry policy、idempotency、dead-letter queue 與回復流程。

可觀察訊號與例子

例如付款成功事件若遺失，可能造成對帳錯誤；這類事件需要保存與補送。相對地，typing indicator 遺失通常不影響核心產品承諾。

設計責任

設計時要定義失敗代價、保證等級、觀測指標與驗證流程，並界定 reliability boundary。

Cutover Window

Mon, 11 May 2026 00:00:00 +0000

Cutover window 的核心概念是「正式切換發生並被密集觀察的時間與條件範圍」。它連接 cutover / switchover、migration gate 與 rollback-window，讓切換成為一段可停止、可判讀的窗口，脫離瞬間按鈕的思維。

概念位置

Cutover window 位在 release gate、steady state 與 evidence package 之間。Release gate 決定能否開始切換，cutover window 定義切換後多久內要看哪些訊號、達到什麼條件才算穩定。

可觀察訊號

系統需要 cutover window 的訊號是：

新路徑開始承接正式讀取或寫入
切換後需要觀察 mismatch、latency、error rate 或 lag
回退條件只在切換初期仍然低成本
多個入口會分批切換，需要分別記錄時間窗

接近真實網路服務的例子

客服後台先切到新 payment_state 讀取後，前 30 分鐘是 cutover window。這段期間要看 mismatch sample、客服查詢慢查詢、對帳補償量與 rollback window；穩定後才放行使用者可見讀取。

設計責任

Cutover window 要定義開始時間、觀察長度、通過條件、stop condition 與 owner。它應進入 evidence package 與 incident decision log，讓事後能回放切換當時的訊號。

Durable Queue

Thu, 23 Apr 2026 00:00:00 +0000

Durable queue 的核心概念是「待處理工作在 process 重啟或節點故障後仍可被取回」。它把 queue 從記憶體暫存提升為可恢復的工作通道。可先對照 Queue。

概念位置

Durable queue 是 queue 與 message persistence 的組合，常由 broker 提供，並搭配 ack/nack、retry policy 與 dead-letter queue。

可觀察訊號與例子

當工作可延遲但不可遺失時，durable queue 是常見候選。例如付款後通知、對帳同步、背景轉檔。若僅需在線即時廣播，通常 pub/sub 成本更低。

設計責任

設計時要定義保存期限、重試上限、去重策略、queue lag 告警與回復流程，避免把可靠性責任留給人工排障。

Event Log

Mon, 22 Jun 2026 00:00:00 +0000

Event log 按時間保存已發生事件的不可變紀錄，是 event sourcing 的儲存層。每一筆事件記錄一次狀態變更，整條事件流構成完整的變更歷史。

概念位置

Event log 是 event sourcing 的儲存層。在 event sourcing 架構中，event log 是 source of truth，current state 透過 replay 事件流推算。在非 event sourcing 架構中，event log 是輔助紀錄 — 正式狀態仍由 mutable record 承擔，event log 提供變更歷史跟 replay 能力。

Event log 的讀取面透過 projection 轉換成 read model，讓消費者不需要每次 replay 整條事件流。在訊息傳遞面，event log 常搭配 consumer group、offset 與 replay runbook 使用。

使用情境

訂單狀態變更可寫入 event log，後續由報表、通知、稽核服務各自消費。當下游落後時，可用 replay 補齊資料。金融帳務的每一筆增減、權限變更的每一次授權與撤銷、訂閱方案的每一次升降級，都是典型的 event log 應用。

設計責任

設計時要定義事件 schema 演進（新版 consumer 要能消費舊版事件）、保留期限（無限保留 vs retention-based 清理）、重播邊界（從哪個 offset 開始 replay）與去重策略（idempotency 保證）。Event log 的儲存成長是長期成本 — 高頻寫入的系統需要 snapshot 機制或 retention 策略來控制。

Mapping Table

Mon, 11 May 2026 00:00:00 +0000

Mapping table 的核心概念是「把舊資料語意明確對應到新資料語意」。它連接 schema migration、correctness check 與 validation-query，讓轉換規則成為可查證 artifact，而不是工程師腦中的口頭規則。

概念位置

Mapping table 位在 backfill、data reconciliation 與 migration gate 之間。Backfill 依它轉換資料，validation query 依它判斷 mismatch，incident decision log 則依它追溯當時的判讀依據。

可觀察訊號

系統需要 mapping table 的訊號是：

舊欄位混合多種業務語意，需要拆到新欄位
多個舊狀態會對應到同一個新狀態
某些舊狀態需要人工確認或例外處理
事後要能解釋 mismatch 是資料錯誤還是轉換規則錯誤

接近真實網路服務的例子

訂單服務把 pending_payment、paid、payment_failed、refunded 對應到 payment_state 的 pending、captured、failed、refunded。這張 mapping table 同時支撐 backfill job、validation query 與 cutover gate。

設計責任

Mapping table 要保留來源欄位、新欄位、對應理由、例外狀態與 owner。高風險 mapping 要版本化，並進入 evidence package；否則資料漂移時，團隊很難判斷問題出在資料、程式還是規則本身。

Website Certificate Lifecycle

Thu, 23 Apr 2026 00:00:00 +0000

Website certificate lifecycle 的核心概念是「把網站憑證視為持續運作流程，而非一次性設定」。流程包含簽發、部署、驗證、監控、續期、輪替、撤銷與事故處理。可先對照 TLS / mTLS。

概念位置

網站憑證生命週期位在 TLS / mTLS 與 secret management 的交界。它同時影響可用性、資安與操作成本，因為憑證過期、鏈錯誤或私鑰洩漏都會直接影響服務可用性。

可觀察訊號與例子

系統需要網站憑證生命週期設計的訊號是服務會公開提供 HTTPS。電商網站在促銷高峰若遇到憑證過期，使用者會直接遇到瀏覽器安全警示並中斷交易。

設計責任

設計要定義簽發方式、部署邊界、過期門檻 alert、續期演練、撤銷流程、權限分離與 runbook。高流量站點應把憑證健康納入 dashboard 與停機演練。

Search Index

Mon, 22 Jun 2026 00:00:00 +0000

Search index 的核心概念是「為查詢體驗建立專用的讀取模型」。它擅長全文搜尋、排序、filter 與 facet，通常是 derived state、從正式資料源同步而來。

概念位置

概念位置

Read model 是 CQRS 的讀取面產物。在 CQRS 架構中，write model 跟 read model 各自獨立，read model 透過同步機制（event handler、CDC、定期刷新）從 write model 更新。

Read model 的來源可以是 projection（從 event log 持續推算）、materialized view（從 SQL 查詢預計算）、CDC consumer（從 row change 同步到搜尋索引）或批次 ETL（定期從 OLTP 匯出到 analytics store）。不同的來源機制有不同的更新延遲跟維護成本。

在觀測領域，recording rule 跟 rollup 扮演類似 read model 的角色 — 從 raw time series 預計算聚合結果，讓 dashboard 讀取預聚合資料而非重算 raw data。

設計責任

Config Rollout

Fri, 24 Apr 2026 00:00:00 +0000

Config Rollout 的核心概念是「把設定變更從程式部署中分離，並以可控方式送到正在運作的服務」。它處理的是設定版本、下發節奏、回復方式與觀察驗證，不是單純修改一個環境變數值。可先對照 Connection Pool。

概念位置

Config Rollout 位在 configuration source、deployment platform 與 running instances 之間。它通常與 service discovery、container runtime、feature flag、secret management 或配置中心一起出現。可先對照 Connection Pool。

可觀察訊號

系統需要 config rollout 的訊號是：

同一版程式要搭配不同環境設定
設定變更可能影響流量、權限或依賴連線
希望設定可以分批驗證與回復

接近真實網路服務的例子

新增下游 endpoint、切換第三方金鑰、調整 feature flag、更新來源白名單或變更 retry policy，都屬於 config rollout 問題。

設計責任

設計時要定義設定來源、分發順序、驗證方式、回復方式與影響範圍。Config Rollout 應該讓設定變更可預測，而不是把風險藏在部署流程裡。

Service Registry

Fri, 24 Apr 2026 00:00:00 +0000

Service Registry 的核心概念是「保存目前可用服務實例的位址、狀態與 metadata，供 discovery、load balancer 或內部呼叫查找」。可先對照 Session Invalidation。

概念位置

Service Registry 位在 deployment platform、health check、service discovery 與 load balancing 之間。它負責維持「目前有哪些實例可用」這份資料。可先對照 Session Invalidation。

可觀察訊號

系統需要 service registry 的訊號是：

服務實例會動態擴縮
instance 需要在啟動後自動登錄
instance 失效時要自動摘除
呼叫端需要依據 metadata 找到合適實例

設計責任

設計時要定義每批比例、健康檢查門檻、回滾條件與流量切換節奏。

Incident Timeline

Mon, 22 Jun 2026 00:00:00 +0000

Incident timeline 的核心概念是「按時間順序記錄事故中的觀測、決策與操作」。時間線是事故的共同事實來源，連接 alert 觸發到 post-incident review 復盤，讓團隊可以對齊發生順序與影響變化。

概念位置

Timeline 連接 alert 觸發（事故何時被偵測到）、on-call 回應（何時開始處理）、操作紀錄（做了什麼）、影響變化（使用者影響何時改善 / 惡化）跟 post-incident review（復盤時重建因果鏈）。

Timeline 也是 incident decision log 的時間軸基礎 — decision log 記錄「在這個時間點、基於這個觀測、做了這個決策」，timeline 提供「這個時間點」的上下文。

使用情境

系統需要 incident timeline 的訊號是事故後大家對「先發生什麼」說法不同。若沒有一致時間軸，復盤時很難判斷哪個操作真正帶來改善、哪個決策在當時是合理的。

設計責任

Timeline 要包含時間戳（UTC、精確到分鐘）、訊號來源（哪個 dashboard / alert / 人為觀察）、操作內容（restart / rollback / scale）、決策理由與結果驗證。記錄方式應簡潔且可在高壓下維持更新 — 事故中寫 timeline 的成本太高會導致沒人寫。Slack channel pinned message 或事故管理工具的自動 timeline 是常見實作。

Runtime Config

Fri, 24 Apr 2026 00:00:00 +0000

Runtime Config 的核心概念是「服務在執行時需要哪些設定，以及這些設定如何被讀取、預設與覆寫」。它處理的是設定來源與組合規則，不是設定發送流程本身。可先對照 Sampling。

概念位置

Runtime Config 位在 environment variable、config file、secret injection、feature flag 與 application startup 之間。它決定服務如何取得執行所需的參數與開關。可先對照 Sampling。

可觀察訊號

系統需要 runtime config 的訊號是：

不同環境要使用不同參數
某些值必須由部署平台或 secret management 注入
服務需要可預期的預設值與覆寫順序

概念位置

Webhook 通常需要來源驗證、重放防護、重試處理與可追蹤事件 ID。可先對照 Website Certificate Lifecycle。

設計責任

設計時要定義簽章驗證、時窗限制、冪等處理與錯誤回應策略，避免假請求或重放造成狀態錯誤。

Rollback Window

Mon, 11 May 2026 00:00:00 +0000

Rollback window 的核心概念是「變更進入 production 後，仍能用特定方式回退或改路線的有效窗口」。它連接 rollback strategy、release gate 與 migration gate，讓 gate 能判斷目前還剩哪種退路。

概念位置

Rollback window 位在 cutover / switchover、fallback plan 與 incident decision log 之間。Rollback strategy 說明回退決策，rollback window 說明這個決策在目前階段是否仍可執行。

可觀察訊號

系統需要 rollback window 的訊號是：

expand、backfill、cutover、contract 每一階段的回退方式不同
舊版本或舊資料語意只能支撐一段時間
cutover 後仍可 fallback read，但 contract 後只能資料修復或 fail-forward
release gate 要判斷是否還能安全暫停或回退

接近真實網路服務的例子

資料庫 migration 在 expand 階段通常能回到舊讀取；backfill 階段可以暫停與重跑；cutover 後可回到 fallback read；contract 移除舊欄位後，回退會轉成資料修補或 fail-forward。這些差異都屬於 rollback window。

設計責任

Rollback window 要寫清楚目前階段、可用回退方式、最後可回退時間、資料相容性限制與 owner。它要進入 release gate 與 incident decision log，避免事故期間把已經關閉的退路當成可用選項。

Rollback Rehearsal

Fri, 24 Apr 2026 00:00:00 +0000

Rollback Rehearsal 的核心概念是「在低風險環境實際走一次回滾流程，確認步驟、權限與耗時都符合預期」。可先對照 Rollback Strategy。

概念位置

Rollback Rehearsal 位在 release gate、rollback strategy、migration 與 disaster recovery 之間。它是把回滾步驟實際走過一次的演練，文件審查無法替代實機驗證。可先對照 Rollback Strategy。

可觀察訊號

系統需要 rollback rehearsal 的訊號是：

變更失敗時回復速度會直接影響使用者影響
團隊不確定回滾步驟是否真的可執行
高風險 migration 或 release 會同時影響資料與流量
權限、腳本、順序或相容性可能成為回復瓶頸

Mon, 11 May 2026 00:00:00 +0000

Fail-forward 的核心概念是「當回退代價高於前進修復時，用受控方式往新狀態完成修復」。它連接 rollback strategy、fallback plan 與 incident decision log，不是忽略失敗繼續推進。

概念位置

Fail-forward 位在 rollback window、containment 與 post-incident review 之間。Rollback window 關閉後，團隊仍需要一條能限制影響、補資料、完成相容收斂的前進路線。

可觀察訊號

系統需要 fail-forward 的訊號是：

舊資料語意已被 contract 或不可逆寫入移除
回退會造成更大的資料不一致或客戶影響
新路徑有明確修補方案、停損條件與 owner
事故 decision log 需要記錄為何不回滾

Mon, 11 May 2026 00:00:00 +0000

Stop condition 的核心概念是「事前定義何時必須暫停、回退或改路線」。它連接 release gate、rollback strategy 與 incident decision log，避免團隊在壓力下用感覺決定是否繼續。

概念位置

Stop condition 位在 migration gate、cutover-window 與 steady state 之間。Gate 說明能否開始，stop condition 說明開始後看到哪些訊號必須停。

可觀察訊號

系統需要 stop condition 的訊號是：

rollout、backfill、replay 或 experiment 會逐批擴大影響
指標短暫變壞時需要知道是觀察、暫停還是回退
owner 需要在事故現場快速做一致決策
post-incident review 要檢查當時是否該更早停下來

Mon, 11 May 2026 00:00:00 +0000

Gate decision 的核心概念是「release gate 根據證據做出的明確下一步」。它連接 release gate、evidence package 與 stop condition，讓 gate 不只寫檢查結果，也寫出能不能前進。

概念位置

Gate decision 位在 confidence、rollback window 與 incident decision log 之間。Checks 描述檢查結果，gate decision 把結果轉成放行、暫停、回退、fail-forward 或補證據。

可觀察訊號

系統需要 gate decision 的訊號是：

CI、SLO、validation query 都有結果，但沒人知道下一步
evidence 足以支持部分放行，但不足以支持完整 cutover
變更需要逐批 rollout、backfill、warmup 或 replay
gate 要保留 owner 與 rollback window

Mon, 22 Jun 2026 00:00:00 +0000

Projection 從事件流或資料變更中持續推算出特定用途的讀取視圖，連接寫入端（事件產生）跟讀取端（查詢消費）。Projection 的輸出是 read model — 為特定查詢需求反正規化的資料形狀。

概念位置

Projection 在 event sourcing 架構中扮演「event → current state」的推算角色。Event log 是 append-only 的事件序列，直接對 event log 做查詢效率低；projection 持續消費事件、維護可查詢的 read model，讓讀取端不需要每次 replay 整條事件流。

Projection 不限於 event sourcing。CDC（Change Data Capture）把資料庫的 row 變更推送到下游、下游建立搜尋索引或統計摘要，這也是 projection — 來源是 row change event 而非 domain event。觀測領域的 recording rule 也是一種 projection — 從 raw time series 持續推算預聚合的 metrics。

設計責任

設計 projection 時要定義四個面向：

更新策略：同步（事件寫入時立即更新 read model）或非同步（事件寫入後由背景消費者更新）。同步更新延遲低但耦合寫入路徑的效能；非同步更新解耦但 read model 有 lag。

重建流程：當 projection 邏輯改變或 read model 損壞時，需要從 event log 重新 replay 建立 read model。重建流程要能離線執行、不影響線上讀取。大量事件的 replay 可能需要數小時，設計時要估算重建時間跟資源需求。

正確性驗證：projection 是持續運行的計算，任何 bug 都會讓 read model 靜默偏離真實狀態。需要定期的 reconciliation（拿 projection 結果跟 event log 全量 replay 比較）來偵測漂移。

schema evolution：當來源事件的 schema 改版，projection 邏輯要能同時處理新舊版本的事件。這跟 event sourcing 的 upcasting 問題直接相關。

使用情境

需要 projection 的訊號是：讀取需求跟寫入結構不同（列表頁需要反正規化 view、搜尋需要全文索引、報表需要聚合摘要），而且這些讀取視圖需要隨資料變更持續更新而非批次重建。

常見的 projection 實作包括：event handler 更新 read DB、CDC consumer 更新 Elasticsearch index、Kafka Streams 維護 KTable、觀測 collector 做 log-to-metric 轉換。

Rollback Condition

Mon, 11 May 2026 00:00:00 +0000

Rollback condition 的核心概念是「某個決策執行後，看到哪些訊號時要撤回、回退或改路線」。它連接 incident decision log、rollback strategy 與 stop condition，讓事故現場能控制次生風險。

概念位置

Rollback condition 位在 gate decision、rollback window 與 time range 之間。Stop condition 常用於流程何時停，rollback condition 則跟某筆已做出的 decision 綁在一起。

可觀察訊號

系統需要 rollback condition 的訊號是：

rollback、fallback、degradation 或 fail-forward 本身也可能造成風險
IC handoff 後，新 IC 需要知道什麼條件下要改路線
stakeholder update 需要說明目前決策如何被監控
PIR 需要檢查當時是否有明確撤回條件

接近真實網路服務的例子

客服後台切回 legacy status fallback 後，rollback condition 可以寫成 mismatch remains above threshold after 15 minutes。這表示 fallback 沒有降低錯誤時，團隊要改成資料修補或暫停相關入口，而不是繼續等待。

設計責任

Rollback condition 要包含訊號、門檻、觀察窗口、對應動作與 owner。它要連到 query link 與 time range，讓決策撤回成為可回放的證據判讀，口頭判斷的準確度和可追溯性都不足。

MTTR

Thu, 23 Apr 2026 00:00:00 +0000

MTTR 的核心概念是「從事故開始到恢復的平均時間」。它幫助團隊追蹤處置效率趨勢，但不能單獨代表可靠性品質。可先對照 Incident Severity。

概念位置

MTTR 連接 incident severity、alert、runbook 與 post-incident-review。不同等級事故應分開計算，避免指標失真。

可觀察訊號與例子

系統需要 MTTR 的訊號是團隊想驗證事故流程是否改進。若新增 runbook 與升級策略後 MTTR 持續下降，表示流程變更有實際效果。

設計責任

MTTR 指標要搭配樣本數、嚴重度分層與影響範圍一起解讀。它應導向流程改善與演練設計，而不是單純追求數字下降。

On-Call

Mon, 22 Jun 2026 00:00:00 +0000

Ownership 的核心概念是「把責任固定到可執行角色」。它讓團隊在事件、變更與回寫流程中能快速判斷誰主責、誰協作、誰做決策，是 on-call 與 escalation policy 運作的前提。

概念位置

概念位置

Linear growth：用戶月增 X%、B2B SaaS 常見、forecast 線性外推
Step growth：每次行銷 / 活動跳一階、需要 event tier 規劃
Exponential growth：早期初創、病毒擴散、forecast 容易低估
S-curve growth：成熟產品、會 saturate、需要規劃 mature stage 容量
Cyclical：電商季節性、Black Friday + Cyber Monday + Christmas

概念位置

Database sharding 位在單一 primary database 與 distributed SQL 之間。MySQL + Vitess、PostgreSQL + Citus、MongoDB sharded cluster 或 application-layer sharding 都會把 shard key 變成資料路由契約；Distributed SQL 則把更多 routing、一致性與 failover 責任放回 database layer。

可觀察訊號與例子

可觀察訊號

系統需要 release gate 的訊號是：

變更會影響使用者可用性或資料正確性
新舊版本會並存一段時間
團隊需要在 release 前確認檢查項都過關
發版失敗時要有明確阻擋條件

接近真實網路服務的例子

Schema migration 要先確認相容性與 backfill 結果再放行；高風險設定變更要通過 security review 與 drift check；error budget 快耗盡時，團隊可以暫停高風險變更，直到風險恢復到可接受範圍。

設計責任

Release Gate 要定義檢查項、擁有者、通過條件、阻擋條件與例外流程。它是把風險控制流程標準化的機制，單純的批准按鈕無法達到同等效果。

Federation

Wed, 13 May 2026 00:00:00 +0000

Federation 的核心概念是「不同身份或資源系統之間建立可驗證信任關係，讓授權資訊可被交換使用」。它的責任是縮短跨域整合成本，同時維持邊界可追蹤。可對照 workload-identity 與 trust-boundary。

概念位置

Federation 常出現在 SSO、跨雲工作負載授權與第三方服務整合。它把外部事件導入內部授權鏈，因此要和 token-revocation 與 audit-log 共同設計。

可觀察訊號與例子

需要 federation 判讀的訊號是「外部身份事件發生後，內部權限收斂速度慢且回查困難」。例如供應商事件後，聯邦 token 仍在非預期服務活躍。

設計責任

聯邦信任要有定期重評估、分域撤銷與最小授權範圍。若只建立信任不做持續治理，federation 會把整合便利轉成長期風險擴散通道。

Tripwire

Thu, 30 Apr 2026 00:00:00 +0000

Tripwire 的核心概念是「用可量測訊號讓風險決策在條件變化時回到評估流程」。它把治理決策從一次性同意，轉成可持續更新的閉環。可先對照 Security Exception。

概念位置

Tripwire 位在 Security Exception、Release Freeze 與 Escalation Policy 之間。它把監控與流程訊號轉成「何時重新決策」的共通語言。

可觀察訊號

系統需要 tripwire 的訊號是：

例外決策存在到期與重評估需求
風險條件會隨版本、漏洞、外部公告持續變化
團隊需要在訊號達門檻時自動升級處理
治理決策需要可追蹤的觸發紀錄

接近真實網路服務的例子

供應鏈治理中，artifact 驗證失敗率連續超過門檻，tripwire 會觸發 release freeze 重評估；身分治理中，特權操作異常增長，tripwire 會觸發 exception 審查與權限收斂。

設計責任

Tripwire 要定義 trigger signal、threshold、escalation owner、decision route 與關閉條件。設計重點是訊號可量測、門檻可稽核、觸發後流程可執行。

In-Flight Work

Wed, 13 May 2026 00:00:00 +0000

In-flight work 的核心概念是「系統已接收、正在處理、但尚未完成的工作集合」。它的責任是量化即時壓力，支援容量控制與回退判讀。可對照 in-flight-message 與 worker-pool。

概念位置

In-flight 是跨語境訊號：HTTP request、queue message、batch task 都可以有 in-flight。它和 queue-depth 一起看時，能區分「排隊壓力」與「處理壓力」的來源。

可觀察訊號與例子

需要 in-flight 判讀的訊號是「延遲上升但不確定是入口太快還是處理太慢」。例如 queue depth 平穩，但 in-flight 長期偏高，通常代表 worker 端處理速度下滑或下游依賴變慢。

設計責任

In-flight 需要可觀測上限與降載策略。沒有上限時，系統容易在壓力期把暫存資源耗盡，最後演變成全域超時或雪崩式重試。

Security Exception

Thu, 30 Apr 2026 00:00:00 +0000

Security exception 的核心概念是「在明確邊界內接受短期風險，並用協議管理收斂路徑」。它讓風險接受決策可追蹤、可關閉、可回寫。可先對照 Release Gate。

概念位置

Security exception 位在 Release Gate、Release Freeze 與 Tripwire 之間。它承接治理層決策，並把決策資訊交給部署與 incident workflow。

可觀察訊號

系統需要 security exception 的訊號是：

修補窗口與業務時程暫時不一致
高風險項目需要短期過渡方案
團隊需要紀錄接受範圍與期限
關閉條件需要跨角色共識與可驗證證據

接近真實網路服務的例子

新漏洞公告後，某服務在修補完成前以例外方式允許受控上線，同步啟用補償控制（流量限制、額外審計、強化告警），並設定到期日與重評估會議時間。

設計責任

Security exception 要定義 risk scope、expiry、compensating controls、owner、close criteria 與 write-back target。例外成立的同時，也要同步設計關閉節奏與回寫路徑。

Stale Read

Wed, 13 May 2026 00:00:00 +0000

Stale read 的核心概念是「讀到的資料不是最新提交狀態」。它的責任是揭露一致性延遲在讀路徑的實際影響，常用於 eventual-consistency 與 bounded-staleness 的風險判讀。

概念位置

Stale read 常出現在 replication-lag 拉開的 read replica、跨區同步、cache-aside 與異步 projection。它需要先定義可接受窗口與超標處置、是否構成錯誤取決於業務容忍度；判讀粒度跟 consistency-level 跟 bounded-staleness 對齊。

可觀察訊號與例子

需要 stale read 判讀的訊號是「使用者剛完成操作，下一次查詢卻看不到結果」。例如付款成功後，訂單狀態頁仍顯示未付款，通常是讀路徑落後寫入收斂。

設計責任

處理 stale read 要同時提供技術與產品策略：技術上可用讀回主庫、版本比對或延遲容忍設計；產品上要明確呈現狀態轉換，避免把短暫收斂延遲誤解成資料錯誤。

Release Freeze

Thu, 30 Apr 2026 00:00:00 +0000

Release freeze 的核心概念是「在高風險期間暫停特定變更，保護正式環境穩定與資料安全」。它是風險治理節奏的一部分，不是永久狀態。可先對照 Release Gate。

概念位置

Release freeze 位在 Release Gate、Allowlist 與 Tripwire 之間。它決定哪些變更先暫停、哪些必要變更可受控放行。

可觀察訊號

系統需要 release freeze 的訊號是：

漏洞修補、供應鏈事件或事故復原正在進行
關鍵控制面驗證尚未達到放行標準
高風險變更可能擴大影響範圍
團隊需要在短時間內穩定風險面

接近真實網路服務的例子

供應鏈事件期間，團隊暫停所有非必要版本更新，只允許修補與回復相關變更進入正式環境；每次放行都通過額外驗證與雙人審核。

設計責任

Release freeze 要定義 freeze scope、allowlist policy、validation gate、unfreeze condition 與例外審查流程，並把解除條件連回治理決策會議。

Workload Identity

Wed, 13 May 2026 00:00:00 +0000

Workload identity 的核心概念是「把機器身份與人類身份分開治理」。它的責任是讓服務到服務授權可追蹤、可撤銷，避免長期共享憑證造成高權限擴散。可對照 credential 與 federation。

概念位置

Detection gap 類的行動項（「事故中缺少某個 alert / metric」）應指派給觀測系統的 owner，帶明確的變更規格（新增哪個 metric、alert 閾值多少、連到哪個 runbook）。

使用情境

系統需要 action item closure 流程的訊號是事故復盤後大量 open items 超過 90 天仍未關閉，或同類事故重複發生但上次復盤的改善項還沒完成。

設計責任

每個 action item 定義：owner（誰負責完成）、完成標準（什麼狀態算 done — 不是「已開始」而是「已部署、已驗證」）、驗證方式（怎麼確認完成 — 跑一次演練、查 dashboard 確認 metric 存在）、截止時間（兩週內 close）。逾期的 action item 自動升級到管理層 — 這個升級機制是 closure 流程的背壓。

Evidence Package

Thu, 07 May 2026 00:00:00 +0000

Evidence package 的核心概念是「把查詢、時間窗、資料品質限制與 owner 打包成可交接證據」。它連接 log、metrics、trace 與 incident timeline，讓事故與驗證能回放同一組事實。

概念位置

Evidence package 位在 dashboard、SLI / SLO 與 post-incident review 之間。Dashboard 提供操作視角，SLO 提供判讀門檻，evidence package 保存支撐判斷的來源、時間窗、查詢入口與限制。

可觀察訊號與例子

系統需要 evidence package 的訊號是同一段事故證據在交班、release gate 或復盤時反覆被重新查證。常見例子是只保存截圖，下一班 on-call 看得到圖表形狀，卻缺少 query、time range、sampling ratio、ingest delay 與 owner，導致決策背景需要重新建立。

設計責任

Evidence package 要包含 source、time range、query link、owner、data quality、confidence、known gap 與 retention。它的責任是讓證據可查、可解釋、可重跑，並能交給 incident decision log、steady state 或 action item closure 使用。

Time Range

Mon, 11 May 2026 00:00:00 +0000

Time range 的核心概念是「證據或查詢對應的明確時間窗」。它連接 evidence package、incident timeline 與 steady state，讓同一組資料能被事中交班、release gate 與事後復盤一致解讀。

概念位置

Time range 位在 dashboard、query link 與 incident decision log 之間。Dashboard 顯示狀態，query link 保留查詢入口，time range 則定義這次判讀看的時間範圍。

可觀察訊號

系統需要 time range 的訊號是：

同一張圖在不同時間重跑會得到不同結果
release gate 要判斷某批 rollout 是否已穩定
事故交班需要知道某個 evidence 觀察的是哪段時間
復盤要對齊 deploy、alert、customer report 與 rollback 的先後

接近真實網路服務的例子

資料庫 migration 的 validation query 若標示 2026-05-11T02:10:00Z/2026-05-11T02:20:00Z，下一班 on-call 就能把 mismatch、replication lag 與 slow query 放回同一個 backfill batch 判讀。

設計責任

Time range 要定義開始時間、結束時間、時區、資料延遲限制與關聯事件。它應進入 evidence package 與 rollback condition，避免團隊用不同時間窗比較同一個決策。

Incident Decision Log

Thu, 07 May 2026 00:00:00 +0000

Incident decision log 的核心概念是「把事故期間的已決事項與證據鏈保存成可回放紀錄」。它連接 incident command system、incident timeline 與 evidence package，讓事中交班與事後復盤使用同一組決策背景。

概念位置

Incident decision log 位在 on-call、incident communication channel 與 post-incident review 之間。它保存的是決策內容、時間、證據、owner、預期效果與回退條件，timeline 則保存事故事件順序。

可觀察訊號與例子

系統需要 incident decision log 的訊號是事故結束後很難說清楚某次 rollback、degradation 或 vendor escalation 的決策依據。常見例子是聊天頻道有大量討論，但缺少明確的「何時決定、基於哪些 evidence、誰執行、什麼條件下改路線」。

設計責任

Incident decision log 要支援 handoff、multi-incident coordination、stakeholder update 與 post-incident review。它的欄位應足夠輕量，讓事故現場能持續更新，同時足夠完整，能把缺口回寫到 runbook、steady state 與 action item closure。

Query Link

Mon, 11 May 2026 00:00:00 +0000

Query link 的核心概念是「保存可重跑的查詢入口」。它連接 evidence package、time range 與 data quality，讓後續接手者能重新驗證同一個判讀。

概念位置

Query link 位在 dashboard、validation query 與 incident decision log 之間。截圖適合溝通當下狀態，query link 則保留可回放、可調整、可驗證的入口。

可觀察訊號

系統需要 query link 的訊號是：

事故交班時下一班需要重跑同一個判讀
release gate 要引用具體查詢結果，而不是貼圖表摘要
PIR reviewer 需要查證當時資料限制
dashboard panel 版本變動可能改變圖表語意

接近真實網路服務的例子

Checkout API evidence package 可以保存錯誤率 query、p95 latency query 與 provider timeout query 的連結。資料庫 migration evidence package 則可以保存 row count、mismatch sample 與 replication lag query link。

設計責任

Query link 要保留查詢版本、參數、time range、資料來源與 owner。它要搭配 known gap 記錄查詢未覆蓋的資料範圍，避免截圖或 dashboard 名稱被誤當成完整證據。

Steady State

Thu, 07 May 2026 00:00:00 +0000

Steady state 的核心概念是「系統在正常或受控退化期間仍應維持的服務能力」。它連接 SLI / SLO、chaos test 與 degradation，讓實驗與事故共用同一組成功條件。

概念位置

Steady state 位在 error budget、blast radius 與 RTO / RPO 之間。它把可靠性承諾轉成可量測訊號，並說明故障期間哪些能力要維持、哪些能力可以受控退化。

可觀察訊號與例子

系統需要 steady state 的訊號是 chaos、failover 或 DR drill 只描述故障動作，缺少成功判準。常見例子是節點被關閉後 health check 仍為綠燈，但 checkout success、queue lag 或 client-side error rate 已經偏離使用者可接受範圍。

設計責任

Steady state 要包含 success rate、latency、queue lag、data correctness、customer impact 與 recovery complete 門檻。它的責任是支援 evidence package、incident decision log 與 game day 判斷實驗是否通過、事故是否恢復。

Static Stability

Tue, 23 Jun 2026 00:00:00 +0000

Static stability 的核心概念是「資料面在 control plane 失效時仍能維持服務」。設計約束是資料面必須快取控制面最後已知的好配置，並在控制面不可用時用快取繼續運作，不依賴控制面即時回應。

概念位置

Static stability 位在 control plane 與 blast radius 之間。它把控制面失效的影響限制在「新配置無法推送」，而非「現有服務中斷」。跟 steady state 的關係是：static stability 定義了控制面失效期間的 degraded steady state — 服務能力受限但仍在可接受範圍。

核心機制

Static stability 依賴三個機制：快取最後已知好配置（控制面失效時不嘗試重新取得）、預計算 fallback 路徑（控制面在線時就 build 好備用配置）、constant work pattern（失敗模式下的工作量跟正常時相同，避免 retry storm 放大負載）。

可觀察訊號與例子

需要 static stability 設計的訊號是控制面重啟或網路隔離時，資料面同時不可用。典型例子是 service mesh 的 control plane 掛掉後 sidecar 無法取得路由表、導致所有服務間通訊中斷；static stability 設計讓 sidecar 用快取的路由表繼續服務。

設計責任

Static stability 的責任是讓 DR 設計不依賴已故障的控制面。它跟 readiness 的關係是：static stability 是 readiness review 的前置項 — 若資料面沒有控制面失效時的自主能力，readiness 就有結構性缺口。

Data Quality

Mon, 11 May 2026 00:00:00 +0000

Data quality 的核心概念是「證據資料本身的完整度、新鮮度與限制」。它連接 evidence package、sampling 與 known gap，讓下游知道這份 evidence 能支持到哪個判斷範圍。

概念位置

Data quality 位在 metrics、trace 與 incident decision log 之間。Metric、log、trace、audit log 都可能有延遲、抽樣、drop、masking 或 schema drift，這些限制要跟證據一起交接。

可觀察訊號

系統需要 data quality 的訊號是：

trace sampling 讓某些 request path 無法完整重建
log pipeline 有 ingest delay 或 drop
query 只跑 primary、replica 或部分 tenant
dashboard 結論需要標示 freshness 或 completeness 限制

接近真實網路服務的例子

資料庫 migration 的 evidence package 可以標示 primary only; replica lag still recovering，表示 validation query 可信，但 replica 讀取路徑還不能用同一份 evidence 直接放行。

設計責任

Data quality 要標示 completeness、freshness、sampling、masking、retention 與 owner。它要支援 confidence 判讀，避免 release gate 或 incident decision log 把有限資料誤當成完整事實。

Resiliency Matrix

Tue, 23 Jun 2026 00:00:00 +0000

Resiliency matrix 的核心概念是「用 service × failure mode 的交叉矩陣，把系統的防護狀態從隱性假設變成可檢查資產」。每個交叉點標記 covered（有防護且已驗證）、gap（已知缺口待補）或 in-progress（防護建置中），讓團隊能系統性地追蹤 blast radius 覆蓋。

概念位置

設計責任

設計上要決定 WAL 的 checkpoint 頻率、保留長度、磁碟容量餘裕與監控指標。WAL 同時被 crash recovery、replication 與 CDC 三條路徑依賴，保留策略要同時滿足三者：保留太短會讓 replica 或 Replication Slot 追不上，保留太長會占用磁碟。observability 要看 WAL 生成速率、checkpoint lag 與最舊仍被保留的 log 位置。

Recording Rule

Mon, 22 Jun 2026 00:00:00 +0000

Recording rule 把重複的聚合計算從查詢時推到寫入時。當 dashboard 或 alert 反覆對同一組 raw metrics 做 rate / sum / histogram_quantile，每次查詢都重新掃描原始資料；recording rule 把計算結果預先寫成新的 time series，查詢時直接讀取結果。

概念位置

Recording rule 是 metrics 讀取路徑的效能工具。它在 TSDB 層（如 Prometheus、Thanos、Mimir）定期執行 query expression，把結果作為新 series 寫入儲存。概念上類似 OLAP 的 materialized view，但作用在時間序列而非關聯式資料。

設計責任

設計 recording rule 時要定義計算表達式、執行間隔、命名慣例與維護責任。命名慣例通常遵循 level:metric:operations 格式（如 job:http_requests_total:rate5m），讓讀者從名稱判斷來源、粒度與計算方式。

Recording rule 產生的 series 本身也佔儲存空間與 cardinality。規則數量增長時，要監控 rule evaluation duration 跟 rule group lag，避免 rule 跑不完的情況讓 dashboard 看到過期資料。

使用情境

需要 recording rule 的訊號是 dashboard panel 載入時間持續退化、或 alert rule 因為 query timeout 而漏發。把 SLO burn rate 計算、高流量 endpoint 的 rate 與 error ratio 預先聚合成 recording rule，是最常見的起點。

Recording rule 與 raw query 的分工：高頻讀取（dashboard 自動刷新、alert 每分鐘 evaluate）適合 recording rule；低頻即席查詢（事故時的 ad-hoc 切片）直接查 raw series，保留完整維度。

在觀測領域的應用見 4.2 metrics 聚合查詢跟 4.23 觀測查詢設計。

Metadata Lock

Fri, 22 May 2026 00:00:00 +0000

Metadata Lock 的核心概念是資料庫為了保護 table 結構，在 DDL 與既有交易之間建立的相容鎖。任何讀寫某張表的交易都會持有該表的 metadata 讀鎖，DDL 需要 metadata 寫鎖；當一個長交易尚未結束，DDL 會排隊等待，而排在 DDL 後面的新查詢也會一起被擋住。它和處理 row 層並發的 Isolation Level 是不同層的鎖；要安全執行 schema 變更時要接回 Schema Migration 與 Online Migration。

概念位置

Metadata Lock 位在 DDL workflow 與 DML transaction 的交界。MySQL 的 metadata lock、PostgreSQL 的 ACCESS EXCLUSIVE lock 都是同一類機制 — 它讓一個看似輕量的 ALTER 在有長交易時放大成全表查詢停滯。它和 Transaction Boundary 直接相關：交易開得越久，越容易成為 DDL 的阻塞源。

可觀察訊號與例子

需要注意 metadata lock 的訊號是執行一個 ALTER 後，原本正常的查詢突然大量逾時或排隊。觀察 metadata lock 類系統表會看到 DDL 在等某個長交易、後面跟著一串 waiting 查詢。常見場景是部署期間跑 migration，剛好有一個忘了 commit 的交易或一個慢報表查詢，DDL 卡住、服務讀寫一起雪崩。

設計責任

設計 schema 變更要先定義 DDL window、lock wait timeout 與長交易的處理策略。安全做法是在低流量窗口執行、設定 DDL 逾時讓它快速失敗而非無限等待、並先找出與終止 blocker 交易。大表結構變更應改用 Online Migration 工具，把一次性鎖換成可控的漸進搬移。runbook 要能快速定位「DDL 在等誰」與「誰被 DDL 擋住」。

Rollup / Downsampling

Mon, 22 Jun 2026 00:00:00 +0000

Rollup 用降低時間精度換取儲存成本與查詢效能。原始資料以秒級或分鐘級採集，隨時間推移被聚合成更粗的粒度（5 分鐘、1 小時、1 天），舊的高精度資料可以刪除或歸檔。它是 storage tiering 在時間維度的具體實作，跟 recording rule 分工互補。

概念位置

Rollup 是 storage tiering 在時間維度的具體實作。它跟 recording rule 的差別在於：recording rule 是降維度（把多個 label 聚合成一條 series），rollup 是降時間精度（把 15 秒的點變成 5 分鐘的點）。兩者經常搭配使用。

設計責任

設計 rollup 時要定義每一層的精度、保留期、聚合函數與查詢路由規則。聚合函數的選擇影響查詢語意：對 counter 做 sum 跟對 gauge 做 average 是合理的；但對 histogram 做 average 會失去分布資訊。

查詢路由是 rollup 設計的關鍵配套。使用者查詢 7 天範圍時系統自動路由到 5 分鐘粒度、查詢 90 天範圍時路由到 1 小時粒度。若路由不透明，使用者會對精度差異產生困惑。

使用情境

需要 rollup 的訊號是 TSDB 儲存成本持續成長、長時間範圍的 dashboard panel 查詢逾時、或保留政策因為儲存限制被迫縮短。Thanos compactor、Cortex/Mimir compactor、VictoriaMetrics downsampling 都是常見實作。

在觀測領域的查詢設計見 4.2 metrics 聚合查詢跟 4.23 觀測查詢設計。

Read-Write Split

Fri, 22 May 2026 00:00:00 +0000

Read-Write Split 的核心概念是把寫入導向 primary、把讀取導向一個或多個 replica，用 replica 擴展讀取容量。它讓讀多寫少的服務把壓力分散開，而不必全部集中在 primary，代價是 replica 有 Replication Lag，剛寫入的資料可能還沒同步。它和 Connection Pool、Transaction Pooling 一起決定連線怎麼分配；判斷讀到舊資料的後果時要接回 Stale Read。

概念位置

Read-Write Split 位在 application 與資料庫拓撲之間的路由層。它可以由 proxy、driver 或 application 自己實作；路由規則要分辨 write、一般 read、交易內讀取與需要強一致的讀取（例如 SELECT … FOR UPDATE）。它和 Replication Lag 直接耦合 — lag 越大，分流到 replica 的讀取看到舊資料的窗口越長。

可觀察訊號與例子

適合 read-write split 的訊號是 primary 的讀取壓力遠大於寫入、且多數讀取可以接受秒級延遲的資料。要特別處理的是「寫入後立刻讀」的流程：使用者送出訂單後馬上看訂單列表、後台改完權限馬上驗證，這些 read-after-write 路徑分到 replica 會讀到舊狀態。常見做法是讓這類路徑強制走 primary，或加一層 lag guard。

設計責任

設計時要定義路由規則、哪些讀取必須走 primary、交易內讀取如何 pin 在同一連線、以及 replica lag 超標時的降級策略。session 一致性要寫清楚：同一使用者的 read-after-write 是否保證。observability 要看 primary 與 replica 的讀寫分佈、replica lag，以及被 lag guard 擋回 primary 的比例。

Storage Tiering

Mon, 22 Jun 2026 00:00:00 +0000

Storage tiering 按資料被查詢的頻率與時間壓力，把資料放在不同速度與成本的儲存層。最近的資料放在快速儲存（hot tier），較舊的資料依序移到較慢但便宜的儲存（warm tier、cold tier），最終可歸檔到 object storage 或離線備份。它跟 rollup 共同構成觀測資料的生命週期管理，受 retention 期限驅動。

概念位置

Storage tiering 是觀測資料管理的基礎設施層決策，影響查詢能力、成本結構與保留政策。它跟 rollup 的分工是：tiering 決定資料放在哪種儲存、rollup 決定資料以什麼精度存放。兩者共同構成觀測資料的生命週期管理。

設計責任

設計 tiering 時要定義每一層的查詢 SLA、儲存成本、資料轉移觸發條件與跨層查詢行為。

層級	典型儲存	查詢延遲	資料精度
Hot	SSD / in-memory TSDB	毫秒到秒	原始精度
Warm	HDD / 分散式儲存	秒到十秒	原始或輕度 rollup
Cold	Object storage / S3	十秒到分鐘	rollup 或歸檔

跨層查詢是 tiering 設計的關鍵問題。當查詢範圍橫跨 hot 跟 warm 兩層時，回應時間由最慢的那層決定。使用者在 dashboard 把時間範圍從「最近 1 小時」拉到「最近 7 天」時，查詢延遲可能從毫秒跳到秒級，體驗落差需要在 UI 或文件中說明。

使用情境

需要 tiering 的訊號是觀測儲存成本持續成長但大部分查詢只命中最近的資料、或保留期因為成本壓力被迫縮短導致鑑識與稽核需求無法滿足。Elasticsearch ILM、Loki 的 chunk storage 分層、Thanos / Cortex 的 object storage backend 都是常見實作。

Tiering 對查詢能力的影響見 4.7 cardinality 治理跟 4.23 觀測查詢設計。

Replication Slot

Fri, 22 May 2026 00:00:00 +0000

Replication Slot 的核心概念是來源資料庫為每個下游 consumer 保留的進度標記 — 它記錄 consumer 確認到哪個位置，並據此保留尚未被消費的 Write-Ahead Log。slot 讓 consumer 斷線後仍能從正確位置續傳，代價是 consumer 停擺時 log 會在來源端持續累積。它是 Change Data Capture 與邏輯複製的進度基礎，和 messaging 的 Offset 相鄰但責任不同。

概念位置

Replication Slot 位在來源資料庫與下游 consumer 之間，是一個有狀態的 production resource。它和 Offset 都是消費進度，差別在反壓方向：offset 落後不會壓垮 producer，slot 落後會讓來源端為了保留 WAL 而吃光磁碟。PostgreSQL 的 replication slot 是典型例子，Consumer Lag 是它對應的健康指標。

可觀察訊號與例子

需要監控 slot 的訊號是來源資料庫磁碟用量上升、但寫入量沒有等比增加。常見原因是 Debezium connector 或 replica 離線，slot 仍在保留 WAL。一個 inactive slot 在高寫入服務上可以在數小時內撐爆 primary 磁碟，屬於高優先事故訊號。

設計責任

每個 slot 要有明確 owner、健康 SLO 與 drop condition。設計上要監控每個 slot 的 retained WAL 大小與 confirmed 位置，對 inactive slot 設告警，並定義「consumer 永久退場時誰負責 drop slot」。slot 數量與保留策略要納入來源端的容量規劃，讓複製能力不會反過來成為來源資料庫的可用性風險。

Materialized View

Mon, 22 Jun 2026 00:00:00 +0000

Materialized view 把查詢結果預先計算並持久儲存，是 read model 的一種實作方式。它跟一般 view 的差別在於 materialized view 有實體儲存，查詢時讀取的是快照而非即時計算。

概念位置

Materialized view 是 read model 的一種實作方式。在關聯式資料庫中它是 SQL-level 的物化查詢；在觀測領域，recording rule 扮演類似角色 — 把聚合計算的結果寫成新的 time series。兩者的共同設計問題是更新頻率、一致性延遲與維護成本。

設計責任

設計 materialized view 時要定義刷新策略（定時 / 觸發 / 手動）、資料新鮮度容忍上限、儲存成本與失效重建流程。刷新頻率決定讀取的 freshness — 每分鐘刷新的 materialized view 最多落後一分鐘，對 dashboard 場景通常足夠，對即席事故診斷可能不夠。

使用情境

需要 materialized view 的訊號是同一個複雜查詢被多個消費者反覆執行（dashboard panel、定期報表、alert rule），而且每次查詢的計算成本高到影響原始資料源的效能。在觀測場景中，SLO burn rate、跨服務 error ratio、多維度 latency percentile 是常見的 materialization 候選。

在資料庫的應用見 1.8 State Ownership。在觀測領域的應用見 4.23 觀測查詢設計。

Transaction Pooling

Fri, 22 May 2026 00:00:00 +0000

Transaction Pooling 的核心概念是 connection pooler 把後端連線的綁定縮到單一 transaction 期間 — transaction 一結束，後端連線就還回池子給其他 client 用。它把連線壓縮做到最大，代價是 session 狀態無法跨 transaction 保留。它和 Connection Pool 是同一條線上的不同精細度，並和 Transaction Boundary 直接耦合。

概念位置

Transaction Pooling 位在 application 與資料庫之間的 Connection Pool 內。相對於 session pooling（連線綁定整個 client session）與 statement pooling（綁定單一語句），transaction pooling 在壓縮率與相容性之間取中間值。選它就要把 search_path、prepared statement、暫存表、advisory lock、SET 等 session 層設定全部改成 transaction-scoped。

可觀察訊號與例子

適合 transaction pooling 的訊號是大量短連線、client 連線數遠超過資料庫能承受的後端連線上限。要特別注意依賴 session 狀態的功能：用 SET 設定的 Row-Level Security session 變數若不是 transaction-scoped，會漂到下一個 client 的 transaction，造成跨租戶資料外洩。

設計責任

設計時要先盤點 application 用到哪些 session 層機制，再決定 pooling 模式。選 transaction pooling 時要把租戶識別、權限變數、時區等設定改用 SET LOCAL 綁在 transaction 內。observability 要看後端連線使用率、client 等待時間，以及和 pooling 模式相關的錯誤。

CQRS

Mon, 22 Jun 2026 00:00:00 +0000

CQRS（Command Query Responsibility Segregation）的核心概念是「把寫入路徑跟讀取路徑拆成各自獨立的模型，各自依自身需求最佳化」。分離後讀取面的具體產物是 read model。它處理的根本問題是讀寫不對稱 — 同一份資料的寫入形狀跟讀取形狀不同、寫入頻率跟讀取頻率不同、寫入 SLA 跟讀取 SLA 不同。

概念位置

CQRS 是一種架構分離策略，位於資料存取模式的設計層。它跟 read model 的關係是：CQRS 是分離的決策框架，read model 是分離之後「讀取面」的具體產物。

CQRS 經常跟 event sourcing 一起出現，但兩者是獨立概念。CQRS 只要求讀寫模型分離；event sourcing 是把寫入模型改成 append-only 的事件流。可以有 CQRS 但沒有 event sourcing（寫入仍用傳統 CRUD，讀取用獨立的 read model），也可以有 event sourcing 但沒有 CQRS（讀寫都直接操作 event store）。

讀寫不對稱的三個維度

分離的動機來自三種不對稱，當任一種超過單一模型能承受的範圍時，CQRS 開始有設計價值。

形狀不對稱：寫入時資料以正規化、事務安全的結構進入系統；讀取時不同消費者需要不同的反正規化形狀。一個訂單寫入時是 order + line items + payment 三張表的事務；列表頁需要扁平的 order summary，報表需要跨訂單的聚合，搜尋需要全文索引。強迫同一個模型同時服務這些形狀，會讓寫入模型變得過度複雜或讀取效能退化。

頻率不對稱：讀取頻率遠高於寫入頻率是常見的服務模型（商品頁的瀏覽量遠大於商品更新頻率）。讀寫共用模型時，高頻讀取的效能需求會推動寫入模型往讀取最佳化靠攏，犧牲寫入的簡潔性跟一致性保證。

SLA 不對稱：不同讀取消費者的延遲容忍跟一致性需求不同。即時顯示需要毫秒級回應但容忍短暫不一致；報表需要完整一致但容忍分鐘級延遲；稽核需要長期可查但容忍更高延遲。單一模型難以同時滿足多種 SLA。

分離的設計判準

讀寫不對稱存在不代表一定需要 CQRS。分離的判準是不對稱的程度是否已經超過「在同一個模型上做最佳化」能解決的範圍。

可以不分離的情境：讀寫形狀接近（CRUD 應用、管理後台）、讀取消費者單一（只有一種 UI）、流量規模讓讀寫共用模型的效能足夠、團隊規模小到維護兩套模型的成本大於效能收益。

需要考慮分離的訊號：讀取效能持續退化但寫入側無法再為讀取最佳化（加 index 已到極限、反正規化導致寫入複雜度上升）；多種讀取消費者對同一份資料有互斥的形狀需求；讀寫的擴展需求方向不同（讀取要水平擴展、寫入要強一致性）。

分離的代價

CQRS 的代價集中在同步、一致性與維護三個面向。

最終一致性：read model 透過事件或同步機制從 write model 更新，中間有延遲。使用者寫入後立即讀取可能看不到自己的變更。這個延遲窗口需要被明確設計（多長、可接受嗎、UI 怎麼處理）而非假裝不存在。

同步機制的可靠性：write model 到 read model 的同步本身是一個需要監控跟治理的資料路徑。同步失敗、同步延遲、同步漂移都需要被偵測跟處理。

多模型維護：schema 變更需要同時更新 write model 跟所有 read model。read model 的數量增長後，每次 schema migration 的變更面會擴大。

跨領域的應用

讀寫分離的設計張力不限於 application data。觀測資料的讀取路徑設計（4.23 觀測查詢設計）面臨同樣的不對稱：寫入是高吞吐的 append-only，讀取被至少三種不同 SLA 的消費者（即席診斷、聚合趨勢、鑑識回溯）拉扯。觀測領域用 recording rule、rollup、storage tiering 來實作讀寫分離，概念上對應 CQRS 的 read model，但術語跟實作層級不同。

Message queue 的消費端也有類似結構：同一份事件被多個 consumer 以不同速度、不同形狀讀取，fan-out 跟 consumer group 是另一種讀寫分離的實作。

Single Writer Model

Fri, 22 May 2026 00:00:00 +0000

Single Writer Model 的核心概念是同一個邏輯資料庫在任一時間只允許一條 writer path，所有寫入被序列化。它讓寫入路徑簡單、省去分散式寫入協調，代價是寫入吞吐有明確上限。它是 SQLite WAL mode 與許多 leader-based 系統的並發模型，和 Write-Ahead Log、Embedded Database 一起決定寫入行為。

概念位置

Single Writer Model 位在並發模型的一端 — 寫入併發度上限為一。它和「多 reader 並行」可以共存：SQLite WAL mode 允許多個 reader 與一個 writer 同時運作。要擴展寫入時，靠的是改變架構（例如分區、分庫或換成 Distributed SQL），增加 writer 在此模型下行不通。

可觀察訊號與例子

single writer 仍夠用的訊號是寫入可以用一個 writer 排隊完成、busy 或 lock timeout 偶發且短。需要重新設計的訊號是寫入長期排隊、busy timeout 從偶發變成常態。常見誤判是把 busy timeout 調大當成擴容 — 那只是讓請求等更久；也常見多個 instance 同時寫同一個檔案，破壞 single writer 假設。

設計責任

設計時要明確指認「誰是 writer」並確保系統真的只有一個。LiteFS 類方案用 primary lease 把 writer 角色集中；應用層要把寫入路徑收斂到單一節點或單一序列化點。容量規劃要把單 writer 吞吐當作硬上限，超過時改走分區或 Distributed SQL，而不是疊加 writer。

Event Sourcing

Mon, 22 Jun 2026 00:00:00 +0000

Event sourcing 的核心概念是「不存 current state、存產生 current state 的所有事件」。儲存層是 event log，讀取面透過 projection 推算 current state。每一次狀態變更被記錄為一筆不可變的事件（event），current state 透過重播（replay）事件序列推算出來。正式紀錄是事件流本身，current state 是派生物。

概念位置

Event sourcing 是一種資料持久化策略，改變的是「狀態怎麼被記錄」而非「狀態怎麼被讀取」。它跟 CQRS 經常搭配但概念獨立 — event sourcing 處理寫入模型（append-only event log 取代 mutable row），CQRS 處理讀寫分離。可以有 event sourcing 但沒有 CQRS（讀寫都直接操作 event store），也可以有 CQRS 但沒有 event sourcing（寫入仍用 CRUD）。

Event sourcing 的儲存層是 event log。讀取面透過 projection 把事件流轉換成查詢用的 read model。

設計判準

Event sourcing 的設計價值來自「需要完整變更歷史」的業務需求。判準是：業務是否需要回答「某個時間點的狀態是什麼」或「狀態怎麼從 A 變成 B」。

適合的場景：

金融帳務 — 餘額的每一筆增減都是 audit 事件，法規要求能追溯任意時點的 balance
訂單流程 — 每個狀態轉換（建立→付款→出貨→完成）是 business event，需要重建任意階段
法規合規 — 完整變更歷史是合規證據，刪除或覆寫正式紀錄違反要求
需要 replay 能力 — downstream consumer 落後或資料損壞時，能從 event log 重建

不適合的場景：

簡單 CRUD — 狀態覆寫即可、不需要歷史、event sourcing 的 overhead 遠大於收益
需要直接查 current state 的高頻場景 — 每次讀取都 replay 整條事件流延遲太高，必須搭配 projection 維護 snapshot，增加系統複雜度
事件 schema 變更頻繁 — 舊事件需要被新版 schema 正確 replay，schema evolution 成本高

代價

讀取複雜度：current state 不再是一筆 row，而是需要 replay 或 projection 推算。讀取路徑的設計從「查一筆 record」變成「維護多個 read model + 保證 projection 正確性 + 處理 projection lag」。

事件 schema evolution：事件一旦寫入就不可變，但業務需求會改變事件結構。版本化 event schema（upcasting）是長期維護的核心挑戰 — 新版 projection 要能正確消費舊版事件。

儲存成長：事件永不刪除（或只做 retention），儲存量隨時間持續成長。高頻寫入的系統可能需要 snapshot 機制（定期存一份 current state 快照，replay 從 snapshot 開始而非從頭）來控制 replay 時間。

除錯難度：bug 可能是某個 event handler 在 replay 時產生錯誤結果。除錯需要重現特定事件序列的 replay，比查一筆 mutable record 的 diff 更複雜。

跟其他概念的關係

Event log — event sourcing 的儲存層，append-only 的事件序列
Projection — 把 event log 轉換成可查詢的 read model 的機制
Read model — projection 的輸出，為特定查詢需求最佳化的資料形狀
CQRS — 讀寫分離的設計框架，event sourcing 是其中一種 write model 實作
Saga — 跨服務的分散事務，event sourcing 提供每個 step 的事件紀錄

Type Affinity 的核心概念是 SQLite 的型別模型 — 欄位宣告的型別是一個「傾向」，SQLite 依這個傾向決定存入的值如何被轉換與儲存，硬約束的心智模型在此不適用。它讓 SQLite 的 schema 比嚴格型別資料庫更寬鬆，代價是要理解值實際被存成什麼。理解它對寫對 Schema Migration 與查詢很關鍵。

概念位置

Type Affinity 位在 SQLite 的資料模型核心，和嚴格靜態型別的資料庫相對。多數關聯式資料庫的欄位型別是硬約束，存錯型別會被拒絕；SQLite 的欄位有 type affinity，值會被儘量依 affinity 轉換、也允許存入不同 storage class。它和 Document Store 的彈性 schema 是不同來源的彈性 — 一個是型別寬鬆、一個是結構寬鬆。

可觀察訊號與例子

需要理解 type affinity 的訊號是查詢結果的型別或排序不如預期，或同一欄位混進了數字與字串。常見場景是把數字以字串存入，比較與排序就按字串規則跑；或預期欄位是整數、實際存進了文字。SQLite 的 STRICT table 可以把欄位改回硬約束，讓行為更接近傳統資料庫。

設計責任

設計 schema 時要清楚每個欄位的 type affinity、以及值會如何被轉換。需要嚴格型別保證時，要明確選用 STRICT table 或在應用層驗證。測試 fixture 要涵蓋型別邊界，避免「本機測試剛好都存對型別」掩蓋問題。

Distributed Lock

Wed, 27 May 2026 00:00:00 +0000

Distributed lock 的核心責任是讓分散式系統中多個 process 對共享資源做互斥存取。比單機 mutex 多一層責任：要處理 holder 失效（process crash、network partition）後鎖的自動釋放 — 解法是 lease（租約）：持鎖 process 必須定期 renew、未 renew 時鎖自動過期。底層通常依賴 consensus protocol 保證跨節點對「誰持鎖」達成一致、跟 leader election 區分在「資源互斥 vs 角色互斥」兩種使用情境。

概念位置

Distributed lock 處於分散式協調控制層、底層通常依賴 consensus protocol。常見實作載體：

Redis SET NX + EX：簡單 lease lock、Redlock 算法嘗試強化但仍有爭議
ZooKeeper / Etcd / Consul：consensus 底層、提供強一致性保證、適合長期鎖
資料庫層：PostgreSQL advisory lock、MySQL GET_LOCK() — 跟業務 transaction 同源、但跟 DB primary 綁定

可觀察訊號與例子

典型使用情境包含分散式 cache build（cache miss 時讓單一 process 打 origin、配合 cache stampede 防護）、migration / cleanup job 確保單一 instance 執行、確保兩個 worker 處理不同訂單。實測 Redis lock acquire latency 毫秒級、Etcd / ZK 跨 region 可達 10-50ms — 高頻短鎖通常改用 partition / sharding、是更省 lock 的設計。

設計責任

Fencing token 是必備設計 — 用單調遞增 token 在舊 holder 跟新 holder 並存時、讓資源側拒絕舊 holder 的寫入、防範 clock drift 或 long GC pause 導致的隱性鎖失效。Renew loop 要在 background 確認 renew 成功、若 network 卡住未及時拋錯、process 會自信操作其租約已失效的資源。Lease 期間應縮短 critical section、保持操作時間遠小於 lease timeout。

Connection Pooler

Wed, 27 May 2026 00:00:00 +0000

Connection pooler 的核心責任是讓部署在應用層跟資料庫之間的中介層、把多個應用層連線複用到少數 DB backend 連線上。解水平擴展應用層時「100 臺機器 × 每臺 10 連線 = 1000 個 DB 連線、超過 max_connections 十倍」這個常見問題。跟 connection pool 是不同層 — 後者在 application instance 內、本卡是跨 instance 共享層。

概念位置

Connection pooler 在 DB topology 中是「應用層跟 DB 之間的 multiplexer 層」、跟 connection pool 是不同層。常見實作：

PgBouncer（PostgreSQL）：輕量 single-process、三種 pool_mode（session / transaction / statement）
AWS RDS Proxy（PostgreSQL / MySQL）：managed 版本、整合 IAM auth、failover 加速
ProxySQL（MySQL）：規則型 routing + connection pooling + query rewriting
PgCat（PostgreSQL）：Rust 寫的 PgBouncer 替代、支援 sharding

PgBouncer 的 pool_mode 是核心配置：session mode 嚴格說屬 connection caching（單 client 跟 backend 1:1 綁定整個 session）；transaction mode 是多數場景的 default、但限於不依賴 transaction-scoped state 的應用（SET LOCAL、prepared statement、temp table 在 transaction mode 下會丟失）；statement mode 限於純無狀態 query workload、極少用。

可觀察訊號與例子

該裝 pooler 的訊號：應用層機器數 ≥ 20、每臺機器連線數 ≥ 10、DB max_connections 使用率 ≥ 70%、P99 connection wait time 升高。pg_stat_activity 顯示大量 idle 連線是裝 pooler 的明確指標。中型 PostgreSQL 服務裝 PgBouncer 後、DB 連線數常從 1000+ 壓到 50-100。

設計責任

選 PgBouncer 自管要付 HA / failover / 監控的運維成本；選 RDS Proxy 換掉運維、付 per vCPU 計價。Transaction mode 配置前要 audit ORM / driver 行為 — JDBC / asyncpg 的 default prepared statement 跟 transaction mode 衝突、要明示配置 protocol-level prepared statement 或改寫成 inline parameter。Pooler 解的是連線數放大、N+1 query 屬另一層議題 — 兩個問題正交、各自要解。

Strangler Fig Pattern

Wed, 27 May 2026 00:00:00 +0000

Strangler Fig pattern 的核心責任是讓 legacy 系統替換成新系統的過程可控、用「新服務從舊 monolith 旁長出、流量逐步遷移、舊系統最終下架」取代 big bang 重寫。跟 big bang 的本質差異是失敗代價可控 — 大爆炸失敗就整個服務掛、Strangler 拆分失敗只影響該功能、可即時切回。跟 dual write 是組合關係（dual write 是 strangler 階段 2 的核心執行）。

概念位置

Strangler Fig 處於系統演進的策略層、是組合多種技術的執行框架。完整執行需要四階段：邊界冷凍 + Adapter 抽出（在 monolith 內封 interface）、新服務 + dual write 雙寫期（並驗證對賬）、切流（讀路徑逐步遷移、按 user ID hash / endpoint / dark launch 分流）、寫路徑遷移 + Monolith 退役（寫路徑切到新服務、舊系統 read-only、最後下架）。

階段 4 是 point of no return — 過了寫路徑切換、新服務累積寫入、回 monolith 要 backfill 成本指數成長。

可觀察訊號與例子

大型 monolith 重寫、microservice 拆分、資料庫遷移、第三方 SaaS 換家都用 strangler。完整四階段通常 3-12 個月、雙寫期 1-4 週收斂、切流期 4-12 週逐步推進。Routing layer（API gateway / proxy / feature flag）是核心基礎設施、決定每個 request 走新或舊、出問題能瞬間切回。

設計責任

每階段都要有明示的回退條件跟成本評估 — 階段 1-3 回退代價低、階段 4 之後成本指數成長、要把 monolith 下架時點延後到「確信回退已罕見」、寧可多保留 monolith 1-2 個月。Monolith 下架前用 access log audit 確認真實流量為 0、確保 batch job / report / 內部 tool 都已切換。觀察期是硬要求 — 讀切完後至少 2 週觀察、確認穩定再進階段 4。

Modular Monolith

Wed, 27 May 2026 00:00:00 +0000

Modular monolith 的核心責任是讓單一部署單位內維持明確的模組邊界、約束 dependency 走 interface。換取的是「monolith 的部署簡單」+「microservice 的邊界紀律」、收回兩個極端各自的代價。Shopify、Basecamp、Stack Overflow 是大規模長期維持的代表。跟 cell-based architecture 沿不同維度拆分（cell-based 沿使用者群 / region 拆、modular monolith 沿業務功能拆內部）、跟 strangler fig 是策略階段關係（modular monolith 是拆分前該先嘗試的中間態）。

概念位置

Cross-region quorum 跟相鄰卡片有清楚的角色分工 — Quorum 是抽象機制（多數 ack 即可 commit）、Latency Budget 是把跨 region RTT 寫進 SLO 的決策框架、Commit Wait 是 Spanner TrueTime 的另一段獨立延遲、不能混算同一個 latency 數字。

Cross-region quorum 的 latency 由 voting replica 之間的網路 RTT 主導、跟 instance config 強相關：

Regional（單 region 多 zone）：voting 在同 region 內、quorum RTT < 5ms
Dual-region（同大陸）：跨大陸內、quorum RTT 10-30ms
Multi-region（跨洲）：跨大陸或跨洲、quorum RTT 100-200ms

跨洲 100-200ms 是物理光速下界、不是 vendor SLA 不夠好 — Spanner / CockroachDB 同樣硬限。常見誤讀是把這 100-200ms 寫成「Spanner commit wait」、實際 commit wait 是 TrueTime 不確定區間導致的另一段 2-14ms 等待、跟 cross-region quorum 是兩個獨立的物理 cost、不能混用一個 latency 數字解釋兩者。

可觀察訊號與例子

需要面對 cross-region quorum 的訊號是「multi-region distributed SQL 的 write p99 latency 鎖在 100-200ms、不管怎麼 tune client / cache / node size 都壓不下來」。對應情境：Spanner 跨洲 multi-region instance 揭露的工程數量級（依 voting region 配置變化、不是 SLA 承諾）；CockroachDB SURVIVE REGION FAILURE 強制 voting replica 散布到多 region、保 region 級故障 RPO=0 但 commit latency 直接吃跨 region RTT。Application 端的訊號是「跨洲 write 的 p99 跟 single-region 比是 10-20 倍、但 read（透過 Follower Read）p99 接近 single-region」。

設計責任

Cross-region quorum 的 latency 不能 scale away — 設計時要把它當 結構性 latency、不是可優化的瓶頸。判讀 instance config 是必要動作：寫密集 + 不需 region survival 的 workload 應該選 regional config、別硬上 multi-region；真的需要跨 region 強一致時、要把 write latency budget 從 single-region 的 10ms 改成跨洲 100-200ms、跟業務協商 SLO。引用 100-200ms 這條 anchor 做 capacity planning 必須先 audit 自家 instance 是哪種 config、不能套用單一基線。RTO=0 / RPO=0 跨 region 不是免費 — 它的 cost 落在 write latency、不是 dollar、要把這條 cost 寫進 sizing 文件。

BaaS（Backend as a Service）

Thu, 11 Jun 2026 00:00:00 +0000

BaaS（Backend as a Service）的核心概念是把後端的常見能力 — 認證、資料庫、檔案儲存、推播、serverless function — 打包成現成模組、應用程式的前端（app / SPA）用平台 SDK 直接連上這些模組、不經過自己寫的後端服務。它讓「沒有後端工程師」的團隊能先把產品做出來、代價是資料模型、查詢能力與授權機制都沿平台的形狀生長。代表服務是 Firebase 與 Supabase。它的長期成本面接回 Vendor Lock-In。

概念位置

BaaS 位在交付形態光譜的中段：比全託管平台（Wix、Shopify 類）保留更多應用程式控制權（前端完全自己寫）、比自建少掉整層後端服務。它跟自建世界的 database 與 object storage 提供同類能力、差別在存取模型：自建走「client → 自己的 API → 資料庫」、BaaS 走「client → SDK → 平台資料庫」、授權邏輯從 API 層下沉到平台的安全規則裡。

可觀察訊號與例子

適合 BaaS 的訊號是產品形態為行動 app 或 SPA、後端需求集中在認證、資料同步與推播、且團隊想把後端工程延後。一個行動端的記帳 app、用 Firebase Auth 處理登入、Firestore 存帳目並即時同步多裝置、Cloud Messaging 推提醒 — 整個 MVP 沒有一行自己的後端程式。

撞到邊界的訊號有三類：複雜查詢（跨集合報表在查詢受限的平台資料庫上變成資料複製工程）、成本曲線轉折（讀寫計費隨流量線性成長、高流量下超過自建）、安全規則失控（client 直連模型把全部授權寫進平台的規則語言、規則長到難以測試與 review）。

設計責任

採用 BaaS 時的設計責任是在進場當下記錄退出路徑：資料模型沿平台特性設計（反正規化結構、平台專屬同步語意）、遷出等於重做資料層；認證可攜性要先查證（Firebase Auth 可匯出密碼雜湊、屬於少數友善案例）。授權規則要當成程式碼管理 — 進版本控制、有 review、有測試 — 而不是在 console 上長大。判斷該不該採用、以及何時該遷往自建、屬於交付形態選型的判讀。

Serverless

Thu, 11 Jun 2026 00:00:00 +0000

Serverless 的核心概念是把「伺服器的存在」從開發者的責任清單移除：程式碼以函式或請求處理單元交給平台、平台負責執行環境、擴縮與閒置歸零、費用按實際用量計（請求數、執行時間、記憶體）。名稱說的是「開發者看不到 server」、伺服器本身仍然存在 — 只是由平台調度。代表形態是 FaaS（AWS Lambda、Cloud Functions）與 serverless 化的資料庫（Aurora Serverless、Cosmos DB serverless）；相對的長駐交付形態見 container。

概念位置

Serverless 位在運算交付模型的光譜上：比 container 平台更往「平台接管」靠 — container 平台管編排、執行單元仍長駐；serverless 連長駐都交給平台、執行單元隨請求出現與消失。它跟 BaaS 常被併用但責任不同：BaaS 提供現成的後端模組（認證、資料庫）、serverless 提供「自己的程式碼、別人的執行環境」。閒置歸零的特性接回 cold start — 歸零的另一面是喚醒延遲。

可觀察訊號與例子

概念位置

Webhook Protocol 位在 external system、HTTP endpoint 與 service 之間。它是外部事件導入的通訊約定。可先對照 Webhook。

可觀察訊號

系統需要 webhook protocol 的訊號是第三方會主動呼叫服務，而且需要簽章驗證、重放防護與穩定 payload。

接近真實網路服務的例子

付款通知、物流更新、SaaS 事件同步與第三方 callback 都會使用 webhook protocol。呼叫方與接收方都需要知道成功與失敗時的行為。

設計責任

Webhook Protocol 要定義簽章、timestamp、重送、payload schema 與錯誤回應。它應與 public API 分開看待，因為它承擔的是外部推送而不是主動查詢。