Deployment on Tarragon

Client-Side LLM / Embedding

Tue, 12 May 2026 00:00:00 +0000

Client-side LLM / embedding 的核心概念是「模型權重下載到使用者瀏覽器、用 WebGPU 或 WebAssembly 直接在 browser 內推論、不經過任何 server」。代表 runtime：WebLLM（MLC AI、用 WebGPU）、wllama（llama.cpp 的 WebAssembly port）、@xenova/transformers（瀏覽器版 transformers）。是「靜態網站做 RAG」、「離線可用 LLM 應用」這類場景的關鍵基底。

概念位置

跟其他 LLM deployment 形態的對比：

形態	模型權重位置	推論執行位置	隱私	適合
雲端 LLM API	雲端伺服器	雲端	視 vendor 政策	高品質、production
本地推論伺服器	本機磁碟	本機 process	完全本地	寫 code、個人 dev
Client-side LLM	使用者 browser cache	使用者 browser	完全本地（不經 server）	靜態網站、demo、離線

主流 client-side runtime（2026/5）：

Runtime	機制	模型支援	典型體積
`@xenova/transformers`	WASM、ONNX 格式	sentence-transformers、小型 LLM、CLIP、embedding	< 100 MB / 模型
WebLLM（MLC）	WebGPU、自家 MLC compiled	Llama / Qwen / Gemma / Phi 等 1-13B	1-8 GB / 模型
wllama	WASM、llama.cpp 編譯版	GGUF Q4 等量化模型、< 4B 為主	0.5-4 GB / 模型
`transformers.js`	WASM、跟 `@xenova/transformers` 同源	同上	同上

設計責任

讀靜態網站 / 前端 RAG / 離線 LLM 教學看到「WebGPU LLM」「browser-side embedding」「offline LLM」就是這 paradigm。寫 code 場景的判讀：

首訪載入慢：browser 第一次要下載模型權重（embedding 模型 ~50MB、LLM 1-5GB）、首訪體驗差；後續訪問 cache 起來、變快
WebGPU 支援度：2026/5 仍非所有 browser / 裝置都穩定支援、Safari iOS 較弱；fallback 到 WASM 但速度降一個量級
模型完整性沒簽章：使用者下載到的模型權重沒類似 GGUF model card 的官方驗證、要靠 CDN + HTTPS 信任、不像本地 Ollama 有 hash 比對
適合「embedding + 小 LLM」、不適合「30B reasoning」：browser 記憶體跟 WebGPU 算力都遠不如本地 Ollama、選 < 4B 模型較實際
跟資安的關係：client-side 不需要 server API key、隱私強；但模型分發鏈（CDN → browser）成為新的供應鏈面、見 4.16 靜態 RAG deployment 的資安段

5.C1 Tradeshift：self-managed Kubernetes 遷移到 EKS

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是把平台遷移從「搬家」改寫成「流量與依賴分段切換」。

觀察

Tradeshift 從 self-hosted Kubernetes 遷移到 Amazon EKS，legacy 叢集上運行 409 個 service。遷移以零停機為硬性前提，且要求對應用程式碼零修改——遷移的複雜度由平台層吸收，服務團隊不改程式碼。

遷移採用 parallel cluster 架構：新舊叢集同時運行，透過 Linkerd service mesh 的 multi-cluster 能力橋接。Linkerd 在新叢集中建立 mirrored service（帶叢集後綴），讓跨叢集服務呼叫對應用層透明。流量切換用 Linkerd 的 traffic splitting policy 分批控制，不需要修改個別服務的路由邏輯。

跨叢集延遲實測：從 EKS 叢集存取 legacy 叢集的 gateway，P50=2ms、P95=8ms、P99=9ms。這個延遲水平足以支撐遷移期的跨叢集服務呼叫，但對延遲敏感的路徑仍需要在同一叢集內完成切換才能消除這層額外延遲。

判讀

這類遷移的難點在跨叢集服務依賴與流量切換，Kubernetes API 相容性反而是最容易處理的部分。Linkerd multi-cluster 在這個案例中解決了三個問題：跨叢集 service discovery（mirrored service 自動同步）、流量分批控制（traffic splitting 不改應用碼）、遷移期 rollback（切回舊叢集只需調整 traffic split 比例）。

409 個 service 的遷移不是一次完成——service 之間有依賴關係，遷移順序要按依賴拓樸規劃。被多個服務依賴的基礎 service（auth、config）通常最後遷移或在兩邊都保留，避免跨叢集呼叫成為所有服務的共同瓶頸。

遷移期最大的隱性風險是「跨叢集延遲累積」。單次跨叢集呼叫 P99=9ms 看似可接受，但一條請求路徑如果串接 5 個跨叢集呼叫，累積延遲可達 45ms。遷移規劃要把服務依賴鏈上的跨叢集呼叫次數納入切換順序考量。

策略

建立 parallel cluster + mesh bridge：新叢集用 EKS 建立，Linkerd multi-cluster 連接新舊叢集，mirrored service 讓跨叢集呼叫透明。
按依賴拓樸排序遷移批次：葉子服務（無下游依賴）先遷，基礎服務最後遷或雙邊保留。每批遷移後驗證跨叢集延遲是否在可接受範圍。
Traffic splitting 分批切流量：每個服務遷移後，用 traffic split 從 0% 開始逐步把流量導向新叢集。觀察 per-service error rate 與 latency，確認穩定後提高比例。
保留 rollback 路徑：舊叢集服務不立即下線，traffic split 隨時可切回 100% 舊叢集。rollback 操作是調整 split 比例，不需要重新部署。
遷移完成後拆除 mesh bridge：所有服務切換完成且穩定觀測後，移除跨叢集 Linkerd 連線，舊叢集下線。

可回寫的章節段落

5.2 分階段平台遷移：traffic split 的分批切換與回退策略
5.4 跨叢集 Discovery：Linkerd mirrored service 是跨叢集 discovery 的 service mesh federation 做法
6.8 Release Gate：每批切換的放行條件與停損訊號

引用源

Tradeshift migration to EKS without downtime using Linkerd

Kubernetes

Fri, 01 May 2026 00:00:00 +0000

Kubernetes 是 container orchestration 事實標準、承擔三個責任：workload lifecycle（pod / deployment / probe / rolling update）、cluster networking（service / ingress / DNS）、resource scheduling（resource limit / QoS / autoscaling）。設計取捨偏向「declarative + control loop + extensible」、是 cloud-native 生態的核心抽象。可自管或用 cloud managed（GKE / EKS / AKS）。

對「多服務多實例 container orchestration、需要 rolling update / blue-green / canary、跨雲 / 跨環境統一抽象」這條路徑、Kubernetes 是首選。

本章目標

讀完本章後、你應該能：

用 kubectl 部署 Deployment + Service、配置 probe / resource limit
設計 rolling update / pod disruption budget 避免服務中斷
選 Ingress controller（nginx / traefik / GLBC / ALB Controller）
看懂 pod stuck / probe fail / OOMKilled / drain timeout 訊號
評估 managed（GKE / EKS / AKS）vs 自管 vs Operator 進階場景

最短路徑：5 分鐘把 Kubernetes 跑起來

 1# 1. 本機跑 kind（需先安裝 kind + docker）
 2kind create cluster --name dev
 3
 4# 2. 部署 Deployment + Service
 5kubectl create deployment nginx --image=nginx:stable-alpine
 6kubectl expose deployment nginx --port=80 --type=ClusterIP
 7
 8# 3. 驗證
 9kubectl get pods,svc,deploy
10kubectl port-forward svc/nginx 8080:80

日常操作與決策形狀

kubectl 核心指令

子議題：

資源生命週期：apply / create / delete / get / describe / logs / exec
Rolling update：set image / rollout status / rollout undo
Debug：events / port-forward / cp / top
對應指令範例：kubectl get pods -A、kubectl describe pod 、kubectl logs -f

Workload 設計

Pod lifecycle 是 K8s 的核心抽象。子議題：

Deployment（stateless）/ StatefulSet（stateful）/ DaemonSet（per-node）/ Job / CronJob
Pod 多 container（sidecar / init container）
對應 5.2 K8s deployment

Probe / Resource limit / QoS

子議題：

Liveness（活著嗎）/ Readiness（接流量嗎）/ Startup（啟動完了嗎）— 三 probe 各自責任
Resource limit（requests / limits）+ QoS class（Guaranteed / Burstable / BestEffort）
對應 Platform lifecycle contract

進階主題（按需閱讀）

Rolling update / disruption budget

對應案例 5.C9 反例：cutover without drain。子議題：

maxSurge / maxUnavailable 配置
PodDisruptionBudget 限制 voluntary disruption
Preemption / priority class

Ingress / Service mesh integration

子議題：

Ingress controller 選擇（nginx / Traefik / ALB Controller）
Gateway API（next gen Ingress）
Service mesh integration（Envoy-based Istio / Linkerd）
對應 5.C7 Airbnb Istio

Operator pattern / CRD

子議題：

CRD（CustomResourceDefinition）+ Controller 模式
Operator framework（OperatorSDK / kubebuilder）
常見 Operator：Prometheus / Cert-manager / Argo CD

Managed vs self-managed

對應案例 5.C1 Tradeshift self-managed → EKS、5.C2 Condé Nast EKS、5.C3 Orbitera managed K8s、5.C4 Mobileye EKS、5.C5 Miro EKS。子議題：

Self-managed（kubeadm / Cluster API）的 control plane 維運成本
Managed（GKE / EKS / AKS）的限制（版本鎖定 / managed addon）
遷移路徑跟回退設計

Multi-cluster / Federation

子議題：

Federation v2 / Cluster API multi-cluster
Cross-cluster service mesh（Istio multi-cluster）
對應 5.C6 Airbnb cluster scaling

Cluster autoscaling

子議題：

Horizontal Pod Autoscaler / Vertical Pod Autoscaler
Cluster Autoscaler / Karpenter
跟 09 performance capacity 對照

排錯快速判讀

Pod stuck（Pending / CrashLoopBackOff）

操作原則：先 kubectl describe pod 看 events、再 kubectl logs 看 container 訊息。

1kubectl describe pod            # 看 Events 段的 scheduling / pull / probe 訊息
2kubectl logs  --previous        # 看 crash 前一輪的 container log

判讀路徑：Pending → resource 不足 / nodeSelector 不匹配；CrashLoopBackOff → exit code + log 找原因。

Probe failure 造成不停 restart

操作原則：probe path / initial delay / timeout 配置錯。判讀：describe pod 看 probe events。

OOMKilled

操作原則：memory limit 太低、container 被殺。判讀：describe pod 看 last state reason。修法：raise limit 或優化 application memory。

Rolling update stuck

對應 5.C9 反例。判讀路徑：新 pod 起不來 → readiness 失敗 → 舊 pod 不下線 → 卡住。

Drain timeout

操作原則：kubectl drain 失敗、PDB 限制太緊。判讀：kubectl describe pdb。

何時改走其他服務

需求形狀	改走
單機服務（VM / bare metal）	systemd
Local dev / CI	Docker Compose
AWS managed runtime（不要 K8s）	ECS / Fargate
極簡 PaaS	Cloud Run / Heroku / Fly.io
替代 orchestrator	Nomad / Rancher
Edge / IoT 場景	K3s / MicroK8s

不在本頁內的主題

完整 kubectl 指令 reference
YAML manifest 完整 schema
各 Operator 細節
各語言 client-go API

案例回寫

直接相關案例

案例	主討論議題
5.C1 Tradeshift self-managed → EKS	自管 K8s 遷 managed、零停機切流
5.C2 Condé Nast EKS	多團隊異質集群整併到單一控制面
5.C3 Orbitera managed K8s	平台重置不中斷產品的能力遷移
5.C4 Mobileye EKS	大規模 workload 分批遷 EKS
5.C5 Miro EKS	Managed K8s 跟團隊維運模型對齊
5.C6 Airbnb cluster scaling	手動擴縮 → 自動化容量治理
5.C7 Airbnb Istio	Service mesh 升級分批治理
5.C9 反例：cutover without drain	Rolling update / drain 沒做的傷
5.C10 規模對照	小型 systemd → 中型 K8s → 大型 multi-cluster

下一步路由

上游概念：5.2 K8s deployment
平行 vendor：Docker、Envoy
下游能力：6 reliability（release gate）、8 incident response

5.1 container 與 runtime

Thu, 23 Apr 2026 00:00:00 +0000

容器執行環境（container runtime）的核心責任是把應用執行環境做成可重現、可限制、可觀測的交付單位。它是部署可靠性的起點——後續的 probe、canary、rollback 都假設 runtime 產物行為可預測。

image 與建置責任

image 的責任是固定依賴、執行入口與檔案結構，讓同一版本在不同環境行為一致。建置流程要回答三件事：基底映像是否可維護、建置產物是否可追溯、敏感資訊是否被隔離。

映像層數、套件來源、編譯參數都會影響啟動時間與安全邊界。部署策略在後面才有效，前提是 runtime 產物本身可預測。

基底映像選擇

基底映像（base image）決定 image 的安全維護基線與啟動時體積。選擇的核心取捨是體積 / 啟動速度與除錯便利性：

語言官方映像（python:3.12、node:20）：套件齊全、除錯方便，但體積大（通常 800MB+）、攻擊面廣。適合開發環境與 CI。
slim / alpine 變體（python:3.12-slim、node:20-alpine）：體積壓到 100-200MB、啟動快、攻擊面小。代價是缺少除錯工具（strace、curl、dig），生產事故時 exec 進容器排查會受限。Alpine 用 musl libc 而非 glibc，某些 C extension 需要額外處理。
distroless（gcr.io/distroless/base）：只包含 runtime 必要檔案，無 shell、無套件管理器。攻擊面最小，但除錯只能靠 ephemeral debug container 或外部觀測。適合安全要求高且觀測基礎建設完備的生產環境。
自建基底：組織統一維護的基底映像，可以固定安全基線、預裝觀測 agent、統一 timezone / locale。代價是基底維護本身是持續工作，版本更新節奏要有明確 owner。

選完基底後要確認兩件事：upstream 的更新節奏是否可追蹤（CVE 修補從上游到自家 image 的時間），以及團隊是否有能力在基底更新後快速重建並驗證所有服務 image。

建置可重現性

同一份 source code 在不同時間建置出不同 image，會讓 rollback 的假設失效——「回退到上一版」回退的是哪一版，取決於當時 build 環境的狀態。

可重現建置的關鍵實踐：

鎖定依賴版本：go.sum、package-lock.json、poetry.lock 要進 git。依賴解析在建置時不從 registry 重新 resolve。
Multi-stage build：把建置環境（compiler、dev dependencies）和執行環境分開。最終 image 只包含 runtime 必要檔案，體積小且攻擊面收窄。
避免 image 中殘留敏感資訊：build arg、環境變數、中間層都可能殘留 secret。secret 不進 Dockerfile，用 runtime mount 或 secret manager 注入。
image 標記策略：latest tag 不可重現——同一個 tag 指向的 image 會隨時間改變。用 git commit SHA 或語意版本號標記，讓每個 tag 指向唯一 image。

對應 5.C3 Orbitera managed K8s migration：揭露「跨平台遷移本質是能力遷移」。遷移到新平台時，CI/CD pipeline 可能換了 runner 環境、換了 registry——建置可重現性的前提是依賴鎖定與 multi-stage build 本身不依賴特定 CI 環境。

entrypoint 與啟動行為

entrypoint/command 的責任是定義容器如何啟動與退出。啟動流程應顯式處理初始化步驟、配置載入、依賴檢查與失敗退出。退出流程應處理信號中斷、在途請求收斂與資源釋放。

若啟動行為隱藏在 shell script 且無可觀測訊號，部署平台很難判斷 readiness 與失敗原因。

PID 1 與信號處理

容器內 PID 1 有特殊語意：它是 init process，負責接收平台送來的 SIGTERM / SIGINT 並轉發給子進程。PID 1 的問題出在三種情境：

Shell 作為 PID 1：ENTRYPOINT ["sh", "-c", "java -jar app.jar"] 讓 sh 成為 PID 1。SIGTERM 送到 sh、sh 預設不轉發、java 進程收不到信號、等到 terminationGracePeriodSeconds 到期後被 SIGKILL 強殺。修法是用 exec 或直接用 exec form：ENTRYPOINT ["java", "-jar", "app.jar"]。

多進程容器：一個容器跑多個進程時，PID 1 要負責信號轉發與子進程回收（zombie reaping）。如果 PID 1 不做 wait()，結束的子進程會變成 zombie。解法是用 tini 或 dumb-init 作為輕量 init，或在 Kubernetes 設 shareProcessNamespace: true 讓 kubelet 處理。

啟動腳本的信號遮蔽：entrypoint script 在初始化階段（下載 config、等依賴就緒）捕捉 SIGTERM 做清理，但如果清理邏輯卡住，整個 shutdown 會被阻塞。啟動腳本的 trap handler 要有 timeout，避免把 graceful shutdown 變成 ungraceful hang。

啟動時間對部署策略的影響

啟動時間直接影響 rollout 的最短觀察窗。一個啟動需 60 秒的服務，rollout 每批至少要等 60 秒 + 觀察窗口才能確認新版本穩定。啟動時間的組成與壓縮策略見 5.6 Platform Lifecycle Contract。

image 體積也影響啟動時間——image pull 在冷啟動（節點上沒有這個 image 的快取）時占啟動時間的顯著比例。1GB image 在 100Mbps 網路下需要 ~80 秒 pull。壓縮 image 體積同時改善啟動速度與節省 registry 頻寬。

resource limit

CPU/memory Resource Limit 隔離資源競爭並保護叢集穩態。限制過低會導致頻繁節流與重啟，過高會壓縮同節點容量並放大鄰近工作負載風險。

限制設計要依服務流量型態與 GC/執行時特性調整，並與 autoscaling、rollout 批次策略一起評估。

CPU request 與 limit 的設定策略

CPU 限制有兩個參數：request（排程保證）與 limit（硬上限）。兩者的關係決定服務在負載變動下的行為：

request = limit（guaranteed QoS）：CPU 用量穩定可預測，不會被 throttle 也不會超用。代價是無法在閒時借用節點剩餘 CPU。適合延遲敏感的 API 服務。
request < limit（burstable QoS）：平時用 request 保證的份額，高峰時可用到 limit。代價是當節點 CPU 競爭激烈時，所有 burstable pod 同時被 throttle，延遲會一起劣化。適合批次處理或對延遲要求不高的服務。
不設 limit（只設 request）：服務可用到節點全部剩餘 CPU。Kubernetes 社群近年傾向這個做法——CPU throttle 常比 CPU contention 更難排查。代價是需要良好的觀測來偵測 noisy neighbor。

Memory limit 與 OOM 的判讀

memory limit 是硬邊界——超過就 OOM kill，不走 graceful shutdown。OOM kill 的判讀分兩種情境：

真正的 memory leak：記憶體使用量隨時間單調上升，GC 無法回收。修法在程式碼層。memory limit 只是延後問題爆發，不是解法。

memory limit 設太低：服務在高峰流量下的正常記憶體使用超過 limit。常見於 JVM 服務——JVM heap + metaspace + native memory + thread stack 的總和超出 container memory limit。設 limit 時要用「峰值實際使用 + headroom」而非「平均使用」。

GC-based runtime（JVM、.NET、Go）要注意 container-aware memory 設定。早期 JVM 不認 cgroup memory limit，會按宿主機記憶體計算 heap 大小，導致 heap 配置超過 container limit。現代 JVM（Java 10+）預設啟用 container awareness（-XX:+UseContainerSupport），Go runtime 1.19+ 支援 GOMEMLIMIT。

資源設定與 autoscaling 的協同

resource request 同時決定 HPA（Horizontal Pod Autoscaler）的觸發基線。request 設太高時，CPU utilization % 會偏低，HPA 不會觸發擴容，導致服務在真正需要擴容前已經出現延遲。request 設太低時，utilization % 容易衝高，HPA 頻繁擴容，造成 pod 數量抖動。

穩定做法是先在 staging 環境跑負載測試確認服務的實際資源消耗曲線，再以 p90 負載的 CPU / memory 使用作為 request 基線。

runtime config

環境差異要顯式化才能追蹤——Runtime Config 承擔這個責任。配置來源、版本、更新節奏都應可追蹤。高風險設定需配合 Config Rollout 策略，避免同批大規模變更。

runtime 配置與映像版本要保留相容窗口，讓部署與回退可分步進行。

配置注入方式與取捨

配置注入容器有三條路徑，各自有不同的版本追蹤與更新語意：

注入方式	版本追蹤	更新行為	適用場景
環境變數	跟 deployment spec 一起版控	需要 pod restart 才生效	啟動時固定的設定（DB URL、port）
ConfigMap mount	ConfigMap 版本	自動更新（kubelet sync period 內）	需要動態更新的非敏感設定
Secret mount	Secret 版本	自動更新（同 ConfigMap）	credential、cert、API key
外部 config store	config store 內版本	應用主動拉取或 sidecar push	feature flag、複雜設定邏輯

環境變數最簡單但更新需要 restart。ConfigMap mount 可以動態更新但應用要能偵測檔案變化並 reload。外部 config store（Consul KV、AWS AppConfig、Feature Flag service）最靈活但引入了額外依賴。

設定變更跟 image 變更走不同路徑時，要確保兩者的版本可以交叉相容。版本 v2 的 image 搭版本 A 的 config 能跑、版本 v1 的 image 搭版本 B 的 config 也能跑——rollback image 但 config 沒回退、或 rollback config 但 image 沒回退的情境下、服務不應崩潰。這個相容窗口的設計責任見 5.7 Config Boundary。

遷移期的 Runtime 穩定性

對應 5.C5 Miro managed EKS 遷移：揭露「平台託管化的價值在讓團隊把心力從底層維護轉到交付效率與可靠性策略」。遷移到 managed 平台後，runtime 層面的變化包含 container runtime 版本（containerd vs Docker shim）、node OS、storage driver、network plugin。這些變化可能改變 image pull 速度、filesystem 行為、DNS 解析路徑。

遷移前後的 runtime 驗證應包含：

image pull 時間比較：新 registry / 新 node 的 pull 速度是否在 startup timeout 內。
filesystem 行為：log 寫入路徑、tmp 目錄、volume mount 行為在新 runtime 下是否一致。
DNS 解析：新叢集的 CoreDNS / node-local DNS 設定是否影響服務的依賴連線建立速度。
resource 行為：新 node type 的 CPU 架構（x86 vs ARM）、memory page size 是否影響服務性能特性。

判讀訊號

訊號	判讀重點	對應動作
新版本容器啟動時間顯著增加	image 體積或初始化步驟膨脹	優化映像層、拆分初始化流程
rollout 初期出現 OOM/CPU throttle	resource limit 與實際負載不匹配	重設 request/limit、調整併發與批次
配置變更後特定環境異常	runtime config 管理不一致	統一配置來源、補版本追蹤與差異檢查
容器停止時請求中斷率上升	signal/drain 協調不足	補 shutdown hook、對齊 termination 流程
同版本在不同節點行為差異大	runtime 依賴未固定或環境漂移	收斂基底映像、鎖定依賴與建置流程
JVM 服務 OOM 但 heap 未用滿	native memory / metaspace 超出 limit	調整 MaxMetaspaceSize、限制 thread 數
冷啟動節點上服務啟動超慢	image pull 時間在啟動時間中占比高	壓縮 image 體積、啟用 image cache
rollback 後行為跟上次部署不同	建置不可重現、tag 覆蓋	改用 commit SHA 標記、鎖定依賴版本

常見誤區

Container 常被簡化成「打包完就好」的步驟，結果是部署風險被後移到 rollout 階段。runtime 產物穩定性不足時，後續 probe、canary、rollback 都只能被動補救。

把資源限制設成平台預設值，也常造成高峰期不穩。限制應反映服務真實耗用模式，不應只追求表面資源利用率。

把 latest tag 當成版本標記，會讓 rollback 指向無法預測的 image。image tag 在 registry 上是 mutable——同一個 tag 可以被覆蓋指向新 image。用 immutable tag（commit SHA、content digest）才能保證 rollback 的確定性。

把所有配置都用環境變數注入，會讓設定變更跟 image 部署綁在一起。需要動態更新的設定（feature flag、rate limit 閾值）應該用 ConfigMap mount 或外部 config store，讓設定變更不需要 pod restart。

案例回寫

runtime 穩定性可用 5.C1 Tradeshift：self-managed K8s -> EKS 回寫。先看遷移期內啟動行為與資源限制如何影響切流，再對照本章檢查 image、entrypoint、limit 與 config 相容窗口。這個案例主要支撐的是「執行環境可重現性」判讀——遷移到新叢集時，image 不變但 runtime 環境變了（node OS、container runtime 版本、network plugin），runtime 穩定性的前提是 image 本身不依賴特定宿主環境的行為。

5.C5 Miro managed EKS 遷移從另一個角度支撐：managed 平台接管 runtime 基礎設施後，container runtime 版本升級由平台控制，團隊要能驗證自家 image 在新 runtime 版本下行為一致。

若同版容器在不同節點出現分歧行為，先追建置來源與 runtime config 版本鏈，確認是依賴漂移還是環境漂移，再把關鍵證據收斂到 4.20 Observability Evidence Package。不直接支撐 service discovery TTL 或 queue replay 邏輯；若根因在定位鏈路或重播流程，應轉到 5.4 或 3.4。

跨模組路由

與 5.2 的交接：部署批次與探針策略回到 Kubernetes 部署策略。
與 5.3 的交接：流量進出與連線收斂回到 load balancer 合約。
與 5.6 的交接：startup / readiness / drain 的生命週期定義回到 Platform Lifecycle Contract。
與 4.20 的交接：啟動與資源證據回到 Observability Evidence Package。
與 6.8 的交接：放行與回退條件回到 Release Gate。
與 7.3 的交接：image 安全基線與攻擊面回到 7.3 入口治理與伺服器防護。

下一步路由

要把 runtime 行為接到部署收斂，接著讀 5.2 Kubernetes 部署策略。要看切流與退場條件，接著讀 5.3 load balancer 合約。要看 runtime 層的生命週期如何被平台表達，接著讀 5.6 Platform Lifecycle Contract。

6.1 graceful shutdown 與 signal handling

Wed, 22 Apr 2026 00:00:00 +0000

Graceful shutdown 的核心目標是服務收到停止訊號後，不再接受新工作，並給既有工作一段時間完成或清理。Go 服務通常用 signal、root context、http.Server.Shutdown、worker context 與 timeout 串起停止流程。

本章目標

學完本章後，你將能夠：

把 OS signal 轉成 root context 取消
用 http.Server.Shutdown 停止接受新 request
讓 worker、hub、WebSocket pump 觀察同一個停止訊號
設計 shutdown timeout 與強制退出邊界
測試 server 與 worker 的停止流程

【觀察】直接結束 process 會留下不確定狀態

Shutdown 的核心風險是停止流程不明確。服務可能正在處理 request、WebSocket client 仍在線、worker 正在寫資料、queue message 尚未 ack、diagnostics 還以為服務可接流量。

不完整停止常見後果：

新 request 在服務即將關閉時仍被接受。
WebSocket client 沒收到 close，server 端 goroutine 殘留。
背景 worker 寫到一半被中斷。
readiness 還是 200，負載平衡器繼續送流量。
測試結束後留下 goroutine 或開放 port。

Graceful shutdown 是讓停止策略可預期。

【判讀】shutdown 是多階段流程

Graceful shutdown 的核心流程是先停止接新工作，再讓既有工作收尾，最後釋放資源。

建議順序：

 1receive SIGINT/SIGTERM
 2        │
 3        ▼
 4cancel root context
 5        │
 6        ├── readiness becomes false
 7        ├── HTTP server stops accepting new requests
 8        ├── workers stop consuming new jobs
 9        ├── WebSocket hub unregisters clients
10        └── diagnostics/log records shutdown reason
11        │
12        ▼
13wait within timeout
14        │
15        ▼
16process exits

不同服務會有不同細節，但核心不變：停止訊號要集中，元件各自完成自己的 cleanup，整體流程要有 timeout。

【執行】signal 轉成 root context

Signal handling 的核心責任是把作業系統訊號轉成應用程式可理解的取消訊號。Go 1.16 之後可以使用 signal.NotifyContext。

1func main() {
2    ctx, stop := signal.NotifyContext(context.Background(), os.Interrupt, syscall.SIGTERM)
3    defer stop()
4
5    if err := run(ctx); err != nil {
6        log.Fatal(err)
7    }
8}

ctx 是 root context。HTTP server、worker、hub、diagnostics 都應從它派生出自己的 lifecycle，而不是每個元件各自監聽 signal。

Signal handler 不應放大量清理邏輯。它只負責發出停止意圖；實際清理由各元件在自己的 ownership 邊界內完成。

【執行】HTTP server 用 Shutdown 停止接新 request

http.Server.Shutdown 的核心行為是停止接受新連線，並等待既有 request 在 timeout 內完成。它比直接 Close 更適合 graceful shutdown。

 1func RunHTTPServer(ctx context.Context, handler http.Handler) error {
 2    server := &http.Server{
 3        Addr:    ":8080",
 4        Handler: handler,
 5    }
 6
 7    errCh := make(chan error, 1)
 8    go func() {
 9        errCh <- server.ListenAndServe()
10    }()
11
12    select {
13    case <-ctx.Done():
14        shutdownCtx, cancel := context.WithTimeout(context.Background(), 10*time.Second)
15        defer cancel()
16        return server.Shutdown(shutdownCtx)
17
18    case err := <-errCh:
19        if errors.Is(err, http.ErrServerClosed) {
20            return nil
21        }
22        return err
23    }
24}

Shutdown timeout 是必要邊界。沒有 timeout 的 shutdown 可能永遠等待某個卡住 request；timeout 太短則可能讓合理 request 來不及收尾。

【策略】readiness 應先變成 false

Readiness 的核心用途是控制服務是否應接新流量。Shutdown 開始後，readiness 應先變成 false，再停止 server 或等待既有工作。

 1type Lifecycle struct {
 2    shuttingDown atomic.Bool
 3}
 4
 5func (l *Lifecycle) BeginShutdown() {
 6    l.shuttingDown.Store(true)
 7}
 8
 9func (l *Lifecycle) Ready() bool {
10    return !l.shuttingDown.Load()
11}

Signal 收到後：

1lifecycle.BeginShutdown()
2cancel()

這讓負載平衡器或監控能知道服務不應再接新流量。Process 還活著，但 readiness 已經反映操作狀態。

【執行】背景工作要觀察 context

背景 worker 的核心 shutdown 條件是每個 loop 都能觀察停止訊號。Ticker、queue consumer、WebSocket hub 都應該有退出路徑。

 1func RunWorker(ctx context.Context) error {
 2    ticker := time.NewTicker(time.Minute)
 3    defer ticker.Stop()
 4
 5    for {
 6        select {
 7        case <-ctx.Done():
 8            return ctx.Err()
 9        case <-ticker.C:
10            if err := RunOnce(ctx); err != nil {
11                return err
12            }
13        }
14    }
15}

若 RunOnce 可能執行很久，也應接收 context。否則外層 loop 看到 cancel，內層 I/O 或計算仍可能卡住。

【策略】WebSocket cleanup 要回到 hub owner

WebSocket shutdown 的核心原則是讓 hub 或 connection manager 統一清理 client。不要讓 signal handler 直接遍歷各種 connection 並隨意 close。

 1func (h *Hub) Run(ctx context.Context) {
 2    for {
 3        select {
 4        case <-ctx.Done():
 5            h.closeAllClients()
 6            return
 7        case client := <-h.register:
 8            h.registerClient(client)
 9        case client := <-h.unregister:
10            h.unregisterClient(client)
11        }
12    }
13}

closeAllClients 應透過 hub 的既有 owner 邏輯關閉 send、移除訂閱、關閉 connection。這延續前面模組的 ownership 原則。

【測試】shutdown 測試要觀察明確條件

Shutdown 測試的核心是確認停止訊號能讓元件退出，而不是等待固定時間。

 1func TestWorkerStopsOnContextCancel(t *testing.T) {
 2    ctx, cancel := context.WithCancel(context.Background())
 3    done := make(chan struct{})
 4
 5    go func() {
 6        defer close(done)
 7        _ = RunWorker(ctx)
 8    }()
 9
10    cancel()
11
12    select {
13    case <-done:
14    case <-time.After(time.Second):
15        t.Fatalf("worker did not stop")
16    }
17}

HTTP server 測試可以啟動 server 後 cancel context，確認 RunHTTPServer 回傳。測試應使用隨機 port 或 httptest.Server，避免固定 port 造成衝突。

本章不處理

本章先處理服務內部的 shutdown 順序與 cleanup owner；平台 hook、timeout 與 load balancer 合約，會在下列章節再往外延伸：

Go 進階：Kubernetes、systemd 與 load balancer 合約

和 Go 教材的關係

這一章承接的是 goroutine lifecycle、ticker cleanup 與 platform handoff；如果你要先回看語言教材，可以讀：

小結

Graceful shutdown 是多階段流程：signal 轉成 root context，readiness 先關閉，HTTP server 停止接新 request，worker 和 WebSocket hub 觀察 context 收尾，整體流程受 timeout 保護。停止訊號越集中，元件 ownership 越清楚，服務在部署、測試與本機開發時越不容易留下殘存 goroutine 或未釋放連線。

部署光譜：從 BaaS 到自架的四條路徑

Wed, 24 Jun 2026 00:00:00 +0000

監控方案的選擇不是「完全自架 Go collector」和「買 Sentry 訂閱」的二元決策。中間存在兩條路徑 — 用 BaaS（Supabase / Firebase）搭出託管版 collector，或用 PaaS（Railway / Fly.io）跑自架 collector 原始碼但不管 server。四條路徑的本質差異在「哪些層自己管、哪些交給平台」。

自架 vs 商業的判斷決策表用四個維度（使用者數 / 網路範圍 / 功能需求 / 合規）做二元分流。本章把光譜展開成四條路徑，讓中間的 BaaS 和 PaaS 選項浮現。Backend 選型模組已建立了完整的交付形態光譜（交付形態選型）和逐能力判斷外包深度的框架（能力級買 vs 建）。本章把那個框架特化到監控場景。

四條路徑

路徑	代表方案	Collector 是什麼	Storage 是什麼	自己管什麼	平台管什麼
A. 商業監控 SaaS	Sentry / Datadog / Firebase Analytics	vendor 提供	vendor 提供	SDK 埋點	全部
B. BaaS + Serverless	Supabase + Vercel / Cloudflare Workers	serverless function（自己寫）	managed PostgreSQL（Supabase）	collector 邏輯、schema	server 維運、DB 維運、TLS、HA
C. PaaS	Railway / Fly.io / Render	Go binary（自架 collector 原始碼）	SQLite（同 binary）或 managed DB	collector 邏輯、storage	server 維運、TLS、deploy
D. 完全自架	VPS + Go binary	Go binary	SQLite 或自管 PostgreSQL	全部	無

路徑 A 和 D 分別是光譜的兩端 — Sentry 深入、Firebase 套件和模組四 Collector 設計已完整討論。以下展開路徑 B 和 C。

路徑 B：BaaS + Serverless

APP 上線初期用 Supabase + Vercel（或 Cloudflare Workers）搭監控後端：serverless function 接收 SDK 送來的事件、驗證 schema 後寫入 Supabase 的 PostgreSQL。整條鏈路在免費方案額度內可以零成本運作。

架構差異

Serverless function 沒有常駐 process。模組四假設的 Go single binary 架構 — channel 背壓、single-writer goroutine pattern、in-memory buffer — 在 serverless 環境都不適用。每個 HTTP request 是獨立的 function invocation，沒有跨 request 的記憶體狀態。

背壓機制需要重新設計：Go collector 用 channel 容量做背壓（channel 滿回 429），serverless 版改用 DB-level 的 rate limit（PostgreSQL 的 advisory lock 或外部 rate limiter 如 Upstash Redis）或 platform-level 的 quota（Vercel 的 concurrency limit）。SDK 端的 429 處理邏輯不需要改 — 不管背壓訊號來自 channel 還是 DB quota，SDK 都是收到 429 後降採樣。

Downsample 和 purge 在 Go collector 是 background goroutine 定期執行。Serverless 沒有 background job — 需要外部 cron trigger（Vercel Cron / Supabase pg_cron / GitHub Actions scheduled workflow）。

免費方案限額

以下為 2026-06 查詢的各平台免費方案限額。平台定價會變動，決策前以官方定價頁為準。

平台	免費方案限額	對監控場景的意義
Supabase Free	500MB DB、50K MAU、500K Edge Function invocations/月	500MB 約 50-100 萬筆事件（每筆 ~500 bytes）、自用場景可用數月
Vercel Hobby	100GB bandwidth、10s function timeout、無明確 invocation 上限	瓶頸在 bandwidth 和 execution duration、非 invocation 數；timeout 對 ingestion 足夠
Cloudflare Workers	100K requests/天（免費）、D1 5GB	100K requests/天 x 100 筆/batch = 10M events/天、D1 的 SQLite 可替代 Supabase

Audit date: 2026-06。平台免費方案限額可能調整，決策前以官方定價頁為準。

適合情境

路徑 B 適合以下組合：APP 上線初期（使用者數 < 100）、團隊熟悉前端和 SQL 但不想管 server、想保留自訂 schema 和查詢彈性（商業 SaaS 的 schema 是 vendor 定義的）、零成本起步但未來可能遷到自架。

撞牆訊號

以下訊號出現時，代表路徑 B 的天花板已到、該評估遷到路徑 C 或 D：

連線數瓶頸：Supabase Free 的 PostgreSQL 約 20 個 concurrent connection。Serverless function 每次 invocation 開新連線，高併發時可能耗盡連線池。Supabase 內建 PgBouncer 做 connection pooling 可緩解，但免費方案的 pooler 有自己的連線上限。

Cold start 延遲：Vercel serverless function 的 cold start 約 200ms、Supabase Edge Function 約 100ms。對監控 ingestion（不是使用者面向 API）通常可接受，但如果 SDK 的 flush timeout 設得很短（< 1s），cold start 可能造成偶發超時。

Background job 限制：Downsample 和 purge 需要外部 cron。Vercel Hobby 支援最多 2 個 cron job、每個最頻繁每天觸發 1 次 — 如果需要每小時 downsample，要用 Supabase pg_cron（Free 方案支援）或外部 scheduler。

免費額度耗盡：Supabase 的 500K Edge Function invocations/月 ≈ 每天 16K requests。如果每個 request 攢批 100 筆事件，可處理每天 160 萬筆事件。超過後進入按量付費。Vercel Hobby 無明確 invocation 上限、瓶頸在 bandwidth（100GB/月）和 execution duration。

合規限制：Supabase Free 的 PostgreSQL 部署在特定 region。有 GDPR data residency 需求的 app（歐盟使用者的資料必須留在 EU）需確認 vendor 的 region 支援 — 免費方案的 region 選擇可能有限。

路徑 C：PaaS

PaaS 跑的是和完全自架相同的 Go collector 原始碼，差異只在部署方式。git push 觸發自動 build 和 deploy，平台管 server provisioning、TLS 憑證、process supervision。Collector 的 channel 背壓、single-writer pattern、SQLite storage 全部適用 — 和本機開發環境的行為一致。

Railway 和 Fly.io 都支援 persistent volume — Railway Hobby 含 1GB、Fly.io Free 含 1GB（限單 region）。SQLite 的 WAL 檔案需要持久化，persistent volume 是必要條件。Render 的免費方案沒有 persistent disk — SQLite 在每次 deploy 後重置，不適合需要保留歷史事件的場景。PaaS 平台以 container 形式運行 collector，SQLite 在 container 中的 I/O 和持久化考量見 Container 部署設計。

路徑 C 適合：想用自架 collector 但不想管 server / TLS / systemd 的團隊。程式碼完全相同，遷到自架（路徑 D）的成本接近零 — 把 binary 複製到 VPS、設定 systemd service 就完成。

路徑 C 的天花板在平台定價 — Railway Hobby 有 $5/月的資源上限、Fly.io Free 有 3 個 shared VM。流量成長到免費額度不夠時，PaaS 的按量付費和 VPS 月租費的交叉點是遷到自架的判讀訊號。

路徑間的遷移

遷移成本取決於起點和終點之間有多少層需要重寫。

遷移方向	成本	主要工作
B → C	中	Serverless function → Go binary（重寫 collector 邏輯）；DB 可保留或遷移
B → D	中	同上 + 自己管 server
C → D	低	同程式碼不同部署（複製 binary + systemd）
D → C	低	同程式碼推到 PaaS
D → A	低	SDK 改 endpoint 指向商業方案、不改 SDK 程式碼
A → D	高	從零建 collector + storage + dashboard
A → B	高	從零寫 serverless collector + 設定 managed DB
A → C	高	從零寫 Go collector + 推到 PaaS

路徑 B → C 或 B → D 的遷移代價主要在 collector 邏輯的重寫 — serverless function 的 request-level 處理和 Go binary 的 channel-based pipeline 是不同的架構，不能直接搬。資料層的遷移代價較低 — Supabase 的 PostgreSQL 資料可以用 pg_dump 匯出、匯入自管 PostgreSQL。

交付形態遷出的通用框架（資產線盤點、並行期設計、回切窗口）見託管形態遷出。

外包深度對照

用外包深度的三層框架（managed 基礎設施 / feature SaaS / BaaS bundle）看四條路徑：

路徑	外包深度	控制權	遷出代價
A. 商業監控 SaaS	feature SaaS（最深）	SDK 埋點 API、vendor 定義 schema 和查詢	高
B. BaaS + Serverless	managed 基礎設施 + 自寫 function（中間）	自訂 schema、自訂查詢、自訂 collector 邏輯	中
C. PaaS	managed 基礎設施（淺）	和自架相同、只有部署平台交出去	低
D. 完全自架	不外包	完全控制	無

路徑 B 在外包深度上介於 managed 基礎設施和 BaaS bundle 之間 — DB 和 runtime 交給平台，但 collector 邏輯和 schema 仍由開發者控制。這和 BaaS 的「前端 SDK 直連平台資料庫」模式不同 — 監控場景的路徑 B 仍然有一個自己寫的中間層（serverless function），只是這個中間層跑在平台上而非自己的 server。

選擇建議

情境	建議路徑	理由
自用工具、同機或同網段	D	成本最低、複雜度最低
APP 上線初期、使用者 < 100、零成本起步	B 或 A	B 保留自訂彈性、A 開箱即用
小型團隊、想用自架 collector 但不想管 server	C	程式碼相同、部署簡單、遷出成本低
使用者 > 1000、需要 dashboard + 告警 + replay	A	商業方案的功能完成度遠高於自建
合規要求資料不離開自有設施	D	完全控制資料位置

APP 上線初期選 B 或 A 取決於自訂需求 — 需要自訂 schema 和查詢邏輯（例如自定義 error fingerprint、行為事件命名規範）選 B，只需要開箱即用的 error tracking 或行為分析選 A。B 保留遷到自架的彈性（資料在自己的 PostgreSQL），A 的功能完成度更高（dashboard、告警、session replay 開箱即用）。

下一步路由

自架 vs 商業的詳細決策 → 自架 vs 商業的判斷決策表
自架 collector 的完整設計 → 模組四 Collector 設計
Backend 交付形態光譜 → 交付形態選型
能力級買 vs 建判斷 → 能力級買 vs 建
外包深度概念 → 外包深度
BaaS 概念 → BaaS
遷出劇本 → 託管形態遷出
Vendor lock-in 概念 → Vendor Lock-In

5.C2 Condé Nast：EKS 平台整併與標準化

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是說明平台整併常是組織治理問題，技術選型只是其中一層。

觀察

Condé Nast 旗下多個小團隊各自維護獨立的 Kubernetes 環境，各團隊使用不同的 Kubernetes 版本、操作模型、部署流程與存取模式。Self-managed Kubernetes 跑在 EC2 上，每個團隊自行維護 control plane、AMI、安全修補與 IAM credential 管理（使用 kube2iam 等開源工具）。

整併後成立一個 single global platform team，遷移到 Amazon EKS。技術棧標準化為 Bottlerocket OS、VPC CNI、AWS Load Balancer Controller、IRSA（IAM Roles for Service Accounts）。Multi-tenancy 用 Kubernetes namespace 隔離，搭配 resource quotas 與 limits 防止 noisy neighbor。

結果面：搭配 CloudFront 與 AWS Global Accelerator 後，end user latency 降低達 50%。團隊可以在 guardrails 內快速建立新叢集，operational overhead 顯著降低。

判讀

平台碎片化的代價分兩層。表面層是重工——每個團隊各自處理安全修補、版本升級、credential 管理，相同工作做了 N 遍。深層是一致性缺失——不同團隊的安全基線不同，某個團隊漏修的 CVE 可能成為整個組織的入口。

整併的工程價值在於把「每個團隊各自解決平台問題」變成「平台團隊解決一次、所有團隊共用」。這個轉換的前提是平台團隊能提供足夠彈性的 multi-tenancy 模型——resource quotas 防止資源搶占、namespace 隔離防止互相影響、IRSA 讓每個 workload 有獨立的 AWS 權限而非共用 node-level credential。

kube2iam → IRSA 的切換是這個案例中安全基線提升最顯著的一步。kube2iam 依賴 iptables 攔截 metadata endpoint，在多租戶環境下有 race condition 與 credential leak 風險。IRSA 用 OIDC federation 讓每個 service account 直接取得 scoped IAM role，消除了 node-level 的 credential 共用。

策略

盤點既有叢集的差異維度：Kubernetes 版本、CNI、ingress controller、credential 管理方式、部署流程、監控工具。差異清單是遷移計畫的輸入。
定義統一平台基線：選定 EKS + Bottlerocket + VPC CNI + IRSA 作為所有叢集的共通配置。基線要涵蓋安全（pod 唯讀 filesystem、禁 root）、資源（quotas、limits）、網路（CNI、LB controller）。
用 namespace multi-tenancy 取代獨立叢集：每個團隊一個 namespace，resource quotas 限制資源用量。這比一個團隊一個叢集的運維成本低，但需要在 namespace 層級做好隔離（NetworkPolicy、ResourceQuota、RBAC scope）。
漸進切換業務流量：按 region / 市場分批遷移，每批遷移後驗證 latency 與 error rate。搭配 CloudFront 做 edge 層的流量管理。

可回寫的章節段落

5.2 大規模 K8s 的設計取捨：single-cluster multi-namespace 的治理單位選擇
5.7 Managed 平台跟團隊職責邊界：global platform team 的職責重訂
5.3 Load Balancer Contract：AWS LB Controller + CloudFront 的流量入口配置

引用源

How Condé Nast modernized its container platform on Amazon EKS

Docker

Fri, 01 May 2026 00:00:00 +0000

Docker 是最早 popularize container 的工具、承擔三個責任：container image build（Dockerfile / BuildKit）、local container runtime（docker run / Compose）、image distribution（Docker Hub / private registry）。設計取捨偏向「dev experience + image format standard」、production orchestration 多被 Kubernetes + containerd 取代、但 image build / dev workflow / OCI image 仍是事實標準。

對「Local dev / CI container 工具、image build pipeline、小規模 dev 環境」這條路徑、Docker 是首選。

本章目標

讀完本章後、你應該能：

寫 Dockerfile + 跑 docker build / run
用 multi-stage build / BuildKit 優化 image
用 Docker Compose 編排 dev 環境
配置 image registry + scanning + SBOM
評估 Docker Desktop license 對團隊的影響、選替代（Podman / Rancher Desktop）

最短路徑：5 分鐘把 Docker 跑起來

 1# 1. 安裝（macOS 擇一）
 2brew install --cask docker            # Docker Desktop（商業企業需付費授權）
 3# brew install podman                 # 替代方案：Podman（無 daemon、免費）
 4
 5# 2. 跑 container
 6docker run -d -p 8080:80 --name web nginx:stable-alpine
 7docker ps && docker logs web
 8
 9# 3. Build + push image
10docker build -t myapp:1 .
11docker tag myapp:1 ghcr.io//myapp:1
12docker push ghcr.io//myapp:1

日常操作與決策形狀

Dockerfile 設計

子議題：

FROM / RUN / COPY / WORKDIR / EXPOSE / CMD / ENTRYPOINT
Multi-stage build（build stage + runtime stage 分離）
Layer cache 設計（COPY 順序影響 cache hit）
對應指令：docker build --no-cache、docker history

BuildKit / Buildx

子議題：

BuildKit：新 builder、parallel + cache mount + secret + SSH agent
Buildx：cross-platform build（amd64 / arm64）
Cache backend（local / registry / S3 / GHA）
對應指令：docker buildx create --use、docker buildx build --platform=linux/amd64,linux/arm64

Docker Compose

子議題：

docker-compose.yml：service / network / volume 配置
適合：local dev 多 container（DB + cache + app）
不適合：production（用 K8s）
對應 5.2 K8s deployment

進階主題（按需閱讀）

Image security / scanning / SBOM

子議題：

Trivy / Grype / Snyk image vulnerability scanning
SBOM 產生（syft / Docker scout）
Sign image（cosign / notary v2）
對應 07 security supply chain

Image registry 選擇

子議題：

Docker Hub（public + rate limit issue）
雲端：ECR / GCR / Artifact Registry / ACR
Self-host：Harbor / GitLab Container Registry / Nexus
對應 image pull credentials 管理

Docker Desktop license

子議題：

2021 改授權：商業企業（> 250 員工 / > $10M）需付費
替代：Podman Desktop / Rancher Desktop / Colima / Lima
替代品的 daemon / rootless 差異
對應企業 IT 採購決策

Containerd / CRI-O 在 production

子議題：

K8s 1.24+ 移除 dockershim、改用 containerd / CRI-O
Docker image 跟 containerd 相容（OCI standard）
production 不用 Docker、用 containerd

Image size 優化

子議題：

Base image 選擇（distroless / alpine / scratch）
Multi-stage build + layer combine
Build context（.dockerignore）
跟 image scanning 跟 deploy speed 對應

Rootless / 安全強化

子議題：

Rootless mode（Docker / Podman 都支援）
User namespace mapping
Seccomp / AppArmor / SELinux profile
對應 07 security container security

排錯快速判讀

Image build cache 不命中

操作原則：COPY 順序錯、.dockerignore 缺、變動的 layer 在前面。

1docker build --progress=plain --no-cache -t myapp:debug .   # 逐層輸出、比對哪層吃時間
2docker history myapp:debug                                  # 看每層大小

Image 過大

操作原則：base image 太重 / 沒 multi-stage / build context 過大。判讀：docker history 看 layer 大小。

Container 起不來

操作原則：docker logs + docker inspect 看 exit code + state。

Network port 不通

操作原則：-p mapping vs EXPOSE 差異、host network vs bridge network、firewall。

Volume 權限問題

操作原則：container UID 跟 host UID 不對齊、rootless mode 特別容易踩。

何時改走其他服務

需求形狀	改走
Production orchestration	Kubernetes
Rootless / 安全強化	Podman
替代 Docker Desktop（cost）	Rancher Desktop / Colima / Lima
純單機 service	systemd
雲端 managed container	ECS / Cloud Run / Container Apps
Build-only（無 daemon）	Buildah / Kaniko / BuildKit standalone

不在本頁內的主題

Dockerfile 完整 reference
Docker Compose v2 進階配置
Container runtime spec（runc / OCI）
各 registry 完整 API

案例回寫

跨 vendor 對照

案例	對 Docker 的對應
5.C3 Orbitera managed K8s	Container image 是平台遷移的可攜介面、orchestrator 換但 image 不換
5.C10 規模對照	小規模直接 Docker / Compose、中大型才走 K8s（Docker 退到 build only）

待補 Docker 案例：Docker Hub rate limit incident、企業 license 遷移到 Podman 案例、image scanning supply chain 案例。

下一步路由

上游概念：5.1 container runtime
平行 vendor：Kubernetes、systemd
下游能力：07 security（image scanning / SBOM）

5.2 Kubernetes 部署策略

Thu, 23 Apr 2026 00:00:00 +0000

Kubernetes 部署策略（Kubernetes deployment strategy）的核心責任是把服務版本切換做成可預測流程。Deployment 把副本數、健康訊號、流量承接、設定變更與回退條件組成同一條交付路徑。

deployment、replica 與 rollout

Deployment 的責任是宣告目標狀態：期望副本數、版本、更新策略。rollout 的責任是把現況收斂到目標狀態，並在過程中維持可服務能力。這兩者分開理解後，才能在異常時判斷是目標設定問題，還是收斂過程問題。

rolling update 常用來降低單次切換風險。rolling update 的判讀重點是批次大小與節奏：每批新增多少新副本、每批回收多少舊副本、每批觀察多長時間。這些參數以服務容量曲線與回退時間目標校準、名稱本身只是工具標籤、不是判讀條件。

probe 對齊服務生命週期

probe 要對齊服務生命週期，不同 probe 有不同責任：

startup probe：確認服務啟動完成，避免慢啟動服務被過早重啟。
readiness probe：確認服務可安全接流量。
liveness probe：確認服務仍可維持基本運作，必要時觸發重建。

probe 設計若只回傳固定成功，rollout 期間會出現「容器在線但服務未就緒」的流量抖動。穩定做法是讓 readiness 反映依賴就緒條件，例如資料庫連線池、必要配置、關鍵背景任務狀態。

Startup probe 設計注意事項

startup probe 跟 initialDelaySeconds 解決同一個問題（避免慢啟動服務被 liveness 殺掉），但機制不同。initialDelaySeconds 是 liveness / readiness probe 的延遲啟動——在等待期間 probe 完全不跑，無法觀測啟動進度。startup probe 在啟動期間持續探測，一旦成功就交棒給 liveness / readiness，啟動失敗時能更快偵測到。

startup probe 的總容忍時間 = failureThreshold × periodSeconds。例如 failureThreshold: 30, periodSeconds: 10 給服務 300 秒啟動窗口。設計時先量測服務在最差情境下的啟動時間（冷啟動 + image pull + 依賴連線建立），再加 20-30% headroom 作為總容忍時間。

Readiness probe 的深度選擇

readiness probe 的檢查深度決定它能攔截多少「可啟動但不可服務」的狀態。三個常見層級：

Port check（TCP probe）：確認進程在監聽。最淺，無法偵測依賴未就緒。適合依賴簡單、啟動快的服務。
Dependency check（HTTP endpoint 檢查必要依賴）：確認資料庫連線池、cache 連線可用。涵蓋多數「啟動完但依賴不通」的場景。常用做法是在 /ready endpoint 內驗證必要依賴的連線狀態。
Deep health（業務路徑驗證）：執行一次簡化的業務查詢確認端到端通路。最深但代價最高——probe 本身消耗資源，且可能被下游延遲拖慢導致 readiness 抖動。

依賴分類（必要 / 可降級 / 觀測）的判讀框架見 5.6 Readiness 設計的核心取捨。

config rollout 與版本相容

Config Rollout 需要和應用版本一起治理。設定先行、版本後行，或版本先行、設定後行，都要保留相容窗口。相容窗口存在時，才有漸進 rollout 與快速回退空間。

跨版本配置遷移要先定義停止條件：錯誤率上升、延遲尖峰、關鍵路徑失敗或下游壓力超標。停止條件明確後，部署決策才能一致。

N-1 相容與 Feature Flag Gating

版本相容窗口的操作基線是 N-1 相容：版本 N 的程式碼可以處理版本 N-1 的設定，反之亦然。這讓 rollback 從「版本 + config 必須同時回退」降級成「版本先回退、config 稍後再處理」，回退操作的原子性要求降低。

N-1 相容的實作通常搭配 feature flag gating：新功能在程式碼中預設關閉，先部署程式碼（版本 N 上線但新功能 off），確認版本穩定後再開啟 feature flag。這讓版本部署跟功能啟用分成兩個獨立決策，rollback 時只需關 flag 而不必回退版本。

N-1 相容窗口的壽命要有明確終點。長期維護雙版本相容會累積技術債——舊欄位不能刪、舊路徑不能移除。穩定做法是在 rollout 完成 + 觀測確認穩定後設定移除 deadline，把 N-1 相容視為暫時性保護而非永久設計。設定注入方式與版本追蹤見 5.1 配置注入方式與取捨。

Autoscaling 與部署策略協同

autoscaling 在部署期間扮演容量緩衝角色。部署批次若超過服務可承受變動幅度，autoscaling 會被動補償並延長收斂時間。穩定做法是讓 rollout 節奏與容量策略同時設計：先保證服務穩態，再提高切換速度。

長連線服務或有大量背景任務的 workload，通常需要比 stateless API 更保守的 rollout 策略，並額外搭配 drain 與 reconnect 設計。

擴縮策略的演進需要版本化跟可回放。對應 5.C6 Airbnb K8s 叢集擴縮演進：揭露「擴縮策略版本化跟可回放」「不同 workload 區分擴縮政策」「容量治理跟事故指標綁定」三個方向。以下基於通用工程知識展開。

可重複套用的做法：

擴縮策略進 IaC：HPA / VPA / Karpenter / Cluster Autoscaler 的配置都進 git、變更走 release flow、避免手動調整在事故後被遺忘。IaC + 自動化的 ownership 邊界見 [5.7 control plane boundary](/backend/05-deployment-platform/traffic-config-control-plane-boundary/)。
workload 分群擴縮：stateless API、長連線服務、batch job、background worker 對擴縮的需求不同。把不同 workload 用不同 namespace + 不同 autoscaler policy 隔離，避免一套規則套全部。
擴縮事件接事故指標：HPA 觸發、scale-up 延遲、scale-down 過快、cluster autoscaler 加 node 失敗，都該在事故 timeline 上可見。回到 4.13 service topology 的擴縮事件 vs 事故區分。

分階段平台遷移

平台遷移的本質是流量跟依賴的分段切換。遷移期內新舊叢集同時存在，rollout 策略要把跨叢集流量切換納入批次節奏、視為連續多批決策。本段聚焦流量 / 依賴切換時序；遷移期的團隊職責邊界重訂見 5.7 Managed 平台跟團隊職責邊界。

對應 5.C1 Tradeshift：self-managed K8s → EKS：揭露「零停機遷移要把切換做成分段策略」「難點通常在跨叢集服務依賴跟流量切換、不在 Kubernetes API 本身」。對應 5.C4 Mobileye workloads 遷移：揭露「分批遷移 workload、保留觀測對照」「明確切換 / 回退條件」「新平台先驗證容量跟恢復節奏」。以下基於通用工程知識展開。

可重複套用的分階段做法：

新叢集 + 共通配置基線：先在新叢集上建立跟舊叢集對等的配置基線（namespace、ResourceQuota、NetworkPolicy、Ingress class、storage class），讓 workload 可以無縫部署。
小流量先導服務：選擇影響面小、依賴單純的服務作為先導，先在新叢集跑完整 deployment cycle（rollout、drain、rollback 驗證）、累積信心後再擴大。
可控流量分批切換：用 DNS 加權、service mesh 流量切分或 LB 規則把流量分批從舊叢集導到新叢集。每批切換後驗證 SLI 偏差、再進下一批。
每批保留回退路徑：舊叢集服務不立即下線，保留作為回退目標。回退條件先驗證（rollback script、流量切回 DNS / LB 規則），再開始下一批切換。

延伸 5.C1 揭露的「跨叢集服務依賴是難點」、5.C10 中型組織判讀「服務本身切過去了、但資料面、認證面、觀測面還沒同步」也指向同類問題。跨叢集遷移最容易出的事故是「服務切過去了、依賴沒切過去」。Database、cache、message queue、observability pipeline、auth service 的切換時機要分別規劃，避免應用層在新叢集但仍跨網路打舊叢集的依賴，造成隱性 latency 或單點失效。規模差異下的同類問題見 5.C10 對照。

大規模 K8s 的設計取捨

K8s 在不同規模下的設計取捨會明顯分歧。小規模叢集追求簡單跟低運維成本，大規模叢集追求隔離跟自動化治理。同一套部署策略放到不同規模會在某個量級開始失效。

對應 9.C12 Riot Games：246 個 EKS cluster：揭露架構決策從 multi-tenant cluster 改成 single-tenant per game、Karpenter + Terraform 的 cluster 級自動化、35ms 延遲門檻 + Local Zones / Outposts 區域部署（case 中「35ms 反推 region 部署」屬作者判讀層、本章引用此推論）。對應 9.C34 GCP 130,000-node GKE cluster：揭露 control plane 極限取決於 storage backend（GCP 用 Spanner 替代 etcd）、AI workload 跟 web workload 容量規劃差異。對應 9.C33 Maersk + Bosch AKS：揭露 Maersk 工程訴求引語「focus on things that makes the most business impact」、傳統產業上 K8s 動機是治理一致性（作者判讀）、適合 single-cluster-multi-namespace。

可重複套用的取捨判讀：

single-tenant per workload vs single-cluster multi-namespace：高隔離需求（每個 workload 失效不能影響其他）、高延遲敏感度（需 region cluster）→ 多 cluster；治理一致性訴求（統一 release flow、合規邊界）→ 單一 cluster 多 namespace。
Cluster 容量極限取決於 control plane：data plane（worker nodes）擴容容易、control plane（API server、etcd / storage）擴容難、瓶頸通常在 control plane。etcd 撐 5K-10K node 後吃力、需要替換 storage backend（Spanner / PostgreSQL / 自家 KV）才能撐萬級節點（見 9.C34）。control plane 的 ownership 邊界由 5.7 control plane boundary 處理。
Multi-cluster 治理需要 IaC + 自動化：Terraform / Crossplane / Cluster API + Karpenter / Cluster Autoscaler 是基本工具。手動管理超過數十個 cluster 不可行。
AI workload 跟 web workload 容量規劃完全不同：AI workload 短時間爆量創建 Pods（萬級 / 秒）、preempt 頻繁；web workload 節點生命週期長、變動緩。把 web 經驗套到 AI workload 容量規劃會嚴重低估壓力。

關鍵判讀是「先決定 cluster 是隔離單位還是治理單位」。Riot Games 把 cluster 當隔離單位（246 個獨立 cluster），Maersk / Bosch 把 cluster 當治理單位（單 cluster 多 namespace）。同一個工具兩種用法、決定整體運維模型。

對應 5.C2 Condé Nast：EKS 平台整併與標準化：揭露多叢集整併到單一控制面的場景、跟 Maersk-Bosch 同屬「治理一致性」取捨方向（治理單位優先於隔離單位）。Condé Nast 的整併路徑是「盤點既有叢集差異 → 建立統一平台基線 → 藍綠或漸進切換業務流量」、對應前面「分階段平台遷移」段的批次節奏。

判讀訊號

訊號	判讀重點	對應動作
rollout 卡在中段且新副本反覆重啟	probe 與啟動路徑不匹配	校正 startup/readiness 探針與超時參數
rollout 完成後延遲與錯誤率短期上升	批次切換過快或下游未對齊	降低批次、延長觀察窗口、回退再重試
config 變更後特定路徑失敗率飆升	設定與版本相容窗口不足	啟動回退配置、補雙軌相容
autoscaling 在部署期間頻繁抖動	容量閾值與 rollout 節奏衝突	分離部署窗口與擴縮窗口、調整資源策略
長連線服務切版後 reconnect storm	drain 與連線生命週期控制不足	拉長 drain、分批切流、校正 timeout
跨叢集遷移後特定路徑 latency 升高	應用切過去但依賴未切、跨網路	規劃依賴切換時機、分批一致

常見誤區

把 Kubernetes 部署看成 YAML 套版，會忽略服務語意差異。相同 deployment 參數在不同服務上，可能代表完全不同風險。

把 probe 當成健康檢查 URL，會讓服務在邊界條件下過早接流量。probe 的工程價值在於反映服務真實可用條件。

把 cluster scale-up 想成「加 node 就好」也是常見誤判。當 cluster 規模超過 control plane 預設邊界，etcd / API server 會先撐不住，加 node 反而加重 control plane 負擔。

案例回寫

部署切換語意可用 5.C9 反例做回寫。先看事件中的失敗是在 rollout 批次、probe 判斷、還是 drain 時序，再對照本章的 rollout 節奏與停止條件。

這個案例主要支撐的是「部署批次與切換時序」判讀，不直接支撐資料庫交易切分或 consumer 冪等；若問題落在提交一致性或重播補償，應轉到 1.3 或 3.4。

若版本已切換但錯誤率延遲上升，先回到 probe 與 config 相容窗口，再把證據欄位接到 4.20 Observability Evidence Package 與 8.19 Incident Decision Log。

跨模組路由

Kubernetes 部署策略要和觀測、驗證、事故流程同時對齊。

與 5.6 的交接：startup / readiness / liveness / drain 的生命週期定義回到 Platform Lifecycle Contract。
與 5.1 的交接：image、entrypoint、resource limit 的 runtime 層回到 container 與 runtime。
與 5.3 的交接：流量承接與退出落在 load balancer 合約。
與 5.4 的交接：endpoint 註冊與摘除回到 service discovery。
與 5.7 的交接：control plane 跟 data plane 邊界落在 Traffic、Config 與 Control Plane Boundary。
與 4.20 的交接：版本切換證據進入 Observability Evidence Package。
與 6.8 的交接：放行與停損條件進入 Release Gate。
與 8.19 的交接：部署中止與回退判斷進入 Incident Decision Log。

下一步路由

要把部署與流量切換一起治理，接著讀 5.3 load balancer 合約。要看切換失敗與回退判讀，接著讀 5.C9 反例。要看大規模 K8s 容量設計，接著讀 9.C12 Riot Games 跟 9.C34 GCP 130K-node。

6.2 健康檢查與診斷 endpoint

Wed, 22 Apr 2026 00:00:00 +0000

健康檢查與診斷 endpoint 的核心差異是使用者與風險不同。/health 給監控或負載平衡器判斷 process 是否活著，/ready 判斷是否應接流量，/debug/... 則給工程師排查問題且必須限制存取。

本章目標

學完本章後，你將能夠：

分辨 health、readiness、diagnostics 的語意
設計快速穩定的 /health
用 /ready 控制是否接新流量
條件啟用 pprof、runtime stats 等診斷入口
測試 status code 與 JSON response 合約

【觀察】所有狀態都塞進 health 會讓監控失真

Health endpoint 的核心風險是語意混亂。若 /health 同時檢查 process、database、queue、外部 API、cache、背景同步，任何依賴短暫波動都可能讓服務被判定死亡。

問題範例：

1/health
2  ├── process alive?
3  ├── database reachable?
4  ├── queue lag small?
5  ├── external API reachable?
6  └── background sync fresh?

這些問題不應全部塞進同一個 endpoint。Process 活著、可接流量、依賴降級、工程診斷，是不同操作訊號。

【判讀】health、ready、diagnostics 回答不同問題

操作 endpoint 的核心設計是每個 endpoint 只回答一個問題。

Endpoint	使用者	回答的問題	失敗影響
`/health`	process monitor	process 是否基本活著	可能重啟 process
`/ready`	load balancer	是否應接新流量	暫停導流
`/debug/...`	工程師	服務內部狀態如何	不應公開
`/metrics`	metrics collector	可聚合監控資料	監控缺資料

這樣切分後，某個外部依賴故障不一定要讓 process 被重啟；服務可能只是不 ready，或處於 degraded 狀態。

【執行】health endpoint 應簡單快速

Health endpoint 的核心責任是快速回答 process 是否能處理基本 HTTP request。它應該簡單、快速、穩定。

 1func HandleHealth(w http.ResponseWriter, r *http.Request) {
 2    if r.Method != http.MethodGet {
 3        http.Error(w, "method not allowed", http.StatusMethodNotAllowed)
 4        return
 5    }
 6
 7    w.Header().Set("Content-Type", "application/json")
 8    w.WriteHeader(http.StatusOK)
 9    _, _ = w.Write([]byte(`{"status":"ok"}`))
10}

/health 不應執行昂貴查詢，也不應依賴大量下游服務。若健康檢查本身很慢，監控會把診斷工具變成新問題。

【執行】readiness 控制是否接流量

Readiness 的核心責任是回答「服務現在是否應該接新流量」。它可以檢查啟動狀態、必要依賴、shutdown 狀態。

 1type Readiness struct {
 2    ready        atomic.Bool
 3    shuttingDown atomic.Bool
 4}
 5
 6func (r *Readiness) Ready() bool {
 7    return r.ready.Load() && !r.shuttingDown.Load()
 8}
 9
10func HandleReady(readiness *Readiness) http.HandlerFunc {
11    return func(w http.ResponseWriter, r *http.Request) {
12        w.Header().Set("Content-Type", "application/json")
13
14        if !readiness.Ready() {
15            w.WriteHeader(http.StatusServiceUnavailable)
16            _, _ = w.Write([]byte(`{"status":"not_ready"}`))
17            return
18        }
19
20        w.WriteHeader(http.StatusOK)
21        _, _ = w.Write([]byte(`{"status":"ready"}`))
22    }
23}

服務啟動尚未完成、必要背景同步尚未就緒、或 graceful shutdown 已開始時，readiness 應回 503。Process 仍然活著，但不應接新流量。

【策略】dependency check 依照監控語意分層

依賴檢查的核心判斷是故障是否代表 process 應重啟。Database 暫時不可用不一定代表 process 壞掉；重啟可能無法修復，反而造成更多負載。

建議分層：

/health：只確認 process alive。
/ready：確認必要依賴是否足以接新流量。
/diagnostics/dependencies：提供工程師查看細節。

診斷 response 可以包含穩定欄位：

1{
2  "status": "degraded",
3  "dependencies": {
4    "database": "ok",
5    "queue": "lagging"
6  }
7}

監控應依賴 status code 與穩定欄位，工程師再用 body 細節診斷問題。自由文字可以輔助閱讀，但不應成為監控規則的依據。

【執行】diagnostics endpoint 要條件啟用

Diagnostics endpoint 的核心用途是提供工程師排查問題的資料。pprof、runtime metrics、internal queue length、goroutine count 都屬於這類。

 1func RegisterDiagnostics(mux *http.ServeMux, enabled bool) {
 2    if !enabled {
 3        return
 4    }
 5
 6    mux.HandleFunc("/debug/runtime", HandleRuntimeStats)
 7}
 8
 9func HandleRuntimeStats(w http.ResponseWriter, r *http.Request) {
10    var stats runtime.MemStats
11    runtime.ReadMemStats(&stats)
12
13    response := map[string]any{
14        "heap_alloc":  stats.HeapAlloc,
15        "num_gc":      stats.NumGC,
16        "goroutines":  runtime.NumGoroutine(),
17    }
18
19    _ = json.NewEncoder(w).Encode(response)
20}

Diagnostics 可能揭露內部狀態、記憶體資訊、goroutine 數量、路徑與部署細節，不應公開給一般使用者。若需要長期保留，至少應限制在內網、管理 port、認證或防火牆後。

【判讀】status code 是監控合約

健康檢查的核心合約是 status code。監控系統通常先看 HTTP code 與 timeout，不會理解複雜 body。

狀態	意義
`200 OK`	符合該 endpoint 的健康條件
`503 Service Unavailable`	暫時不可用或不應接流量
`405 Method Not Allowed`	呼叫方式錯誤
timeout	endpoint 無法在預期時間內回應

Body 可以提供人類可讀資訊，但不應讓監控依賴自由文字。若要機器讀取，使用穩定 JSON 欄位，例如 status、reason、dependencies。

【測試】endpoint 測試要鎖定 status code

Endpoint 測試的核心是驗證 status code 與穩定 JSON 欄位，而不是完整自由文字。

 1func TestReadyReturnsUnavailableWhenShuttingDown(t *testing.T) {
 2    readiness := &Readiness{}
 3    readiness.ready.Store(true)
 4    readiness.shuttingDown.Store(true)
 5
 6    req := httptest.NewRequest(http.MethodGet, "/ready", nil)
 7    rec := httptest.NewRecorder()
 8
 9    HandleReady(readiness).ServeHTTP(rec, req)
10
11    if rec.Code != http.StatusServiceUnavailable {
12        t.Fatalf("status = %d, want %d", rec.Code, http.StatusServiceUnavailable)
13    }
14}

Diagnostics endpoint 也應測 gate 關閉時不註冊或回 404，避免診斷入口不小心暴露。

本章不處理

本章先處理 health、readiness 與 diagnostics 的語意切分；Prometheus、OpenTelemetry 與平台設定，會在下列章節再往外延伸：

Go 進階：Observability pipeline、metrics 與 tracing

和 Go 教材的關係

這一章承接的是 pprof、runtime metrics 與 deploy readiness；如果你要先回看語言教材，可以讀：

小結

/health、/ready、diagnostics endpoint 解決不同問題。Health 檢查 process 基本可用性，readiness 控制是否接新流量，diagnostics 支援工程排查且應限制存取。Status code 是監控合約，JSON body 是補充細節；把這些訊號混在一起會讓操作判斷與安全邊界都變模糊。

5.C3 Orbitera：遷移到 Managed Kubernetes

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是說明平台遷移的關鍵在服務連續性與能力重建，單次技術替換只是其中一步。

觀察

Orbitera 原本在 AWS 上以 EC2 為基礎運行 monolithic 架構，使用 EC2 + S3 + RDS + RedShift 組合。被 Google Cloud 收購後，在產品持續運作的前提下遷移到 Google Kubernetes Engine（GKE），同時從 monolith 重構為 microservices 架構。

遷移後的架構運行在 multi-zone 配置下，每個 zone 維持 3 個 replica，確保單一 zone 故障時服務不中斷。整合 Cloud SQL（取代 RDS）、Google 的 load balancer、Stackdriver（觀測）。遷移完成後取得的操作能力包含 on-demand scaling、快速部署到新 region/zone、以及快速 rollback 失敗的 build。

判讀

跨平台遷移本質是能力遷移：部署、觀測、恢復與團隊流程都需要同步重建。Orbitera 的遷移同時改變了兩個維度——平台（AWS → GCP）和架構（monolith → microservices）。雙維度同時改變放大了遷移風險，但也讓團隊避免了「先遷平台再拆架構」的兩階段成本。

這個案例揭露的隱性工作量在「能力對等重建」。原本在 AWS 上已經建好的觀測（CloudWatch → Stackdriver）、資料庫操作（RDS → Cloud SQL）、load balancing 都要在新平台上重新建立並驗證。這些能力不會隨著 workload 遷移自動出現——需要明確的 checklist 和驗證流程。

monolith → microservices 的架構重構改變了 runtime 的基本假設。Monolith 的 readiness 是單一進程啟動完成；microservices 的 readiness 涉及多個服務之間的依賴就緒。5.6 Platform Lifecycle Contract 的 readiness 設計取捨在這類重構後需要重新定義——哪些是必要依賴、哪些是可降級依賴，從 monolith 時代的「全部在同一個進程」變成需要顯式判斷。

Multi-zone HA（3 replicas/zone）是遷移後 managed 平台提供的基線能力。在 self-managed 環境下實現相同程度的跨 zone 冗餘需要大量手動配置（zone-aware scheduling、cross-zone load balancing）；managed 平台把這些收進平台層，團隊精力從「維持 HA 運作」轉向「定義 HA 目標」。

策略

先驗證新平台的最小可行服務：選擇一個依賴少、風險低的服務在 GKE 上完成完整 deployment cycle（build → deploy → observe → rollback），驗證 CI/CD pipeline、觀測整合、rollback 路徑都可運作。
建立能力對等 checklist：列出舊平台已有的操作能力（觀測、告警、backup、secret 管理、log 收集），逐一確認新平台有對應方案且經過驗證。未對等的能力是遷移的 blocking 條件。
逐步搬遷核心工作負載：按依賴關係排序遷移批次，保留舊平台的回切路徑。每批遷移後在新平台上跑 load test 驗證容量與恢復能力。
把平台能力納入日常治理節奏：遷移完成不是終點——GKE 版本升級、node pool 更新、Cloud SQL 維護窗口都要進入團隊的日常操作流程，避免遷移後進入「只部署不維護」的狀態。

可回寫的章節段落

5.1 Container Runtime — 遷移期的 Runtime 穩定性：monolith → microservices 改變 image 建置策略與啟動行為
5.6 Platform Lifecycle Contract — 遷移期的 Lifecycle 重新驗證：readiness 條件在架構重構後需重新定義
6.7 DR/Rollback Rehearsal：遷移後的回退路徑驗證

引用源

Why we migrated Orbitera to managed Kubernetes on Google Cloud Platform

systemd

Fri, 01 May 2026 00:00:00 +0000

systemd 是 Linux 主流 init system、承擔三個責任：service unit lifecycle（start / stop / restart / reload）、signal + journald + cgroups 整合、socket activation + timer（cron 替代）。設計取捨偏向「OS-level 整合 + 單機資源管理 + dependency graph」、適合 VM / bare metal 上單機服務、不需要 cluster orchestration 的場景。

對「VM / bare metal 服務管理、邊緣 / appliance、單機 lifecycle + journal + cgroups」這條路徑、systemd 是 Linux 主流選擇。

本章目標

讀完本章後、你應該能：

寫 service unit file、配置 Type / Restart / ExecStart
設計 signal handling + graceful shutdown
用 journald + journalctl 查 logs
設定 cgroups v2 resource limit
用 socket activation / timer 替代 inetd / cron

最短路徑：5 分鐘把 systemd service 跑起來

 1# 1. 建 unit file（需 root 或 sudo）
 2cat > /etc/systemd/system/myapp.service <<'UNIT'
 3[Unit]
 4Description=My Application
 5After=network.target
 6
 7[Service]
 8ExecStart=/usr/bin/myapp --config /etc/myapp/config.yaml
 9Restart=on-failure
10RestartSec=5
11
12[Install]
13WantedBy=multi-user.target
14UNIT
15
16# 2. 啟用 + 啟動
17systemctl daemon-reload
18systemctl enable --now myapp
19
20# 3. 驗證
21systemctl status myapp
22journalctl -u myapp -f

日常操作與決策形狀

Unit file 設計

子議題：

Unit type：service / socket / timer / target / mount / path
Service Type：simple / forking / oneshot / notify / dbus
Restart：no / on-failure / on-abnormal / always
ExecStart / ExecStop / ExecReload
對應指令：systemctl cat myapp.service、systemctl edit

systemctl 指令

子議題：

Lifecycle：start / stop / restart / reload / enable / disable
Status：status / is-active / is-enabled / list-units
Reload after edit：daemon-reload
對應指令範例：systemctl status myapp、systemctl list-units --failed

journald 日誌

子議題：

結構化日誌（kv pairs）
journalctl filter（-u / –since / -p / -f）
對應 logging：persistent vs runtime journal
跟外部 log forwarder（Vector / Fluent Bit）對接

進階主題（按需閱讀）

Signal handling + graceful shutdown

子議題：

SIGTERM（default stop signal）/ SIGKILL（force kill after timeout）
TimeoutStopSec：grace period
應用程式要 trap SIGTERM 做 cleanup
對應 Platform lifecycle contract（concept 通用）

cgroups v2 + resource limit

子議題：

CPUQuota / MemoryMax / IOWeight / TasksMax
Slice unit（樹狀 resource 限制）
跟 Kubernetes 的 resource limit 對比（K8s 用 cgroups 但抽象更高）
對應指令：systemd-cgls、systemd-cgtop

Socket activation

子議題：

用 .socket unit 持有 listening socket、service 啟動時繼承
啟動延遲：socket 一直在、service 按需起
替代 inetd
適合 occasional service / low-traffic

systemd timer

子議題：

.timer unit 替代 cron
OnCalendar / OnUnitActiveSec / RandomizedDelaySec
跟對應 .service unit 配對
比 cron 強：journal log / dependency / 失敗 restart

Portable services + systemd-run

子議題：

systemd-run：ad-hoc 跑 transient unit
Portable services：把 service + image 一起搬
systemd-nspawn 容器（systemd 自家輕量容器）

跟 container 整合

子議題：

跑 podman container 在 systemd（quadlet / generators）
Docker daemon 由 systemd 管
K8s kubelet 由 systemd 管（cluster node）
對應 single-node container management

排錯快速判讀

Service start failure

操作原則：先 systemctl status、再 journalctl -u 看 log。

1systemctl status myapp                # 看 Active state + Main PID + 最近 log
2journalctl -u myapp --since=-5m       # 最近 5 分鐘的完整 log

Restart loop

操作原則：Restart 配置不當 + StartLimit 觸發。判讀：systemctl status 看 restart count + RateLimit。

journald disk full

操作原則：journal storage 超 SystemMaxUse 設定。判讀：journalctl --disk-usage、/etc/systemd/journald.conf 設限。

cgroup OOM

操作原則：MemoryMax 超過、系統 OOM kill。判讀：journalctl -k 看 kernel oom 訊息。

Dependency 不對

操作原則：unit 依賴 network / db 但 After= 沒設。判讀：systemctl list-dependencies myapp。

何時改走其他服務

需求形狀	改走
多實例 cluster	Kubernetes
Container workflow 為主	Docker / Podman
Process supervisor（非 init）	supervisord / runit
Cron-only 場景	純 cron / systemd timer
Non-Linux（Windows / macOS）	Windows Service / launchd
邊緣 K8s	K3s（systemd 上跑 K3s）

不在本頁內的主題

完整 unit file directive reference
systemd internals（dbus / pid 1）
各 distro systemd 版本差異
systemd-resolved / systemd-networkd 等其他 component

案例回寫

跨 vendor 對照

案例	對 systemd 的對應
5.C9 cutover without drain	systemd 服務切換要靠 ExecStop / TimeoutStopSec / SIGTERM trap 等價 drain
5.C10 規模對照	小規模 VM 服務首選 systemd、跨規模升階到 K8s 時要保留 unit-level 回退腳本

待補 systemd 案例：大規模 fleet（HashiCorp Nomad 跟 systemd 整合）、IoT / edge appliance 案例、systemd portable services 落地案例。

下一步路由

上游概念：5.1 container runtime
平行 vendor：Kubernetes、Docker
下游能力：06 reliability（graceful shutdown）、4 observability（journald）

5.3 load balancer 合約

Thu, 23 Apr 2026 00:00:00 +0000

流量平衡合約（load balancer contract）的核心責任是定義平台何時把流量交給服務，以及服務何時安全退出流量。這份合約一旦模糊，部署、擴容、回退與事故處理都會出現同型問題。

contract 組成

Load Balancer Contract 可以拆成四個部分：

routing contract：哪些路徑導向哪些服務，如何處理權重與版本。
health contract：哪些訊號代表可接流量，何時摘除節點。
connection contract：長短連線的 idle timeout、keepalive、重試規則。
drain contract：版本切換時如何讓 in-flight request 安全收斂。

這四個部分共同定義 rollout 的穩定性。服務端 readiness 與平台端健康檢查要對位，否則會出現「服務已啟動但尚未可服務」的切換抖動。

draining 與 shutdown

draining 的責任是讓舊實例在下線前完成現有請求。drain 視窗的 workload 分類詳見 5.6 Platform Lifecycle Contract，本段聚焦 LB 如何配合 drain：短請求 API 的 drain 視窗可較短；長連線、串流或 websocket 場景需要更長窗口與明確 reconnect 策略。

部署流程中，LB 摘流量、服務停止接新請求、服務完成在途請求、實例退出，這四步要有固定順序。順序穩定後，rollback 才能在同一套機制下運作。

timeout 與 sticky session

idle timeout 是連線資源與使用者體驗的平衡點。timeout 太短會增加重連與錯誤，太長會占用連線與資源。設定時依請求型態與峰值流量校準、按 SLI 訊號迭代閾值。

Timeout 層級串聯

一條請求路徑上的 timeout 分佈在多個層級，每層各自有預設值。全路徑的 timeout 設計原則是由外到內遞減：外層（離使用者近）的 timeout 要大於內層（離資料源近），否則外層先放棄，內層還在處理一個已經沒人等的請求。

層級	典型 timeout 範圍	設定位置
Client / Browser	30-120 秒	前端 fetch / axios / SDK 設定
CDN edge	5-30 秒	CDN vendor 設定（Cloudflare / CloudFront）
Load balancer	30-60 秒	LB idle timeout / request timeout
Application	5-30 秒	HTTP server read/write timeout
Database / Cache	1-5 秒	連線池 query timeout / connect timeout

這張表的每一層 timeout 都要比它的下一層大。如果 LB timeout 30 秒但 application 設了 60 秒，LB 會在 30 秒回 504 給使用者，但 application 仍然持有連線等 DB 回應——佔用連線資源卻無法交付結果。

timeout 設計的常見失誤是只調 LB 層：團隊看到使用者回報 timeout，直接把 LB timeout 從 30 秒調到 120 秒。結果是慢請求佔用 LB 連線更久、連線池被慢請求填滿、其他正常請求也開始排隊 timeout。穩定做法是先在 application 或 DB 層找出延遲根因，而非放大外層 timeout 來「等更久」。

sticky session 適合需要短期會話一致性的場景，但它會提高特定節點負載不均與失效轉移成本。採用 sticky policy 前要先定義會話狀態落點與失效時的回復路徑。

LB + CDN 連線生命週期協調

當 LB 上游有 CDN 時、兩層的 timeout / retry 行為要對齊、否則會出現「使用者已經 timeout 但 origin 還在處理」這類雙層不一致：

CDN edge timeout 通常比 origin LB timeout 短（5-30 秒）— edge 認定 origin 慢就放棄。若 origin LB timeout 是 60 秒、edge 在 30 秒已放棄回 504、origin 還在處理一個沒人在意的 request。應對齊兩邊的 timeout 上限。
CDN retry policy 在 edge miss 後若拿不到 origin response、預設不會重試（避免雙倍 origin 流量）— LB 端的 idle timeout 設計要假設「只有一次機會」、不依賴上游重試
長連線（WebSocket、SSE、gRPC）通常繞過 CDN — 直接連到 origin LB。這些連線的 idle timeout 跟一般 HTTP 不同、要單獨配置
Edge cache HIT 時 LB 完全沒收到 request — 容量規劃時要把 cache hit ratio 算進 origin RPS、不是用使用者 RPS 直接 size LB

詳見 5.9 邊緣分發與靜態資源的 origin protection 段。

切流失敗的回退判讀

切流失敗的回退判讀第一步是先分辨「平台問題」跟「流量生命週期問題」、再決定回退手法。平台問題用重啟服務恢復、流量生命週期問題用凍結切換並等待震盪收斂。回退手法錯位會把事故推進第二階段。

切流失敗的本質是 connection lifecycle 跟切換時序錯位、平台元件本身往往是健康的。對應 5.C9 反例：平台切流未先 Draining：揭露切流失敗常因 connection lifecycle 管理錯位、重啟動作會放大震盪。以下基於通用工程知識展開回退節奏。

回退節奏有兩個時序階段、性質不同。

第一階段：先讓震盪不擴大。發現切流失敗的第一動作是凍結 rollout（不再擴大切換範圍）跟恢復舊入口權重（把 LB 規則 / DNS 加權 / service mesh 流量切回舊版本主導）。新版本不立即關閉、保留作為對照證據。這個階段的目標是穩定當前狀態、為後續分析爭取時間、所有動作要在分鐘級內完成。

第二階段：再讓系統可恢復。震盪不擴大後、進入「等待 + 修正」狀態。長連線跟 reconnect 風暴需要時間消化、盲目重啟新版本實例會把重連集中在新一輪實例上、造成 thundering herd。觀察連線數、reconnect rate、5xx 趨勢回到 baseline 是進入修正階段的訊號。修正動作聚焦於 drain window、idle timeout、health check、client retry 之間的節奏錯位、找出後修正、重新進入小範圍驗證。這個階段的時間尺度通常是小時級、不能用第一階段的緊急節奏對待。

兩階段時序不能合併。把第一階段（凍結 + 切回）跟第二階段（等待 + 修正）並列執行、會在連線尚未穩定時嘗試修正、造成第二次震盪。

回退時最常見的誤判是「LB 顯示新節點 healthy = 服務可服務」。LB 的健康判斷通常是定期 health check 通過，跟「該節點能承受重連潮」是不同問題。事故中要把這兩個訊號分開看：節點層健康（health check pass）、連線層健康（reconnect rate、長連線錯誤率、tail latency）。

切流告警條件

對應 5.C9 反例的「部署專屬告警條件」段：揭露切流期告警的三個核心訊號（批次內 5xx 突增、長連線重連率快速上升、rollback time 超過既定 RTO）。本段在 case 三條基礎上補第 4 條（per-version error rate 偏離）與操作建議。

切流期告警的核心責任是對應切流批次節奏、跟日常閾值分離。日常閾值在切流期會被切換本身的短暫波動觸發、變成 alert noise；切流期需要更嚴格的「批次內偏差」訊號。

可操作的切流期告警條件：

批次內 5xx 異常升高：當前批次相對於前一批的 5xx 升幅超過閾值、停止下一批。
長連線重連率飆升：reconnect rate 超過 baseline N 倍、暗示 drain / timeout 錯位。
回退時間超過 RTO：執行回退後恢復時間超過既定 RTO、升級為事故等級。
per-version error rate 偏離：新舊版本 error rate 差距超過閾值、不收斂（屬本章補強、case 未明示）。

這些告警的閾值要在 release plan 中先定義、進事故時直接套用、避免臨時拍定。把切流告警跟一般日常告警分流到不同 channel，避免事故團隊在切流期被日常 noise 淹沒。

判讀訊號

訊號	判讀重點	對應動作
rollout 期間 5xx 上升且集中在舊版本	drain 順序或窗口不足	拉長 drain 時間、調整摘流順序
readiness 通過但首批請求延遲高	應用啟動完成與可服務條件未對齊	細化 readiness 指標、補 startup gate
reconnect storm 出現在切版後	timeout 與連線生命週期不匹配	調整 idle timeout、分批切流
canary 比例低時正常，擴到高比例出現抖動	LB 權重策略與服務容量曲線不一致	降低增量批次、補容量保護
多租戶場景下單租戶延遲飆升	sticky/routing policy 造成熱點聚集	分離租戶路由、加入負載重平衡
回退後 reconnect 風暴持續	重啟動作放大震盪、未先恢復穩定路徑	凍結切換、等連線數穩定、再修錯位點

「回退後 reconnect 風暴持續」是切流事故中最容易誤判的訊號。判讀順序：先看是否「凍結切換」已執行（rollout 是否真的停了）、再看「舊入口權重」是否回到主導比例（DNS / LB 規則是否切回）、最後看連線數曲線是否進入下降。三項都做完仍見風暴持續、才考慮新版本實例層級的問題（image / config / runtime 漂移）、而非反向重啟新版本。解凍切換的條件是「連線數曲線回到 baseline + reconnect rate 低於閾值連續 N 分鐘」、不是「等夠久了就解凍」的時間導向。

常見誤區

把 load balancer 當成「只做轉發」的元件，會忽略它在部署與事故中的決策角色。LB 設定定義了流量切換節奏、回退可行性與故障擴散速度。

Health check 跟 readiness 的混淆會在切換時暴露隱性風險。health contract 要反映服務真實 readiness — 含依賴連線池、必要 config、關鍵背景任務狀態 — 而非停在單一探針成功訊號。

把「LB 顯示節點 healthy」當作「服務可承受流量」的訊號，也是事故中的常見誤判。健康檢查通過跟承受重連潮是不同層級的訊號。

案例回寫

流量契約可用 5.C9 反例回寫。先看事件中的摘流量順序、drain 視窗與連線重建節奏，再回到本章判讀 connection contract 與 drain contract 是否對齊。

這個案例主要支撐的是「連線生命週期與摘流量順序」判讀，不直接支撐 container build 可重現性；若根因在映像與 runtime 漂移，應回到 5.1。

當回退後錯誤率仍高或重連風暴延續，通常表示 timeout 與 sticky policy 仍在放大舊連線狀態。先重建連線生命週期時序，再把回退判斷同步到 8.19 Incident Decision Log。

跨模組路由

load balancer contract 是部署平台與操作控制面的匯流點。

與 5.6 的交接：drain 的生命週期定義與 workload 分類回到 Platform Lifecycle Contract。
與 04 的交接：版本切換訊號與錯誤率證據進入 Observability Evidence Package。
與 06 的交接：canary 放行與回退條件進入 Release Gate。
與 07 的交接：入口治理與管理面保護進入 7.3 入口治理與伺服器防護。
與 08 的交接：切換與回退判斷記錄到 Incident Decision Log。
與 5.9 邊緣分發的交接：CDN 是 origin LB 的上游、edge miss 後流量進 origin LB、timeout / retry 設定要協調。

下一步路由

要把 LB 合約放進整體部署流程，接著讀 5.2 Kubernetes 部署策略與 5.C9 反例。要把部署切換接到事故流程，接著讀 8.19 Incident Decision Log。

5.C4 Mobileye：Workloads 遷移到 EKS

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是把 workload 遷移從基礎設施作業改成服務可用性作業。

觀察

Mobileye 將大規模工作負載遷移到 EKS。遷移動機集中在運維一致性與可用性治理——原有環境中不同團隊各自維護部署流程，升級節奏、監控覆蓋、容量規劃的標準不統一。遷移目標是用 managed 平台統一這些操作基線，讓各團隊可以專注在 workload 本身。

遷移範圍涵蓋多種 workload 類型：API 服務、資料處理 pipeline、ML 推論服務。這些 workload 的啟動時間、資源需求、drain 條件差異顯著，同一套遷移策略無法直接套用。

判讀

工作負載遷移若缺乏分段驗證，容易在切流時放大依賴與資源風險。這個判讀的具體含義是：workload 從舊平台搬到新平台時，表面上看 pod 跑起來了、health check 通過了，但依賴路徑（資料庫連線、cache endpoint、queue consumer 註冊）可能還指向舊環境。這類錯位在小流量時不明顯，放大流量後才暴露延遲升高或認證失敗。

另一個判讀是容量假設需要重新驗證。舊平台的 resource request/limit、HPA 設定是在舊環境的 node type、網路拓樸下校準的。新平台的 node 規格、storage driver、CNI 可能不同，原本的容量假設可能過鬆或過緊。

策略

分批遷移 workload、保留觀測對照：先遷移影響面小、依賴單純的 workload（如內部工具、非關鍵 API）。新舊平台同時跑相同 workload 時，比較 error rate、latency、資源使用率。觀測對照是驗證的基礎——沒有對照就無法判斷新平台行為是否符合預期。
明確定義每批次切換與回退條件：每批遷移前寫下「什麼條件算成功」和「什麼條件觸發回退」。成功條件用 SLI 偏差衡量（error rate 不超過基線 + N%、p99 latency 不超過基線 + M ms）。回退條件要可操作——回退腳本事先驗證、DNS/LB 規則切回路徑事先測試。
新平台先驗證容量與恢復節奏：在新平台上跑容量測試，確認 HPA 觸發、node scale-up、pod scheduling 的時間符合預期。恢復節奏驗證包含模擬 node 失效後 pod 重新調度的時間、模擬 deployment rollback 的完成時間。
workload 類型分群遷移：API 服務、batch job、ML 推論的遷移順序與驗證條件不同。API 服務看延遲與錯誤率；batch job 看完成時間與資料正確性；ML 推論看推論延遲與 GPU 資源分配。混在一批遷移會讓驗證條件模糊。

回退判讀

這類遷移的回退判讀重點是「回退到舊平台時，舊平台是否仍在可服務狀態」。遷移進行中若舊平台的資源已被縮減（node 數降低、monitoring 設定已移除），回退路徑就失效。穩定做法是在該批 workload 的新平台觀測窗口結束前，舊平台維持原規模不動。

下一步路由

回 5.2 kubernetes deployment 看分階段平台遷移的流量切換節奏。回 5.6 platform lifecycle contract 看不同 workload 類型的 lifecycle 差異。回 6.19 reliability readiness review 看遷移前的可靠性評估。

引用源

Mobileye migration to Amazon EKS（原始 URL 已失效，內容基於骨架與通用工程知識擴充）

nginx

Fri, 01 May 2026 00:00:00 +0000

nginx 是 HTTP server / reverse proxy / load balancer 的事實標準之一、承擔三個責任：HTTP 7 層處理（reverse proxy / TLS termination / static content）、L4 / L7 load balancing、Kubernetes ingress controller（ingress-nginx）。設計取捨偏向「配置簡單 + 效能穩定 + reload 機制成熟」、跟 envoy 比是靜態 config-driven（無 dynamic xDS）。F5 收購後 nginx Plus 是商業版、社群 fork 有 Freenginx / angie。

對「HTTP reverse proxy / LB、TLS termination、K8s ingress、API gateway 入門」這條路徑、nginx 是穩定首選。

本章目標

讀完本章後、你應該能：

寫 nginx config（server / location / upstream）
配置 TLS / mTLS + SNI
設計 rate limiting + connection limit
部署 ingress-nginx 到 Kubernetes
評估 nginx vs nginx Plus / OSS fork（Freenginx / angie）

最短路徑：5 分鐘把 nginx 跑起來

 1# 1. 啟動 nginx（docker）
 2docker run -d --name nginx-demo -p 80:80 \
 3  -v "$(pwd)/nginx.conf:/etc/nginx/nginx.conf:ro" nginx:stable-alpine
 4
 5# 2. 寫 reverse proxy config（nginx.conf 範例）
 6cat <<'CONF' > nginx.conf
 7events { worker_connections 1024; }
 8http {
 9  upstream backend {
10    server app:8080;
11  }
12  server {
13    listen 80;
14    location / {
15      proxy_pass http://backend;
16      proxy_set_header Host $host;
17      proxy_set_header X-Real-IP $remote_addr;
18    }
19  }
20}
21CONF
22
23# 3. reload + 驗證
24nginx -t            # test config syntax
25nginx -s reload     # reload without restart（zero-downtime config update）

日常操作與決策形狀

nginx config 設計

子議題：

階層：events / http / server / location / upstream
變數：$host / $remote_addr / $http_
Include 拆分大 config
對應指令：nginx -T（dump full config）、nginx -t（test）、nginx -s reload

Reverse proxy 配置

子議題：

proxy_pass / proxy_set_header / proxy_http_version
proxy_buffering / proxy_request_buffering
upstream load balancing（round_robin / least_conn / ip_hash）
對應 5.3 LB contract

TLS termination

子議題：

ssl_certificate / ssl_certificate_key / ssl_protocols
SNI（server_name + listen 443 ssl）
mTLS：ssl_client_certificate + ssl_verify_client
對應 07 security TLS 章

進階主題（按需閱讀）

Rate limiting / connection limit

子議題：

limit_req_zone + limit_req（leaky bucket）
limit_conn_zone + limit_conn
跟 knowledge cards rate-limit 對照
對應威脅建模: 2.6 快取威脅建模

ingress-nginx for Kubernetes

子議題：

Helm chart 部署
Ingress resource + Annotations 配置
ConfigMap + Snippets（power users）
跟 Traefik / Gateway API 對比

OpenResty / Lua extension

子議題：

OpenResty：nginx + LuaJIT、可寫 Lua handler
ngx_lua: access / content / log phase handler
適合：自訂 auth / dynamic routing
對應 envoy WASM extension 對比

nginx vs nginx Plus / Freenginx / angie

子議題：

nginx OSS（F5 維護）：basic feature
nginx Plus（商業）：active health check / dynamic config API / DNS upstream
Freenginx：2024 社群 fork（不滿 F5 治理）
angie：另一個 fork、多 commercial extension
選擇判讀：dynamic config 重要 → 看 Envoy / Plus；OSS 純社群 → Freenginx / angie

Performance tuning

子議題：

worker_processes / worker_connections
keepalive_timeout / keepalive_requests
sendfile / tcp_nopush / tcp_nodelay
跟 09 performance capacity 對照

排錯快速判讀

502 Bad Gateway

操作原則：upstream 不可達 / 回應錯。判讀：error.log + upstream health。

504 Gateway Timeout

操作原則：proxy_read_timeout / proxy_send_timeout 超過。判讀：upstream 處理時間 vs timeout 配置。

Connection limit / 502 under load

操作原則：worker_connections 不夠、ephemeral port 耗盡、upstream keepalive 不對。判讀：netstat + nginx stub_status。

SSL handshake failure

操作原則：cipher / protocol mismatch、cert chain incomplete、SNI 不對。判讀：openssl s_client -connect host:443 -servername host。

Reload 不生效

操作原則：nginx -t 先 test、新 worker 起來舊 worker drain。若行為怪、檢查是否拿到舊 listening socket。

何時改走其他服務

需求形狀	改走
Dynamic config / xDS	Envoy
Cloud-native auto-discovery	Traefik
AWS managed	AWS ELB（ALB / NLB）
L4 為主 / 高吞吐	HAProxy / NLB
Service mesh	Istio / Linkerd / Consul Connect
API Gateway 進階	Kong / Tyk / Apigee

不在本頁內的主題

完整 nginx directive reference
ngx_lua / OpenResty 完整教學
各 distro nginx 版本差異
nginx internal architecture

案例回寫

跨 vendor 對照

案例	對 nginx 的對應
5.C9 cutover without drain	切流時 nginx upstream / ingress-nginx 沒做 graceful drain、長連線跟 5xx 一起放大
5.C10 規模對照	小型直接 nginx reverse proxy、中型走 ingress-nginx、大型才考慮 envoy 或 service mesh

待補 nginx 案例：Cloudflare 為何 fork（freenginx）、大規模 ingress-nginx 客戶案例、OpenResty 在 production 的擴展案例。

下一步路由

上游概念：5.3 LB Contract
平行 vendor：Envoy、Traefik、AWS ELB
下游能力：07 security（TLS / WAF）、09 performance

5.4 service discovery

Thu, 23 Apr 2026 00:00:00 +0000

服務發現（service discovery）的核心責任是讓服務在變動環境中仍能找到正確目標實例。它處理的是定位與可用集合，不處理業務設定判斷；這個邊界清楚後，部署切換與故障回退才可預期。

DNS 與 registry

service discovery 常見兩種路徑：DNS 查詢與 service registry。DNS 提供簡化解析路徑，適合標準服務發現；registry 提供更細節的實例狀態與元資料，適合複雜路由與多租戶治理。

選擇重點是變更頻率與一致性需求。實例變動頻繁或跨區路由複雜時，registry 能提供更細控制；穩定內網服務可優先 DNS 路徑降低操作成本。

DNS-based Discovery 的運作與限制

Kubernetes Service 的 ClusterIP 模式是最常見的 DNS-based discovery：kube-dns / CoreDNS 回覆一個虛擬 IP，kube-proxy 用 iptables / IPVS 做 L4 負載均衡到實際 pod IP。Headless Service（clusterIP: None）則直接回傳所有 pod IP 的 A record，讓客戶端自行選擇目標。

DNS-based discovery 的限制來自 DNS 本身的語意：

TTL 與快取：DNS 回應帶 TTL，客戶端和中間 resolver 會快取。當 pod 被摘除但 DNS 快取尚未過期，客戶端仍會嘗試連到已不存在的 IP。Kubernetes CoreDNS 的 Service TTL 預設 30 秒，但客戶端語言 runtime 可能有自己的 DNS cache（JVM networkaddress.cache.ttl 預設 30 秒、有些版本預設 -1 代表永不過期）。
無健康資訊：DNS A record 不帶健康狀態。回覆的 IP 可能對應已經 not-ready 但尚未被 endpoint controller 移除的 pod。這個時間窗口取決於 kubelet sync 頻率與 endpoint controller 的反應速度。
無權重 / 元資料：DNS 不原生支援流量權重、版本標記、區域偏好。需要這些能力時要靠 service mesh 或 client-side load balancing。

DNS 路徑的工程價值在於零侵入——任何能解析 DNS 的程式碼都自動取得 discovery 能力，不需要額外 SDK 或 sidecar。缺點是控制粒度只到 IP 層，無法表達更豐富的路由語意。

Registry-based Discovery 的運作模式

Service registry（Consul、etcd、Eureka、Nacos）維護 key-value store，每個 service instance 主動註冊自己的地址、metadata 與健康狀態。Client 透過 registry API 或 local agent 取得可用 instance 清單。

Registry 的工程價值在於提供 DNS 無法表達的元資料：instance 的版本、區域、權重、標籤都可以作為路由條件。代價是所有 service 都需要 registry 連線邏輯（SDK 或 sidecar），且 registry 本身成為基礎設施依賴——registry 不可用時，新 instance 無法註冊、現有 instance 無法被發現。

Registry 跟 DNS 不互斥。常見做法是 registry 作為 source of truth，再用 DNS interface 對外提供查詢（Consul DNS Interface、CoreDNS 的 etcd plugin）。這讓簡單場景走 DNS、複雜路由走 registry API、兩者共用同一份 instance 清單。

選擇判讀框架

需求	DNS-based	Registry-based
instance 變動頻率低、路由簡單	適合：低維護、零侵入	過度設計
需要權重路由或版本切流	不適合：DNS 不帶權重	適合：metadata + 路由規則
需要跨叢集 / 跨區域 discovery	需要外部 DNS 配合（困難）	適合：registry federation
服務用多語言實作	適合：任何語言都能解 DNS	需要每個語言的 SDK 或 sidecar
需要即時健康反映	受 TTL 限制、有延遲窗口	適合：health check 即時更新

endpoint discovery

Internal Endpoint discovery 的責任是維持可連線目標集合。這包含註冊、健康檢查、摘除、重建後回註冊。服務端 readiness 與 discovery 健康判斷要對齊，否則會出現不可服務實例仍被路由的情況。

endpoint 變更需要可追溯訊號，讓事故期間能快速判讀是路由失真、註冊延遲，還是下游本身不可用。

註冊時序與 Readiness 對齊

endpoint 的註冊時機是 discovery 穩定性的關鍵變數。註冊太早（服務尚未 ready 就被加入可用集合）會導致客戶端打到未就緒實例；註冊太晚（服務已 ready 但尚未被 discovery 看到）會導致容量不足。

Kubernetes 的做法是把 endpoint 跟 readinessProbe 綁定：readiness pass 才把 pod IP 加入 Endpoints 物件。這個設計讓 readiness 定義直接決定 discovery 行為。但 readiness probe 的判斷到 Endpoints 更新之間仍有延遲（endpoint controller sync 週期 + kube-proxy rules 更新），這個延遲窗口內的行為要理解：

Pod 剛從 not-ready 變 ready：endpoint controller 需要同步周期把 pod IP 加入 Endpoints → kube-proxy 更新 iptables / IPVS → 流量才會到。期間該 pod 不接流量但已可服務。
Pod 從 ready 變 not-ready：同樣有延遲。期間客戶端仍可能打到已 not-ready 的 pod。drain 設計要覆蓋這段窗口。

摘除節奏與 Drain 的配合

endpoint 摘除不是瞬時的。從 pod 標記 not-ready 到所有 client 停止向它送流量，中間經過多個同步步驟。這段時間內，被摘除的 pod 仍會收到流量。

穩定做法是在 preStop hook 加入短暫等待（通常 5-15 秒），讓 endpoint 更新有時間傳播到所有 kube-proxy / envoy，然後再開始 graceful shutdown。這段 preStop 等待是 5.6 Platform Lifecycle Contract 中 drain 總窗口（短 API 通常 5-30 秒）的 endpoint 傳播子區間，drain 總窗口還要覆蓋 preStop 之後的在途請求收斂時間。

跨叢集 Discovery 的挑戰

對應 5.C1 Tradeshift self-managed K8s → EKS：揭露「遷移難點通常在跨叢集服務依賴與流量切換、不在 Kubernetes API 本身」。跨叢集 discovery 是遷移期的核心難題——服務 A 在新叢集、服務 B 在舊叢集，A 要能找到 B。

跨叢集 discovery 的常見做法：

外部 DNS + 加權路由：兩個叢集的 service 都註冊到外部 DNS（Route 53、Cloud DNS），用權重控制流量比例。簡單但粒度粗，只能整體切、不能 per-service 切。
Service mesh federation：Istio multi-cluster、Linkerd multi-cluster 把跨叢集 endpoint 統一管理。粒度細、可以 per-service 切流量，但引入 mesh 的複雜度。
Application-level routing：應用自己管理多叢集 endpoint（通常透過 config 或 feature flag），切換時改 config。最靈活但最手動，適合遷移期的過渡方案。

遷移期最危險的狀態是「服務切過去了、discovery 沒切過去」——新叢集的服務 A 仍透過舊 discovery 找舊叢集的 B，跨網路延遲從微秒級跳到毫秒級，或在網路分區時完全斷開。discovery 切換要跟服務切換同批規劃。

failure fallback

fallback 在 discovery 層的責任是縮小定位失敗影響。常見策略包含本地快取最後可用集合、區域優先回退、受控重試與短暫降級。

fallback 設計要明確停止條件。長期依賴過期 endpoint 快取會造成隱性錯誤累積，事故期反而更難收斂。

Fallback 的三層防線

discovery 故障的 fallback 可分三層，每層有不同的代價與風險：

第一層：本地 endpoint 快取。Client 維持最後一次成功查詢的 endpoint 清單。discovery 服務不可用時，繼續用快取 endpoint。風險是快取中的 endpoint 可能已經下線或不健康。有效期要設上限——超過 N 分鐘的快取視為不可信，進入第二層。

第二層：區域降級。本區域的 endpoint 全部不可用時，降級到其他區域的 endpoint。代價是跨區延遲增加。風險是其他區域也可能因為同源故障而不可用。降級時要觀測跨區延遲是否在 SLO 內，超出則進第三層。

第三層：服務降級。discovery 完全失效時，服務本身降級——返回快取回應、靜態頁面、或明確的錯誤訊息。這一層的設計責任落在應用的 fallback 策略，discovery 只負責提供「目前無可用 endpoint」的訊號。

三層防線的共同原則是每一層都有明確的進入條件和退出條件。進入 fallback 不是終點——要持續嘗試恢復正常路徑，fallback 狀態持續時間要被觀測和告警。

判讀訊號

訊號	判讀重點	對應動作
服務延遲上升且下游錯誤分布不均	路由到不可用或高負載實例	檢查註冊健康、刷新 endpoint 集合
節點重啟後短時間大量 5xx	註冊與 readiness 時序不對齊	延後註冊時機、收斂就緒條件
跨區呼叫比例異常升高	區域內可用集合失真或容量不足	檢查區域路由策略、恢復本地優先
discovery 查詢成功但連線失敗率升高	endpoint 新鮮度不足或 DNS 快取漂移	縮短 TTL、加入主動刷新
fallback 命中率長期偏高	主路徑失效被掩蓋	啟動故障調查、限制 fallback 存活時間
擴容後新 pod 遲遲不接流量	endpoint 註冊延遲或 kube-proxy 同步慢	檢查 endpoint controller 延遲
遷移期跨叢集延遲突增	discovery 沒切過去、跨網路打舊叢集	規劃 discovery 切換與服務切換同批

常見誤區

Service discovery 跟 DNS 設定的混淆，會讓註冊時序、健康判斷與摘除節奏的缺口在平時被忽略。這類缺口在平時不明顯，通常在切版、擴縮容或區域異常時集中爆發。

把 fallback 命中率視為穩定指標也容易誤判。fallback 長期偏高代表主路徑問題被遮蔽，應回頭檢查 endpoint 新鮮度與註冊健康，而不是只放寬重試。

把 DNS TTL 設成 0 試圖取得即時一致性，會大幅增加 DNS 查詢量。DNS 的設計前提是快取——TTL 0 在高流量服務下會讓 DNS server 成為瓶頸。穩定做法是設合理 TTL（5-30 秒）搭配 client-side 主動刷新。

把 JVM 的 DNS cache 當成 OS 的 DNS TTL——JVM networkaddress.cache.ttl 的預設值在不同版本不同（有些版本是 30 秒、有些是永不過期）。容器化部署時要顯式設定，避免 pod IP 變了但 JVM 還在打舊 IP。

定位邊界

service discovery 專注「找到可用實例」。當問題進入設定分發、版本切換、策略開關，責任轉到 Config Rollout 與部署策略章節。邊界分明能避免故障排查時把不同控制面混為一談。

discovery 跟 load balancing 的邊界：discovery 回答「有哪些 endpoint 可用」，load balancing 回答「在可用 endpoint 中選哪一個」。DNS round-robin 把兩者混在一起，registry-based 方案通常把兩者分開，讓 LB 策略（round-robin、least-connection、consistent hash）在 discovery 結果之上獨立運作。

案例回寫

發現與定位鏈路可用 5.C3 Orbitera：managed K8s migration 回寫。先看遷移期間實例註冊、摘除與 DNS/registry 同步節奏，再對照本章判讀 endpoint 新鮮度與 fallback 壽命是否合理。

5.C1 Tradeshift self-managed K8s → EKS 從跨叢集角度支撐：揭露遷移期的 discovery 挑戰——「難點在跨叢集服務依賴與流量切換」。遷移期 discovery 要處理新舊叢集的 endpoint 共存、切換時序、回退路徑。

這些案例主要支撐「定位集合新鮮度」與「跨叢集 discovery 同步」判讀。不直接支撐 LB 連線 timeout 或 runtime 建置一致性；若問題在連線生命週期或映像漂移，應轉到 5.3 或 5.1。

遇到「查詢成功但連線失敗率高」時，應拆成註冊時序、TTL 與快取刷新三條線同步驗證，避免把定位問題誤判成下游異常，再把證據分流到 8.18 Incident Intake & Evidence Triage。

跨模組路由

與 5.2 的交接：實例註冊與可用判定回到 Kubernetes 部署策略。
與 5.3 的交接：路由目標與流量合約回到 load balancer 合約。
與 5.6 的交接：endpoint 註冊時序與 readiness 的對齊回到 Platform Lifecycle Contract。
與 5.7 的交接：discovery 與 control plane boundary 的分責回到 Traffic、Config 與 Control Plane Boundary。
與 4.13 的交接：依賴拓樸與發現信號回到 Service Topology 與 Dependency Map。
與 8.18 的交接：定位故障的證據分流回到 Incident Intake & Evidence Triage。

下一步路由

要把發現機制放進流量契約，接著讀 5.3 load balancer 合約。要看部署切換如何影響可用集合，接著讀 5.2 Kubernetes 部署策略。要看 discovery 在 control plane 邊界中的定位，接著讀 5.7 Traffic、Config 與 Control Plane Boundary。

8.4 Microsoft：雲端基礎設施的一部分

Thu, 23 Apr 2026 00:00:00 +0000

Microsoft 的官方案例文字不長，但方向很清楚：Go 被用來支撐雲端基礎設施的一部分。這類案例的重點通常在平台層、支援工具與雲端服務周邊。

你應該看什麼

How Microsoft Embraces Go

這個案例告訴我們什麼

Go 很適合平台與基礎設施工具。
雲端工程很重視部署單純性與長期可維護性。
Go 常被放在內部治理、雲端元件與自動化流程中。

可對照的公開原始碼

這些公開 repo 可以用來理解 Microsoft 生態裡的雲端基礎設施與自動化工作方式。即使它們不一定只講一件產品，仍很適合對照 Go 的平台語言角色。

6.4 版本偵測與 feature gate

Wed, 22 Apr 2026 00:00:00 +0000

Feature gate 的核心目標是在外部能力、部署環境或版本不同時，讓服務保留可預期行為。它明確管理功能何時啟用、關閉時如何降級、錯誤時如何回報。

本章目標

學完本章後，你將能夠：

用 config struct 集中載入 feature gate
把外部版本偵測轉成 capability
為 gate 關閉時定義降級、回錯或延後處理策略
避免在程式各處直接讀環境變數
同時測試 feature 開與關兩條路徑

【觀察】新功能上線需要可控行為

Feature gate 的核心需求來自生產環境差異。新功能可能只在部分部署環境可用，外部依賴可能版本不同，某些診斷入口只應在內網啟用，某些即時能力需要先灰度。

沒有 gate 時常見問題：

新功能只能一次性全開或全關。
部署環境不支援時服務直接失敗。
測試只能覆蓋預設路徑。
問題發生時無法快速降級。
程式各處用環境變數判斷，行為難以推理。

Feature gate 的目的是讓行為決策集中、可測、可回滾。

【判讀】feature gate 是行為合約

Feature gate 的核心語意是控制某段行為是否啟用，以及未啟用時系統要做什麼。它不只是 if，而是一個操作合約。

1type Features struct {
2    RealtimePush bool
3    Diagnostics  bool
4    Pprof        bool
5}

開關名稱應描述功能，而不是描述臨時任務。RealtimePush 比 NewCode 更能長期維護；Diagnostics 比 DebugStuff 更清楚。

Gate 應在應用啟動時集中載入，再傳給需要的元件。不要在程式各處反覆直接讀環境變數，否則測試與推理都會變困難。

【執行】集中載入 feature config

Feature config 的核心責任是把環境變數、設定檔或啟動參數轉成明確資料。

1func LoadFeaturesFromEnv() Features {
2    return Features{
3        RealtimePush: os.Getenv("FEATURE_REALTIME_PUSH") == "1",
4        Diagnostics:  os.Getenv("APP_DIAGNOSTICS") == "1",
5        Pprof:        os.Getenv("APP_PPROF") == "1",
6    }
7}

組裝時傳入元件：

 1func main() {
 2    features := LoadFeaturesFromEnv()
 3
 4    mux := http.NewServeMux()
 5    RegisterDiagnostics(mux, features.Diagnostics)
 6
 7    publisher := NewPublisher(PublisherConfig{
 8        RealtimeEnabled: features.RealtimePush,
 9    })
10
11    _ = publisher
12}

這樣功能測試可以直接建構 Features，不必依賴全域環境變數。環境變數解析只需要在 LoadFeaturesFromEnv 的測試中覆蓋。

【判讀】版本偵測要轉成能力

版本偵測的核心原則是不要讓整個程式到處比較版本字串。應把外部版本轉成 capability，內部只判斷能力。

 1type Capabilities struct {
 2    SupportsStreaming bool
 3    SupportsMetadata  bool
 4}
 5
 6func DetectCapabilities(version semver.Version) Capabilities {
 7    return Capabilities{
 8        SupportsStreaming: version.GTE(semver.MustParse("2.0.0")),
 9        SupportsMetadata:  version.GTE(semver.MustParse("2.1.0")),
10    }
11}

內部程式應寫成：

1if caps.SupportsStreaming {
2    return useStreaming(ctx)
3}
4
5return usePolling(ctx)

這比到處寫 if version >= ... 更清楚，也更容易測試。版本字串是外部事實，capability 是內部行為判斷。

【策略】gate 關閉時要有降級策略

Feature gate 的核心問題是關閉時要做什麼。常見策略包括降級、回錯、隱藏入口、排程稍後處理。

策略	行為	適用情境
fallback	使用舊流程	新能力只是效率改善
reject	回明確錯誤	功能沒有安全替代方案
hide	不註冊 endpoint 或不顯示入口	使用者不應看到該功能
store for later	先保存，稍後處理	即時能力暫不可用但資料不能丟

例如即時推送關閉時，可以改成保存待處理資料：

1func (p Publisher) Publish(ctx context.Context, event DomainEvent) error {
2    if p.realtimeEnabled {
3        return p.realtime.Publish(ctx, event)
4    }
5
6    return p.repository.SaveForLater(ctx, event)
7}

降級策略要符合資料語意。不能即時送出不代表可以直接丟掉重要事件。

【執行】HTTP endpoint 可用 gate 控制註冊或行為

HTTP feature gate 的核心選擇是「不註冊 endpoint」或「註冊但回明確錯誤」。兩者語意不同。

不註冊 endpoint：

1if features.Diagnostics {
2    RegisterDiagnostics(mux, true)
3}

適合診斷入口、內部工具或不希望使用者看見的功能。

註冊但回錯：

 1func HandleRealtimeExport(features Features) http.HandlerFunc {
 2    return func(w http.ResponseWriter, r *http.Request) {
 3        if !features.RealtimePush {
 4            http.Error(w, "realtime export is disabled", http.StatusNotImplemented)
 5            return
 6        }
 7
 8        startRealtimeExport(w, r)
 9    }
10}

適合公開 API，讓呼叫端知道功能存在但目前不可用。

【策略】gate 不應散落成巢狀 if

Feature gate 的核心維護風險是判斷散落在多層呼叫中，最後沒人知道功能到底何時啟用。

反模式：

1if os.Getenv("FEATURE_REALTIME_PUSH") == "1" {
2    if version >= "2.0.0" {
3        if user.Enabled {
4            // ...
5        }
6    }
7}

較清楚的做法是先組出 decision：

 1type RealtimeDecision struct {
 2    Enabled bool
 3    Reason  string
 4}
 5
 6func DecideRealtime(features Features, caps Capabilities) RealtimeDecision {
 7    if !features.RealtimePush {
 8        return RealtimeDecision{Enabled: false, Reason: "feature_disabled"}
 9    }
10    if !caps.SupportsStreaming {
11        return RealtimeDecision{Enabled: false, Reason: "streaming_not_supported"}
12    }
13    return RealtimeDecision{Enabled: true}
14}

Decision 物件讓 log、測試與錯誤回應都能使用相同 reason。

【執行】log 要記錄 gate decision

Feature gate 的核心操作需求是知道功能為何啟用或關閉。當 gate 影響行為時，應記錄穩定 reason。

1decision := DecideRealtime(features, caps)
2logger.Info("realtime decision",
3    "feature", "realtime_push",
4    "enabled", decision.Enabled,
5    "reason", decision.Reason,
6)

這能回答「功能為什麼沒有走即時推送」這類問題。Reason 應是小集合，不要塞完整錯誤字串。

【測試】開與關兩條路徑都要測

Feature gate 測試的核心規則是同時測啟用與停用路徑。只測預設值很容易讓另一條路徑壞掉。

停用路徑：

 1func TestHandleRealtimeExportFeatureDisabled(t *testing.T) {
 2    req := httptest.NewRequest(http.MethodPost, "/export", nil)
 3    rec := httptest.NewRecorder()
 4
 5    handler := HandleRealtimeExport(Features{RealtimePush: false})
 6    handler.ServeHTTP(rec, req)
 7
 8    if rec.Code != http.StatusNotImplemented {
 9        t.Fatalf("status = %d, want %d", rec.Code, http.StatusNotImplemented)
10    }
11}

啟用路徑：

 1func TestDecideRealtimeEnabled(t *testing.T) {
 2    decision := DecideRealtime(
 3        Features{RealtimePush: true},
 4        Capabilities{SupportsStreaming: true},
 5    )
 6
 7    if !decision.Enabled {
 8        t.Fatalf("realtime should be enabled, reason %q", decision.Reason)
 9    }
10}

環境變數解析應單獨測 LoadFeaturesFromEnv。功能測試應直接傳入 Features，不要依賴全域環境狀態。

本章不處理

本章先處理服務內部的 gate 行為邊界；遠端 feature flag 平台與灰度流程，會在下列章節再往外延伸：

Backend：部署平台與網路入口

和 Go 教材的關係

這一章承接的是 composition root、handler boundary 與 runtime gate；如果你要先回看語言教材，可以讀：

小結

Feature gate 是生產操作工具，也是程式設計邊界。好的 gate 會集中載入、轉成 capability、定義降級策略、輸出穩定 reason，並同時測試開與關兩條路徑。它控制的是行為合約，不只是把新程式碼藏在 if 後面。

5.C5 Miro：Managed EKS 遷移

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是說明平台遷移也會改變團隊職責分工。

觀察

Miro 從自維運 Kubernetes 遷移到 managed EKS。遷移前的狀態是平台團隊大部分精力花在叢集本身的運維——control plane 升級、node AMI 維護、etcd 備份、安全修補。這些工作是必要的，但它們跟「讓開發者更快交付功能」沒有直接關聯。

遷移後 managed EKS 接管了 control plane 運維。平台團隊的工作重心從「維持叢集跑起來」轉向「定義 release flow、observability convention、developer experience」。這個轉變是 managed 平台的組織層面價值，技術層面的價值（省維運、自動升級）反而是次要的。

判讀

平台託管化的價值在讓團隊把心力從底層維護轉到交付效率與可靠性策略。這個判讀成立的前提是組織主動重新定義職責邊界——managed 平台不會自動帶來組織轉型，它只是移除了一類維運負擔。如果平台團隊在遷移後沒有重新定義職責，很容易繼續用舊模式工作（只是工作量少了），錯失把省下的精力轉到更高價值工作的機會。

另一個判讀是 managed 平台引入新的 grey zone。control plane 由供應商管理，但 cluster-internal 元件（CNI、ingress controller、service mesh、cluster DNS）的 ownership 需要顯式界定。Miro 的經驗顯示這些 grey zone 若不在 day-1 處理，後續會在事故時暴露——「以為供應商在管」跟「供應商認為客戶在管」的認知差距，會讓故障排查繞圈。

策略

先定義遷移後的平台責任邊界：列出四層責任矩陣——cluster 層（供應商管）、cluster-internal 層（platform team 管）、application 層（service team 管）、跨層議題（協作）。每層有明確 owner，避免 grey zone。責任矩陣的詳細結構見 5.7 Managed 平台跟團隊職責邊界。
以自動化流程取代手動平台操作：遷移前的手動操作（node 升級、cert rotation、backup restore）在 managed 平台上由供應商或 IaC 接管。剩餘的手動操作（namespace provisioning、resource quota 設定、network policy review）也要自動化或流程化，避免依賴個人經驗。
將 incident 與 release policy 接回平台治理：managed 平台的 incident 跟 self-managed 不同——control plane 故障由供應商處理，但供應商的 incident 訊號要進入自家的 incident timeline。release policy（升級節奏、canary 比例、rollback 條件）在 managed 平台上仍是 platform team 的責任。

回退判讀

從 managed 回退到 self-managed 的成本極高（要重建 control plane 運維能力），因此這類遷移的回退策略通常是「在 managed 平台內回退」而非「回到 self-managed」。具體做法是保留舊叢集一段時間作為 fallback，但同時接受「回到 self-managed 不是選項」的設計假設。

下一步路由

回 5.1 container runtime 看遷移後 runtime 層的變化驗證。回 5.7 managed 平台與職責邊界看職責矩陣的完整結構。回 5.5 平台與入口威脅建模看遷移期攻擊面變動。

引用源

Miro on AWS containers and EKS（原始 URL 已失效，內容基於骨架與通用工程知識擴充）

Envoy

Fri, 01 May 2026 00:00:00 +0000

Envoy 是 CNCF graduated 的 service proxy、承擔三個責任：cloud-native L7 + L4 proxy（HTTP/1.1 + HTTP/2 + HTTP/3 + gRPC）、xDS dynamic config（不需 reload）、observability 內建（access log / stats / tracing）。設計取捨偏向「dynamic config + advanced traffic management + filter chain extensibility」、是 Istio / Linkerd2-proxy / AWS App Mesh / Envoy Gateway 的底層實作。

對「service mesh data plane、API Gateway、advanced traffic management、gRPC / HTTP/2 / HTTP/3」這條路徑、Envoy 是首選。

本章目標

讀完本章後、你應該能：

跑起 Envoy + 基本 reverse proxy config
用 xDS API 動態更新 config（不 reload）
配置 listener / route / cluster / filter chain
看懂 Envoy access log + stats + admin endpoint
評估 Envoy 直接用 vs 用 Istio / Envoy Gateway 抽象

最短路徑：5 分鐘把 Envoy 跑起來

1# 1. 啟動 Envoy
2docker run -d --name envoy-demo \
3  -p 9901:9901 -p 10000:10000 \
4  -v "$(pwd)/envoy.yaml:/etc/envoy/envoy.yaml:ro" \
5  envoyproxy/envoy:v1.31-latest

Static config 範例（envoy.yaml）：

 1static_resources:
 2  listeners:
 3  - name: listener_0
 4    address: { socket_address: { address: 0.0.0.0, port_value: 10000 } }
 5    filter_chains:
 6    - filters:
 7      - name: envoy.filters.network.http_connection_manager
 8        typed_config:
 9          "@type": type.googleapis.com/envoy.extensions.filters.network.http_connection_manager.v3.HttpConnectionManager
10          stat_prefix: ingress_http
11          route_config:
12            virtual_hosts:
13            - name: backend
14              domains: ["*"]
15              routes:
16              - match: { prefix: "/" }
17                route: { cluster: service_backend }
18          http_filters:
19          - name: envoy.filters.http.router
20            typed_config:
21              "@type": type.googleapis.com/envoy.extensions.filters.http.router.v3.Router
22  clusters:
23  - name: service_backend
24    connect_timeout: 5s
25    type: STRICT_DNS
26    load_assignment:
27      cluster_name: service_backend
28      endpoints:
29      - lb_endpoints:
30        - endpoint: { address: { socket_address: { address: app, port_value: 8080 } } }
31admin:
32  address: { socket_address: { address: 0.0.0.0, port_value: 9901 } }

1# 3. 驗證 + admin endpoint
2curl http://localhost:10000                    # proxy 路徑
3curl http://localhost:9901/stats               # metrics
4curl http://localhost:9901/clusters            # upstream health
5curl http://localhost:9901/config_dump         # running config

日常操作與決策形狀

Envoy config 結構

子議題：

Listener：listen address + filter chain
Route：path matching + cluster routing
Cluster：upstream endpoint discovery + load balancing
Endpoint：實際 backend
對應 5.3 LB Contract

Static vs Dynamic config

子議題：

Static：YAML 寫死、適合 dev / debug
Dynamic（xDS）：control plane push config
xDS protocol：LDS / RDS / CDS / EDS / SDS
對應 control plane：Istio / Gloo / 自寫

Admin endpoint

子議題：

/stats / /clusters / /config_dump / /listeners / /server_info
runtime config（/runtime_modify）
對應 observability 跟 debug
對應指令：curl admin:9901/clusters

進階主題（按需閱讀）

xDS API 細節

子議題：

LDS / RDS / CDS / EDS / SDS / RTDS / ECDS
ADS（Aggregated Discovery Service）統一通道
Delta xDS（incremental）vs SOTW（State of the World）
對應案例 5.C7 Airbnb Istio

Filter chain（HTTP / network filter）

子議題：

HTTP filters：router / cors / fault / rate_limit / ext_authz / jwt_authn
Network filters：tcp_proxy / mongo_proxy / redis_proxy
自訂 filter（C++ / WebAssembly）
對應 security 模組（ext_authz）

Observability 內建

子議題：

Access log（structured / configurable format）
Stats（envoy 內建 metrics）
Distributed tracing（Jaeger / Zipkin / Datadog / OpenTelemetry）
對應 04 observability

Envoy Gateway / Emissary / Gloo

子議題：

Envoy Gateway：Gateway API native（CNCF project）
Emissary（前 Ambassador）：K8s ingress + API Gateway
Gloo：Solo.io 商業 Envoy 整合
選型判讀：純 K8s ingress → Envoy Gateway；商業支援 → Gloo / Emissary

Service mesh data plane

子議題：

Istio：control plane + Envoy sidecar
Linkerd2：自家 Rust proxy（不是 Envoy）— Linkerd2-proxy
Cilium Service Mesh：eBPF + Envoy
對應 5.C7 Airbnb Istio governance

WebAssembly extension

子議題：

WASM filter：跨語言寫 Envoy extension（Rust / AssemblyScript / Go）
跟 Lua（OpenResty 模式）對比
適合：custom auth / rate limit / metric collection

Advanced traffic management

子議題：

Retry / Circuit breaker / Outlier detection
Timeout（connect / request / idle）
Traffic split（canary / blue-green / mirror）
Rate limit（local + global）

排錯快速判讀

Config sync 失敗

操作原則：xDS control plane 連不上 / config 格式錯。判讀：admin /stats 看 update_failure、/config_dump 看當前 config。

Listener config error

操作原則：YAML 格式錯、port 衝突、bind address 錯。判讀：startup log + admin /listeners。

Cluster endpoint 全 unhealthy

操作原則：health check 失敗、SDS 沒提供 cert、network 不通。判讀：admin /clusters 看 endpoint state。

Circuit breaker trip

操作原則：upstream 失敗率 > threshold、Envoy 主動切。判讀：admin /stats 看 cb 相關 metric。

Tracing missing spans

操作原則：tracer config + sampler rate 設錯、context propagation 不對。對應 04 observability OTel。

何時改走其他服務

需求形狀	改走
配置簡單 / 小場景	nginx
Cloud-native auto-discovery	Traefik
AWS managed	AWS ELB
K8s ingress only	Ingress-nginx / Envoy Gateway / Gateway API
Service mesh control plane	Istio / Linkerd / Consul Connect
Edge proxy / CDN	Cloudflare / Fastly / CloudFront

不在本頁內的主題

完整 Envoy YAML schema reference
xDS protocol binary format
各 Istio / Gloo / Emissary 細節（見各自 docs）
Envoy C++ filter 開發

案例回寫

直接相關案例

案例	主討論議題
5.C7 Airbnb Istio governance	Envoy-based service mesh 在大規模叢集的分批升級與可重播流程

跨 vendor 對照

案例	對 Envoy 的對應
5.C1 Tradeshift self-managed → EKS	Tradeshift 選 Linkerd（非 Envoy）做切流、對照 Envoy/Istio 的取捨
5.C9 cutover without drain	Envoy outlier detection / circuit breaker / draining listener 是回退面
5.C10 規模對照	大規模 / 複雜 traffic / 多 DC → Envoy mesh 才能撐住協同節奏

待補 Envoy 案例：Lyft 自家 Envoy production 案例、Stripe / Reddit 用 Envoy 邊緣案例、Envoy Gateway 早期 adopter。

下一步路由

上游概念：5.3 LB Contract
平行 vendor：nginx、Traefik
下游能力：04 observability OTel、07 security

5.5 平台與入口威脅建模（Threat Modeling）

Fri, 24 Apr 2026 00:00:00 +0000

平台與入口威脅建模的核心責任是把部署平台的弱點維持在可操作的概念層。本章的輸出是平台問題地圖、案例對照與交接條件，讓實作前決策可先對齊，避免進入 YAML / unit file / LB rule 前就已經漏掉攻擊面。

服務環節問題地圖

平台弱點盤點的第一層是把服務環節跟攻擊面對齊。同一個服務交付路徑上、入口、生命週期、設定、交付節奏各自有不同失分模式。

環節	主要問題	注意事項	優先案例
入口暴露面	入口分級與實際可達範圍不一致	入口清單與責任鏈要先對齊	MOVEit 2023
生命週期訊號	readiness、draining、shutdown 節奏不一致	平台合約要先定義再驗證	Ivanti 2024
設定與密鑰下發	設定漂移與權限擴張同時發生	高風險設定要進 release gate，並分離 management plane	F5 BIG-IP 2023
交付切換節奏	回滾與切換條件不清晰	先定停損條件再定交付速度	TeamCity 2024

入口暴露面

入口暴露面的主要弱點判讀是「實際可達範圍是否超過設計意圖」。容器化、service mesh、ingress controller 升級、新增 LoadBalancer 都可能無意中把內部服務暴露到公網。入口清單跟責任鏈先對齊、能避免發版本就改變了攻擊面。升級流程跟回退窗口設計見 5.7 平台元件升級的可重播流程。

入口暴露面的盤點要區分三類入口，各自有不同的失分模式：

設計意圖內的入口（Ingress / LoadBalancer Service / API Gateway）：這些入口有明確 owner、有 WAF / TLS 保護。弱點在於設定漂移——port 範圍擴大、路由規則放寬、wildcard host 引入。盤點方式是定期比對實際 Ingress 規則與設計意圖。
隱性入口（NodePort、hostNetwork pod、debug endpoint、metrics endpoint）：這些入口在設計時不被視為外部可達，但在特定網路拓樸下可能從外部存取。NodePort 預設 range 30000-32767 在某些雲端 security group 設定下可能對外開放。metrics endpoint（/metrics、/debug/pprof）常不帶認證、暴露服務內部狀態。
暫態入口（kubectl port-forward、臨時 LoadBalancer、tunnel 測試）：開發或除錯時臨時打開的入口，使用後忘記關閉。這類入口沒有 WAF、沒有 TLS、沒有 audit log，是攻擊面中最難盤點的部分。

Tunnel 形態的入口（cloudflared、Tailscale Funnel）有獨立的弱點盤點框架，見 5.10 Outbound Tunnel 入口的認證疊法段。

生命週期訊號

生命週期訊號的弱點聚焦於脆弱窗口期被利用：readiness 過早通過、shutdown 階段仍在處理 in-flight request、drain 視窗內接收新請求，都會把短暫的脆弱窗口拉長。

脆弱窗口的判讀要跟 5.6 Platform Lifecycle Contract 的生命週期狀態對齊：

startup → readiness 窗口：服務正在初始化、依賴尚未驗證、安全中介軟體（WAF sidecar、auth proxy）可能還沒就緒。此時如果 readiness 過早通過讓流量進來，請求可能繞過安全層直接打到後端。
readiness → drain 窗口：正常服務狀態，弱點集中在 readiness 條件太鬆——只檢查 port 可達但 auth middleware 沒初始化。
drain → shutdown 窗口：服務正在收斂，此時安全元件（rate limiter、WAF）可能已停止更新規則但仍在處理請求。攻擊者若在 drain 窗口送入惡意請求，安全元件可能無法正常攔截。

設定與密鑰下發

設定與密鑰下發是最容易被忽略的維度。Image 沒變但 config / secret 變了、權限因 RBAC 漂移擴張、feature flag 在 production 偷偷開啟未經 review 的新行為。這些變更不走 release gate 的話，攻擊者有大量低噪音入口可以利用。

設定變更的弱點盤點要分兩個方向：

顯式設定變更（ConfigMap、Secret、feature flag 更新）：變更本身是可追蹤的，弱點在於 review 機制是否涵蓋高風險設定。payment endpoint、auth provider URL、rate limit 閾值、CORS 允許來源——這些設定的變更影響跟程式碼變更等量，應走同等 review 流程。設定變更的 review 與 rollout 策略見 5.7 Config Boundary。

隱式設定漂移（RBAC 逐步放寬、network policy 例外累積、service account 權限擴張）：這類變更是多次小修改累積的結果，單次變更看起來合理但累積後超出安全邊界。盤點方式是定期用 policy-as-code（OPA/Gatekeeper、Kyverno）掃描 cluster 內的 RBAC binding、network policy、pod security 設定，跟 baseline 比對偏移程度。

交付切換節奏

交付切換節奏的弱點判讀是「在不穩定窗口期、系統是否還有防禦能力」。Canary / rollout / rollback 期間 5xx 升高、connection 重建、auth 短暫失敗，會掩蓋同期間的攻擊訊號。沒有先定停損條件就推交付速度、是把切換期變成攻擊期的常見做法。

交付窗口期的防禦能力退化有兩個機制：

訊號淹沒：rollout 本身產生的短暫錯誤（5xx spike、reconnect、auth retry）跟攻擊訊號長得一樣。事故團隊在切流期把所有異常歸因於部署變更，攻擊者剛好利用這個注意力盲區。對策是把切流期 alert 跟安全 alert 分流到不同 channel，安全訊號走獨立通道、由 security on-call 獨立判讀。

防禦元件版本不一致：canary 期間新舊版本同時在線，WAF 規則、rate limit 設定、auth middleware 版本可能不同。攻擊者可以針對舊版本的已知弱點送流量，利用 canary 期間的路由特性讓流量到達舊版本。對策是把安全元件的更新跟應用版本解耦——WAF 規則、rate limit 是平台層設定，應在所有版本一致生效。

案例對照表（情境 → 判讀 → 注意事項 → 路由章節）

情境	判讀	注意事項	路由章節
外網可達入口在發版後增加	入口分級與交付節奏存在脫鉤	入口盤點要成為交付前條件	5.3 Load Balancer Contract
readiness 通過但實際流量錯誤率上升	生命週期合約與流量模型不一致	探針、draining、shutdown 要同批驗證	6.5 失敗模式預判
設定異動與異常事件同時出現	設定漂移可能已跨越安全邊界	設定審查與責任追蹤要同步維護	8.5 復盤與改進追蹤
切流期間入侵告警被淹沒	rollout 噪音掩蓋攻擊訊號	切流期 alert 分流、攻擊訊號獨立通道	4.8 訊號治理閉環

「外網可達入口在發版後增加」是平台變更弱點盤點的頭號議題。Ingress class 換、Service type 改、LB 規則重組都可能讓原本內部服務獲得外部 IP。把入口盤點放進 release pre-check、能讓這類變更在合併前被擋下。

「readiness 通過但實際流量錯誤率上升」揭露 readiness probe 設計失誤的弱點面向。Probe 只回 200 OK 不代表服務可承受真實流量、攻擊者剛好可以在這個窗口送高頻 request 看是否壓垮服務。Readiness 反映依賴就緒條件而非單一探針成功、能縮短這個窗口。

「設定異動與異常事件同時出現」是 config rollout 的弱點風險。Config 變更後出現異常事件、可能是設定本身的問題、也可能是攻擊者剛好利用了設定窗口。Config 審查跟責任追蹤同步維護、能讓事後復盤分辨兩者。

「切流期間入侵告警被淹沒」是新加入的議題。切流產生大量短暫 5xx、reconnect、auth retry、可能淹沒真正的攻擊訊號。把切流期 alert 跟一般 alert 分流、攻擊訊號走獨立通道、能避免攻擊在切流窗口下被忽略。

平台遷移期的攻擊面變動

對應 5.C1 / 5.C4 / 5.C5 揭露的遷移分段切換流程、本段從弱點盤點角度補充其攻擊面變動風險（case 庫未直接揭露此角度、屬通用工程經驗）。遷移期的職責邊界重訂見 5.7 Managed 平台跟團隊職責邊界、弱點盤點跟治理視角合用才完整。

平台遷移（self-managed → managed、單 cluster → 多 cluster、舊版本 → 新版本）會短期擴大攻擊面、然後逐步收斂。遷移期顯式管理攻擊面變化、避免雙軌期變成攻擊面雙倍期。

可重複套用的弱點判讀：

盤點雙軌期入口：舊平台跟新平台的入口清單分別列出、確認新平台不繼承舊平台已知漏洞、舊平台的廢棄入口確實關閉。
identity / credential 重新對位：service account、API token、TLS cert 在新平台是否走新的 rotation flow、舊平台的 credential 是否在切換完成後撤除。
observability 對應更新：新平台的 audit log、access log、security event 是否進入同一個 SIEM / 告警通道、避免遷移期內攻擊訊號掉到觀測缺口。
回退路徑的攻擊面評估：回退到舊平台時、舊平台是否仍處於最新 patch 狀態、回退本身會不會把已修補的漏洞重新引入。

遷移計畫要把資安 review 列為 gate 之一、讓遷移期攻擊面變動進入可見治理流程。沒有這道 gate、遷移期容易被當成純技術項目處理、漏掉攻擊面的隱性擴大。

到實作前的最後一層

弱點盤點在概念層回答的是平台風險判讀與交接節奏。當討論進入 Kubernetes 欄位、LB 規則、系統服務參數或腳本配置時，就代表已進入實作層。

實作層的防護驗證跟概念層分工：實作層看具體 YAML / config / rule 是否符合 hardening baseline、概念層看交付路徑跟責任鏈是否完整。兩者都做才能讓平台變更的攻擊面在 release 前可見。

進實作層後接 07 資料保護模組的具體 hardening 章節、跟 7.3 入口治理與伺服器防護對齊入口分級。

7.5 Kubernetes、systemd 與 load balancer 合約

Wed, 22 Apr 2026 00:00:00 +0000

部署平台合約的核心責任是讓 Go 服務的生命週期和外部調度系統對齊。程式內部需要清楚的 context、shutdown timeout、readiness、health / liveness 與 memory limit；Kubernetes、systemd、load balancer 或雲端平台則決定這些訊號何時被觸發與如何被解讀。

本章目標

學完本章後，你將能夠：

理解 shutdown、readiness 與 connection draining 的順序
看懂平台 timeout 對 Go server 的影響
分辨 health 與 readiness 的不同責任
把 memory limit 與 Go runtime 的資源管理接在一起
讓部署平台和程式彼此遵守同一份合約

前置章節

後續撰寫方向

SIGTERM、shutdown timeout、readiness false 與 connection draining 的順序。
Kubernetes terminationGracePeriodSeconds 與 Go http.Server.Shutdown 如何配合。
Load balancer idle timeout 如何影響 WebSocket heartbeat 參數。
Container memory limit、Go memory limit 與 OOM killer 之間的關係。
systemd restart policy 與 health endpoint 的責任分工。

【觀察】平台會主動改變服務生命週期

Go 程式不會在真空裡執行。Kubernetes、systemd、load balancer、container runtime 都會影響服務何時接新請求、何時開始收尾、何時被強制終止。這表示程式不只要「能跑」，還要能跟平台協調。

常見的生命週期訊號有：

SIGTERM
readiness false
HTTP shutdown
connection draining
memory pressure

【判讀】health 與 readiness 有不同合約

health 通常表示服務自己還活著，readiness 則表示它是否適合接新流量。

health 可以用來讓平台知道 process 還活著。
readiness 可以用來讓 load balancer 停止送新請求。

如果兩者混在一起，部署時就容易出現「服務還沒收尾就被塞新流量」或「其實還能接流量卻被誤判下線」的問題。

【策略】shutdown 應該是可預期流程

典型的 shutdown 順序是：

接收到停止訊號。
先把 readiness 關掉。
停止接新流量。
讓現有 request / worker / websocket 收尾。
超時後強制結束。

這個順序能讓平台有時間把流量移走，也讓應用有時間清理資源。

【執行】資源限制要和 runtime 觀念一起看

container memory limit 不只是部署平台的事，也會影響 Go runtime 的行為。當可用記憶體變少時，應用更需要控制：

goroutine 數量
buffer 大小
cache 體積
in-memory queue 長度

如果這些沒有限制，平台的 OOM killer 可能會比你的 graceful shutdown 先來。

【延伸】平台合約要被測試

部署平台合約需要在測試或預備環境驗證。至少要確認：

shutdown 時 request 是否停止接入
worker 是否有機會收尾
WebSocket 是否有 close path
health 與 readiness 是否分工清楚

本章不處理

本章不會完整教 Kubernetes 或 systemd 操作。重點是讓 Go 程式設計能清楚暴露平台需要的生命週期訊號。

和 Go 教材的關係

這一章承接的是 Go 的 shutdown 與 runtime 限制；如果你要先回看語言教材，可以讀：

模組五：部署平台與網路入口

Wed, 22 Apr 2026 00:00:00 +0000

部署平台模組的核心目標是說明服務如何和外部調度、網路入口與資源限制對齊。語言教材會處理 graceful shutdown、health / readiness 檢查與 signal handling；本模組負責平台設定與操作語意。

Vendor / Platform 清單

實作時的常用選擇見 vendors — T1 收錄 Kubernetes / Docker / systemd / nginx / Envoy / AWS ELB / Terraform / Traefik / Consul，每個 vendor 有定位、適用場景、取捨與預計實作話題的骨架。

Deep article（vendor 自身的配置、故障、容量）跟 migration playbook（跨 vendor 遷移流程）的撰寫進度見 vendors/ 的「內容覆蓋進度」段。

暫定分類

分類	內容方向
Container	image build、Runtime Config、Resource Limit
Kubernetes	deployment、pod lifecycle、probe、rolling update
systemd	service unit、restart policy、signal、journal
Load balancer	idle timeout、draining、health check、sticky session
Service Registry	實例如何註冊、更新與摘除
Service discovery	Internal Endpoint discovery、DNS
Config rollout	設定如何安全下發到正在運作的服務實例
Runtime Config	environment variable、Secret Management、Feature Flag
CDN 與邊緣分發	邊緣快取、origin protection、purge 與 invalidation、stale-while-revalidate

建議閱讀順序

章節編號是主題分類，不是閱讀順序。建議先讀 5.6 Platform Lifecycle Contract 理解 startup / readiness / liveness / shutdown / drain 的責任分類，再按 5.1 → 5.2 → 5.3 → 5.4 進入平台實作層。5.5（威脅建模）和 5.7（boundary 分類）適合讀完 5.1-5.4 後做概念整理。5.8（實作示範）是 5.2 + 5.3 的操作化，適合最後讀。

選型入口

部署平台選型的核心判斷是服務如何被啟動、更新、接流量、擴容與停止。當問題集中在 container image、rolling update、health check、load balancer、service registry、service discovery 或 Runtime Config 時，應先評估部署平台能力。

Container 解決服務包裝與 runtime 依賴；Kubernetes 解決多 instance 調度、probe、rolling update 與 resource limit；systemd 適合單機或 VM 上的 service lifecycle；load balancer 解決流量入口、draining、idle timeout 與 health check；service registry 解決實例狀態維護；service discovery 解決服務彼此如何找到 Internal Endpoint；Runtime Config 解決環境差異、Secret Management 與 Feature Flag。

接近真實網路服務的例子包括發版時 request 失敗、pod 尚未 ready 就接流量、長連線 shutdown 清理不完整、服務擴容後 Internal Endpoint 更新延遲。這些場景的共同問題是程式與平台合約，因此本模組會先處理生命週期、流量入口與平台訊號。

與語言教材的分工

語言教材處理程式內的生命週期與訊號。Backend deployment 模組處理 Kubernetes、systemd、load balancer 與 container 平台如何觸發、解讀與限制這些訊號。

與資安概念層的交接

本模組承接 07 模組的概念判讀，並在服務實體層落地。交接基線如下：

來自 7.3 入口治理與伺服器防護：承接入口分級、管理平面分離、修補窗口節奏。
來自 7.5 傳輸信任與憑證生命週期：承接 TLS/mTLS 與憑證佈署節奏。
來自 7.6 秘密管理與機器憑證治理：承接 runtime secret 與機器憑證交付模型。

這個交接讓部署模組聚焦實體配置與平台語意，同時保持與資安判讀一致。

案例驅動讀法

部署平台案例的核心讀法是先確認切換單位（服務、流量、叢集），再定義可回退邊界。

案例	先看章節	回寫目標
5.C1 Tradeshift：self-managed K8s -> EKS	5.2、5.3	把零停機遷移拆成分批切流策略
5.C2 Condé Nast：平台整併	5.2	把多叢集治理收斂成單一控制面
5.C3 Orbitera：managed K8s migration	5.1、5.4	把平台重置與服務連續性目標綁定

跨語言適配評估

部署平台使用方式會受語言的啟動時間、process model、signal handling、thread/task lifecycle、runtime memory behavior 與 liveness 支援影響。啟動慢的 runtime 要調整 readiness 與 rollout 節奏；長連線或背景 worker 要支援 draining；使用 GC 的 runtime 要觀察 memory limit 與 pause 行為；多 process 模型要確認 signal、log 與 metrics 如何聚合。

章節列表

章節	主題	關鍵收穫
5.1	container 與 runtime	規劃 image、資源限制與啟動行為
5.2	Kubernetes 部署策略	了解 deployment、probe、rolling update
5.3	Load Balancer Contract	處理 idle timeout、draining 與 health check
5.4	service discovery	讓服務能穩定註冊與發現彼此
5.5	平台與入口威脅建模（Threat Modeling）	用隱藏入口、設定漂移與切換風險盤點交付平台
5.6	Platform Lifecycle Contract	分辨 startup、readiness、liveness、shutdown 與 drain 的責任
5.7	Traffic、Config 與 Control Plane Boundary	拆分流量、設定、secret、service discovery 與管理面邊界
5.8	Deployment Rollout with Drain and Rollback 實作示範	以 checkout service 示範 canary evidence、drain signal 與 rollback decision
5.9	邊緣分發與靜態資源（CDN / Origin Protection）	把 CDN 視為網路入口層，理解三層快取分工、origin protection、purge 操作模型
5.10	Outbound Tunnel 入口與生命週期（cloudflared / Tailscale）	把反向隧道視為一種入口形態、理解就緒對齊、network 層故障與認證疊法
5.C	轉換案例正文	把平台遷移、整併與流量切換做成可回寫案例

反例與規模對照入口： 5.C9 反例 / 5.C10 對照。

回退判讀寫法見 0.C4 回退判讀寫法，部署案例要優先保留切流批次、draining、連線生命週期與回退時間。

觀念網路補完方向

部署平台章節下一輪的核心責任是把平台能力寫成服務契約。現有章節已經有 container、Kubernetes、load balancer 與 service discovery，但還需要補上 runtime contract、lifecycle contract、traffic contract、rollout contract 與 control-plane contract 的關係，讓讀者知道部署是一組流量、連線、設定、資源與回退條件的連續切換。

補完方向	需要回答的問題	主要路由
Runtime contract	image、entrypoint、runtime config 與 resource limit 是否可預期	container、runtime config
Lifecycle contract	startup、readiness、liveness、shutdown 與 drain 是否對齊	readiness、draining
Traffic contract	load balancer、timeout、sticky session 與 routing 是否有明確邊界	load balancer contract、request routing
Rollout contract	canary、rolling update、config rollout 與 rollback 是否可分批	config rollout、6.8
Control-plane contract	service discovery、secret delivery 與管理面是否被保護	management plane、7.3

這些方向要用部署平台自己的服務壓力展開。短 request API、長連線服務、背景 worker、control plane config push 與多租戶平台的生命週期不同，寫作時要分別處理它們的 rollout 與 drain 條件。

知識卡補強方向

部署模組的 knowledge card 缺口集中在「平台契約」與「切換完成訊號」。已有 readiness、draining、config rollout 與 rollback strategy 可以作為第一批錨點。

下一批候選卡片包括 startup probe、drain completion、rollout batch、rollback window、config freeze、environment protection 與 deployment contract。這些卡片要讓讀者能分辨「服務已啟動」和「服務可安全接流量」分屬不同責任。

實作探討入口

部署平台的第一條實作路徑是 5.8 Deployment Rollout with Drain and Rollback（實作示範）。這篇以 checkout service rollout 為例，說明 rollout plan、canary evidence、drain signal、rollback condition 與 incident decision route 如何一起成立。

這條路徑的前置引用應該是 5.2 Kubernetes deployment、5.3 load balancer contract、5.C9 反例、6.8 Release Gate 與 8.19 Incident Decision Log。完成後可依 Backend 學習路線進入下一條服務路徑。

部署路徑的 artifact 對齊重點是「每一批切換都能被觀測、被放行、被回退」。對 4.20 要交 Source/Time range/Query link/Owner/Data quality，並覆蓋 per-version error rate、latency、drain completion 與 reconnect 訊號；對 6.8 要交 Gate decision/Checks/Stop condition/Rollback window/Owner，呈現 canary 批次與停損規則；對 8.19 要交 Timestamp/Decision/Context/Evidence/Owner/Expected effect/Rollback condition，記錄 freeze、回退與重啟切流的決策條件與時間序列。

跨分類引用

→ infra 模組五：核心服務上 IaC：ECS / EKS 的 IaC 描述（subnet 接線、IAM task role、映像版本解耦）是部署平台的地基層

6.5 跨進 production 的 routing 中樞

Tue, 12 May 2026 00:00:00 +0000

模組六前五章建立了個人 dev 視角的 LLM 安全判讀（6.0 供應鏈、6.1 伺服器綁定、6.2 tool use 權限、6.3 prompt injection、6.4 跨雲端資料邊界）、framing 的根基是 0.7 隱私資料流原理。當工作流從個人 dev 跨進團隊共用、再跨進 production 服務時、安全議題的 framing 跟控制機制都會升級。升級的軸對應 backend 既有卡片：attack-surface、blast-radius、trust-boundary、tenant-boundary、iam 等。本章是這兩個跨越的 routing 中樞、把每個議題在 production 場景下的對應位置（backend/07 對應卡片）整理出來、避免讀者在升級階段「不知道下一步該讀什麼」。

讀完本章後、你應該能判讀自己當前處在三層哪一階、要跨到下一階時需要補哪些議題、對應到 backend/07 哪些卡片。

本章目標

區分個人 dev、團隊共用、production 三層 LLM 部署的安全議題差異。
知道從個人 dev 跨到團隊共用時、需要補哪些控制。
知道從團隊共用跨到 production 時、需要補哪些控制。
認識每層演化對應的 backend/07 卡片清單。
知道何時該停留在當前層、何時該主動升級。

三層演化的判讀軸

1個人 dev（本模組前五章）
2   ↓
3團隊共用（家裡 / 小團隊 / 內部部署）
4   ↓
5production 服務（對外服務 / SaaS / B2B）

三層的核心差異：

維度	個人 dev	團隊共用	production 服務
使用者數	1	5 ~ 50	50+ / 對外不限
信任假設	自己信自己	同事互信、訪客不信	全部不信、用 IAM 控制
資料邊界	本機 user account	內網	多租戶、明確隔離
失誤後果	自己承擔	影響少數同事	影響大量用戶 / 法律責任
控制機制需求	基本配置 + git track	+ auth + log + 政策	+ IAM + audit + IR + 合規
對應的時間 / 預算	小時級	天級	週 / 月級、需要專人或團隊

關鍵原則：控制機制應該跟需求對齊、不該過度設計也不該不足。個人 dev 不需要 SOC 2 audit、production 不能只靠 git track。

個人 dev → 團隊共用：要補什麼

從個人 dev 跨到團隊共用、典型的觸發場景：

家裡跑模型給家人 / 室友用
小團隊共用一台 LLM server
公司內部部署、有 5 ~ 50 個工程師用

需要補的控制（在前五章的基礎上）：

議題	從個人 dev 的什麼演化而來	對應的補強	backend/07 對應卡片
身份識別	自己一人 → 多人共用	加 auth、知道誰送了什麼 prompt	identity-access-boundary
入口治理	bind 到 LAN 加 API key	反代 + TLS + rate limit	entrypoint-and-server-protection
傳輸信任	內網 HTTP 偶爾 OK	內網全程 HTTPS、TLS 憑證管理	transport-trust-and-certificate-lifecycle
秘密管理	dotfile 環境變數	集中 secret store（Vault / SSM / Doppler）	secrets-and-machine-credential-governance
供應鏈	自己抓 GGUF / npm package（見 6.0）	內部 mirror、固定 version、定期 audit	supply-chain-integrity-and-artifact-trust
政策	自己腦中的判讀	寫明 acceptable use、敏感內容指引	（結合各章的政策性章節）

團隊共用階段的常見 anti-pattern：

把個人 dev 的 dotfile config 直接複製到團隊 server：API key、log 路徑、reset 機制都不對。
依賴單一管理員口頭傳遞政策：沒寫下來、新成員不知道、人離職就失傳。
跳過 auth 直接用「公司內網本來就安全」當理由：內網設備有訪客、有實習生、有 BYOD、有合作廠商；零信任的最低版本仍要做。

團隊共用 → production：要補什麼

從團隊共用跨到 production 服務、典型的觸發場景：

把內部 LLM 服務開放給外部客戶（B2B）
做 SaaS-like LLM API 對外賣
把 LLM 嵌入產品給終端用戶用

需要補的控制（在前面兩層的基礎上）：

議題	從團隊共用的什麼演化而來	對應的補強	backend/07 對應卡片
多租戶隔離	共用 server 跨同事 → 跨用戶	KV cache / log / model 訪問權的多租戶隔離	llm-multi-tenant-isolation
deployment 供應鏈	內部 mirror → 對外責任	模型 release 流程、簽章、回退機制	llm-deployment-supply-chain
agent prompt injection 後果	IDE injection（6.3）→ agent 場景（4.4）	tool spec 設計、限制 agent loop、人為 review checkpoint	llm-prompt-injection-in-agent
log / PII 治理	簡單 access log → 完整 prompt log	log 累積的 prompt 內容、PII 偵測與過濾、保留期限	llm-log-and-pii-governance
偵測訊號	看 log → 主動偵測	LLM agent 異常行為的訊號設計、tool use 異常模式	llm-as-service-detection-coverage
Workload Identity	server 自己持 API key → workload IAM	每個 workload 一個身份、可 audit	workload-identity-and-federated-trust
偵測平台	手動觀察 → SIEM	集中偵測、alert 系統	detection-coverage-and-signal-governance
Incident response	重啟解決 → IR 流程	IR 演練、escalation、post-mortem	incident-case-to-control-workflow
合規	不需要 → 對外服務需要	GDPR / HIPAA / SOC 2 等	data-protection-and-masking-governance

production 階段不是「把團隊共用放大」、是「另一個複雜度等級」。多數議題從 backend/07 既有卡片開始讀、LLM-specific 議題在 backend/07 的 LLM 相關章節（llm-*.md）補充。

何時該停留在當前層

不是所有工作流都需要升級。停留在當前層的合理判讀：

當前層	該停留的徵兆	升級的徵兆
個人 dev	只有自己用、不分享、沒對外暴露需求	開始有人想連你的 server / 想做 demo 給朋友 / 想分享給家人
團隊共用	5 ~ 50 人的內部使用、不對外賣、不涉及客戶 PII	客戶要連 / 對外 SLA / 要收費 / 開始涉及客戶 PII
production	已對外服務、有 SLA、有客戶	（目標狀態）

升級的兩個常見錯誤：

過早升級：個人 dev 階段就上 enterprise stack（IAM、Vault、SIEM）、複雜度過高、自己用不到、維護成本反而傷工作流。
過晚升級：團隊共用階段該補的控制沒補、出事才補、可能已經有資料外洩 / 法律責任。

判讀依據：控制機制對齊實際 threat model 跟 user 規模、不是「越多越好」。

跨層升級的常見 anti-pattern

從各層往上跨時、常見的意外：

把個人 dev 的 LLM client config 直接放上 production：autocomplete model、default model、API key 都不對；production 場景需要重新設計 model 路由。
把個人習慣的 prompt injection 防護當 production 防護：「我 git track 工作流」對個人 dev 夠、production agent 場景下、git 不在迴路裡、要改用 tool spec + review checkpoint。
production 場景仍然依賴使用者「看 prompt 內容」：使用者數量大、不可能每個 prompt 都人工看；production 需要自動化偵測訊號。
production 場景沒 tenant 隔離：所有用戶的 KV cache / log / context 混在一起、A 用戶能看到 B 用戶的 cache hit。
沒有 vendor 政策的書面化承諾：team 階段口頭講「我們不訓練客戶資料」、production 階段要寫進條款 / SLA。

給讀者的層級判讀清單

判斷自己當前在哪一層：

1[ ] 只有自己用                                              → 個人 dev
2[ ] 1 ~ 5 個人共用一台 server                                → 個人 dev 或團隊共用初期
3[ ] 5 ~ 50 個人共用、內部部署                                → 團隊共用
4[ ] 對外提供 API 服務 / SaaS                                 → production
5[ ] 服務多個客戶 / 涉及客戶 PII                              → production
6[ ] 有 SLA / 合約承諾                                        → production

對應的「要補的議題」：

 1個人 dev → 團隊共用：
 2  [ ] auth                  ← backend/07 identity-access-boundary
 3  [ ] 入口治理               ← backend/07 entrypoint-and-server-protection
 4  [ ] TLS                    ← backend/07 transport-trust-and-certificate-lifecycle
 5  [ ] secret 集中管理        ← backend/07 secrets-and-machine-credential-governance
 6  [ ] 內部 supply chain      ← backend/07 supply-chain-integrity-and-artifact-trust
 7  [ ] 寫下 acceptable use 政策
 8
 9團隊共用 → production：
10  [ ] 多租戶 isolation       ← backend/07 llm-multi-tenant-isolation
11  [ ] deployment 供應鏈      ← backend/07 llm-deployment-supply-chain
12  [ ] agent prompt injection ← backend/07 llm-prompt-injection-in-agent
13  [ ] log / PII 治理         ← backend/07 llm-log-and-pii-governance
14  [ ] 偵測訊號               ← backend/07 llm-as-service-detection-coverage
15  [ ] workload identity      ← backend/07 workload-identity-and-federated-trust
16  [ ] 偵測平台               ← backend/07 detection-coverage-and-signal-governance
17  [ ] IR 流程                ← backend/07 incident-case-to-control-workflow
18  [ ] 合規                   ← backend/07 data-protection-and-masking-governance

下一步

本章是模組六的最後一章。下一步可以回到模組六 _index 看其他章節、或進入 Backend 模組七資安與資料保護接 production 場景。

5.6 Platform Lifecycle Contract

Mon, 11 May 2026 00:00:00 +0000

Platform lifecycle contract 的核心責任是讓服務和部署平台對同一組生命週期訊號有共同解讀。進入 Kubernetes、systemd、Docker、ELB 或 Envoy 前，讀者需要先理解「服務啟動」和「服務可接流量」是不同狀態。

Lifecycle Contract

Lifecycle contract 定義平台如何啟動、檢查、接流量、停止與回收服務實例。它包含 runtime、startup、readiness、liveness、shutdown 與 drain。

狀態	服務責任	平台責任
runtime	固定 image、entrypoint、config 與 resource	提供可預期執行環境
startup	初始化依賴與內部狀態	避免過早重啟慢啟動服務
readiness	宣告可安全接流量	只把流量導向 ready instance
liveness	宣告基本運作能力	在不可恢復時重建 instance
shutdown	停接新工作並釋放資源	給予 termination window
drain	完成在途請求或連線退場	從路由集合摘除 instance

這些狀態分開後，部署事故才能定位是啟動、接流量、退場還是平台判讀問題。

runtime 與 startup 決定服務能否形成可運行實例。readiness 與 liveness 決定平台何時導入流量與何時重建實例。shutdown 與 drain 決定版本退場時是否能保護在途工作。這些狀態都屬於生命週期合約，卻對應不同的事故處理路徑。

Startup 與 Readiness

startup 的責任是確認服務初始化完成。readiness 的責任是確認服務可承接實際流量。啟動完成不代表依賴已就緒，也不代表背景任務、config、secret 或 connection pool 都可用。

慢啟動服務需要 startup gate，避免 liveness 在初始化期間反覆重啟。依賴敏感服務需要 readiness gate，避免尚未連上資料庫、cache 或 queue 時就接收請求。

啟動時間的組成與壓縮

服務啟動時間的長短決定 rollout 節奏的下限。啟動時間由四段組成，每段有不同壓縮策略：

runtime 初始化：語言 VM、GC 初始化、class loading（JVM warmup 可達 10-30 秒）。壓縮手段是 ahead-of-time compilation（GraalVM native image、Go 靜態編譯啟動速度快）或 CDS（Class Data Sharing）。
依賴建立：資料庫連線池、cache 連線、queue consumer 註冊。壓縮手段是 lazy initialization（按需建立）或 connection pool pre-warming（啟動時建好但不阻擋 readiness）。
資料預載：config 同步、feature flag 初始拉取、本地快取預熱。壓縮手段是區分必要載入與非必要載入——必要的阻擋 readiness，非必要的平行載入。
就緒驗證：自我健康檢查、依賴可達性驗證。壓縮手段是平行驗證多個依賴，避免串行等待。

啟動時間超過平台預設 startup timeout 時，先拆成這四段分析瓶頸，再決定調大 timeout 還是壓縮啟動流程。盲目調大 timeout 會掩蓋啟動退化問題，讓單次 rollout 的最短觀察窗拉長。

Readiness 設計的核心取捨

readiness 太鬆（只檢查 HTTP port 是否可達）會讓尚未就緒的實例接到流量。readiness 太緊（檢查所有下游可達性）會讓非自身問題的下游故障觸發連鎖 not-ready，放大故障面。

取捨的判讀框架是「這個依賴不可用時，服務是否仍能提供有意義的回應」：

必要依賴：資料庫、auth service——不可用時服務完全無法處理請求。這類依賴的可達性應納入 readiness 條件。
可降級依賴：推薦引擎、非關鍵 cache——不可用時服務可回傳降級結果。這類依賴不應納入 readiness，改用 circuit breaker 或 fallback 處理。
觀測依賴：metrics collector、log shipper——不可用不影響業務流量。這類依賴進 readiness 是常見誤判，會讓觀測基礎設施故障擊倒整個服務。

對應 5.C3 Orbitera managed K8s migration：揭露「跨平台遷移本質是能力遷移、部署 / 觀測 / 恢復與團隊流程都需要同步重建」。遷移到新平台時，舊平台的 readiness 條件不能直接搬——新平台的依賴可達路徑、DNS 解析速度、secret 注入方式可能改變，readiness 條件要重新驗證。

Liveness 與 Restart

liveness 的責任是偵測無法自我恢復的狀態。短暫下游故障適合交給 readiness、circuit breaker 或 fallback 處理，否則平台會用重啟放大故障。

liveness 太敏感會造成 restart loop；liveness 太寬鬆會讓壞實例長期留在線上。設計時要先定義哪些錯誤可由服務內部恢復，哪些才需要平台重建。

Liveness 適合偵測的失敗模式

liveness 的工程價值在於捕捉服務自己無法修復的狀態。把 liveness 當成通用健康檢查是過度使用，會讓正常的瞬態故障觸發不必要的重建。

適合 liveness 偵測的狀態：

deadlock：所有 worker thread 被卡住，無法處理新請求也無法回傳錯誤。liveness endpoint 設在獨立 goroutine / thread 上，如果 worker pool 卡住但 liveness goroutine 能回應，問題在業務邏輯而非 deadlock。
memory leak 導致的 OOM 前兆：記憶體使用率持續上升不回落，GC 已無法回收。此時主動回報 unhealthy 讓平台在 OOM kill 前重建，比被動等 OOM 更可控——OOM kill 不走 graceful shutdown，在途請求直接中斷。
essential background task 永久停止：必要的定期任務（如 license renewal、session cleanup）超過預期間隔仍未執行。這類失敗靜默發生，只有 liveness 主動偵測能發現。

不適合 liveness 偵測的狀態：下游資料庫短暫不可用、外部 API timeout、cache miss 率升高。這些由 readiness 或 circuit breaker 處理——用 liveness 重建不會修好下游，只會用重啟放大問題。

Restart 的代價量化

每次 liveness 觸發的重啟會產生四類代價：

在途請求中斷：被重啟的實例正在處理的請求直接失敗。
連線重建成本：資料庫連線池、cache 連線、queue consumer 重新建立。
啟動期間的容量缺口：重啟到 readiness 通過之間，整體服務容量降低。
thundering herd 風險：多實例同時被 liveness 判定失敗並重啟時，同時重建連線、同時搶資源、下游壓力瞬間放大。

對應 5.C7 Airbnb Istio 升級治理：揭露「基礎平台元件升級若缺乏分批治理、會形成全域風險放大器」。以下基於通用工程知識展開：Istio 等 service mesh 升級期間的 sidecar 重啟可觸發大量服務的 liveness 暫時失敗，若 liveness 太敏感會放大成全域 restart storm。升級期的 liveness 閾值應比穩態更寬鬆，或在升級批次中暫時加大 liveness failure threshold。

Shutdown 與 Drain

shutdown 的責任是讓服務停止接新工作並完成資源釋放。draining 的責任是讓平台在移除實例前，讓 in-flight request、長連線或背景工作有時間收束。

短 request API、長連線服務與 background worker 的 drain 條件不同。短 API 主要看在途請求歸零；長連線看 reconnect 節奏；worker 看已領取工作能否完成或重新排隊。tunnel 入口的 startup / readiness / drain 對齊見 5.10 Outbound Tunnel 入口。

三種 Workload 的 Drain 差異

不同 workload 類型的 drain 完成條件與時間尺度完全不同，用同一套 drain 設定覆蓋所有 workload 會在至少一類服務上出事。

短 request API（HTTP REST、gRPC unary）：drain 窗口通常在 5-30 秒。核心條件是在途請求數歸零。風險點是 load balancer 的 deregistration delay——LB 可能在服務已標記 not-ready 後仍送幾秒流量（取決於 health check interval 與 deregistration delay），所以服務端 drain 窗口要覆蓋這段延遲。endpoint 摘除的傳播窗口與 preStop 等待策略見 5.4 摘除節奏與 Drain 的配合。

長連線服務（WebSocket、gRPC streaming、SSE）：drain 窗口通常在 30 秒到數分鐘。核心條件是現有連線收斂且 reconnect 波形穩定。風險點是客戶端 reconnect 策略——服務端 drain 完成不代表客戶端已連上新實例。若客戶端沒有 backoff 或 reconnect 目標選擇邏輯，會形成 reconnect storm。drain 設計要跟客戶端 reconnect 策略一起規劃。

Background worker（queue consumer、定時任務、batch job）：drain 窗口取決於單一工作的最長執行時間。核心條件是已領取的工作完成處理或安全重新排隊。風險點是不可中斷工作——某些 job 做到一半無法重試（例如外部 API 呼叫已發出但回應尚未確認），drain 時序要覆蓋這類 job 的最長完成時間，否則 job 被中斷後產生不一致狀態。

對應 5.C9 反例：平台切流未先 Draining：揭露「切流失敗常在 connection lifecycle 管理」「drain / idle timeout / health check / client retry 沒有同一節奏」。反例中的事故擴大機制正是不同 workload 類型的 drain 條件被忽略——短 API 的 drain 完成了，長連線的 reconnect 仍在震盪，worker 的 job 被中斷重試造成重複處理。

Shutdown 信號的傳遞路徑

platform 到 application 的 shutdown 信號傳遞有多個可能斷點。信號從平台送到容器 PID 1、PID 1 轉發到應用進程——PID 1 的信號處理語意與常見陷阱見 5.1 PID 1 與信號處理。本段聚焦 lifecycle 層的時序問題：

preStop hook 與 SIGTERM 時序：Kubernetes 先執行 preStop hook、再送 SIGTERM。preStop hook 可用來等 LB 摘流量（sleep 幾秒讓 endpoint 從可用集合移除），讓 SIGTERM 到達時在途流量已經減少。
terminationGracePeriodSeconds：平台等待的最長時間。超過後 SIGKILL 強制結束，不走 graceful shutdown。這個值要覆蓋 preStop + drain + 資源釋放的總時間。

shutdown 信號傳遞的驗證方式是在 staging 環境觸發 pod delete，觀察應用 log 中是否出現 shutdown handler 的紀錄。沒看到 shutdown log 代表信號沒傳到、要先修傳遞路徑再談 drain 設計。

不同 Workload 的 Lifecycle 特性對照

生命週期合約的參數設定要依 workload 類型調整。以下是三類常見 workload 的特性差異。

維度	短 request API	長連線服務	Background worker
startup 關注點	依賴連線池建立	依賴連線池 + 監聽埠就緒	queue consumer 註冊完成
readiness 條件	必要依賴可達 + 連線池滿	必要依賴可達 + 可接受新連線	consumer 已註冊 + 可拉取新工作
liveness 偵測	deadlock、OOM 前兆	連線管理 thread 存活	worker loop 存活、queue 輪詢正常
drain 完成條件	在途請求數歸零	現有連線收斂、reconnect 穩	已領取工作完成或重新排隊
drain 窗口	5-30 秒	30 秒 - 數分鐘	取決於最長 job 執行時間
shutdown 風險	LB 延遲仍送流量	reconnect storm	不可中斷 job 被強制結束
rollout 節奏建議	可激進（秒級觀察窗）	保守（分鐘級、等 reconnect）	依 job 粒度（完成當前批次再切）

這張表是選型前判準的操作化：先確認服務屬於哪類 workload，再套用對應的 lifecycle 參數基線。混合 workload（例如同時提供 HTTP API 和 WebSocket）要取各層的嚴格值——drain 窗口取最長的、readiness 取最嚴格的。

平台如何表達 Lifecycle 差異

不同部署平台表達生命週期合約的能力不同。選型時要問的是「這個平台能不能分別設定 startup、readiness、liveness 與 drain」。

平台	startup gate	readiness 與 liveness 分離	drain 能力	termination 窗口
Kubernetes	startupProbe	readinessProbe / livenessProbe 獨立	preStop hook + endpoint 摘除	terminationGracePeriodSeconds
systemd	無原生 startup probe	靠 sd_notify(READY=1)	ExecStop + KillSignal	TimeoutStopSec
Docker	HEALTHCHECK（不分離）	單一 HEALTHCHECK	stop_grace_period	stop_grace_period
ECS	startupHealthCheck	health check（不分離）	deregistration delay	stopTimeout

Kubernetes 在 lifecycle 表達力上最完整，但參數最多也最容易配錯。systemd 靠 sd_notify 協議明確宣告 readiness，在單機部署場景下反而比 K8s 的 probe 直接。Docker 和 ECS 不分離 readiness 與 liveness，需要在應用層自行實作降級邏輯。

選平台不只看功能清單，要看它表達 lifecycle 差異的粒度是否覆蓋服務需求。若服務需要分離 startup 和 readiness 但平台只有一個 health check，這個差距要在應用層補——代價是複雜度從平台設定轉移到程式碼。

遷移期的 Lifecycle 重新驗證

對應 5.C6 Airbnb Kubernetes 叢集擴縮演進：揭露「擴縮策略版本化與可回放」「不同 workload 區分擴縮政策」。以下基於通用工程知識展開：叢集演進過程中，lifecycle 參數的假設會改變——workload 從穩態變成高波動、從單一類型變成混合類型、從小規模變成大規模。lifecycle contract 的參數不是設一次就好，要隨叢集演進重新驗證。

對應 5.C10 對照：規模差異下的平台遷移：揭露「小型組織最容易漏掉回退腳本化」「中型組織依賴錯位、服務切過去但資料面 / 認證面 / 觀測面沒同步」。lifecycle contract 在遷移後的完整性驗證不只看 probe 設定——secret 注入時序、資料庫連線池的 endpoint 是否切到新叢集、observability pipeline 的 readiness 是否對齊，都是 lifecycle 合約的一部分。

遷移後的 lifecycle 驗證清單：

startup 時序重測：新平台的 image pull 時間、secret mount 時間、DNS 解析路徑可能不同，原本的 startup timeout 可能不夠。
readiness 依賴路徑檢查：readiness 檢查的依賴是否仍可達（新叢集到舊資料庫的 latency 是否增加、跨叢集 service discovery 是否對齊、DNS TTL 與快取行為是否改變）。
drain 行為驗證：在新平台觸發 pod delete、觀察 drain 完成時間與在途請求處理是否符合預期。
信號傳遞驗證：在新平台觸發 shutdown、確認 SIGTERM 到達應用進程並觸發 graceful shutdown handler。

選型前判準

部署平台選型前要先回答：

服務啟動需要多久，哪些依賴是 readiness 條件。
服務失敗時應由自己恢復，還是由平台重建。
服務停止時有哪些 in-flight request、connection 或 job。
平台是否能表達 startup、readiness、liveness 與 drain 的差異。

這些問題決定後續要比較 Kubernetes probe、systemd restart policy、load balancer health check 或 service mesh drain 能力。

判讀訊號

訊號	判讀重點	對應動作
rollout 期間新版本反覆重啟	startup timeout 小於實際啟動時間	拆分啟動四段分析瓶頸、調整 startup gate
新版本 readiness 通過但首批請求錯誤率高	readiness 條件太鬆、依賴未就緒就接流量	加入必要依賴檢查、分離可降級依賴
下游故障時大量實例被 liveness 重啟	liveness 檢查了不該檢查的下游依賴	把下游可達性移到 readiness、liveness 只看自身
shutdown 後仍有請求中斷	SIGTERM 未正確傳達或 drain 窗口不足	驗證信號傳遞路徑、調整 terminationGracePeriod
長連線服務切版後 reconnect storm	drain 設計未考慮客戶端 reconnect 策略	拉長 drain、分批切流、搭配 reconnect backoff
worker 切版後出現重複處理	job 被中斷後重試、但前次已產生副作用	drain 窗口覆蓋最長 job、或 job 支援冪等
遷移新平台後啟動時間變長	新平台 image pull / secret mount 路徑不同	重測啟動四段、調整新平台的 startup timeout

常見誤區

把所有 probe 設成同一個 /health endpoint，會讓 startup、readiness 與 liveness 的語意混在一起。三種 probe 回答不同問題：startup 問「初始化完了嗎」、readiness 問「可以接流量嗎」、liveness 問「還活著嗎」。同一個 endpoint 無法同時回答三個問題，因為初始化完成不代表依賴就緒，依賴暫時不可達不代表服務本身壞了。

把 drain 窗口設成固定值不分 workload 類型，會在某一類服務上出事。5 秒對短 API 足夠、對長連線不夠、對 batch job 遠遠不夠。drain 窗口要依服務實際 workload 設定，不是用平台預設值。

把 liveness 失敗當成「服務壞了」而不問代價，會忽略重啟本身的連鎖效應。每次重啟都有在途請求中斷、連線重建、容量缺口的代價——特別是多實例同時被判定 liveness 失敗時，代價會被放大。

案例回寫

lifecycle contract 的完整性可用多個案例交叉驗證。5.C3 Orbitera managed K8s migration 揭露遷移後 readiness 依賴路徑改變的風險。5.C9 反例揭露不同 workload 的 drain 條件被忽略造成的事故擴大。5.C7 Airbnb Istio 升級治理揭露基礎平台元件升級缺乏分批治理會形成全域風險放大器。5.C10 對照揭露不同規模下 lifecycle 驗證的缺口模式。

這些案例共同支撐的判讀是「lifecycle contract 的每個狀態都有不同的失敗模式，混在一起處理會在事故時無法定位」。流量切換或連線生命週期問題路由到 5.3 load balancer 合約。runtime 產物穩定性問題路由到 5.1 container 與 runtime。

跨模組路由

lifecycle contract 是部署模組的概念基底，後續章節都會引用本篇的狀態分類。

與 5.1 的交接：runtime 與 entrypoint 定義 startup 行為回到 container 與 runtime。
與 5.2 的交接：probe 設定與 rollout 節奏回到 Kubernetes 部署策略。
與 5.3 的交接：drain 與流量退場回到 load balancer 合約。
與 5.10 的交接：tunnel 入口的 readiness 與 drain 對齊回到 Outbound Tunnel 入口。
與 4.20 的交接：lifecycle 事件的證據收集回到 Observability Evidence Package。
與 6.8 的交接：lifecycle 狀態作為 release gate 判定條件回到 Release Gate。

下一步路由

要看 Kubernetes 如何承接這組生命週期，接著讀 5.2 Kubernetes 部署策略。要看流量退場如何和 LB 對齊，接著讀 5.3 load balancer 合約。要看不同平台的 lifecycle 表達力比較，接著讀 vendors/。

5.C6 Airbnb：Kubernetes 叢集擴縮演進

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是說明部署平台演進常來自容量治理需求。

觀察

Airbnb 的叢集擴縮經歷了多個演進階段。早期是手動調整 node 數量——工程師根據流量預測或事故壓力臨時加 node、事後忘記縮回。中期引入 Cluster Autoscaler，讓 node 數量跟 pending pod 連動。後期隨工作負載類型分化（stateless API、長連線服務、batch job、ML 訓練），單一 autoscaler policy 無法覆蓋所有場景，開始分群治理。

這個演進路徑的共同主題是「每當流量型態或 workload 組成改變，原本的擴縮策略就會在某個量級開始失效」。擴縮策略的有效期跟服務演進速度成反比。

判讀

叢集擴縮若停留在人工流程，面對高波動流量會放大成本與可用性風險。人工擴縮的問題有兩面：反應太慢（流量已衝高但 node 還沒加上來）和撤退太慢（流量已回落但多餘 node 繼續燒錢）。自動化解決反應速度，但引入新的判讀問題——autoscaler 的參數設定本身需要治理。

HPA 觸發閾值設太低會造成 pod 數量頻繁抖動；Cluster Autoscaler 的 scale-down delay 設太短會在流量波動時反覆 add/remove node，增加 pod eviction 頻率。這些參數的調校要依 workload 類型分群——API 服務的擴縮節奏跟 batch job 完全不同。

另一個判讀是擴縮策略跟事故指標要綁定。autoscaler 的動作（scale-up trigger、scale-down execution、node provision latency）如果不在事故 timeline 上可見，事故團隊無法分辨「是 autoscaler 來不及」還是「是應用本身有問題」。

策略

擴縮策略版本化與可回放：HPA / VPA / Cluster Autoscaler / Karpenter 的配置進 git，變更走 release flow。每次調參都有 commit 紀錄，事故後可以追溯「這次 scale-down 過快是因為哪次參數變更」。版本化的另一個價值是可回放——新的擴縮配置在 staging 環境用歷史流量 replay 驗證後，再推到 production。
workload 分群擴縮：stateless API 用 CPU / RPS-based HPA、batch job 用 queue depth-based HPA、長連線服務用 connection count-based 自訂 metric。不同 workload 類型放在不同 namespace，各自有獨立的 autoscaler policy。避免一套 HPA 規則套全部 workload。
容量治理與事故指標綁定：HPA 觸發事件、Cluster Autoscaler 的 scale-up / scale-down 事件、node provision latency 都送進事故 timeline（可用 Kubernetes event exporter 或 custom metric）。事故 timeline 上看到「HPA 觸發後 3 分鐘 node 才 ready」就能直接判斷「容量補充太慢」而非「應用有 bug」。

回退判讀

擴縮策略變更的回退比應用版本回退簡單——改 HPA / autoscaler 的 config 就好。風險在於回退後的舊策略可能已經跟當前 workload 型態不匹配（workload 成長了、流量特性變了）。穩定做法是回退後立刻進入觀察窗口，確認舊策略在當前流量下仍然有效。

下一步路由

回 5.2 kubernetes deployment 看 autoscaling 與部署策略協同。回 5.6 platform lifecycle contract 看不同 workload 的 lifecycle 差異如何影響擴縮設計。回 6.9 capacity & cost 看容量規劃的完整框架。

引用源

Dynamic Kubernetes Cluster Scaling at Airbnb（原始 URL 已失效，內容基於骨架與通用工程知識擴充）

AWS ELB（ALB / NLB / CLB）

Fri, 01 May 2026 00:00:00 +0000

AWS ELB 是 AWS managed load balancer 系列、承擔三個責任：流量入口（HTTP/HTTPS for ALB、TCP/UDP for NLB）、health check + draining、跟 AWS 生態整合（ACM TLS / Target Group / WAF / Lambda）。包含 ALB（L7、HTTP/HTTPS）、NLB（L4、極低延遲）、CLB（legacy、不要選）。設計取捨偏向「managed + AWS-native + integrate with ECS/EKS/Lambda」、跨雲 / 進階 traffic management 是限制。

本章目標

讀完本章後、你應該能：

建立 ALB / NLB、配置 listener + target group
設計 health check + connection draining
用 ACM 自動憑證 + SNI
用 ALB Ingress Controller / AWS Load Balancer Controller for K8s
評估 ALB vs NLB vs CloudFront vs API Gateway

最短路徑：5 分鐘把 AWS ELB 跑起來

 1# 1. 建 ALB
 2aws elbv2 create-load-balancer \
 3  --name demo-alb \
 4  --subnets subnet-aaa subnet-bbb \
 5  --security-groups sg-xxx \
 6  --scheme internet-facing \
 7  --type application
 8
 9# 2. 建 target group + register targets
10aws elbv2 create-target-group \
11  --name demo-tg \
12  --protocol HTTP --port 8080 \
13  --vpc-id vpc-xxx \
14  --target-type instance \
15  --health-check-path /health \
16  --health-check-interval-seconds 15
17
18aws elbv2 register-targets \
19  --target-group-arn arn:aws:elasticloadbalancing:...:targetgroup/demo-tg/... \
20  --targets Id=i-0abc123 Id=i-0def456
21
22# 3. 建 listener + 驗證
23aws elbv2 create-listener \
24  --load-balancer-arn arn:aws:elasticloadbalancing:...:loadbalancer/app/demo-alb/... \
25  --protocol HTTP --port 80 \
26  --default-actions Type=forward,TargetGroupArn=arn:aws:...
27
28ALB_DNS=$(aws elbv2 describe-load-balancers --names demo-alb \
29  --query 'LoadBalancers[0].DNSName' --output text)
30curl "http://${ALB_DNS}"

日常操作與決策形狀

ALB vs NLB vs CLB

子議題：

ALB：L7、path/host routing、WebSocket、gRPC、Lambda target
NLB：L4、static IP、preserve client IP、極低延遲、TCP/UDP
CLB：legacy、不要新用
選擇判讀：HTTP/HTTPS → ALB；TCP/UDP / 高吞吐 → NLB

Target group / listener rule

子議題：

Target type：instance / IP / Lambda
Listener rule：path-based / host-based / header-based routing
Priority 排序
對應指令：aws elbv2 modify-rule

Health check 與 draining

子議題：

Health check：HTTP path / interval / threshold
Connection draining（deregistration delay）：deregister 後等到 in-flight requests 完成
對應 5.C9 反例 cutover without drain

進階主題（按需閱讀）

TLS termination + SNI

子議題：

ACM 自動憑證 + 續期
SNI：單 ALB 多 domain（最多 25 certificates）
TLS policy（min TLS version）
Mutual TLS（ALB 2023+）

ALB Ingress Controller / AWS Load Balancer Controller

子議題：

在 EKS 內配置 ALB / NLB（Ingress / Service of type LoadBalancer）
IngressClass / annotations
Pod readiness gate（pod 到 ALB target group healthy 才接流量）
對應 Kubernetes vendor 頁

Cross-zone load balancing

子議題：

ALB default enabled、NLB default disabled
Cross-zone 跨 AZ data transfer cost
跟 AZ failover 對應

WAF integration

子議題：

AWS WAF on ALB
Rate-based rule / managed rule group
對應 07 security WAF

Idle timeout

子議題：

ALB default 60s、可調 1-4000s
跟 keep-alive / WebSocket 長連線對應
跟 backend（K8s pod / EC2）的 timeout 對齊

Cost 模型

子議題：

LB-hour（per ALB / NLB）
LCU（Load Balancer Capacity Unit）— 多維度計算
Data processing charge
跨 AZ data transfer

排錯快速判讀

Target unhealthy

操作原則：health check path 不對 / security group 沒開 / backend 反應慢。

1aws elbv2 describe-target-health \
2  --target-group-arn arn:aws:elasticloadbalancing:...:targetgroup/demo-tg/...
3# HealthState: unhealthy → 查 Reason（Target.Timeout / Elb.InternalError / Target.ResponseCodeMismatch）
4# 常見根因：security group 沒開 health check port、health check path 回 404、backend 回應超過 timeout

504 Gateway Timeout

操作原則：backend 超 ALB idle timeout / 60s。判讀：backend log + ALB access log。

Cross-zone imbalance

操作原則：cross-zone disabled、流量集中單 AZ。修法：enable cross-zone（注意 cost）。

Draining 卡住

對應 5.C9 反例。判讀：deregistration delay 太短 / connection 未結束就被斷。

ACM cert renew 失敗

操作原則：DNS validation 失敗 / domain ownership 變動。判讀：ACM console 看 cert state。

何時改走其他服務

需求形狀	改走
跨雲 / 自管	nginx / Envoy
Service mesh	Envoy + Istio
Cloud-native auto-discovery	Traefik
CDN / edge	CloudFront / Cloudflare / Fastly
API Gateway	AWS API Gateway / Kong
極低成本	自管 nginx on EC2

不在本頁內的主題

AWS WAF rule 完整 reference
Network Firewall 配置
各 AWS region 限制差異
ELB classic（CLB）細節

案例回寫

直接相關案例

案例	主討論議題
5.C1 Tradeshift self-managed → EKS	遷 EKS 時 ALB / NLB 是入口、切流批次跟 target group 權重連動
5.C2 Condé Nast EKS	多集群整併 EKS、AWS Load Balancer Controller 統一 ingress 入口
5.C4 Mobileye EKS	大規模 workload 遷 EKS、ALB target group health check 是切流驗證點
5.C5 Miro EKS	Managed EKS 後 ALB / NLB 治理回到平台團隊

跨 vendor 對照

案例	對 AWS ELB 的對應
5.C9 cutover without drain	ALB deregistration delay / NLB connection draining 是切流的關鍵回退面
5.C10 規模對照	AWS 生態小型 ALB + EC2 / 中型 ALB + EKS / 大型 NLB + 多 region + WAF

待補 AWS ELB 案例：大規模 AWS Load Balancer Controller 客戶案例、NLB static IP 場景、AWS WAF + ALB 安全整合。

下一步路由

上游概念：5.3 LB Contract
平行 vendor：nginx、Envoy
下游能力：07 security WAF、6 reliability release gate

模組六：生產操作

Wed, 22 Apr 2026 00:00:00 +0000

生產操作的核心目標是讓 Go 服務可停止、可觀測、可診斷、可漸進啟用功能。服務能在本機跑起來只是第一步；長時間運行後，真正重要的是 shutdown 是否可預期、監控訊號是否清楚、log 是否可查詢、功能開關是否有降級策略。

本模組承接前面的並發、WebSocket、runtime 與測試：graceful shutdown 需要 context 和 goroutine lifecycle，health endpoint 需要區分可用性與診斷，structured log 需要能追 event flow，feature gate 需要能安全控制新能力。

章節列表

章節	主題	關鍵收穫
6.1	graceful shutdown 與 signal handling	用 signal、context、timeout 與 owner cleanup 停止服務
6.2	健康檢查與診斷 endpoint	區分 health、readiness、diagnostics 與 status code 合約
6.3	結構化日誌欄位設計	用穩定欄位讓 log 可 grep、可聚合、可追蹤
6.4	版本偵測與 feature gate	用功能開關、能力偵測與降級策略控制行為

本模組使用的範例主題

本模組使用虛構的即時通知服務作為範例。範例包含 HTTP server、WebSocket hub、background worker、runtime diagnostics、structured log 與 feature gate。

範例只用來展示 Go 生產操作設計，不假設讀者正在維護任何特定專案。

本模組的 Go 核心概念

用 signal.NotifyContext 或 signal channel 建立 root context。
用 http.Server.Shutdown 停止接受新 request。
用 context 傳遞停止訊號給 worker、hub、WebSocket pump。
用 /health、/ready、/debug/... 分開不同操作訊號。
用 log/slog 建立穩定 structured fields。
用 config struct 載入 feature gate，而不是到處讀環境變數。

學習重點

學完本模組後，你應該能判斷：

服務收到停止訊號後，哪些元件要先停止接流量
health、readiness、diagnostics 各自回答什麼問題
structured log 欄位如何支援查詢與聚合
哪些資料不應進入 log
feature gate 關閉時應降級、回錯、隱藏還是排程稍後處理

本模組不處理

本模組不討論 Kubernetes、systemd、雲端平台或完整 SRE 流程的所有細節。這些環境會影響操作策略，但本模組先建立 Go 服務本身應具備的操作邊界；後續可接 Kubernetes、systemd 與 load balancer 合約以及 Observability pipeline、metrics 與 tracing。

5.7 Traffic、Config 與 Control Plane Boundary

Mon, 11 May 2026 00:00:00 +0000

Traffic、config 與 control plane boundary 的核心責任是把平台切換中的資料面與控制面分開。進入 Kubernetes、ELB、Envoy、Consul 或 Terraform 前，讀者需要先知道流量、設定、secret、service discovery 與管理面各自有不同風險與回退方式。

Traffic Boundary

Traffic boundary 的責任是決定 request 如何進入服務、如何分流、如何回退。它包含 load balancer、routing rule、health check、sticky session、timeout 與 drain。

流量切換要能回答三個問題：哪一批 request 會到新版本、失敗時如何停止擴批、舊版本是否仍能承接回退流量。這三個答案明確後，canary 才能從比例設定變成可回退策略。

Traffic boundary 的判讀重點是 customer impact 如何被分批限制。小比例 canary、區域切流、tenant 切流與 route rule 都是不同切換單位；切換單位越清楚，rollback window 越容易被驗證。

切換單位的選擇

切換單位決定故障的 blast radius 與回退的精準度。常見切換單位各有不同操作特性：

切換單位	blast radius	回退精準度	操作複雜度	適用場景
比例（%）	按流量比例	粗（全域）	低	通用 canary
區域 / AZ	限定地理範圍	中	中	跨區部署的服務
租戶 / 組織	限定特定客戶	高	高	多租戶 SaaS
路由規則	限定特定路徑	高	高	API 版本切換、功能漸進上線

比例切換最簡單但 blast radius 不可控——5% 的流量中可能包含大客戶的關鍵路徑。租戶切換精準度最高但操作複雜度也最高——需要在 routing 層維護租戶到版本的映射。穩定做法是從比例切換開始，遇到需要精準控制 impact 時再升級到租戶或路由規則切換。

Config Boundary

設定如何下發、如何生效、如何回退——Config boundary 回答這三個問題。config rollout 和應用版本不一定同步，因此要保留相容窗口。

高風險設定包含 payment provider endpoint、feature flag、rate limit、routing rule、timeout 與 fallback policy。這些設定變更可能不需要新 image，卻能改變 production 行為，因此要進 release gate。

Config 變更的風險分級

設定變更的風險不一致——有些設定改了只影響 log level，有些設定改了直接影響付款路徑。分級後才能對不同風險的設定套用對應的 review 與 rollout 強度。

風險等級	設定類型	review 與 rollout 要求
高	payment endpoint、auth provider URL、encryption key	等同 code review + staged rollout + rollback 驗證
中	rate limit、timeout、feature flag、CORS 設定	變更 review + 觀測窗口
低	log level、debug flag、非關鍵 UI 文案	變更紀錄即可

風險分級的判讀依據是「這個設定改錯時、使用者會看到什麼」。改錯 payment endpoint 會讓付款打到錯誤目標；改錯 rate limit 可能讓合法流量被擋；改錯 log level 最多是 log 太吵或太安靜。設定的注入方式與版本追蹤見 5.1 配置注入方式與取捨。

Secret Boundary

Credential、token、certificate 與 machine identity 需要可輪替、可稽核、可回退——Secret boundary 管理這組生命週期。Secret 變更同時影響平台、應用與外部依賴，應使用比普通 config 更嚴格的 evidence 與 rollback window。

Secret rollout 要回答版本相容、雙軌驗證、舊 secret 撤除時間與失敗回退。這裡要接到 7.27 Credential Rotation with Scoped Evidence。

Secret Rollout 的雙軌驗證

Secret 輪替跟應用版本部署有本質差異：rollback secret 不是「換回舊版本」那麼單純——舊 secret 可能已經被撤銷、過期、或在外部系統中標記為失效。Secret rollout 的安全做法是雙軌驗證：

新 secret 先加入、舊 secret 暫不移除：應用先驗證能用新 secret 正常運作。
觀測窗口確認新 secret 穩定：auth 成功率、API 呼叫成功率、certificate handshake 成功率都在 baseline 內。
確認後移除舊 secret：舊 secret 的撤除要有明確時間點，而且要在撤除前確認沒有服務還在用舊 secret。

這個流程的風險點是第 3 步：撤除舊 secret 後發現某個遺漏的服務或 job 還在用、導致該服務認證失敗。盤點覆蓋率的做法是在觀測窗口內搜尋 audit log，確認所有 secret 使用都已切到新版本。

Service Discovery Boundary

Service discovery 的責任是維持可用 endpoint 集合。它回答服務應該連到哪些實例；業務設定與版本正確性則分別交給 config boundary 與 rollout gate。Discovery 的 DNS / registry 運作模式與註冊時序見 5.4 Service Discovery。

Discovery 失準常見於 rollout、擴縮容與區域故障。判讀時要拆成註冊時序、健康判斷、DNS/registry 新鮮度與 fallback 存活時間。

Control Plane Boundary

設定、策略、部署與路由規則的管理落在 management plane。Control plane 變更會影響大量服務，因此需要更嚴格的 evidence、gate 與 decision log。

Control plane 事故常見於規則推送、routing 誤配、secret 下發失敗與 registry 異常。這類事故要先保留 decision timeline，避免事後只看到資料面錯誤率。

Control Plane 變更的 Blast Radius 控制

Control plane 變更的 blast radius 跟 data plane 變更不同——一條 routing rule 推送錯誤可能同時影響所有服務的流量。控制 blast radius 的做法：

分批推送：規則變更先推到 staging / canary namespace、驗證後再推到 production。推送結果的觀測應包含受影響服務的 error rate 與 latency。
approval gate：高影響變更（network policy、admission webhook、RBAC binding）需要多人 review。變更的 blast radius 估算（影響多少 namespace / service）應在 review 時可見。
decision log：所有 control plane 變更記入 8.23 Control Plane Decision Log，包含時間、操作者、受影響範圍、預期效果與回退條件。事故時對照 decision log 跟 data plane 症狀的時間序列，可以快速判斷因果。

平台元件升級的可重播流程

平台基礎元件升級是 control plane 風險最高的場景。Service mesh、ingress controller、CNI、API server 這類元件影響面廣、單次升級可能形成全域風險放大器。

對應 5.C7 Airbnb Istio 升級治理：揭露 1 個判讀（基礎平台元件升級缺乏分批治理會形成全域風險放大器）+ 3 條策略（分批升級 + 回退窗口、升級驗證標準固定化、升級事件接入 incident command 節奏）。以下基於通用工程知識展開、「升級事件進 timeline」是從 case「接入 incident command」策略進一步推到具體操作。

可重複套用的升級流程：

分批升級單位：先在開發 / staging 叢集驗證、再選低流量 production 叢集 / namespace 作為先導、之後分批擴大。分批單位可以是叢集、namespace、region、tenant，依風險面選擇。
回退窗口跟驗證標準同時設：每批升級前定義「驗證通過」的具體訊號（SLI 維持、特定 metric 不偏移、無新告警），跟「回退窗口」（多久內可以回退）。沒有驗證標準的分批等於連續高風險動作。
升級流程紀錄到 incident-style 文件：升級期間的決策、觀察、停止點都用 incident decision log 格式紀錄。下次升級可重播、不依賴執行者個人經驗。
升級事件進 timeline：升級本身產生的短暫錯誤、reconnect、配置同步延遲，要在事故 timeline 上可見、避免被誤判成事故。

平台元件升級的核心治理價值是把「一次性高風險作業」變成「可重複的低風險作業」。第一次升級用流程，第二次升級用同樣流程，第三次升級流程已經穩定到可以委派、不再需要資深工程師親自執行。

Managed 平台跟團隊職責邊界

平台託管化（self-managed → managed）改變維運責任跟團隊精力的分配。本段聚焦團隊職責邊界；流量跟依賴的分段切換流程見 5.2 分階段平台遷移、紅隊視角的攻擊面變動見 5.5 平台遷移期的攻擊面變動、三者組合才完整。

Platform team 從「維持 Kubernetes 跑起來」轉向「定義 release flow、observability convention、cost governance」。managed 平台採用後第一個治理動作是顯式重新定義職責邊界、讓 platform team 從 cluster ops 轉到 release flow / observability convention / cost governance。重新定義缺位、組織轉型紅利容易被誤判為純技術升級。

對應 5.C5 Miro Managed EKS 遷移：揭露 1 個判讀（平台託管化的價值在讓團隊把心力從底層維護轉到交付效率與可靠性策略）+ 3 條策略（先定義遷移後的平台責任邊界、自動化流程取代手動平台操作、incident 跟 release policy 接回平台治理）。對應 9.C33 Maersk + Bosch Azure AKS：揭露 Maersk 工程訴求引語「focus on things that makes the most business impact」、傳統產業 K8s 動機是治理一致性 + 釋放工程資源到業務功能（後者屬作者判讀）。以下基於通用工程知識展開。

managed 平台採用後的職責邊界重訂可以分四層：

Cluster 層：control plane 上游接管（API server、etcd、scheduler、controller-manager）、platform team 從 cluster ops 退到 cluster policy。CIS benchmark、network policy、admission controller 配置仍是 platform 責任。
Cluster-internal 層：CNI、ingress controller、service mesh、cluster DNS、storage CSI 通常仍由 platform team own。這層是 managed 服務沒覆蓋的 grey zone、需要明確 ownership。
Application 層：deployment、service、HPA、PDB 由 service team own、platform 提供 convention 跟 review process。
跨層議題：cost governance、observability convention、release flow、incident response 是 platform / service / SRE / finance 跨層協作、需要 operating model 明確化。

managed 採用後 day-1 治理項目有兩件事：明確界定 grey zone ownership（避免「以為 managed 服務什麼都管了」的心智模型）、把 platform team 心力從 cluster ops 轉到組織轉型紅利（release flow、observability convention、cost governance）。把重新定義職責當 day-2 議題、會錯失組織轉型紅利。

選型前判準

平台選型前要先回答：

哪些變更屬於 traffic，哪些屬於 config，哪些屬於 secret。
每種變更是否能分批、暫停與回退。
Discovery 失準時是否有可控 fallback。
Control plane 變更是否有 audit、owner 與 blast radius 限制。
基礎元件升級是否有可重播流程跟回退窗口。
Managed 平台採用後團隊職責邊界是否重新定義。

這些答案決定後續要比較 load balancer、service mesh、secret manager、service registry 或 deployment controller 的能力。

實體服務討論承接點

實體平台文章要承接本篇的 traffic、config 與 control plane boundary。ELB、nginx、Envoy、service mesh、Consul、Kubernetes controller、secret manager 或 Terraform 的比較，要先分清它們是在資料面接流量、在控制面改規則，還是在設定面下發狀態。

若主問題是流量切換，後續文章要比較 routing rule、weight、health check、drain 與 rollback。若主問題是設定與 secret，後續文章要比較 rollout、audit、rotation 與相容窗口。若主問題是 control plane 風險，後續文章要比較 blast radius、approval、observability 與 incident decision log。

下一步路由

要把流量邊界接到實際 LB 合約，接著讀 5.3 load balancer 合約。要把 control plane 決策寫入事故流程，接著讀 8.23 Control Plane Decision Log and Write-back。

5.C7 Airbnb：Istio 升級治理

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是把平台元件升級從一次性作業轉成可重播流程。

觀察

Airbnb 在數十個 Kubernetes 叢集、數萬個 pod、數千個 VM 的規模下持續升級 Istio service mesh，峰值流量達數千萬 QPS。團隊累計完成 14 次成功的 Istio 升級。

升級的核心挑戰是規模帶來的協同成本：無法逐一通知每個 workload team 進行升級配合，也無法同時監控所有 workload 的升級狀態。升級策略必須對 workload team 透明——workload 不需要改程式碼或調配置就能完成 proxy 版本切換。

判讀

基礎平台元件升級若缺乏分批治理，會形成全域風險放大器。Istio 升級的影響面覆蓋所有跑 sidecar 的服務——一次壞的升級可以讓整個叢集的服務間通訊中斷。這個風險決定了升級策略必須是 canary 模式（小比例先行），而且 canary 的粒度要夠細（namespace 或 workload 級別），才能在問題擴大前攔截。

另一個判讀是升級流程本身要版本化。第一次升級靠資深工程師手動操作可以成功，但這個知識留在個人經驗裡。第二次升級換了人就可能踩到不同的坑。把升級流程固定成可重播的 spec（升級計畫 → 執行 → 驗證 → 確認/回退），讓升級從「英雄行為」變成「例行操作」。

策略

Canary upgrade model（兩版本並存）：採用 Istio 的 canary upgrade 機制，同時跑兩個版本的 Istiod。新版本的 sidecar proxy 跟對應版本的 control plane 配置一起原子部署，避免跨版本相容性問題。透過 revision label 決定每個 namespace 使用哪個版本的 Istiod。
自建工具解耦基礎設施更新與 workload 部署：團隊開發了 Krispr（mutation framework），在 CI 階段注入 Istio revision label，並在 admission 階段對超過兩週未部署的 pod 重新注入最新 label。這讓 workload 在正常部署流程中自動完成 proxy 升級，不需要額外操作。
rollouts.yml 定義升級批次與比例：用 spec 檔定義每個環境（staging / production）、每個 namespace pattern 的版本分佈（例如 staging 75% 舊版 / 25% 新版）。比例可以逐步調整——先 5% → 25% → 50% → 100%。每個批次有明確的觀測窗口與停損條件。
VM 升級用 mxrc controller：Kubernetes 外的 VM workload 用 mxrc controller 根據 rollouts.yml 更新 tag，遵守健康狀態檢查與可用性門檻。VM 的升級通常在兩週內透過自然輪替完成。
升級事件進 incident timeline：升級期間的短暫錯誤（proxy 重連、配置同步延遲）在事故 timeline 上標記為升級事件，避免被誤判成獨立事故。升級的決策紀錄用 incident decision log 格式，讓下次升級可以回溯上次的判斷依據。

升級節奏的收斂

14 次升級的經驗讓升級流程逐步收斂。多數 workload 在正常 deployment 時自動完成 proxy 升級（因為 Krispr 在 admission 階段注入最新 revision）。沒有 regular deployment 的 workload 在四週內透過自然 pod cycling（node 維護、HPA 調整）完成升級。這個四週窗口是可接受的——超過四週未部署的 workload 通常也是低變動、低風險的。

回退判讀

Istio 升級的回退是把 revision label 切回舊版本、讓 pod 在下次 restart 時重新注入舊版 sidecar。回退的風險在於回退期間新舊 proxy 混跑，traffic policy 可能不完全一致。穩定做法是先在小範圍驗證回退行為（一個 namespace），確認 traffic policy 一致性後再擴大回退範圍。

下一步路由

回 5.2 kubernetes deployment 看 rollout 節奏與 probe 設計。回 5.7 平台元件升級的可重播流程看通用升級框架。回 8.6 IC handoff 看升級期事故的指揮交接。

Terraform / OpenTofu

Fri, 01 May 2026 00:00:00 +0000

Terraform 是 HashiCorp 出品的 IaC 工具、承擔三個責任：declarative infrastructure 配置（HCL）、state-based reconciliation（plan → apply）、跨 provider 抽象（AWS / GCP / Azure / K8s / SaaS）。設計取捨偏向「state-driven + declarative + multi-cloud」、provider 生態最廣。2023 改 BSL 授權、社群 fork OpenTofu（Linux Foundation 託管、MPL 2.0）。

對「跨雲基礎設施管理、團隊協作 IaC、需要 state + plan workflow」這條路徑、Terraform / OpenTofu 是首選。

本章目標

讀完本章後、你應該能：

寫 HCL config（resource / variable / output / module）
設定 remote state（S3 + DynamoDB lock / Terraform Cloud）
設計 module + workspace 結構
跑 plan / apply / destroy 工作流 + GitOps
評估 Terraform vs OpenTofu vs Pulumi vs Crossplane

最短路徑：5 分鐘把 Terraform 跑起來

1# 1. 安裝
2brew install hashicorp/tap/terraform   # 或 brew install opentofu

1# 2. 寫 main.tf
2terraform {
3  required_providers {
4    aws = { source = "hashicorp/aws", version = "~> 5.0" }
5  }
6}
7provider "aws" { region = "us-east-1" }
8resource "aws_s3_bucket" "demo" { bucket = "my-tf-demo-bucket" }

1# 3. init + plan + apply
2terraform init
3terraform plan -out=plan.tfplan
4terraform apply plan.tfplan

日常操作與決策形狀

HCL config 結構

子議題：

provider / resource / data source / variable / output / locals
terraform block（required_version / required_providers / backend）
Module（reusable group of resources）
對應指令：terraform fmt、terraform validate

State 管理

子議題：

Local state（terraform.tfstate）：dev / 學習用
Remote state（S3 + DynamoDB lock / GCS / Terraform Cloud / Spacelift）
State migration（terraform state mv / rm / import）
State sensitive data 不入 git

Plan / apply workflow

子議題：

terraform plan -out=plan.tfplan（凍結結果）
terraform apply plan.tfplan
Auto-approve（CI / CD）vs manual approve（critical）
對應 GitOps：Atlantis / Terraform Cloud / Spacelift

進階主題（按需閱讀）

Module 設計

子議題：

Module input / output
Module composition（root module → child module）
Public module registry（Terraform Registry / OpenTofu Registry）
Version pinning
對應 Terraform best practice

Workspaces vs directory layout

子議題：

Workspaces：同 module 多 instance（dev / staging / prod）
Directory：每 env 一個 directory
Workspaces 的局限（state 同 backend、env 共享 config）
選擇判讀：強隔離 → directory；快切換 → workspace

Drift detection

子議題：

Drift = 實際 infra ≠ Terraform state
偵測：terraform plan 跑出來有 diff
修法：Manual import / state pull / 修改 cloud directly + plan refresh
對應自動化 drift detection（Atlantis / Driftctl）

Terraform vs OpenTofu

子議題：

2023 Terraform 改 BSL：Linux Foundation fork OpenTofu
OpenTofu 跟 Terraform 1.5 API 相容
之後分歧：OpenTofu 加 state encryption、provider iteration
遷移路徑：替換 binary、import 既有 state

Provider 生態

子議題：

AWS / Azure / GCP（cloud provider）
Kubernetes / Helm（K8s provider）
SaaS：Datadog / Pagerduty / Cloudflare / GitHub
Community provider vs official provider 品質差距

跟 Crossplane / Pulumi 對比

子議題：

Crossplane：K8s-native IaC（用 K8s CRD 管 cloud resource）
Pulumi：用通用語言（TS / Python / Go / C#）寫 IaC
選擇判讀：純 cloud infra → Terraform / OpenTofu；K8s-heavy → Crossplane；developer-first → Pulumi

Terraform Cloud / Spacelift / Atlantis

子議題：

Terraform Cloud（HashiCorp managed）：remote state + run + policy
Spacelift / env0：商業替代
Atlantis：OSS Pull Request automation
對應 GitOps for IaC

排錯快速判讀

State lock stuck

操作原則：DynamoDB lock 沒釋放（process killed）。判讀 + 修法：terraform force-unlock （小心）。

Plan diff 過大

操作原則：drift 累積 / provider 升級 / config 改太多。判讀：先看 plan output、再決定要不要 apply。

Provider auth fail

操作原則：AWS / GCP credentials 沒設、過期、權限不夠。判讀：AWS_PROFILE / IAM role / GCP ADC 配置。

Module version 衝突

操作原則：root module 跟 child module 用不同 provider version。判讀：terraform providers 看 version constraint。

Apply partial failure

操作原則：apply 中某 resource 失敗、state 一致性問題。判讀：state pull 看當前、可能要 import / state rm 修。

何時改走其他服務

需求形狀	改走
OSI-licensed Terraform	OpenTofu（同模組）
Imperative API	Pulumi
Cloud-specific（單一 cloud）	CloudFormation / Azure Bicep / GCP Deployment Manager
K8s-native IaC	Crossplane
Application config（不是 infra）	Helm / Kustomize / cdk8s
極小場景	CLI / Cloud Shell（不用 IaC）

不在本頁內的主題

完整 HCL syntax reference
各 provider 完整 resource list
Terraform Cloud / Spacelift 商業 feature
Drift detection 工具細節

案例回寫

跨 vendor 對照

案例	對 Terraform 的對應
5.C1 Tradeshift self-managed → EKS	平台遷移期間舊 / 新叢集共通配置基線靠 IaC 表達、批次切流時 module 版本要凍結
5.C2 Condé Nast EKS	多團隊異質集群盤點後、用 module + workspace 把平台基線變成統一可審計的 IaC
5.C5 Miro EKS	Managed EKS 後平台團隊把手動操作改成 IaC + GitOps、自動化取代手動操作
5.C10 規模對照	小型 CLI / 中型單 workspace / 大型 multi-workspace + Atlantis / Spacelift 治理

待補 Terraform 案例：HashiCorp Cloud 大客戶案例、OpenTofu fork 後企業遷移案例、Drift detection 治理案例。

下一步路由

上游概念：5 deployment platform
平行 vendor：Kubernetes（K8s provider）
下游能力：06 reliability（IaC GitOps + release gate）

模組七：跨節點與平台整合

Wed, 22 Apr 2026 00:00:00 +0000

跨節點與平台整合的核心目標是把「單一 Go process 內的正確邊界」延伸到外部基礎設施。前六個模組先建立 goroutine lifecycle、WebSocket 連線、runtime 診斷、事件邊界、測試與操作語意；本模組處理服務進入多節點、多資料來源、多觀測工具與部署平台後會出現的新責任。

本模組已開始補成正文。章節先定義問題邊界與前置脈絡，再逐步補上 transaction、outbox、跨節點 WebSocket、observability、部署與可靠性驗證的實作語意；後續仍可依實戰需求繼續擴寫。

與 Backend 教材的分工

本模組保留在 Go 進階篇，因為它要回答的是「Go 服務跨出單一 process 前，程式內部需要準備哪些 port、訊號、錯誤語意與測試合約」。具體資料庫、Redis、RabbitMQ、observability、Kubernetes 或 CI 平台操作，會放在跨語言的 Backend 服務實務指南。

章節列表

章節	主題	承接問題	Backend 實作
7.1	資料庫 transaction 與 schema migration	狀態邊界進入持久化層後如何維持一致	資料庫與持久化
7.2	Durable queue、outbox 與 idempotency	事件跨 process 後如何避免遺失、重複與半成功	訊息佇列與事件傳遞
7.3	跨節點 WebSocket、presence 與重連協定	多台 server 如何管理訂閱、推送與連線狀態	快取與 Redis、訊息佇列
7.4	Observability pipeline、metrics 與 tracing	log、metric、trace 如何組成可操作的診斷系統	可觀測性平台
7.5	Kubernetes、systemd 與 load balancer 合約	部署平台如何影響 shutdown、health 與資源限制	部署平台與網路入口
7.6	CI、fuzz、load test 與 chaos testing	測試如何從單一行為擴展到系統可靠性	可靠性驗證流程

本模組和前面章節的關係

本模組適合在你已經理解單一 Go 服務的內部邊界後閱讀，用來補足生產環境常見的外部系統責任。

事件與狀態邊界先讀模組四：架構邊界與事件系統。
WebSocket lifecycle 先讀模組二：WebSocket 服務架構。
測試可靠性先讀模組五：測試與可靠性。
操作語意先讀模組六：生產操作。

學習時間

目前已可作為第一輪正文閱讀，完整學習時間可隨後續擴寫再調整。

5.8 Deployment Rollout with Drain and Rollback（實作示範）

Mon, 11 May 2026 00:00:00 +0000

Deployment rollout with drain and rollback 的核心責任是把版本、流量、連線、設定與回退條件拆成可驗證批次。這篇以 checkout service 為例，示範平台切換如何從 preflight、canary、drain 到事故回退都保留一致證據。

本篇以 5.2 Kubernetes 部署策略與 5.3 load balancer 合約為前置知識——rollout 批次、probe 對齊、drain contract 等概念在該兩篇定義，本篇直接操作化。lifecycle 狀態的完整定義見 5.6 Platform Lifecycle Contract。

服務路徑與切換責任

這條路徑是 client -> load balancer -> checkout-api -> payment provider/order db/order event。部署期間新舊版本會同時承接流量，核心風險在流量生命週期是否可收斂，image 替換本身反而是最可預測的部分。

切換責任分三層：

版本可啟動：container/runtime/config 可用。
版本可接流量：readiness 與依賴狀態對齊。
版本可退場：drain 與在途請求可收束。

Preflight：先驗證可服務基線

Preflight 的責任是把「可啟動」與「可服務」拆開驗證。最小檢查包含：

image 與 runtime config 版本對齊。
secret 已注入且權限正確。
startup/readiness probe 能反映真實依賴狀態。
load balancer contract 參數與服務期望一致。
service discovery 註冊與摘除路徑可用。

Preflight 失敗時不進 canary。先把失敗收斂在控制面，避免切流後才發現版本不可服務。

Preflight 自動化

手動 preflight 在低頻部署時可行，部署頻率上升後會成為瓶頸或被跳過。穩定做法是把 preflight 檢查嵌入 CI/CD pipeline 的 pre-deploy stage：

image 與 config 版本對齊檢查：pipeline 比對即將部署的 image tag 與 ConfigMap / Secret 版本是否在相容矩陣內。版本矩陣可維護在 git（如 deploy/compat-matrix.yaml），CI 自動比對。
infra drift detection：部署前用 IaC 工具（Terraform plan、Crossplane drift check）掃描目標環境的實際狀態是否跟宣告狀態一致。drift 存在時暫停部署——在已漂移的環境上部署新版本，會把漂移與版本變更的影響混在一起，事故時無法分辨根因。
probe 語意驗證：在 staging 環境對新版本觸發 startup → readiness → liveness 全流程，確認 probe 回應與依賴就緒條件吻合。這步抓的是 probe 設定退化（如 readiness endpoint 被改成永遠回 200）。
rollback 可行性驗證：確認舊版本 image 仍在 registry 且可拉取、舊版本 config 仍相容。rollback 能力在 preflight 階段驗證，比事故時才發現「舊版拉不到」代價低得多。

Preflight 自動化的產出是一份 go/no-go 報告，進入 6.8 Release Gate 作為放行依據。pipeline 中的 preflight stage 失敗應阻擋部署而非產生警告——可忽略的 preflight 等於沒有 preflight。

Canary Batch 與 Stop Condition

小流量先驗證新版本行為，再決定是否擴批——Canary 回答的是「這個版本值不值得擴大」。

批次階段	判讀重點	停損條件
1-5%	per-version error rate、p95/p99 latency	錯誤率高於基線、延遲持續惡化
10-25%	payment dependency timeout、fallback 比例	依賴 timeout 連續超門檻
50%	drain 成功率、reconnect 波形、下游事件完整性	drain 未完成或 reconnect storm
100% 前	新舊版本差異是否收斂、rollback 可行性	仍需依賴舊版本特殊路徑

canary 判讀要維持 per-version 視角。只看整體服務平均值會掩蓋新版本局部退化。

Traffic / Drain：把退場變成可驗證流程

Drain 的責任是讓舊版本在下線前完成在途請求，不讓 rollout 把短暫切換放大成用戶錯誤。

退場順序：

舊實例 readiness 先轉 not-ready 停接新流量。
保留 drain 窗口完成 in-flight request。
確認連線數下降到門檻後再終止進程。
驗證無異常 reconnect 尖峰再進下一批。

Drain 條件的完整 workload 分類回到 5.6 Platform Lifecycle Contract，本段以 checkout service 為例：短 API 的 draining 窗口可短，長輪詢與 webhook callback 要更保守。

Rollback Compatibility

舊版本回來時仍可運作，是 rollback 能成立的前提——回退如果變成第二次故障，就失去了回退的工程價值。

要先驗證四個相容面：

config 相容：新設定不會讓舊版啟動失敗。
schema 相容：資料結構仍可被舊版讀取。
cache key 相容：舊版可讀新快取或有 fallback。
event schema 相容：舊版 consumer 不會因新事件欄位崩潰。

若這四項未完成，所謂 rollback 只會停在「版本回切」，無法恢復服務正確性。

Evidence Package

每一批切換要可被判讀、可被追責、可被回放——部署 evidence 支撐這三個條件。

欄位	內容
Source	deployment logs、LB metrics、service metrics、dependency logs
Time range	每批 rollout/drain 觀察窗口
Query link	per-version error、latency、5xx、timeout、drain completion
Owner	platform owner、checkout owner、SRE on-call
Data quality	指標延遲、分區覆蓋、log 掉點
Confidence	confirmed / suspected / needs follow-up
Known gap	尚未覆蓋長連線場景、低流量區域樣本不足

這份 evidence 要對齊 4.20 Observability Evidence Package。

Release Gate

Release gate 的責任是決定下一批切換與是否凍結 rollout，不是報告「目前看起來正常」。

Gate 欄位	最小內容
Gate decision	放行下一批、維持 canary、freeze rollout、rollback version
Checks	per-version SLI、dependency timeout、drain completion
Stop condition	error burn rate、reconnect storm、drain 逾時
Rollback window	可回切時間、舊版可服務窗口、config 回退窗口
Owner	release owner、platform on-call

這組欄位要對齊 6.8 Release Gate。

Incident Decision Log

freeze rollout、rollback version、隔離 region、延長 drain 都屬事故決策，需寫入 8.19 Incident Decision Log。涉及流量規則 / control plane 設定推送的決策、見 5.7 跟 8.23 Control Plane Decision Log。

 1incident_decision:
 2  timestamp: 2026-05-11T15:06:00Z
 3  decision: "freeze rollout at 25% and rollback one region"
 4  context: "new version timeout to payment provider increased in ap-northeast"
 5  evidence:
 6    - query: checkout_error_rate_by_version_region
 7    - query: payment_timeout_ratio_by_region
 8  owner: release-incident-commander
 9  expected_effect: "contain customer impact and restore baseline success rate"
10  rollback_condition: "timeout ratio does not recover after rollback batch completes"

Case Write-back 與邊界

這篇回寫對齊 5.C9 反例、5.C1 Tradeshift 與 5.C3 Orbitera：前者看切換失序，後兩者看遷移路徑與回退策略。preflight / canary / drain 各階段的生命週期定義回到 5.6 Platform Lifecycle Contract。

這篇不處理 schema migration 本身、cache stampede 或 queue replay。若核心風險在資料正式狀態、快取回源或事件恢復，路由到 1.7 Schema Migration Rollout 證據、2.9 Cache Migration 與 Stampede Rollback 或 3.8 Queue Consumer Retry 與 Replay Handoff。

Traefik

Fri, 01 May 2026 00:00:00 +0000

Traefik 是 cloud-native reverse proxy / ingress、承擔三個責任：auto-discovery（從 Docker / K8s / Consul / file 自動發現 backend）、dynamic config（不 reload、即時更新）、ACME 自動 TLS（Let’s Encrypt 整合）。設計取捨偏向「cloud-native 簡潔 + auto-discovery 為核心 + middleware chain extensibility」、適合 Docker / K8s 中小規模、大規模 / 複雜 traffic management 跟 nginx / envoy 比相對弱。

對「Docker / K8s ingress、需要 auto-discovery、ACME 自動 TLS、配置簡潔」這條路徑、Traefik 是 cloud-native first 選擇。

本章目標

讀完本章後、你應該能：

部署 Traefik 到 Docker / K8s
配置 dynamic provider（labels / annotations / CRD / file）
配置 ACME 自動 TLS
設計 middleware chain（auth / rate limit / circuit breaker）
評估 Traefik vs nginx vs Envoy 的選用

最短路徑：5 分鐘把 Traefik 跑起來

 1# 1. Docker 跑 Traefik + dashboard
 2docker run -d -p 80:80 -p 8080:8080 \
 3  -v /var/run/docker.sock:/var/run/docker.sock \
 4  traefik:v3 --api.insecure=true --providers.docker
 5
 6# 2. 用 docker label 配置 routing
 7docker run -d --label "traefik.http.routers.demo.rule=Host(\`demo.local\`)" nginx
 8
 9# 3. 訪 dashboard 驗證
10curl -s http://localhost:8080/api/http/routers | jq '.[].rule'

日常操作與決策形狀

Provider auto-discovery

子議題：

Docker provider：從 container labels 讀 config
Kubernetes Ingress provider：從 Ingress resource
Kubernetes CRD provider：Traefik IngressRoute CRD
Consul / Etcd provider：從 KV store
File provider：YAML / TOML 靜態 file

IngressRoute（K8s CRD）

子議題：

Traefik CRD：IngressRoute / Middleware / TLSOption / ServersTransport
比 Ingress 表達力強（middleware chain / TLS option / multi-protocol）
跟 Gateway API 對比

Middleware chain

子議題：

內建 middleware：headers / rate limit / basic auth / forward auth / retry / circuit breaker / compress / IP whitelist
自訂 middleware：plugin（Yaegi-based）
順序：定義 middleware → 在 router 引用

進階主題（按需閱讀）

ACME 自動 TLS

子議題：

Let’s Encrypt 整合（自動憑證 + 續期）
DNS challenge（適合 wildcard）vs HTTP challenge（適合單 domain）
多 resolver 配置（staging / production / 不同 CA）
對應 ACME storage（local / KV / Traefik Hub）

Provider weight / priority

子議題：

多 provider 同時跑、config 來源衝突處理
Provider 優先順序
對應 dynamic config debug

Traefik Hub（managed）

子議題：

Traefik Hub：商業 managed control plane
適合：跨 cluster 統一管理 / API Gateway portal
跟 self-host Traefik 對比

跟 nginx / Envoy 對比

子議題：

Traefik 強：cloud-native auto-discovery、配置簡潔
nginx 強：穩定 + 配置控制力 + 大量 community recipe
Envoy 強：xDS dynamic config、advanced traffic management
選型判讀：Docker / K8s 小中規模 → Traefik；複雜 traffic → Envoy；標準 HTTP → nginx

Plugin 機制（Yaegi）

子議題：

Traefik plugins 用 Yaegi（Go interpreter）跑、不需 recompile
Plugin catalog（社群 + 官方）
適合：客戶 auth / metric / transformation 小邏輯
對應 Envoy WASM extension 對比

Multi-protocol

子議題：

HTTP / HTTPS / TCP / UDP
gRPC（HTTP/2）原生支援
WebSocket sticky session

排錯快速判讀

Service 沒被發現

操作原則：先看 provider 是否啟用、再看 label / annotation / CRD 配置。

1curl -s http://localhost:8080/api/http/services | jq '.[].name'

Route 衝突

操作原則：兩個 router 同 rule，看 priority 排序。判讀：dashboard 看 router list。

ACME rate limit

操作原則：Let’s Encrypt 有 rate limit、staging environment 先測再切 production。

Middleware chain 順序錯

操作原則：middleware 順序影響行為（auth before rate limit vs after）。判讀：dashboard 看 middleware order。

Dashboard 連不上

操作原則：dashboard 預設 8080、需要 entrypoint 配置。判讀：traefik.yml + entrypoints 設定。

何時改走其他服務

需求形狀	改走
配置控制力 / 大量 community 模板	nginx
Advanced traffic / xDS	Envoy
AWS managed	AWS ELB
Service mesh	Istio / Linkerd / Consul Connect
Gateway API standard	Envoy Gateway / Contour
純 dev / local	Docker Compose + direct port mapping

不在本頁內的主題

Traefik plugin 開發
Yaegi Go interpreter 細節
Traefik Hub 商業細節
各 cloud provider 整合差異

案例回寫

跨 vendor 對照

案例	對 Traefik 的對應
5.C9 cutover without drain	Traefik auto-discovery 在 service 下線時、要靠 health check + grace period 等價 drain
5.C10 規模對照	Docker / K8s 中小規模選 Traefik 簡潔、大規模通常升階到 Envoy / ingress-nginx 或 mesh

待補 Traefik 案例：Traefik Labs customer story、IngressRoute CRD 大規模採用、Traefik Hub 早期 adopter。

下一步路由

上游概念：5.3 LB Contract
平行 vendor：nginx、Envoy
下游能力：Kubernetes vendor 頁

5.9 邊緣分發與靜態資源（CDN / Origin Protection）

Wed, 27 May 2026 00:00:00 +0000

邊緣分發的核心責任是把靜態與半靜態內容放到離使用者最近的網路節點，讓 origin 不必為每一筆讀取請求承擔流量與延遲。CDN 屬於部署平台的網路入口層，跟 02 模組的應用層快取是不同責任：CDN 解決「請求是否需要進到應用程式」，應用層快取解決「應用程式如何降低資料層讀寫成本」。這個邊界清楚後，origin 保護策略與快取一致性設計才能各自展開。

三層快取的責任分工

CDN、應用層快取與資料層快取串成一條快取分層。每一層各有自己的 freshness 模型、失效路徑與失敗代價，需要各自設計策略。

層級	主要載體	主要責任	失效成本
邊緣層	CDN edge node、browser cache	降低跨網延遲、保護 origin 流量	全球節點 purge
應用層	Redis、in-memory cache、cache aside	降低資料層查詢成本	區域 cluster purge
資料層快取	DB buffer pool、query cache	降低硬碟 I/O	內部自動管理

讀者實作時要先判斷需求屬於哪一層。把使用者頭像、商品圖片、活動 banner 放邊緣層；把熱門商品價格、會員等級放應用層；DB 自身的 buffer pool 留給資料庫引擎管理。混用會造成失效路徑互相覆蓋，事故時難以判斷快取漂移來自哪一層。

Origin Protection 的設計責任

CDN 在規模成長路徑上承擔 origin protection。當 KOL 引流或熱門活動同秒帶入大量請求時，沒有邊緣層遮蔽，origin 的應用伺服器、API gateway 與資料庫會被同步擊穿。邊緣層的責任是讓 origin 流量曲線跟使用者請求曲線解耦。

origin protection 的核心策略包含三個方向：

cache hit ratio 優化：把高頻、可共用的內容做成可快取資源（含正確的 cache-control header、ETag 跟 vary 設計）。命中率每提升 10 個百分點，origin 流量幾乎等比例下降。
回源行為控制：edge 沒命中時用 Cache Stampede 保護機制（origin shield 是 CDN 內部多一層中央節點集中回源、coalescing / request collapsing 把同時打進來的 N 個請求合併成一次 origin 呼叫）、避免擊穿。
failure fallback：origin 不健康時、edge 可以回傳舊版本（stale-while-revalidate / stale-if-error）、避免使用者直接看到 5xx。代價是 Stale Data 風險暫時提高、需要在 freshness budget 內。

Origin shield 跟 request coalescing 常被混為一談，兩者解決的問題不同。Origin shield 在 CDN 內部插入一層中央節點——全球 edge POP 的 cache miss 先集中到 shield 節點，shield 再向 origin 回源；它解決的是「N 個 edge POP 同時 miss 變成 N 次 origin 請求」的扇出放大。Request coalescing（也叫 request collapsing）在單一節點內把同時到達的多個相同請求合併成一次 origin 呼叫；它解決的是「同一個 edge POP 在同一毫秒收到 1000 個相同請求」的並發放大。兩者是不同層級的保護——shield 跨節點收斂、coalescing 單節點收斂——可以同時啟用形成兩層防線。

這三項決定了「能不能撐住高峰」。三項做齊才能形成保護網；缺項時邊緣層僅能發揮降低延遲的效果。

Cacheable vs Non-Cacheable 的判讀

CDN 適合承接的資源有明確判讀條件：對所有使用者一致、且可容忍短暫舊版。符合這兩個條件的資源放邊緣層收益最高，不符合的留在應用層或 origin 處理。

資源類型	適合放 CDN？	判讀理由
靜態 asset（JS/CSS）	適合	內容與使用者無關，hash 命名後可長期快取
圖片、影片	適合	公開資源，跨使用者共用，命中率高
商品頁、活動頁	條件適合	對未登入者一致；對登入者需要分版本或退到應用層
訂單頁、會員中心	不適合	跟特定使用者綁定，邊緣層無法共用
個人化推薦	不適合	每個請求結果不同，命中率近於零
寫入 API	不適合	邊緣層不該攔截狀態改變

這張表覆蓋傳統靜態 / 動態二分情境。邊緣層演化出來的中間態超出表格範圍 — 包含 API responses with short TTL（GET、idempotent）、SSR / SSG 混合頁、signed URL / per-user 私有 asset（CloudFront / Cloudflare 可帶簽章對特定 user 快取）、i18n / 地理變體用 Vary header 處理跨 locale 共用、以及 edge personalization / edge compute（Cloudflare Workers、Lambda@Edge、Akamai EdgeWorkers）。進入這層要評估 edge compute 成本與 cache key 設計複雜度、不是簡單套表決定。

判讀後仍要再對齊 freshness：商品價格在限時活動期間每 5 分鐘改一次，10 分鐘 TTL 就會出現超賣或顯示差價。這類情境要把價格放應用層快取、頁面結構放 CDN，整頁邊緣化會超出 freshness budget。

Purge 與 Invalidation 的操作模型

CDN 的 Cache Invalidation 跟應用層的失效路徑不一樣：應用層 purge 在自家 cluster 內可控，CDN purge 要等全球節點同步。傳統 origin-pull CDN 的全球 purge 需要數秒到數十秒；現代 push-based CDN（Cloudflare、Fastly 等）的 instant purge 在 150ms 級別、語意接近同步、但這條能力依 vendor 而異、要事前驗證。

操作上的三種策略各有適用場景：

TTL 自然過期：適合內容變動慢、不需要立即生效的資源。優點是不依賴 purge API，缺點是無法應對緊急下架。搭配 stale-while-revalidate 後可以兼顧低 origin 壓力與最終新鮮度、是現代 default 而非「弱版本」。
顯式 purge：適合內容變動時要立刻生效的場景（價格更新、文章下架、合規移除）。要把 purge 列入發布流程，事故期能在分鐘內收回錯誤內容。
版本化路徑：適合 JS/CSS 等可永久快取的資源。檔名含 hash（app.a3f1b2.js），新版本上線時直接換路徑、舊版本自然失效。這是命中率最高的策略，因為可以設定 max-age=31536000, immutable。

這三種策略以 origin pull 模型為主、是基底但不窮盡。現代 CDN 還有兩種重要策略需要展開。

Tag-based Purge 的操作模型

Tag-based / surrogate-key purge（Fastly surrogate key、Cloudflare cache tag、Akamai cache tag）是大型內容系統的事實標準。它解決的核心問題是「一個業務事件需要同時失效多個 URL」——商品下架要同時 purge 商品頁、商品圖、搜尋結果頁中含該商品的快取。

操作流程分三步：

打 tag：origin 在 response header 中標記 tag（如 Surrogate-Key: product-123 category-electronics）。CDN 存快取時同時建立 tag → URL 的反向索引。
按 tag purge：業務系統發出 PURGE tag=product-123 API 呼叫，CDN 用反向索引找出所有帶這個 tag 的快取項目並失效。一次 API 呼叫可能失效數百個 URL。
回源補快取：被 purge 的 URL 下一次被請求時回源、重新快取。搭配 stale-while-revalidate 可以讓第一個回源請求不阻塞使用者。

Tag-based purge 跟顯式 purge（按 URL purge）的本質差異在於「失效單位是業務實體、不是 URL」。按 URL purge 要在業務端維護「一個商品對應哪些 URL」的映射，tag purge 把這個映射交給 CDN 的反向索引。代價是 tag 設計要跟業務模型對齊——tag 太粗（一個 tag 覆蓋太多資源）會過度 purge，tag 太細會退化成按 URL purge。

Push-based instant purge（Cloudflare、Fastly 規格 <150ms 全球同步）讓全球 purge 從「分鐘級」變成「準同步」。選擇策略時要按 vendor 能力跟資源更新模式組合。

選錯策略的代價會在事故時放大。把限時優惠的價格用「TTL 自然過期」策略佈在 CDN、活動結束後仍有客人看到舊價格繼續下單、客服與退款成本會壓回業務端。

判讀訊號

訊號	判讀重點	對應動作
origin 流量隨使用者線性成長	cache hit ratio 偏低，邊緣層沒發揮 origin protection	檢查 cache-control header、命中率分布、coalescing 設定
edge 命中率忽然下降	purge 設定誤觸全網、或 cache key 設計過細	檢查近期 purge 操作、vary 與 query string 設計
purge 後仍看到舊內容	全球節點同步延遲、或 CDN 與應用層快取沒對齊	確認 CDN purge 完成訊號、再追應用層快取狀態
高峰時 origin 出現 5xx 尖峰	edge 沒做 stale-if-error，origin 過載直接打回使用者	啟用 stale-while-revalidate、檢查 origin shield 設定
部分區域延遲偏高	區域節點覆蓋不足、或回源走錯區域	檢查路由策略、加開 edge POP、考慮多 CDN 策略

常見誤區

CDN 跟「加速工具」的混淆，會讓 origin protection 跟一致性責任被忽略。多數團隊上線後第一次撞牆，是 KOL 引流或活動高峰把 origin 直接打掛，事後才發現 CDN 只覆蓋了靜態 asset、HTML 與 API 都直接打回 origin。

把 purge 當成同步操作也容易出事。緊急下架觸發 purge 後立刻通知公關「已下線」，但全球節點還沒收斂，仍有區域看到原內容。這類風險要把「purge 已完成」當成可觀測訊號處理，不是 API 回 200 就視為完成。

把 CDN 當成應用層快取替代品則是另一個極端。商品價格、會員等級這類「跟使用者狀態相關」的資料放邊緣層，會在用戶切帳號、優惠變更時暴露其他人的資料或舊狀態，是 Stale Read 的擴大版。

定位邊界

CDN 專注「靜態與半靜態內容的網路層分發」。當問題進入動態 API 的延遲、跨服務一致性、寫入路徑保護，責任分別交給 5.3 load balancer 合約、02 cache aside 與 03 message queue 模組。

跟 07 入口治理的交接：CDN 同時是公網入口，需要承接 WAF、bot mitigation、TLS termination 等資安責任。邊緣層的安全設定不可遺漏，否則 origin 被繞過直接攻擊。

案例回寫

邊緣分發策略可用以下案例回寫：

9.C13 Hotstar：1800 萬同時觀眾的 IPL 直播 — 極端峰值靠多 CDN + origin shield 把 origin 流量壓在容量範圍內。Hotstar 的具體做法是把 hot content（live stream segment）跟 warm content（VOD）分配到不同 CDN provider、利用「edge cache miss 時不是同時打 origin」這條 cache stampede 防禦機制讓 origin 流量曲線跟使用者請求曲線解耦。對照本章「origin protection」段三大策略落地。
9.C18 Zoom：COVID 30 倍突發 — 30 倍突發中，登入頁、會議連結頁這類靜態資源由邊緣層吸收絕大部分讀取流量，API 叢集只面對真實的會議建立 / 結束請求。對照本章「Cacheable vs Non-Cacheable 判讀」段：登入頁屬未登入者一致、適合邊緣化；會議內互動屬寫入 API、保持在 origin。
2.C7 Cloudflare Cache Reserve 與 Tiered Storage — Cloudflare 在 CDN 內部再分一層 Cache Reserve（持久層）、把 warm 內容從 origin 卸下、避免 edge LRU 淘汰後又回到 origin。對照本章「三層快取」段：邊緣層內部本身也能有 hot / warm 分層、是同一概念的遞迴應用。

三個案例依規模從外向內展開：Hotstar 是極端峰值下 origin protection 防禦的天花板測試、Zoom 是把非交易流量（登入 / 連結頁）分流降低 API 叢集壓力的標準應用、Cloudflare Cache Reserve 則展示 CDN vendor 自身把 hot / warm 內容再分層的內部架構。讀者可串著讀理解規模光譜、也可以挑一條深入。

跨模組路由

與 02 cache aside 的交接：應用層快取與邊緣層的失效路徑要對齊，避免兩層 stale 同時發生。
與 5.3 load balancer 合約的交接：edge miss 後流量進到 origin LB，超時與重試設定要協調。
與 7.3 入口治理的交接：CDN 是公網入口，WAF、TLS 與 bot mitigation 在邊緣層落地。
與 9.6 容量規劃的交接：cache hit ratio 是 origin 容量規劃的核心輸入，命中率假設失準會直接撞牆。

下一步路由

規模成長路線下一站 → 03 模組訊息佇列：邊緣層擋住讀流量後、寫流量與事務鏈的下一塊是非同步化。

其他延伸方向：

邊緣失效跟應用層失效串成 invalidation pipeline → 2.2 cache aside 與失效策略
高峰活動把 CDN 跟排隊機制組合成保護網 → 9.11 高峰事件準備
Origin 端的入口流量合約 → 5.3 load balancer 合約

4.9 Production 部署的資源評估原理

Tue, 12 May 2026 00:00:00 +0000

LLM 應用從本地實驗跨到 production 是個 phase transition、不是線性放大。本地 single-user 場景的「跑得起來」變 production 場景就要回答全新一組問題：100 個 user 同時打進來怎麼辦、每個 token 要多少錢、p99 latency 怎麼控、model service down 了怎麼處理。

本章寫的是「從本地實驗 → production 該想清楚的維度」、focus 在跨工具世代不變的原理。具體 framework（vLLM、TGI、Triton、SGLang）跟雲端服務（OpenAI / Anthropic / Bedrock）的選型不展開——這些半年一個世代、寫了會過時。本章建立的是「無論用哪套工具、都該回答」的設計取捨清單。

跟 4.1 RAG / 4.3 Tool use / 4.4 Agent 對應「應用怎麼設計」、本章對應「應用怎麼跑」。

本章目標

讀完本章後你能：

列出 production LLM 部署該評估的 6 個 dimension。
解釋 single-user benchmark 為什麼不能直接 extrapolate 到 multi-user 場景。
區分 latency-sensitive 跟 throughput-sensitive 應用的設計差別。
對成本模型（$/request、$/token、$/month）做合理估算。

從本地到 production 的 phase transition

本地 LLM 跑 RAG / MCP 的 baseline（hands-on 章節）：

維度	本地（single-user）
並發 user	1
Latency 要求	秒級 OK
Index 大小	< 100 MB
Cost	一次性硬體
Uptime	自己重啟
觀測	`tail log`

Production 場景每個維度都跳一個量級：

維度	Production（multi-tenant）
並發 user	10 - 10000
Latency 要求	p50 < 500 ms、p99 < 2 s
Index 大小	GB - TB
Cost	$ / request、$ / token、$ / month
Uptime	99.9% SLA
觀測	metrics、traces、dashboards

每個維度跳一個量級的 implication 不是「資源 × 10」、是「全新的失敗模式 + 新的設計取捨」。

維度 1：Concurrent users / Throughput

為什麼這個維度最關鍵

本地 single-user 的 baseline 數字（hands-on 紀錄的 RAM / latency）在 multi-user 場景下幾乎無法 extrapolate、根因是資源爭用會放大原本看不到的成本：

100 個 user 同時送 request → 不是「同樣 latency × 100」、是「queueing + memory contention + GPU 排隊」、單個 user 的 latency 可能漲 10×
同樣 model 服務 N 個 user → KV cache 占用要乘以 N、單卡 GPU 在容量限制下可能裝不下
Single-user 「200 ms latency」可能 production 變「p99 5 秒」

Key concept：batching

Batching 跟 KV cache 設計讓 GPU 能多 user 的 request 一次 forward pass、是 production inference server 的核心優化。但 batching 也帶取捨：

靜態 batching：等湊滿 N 個 request 才跑、提高 throughput、犧牲首字延遲
連續 batching（continuous batching）：vLLM / TGI 等用、新 request 動態加入正在跑的 batch、平衡 throughput + latency
No batching：每 request 獨立跑、latency 低、GPU 利用率差

選 batching 策略主要取決於 latency 跟 throughput 哪個重要：

應用場景	適合 batching 策略
互動式對話（IDE plugin、chatbot UI）	continuous batching、低 latency 優先
批次處理（document summarization、code review）	static batching、throughput 優先
Embedding 服務	batching 越大越好、embedding 是純 forward pass、batch 16-128 都 OK

評估 concurrent throughput

要做的測試（不在本章 hands-on、是 framework）：

Single-user baseline：measure single request 在 idle server 上的 latency
N-user load test：用 k6 / vegeta / 自寫 async client 跑 1、10、100 個並發 request
觀察 p50 / p95 / p99 latency 隨並發數變化：通常 < N=batch_size 時平、超過 batch_size 後 latency 線性漲
GPU memory 飽和點：tokens-in-flight 超過某個量、新 request 開始排隊

實務評估公式：

1Max concurrent users (steady state)
2    = (GPU memory available - model weights) / (per-user KV cache size)

例：H100 80 GB - 31B model 60 GB = 20 GB 可用 / 每 user 平均 200 MB KV cache = 100 個並發 user。

公式的失效條件（用這幾個 signal 判讀公式何時不可信）：

變長 context：per-user KV cache 隨 context 長度線性增長、長 context 用戶（10K+ tokens）的 KV cache 是短 context 用戶的 5-10 倍、用平均值會嚴重低估。修法：依 P95 context 長度估、不用 average。
Prefix cache 啟用：vLLM、TGI 等用 prefix sharing 大幅省 KV cache、實際容量比公式高 2-3 倍。修法：跑實測量 prefix cache hit rate。
Speculative decoding：drafter 跟 target 的 KV cache 都要算進去、每 user 佔用會比 dense baseline 高 10-20%。修法：用 drafter+target 合計算。
不同 batching 策略：static batching 上限是「batch_size × 等待時間」、continuous batching 是「平均 in-flight tokens」、不同策略下公式的「per-user」定義不同。

但這是上限、實際還要考慮 latency target。

維度 2：Latency budget

Latency-sensitive vs throughput-sensitive

兩類應用的設計取捨完全不同：

屬性	Latency-sensitive	Throughput-sensitive
範例	IDE 補完、chat UI、search assistant	批次標籤、文件摘要、離線 RAG ingest
目標 metric	p99 latency	tokens / second / GPU
User 經驗影響	直接（卡住）	間接（總時間）
Batching	小 batch / continuous	大 batch
資源規劃	預留 headroom 給 spike	跑滿 GPU 利用率

混合應用（如 chat with RAG）有兩段：retrieval（throughput-friendly、可 batch）+ generation（latency-sensitive、要 stream）。兩段獨立優化。

Latency 預算分配

一個 RAG 應用的 p99 latency 是各段加總：

1Total p99 = client → API gateway → retrieval → LLM prefill → LLM decode → response stream
2         ≈ 50 ms      20 ms        50 ms        500 ms       1500 ms      100 ms
3         ≈ 2.2 seconds

如果 p99 budget 是 2 秒、要先確認最大消耗段是哪個：

通常 LLM generation 是最大、是優化重心
Retrieval 在大 corpus 場景可能超過 100 ms、要 index 優化（HNSW、近似 nearest neighbor）
API gateway 通常可忽略、超過 50 ms 就有 SRE 議題

各段監控分開、把監控拆到各段才找得到 root cause；只看 total latency 會錯失定位線索。

維度 3：Cost model

三種計費單位

單位	怎麼算	適合
$/request	每 API call 固定價	簡單應用、可預測流量
$/token	看 input + output token 數	OpenAI / Anthropic 主流、混合輸入長度應用
$/server-hour	自家跑 GPU instance、月租	高 throughput、可預測 utilization

雲端 API（OpenAI / Anthropic）幾乎都 $/token、給定 model 不同 price tier。自家跑（vLLM on Lambda Labs / RunPod）是 $/server-hour。

成本估算 worked example

假設應用：

1000 active users / day
每 user 平均 10 requests / day
每 request 平均 1000 input tokens + 500 output tokens
用 Claude Sonnet 4.6（假設 $3 input / $15 output per million tokens）

每日 cost：

1total_requests = 1000 × 10 = 10000 / day
2input_tokens = 10000 × 1000 = 10M
3output_tokens = 10000 × 500 = 5M
4daily_cost = 10M × $3/M + 5M × $15/M = $30 + $75 = $105 / day
5monthly_cost ≈ $3150

跑自家 GPU 比較：

1H100 instance: ~$2/hour（以 2026 年 spot price 為例、實際隨雲廠商與當期報價變動）
2H100 monthly = $2 × 24 × 30 = $1440
3若 utilization > 50% 且團隊有 SRE 能力維運、自架較划算
4若 utilization < 30%、或團隊無 GPU 維運經驗、API 較划算

Breakeven 點通常在「持續高 utilization + 團隊有維運能力」——尖峰流量短的應用、或團隊無 GPU 維運經驗、API 更划算（不用養閒置 capacity 跟 SRE 人力）。實際判讀還要加合規 / 資料主權 / vendor lock-in 等非價格因素。

Hidden cost

容易漏算的：

Egress bandwidth：cloud GPU instance 出流量、AWS / GCP 都 $/GB
Storage：vector DB / log retention / metric retention
失敗 retry：5xx error 自動 retry、token 重算
Cold start：scale-to-zero 設定、cold start 浪費 5-30 秒 GPU time / 次

維度 4：Storage / Vector DB

本地 RAG demo 用 pickle、production 不行——pickle 不支援並發 read、不支援 update、不支援 partition、必須換 vector database。

Vector DB 的設計取捨

維度	取捨
Hosted vs self-host	Hosted（Pinecone、Weaviate Cloud）省維護、self-host 控制成本
In-memory vs disk-based	In-memory 快但記憶體限制、disk-based 大但 latency 高
HNSW vs flat	HNSW 近似但 sublinear、flat 精確但 linear
Update strategy	Periodic batch index rebuild vs incremental update

具體選型半年一變、本章不展開。設計時要回答的問題：

Corpus 多大？1M 以下 in-memory 就好、1M 以上要 disk-based
Update 頻率？每天一次 vs 即時、影響 architecture
Latency target？< 50 ms 要 in-memory / HNSW、< 200 ms 用 disk-based
並發 query 量？每秒 100 query 跟每秒 10000 query 設計完全不同

Index 大小成長

從 hands-on 章節 extrapolate：

Corpus 規模	Index 大小（含 chunks + embeddings）
1K docs	~50 MB
100K docs	~5 GB
1M docs	~50 GB
10M docs	~500 GB
100M docs	~5 TB

10M docs 以上、單機（256GB RAM、商用 SSD）放不進 in-memory index、要 sharding + 分散式 index。

維度 5：Observability

Single-user tail log 不夠 production 用。要看的 metric：

Latency metrics

TTFT (Time to First Token)：user-perceived「響應時間」、streaming 場景關鍵
TPS (Tokens per second)：generation 速度
End-to-end latency：含 retrieval + LLM + post-processing
Per-percentile breakdown：p50 / p90 / p95 / p99——p99 反映最差 user 體驗

Throughput metrics

Requests per second：API 端 RPS
Tokens per second（aggregate）：GPU 整體 throughput
Queue depth：等待 batch 的 request 數量、暴漲表示 overload

Cost metrics

$ per active user per day：產品經濟學基本盤
Cost per session：互動式應用單位成本
Cache hit rate：prompt cache / embedding cache 命中率、直接影響 cost

Quality metrics

Refusal rate：模型 refuse 回應的比例
Hallucination rate：（要 reviewer 標）
User feedback score：thumb up / down

工具：metrics / traces / logs 三層

1Metrics（Prometheus / Datadog / CloudWatch）
2    → time-series、aggregate、適合 alerting
3Traces（OpenTelemetry / Datadog APM）
4    → per-request、可追蹤跨服務 latency
5Logs（structured JSON、推 ELK / Loki）
6    → 詳細 context、debug 用

三層各司其職、各層保留專屬職責：metric 看到 p99 漲、用 trace 找哪個 request 哪段慢、用 log 看那 request 的具體 prompt / response。

維度 6：Reliability / SLA

可預期的失敗模式

失敗類型	處理
Transient GPU OOM	retry with smaller batch、circuit breaker
Inference timeout	切短 max_tokens、拒絕過長 prompt
Model server crash	health check + auto-restart（systemd / k8s）
Vector DB unavailable	fallback：跳過 RAG、純 chat 答
Upstream API rate limit	exponential backoff + jitter

Graceful degradation

設計 production LLM 應用、要回答「失敗時降級到什麼」：

Component down	Acceptable degradation
Vector DB	用 LLM 內知識回答 + 標明「未查最新文件」
RAG retrieval 但 LLM 仍跑	用退役 cache 結果 + retry
Primary LLM API	fallback 到 secondary（OpenAI ↔ Anthropic ↔ 本地）
全部 down	顯示維護頁、回 503 + Retry-After、避免直接 5xx

在 SLA 承諾下、每個 fallback 路徑都要事前設計、避免出事時臨時決策（早期 prototype / 內部工具可接受 reactive 處理、production 階段不行）。

Capacity planning

簡單公式：

1Required capacity = peak_concurrent_users × per_user_RAM
2                  × overhead_factor (1.3-1.5)
3                  × redundancy_factor (2x for HA)

例：peak 100 並發、每 user ~500 MB KV cache、overhead 1.3、HA 2x → 130 GB GPU memory。一張 H100 不夠、要兩張 A100 80GB 或 H100 + sharding。

跟本地 hands-on 的對照

維度	本地 hands-on 紀錄	Production 該量什麼
Single-user latency	30-60s for SDXL、5-20s for chat	p50 / p95 / p99 latency
Index size	~3.7 MB / 463 chunks	sharded index、GB-TB 規模
Process management	`pkill -9`	systemd / k8s liveness probe
Disk cleanup	手動 `ollama rm`	自動 retention policy
Cost	一次性硬體	$/token / day budget alerts
Observability	`tail log`	Prometheus + Grafana / Datadog
Failure response	自己重啟	auto-recover + alert + runbook

本地數字是「能跑」的證明、production 數字是「能用」的驗證。本地驗證完 architecture 後、production deployment 該重做 load test、不能 assume 線性 scale。

跨 framework 不變的設計問題

不管你用 vLLM / TGI / Triton / SGLang / OpenAI API、production 設計都要回答：

Latency vs throughput：哪個是主要 metric？
Batch strategy：static / continuous / per-request？
Cost ceiling：$/day budget 多少？超過怎麼處理？
Storage：vector DB 規模？update 頻率？
Observability：哪些 metric 是 alert worthy？
Reliability：failure mode + graceful degradation 設計
Capacity：peak + redundancy 需要多少 GPU memory

這 7 個問題回答一致時、framework 選擇通常不是 production 失敗的根因——資源評估跟設計取捨已對齊、framework 多半是配套選項。

何時這篇會過時

不會過時的部分：

6 個維度（concurrency / latency / cost / storage / observability / reliability）
Latency-sensitive vs throughput-sensitive 應用的設計差異
三類計費單位的取捨
Metrics / traces / logs 三層觀測
Graceful degradation 設計

會變的部分：

具體 inference framework（vLLM / TGI / SGLang 等）的 ranking
雲端 API price tier
哪些 vector DB 主流

新 framework 出來時、回到 6 維度 framework 問：它在哪個維度有突破？對既有設計問題的答案有沒有改變？通常會發現核心問題沒變、只是工具更熟。

跟其他章節的關係

hands-on RAG/MCP 資源：本地 baseline 數字、本章的 production extrapolation 起點
4.1 RAG / 4.3 Tool use / 4.4 Agent：應用層設計、本章是「應用如何跑」的補完
0.5 硬體記憶體預算：本地單機 perspective、本章對應 multi-machine production
1.7 排錯方法論：本地 trouble-shooting、本章是 production observability 的對照

5.C9 反例：平台切流未先 Draining

Thu, 07 May 2026 00:00:00 +0000

這個反例的核心責任是說明部署平台切換失敗常在 connection lifecycle 管理——平台元件本身健康，事故來源是切換時序錯位。

事故長相

平台切流一開始看似成功，新的 instance 也通過 readiness，但長連線、背景工作與 load balancer 仍把流量送到即將下線的節點。使用者看到的是短時間大量 5xx、重連風暴與 timeout。

典型 timeline：

T+0：開始切流，新版本 pod readiness 通過，LB 開始導入流量。
T+30s：5xx spike 出現。舊 pod 的 endpoint 尚未從所有 kube-proxy / envoy 移除，部分客戶端仍打到舊 pod。舊 pod 同時收到 SIGTERM 開始 shutdown，在途請求被中斷。
T+2m：長連線客戶端偵測到斷線，觸發 reconnect。大量客戶端同時重連到新 pod，形成 reconnect storm。新 pod 的連線數瞬間飆高，部分 pod 因連線數超出預期開始 timeout。
T+5m：on-call 判斷切流失敗，決定回退。但回退操作需要時間——DNS 權重切回、LB 規則恢復、舊 pod 重新啟動。
T+15m：回退完成，舊版本重新接流量。但 reconnect storm 尚未收斂，連線數曲線仍高於 baseline，客戶端在新舊入口之間震盪。
T+30m：連線數逐漸回落，錯誤率回到 baseline。事故實際影響時間遠超切流本身。

為什麼會擴大

事故擴大的根因是 drain、idle timeout、health check、client retry 四者節奏錯位。每一對的不同步都會放大問題：

drain 與 endpoint 摘除不同步：pod 收到 SIGTERM 開始 shutdown，但 endpoint 還在 LB 的可用集合中（endpoint controller 同步有延遲）。這段窗口內新請求仍被導到即將關閉的 pod，產生 5xx。解法是 preStop hook 先等 endpoint 傳播（5-15 秒），再開始 graceful shutdown。

idle timeout 與 drain window 不同步：LB 的 idle timeout 設 60 秒，但 drain window 只有 30 秒。drain 結束後 pod 被強制終止，LB 側認為連線還活著（60 秒內不算 idle），繼續送流量到已不存在的 pod。結果是 LB 拿到 connection reset，觸發重試或回 502。

health check 與 readiness 語意不同步：LB health check 每 10 秒打一次，連續 3 次失敗才摘除。pod 已經 not-ready 但 LB 要 30 秒後才反映。這 30 秒窗口跟 drain window 疊加，讓舊 pod 在 shutdown 狀態下持續收到流量。

client retry 與 reconnect 策略不同步：客戶端偵測到連線中斷後立即重試（無 backoff），大量客戶端同時重連。如果客戶端沒有 jitter，重連請求會集中在同一毫秒到達，形成 thundering herd。

這四組錯位在穩態下不會出現——穩態時 drain / timeout / health check 各自運作不衝突。只有在切流時四者同時被觸發，錯位才會互相放大。

回退判讀

回退分兩個階段，性質不同、節奏不同、不能合併執行。

第一階段：凍結 + 恢復穩定路徑（分鐘級）。發現切流失敗的第一動作是停止下一批切流（freeze rollout），然後恢復舊入口權重（DNS 加權切回 / LB 規則回復）。新版本 pod 不立即關閉——保留作為對照證據，也避免關閉動作觸發第二波 reconnect。這個階段的目標是「讓震盪不擴大」，所有動作要在 5 分鐘內完成。

第二階段：等待收斂 + 修正錯位（小時級）。凍結後進入觀察狀態。reconnect storm 需要時間消化——客戶端逐漸穩定到舊入口、連線數曲線下降、5xx 回到 baseline。觀察指標：連線數曲線、reconnect rate、per-version error rate。三項都回到 baseline 且持續 N 分鐘（通常 10-15 分鐘），才算穩定。穩定後開始修正：找出 drain / timeout / health check / retry 的具體錯位點，修正後重新進入小範圍驗證。

第一階段的陷阱是「回退了但沒凍結」——回退流量的同時繼續推下一批切流，兩個動作互相衝突。第二階段的陷阱是「時間到了就解凍」——用時間而非指標判斷穩定，可能在連線數仍高時重新切流。

這個事故教給後續章節什麼

5.3 load balancer 合約的「切流告警條件」段：四條告警（批次 5xx、reconnect rate、RTO 超時、per-version error rate 偏離）直接來自這類事故的觀測需求。
5.6 Platform Lifecycle Contract的「三種 Workload 的 Drain 差異」段：短 API、長連線、worker 的 drain 條件不同——這個事故揭露混用單一 drain window 的後果。
5.8 Rollout/Drain/Rollback的「Traffic / Drain」段退場順序：readiness 先轉 not-ready → 保留 drain 窗口 → 確認連線數下降 → 終止進程，是從這類事故的 timeline 反推出來的。

部署專屬告警條件

切流批次內 5xx 突增（相對於前一批的升幅超過閾值）
長連線重連率快速上升（reconnect rate 超過 baseline N 倍）
rollback time 超過既定 RTO（執行回退後恢復時間超標）
per-version error rate 偏離（新舊版本 error rate 差距持續不收斂）

這些告警的閾值要在 release plan 中先定義。切流期告警跟日常告警分流到不同 channel，避免日常 noise 淹沒切流期的關鍵訊號。

下一步路由

回 5.3 load balancer 合約看流量契約與回退框架。回 5.6 Platform Lifecycle Contract 看 drain 的 workload 分類。回 6.7 DR/Rollback Rehearsal 看回退演練如何預防這類事故。

Deployment Dry Run

Wed, 06 May 2026 00:00:00 +0000

Deployment Dry Run 的核心概念是「在正式部署前預演關鍵步驟」。它讓流程在低風險條件下先驗證 artifact、權限與目標環境配置。

概念位置

Deployment Dry Run 位在 build / test 完成後、production deploy 之前，通常以 preflight check、模擬發布或目標環境校驗實作。

可觀察訊號

正式部署常失敗於權限、路徑或配置差異。
團隊需要在不影響使用者前提下驗證部署條件。
發布流程包含高成本動作或不可逆步驟。

接近真實服務的例子

部署腳本先驗證 artifact 存在、環境密鑰可讀、目標 bucket 或 registry 可寫，再進入正式 deploy。

設計責任

Deployment Dry Run 要定義檢查範圍、成功條件、失敗回饋與執行時機，並和正式部署命令保持一致語意。

Consul

Fri, 01 May 2026 00:00:00 +0000

Consul 是 HashiCorp 出品的 service networking 平台、承擔三個責任：service registry + discovery + health check（跨 VM / container / bare metal）、KV store + watch（dynamic config）、service mesh（Consul Connect、mTLS sidecar）。設計取捨偏向「跨平台統一 registry + multi-datacenter 一級公民 + DNS interface」、適合非 K8s-only 環境。BSL 授權變動同 Terraform。

對「非 K8s 環境 service discovery、跨平台統一 registry、KV store + watch、跨 datacenter mesh」這條路徑、Consul 是首選。

本章目標

讀完本章後、你應該能：

部署 Consul cluster（Server + Agent）
註冊 service + 配置 health check
用 KV store + watch 做 dynamic config
部署 Consul Connect（mTLS service mesh）
評估 BSL 授權影響跟 alternative（etcd / ZooKeeper）

最短路徑：5 分鐘把 Consul 跑起來

 1# 1. 啟動 dev mode
 2consul agent -dev -client=0.0.0.0
 3
 4# 2. 註冊 service（用 JSON 定義）
 5cat > web.json <<'SVC'
 6{"service": {"name": "web", "port": 8080,
 7  "check": {"http": "http://localhost:8080/health", "interval": "10s"}}}
 8SVC
 9consul services register web.json
10
11# 3. 查詢（DNS + HTTP API）
12dig @127.0.0.1 -p 8600 web.service.consul SRV
13curl -s http://localhost:8500/v1/catalog/service/web | jq .

日常操作與決策形狀

Agent / Server 拓樸

子議題：

Server：Raft consensus、quorum（3 / 5 node）
Agent：每 host 一個、forward 到 server
Client mode（不參 Raft、純 forward）
對應 K8s 內 sidecar mode

Service registration

子議題：

API / CLI / config file 註冊
Health check：HTTP / TCP / Script / TTL
Tags / metadata
對應指令：consul services register、consul catalog services

KV store + watch

子議題：

HTTP API：PUT / GET / DELETE
Watch：long polling / blocking query
適合：dynamic config / feature flag / leader election
對應 consul-template 用 KV 模板生 config

進階主題（按需閱讀）

Consul Connect（mTLS service mesh）

子議題：

Sidecar proxy（Envoy-based）
Service intentions（誰可訪誰）
mTLS 自動憑證
跟 Istio / Linkerd 對比

DNS interface

子議題：

Consul DNS port 8600（dig 可訪）
跟 system resolver 整合（unbound / dnsmasq forward to Consul）
SRV record / A record
對應 service discovery 替代 client-side library

Multi-datacenter

子議題：

Consul 一級公民跨 DC 設計
WAN federation
Network areas
跟 etcd（單 DC focused）對比

ACL system

子議題：

Token-based ACL
Policy / Role
Bootstrap token / agent token / management token
對應 07 security IAM

BSL 授權影響

子議題：

2023 改 BSL（同 Terraform）
不能 host Consul-as-a-Service 對外
對 internal 用沒影響
Fork：HashFork / no major fork yet（vs OpenTofu 對 Terraform）

跟 etcd / ZooKeeper 對比

子議題：

etcd：K8s control plane 後端、API minimal
ZooKeeper：老牌、Java-heavy、Kafka 跟 HBase 用
Consul：service discovery first、DNS / health check 內建
選擇判讀：K8s 內 → etcd（就在那）；non-K8s 多 DC → Consul

Consul + Nomad / Vault integration

子議題：

跟 HashiCorp Nomad（替代 K8s）整合
跟 Vault（secrets）整合
三件套：Consul + Nomad + Vault

排錯快速判讀

Service 不出現在 catalog

操作原則：先確認 registration API 成功、再看 health check state。

1consul catalog services
2consul members
3consul catalog nodes -service=web

Health check flapping

操作原則：check interval / timeout 設定 + 應用本身不穩定。判讀：UI 看 check history。

Split brain（Raft）

操作原則：Server 數量 < quorum（< 半數）會 split brain。修法：recover snapshot / 加 server。

KV race condition

操作原則：多 client 同時改、要用 CAS（compare-and-swap）。判讀：API ModifyIndex。

Consul Connect sidecar 連不上

操作原則：proxy config 錯 / intention 沒設 / cert 過期。判讀：Envoy admin endpoint（sidecar 後面）。

何時改走其他服務

需求形狀	改走
K8s 內 service discovery	K8s 內建 Service / DNS
K8s service mesh	Istio / Linkerd / Cilium
純 K8s control plane backend	etcd
純 Java 生態	ZooKeeper / Eureka
BSL 敏感	etcd（OSI）/ ZooKeeper（OSI）
Cloud-native（AWS）	Service Connect for ECS / Cloud Map

不在本頁內的主題

Consul API 完整 reference
Vault / Nomad 細節（各自獨立工具）
Raft protocol 內部
BSL 法律細節

案例回寫

跨 vendor 對照

案例	對 Consul 的對應
5.C1 Tradeshift self-managed → EKS	Tradeshift 用 Linkerd 做切流、對照 Consul Connect 做跨叢集 mTLS 的取捨
5.C7 Airbnb Istio	大規模 mesh 升級節奏的對照、Consul Connect 在類似治理上要設計分批與回退窗口
5.C10 規模對照	非 K8s 多 DC 場景 Consul 首選、K8s-only 場景則退到 K8s 內建 service discovery

待補 Consul 案例：HashiCorp customer story、Bloomberg / Cloudflare / Stripe 等大規模 Consul 案例、Consul → K8s service mesh 遷移案例。

下一步路由

上游概念：5 deployment platform
平行 vendor：Kubernetes（K8s 內建 service discovery）
下游能力：07 security IAM、6 reliability

5.10 Outbound Tunnel 入口與生命週期

Tue, 16 Jun 2026 00:00:00 +0000

家用主機沒有固定 IP、路由器不想開 port，但手機要能連進來操作 — outbound tunnel 用反向連線解這個入口問題。它跟 load balancer 入口是兩種不同的入口形態：LB 假設 instance 有對外可達位址、流量從外網路由進來;tunnel 由本機進程主動外連到邊緣、把流量沿反向隧道帶回來、路由器零開 port、對公網零入站面。家用服務、個人自架工具、無固定 IP 的環境常用這種入口。

適用判斷

選 outbound tunnel 的前提是「要被外部觸及、但不想暴露公網入口」。典型場景：手機遠端操作自有主機、家庭網路內的服務對外、開發環境臨時對外驗證。服務本身值不值得自建、見 0.21 交付形態選型的個人自架工具段;這裡只處理「入口形態選了 tunnel 之後」的部署合約。

cloudflared（綁 Cloudflare 邊緣與網域）、Tailscale（綁私有網路 / Funnel 對外）、Boundary 各有定位差異，但入口生命週期的判讀框架相同。

tunnel contract 組成

tunnel 入口合約跟 load balancer contract 對照、差異集中在連線方向與就緒語意：

connection contract：本機進程主動對邊緣建立並維持反向隧道、無入站 port;隧道斷線的重連策略決定外部可達性的恢復速度。
readiness contract：對外可達 = 隧道已建立且後端服務已可服務。兩個條件任一不成立、外部請求就拿到 502 / 連線中斷。
ordering contract：啟動順序是後端服務先就緒、tunnel 再宣告 ready;關閉順序相反、tunnel 先收斂停止帶入新流量、後端再退出。
auth contract：tunnel 只負責把流量帶回來、本身不是認證。隧道網址是位址、不是密碼 — 任何拿到網址的人都可達後端、所以認證必須疊在 tunnel 之後（見下）。

生命週期與 readiness 對齊

tunnel 入口的就緒判讀比 LB 多一層。LB 的 health check 打後端 instance、通過代表可接流量;tunnel 場景下、「後端 health check 通過」不等於「外部可達」 — 還要隧道本身連上邊緣。readiness 要同時涵蓋兩者、否則會出現「服務自己覺得健康、外面卻連不進來」的盲區。

啟動順序錯位的後果具體：tunnel 比後端早 ready、邊緣開始導流量進來、後端還沒起、外部看到一批 502。所以 startup 階段 tunnel 的 ready 訊號要 gate 在後端 readiness 之後。關閉時序則相反、先讓 tunnel 停止帶入新連線、給在途請求收斂窗口、後端再 graceful shutdown;這層責任跟 5.6 Platform Lifecycle Contract 的 startup / readiness / drain 一致、只是 drain 的對象從 LB 摘流量換成 tunnel 收斂。

穩態維持與重連策略

隧道建立後進入穩態：tunnel 進程與邊緣之間維持長連線，邊緣用心跳（keepalive）偵測連線是否存活。心跳間隔與超時由供應商決定（cloudflared 預設每 5 秒心跳、連續失敗觸發重連；Tailscale 由 WireGuard 層的 persistent keepalive 維持 NAT 映射）。穩態下不需要額外操作，但要理解一個語意：邊緣側判定「連線已斷」到本機進程偵測到斷線之間有延遲，這段時間外部請求會 timeout 而非立即拿到錯誤。

連線中斷後 tunnel 進程自動重連，重連策略的關鍵是 backoff：首次斷線立即重試、連續失敗拉長間隔、避免在邊緣側故障時打滿重連請求。重連成功後 readiness 要重新驗證——隧道恢復不等於後端仍然健康，特別是斷線期間後端可能已經被別的事件影響。

隧道多連線與冗餘

cloudflared 預設對每個 tunnel 建立 4 條連線到不同邊緣節點（Cloudflare 在不同 data center 的 edge server）。單條連線斷線時，流量自動切到其餘連線，外部使用者感受不到中斷。4 條連線全部斷開才會觸發完全不可達。

Tailscale 的冗餘模型不同：WireGuard tunnel 是點對點連線，沒有多邊緣節點分散。Tailscale 的高可用靠 DERP relay server 做中繼——直連失敗時退到 relay，延遲增加但可達性維持。

這個差異在穩定性預期上很重要：cloudflared 的可達性依賴 Cloudflare 邊緣網路的多點冗餘，Tailscale 的可達性依賴直連品質與 DERP 中繼。選擇時要問「我的網路環境是否穩定到不需要多連線冗餘」。

故障模式：network 層與 application 層的分離

tunnel 斷線跟 LB health check 失敗是不同層的故障。LB health check 失敗多半是 application 層（後端掛了、依賴不通）；tunnel 斷線常是 network 層（邊緣連線中斷、本機外連受阻、供應商側問題）、而後端服務本身完全健康。事故判讀要先分清這兩層：後端 log 一切正常、但外部全部連不進來、第一個要看的是 tunnel 進程的連線狀態、不是後端。

這也改變監控訊號的設計。LB 場景看後端 5xx 與 latency 就能覆蓋多數入口問題；tunnel 場景要額外監控隧道本身的連線狀態與重連次數——隧道靜默斷掉時、後端指標一片祥和、唯一的訊號在 tunnel 進程那邊。

故障分類與判讀順序

tunnel 環境下的故障可按層級分類，判讀順序從外到內：

層級	症狀	判讀第一步
供應商邊緣	所有 tunnel 用戶同時受影響	查供應商 status page
本機外連	單一 tunnel 斷線、其他外連也有問題	查本機網路、NAT、防火牆
tunnel 進程	tunnel 進程 crash 或 hang	查 tunnel 進程 log 與 restart 狀態
後端服務	tunnel 正常但外部拿到 502	查後端服務 readiness
認證閘道	tunnel + 後端正常但外部拿到 403	查認證設定（token / ACL 過期）

判讀順序的重點是「先確認 tunnel 層是否正常、再往內看」。如果跳過 tunnel 層直接排查後端，會在後端 log 一切正常的情況下浪費時間。

認證必須疊在 tunnel 之後

tunnel 把後端的可達性開到了外部、但它不認證。隧道網址可能從瀏覽器紀錄、分享連結、Referer 外洩、不該被當成安全機制。所以 tunnel 之後必須疊認證閘道、且預設拒絕 — 未通過認證的流量不該觸及後端。

常見的疊法是邊緣與本機各一層：邊緣層（cloudflared 配 Cloudflare Access service token、Tailscale 配 ACL）讓未授權流量在邊緣就被擋、根本到不了本機;本機層（反向代理驗共享密鑰 / basic auth）作為邊緣萬一失效的縱深。入口威脅建模見 7.3 入口治理與伺服器防護;單人自用工具的裝置綁定認證見 7.2 單人裝置認證模型。

判讀訊號

訊號	判讀重點	對應動作
外部全部連不進來、後端 log 正常	故障在 network 層、隧道斷線	先查 tunnel 進程連線狀態、不是後端
啟動後短時間外部拿到一批 502	tunnel 比後端早 ready、導流量進空服務	把 tunnel ready gate 在後端 readiness 後
隧道頻繁重連、外部間歇中斷	本機外連不穩或邊緣側抖動	查 cloudflared / tailscaled 的重連 log、確認 backoff 間隔是否正常拉長
拿到網址的人直接連到後端	認證沒疊在 tunnel 之後、網址被當密碼	補邊緣 / 本機認證閘道、預設拒絕
部署切換隧道時對外中斷拉長	關閉順序錯位、tunnel 未先收斂	先停 tunnel 帶入新連線、再退後端

常見誤區

把 tunnel 網址當密碼、是最常見也最危險的誤判。網址不好猜不代表是祕密、它會從各種地方外洩、認證要靠 tunnel 之後的閘道、不是靠網址難猜。

把「後端健康」當成「外部可達」、忽略隧道本身是獨立的失效點。tunnel 場景的可達性是後端健康與隧道連線的交集、監控要覆蓋兩者。

把 tunnel 當「永久掛著」的常駐入口、放大暴露窗。自用場景常更適合用時起、用完關 — 暴露窗壓到最小;要常駐時、認證閘道與監控的投資等級要隨之上調。

把 tunnel 供應商視為零停機、不設本機降級預案。tunnel 依賴外部供應商的邊緣網路與協調伺服器，供應商事故期間本機服務完全健康但外部無法觸及。有降級需求的場景要準備替代入口路徑（如臨時開 port + 反向代理），或接受供應商 SLA 決定自身可用性。

跨模組路由

與 5.6 Platform Lifecycle Contract 的交接：tunnel 的 startup / readiness / drain 對齊生命週期合約、只是 drain 對象換成隧道收斂。
與 7.3 入口治理與伺服器防護的交接：tunnel 作為對外入口的威脅建模與認證疊法。
與 7.6 秘密管理與機器憑證治理的交接：tunnel 憑證與認證閘道密鑰的保管與輪替。
與 4 觀測的交接：隧道連線狀態與重連次數要進監控、否則 network 層故障無訊號。

下一步路由

要把 tunnel 入口放進整體生命週期、接著讀 5.6 Platform Lifecycle Contract。要把 tunnel 之後的認證做紮實、接著讀 7.3 入口治理與伺服器防護與 7.2 身分與授權邊界。判斷服務是否屬於個人自架工具形態、回 0.21 交付形態選型。

Kubernetes Graceful Shutdown：termination 序列跟你以為的不一樣

Mon, 18 May 2026 00:00:00 +0000

本文是 Kubernetes overview 的 implementation-layer deep article。Overview 已說明 K8s 在 deployment platform 譜系的定位、本文聚焦 pod termination 這個 production 最常踩、被誤解最深的議題：序列、配置、五個 case、跟 service mesh 整合。

Graceful shutdown 沒做對、500 期間每次 deploy 都吃 502

最常見的觸發場景：deploy 新 image、prometheus alert 在 5 分鐘內收到一波 502 / 503、SRE 翻 application log 看到「正在處理 request」「connection closed」交替出現。Application 本身沒 bug、但 K8s 在 pod terminate 時跟 traffic 來源 沒對齊步調、舊 pod 還在處理請求時就被 SIGKILL、新 request 還在打到準備關閉的 pod 上。

很多團隊修法是 把 terminationGracePeriodSeconds 從 30 拉到 120、暫時掩蓋問題；但症狀會在下次 rolling update / HPA scale-down / node drain 時換個形式回來。根因在 termination 序列 — pod 不是收到 SIGTERM 就 graceful、序列裡每一步出錯都有不同 fail mode。

Termination 序列：五步、每步都能爆

K8s 收到 delete pod 請求後、發生的事 按時間 是：

時序	事件	動作來源
t=0	API server 標 pod 為 Terminating	kubelet 收到 delete
t=0	Pod 從 Service Endpoints 移除（async）	endpoint controller
t=0	kubelet 跑 preStop hook（若有定義）	container runtime
t=preStop 結束	container 收到 SIGTERM	container runtime
t=SIGTERM + terminationGracePeriodSeconds	container 收到 SIGKILL	container runtime

關鍵誤解：

「pod 從 Service 移除」跟「container 收到 SIGTERM」是平行、不是序列。Endpoint controller 更新 Endpoints object → kube-proxy 重新寫 iptables → 各 node 的 traffic 才真正停 — 這條鏈通常需要 1-5 秒；同時間 SIGTERM 已經發給 application。
preStop hook 是「container 還在跑、SIGTERM 還沒發」期間執行。pre-Stop 設 sleep 10 是 production 標準作法 — 用 sleep 讓 endpoint controller 有時間把 pod 從 Service 移除、避免 SIGTERM 期間還有新 request 進來。
terminationGracePeriodSeconds 是 從 preStop 開始 計時、不是從 SIGTERM。preStop sleep 10s + application 30s graceful = 至少要設 40s。
graceful 不是 framework 自動的。Application 必須 主動處理 SIGTERM：拒絕新 request、等 in-flight 完成、close DB connection、flush log。沒處理 SIGTERM、container 會在 grace period 後被強殺。
readiness probe 在 Terminating 期間 仍會被執行、但結果不影響 traffic（已經從 Endpoints 移除）。但若 application 沒主動讓 readiness fail、service mesh / external LB 可能仍在送 request（依不同 mesh 行為）。

配置全圖

Deployment spec

 1apiVersion: apps/v1
 2kind: Deployment
 3spec:
 4  template:
 5    spec:
 6      terminationGracePeriodSeconds: 60          # SIGTERM 後 60s 才 SIGKILL
 7      containers:
 8        - name: app
 9          lifecycle:
10            preStop:
11              exec:
12                command: ["/bin/sh", "-c", "sleep 10"]
13          readinessProbe:
14            httpGet:
15              path: /healthz/ready
16              port: 8080
17            periodSeconds: 5
18            failureThreshold: 2

時序：t=0 preStop 開始 sleep 10s → t=10s container SIGTERM → t=70s SIGKILL（不是 t=60s、是 60s after SIGTERM）。

Application 處理 SIGTERM（Go 範例）

 1sigs := make(chan os.Signal, 1)
 2signal.Notify(sigs, syscall.SIGTERM)
 3
 4server := &http.Server{Addr: ":8080"}
 5go server.ListenAndServe()
 6
 7<-sigs                                              // 等 SIGTERM
 8log.Println("SIGTERM received, draining...")
 9
10// 1. readiness fail（讓 mesh-aware 流量停）
11ready.Store(false)
12
13// 2. wait 5s 讓 readiness probe failureThreshold 觸發
14time.Sleep(5 * time.Second)
15
16// 3. graceful shutdown server（拒新請求、等 in-flight）
17ctx, cancel := context.WithTimeout(context.Background(), 45*time.Second)
18defer cancel()
19server.Shutdown(ctx)
20
21// 4. close DB / cache / message consumer
22db.Close()
23consumer.Stop()
24
25// 5. flush log + exit
26logger.Sync()

關鍵：server.Shutdown(ctx) 是 拒新請求、等 in-flight、ctx timeout 設 grace period 減去 preStop sleep 跟 readiness fail 等待時間（60s - 10s - 5s = 45s）。

Production 故障演練

Case 1：Rolling update 期間 502 / 503

徵兆：每次 deploy 後 5 分鐘內 LB / ingress log 一波 502 / 503、application log 顯示「context canceled」「connection closed by peer」、新 pod 已 ready 但舊 pod 在 grace period 內仍收 request。

根因：沒設 preStop sleep、container 收到 SIGTERM 後立刻 server.Shutdown()、但 kube-proxy 還沒把舊 pod 從 iptables 移除、新 request 持續送到舊 pod、舊 pod 已拒收。

修法：preStop sleep 10、讓 endpoint propagation 完成再進入 SIGTERM 流程。

Case 2：Connection drain race，long-running request 被中斷

徵兆：deploy 後 application log 有大量 context canceled 對應到 long-running endpoint（例：報表生成、檔案上傳）、user 端看到 transaction 失敗、但短 request 沒事。

根因：long-running endpoint 處理時間 > terminationGracePeriodSeconds、server.Shutdown(ctx) ctx timeout 設太短、in-flight 強制中斷。

修法：

把 long-running endpoint 改 async（背景 job + status endpoint）、HTTP request 立刻 return job ID
短期：terminationGracePeriodSeconds 拉到 long-running 99 percentile + buffer
application 側 ctx timeout = grace period - preStop - readiness fail wait

Case 3：Init container 在 grace period 期間重啟、SIGTERM 沒到 main

徵兆：pod 顯示 Terminating 但 phase 一直在 Running、main container restart count + 1、application log 沒看到「SIGTERM received」。

根因：init container 用 restartPolicy: Always（K8s 1.28+ sidecar 模式）、或 main container 在 SIGTERM 前先 crash 觸發 restart、kubelet 在 restart 後 不重發 SIGTERM、main container 跑到 grace period 結束直接 SIGKILL。

修法：

Sidecar container（restartPolicy: Always）的 preStop 也要設 sleep、跟 main 同 lifecycle
main container readinessProbe 失敗時 別自動 restart（restartPolicy: OnFailure + crashLoopBackOff 觀察）
觀察 kubectl describe pod 的 events、SIGTERM 沒發出來會有 Killing container event 缺失

Case 4：StatefulSet 串行終止、總時間 = pod 數 × grace period

徵兆：StatefulSet rolling update / scale-down 比 Deployment 慢 N 倍（N = replica 數）、deploy 一個 5 replica 的 statefulset 要 5 分鐘以上。

根因：StatefulSet 預設 podManagementPolicy: OrderedReady — pod 串行終止 + 串行創建、每個 pod 至少要 grace period 完成才動下一個。Deployment 用 RollingUpdate 預設 maxUnavailable=25% 平行終止。

修法：

StatefulSet 改 podManagementPolicy: Parallel（若 application 不要求嚴格順序）
嚴格順序情境（Cassandra / Kafka / etcd）保留 OrderedReady、但 grace period 設 單 pod 必要時間、不要設 總時間能承受
接受序列化代價、把 deploy 排在低流量時段

Case 5：Job / CronJob 不 graceful、SIGTERM 直接 SIGKILL

徵兆：CronJob 在 Job timeout / pod eviction 時不 graceful、寫一半的 file 留在 PVC、下次跑時 corrupt；application log 沒「SIGTERM received」、直接斷。

根因：Job 的 activeDeadlineSeconds 到期 / node eviction 觸發時、K8s 對 Job pod 仍會發 SIGTERM、但 很多 batch framework（Spring Batch / Argo Workflow worker）沒處理 SIGTERM、application 沒主動 checkpoint。

修法：

Batch application 處理 SIGTERM、checkpoint 進度寫 storage、下次跑時 resume
不適合 checkpoint 的 batch、保證 idempotent re-run、SIGKILL 後重跑不會 corrupt
Job spec 加 terminationGracePeriodSeconds（預設 30、batch 通常要 60-300）

規模影響

Graceful shutdown 的成本主要在 deploy 時間 跟 capacity buffer：

規模因素	影響
terminationGracePeriod 60s	單 pod deploy ~70-80s（含 preStop + grace + new pod startup）
Deployment 100 replica + maxSurge 25%	全 deploy ~5-10 分鐘、需要 25% extra capacity（25 replica buffer）
StatefulSet 串行 + 60s grace	10 replica 約 10-12 分鐘、deploy window 要在低流量時段
HPA scale-down 跟 graceful 一起跑	scale-down 觸發 → preStop + grace + new metric → 下次 scale 判斷、avg 反應週期 ≈ 3-5 分鐘

實務 default：

Web service：terminationGracePeriodSeconds: 60、preStop sleep 10、application graceful 45s
Backend worker（消費 queue）：terminationGracePeriodSeconds: 120、preStop 不 sleep（用 readiness 控）、application 處理當前 message + commit offset
Batch job：terminationGracePeriodSeconds: 300、checkpoint pattern
StatefulSet（DB / queue）：grace period 對齊 vendor 建議（Kafka 90s、PostgreSQL 60s）

跟其他元件整合

Service mesh（Istio / Linkerd）

Service mesh sidecar（envoy / linkerd-proxy）也有自己的 termination — 通常比 main container 晚一點關。配置原則：

mesh sidecar 設 terminationGracePeriodSeconds 比 main 多 5-10s、main 處理完才換 sidecar
Istio 1.12+ 的 proxy.istio.io/config.holdApplicationUntilProxyStarts 控啟動順序、shutdown 也要對應
mTLS 環境 graceful 多一道：在 SIGTERM 後等 mesh 主動 close cert rotation、不要硬斷

Readiness probe 跟 mesh-aware traffic

純 K8s Service（kube-proxy iptables）：endpoint 移除後 已建立 connection 仍會跑完、新 connection 不來。Mesh-aware traffic（service mesh / external LB with health check）：要 readiness fail 才會停送。

修法：application graceful 第一步是 ready.Store(false) + 等 readiness probe 至少 fail 一次（5-10s）、才開始 server.Shutdown。

跟 Pod Disruption Budget（PDB）的衝突

Node drain 時 PDB 限制可同時 unavailable 的 pod 數、graceful shutdown 拖長會讓 drain 卡住。對策：

緊急 drain（node 硬體故障）：kubectl drain --grace-period=30 --force、接受短時間 502
正常 drain（升級 / 維運）：PDB 設 minAvailable: 、容許單 pod 慢慢 graceful
不要設 maxUnavailable: 0、會讓 drain 卡死

下一步

Application graceful 寫法：12-factor app disposability 章節給 framework-agnostic 模板、各語言 SDK 寫法見對應 framework
Queue consumer 的 graceful：訊息 ack / offset commit 必須在 SIGTERM 內完成、否則 duplicate message — 對應 03 message queue 模組的 consumer-design 段
跨 region / 多 cluster 的 graceful：multi-cluster service mesh（Istio multicluster / Linkerd multicluster）的 traffic shift 期間 graceful 行為跟單 cluster 不同、需要對齊 mesh 配置

4.10 衍生產物管理原理：什麼進 git、什麼不該

Tue, 12 May 2026 00:00:00 +0000

LLM 應用的 codebase 不只 source code、還含 embedding index、cache、model weights、prompt config、lockfile、log 等各種「衍生」或「外部」產物。每個產物該不該進 git、有沒有共通邏輯？

本章寫的是「source / derived / external 三類產物的判讀框架」、跟「production deployment 怎麼處理 share + reproducibility 取捨」。對應到 hands-on 系列實際遇到的問題——為什麼 RAG demo 的 index.pkl 進 .gitignore、Hugging Face model weights 為什麼不能塞進 repo、prompt template 該怎麼版本管理。

跟 4.9 Production resource planning 對應「production 怎麼跑」、本章對應「production 怎麼版本控制 + 部署」。

本章目標

讀完本章後你能：

用「source / derived / external」三分類判讀任何產物該不該進 git。
看到 .gitignore 設計、能解釋每條規則的邏輯。
在 reproducibility 跟 repo 大小之間做合理取捨。
知道 derived / external 產物該用什麼機制 share（registry、build script、artifact storage）。

三類產物 framework

類別	定義	例子	該進 git？
Source	人類撰寫、是真理來源	code、prompt template、test fixture、config schema	必須
Derived	從 source 自動產出、可重建	binary、index、cache、compiled output、generated docs	不該
External	從外部下載、跟 source 解耦	model weights、dependency package、dataset	用 registry / manifest

判讀問題：「刪掉重來、用什麼能 reconstruct 一模一樣？」

用人手寫 → source、必須 commit
用 build script + source → derived、commit manifest（如 lockfile）不 commit output
用 download script + URL → external、commit URL 不 commit content

這個 framework 跨任何技術 stack 都成立（不只 LLM）、但 LLM 應用尤其放大 derived / external 比例。

LLM 應用具體對應

Source（進 git）

產物	說明
程式 source code	wrapper script、framework 整合 code
Prompt template	system prompt、few-shot example、prompt structure
Config schema	哪些參數可調、合法範圍、default value
Test fixture	測試輸入 / 預期輸出 pair
Markdown content（如本 blog）	文章本身就是 source
`.gitignore` / lock file 規則	描述哪些不進 git 也是 source
Build script	`ingest.py`、`build.sh`、能從 source 重建 derived

Derived（不進 git、但 build path 進 git）

產物	為什麼不 commit	怎麼 share
`index.pkl`（RAG embedding index）	從 corpus + embedding model 重建、跟 model 版本綁、3.7 MB-GB 級	`ingest.py` script、跑一次就 reconstruct
Embedding cache（per-document hash）	跑時動態建、避免重 embed 同 chunk	不 share、各自 rebuild
Python `__pycache__/`	跑時自動產、Python 版本敏感	不 share、各自 rebuild
Compiled binary（如 `bin/mdtools`）	從 Go source build、平台敏感	source + build instructions、可選 release page 提供
Generated docs（如 Hugo `public/`）	從 markdown source build、deploy 時自動生	source + deploy pipeline
Log files	runtime output、量大、有 PII 風險	不 share、log retention 政策另立

External（不進 git、用 manifest / registry）

產物	Manifest / registry	例子
LLM model weights	Hugging Face / Ollama registry tag	`nomic-embed-text:latest`、`sd_xl_base_1.0`
Python dependency	`requirements.txt` / `pyproject.toml`	`requests==2.31.0`
Node modules	`package.json` + `package-lock.json`	`react@18.2.0`
Dataset	`data.dvc` / S3 URL + checksum	training data、eval set
Docker image	`Dockerfile` + image tag	`python:3.11-slim`

External 跟 derived 的差別：external 來自 git 外的 source、derived 來自 git 內的 source。機制上都用同套路徑——manifest 進 git、實際 bytes 存 registry、避免大檔直接進 commit history。

為什麼 derived / external 不該進 git

每條限制有具體技術理由：

Size

Git 設計給 source code（小、純文字、頻繁 diff）。Derived / external 通常大、binary、不適合：

Git 對 large binary 沒有有效 delta 演算法、每次小改 → 完整 copy 進 history
Repo size 線性漲、clone 變慢、CI cache 爆炸
GitHub 等服務有 file size 上限（GitHub 100 MB / file）

實例：scripts/rag-demo/index.pkl 3.7 MB、每次 corpus 改 → 重 ingest → 整檔變。Commit 100 次 = git history 多 370 MB。Clone 痛。

Reproducibility（反直覺）

直覺：「commit derived 保證每個 clone 都拿到一樣的 output」——錯。

實際：

Derived 跟 build env 綁（Python 3.13 build 的 pickle 在 3.14 不一定能 load）
Embedding index 跟 model version 綁（pull 不同 model 結果不同）
用舊 commit 的 derived 跑在新 env 反而比 rebuild 更脆弱

正確 reproducibility 機制：commit build instruction + lockfile、別人 rebuild 時用同樣輸入產同樣 output。

Update frequency mismatch

Source 改慢、derived 改快。content/ 加一句話、index.pkl 整個重建。如果都進 git：

90% 的 commit 是「rebuild artifact」、語意上不是真正的「source change」
git log 看不出真正 source 改動
diff review 被 derived noise 淹沒

Cost / Performance

CI / CD pipeline 通常自動 rebuild derived。不 commit 反而：

Source-only PR 較易 review（沒 generated diff）
CI build cache 重用、不需從 git 拉 derived
Deploy artifact registry 跟 git 分離、各自 scale

LLM 應用 `.gitignore` 設計模式

LLM 應用典型 .gitignore 結構：

# === Source-side build output (derived) ===
# Compiled binaries
bin/
dist/
build/
*.pyc
__pycache__/

# Hugo / static site generators
public/
.hugo_build.lock
resources/

# RAG / vector indexes (regenerable)
scripts/rag-demo/index.pkl
*.pkl
*.index

# Embedding caches
.embedding_cache/
.vector_cache/

# === External-bound (don't commit, use manifest) ===
# Python deps (commit requirements.txt instead)
.venv/
venv/
env/

# Node deps
node_modules/

# Model weights / large files
*.safetensors
*.gguf
*.onnx
*.bin

# Datasets
data/raw/
data/processed/

# === Runtime / Local ===
# Logs
*.log
logs/

# OS / IDE
.DS_Store
.vscode/
.idea/

# Local secrets / API keys
.env
.env.local
*.key

# Temp / cache
*.tmp
.cache/

邊界 case 思考

幾個容易誤判的：

產物	該不該 commit	為什麼
`package-lock.json` / `poetry.lock`	commit	是 manifest、保證 reproducibility
`node_modules/`	不 commit	是 derived、可從 lockfile 重建
小型 fixture data（< 1 MB）	commit（作 source）	是 test 的一部分、不 reconstruct
大型 eval dataset（> 100 MB）	用 dvc / S3 manifest	量大、改用 dvc / S3 manifest 管理
Pre-built model 用於 demo	用 release artifact / Hugging Face	量大、版本要可追蹤
Prompt template (markdown / yaml)	commit	是 source、影響行為、要 diff
從 LLM 生的 sample output	不 commit（除非當 fixture）	是 demo artifact、不 reconstruct 來源

判讀 heuristic：

1這個檔案、半年後 production deploy 時要不要存在？
2├─ 要：source 或 manifest 進 git
3└─ 不要：runtime / 開發環境 only、用 .gitignore

三分類的退化情境

三分類是 default framework、實務上有幾類「該不該 commit 的判讀走兩條岔路」的情境、需要特別判讀：

Generated client SDK in monorepo：protobuf / OpenAPI spec 產出的 client code 屬於 derived（從 .proto / .yaml 生）、但 monorepo 場景常 commit 進去、目的是「跨語言版本對齊 + CI 不用每次重生」。判讀：若 .proto / spec 改動頻率低 + 跨語言一致性比 build 速度重要、commit；變動頻繁就回到 derived 路徑。
Jupyter notebook 的 output cell：技術上是 derived（執行 notebook 產出）、但語意上常被視為 source 的一部分（教學、demo、結果展示）。判讀：教學 / 展示 / 帶 figures 的 notebook 通常 commit 含 output；機械化的 batch run / CI notebook 走 derived、用 nbstripout 清掉 output 再 commit。
Git LFS / git-annex 介於 commit 跟 manifest 之間：把大檔案 commit 進 git 但實際 bytes 存 LFS server、worktree 看起來像直接 commit、metadata 卻是 manifest pointer。判讀：適合「需要在 git history 中追蹤大檔案版本、但不想讓 repo 體積爆炸」的場景（如 game asset、訓練資料集 snapshot）。介於 commit 跟 dvc / S3 manifest 之間的折衷選項。
Lockfile vs build artifact 的灰色帶：yarn-error.log 算 log（不 commit）還是 derived 但對 debug 重要（commit）？實務上多數選 .gitignore、但若團隊在 CI 失敗時要 reproduce 環境、保留少量 build log 也合理。

判讀原則：三分類給 default、灰色帶用「reproducibility + 變動頻率 + 團隊協作需求」三軸決定具體路徑。

不 commit 不代表不 share、只是用對的 channel。

直接 clone 即可。

Build script in repo：別人 clone 後跑 script 重建（本 blog 用這條：ingest.py 重建 index）
- 優點：無外部依賴、self-contained
- 缺點：每個 clone 都要重跑、累積 compute time
Release artifact：把 build output 上傳 GitHub Releases / S3、clone 後下載
- 優點：clone 快、不用各自 rebuild
- 缺點：要 maintain release pipeline、artifact 版本管理另立
Artifact registry：用 OCI registry、Docker registry、artifact storage（如 GitHub Packages / JFrog Artifactory）
- 優點：production-grade、跨 team / 跨 org share
- 缺點：複雜、配 auth、cost

選擇：小專案用 script、中型用 release、大型 / 多人 collaboration 用 registry。

把「從哪下載 + checksum」commit 進 git、實際 content 不進。常見 manifest format：

Manifest	描述
`requirements.txt` / `pyproject.toml`	Python deps + version
`package.json` + `package-lock.json`	Node deps + exact version + integrity hash
`Dockerfile`	OS + 環境 + 依賴 + entrypoint
`dvc.yaml` + `dvc.lock`	dataset + model version
Ollama Modelfile（如果寫了）	LLM model + system prompt 組合
`Cargo.lock` / `go.sum`	Rust / Go 的 dep checksum

Manifest 自己是 source（人寫、進 git）、它指向的 external content 不進 git（用 download script 取回）。

Prompt 跟 config 的版本控制

LLM 應用特有的問題：prompt template 是 source、但 prompt 改變影響行為跟 derived 改變不同。

Prompt 操作	git 行為	影響
改一個字	一個 commit	模型行為可能大變、要重跑 eval
加 few-shot example	一個 commit	同上
換不同模型（在 config）	config commit	用 prompt 沒變、行為變

Prompt + model 是一對組合、行為相依、改一個都要重 test。建議在 commit message / PR description 描述「這個 prompt 改動的 expected behavior change」、用規格層級的 review 對待、勿視為 trivial 小改。

Prompt 跟 evaluation 一起管理

進階做法：每個 prompt 配 evaluation set、commit 在同 PR：

1prompts/
2├── code_review.md           ← prompt template
3├── code_review_eval.json    ← input + expected output pair
4└── code_review_history.md   ← 改動記錄 + 對應 eval score

每次改 prompt、跑 eval、比較 score、進 commit message。這比「改完 push 看看效果」可控很多、是 prompt engineering 的基本姿勢。

Production deployment 的對接

本地 hands-on 跟 production 對應：

本地 hands-on	Production
`python ingest.py` build index	Build pipeline 跑同樣 script、output 進 artifact storage
`ollama pull nomic-embed-text`	Container image 預載 model 或 mount volume
`.gitignore` 排除 index.pkl	CI 自動 rebuild、deploy 時讀 artifact storage
Source code 進 git	Source 觸發 CI、build & deploy

成熟的 LLM 應用部署 pipeline：

1Source change → git push
2              → CI triggered
3              → Build derived artifacts (index, container image)
4              → Run evaluation suite (prompt + model behavior tests)
5              → Push artifacts to registry
6              → Deploy with manifest pointing to specific artifact version
7              → Smoke test against production data
8              → Auto-rollback if metrics regress

每一步都要 commit-able 的 manifest。在可審計 / 多人協作 / 有 SLA 承諾的場景、「手動 build 完 ssh 進 prod scp」這種 ad-hoc 流程會破壞 reproducibility、出問題時無法 revert 到具體 build；早期 prototype / 單人專案 / 一次性 demo 可接受 ad-hoc 流程、進入 production 前再改成 manifest-based。Manifest 是 reproducibility 跟 audit 的基礎。

何時這篇會過時

不會過時的部分：

Source / derived / external 三分類 framework
「commit manifest、不 commit content」核心原則
.gitignore 通用模式
Reproducibility 來自 build instruction、不來自 commit derived

會變的部分：

具體 manifest format（半年一個新 lockfile 格式）
Artifact registry 主流（OCI / Conda / npm 等都會演化）
LLM model registry（Hugging Face / Ollama 都會演化）

新 lock 格式 / registry 出來時、回到三分類問：它解的是哪類產物？我能用它 commit manifest 不 commit content 嗎？通常答案 yes。

跟其他章節的關係

scripts/README.md：本章原理的實作 reference
Hands-on quickstart：跑通 demo 步驟、為什麼要 rebuild index.pkl
4.9 Production resource planning：production runtime 視角、本章是 deployment 視角
0.7 隱私資料流原理：什麼可以離開機器、本章是「什麼可以進 git」的 sibling
4.22 RAG storage 工程：本章把 embedding index 判為 derived（不進 git、ingest.py 重建）、該章接手 vector index 存進 backend 之後的生命週期管理

5.C10 對照：規模差異下的平台遷移

Thu, 07 May 2026 00:00:00 +0000

這篇對照的核心責任是避免把同一套切流流程套到所有組織規模。遷移策略的切換單位、回退腳本化程度、依賴同步範圍與協同治理工具，在小中大型組織各有不同取捨。

小型組織常見判讀

小型組織通常能快速完成單叢集遷移，但最容易漏掉回退腳本化。結果是第一次回退就需要人工拼接操作，恢復時間不可預測。

回退腳本化缺失的具體表現：

手動 kubectl 操作：回退時 on-call 逐一執行 kubectl rollout undo、手動修改 DNS 權重、手動切回 LB 規則。每一步都依賴執行者的記憶與判斷，步驟順序錯誤或遺漏都會延長恢復時間。
無 rollback script：回退流程沒有腳本化，也沒有在 staging 驗證過。第一次真正回退就是在 production 事故中。
恢復時間不可預測：手動操作的恢復時間取決於 on-call 的經驗與當下判斷力。同一個回退在不同人手上可能差 3-10 倍時間。

小型組織的回退投資最小可行版本是一個 shell script：按正確順序執行回退步驟、每步帶 dry-run 模式、在 staging 驗證過。這個投資的 ROI 在第一次真正回退時就回收。

中型組織常見判讀

中型組織的主要風險是依賴錯位。服務本身切過去了，但資料面、認證面、觀測面還沒同步，造成切換後局部成功、整體失敗。

依賴錯位的常見維度：

Database endpoint：應用在新叢集但仍連舊叢集的資料庫。跨網路延遲從 <1ms 跳到 5-20ms，慢查詢變多、connection pool 壓力增加。嚴重時跨 AZ / region 的網路分區直接斷開連線。
Auth service：新叢集的服務用舊叢集的 auth endpoint，token 驗證走跨網路。auth 延遲增加讓每個 request 的總延遲上升，高峰時 auth 成為瓶頸。
Observability pipeline：新叢集的 metrics / logs / traces 仍送到舊叢集的收集器，或送到新收集器但 dashboard 還指向舊資料源。事故時看不到新叢集的指標，判讀盲區。
DNS 解析路徑：新叢集的 CoreDNS 設定跟舊叢集不同（upstream resolver、search domain、ndots），服務的 DNS 解析行為改變但沒被偵測到。表現為間歇性連線失敗或解析延遲。

中型組織的遷移 checklist 要把這四個維度列為切換前驗證項目。每個維度各自有切換時機——資料庫通常最後切（風險最高），auth 跟 observability 要先切或同步切。切換順序規劃見 5.2 分階段平台遷移。

大型組織常見判讀

大型組織的遷移失敗主要來自協同節奏失控。若沒有固定升級節奏與責任分工，單次變更容易演變成廣域事故。

協同節奏的具體治理工具：

Upgrade calendar：所有平台級變更（叢集升級、service mesh 升級、CNI 更新）排進共用日曆。避免兩個團隊同週做影響面重疊的變更。日曆的維護者是 platform team，變更申請需提供 blast radius 估算。
Freeze window：業務高峰期（促銷、財報季、年終）凍結非緊急平台變更。freeze window 的開始 / 結束時間要明確公告，例外申請需 VP 級批准。
Blast radius estimation：每次變更前估算影響範圍——影響幾個 namespace、幾個 service、幾個使用者。估算結果進 release gate 的判定條件。工具層面可用 admission webhook 掃描變更影響的 namespace 數量。
Responsibility matrix：遷移期間的 RACI 明確化——誰負責切換、誰負責監控、誰負責回退決策、誰負責對外溝通。大型組織的遷移通常跨 3+ 團隊，責任模糊是事故升級的主要原因。

大型組織的平台元件升級治理見 5.7 平台元件升級的可重播流程。

跨規模的共通判讀

三個規模的失敗模式不同（小型漏回退腳本、中型漏依賴同步、大型漏協同節奏），但共通原則是「先定回退條件再開始切換」。回退條件包含三個面向：

觸發條件：哪些指標偏離到什麼程度就停止切換（5xx 升幅、延遲惡化、reconnect rate）。
執行路徑：回退的具體步驟、順序、負責人，且在 staging 驗證過。
完成判定：回退完成的訊號是什麼（連線數回 baseline、error rate 回 baseline、持續 N 分鐘）。

三個面向任一缺失，回退就會變成臨時決策——壓力下的臨時決策品質不穩定，是切流事故擴大的共通機制。

這個情境的專屬告警條件

切流批次 5xx 異常升高
長連線重連率飆升
回退時間超過既定 RTO
跨叢集依賴延遲突增（中型組織特有）

任一條件成立就停止下一批切換，先完成上一批穩定化與回退驗證。

下一步路由

回 5.2 分階段平台遷移看切換順序規劃。回 5.6 Platform Lifecycle Contract 看遷移後的 lifecycle 重新驗證。回 5.C9 反例看切流未 drain 的具體事故 timeline。

前端部署 CI/CD

Wed, 06 May 2026 00:00:00 +0000

前端部署 CI/CD 的核心責任是把瀏覽器可執行的靜態產物安全交付到 hosting、CDN 或 preview environment。前端部署常見輸出是 HTML、CSS、JavaScript、圖片與搜尋索引；它的風險集中在 build artifact、路由、cache、環境變數與使用者可見回歸。

場域定位

前端部署和後端部署的差異在於 runtime 責任位置。前端產物通常在 build time 完成大部分工作，發布後由 browser、CDN 或 static hosting 提供服務；後端服務則要在 runtime 處理連線、資料庫、migration、狀態與 rollback。

面向	前端部署常見責任	判讀訊號
Build	bundle、static site、asset hashing	build 是否可重現
Test	browser regression、a11y、layout	Playwright / visual diff 是否通過
Artifact	static files、search index、sourcemap	測試與發布是否同一份產物
Deploy	hosting、CDN、Pages、preview URL	cache invalidation 與路由是否正確
Rollback Strategy	回退前一版 static artifact	是否保留可回復版本

Build 階段負責產生 browser 實際會執行的內容。真實服務常見訊號是 bundle size、asset hash、base URL、環境變數與 static route 是否穩定；若 build 只能在開發機成功，CI 就要把 Node 版本、package lock、build command 與環境變數收斂成固定入口。

Test 階段負責驗證使用者可見行為。前端常見測試包含 component test、browser regression、accessibility check 與 layout check；測試應盡量靠近 production artifact，讓 dev server 的寬鬆行為不會蓋掉實際部署問題。

Artifact 階段負責保存可發布產物。靜態檔、搜尋索引與 sourcemap 都可能影響使用者體驗與除錯能力；測試與發布共用同一份 artifact，可以避免「測試通過的是 A，發布出去的是 B」的漂移。

Deploy 階段負責把 artifact 放到 hosting 或 CDN。真實風險通常集中在 HTML cache、asset cache、SPA fallback、preview URL 與 production domain 是否對齊。

Rollback Strategy 階段負責讓上一個可用 artifact 能重新服務使用者。前端 rollback 通常比後端快，但若 build time 環境變數、資料 schema 或 CDN cache 已變更，回退仍需要驗證頁面路由與 API 相容性。

常見注意事項

CDN cache 要和 asset hash、HTML cache policy 分開看。
Preview environment 要能對應 PR，讓 reviewer 看到真實 build。
前端測試要跑在 production-like artifact 上，避免 dev server 行為遮蔽問題。
環境變數若在 build time 注入，重新發布才會生效。
SPA route 需要 fallback 設定，靜態站 route 需要檔案路徑與 base URL 對齊。

學習路線

章節	主題	核心責任
前端 artifact 與 preview deployment 流程	Static artifact and preview	串起 build、browser test、preview 與 rollback

下一步路由

前端 artifact 流程：讀前端 artifact 與 preview deployment 流程。
本 blog 的靜態站案例：讀本 blog 專案部署。
Gate 原理：讀 CI gate 與 workflow 邊界。
失敗處理：讀 CI 失敗到修復發布流程。

程式碼版控與 FTP 部署紀律

Fri, 26 Jun 2026 00:00:00 +0000

無 SSH 環境的 PHP 專案通常沒有版本歷史——程式碼直接透過 FTP 覆蓋伺服器上的檔案，每次上傳就是一次不可回溯的覆寫。接手這類專案時，第一步是在本地建立 Git repo 作為程式碼的唯一事實來源，第二步是把 FTP 上傳從「隨手改隨手傳」轉成有紀錄、可回退的部署流程。本篇聚焦在程式碼端的版控與部署；資料庫的備份與變更紀律見資料庫備份與變更管理；帳號與存取的安全管理見Legacy PHP 的安全盤點。

從 FTP 拉下來建立 Git repo

用 FTP client 把整個站台完整下載到本地目錄，這份下載就是 production 的快照。下載完成後在該目錄初始化 Git：

1cd /path/to/downloaded-site
2git init

在第一次 commit 之前先處理 .gitignore。PHP 專案需要排除的檔案分三類：套件依賴（由 Composer 或 npm 管理、可重建）、執行期產物（快取、session、上傳檔案）、以及含有機密值的設定檔。

 1# 套件依賴
 2vendor/
 3node_modules/
 4
 5# 執行期產物
 6cache/
 7tmp/
 8sessions/
 9*.log
10
11# 使用者上傳內容（通常很大、且屬於資料不屬於程式碼）
12uploads/
13media/
14wp-content/uploads/
15
16# 機密設定（下一節處理）
17.env
18config.local.php
19wp-config.php

使用者上傳的內容（uploads/、media/）不進 Git 的理由是它屬於資料層：檔案數量可能成千上萬、總容量可能數 GB，Git 不適合管理這類大量二進位檔案。這些檔案的備份策略跟程式碼不同——用 FTP mirror 或 rclone 定期同步到本地即可。

設好 .gitignore 後做第一次 commit：

1git add -A
2git commit -m "production snapshot $(date +%Y-%m-%d)"

這個 commit 就是「接手時 production 長什麼樣」的基準線。後續所有改動都從這裡開始有版本歷史。

Config 分離：讓 Git repo 不含機密值

無 SSH 環境的 PHP 專案常把資料庫密碼、API key、SMTP 憑證直接寫在 config.php 或 wp-config.php 裡。這些檔案如果進了 Git，機密值就跟著 repo 走——推到 GitHub 就等於公開。

分離的模式是把設定拆成兩份：一份進 Git（結構與預設值）、一份不進 Git（實際機密值）。

模式一：.env 檔案

使用 vlucas/phpdotenv 套件或手動解析，讓程式碼從 .env 檔案讀取環境變數：

1// config.php — 進 Git
2$dotenv = Dotenv\Dotenv::createImmutable(__DIR__);
3$dotenv->load();
4
5$db_host = $_ENV['DB_HOST'];
6$db_name = $_ENV['DB_NAME'];
7$db_user = $_ENV['DB_USER'];
8$db_pass = $_ENV['DB_PASS'];

1# .env — 不進 Git（.gitignore 已排除）
2DB_HOST=localhost
3DB_NAME=mysite_prod
4DB_USER=mysite_user
5DB_PASS=actual-password-here

同時在 repo 裡放一份 .env.example（進 Git），列出所有需要的環境變數但不填實際值：

1# .env.example — 進 Git，作為範本
2DB_HOST=
3DB_NAME=
4DB_USER=
5DB_PASS=
6SMTP_HOST=
7SMTP_USER=
8SMTP_PASS=

模式二：config.local.php

如果專案不使用 Composer、引入 phpdotenv 成本太高，用 PHP include 分離：

1// config.php — 進 Git
2if (file_exists(__DIR__ . '/config.local.php')) {
3    require __DIR__ . '/config.local.php';
4} else {
5    die('config.local.php not found. Copy config.local.example.php and fill in values.');
6}

1// config.local.php — 不進 Git
2$db_host = 'localhost';
3$db_name = 'mysite_prod';
4$db_user = 'mysite_user';
5$db_pass = 'actual-password-here';

WordPress 的處理

WordPress 的 wp-config.php 同時包含機密值和非機密設定。把整份排除再 include 一份 local 版是最簡單的做法，但也可以只把機密值抽到 .env、wp-config.php 本身保留在 Git 裡：

1// wp-config.php — 進 Git（機密值從 .env 讀）
2$dotenv = Dotenv\Dotenv::createImmutable(__DIR__);
3$dotenv->load();
4
5define('DB_NAME', $_ENV['DB_NAME']);
6define('DB_USER', $_ENV['DB_USER']);
7define('DB_PASSWORD', $_ENV['DB_PASSWORD']);
8define('DB_HOST', $_ENV['DB_HOST'] ?? 'localhost');

分離完成後，用 grep 確認 repo 裡沒有殘留的明文密碼：

1git grep -in "password\|passwd\|secret\|api_key\|smtp" -- '*.php' ':!*.example*'

任何命中都要評估：是真的機密值（要移到 .env）還是變數名稱（可以保留）。

FTP 部署的風險控制

FTP 上傳是逐檔覆寫，沒有交易性——上傳到一半斷線、或上傳了有語法錯誤的 PHP 檔案，站台會立刻出問題。風險控制的核心是「每次上傳前知道在改什麼、上傳後知道改了什麼」。

上傳前的比對

FileZilla 的目錄比較功能（「檢視 → 目錄比較 → 啟用」）可以在上傳前看到本地與遠端的差異：哪些檔案是本地較新、哪些是遠端較新、哪些只存在於一邊。上傳前先跑比較、確認差異清單符合預期——如果出現預期外的「遠端較新」檔案，代表有人在伺服器上直接改了東西，要先下載回來合併再上傳。

只上傳改過的檔案

一次上傳整個站台目錄既慢又危險。只上傳 Git diff 顯示的改動檔案：

1# 列出相對於上次部署 tag 改了哪些檔案
2git diff --name-only deploy-2026-06-25 HEAD

把這份清單對照 FileZilla 的比較結果，逐一上傳。量大時用 lftp 的 mirror 指令加 --only-newer flag 只傳新檔。

關鍵檔案的額外保護

index.php、.htaccess、設定檔這類檔案壞掉會讓整個站台無法存取。上傳這些檔案之前，先從伺服器下載一份當前版本存到本地的 _backup/ 目錄（gitignored）。如果上傳後站台出問題，可以立刻把備份版本傳回去。

部署前後的驗證

部署前檢查

項目	確認方式
本地測試通過	在本地環境跑過改動的頁面 / 功能
Git 已 commit	`git status` 顯示 clean
要上傳的檔案清單已確認	`git diff --name-only` 輸出符合預期
關鍵檔案已備份	`_backup/` 有當前版本

部署後驗證

上傳完成後立刻驗證：

首頁能正常載入（HTTP 200、頁面內容正確）
本次改動涉及的功能可正常操作
如果是電商站：結帳流程、金流 callback 測試
檢查 PHP error log（cPanel → 錯誤日誌、或 FTP 下載 error_log 檔案）

如果驗證失敗，回退方式是從 Git 歷史取出上一個版本的受影響檔案重新上傳：

1# 取出上一個部署 tag 的特定檔案
2git show deploy-2026-06-25:path/to/file.php > _rollback/file.php
3# 用 FTP 上傳 _rollback/file.php 覆蓋 prod

CI 化 FTP 部署

手動 FTP 部署的問題是它依賴特定人的 FTP client 和操作紀律。用 GitHub Actions 把 FTP 上傳自動化，可以讓部署變成「push 到 main → CI 跑測試 → CI 上傳到伺服器」的流程，不依賴任何人的本地環境。

 1name: Deploy via FTP
 2on:
 3  push:
 4    branches: [main]
 5
 6jobs:
 7  deploy:
 8    runs-on: ubuntu-latest
 9    steps:
10      - uses: actions/checkout@v4
11        with:
12          fetch-depth: 2
13
14      - name: Deploy to FTP
15        uses: SamKirkland/FTP-Deploy-Action@v4
16        with:
17          server: ${{ secrets.FTP_HOST }}
18          username: ${{ secrets.FTP_USER }}
19          password: ${{ secrets.FTP_PASS }}
20          server-dir: /public_html/
21          exclude: |
22            **/.git*
23            **/.git*/**
24            **/node_modules/**
25            **/.env
26            **/config.local.php

FTP 憑證存在 GitHub repo 的 Secrets 裡（Settings → Secrets and variables → Actions），不寫在 workflow 檔案裡。

CI 化後的改變

面向	手動 FTP	CI 化 FTP
部署紀錄	FTP client 的 log（通常不保留）	GitHub Actions 的 run history（永久保留）
部署觸發	某人手動操作	push 到 main 自動觸發
上傳前測試	依賴個人紀律	CI 可加 lint / test step
多人協作	需要共用 FTP 帳密	帳密在 GitHub Secrets、workflow 共用

限制

FTP 部署沒有原子性（atomic deployment）——檔案逐一上傳的過程中，伺服器上同時存在新舊版本的檔案混合狀態。如果上傳的檔案之間有依賴關係（新的 A.php 引用新的 B.php，但 B.php 還沒上傳完），短暫的錯誤窗口無法避免。流量高的站台如果需要零停機部署，需要升級到 SSH + symlink 切換的部署方式，那屬於 VPS 遷移之後的能力。

Git tagging 部署紀錄

每次部署前在 Git 打一個 tag，讓「這次部署的是哪個版本」有明確的錨點：

1git tag deploy-$(date +%Y-%m-%d-%H%M)
2git push origin --tags

tag 的命名用日期時間戳而非版號，因為這類專案通常沒有語意化版號的概念。tag 的作用是：

回退時知道要退到哪個版本（git diff deploy-previous deploy-current 看這次改了什麼）
多次部署之間的差異可追蹤
CI 化後可以用 tag 觸發部署而非每次 push 都部署

資料庫變更的回退跟程式碼獨立處理——程式碼可以靠 Git 回退，資料庫要靠 SQL dump 回退，兩者的回退點要對齊但機制不同。資料庫的備份策略見資料庫備份與變更管理。

跨分類引用

→ 無 SSH 的 FTP / 面板管理環境接管：本篇的母文章，涵蓋接手的完整流程
→ 資料庫備份與變更管理：資料庫端的備份、migration 紀律與回退策略
→ Legacy PHP 的安全盤點：credential 分離之後的存取控制與安全掃描
→ 無 SSH 環境的監控與告警：部署後用外部監控驗證服務正常
→ 模組七：infra 走 PR 流程：從 FTP CI 化進一步演進到完整的 PR review 流程

後端部署 CI/CD

Wed, 06 May 2026 00:00:00 +0000

後端部署 CI/CD 的核心責任是把可執行服務安全推進到 runtime 環境。後端部署不只發布程式碼，還要處理資料庫 Migration（backend 深入見 Migration）、外部依賴、runtime config、Readiness / Health Check（backend 深入見 Readiness / Health Check）、流量切換與 rollback。

場域定位

後端部署的主要風險來自有狀態依賴與長時間執行。API、worker、scheduler 與 consumer 會連到資料庫、queue、cache 與第三方服務；部署流程需要確認程式、資料與流量切換順序。

面向	後端部署常見責任	判讀訊號
Build	binary、package、container image	build 是否可重現
Test	unit、integration、contract、migration	是否覆蓋跨服務契約
Migration	schema change、backfill、rollback path	是否可漸進、可停止、可驗證
Rollout Strategy	rolling、canary、blue-green	health / readiness 是否可信
Rollback Strategy	app rollback、migration rollback / forward fix	回復路徑是否演練

Build 階段負責產生可部署服務。後端 build 常見形式是 binary、package 或 container image；判讀重點是版本是否能追到 commit、依賴是否固定、產物是否能在乾淨環境重建。

Test 階段負責驗證服務契約。單元測試只能覆蓋局部邏輯，integration、contract 與 migration 測試才會揭露資料庫、queue、cache 與外部服務之間的相容性風險。

Migration 階段負責推進資料結構與資料狀態。真實服務要支援新舊程式短暫共存，因此 migration 應偏向可漸進、可重試、可觀測，必要時用 forward fix 取代直接回滾資料。

Rollout Strategy 階段負責把流量安全導向新版本。Rolling、canary 與 blue-green 都需要可靠的 health、readiness、metrics 與 log；若 readiness 只檢查 process alive，流量仍可能被送到尚未準備好的服務。

Rollback Strategy 階段負責在新版本失效時縮小影響範圍。後端 rollback 要同時考慮程式、資料、queue message、外部 side effect 與 config；只回退 image tag，通常不足以處理已寫入的資料變化。

常見注意事項

Migration 要和 app rollout 分開設計，避免新舊版本不相容。
Health check 只代表 process alive，readiness 才能判斷能否接流量。
Worker / consumer 部署要考慮重複處理、idempotency 與 consumer lag。
Config rollout 需要版本化與回退路徑（深入見 Config Rollout）。
Rollback 不只回程式，也要處理資料與外部副作用（深入見 Rollback Strategy）。

學習路線

章節	主題	核心責任
後端 migration、rollout 與 rollback 流程	Migration rollout and rollback	拆分資料變更、流量推進與回復路徑

下一步路由

後端發布主流程：讀後端 migration、rollout 與 rollback 流程。
Gate 原理：讀 CI gate 與 workflow 邊界。
Backend reliability：讀模組六：可靠性驗證流程。
Release gate：讀 6.8 Release Gate 與變更節奏。

App 部署 CI/CD

Wed, 06 May 2026 00:00:00 +0000

App 部署 CI/CD 的核心責任是把可安裝的 client artifact 安全送到發行通道。App 發布和 web 部署最大的差異是使用者裝置會保留舊版，app store 審核、App Signing、版本號與分批發布會直接影響交付節奏。

場域定位

App 部署的風險集中在 artifact 不可變、簽章憑證、store review 與版本分佈。後端可以快速 rollback，前端靜態站可以重新部署，但已安裝的 App 需要靠更新、feature flag 或服務端相容性管理。

面向	App 部署常見責任	判讀訊號
Build	IPA、APK、AAB、desktop package	build number / version 是否遞增
Signing	certificate、profile、keystore	secret 是否安全、是否可輪替
Test	unit、UI、device matrix	是否覆蓋目標 OS 與裝置
Release	store review、phased rollout	審核狀態與 rollout 百分比
Rollback Strategy	hotfix、remote config、kill switch	是否能處理已安裝舊版

Build 階段負責產生可安裝 artifact。Mobile 常見產物是 IPA、APK 或 AAB，desktop 則可能是 installer 或 signed package；版本號、build number 與 commit 對應關係會決定後續除錯與回報能否追溯。

Signing 階段負責證明 artifact 由可信來源發布。憑證、profile、keystore 與 signing secret 都屬於發布能力；它們需要輪替、權限控管與備援流程，避免單一憑證問題中斷發布（安全治理延伸見 Secret Management）。

Test 階段負責驗證不同裝置與作業系統組合。App 測試常見風險是 emulator 通過但真機失敗、特定 OS 權限模型不同、背景執行限制不同；device matrix 要依使用者分佈與高風險功能選擇。

Release 階段負責把 artifact 送進發行通道。Store review、phased rollout、internal testing、beta track 與 production track 都是 gate；發布節奏要把審核時間與分批比例納入 rollout strategy 的風險控制（backend 延伸見 Config Rollout）。

Rollback Strategy 階段負責處理已安裝版本。App 發布後會長期存在多個使用者版本，因此 hotfix、remote config、kill switch 與後端相容性要一起設計（相容治理延伸見 API Contract）。

常見注意事項

簽章憑證是發布能力的一部分，要用 Secret Management 管理。
版本號與 build number 要可追溯到 commit 與 artifact。
Store review 會讓 rollback 和 hotfix 變慢，風險要提前用 feature flag 控制。
Client / server contract 要支援多版本共存。
Crash reporting 與 phased rollout 是發布後 gate 的一部分。

學習路線

章節	主題	核心責任
App 簽章、商店審核與分批發布流程	Signing, review and rollout	管理簽章、審核、分批發布與多版本共存

下一步路由

App 發布主流程：讀 App 簽章、商店審核與分批發布流程。
Gate 原理：讀 CI gate 與 workflow 邊界。
失敗處理：讀 CI 失敗到修復發布流程。

Container 部署設計

Sat, 20 Jun 2026 00:00:00 +0000

Container 部署讓 collector 完全隔離於 host 環境，開源使用者用 docker run 一行部署，不需要安裝 Go 或管理 binary 版本。但 SQLite 在 container 中有特殊的 I/O 和持久化考量 — overlay filesystem 的寫入延遲和 container 生命週期對資料持久性的影響需要在部署設計中處理。

Dockerfile 設計

Multi-stage build 把編譯環境和執行環境分離。Build stage 用 Go 官方 image 編譯 binary，runtime stage 只包含 binary 和必要的 CA 憑證。

 1FROM golang:1.22-alpine AS build
 2WORKDIR /src
 3COPY go.mod go.sum ./
 4RUN go mod download
 5COPY . .
 6RUN CGO_ENABLED=0 go build -o /collector ./cmd/collector
 7
 8FROM alpine:3.20
 9RUN apk add --no-cache ca-certificates tzdata
10COPY --from=build /collector /usr/local/bin/collector
11RUN adduser -D -u 1000 monitor
12USER monitor
13EXPOSE 8080
14ENTRYPOINT ["collector"]

最終 image 包含 Go binary（~15MB）+ alpine base（~7MB）+ ca-certificates，總大小目標 < 25MB。用 scratch 替代 alpine 可以再小 7MB，但失去 shell debug 能力。

SQLite 在 Container 中的 I/O 考量

Docker 的 overlay2 storage driver 在每次 fsync 時經過 overlay 層。SQLite 的 WAL mode 依賴 fsync 確保寫入持久性 — 每筆 transaction commit 觸發一次 fsync。Overlay 層增加的延遲讓每筆 fsync 慢 20-40%（取決於 host 的 storage driver 和檔案系統）。

Volume mount 繞過 overlay

把 SQLite 的資料目錄掛載為 host volume（-v /host/data:/data），SQLite 直接寫 host 檔案系統、繞過 overlay 層。寫入效能和同機部署的 binary 版本相當。

不用 volume mount 的風險：container 刪除時 overlay 層的資料一起消失。docker rm = 所有事件資料消失。即使只是 docker run 新版本的 image 也會建立新 container，舊 container 的資料不會自動遷移。

Volume Mount 設計

兩個目錄分開掛載，職責和權限不同：

Mount	Container 路徑	Host 路徑（範例）	權限	內容
資料	`/data`	`./monitor-data`	read-write	SQLite DB + WAL + 匯出檔
設定	`/config`	`./monitor-config`	read-only	retention config + rule config + sensor config

Container 內用非 root user（UID 1000）執行。Host 的 volume 目錄 ownership 需要對應：

1mkdir -p monitor-data monitor-config
2chown 1000:1000 monitor-data

Graceful Shutdown

docker stop 送 SIGTERM → collector 收到後執行 shutdown 序列：

停止接受新的 HTTP request（listener close）
等待 in-flight request 完成（5 秒 context timeout）
Flush pending writes（尚未寫入 storage 的事件，5 秒）
停止定期 job（downsample / purge / rule engine 定期評估）
SQLite WAL checkpoint（TRUNCATE mode，15 秒）
關閉 DB connection
退出

步驟 2-5 合計超時上限 25 秒。這個序列對應 Backend 5.6 Platform Lifecycle Contract 的 shutdown → drain 狀態：步驟 1-2 是 drain（停接新工作、等在途完成），步驟 3-6 是 shutdown（flush 狀態和釋放資源）。Collector 屬於短 request API 的 workload 類型（drain 窗口 5-30 秒），但多了 WAL checkpoint 步驟，讓 shutdown 時間可能超過一般 HTTP 服務。PID 1 信號處理的設計考量（exec form、避免 shell 攔截 SIGTERM）見 Backend 5.1 PID 1 與信號處理。

docker stop 預設等 10 秒後送 SIGKILL。如果 WAL checkpoint 在大量未 checkpoint 的資料下需要超過 10 秒，Docker Compose 可以調 stop_grace_period: 30s。

SQLite 的 WAL 設計支援 crash recovery — SIGKILL 後 WAL 檔案仍在，下次開啟 DB 時自動 replay。但非 graceful shutdown 可能丟失 channel 中尚未寫入的事件（已收到 HTTP 202 但還在 buffer 中的事件）。

資源限制

資源	建議值（自用）	建議值（小團隊）	理由
Memory	256MB	512MB	Collector + SQLite page cache + Go runtime
CPU	0.5 核	1 核	I/O bound、CPU 通常不是瓶頸
磁碟	volume mount 容量	volume mount 容量	保留策略控制、和 host 磁碟共享

Memory 限制設太緊會觸發 OOMKill — container 突然消失且無 log。設定 memory limit 前先觀察 collector 的 baseline 記憶體使用（docker stats），再乘以 1.5 安全係數。CPU request/limit 的設定策略（guaranteed vs burstable QoS）和 memory limit 與 OOM 的判讀見 Backend 5.1 Resource Limit。

Docker Compose 範例

 1services:
 2  collector:
 3    image: tarrragon/monitor:latest
 4    ports:
 5      - "8080:8080"
 6    volumes:
 7      - ./monitor-data:/data
 8      - ./monitor-config:/config:ro
 9    environment:
10      - MONITOR_STORAGE=sqlite
11      - MONITOR_DB_PATH=/data/events.db
12    restart: unless-stopped
13    stop_grace_period: 30s
14    deploy:
15      resources:
16        limits:
17          memory: 256M
18          cpus: '0.5'
19    healthcheck:
20      test: ["CMD", "wget", "-q", "--spider", "http://localhost:8080/health"]
21      interval: 30s
22      timeout: 5s
23      retries: 3

restart: unless-stopped 讓 container 在 crash 或 host 重啟後自動恢復。healthcheck 讓 Docker 偵測 collector 是否真的在回應 — 只有 process 活著但 HTTP 不回應的場景也會被標記為 unhealthy。

和同機部署的效能對照

指標	同機 binary	Container + volume mount	Container 無 volume（overlay）
寫入吞吐（Mac SSD）	~5,000/sec	~4,500/sec（-10%）	~3,000/sec（-40%）
寫入吞吐（Linux VPS）	~3,000/sec	~2,700/sec（-10%）	~1,800/sec（-40%）
查詢延遲	baseline	baseline（volume = 直接讀 host）	+20%（overlay 讀取開銷小）
啟動時間	< 100ms	< 500ms（container 啟動開銷）	同左
記憶體額外開銷	0	~10-20MB（container runtime）	同左

Volume mount 後效能差異只有 ~10%（Go HTTP handler 的 overhead 大於 volume mount 的 overhead）。不用 volume mount 時 overlay fs 的 fsync 開銷顯著 — 寫入吞吐降 40%。

何時用 container、何時用 binary

場景	建議	理由
開源使用者快速試用	Container	`docker run` 一行、不需裝 Go
長期自用部署	Binary + systemd	效能最佳、無 container overhead
CI/CD 測試環境	Container	可拋棄式、每次乾淨環境
Kubernetes 部署	Container	pod spec 標準化
Raspberry Pi / 邊緣設備	Binary	低資源環境避免 container overhead

斷網環境的部署考量

Collector 在斷網環境（air-gapped）裡的部署跟連網環境的主要差異有三點。第一，SDK 的 endpoint 從外部 URL（https://collect.example.com）改為內網地址（http://collector.internal:8080），SDK 設定檔裡的 endpoint 要能按環境切換。第二，Collector 的 container image 無法從 Docker Hub 拉取——需要透過 content ferry 搬運映像、推送到內網的 private registry（Harbor 或 Docker Registry），Dockerfile 的 base image 來源也要改指 private registry。第三，Collector 的 storage backend 只能用本地磁碟或 NFS，不能用雲端物件儲存——SQLite backend 在斷網環境反而是優勢（零外部依賴），儲存容量規劃要在部署前就確定，因為斷網環境的磁碟擴容流程可能需要數週。

SDK 的 offline buffer（見SDK 設計：offline-buffer）在斷網環境更重要——如果 Collector 重啟或暫時不可達，SDK 端的 buffer 是唯一能保住事件的機制。

斷網環境的 infra 層監控（Prometheus / Grafana / Loki）設定見斷網環境的監控與可觀測性。

下一步路由

SQLite 效能基準的詳細數字 → SQLite Backend 效能基準
可插拔 Storage Backend 架構 → 規模演進
Container runtime 通用原則（base image 選擇、build 可重現性、PID 1 信號處理）→ Backend 5.1 Container 與 Runtime
生命週期合約（startup / readiness / drain / shutdown 的責任分類）→ Backend 5.6 Platform Lifecycle Contract
容器化資源設計的通用原則 → DevOps 容器化資源設計
服務探活和自動恢復 → DevOps 服務探活

Serverless 部署 CI/CD

Wed, 06 May 2026 00:00:00 +0000

Serverless 部署 CI/CD 的核心責任是把函式型服務安全推進到受管執行環境。它和長駐服務不同，風險集中在 artifact 打包、runtime 相容、權限設定、版本別名與冷啟動行為。

場域定位

Serverless 發布通常以函式版本為單位，並透過 Function Alias 或流量權重切換。部署步驟看起來短，但對權限、Event Source、重試政策與 observability 欄位要求很高。

面向	Serverless 部署常見責任	判讀訊號
Build	function bundle、dependency、runtime target	package 是否可重現
Deploy	function version、alias、traffic shift	新舊版本是否可並存
Permission	IAM、resource policy、secret scope	執行是否具最小權限
Event Source	queue/topic/http trigger 設定	重試與死信策略是否明確
Recovery	alias rollback、disable trigger	故障時是否可快速止血

常見注意事項

部署前要先驗證 runtime 與依賴版本，避免 deploy 成功但 invocation 失敗。
事件觸發型函式要明確設定 retry、dead-letter 或回放策略。
權限設定要收斂到最小範圍，避免函式擴權風險。
冷啟動與併發上限要納入發布後觀測指標。

學習路線

章節	主題	核心責任
Serverless function 版本、事件來源與回復流程	Function version and event	管理版本別名、事件來源、權限與回復

下一步路由

Serverless 發布主流程：讀 Serverless function 版本、事件來源與回復流程。
Gate 原理：讀 CI gate 與 workflow 邊界。
失敗處理：讀 CI 失敗到修復發布流程。
Backend 相關概念：讀 Serverless / worker 相關知識卡。

Data Pipeline 部署 CI/CD

Wed, 06 May 2026 00:00:00 +0000

Data Pipeline 部署 CI/CD 的核心責任是把資料處理邏輯推進到生產環境，同時維持資料正確性與可回復性。它和 API 部署不同，重點在 schema 相容、Backfill、Checkpoint 與 Rerun 風險。

場域定位

Data pipeline 常包含 batch job、stream processor、dbt model 或 workflow scheduler。部署判斷不只看程式可執行，還要看資料是否可追溯、可對帳、可修復。

面向	Data pipeline 部署常見責任	判讀訊號
Build	transform code、DAG、query model	版本是否可重現
Validation	schema check、sample run、contract check	輸出是否維持相容
Deploy	job version、schedule、trigger	新流程是否正確接管
Backfill	歷史資料補算與節流	是否有 checkpoint 與停損條件
Recovery	rerun、rollback、forward fix	異常資料是否可修補

常見注意事項

schema 變更要先定義相容窗口，再切換 downstream。
Backfill 要有節流與 Checkpoint，避免壓垮上游與儲存層。
部署後需比對新舊輸出一致性，建立 correctness check。
重跑流程要有 runbook，避免人工臨場判斷失誤。

學習路線

章節	主題	核心責任
Data pipeline backfill、checkpoint 與 rerun 流程	Backfill, checkpoint and rerun	控制歷史補算、重跑與資料修復

下一步路由

Data pipeline 發布主流程：讀 Data pipeline backfill、checkpoint 與 rerun 流程。
後端資料遷移概念：讀 Migration。
資料修補與比對：讀 Backfill 與 Correctness Check。
Gate 原理：讀 CI gate 與 workflow 邊界。

4.16 靜態 / serverless RAG deployment：架構選擇與資安取捨

Tue, 12 May 2026 00:00:00 +0000

4.1 RAG 跟 4.12 embedding model 寫的是「RAG 在做什麼、embedding 怎麼選」、預設「有 backend server」可跑 embedding 跟 LLM。但實際大量場景是沒 backend — 個人 blog（Hugo / Jekyll / Astro）想加智能搜尋、docs site 想做 LLM 對話、demo 想離線跑。本章把這條「靜態 / serverless RAG」路線拆成四個方案、配合靜態場景特有的資安議題（這些議題模組六沒覆蓋、屬本章新增）。

本章目標

讀完本章後、你應該能：

區分四種 RAG deployment 方案（純前端 / edge serverless / RAG SaaS / 純文字 search）。
對自己場景判斷該選哪個方案、看資料量 / 隱私 / 預算。
認識靜態場景特有的資安議題：API key 暴露、CORS、abuse、第三方 SaaS 供應鏈、client-side 模型完整性。
知道哪些資安議題在模組六已覆蓋、哪些是本章獨有。

為什麼這個議題重要

傳統 RAG 教材預設架構：

1User → backend server → embedding API → vector DB → LLM API → response

需要 backend 可執行 server-side code、藏 API key、控制 rate limit。但個人開發者場景常見的 deployment：

場景	Backend？	部署方式
個人 Hugo blog	無	GitHub Pages / Cloudflare Pages
開源專案 docs site	無	GitHub Pages / Netlify / Vercel
商品 landing page	無	CDN + S3
Static-export Next.js / Astro	無	同上

這些場景跟「個人 dev 跑本地 LLM」並列、是教材的合理覆蓋面。

四種 deployment 方案總覽

1                          embedding   vector       LLM call
2                          搜尋          DB
3方案 1 純前端            browser       browser     browser（WebLLM）或 user-key 直 call
4方案 2 edge serverless   edge fn       edge DB     edge fn → LLM API
5方案 3 RAG SaaS          SaaS          SaaS        SaaS（或自 call）
6方案 4 純文字 search     N/A           static idx  N/A（不是 RAG）

四方案快速對比：

維度	1 純前端	2 edge serverless	3 SaaS	4 純文字 search
是否「真 RAG」	是	是	是	否（無 LLM）
隱私	最強（不離 browser）	中（信 edge provider）	弱（信 SaaS）	最強
Cost	完全 zero（build 一次）	每 query 付 edge + LLM	免費 tier / 按量計費	Zero
規模上限	< 10K chunks	1M+	視服務	視工具
開發複雜度	中（要 build pipeline）	中高（要寫 edge fn）	低（API 直接用）	低
主要資安議題	模型完整性、user-key 暴露	edge provider 信任	SaaS 信任 + 供應鏈	較少（無 LLM）

方案 1：純前端 RAG（browser-side everything）

整個 RAG pipeline 都跑在使用者瀏覽器：

 1Build time（Hugo build / CI pipeline）：
 2  content/*.md
 3    ↓ 抽段、chunk
 4    ↓ embedding model（Node.js 版 sentence-transformers）
 5  embeddings.json（每個 chunk 一個 vector）
 6    ↓ 跟 HTML 一起 deploy
 7
 8Runtime（user browser）：
 9  User query
10    ↓ load @xenova/transformers + embeddings.json（首訪載 ~50MB）
11    ↓ embed query in browser
12    ↓ cosine similarity vs embeddings.json
13  top-K chunks
14    ↓ LLM call（兩條子路線、見下）
15  Response in browser

LLM 的兩條子路線：

子路線	機制	取捨
Client-side LLM	WebLLM / wllama 跑 < 4B model	完全離線、首訪載 1-3GB 模型、隱私最強
User 自帶 API key	前端讀 localStorage 的 key、直 call API	高品質（雲端旗艦）、key 暴露、需要使用者授信

實作概要：

1# Build time（Node.js script）
2npx @xenova/transformers-cli embed content/*.md > static/embeddings.json
3
4# Frontend（簡化版）
5import { pipeline } from '@xenova/transformers';
6const embedder = await pipeline('feature-extraction', 'nomic-embed-text-v1.5');
7const queryVec = await embedder(userQuery, { pooling: 'mean' });
8const ranked = embeddings.map(c => ({ ...c, score: cosineSim(c.vec, queryVec.data) }))
9                          .sort((a,b) => b.score - a.score).slice(0, 5);

規模上限：

< 1000 chunks：embeddings.json ~ 4MB（1024-dim float32）、輕鬆
1K-10K：~40MB、首訪載入慢但可接受
10K+：純前端開始勉強、考慮方案 2

適合場景：個人 blog、docs site、demo、隱私敏感、規模 < 10K chunks。

方案 2：靜態 + edge serverless

「靜態主站 + edge function 處理動態請求」：

 1靜態前端（HTML / JS、Hugo / Astro）
 2   ↓ fetch /api/rag
 3Edge function（Cloudflare Workers / Vercel Edge / Netlify Functions）
 4   ↓
 5Embedding API（OpenAI / Voyage）
 6   ↓
 7Vector DB（Cloudflare Vectorize / Pinecone / Turso vector / Upstash Vector）
 8   ↓
 9LLM API（OpenAI / Anthropic / Cloudflare AI Gateway）
10   ↓ response
11靜態前端

對使用者體感跟「有 backend」一樣、但你不用維護 server / 不用 sysadmin。

主流元件搭配：

元件	Cloudflare 全家桶	Vercel / 其他
Edge runtime	Workers	Vercel Edge / Netlify Functions
Vector DB	Cloudflare Vectorize	Pinecone / Turso / Upstash
Embedding	Workers AI 內建模型 / OpenAI	OpenAI / Voyage
LLM	Workers AI / AI Gateway 轉發	OpenAI / Anthropic

關鍵特性：

API key 不暴露在 browser：edge function 內讀環境變數、安全
可加 rate limit：edge function 內判斷 client IP / user agent、避免 abuse
Build-time index 仍重要：embedding ingestion 通常在 build 階段、不在 runtime
Edge cold start：第一次 query latency 略高（~100ms 額外）、後續 hot 路徑快

適合場景：規模 1K-100K chunks、想保留近 backend 體驗、可接受少量 cost。這條路線一旦升級到有 backend 的 vector DB、storage 選型（index 結構、維度、成本）就回到 4.22 RAG storage 工程的判讀。

方案 3：靜態 + RAG SaaS

把整個 RAG stack 外包：

服務	角色	免費 tier 上限
Algolia	搜尋 + 向量檢索一條龍、build time 同步	10K records、10K search / month
Pinecone Cloud	純 vector DB、自己 call embedding + LLM	100K vectors（starter）
Weaviate Cloud	同上、hybrid search 內建	14 天 trial
MeiliSearch Cloud	BM25 + vector hybrid	試用

API key 設計：

search-only key：只能查詢、無寫入權限、可安全暴露在 browser（這是設計支援的）
admin key：build time CI 用、有寫入權限、必須藏 server-side

前端範例（Algolia）：

1const client = algoliasearch('APP_ID', 'SEARCH_ONLY_KEY');  // 可公開
2const index = client.initIndex('my-blog');
3const { hits } = await index.search(userQuery, { hitsPerPage: 5 });

適合場景：想最快上線、不在乎 vendor lock-in、規模中小、retrieval-only（不需要 LLM 對話）。

方案 4：靜態 + 純文字 search（不是真 RAG）

Pagefind、Stork、lunr.js、FlexSearch — build time 產靜態 search index、純前端查詢。

工具	機制
Pagefind	static-first、自動 chunking、CJK 友善
Stork	Rust 寫的 keyword search、輕量
lunr.js	純 JS、tf-idf BM25 風格
FlexSearch	同上、體積更小

這不是 RAG：

無 embedding similarity：keyword / fuzzy match、不是語意相似
無 LLM augmentation：只列文章連結、不生成回答
算 retrieval 的「字面」變體：見 4.1 RAG 的「語意 vs 字面」段

適合場景：blog 內搜尋只需要找文章、不需要對話、極致 zero-cost。

規模門檻：什麼時候該升級方案

1< 1K chunks                    → 方案 1 純前端、最簡單
21K - 10K chunks                → 方案 1 或 方案 4
310K - 100K chunks              → 方案 2 edge serverless
4100K+ chunks                   → 完整 backend RAG（不再是「靜態」場景）
5非 RAG、只要找文章             → 方案 4（Pagefind 等）

靜態場景特有的資安議題

本章節最重要的部分。靜態 / serverless RAG 有些議題模組六沒覆蓋、要在本章補。

1. API key 暴露 — 靜態場景的根本問題

核心衝突：靜態網站沒 server-side runtime、藏不了 secret。任何寫在前端 JS / 編進 HTML 的東西、使用者按 F12 都看得到。

對應到 RAG：

元件	能否前端持有 key	緩解
Embedding API（生成方）	否（admin key 不該暴露）	build time 用、不放前端
LLM API（生成方）	否	改方案 2 用 edge、或讓使用者自帶 key
Vector DB（read）	可（search-only key 設計支援）	API 設計時就分權、search-only 可公開
完整 LLM 跑在前端	N/A（無 server-side key）	方案 1 的 Client-side LLM 子路線

如果要 LLM 對話功能、三條合法路線：

使用者自帶 API key（如 Anthropic / OpenAI）、存 localStorage、前端直接 call API — 適合 power user、需要使用者授信
WebLLM / wllama 跑前端 LLM — 模型在 browser、不需 server-side key
方案 2 edge serverless — key 藏在 edge function、就不是純靜態了

寫死 API key 在前端 JS 等於把 key 公開、會被 scraper 撿走燒爆 quota — 這是 anti-pattern、跟 6.4 跨雲端 / 本地資料邊界提到「API key 寫死 config」的延伸版（前端更嚴重、所有訪客都看得到）。

2. User query 隱私

靜態場景的 query 走向：

方案	Query 走向	誰能看到
1 純前端 + WebLLM	從不離 browser	只有使用者本人
1 + user API key	Browser → 雲端 vendor	該 vendor（依政策）
2 edge serverless	Browser → edge → 雲端 API	Edge provider + LLM vendor
3 SaaS	Browser → SaaS	SaaS provider

對應 framing 跟 0.7 隱私資料流同源 — 但靜態場景的特殊性是「前端直接出去」、不像 backend 場景可以加一層中介控制。

特別注意：

方案 3 SaaS 的 query 隱私：Algolia / Pinecone 都會 log query、依政策可能用於改進服務；對隱私敏感場景不適合
Edge provider 的 region：Cloudflare Workers 的 edge node 可能在跟使用者不同 region 處理、跨境資料法規（GDPR 等）要考慮
Browser extension 偷 query：使用者裝的 plugin 可能 access 整個頁面、包含 RAG 介面內的 query

3. CORS / 同源策略 — Browser 特有的安全模型

靜態前端 call 任意 API 會撞 CORS（Cross-Origin Resource Sharing）：

1靜態網站：https://my-blog.com
2要 call：https://api.openai.com/v1/...
3   ↓
4Browser 檢查 OpenAI 是否在 Access-Control-Allow-Origin 含 my-blog.com
5   ↓
6OpenAI 預設允許所有 origin（為了讓前端 SDK 能用）→ 通過
7某些 API（Anthropic 早期版本）不允許 browser 直 call → 失敗、必須走 edge

判讀：

能在 browser 直 call 的 API：OpenAI、Voyage、Algolia（search-only）等明確設計 browser-friendly 的服務
不能 browser 直 call、要 edge proxy：許多企業 LLM API、私有 vector DB、需要 server-only credentials 的服務

CORS 不是「資安漏洞」、是 browser 對「JS 從一個網站 call 另一個網站」的設計約束、用來保護使用者。要繞 CORS 要嗎服務商配合（設 ACAO）、要嗎用 edge function proxy。

4. 第三方 SaaS 信任 — 跟 6.0 同源、對象換

6.0 模型供應鏈與信任邊界處理的是「模型權重的信任」。靜態 RAG SaaS（Algolia / Pinecone / Weaviate Cloud）引入另一條供應鏈：

 1模型供應鏈（6.0 覆蓋）：
 2  原作者 → quantizer → registry → 你機器
 3
 4RAG SaaS 供應鏈（本章新增）：
 5  你的 content → SaaS embedding service → SaaS vector DB → SaaS retrieval
 6    └──────── 全程在 SaaS 內、你信任 SaaS 沒做以下事 ────────┘
 7              - 把你 index 用於訓練他們自己的模型
 8              - 把你 query log 賣給第三方
 9              - 沒做適當 isolation（你跟其他客戶的資料）
10              - 沒處理好 supply chain（他們用的 base embedding model）

判讀類似 0.7 物理 vs 合約保證：本地方案是物理保證（資料不離 browser）、SaaS 方案是合約保證（信 SaaS 的 ToS）。

5. Rate limit / abuse — 前端被 scrape 後濫用

靜態 RAG 的特殊 abuse 路徑：

1攻擊者掃到你的 demo blog
2   ↓ 找到前端載入的 embedding endpoint / LLM endpoint
3   ↓ 直接從攻擊者 server 重複 call（不經 browser）
4   ↓ 你的 LLM API quota 燒爆 / SaaS 配額耗光

緩解：

方案 2 edge + 加 rate limit by IP / token bucket：edge function 內 reject 過量請求
方案 1 純前端 + WebLLM：根本沒 server-side endpoint 可被 abuse、最安全
方案 3 SaaS + 用 search-only key 並設 query 上限：SaaS 通常內建 quota
CAPTCHA / Turnstile：邊緣防護

絕對不該做：把 OpenAI / Anthropic API key 寫在前端 JS、想用 rate limit 阻擋 — 攻擊者拿到 key 後不會經過你的 rate limit。

6. Client-side LLM 的模型完整性

Client-side LLM 把幾 GB 模型權重下載到 browser、引入新的供應鏈面：

1你的網站
2   ↓