Migration on Tarragon

環境與系統升級：帶電施工的遷移操作

Fri, 26 Jun 2026 00:00:00 +0000

環境與系統升級跟從零建置的差別在於：從零建置時可以先建好再上線，升級時系統已經在服務客戶，每一步操作都要在不中斷（或可控中斷）的前提下完成。這個約束決定了升級的操作模式——不是「拆掉重建」，而是「在旁邊建一個新的、驗證通過後切過去、確認沒問題再拆舊的」。

這個模組處理的是升級的操作框架與各類型的專屬風險，跟成熟度階梯平行而非串行——升級可能發生在任何成熟度階段。跟接手維運的關係是：接手後的下一步常常就是升級（接手一個 PHP 5.6 的站台，穩定維運後第一個任務就是升 PHP 版本）。

章節文章

文章	主題
升級的共通操作框架	評估差異、建平行環境、分批切換、退役舊環境的四階段模型
Runtime 版本升級	PHP / Node / Python 大版本升級的相容性評估、測試策略、分批部署
平台遷移	FTP 面板主機 → VPS → 雲端的遷移路徑、DNS 切換、資料同步
資料庫大版本升級	MySQL / PostgreSQL 大版本升級的相容性、備份、平行驗證、切換策略
OS 與基礎軟體更換	EOL OS 的遷移、套件相容性、服務重新部署

跟其他模組的關係

→ 接手維運：接手後穩定維運的下一步常是升級
→ 模組負一：還沒有 infra 的環境：升級過程中建立的操作紀律可以對齊這裡
→ 模組一：最小可行 IaC：升級是導入 IaC 的好時機——新環境用 IaC 建、舊環境手動退役
→ 模組五：核心服務上 IaC：資料庫和運算平台的升級涉及 stateful 資源的特殊處理

接手維運：別人建的環境怎麼接管

Fri, 26 Jun 2026 00:00:00 +0000

接手維運跟從零建置的差別在於：從零建置時每一個資源都是自己點的，知道它存在、知道為什麼存在；接手時面對的是一個不確定哪些東西還在用、不知道動什麼會壞的環境。第一個要解的問題不是「怎麼做 infra」，而是「現在到底有什麼、它還能不能跑、改了會怎樣」。

這個模組處理的是接管的操作流程，跟成熟度階梯平行而非串行 — 接手可能發生在任何成熟度階段：接手一個只有 FTP 存取的 PHP 站、接手一個有 SSH 但沒有 IaC 的雲端環境、接手一個有半套 IaC 但文件缺失的專案。每種情境的約束不同，但操作原則相通：先拍現況、再建維運能力、最後逐步正規化。

章節文章

文章	主題
無 SSH 的 FTP / 面板管理環境接管	沒有 SSH、沒有 CLI、只有 FTP 和 phpMyAdmin 的 legacy 環境怎麼接管（總覽）
無 SSH 環境的資料庫備份與變更管理	phpMyAdmin 的限制與對策、備份策略、migration 紀律、還原演練
程式碼版控與 FTP 部署紀律	本地 Git 工作流、config 分離、FTP 部署風險控制、CI 化 FTP
Legacy PHP 的安全盤點	credential 掃描、PHP 版本風險、SQL injection/XSS 模式、.htaccess 防護
無 SSH 環境的監控與告警	外部 HTTP check、錯誤追蹤、效能基線、流量異常偵測
有 SSH 但沒有 IaC 的雲端環境接管	有 Console 和 CLI 存取、但資源全是手動建的雲端環境怎麼盤點和接管
有半套 IaC 但文件缺失的環境接管	IaC 覆蓋不完整、部分資源在 state 外、文件缺失的環境怎麼收斂（總覽）
State 修復與清理	state 損壞診斷、orphaned entry 清理、state surgery、backend 搬遷
Drift 分類處理指南	plan 輸出分類、adopt vs revert 決策、stateful replacement 風險
Unmanaged Resource 批次 Import	優先序、import block、generated HCL review、批次策略
兩套真相並存的過渡期操作	操作規則、ownership 台帳、團隊溝通、import sprint、transition 完成判準

跟其他模組的關係

接手維運的終點是把環境帶到模組負一（可控的手動）或模組一（最小可行 IaC）的狀態。接手流程本身不做 IaC 導入 — 它的責任是讓接手者理解環境、建立維運能力、確認什麼能動什麼不能動。IaC 導入是接手完成之後的下一步。

→ 模組負一：還沒有 infra 的環境：接手完成後，環境的操作紀律對齊這裡
→ 模組零：infra 是什麼：成熟度階梯作為接手後評估現況的座標
→ 模組二：身分與憑證：接手時的 credential 盤點與輪替
→ 模組八：治理好習慣：接手後的 tagging 與 secret 管理

模組負一：還沒有 infra 的環境怎麼盡量做好

Fri, 26 Jun 2026 00:00:00 +0000

理想的 infra 治理是每一個資源都由版本控制描述、每一次變更都走 review、環境之間靠程式碼複製。多數正在運行的服務離這個畫面很遠：資源是有人在 Console 一個一個點出來的，security group 規則靠記憶維護，誰改了什麼只存在當事人腦裡。這一章承接的就是這個落差 — 你現在就在手動環境、還沒有能力或資源導入 IaC，目標是把這個階段做成「可控的手動」、而不是假裝已經納管，把代價最高的傷害先擋住，並為日後納管鋪好輸入。

把手動環境做成「可控的手動」

可控的手動指的是一種中間狀態：資源還是手點的，但關鍵變更有痕跡、高風險操作有護欄、現實長什麼樣有紀錄。它的責任是降低兩種成本 — 當下出事的成本，以及未來把資源 import 進 IaC 的成本。手動起家是絕大多數服務的常態起點，從一個人驗證想法到小團隊接手都會經過這一階，把它當成需要管理的階段、而不是需要修正的錯誤。

判讀自己是否「可控」的訊號很具體：能不能在五分鐘內說出 production 有哪些對外開放的 port、上週誰動過資料庫參數、刪掉某台機器會不會連帶弄壞別的東西。任何一題答不出來，代表這個手動環境的不可見區域正在擴大，下面幾節就是把這些區域逐一收斂。

先守住代價最高的底線

護欄要先上在「一次失誤就難以挽回」的操作上，因為手動環境沒有 IaC 的 plan / diff 當預檢，人為操作直接生效。優先級看的是失誤的回退代價、不是操作頻率。

長期憑證外洩是回退代價最高的一類。手動環境常見的反模式是把長期 access key 寫進腳本、CI 變數或開發者筆電，一旦外流，攻擊者拿到的是不會過期的權限。在還沒有完整 IAM 設計之前，最低成本的護欄是：對人改用會過期的登入工作階段（如 AWS IAM Identity Center 的臨時憑證），對自動化盡量改用平台原生的角色綁定，把還在用的長期 key 列一張清單、設定定期輪替。身分與憑證的完整地基在「模組二：身分與憑證地基」展開，這裡先擋住最容易致命的那一個。

刪除 production 資源是第二類。手動操作沒有「先看會影響什麼」的步驟，刪一個 security group 或 volume 可能瞬間讓服務失聯。對承載狀態的資源（資料庫、儲存桶、有持久資料的磁碟）開啟平台的刪除保護（如 termination protection、deletion protection），讓誤點多一道阻力。網路規則的大改是第三類 — 調整 VPC 路由、subnet 或對外規則時，先確認回退方式存在再動手，網路地基的系統性設計在「模組三：網路地基」。

這三類的共同點是：護欄成本低、失誤代價高，所以即使還沒有 IaC，CP 值也足以先做。

讓變更留下痕跡

變更留痕的責任是讓「誰、在什麼時候、改了什麼、為什麼」事後可追溯，這是手動階段最接近版本控制的替代品。IaC 的 git history 天然提供這件事，手動環境得靠人為紀律補上。

最低限度是一份變更日誌，可以只是 repo 裡的一個 CHANGELOG 或團隊共用文件，每次動 production 就追加一行：時間、操作者、改了哪個資源、原因。它不需要漂亮，需要的是每次都寫。和它互補的是平台的稽核日誌（如 AWS CloudTrail），稽核日誌記錄 API 層級「發生了什麼」，人寫的日誌補上「為什麼」— 前者你查得到某個 security group 在幾點被改，後者你才知道那次改動是為了什麼需求。兩者一起，事故排查時才能從「哪裡變了」一路追到「能不能安全回退」。

常見陷阱是只在「大改動」時才記錄，結果真正出事的往往是某次以為無關緊要的小調整。判準簡化成一句：只要這個操作別人事後可能需要知道，就記。

命名與 tagging 從手動階段就開始

命名規範與資源標籤是降低未來 import 成本的最低成本投資，它的責任是讓每個資源自帶「我是誰、屬於哪個服務、誰負責、哪個環境」的身分資訊。手動點出來的資源若名稱是 test-2、new-db-final，日後納管時得靠人逐一辨認哪個還在用、屬於哪條業務線，這個考古成本遠高於當初多打幾個字。

從手動階段就固定一套規則：資源名稱帶上服務與環境（如 payments-api-prod），標籤至少包含 service、env、owner 三個維度。這套規則在還沒 IaC 時靠人手動填，等到導入 IaC，這些標籤直接成為 Terraform 把現有資源對應到程式碼的依據，也是模組八治理習慣裡成本歸因與批次操作的基礎（見「模組八：治理好習慣」的 tagging 段）。先建立規範的價值在於：早一天統一，需要回頭重命名的資源就少一批。

盤點現有資源作為納管輸入

資源盤點的責任是把「現實長什麼樣」寫成一份清單，它是日後納管的直接輸入 — 不知道有什麼，就無法決定先 import 什麼。手動環境最危險的是沒人記得還開著的資源。

盤點不必一次到位，先用平台工具把現況拉出來，存成可比對的形式：

1# 列出某區域所有 EC2 instance 與其關鍵標籤
2aws ec2 describe-instances \
3 --query 'Reservations[].Instances[].[InstanceId,Tags,State.Name]' \
4 --output table
5
6# 列出所有 security group 與開放規則，找出對外開放的 port
7aws ec2 describe-security-groups \
8 --query 'SecurityGroups[].[GroupId,GroupName,IpPermissions]' \
9 --output json

把輸出存進 repo，定期重跑比對差異，就能看出環境在背景悄悄長出了什麼。這份清單同時服務三件事：當下的安全盤查（有沒有不該開的對外 port）、未來 IaC import 的範圍界定、以及成熟度評估時「全手動到底有多少資源」的事實基礎（成熟度階梯的定位見「模組零：infra 是什麼」）。

資源與信任不足下的高槓桿取捨

當時間、人力或上層信任都不足，無法一次把上面每件事做齊時，取捨原則是先做「失誤代價高且護欄成本低」的少數幾件。在這個情境下，最划算的通常是兩件：先擋長期憑證外洩，因為一次外洩可能拖垮整個帳號；再開啟有狀態資源的刪除保護，因為資料一旦刪除多半無法復原。

變更日誌與資源盤點屬於累積型投資 — 越早開始，未來省的考古成本越多，但晚一週開始不會立刻出事，所以在資源極度受限時可以排在護欄之後。命名與 tagging 的取捨點在於：新建資源時順手套規則幾乎零成本，回頭重整存量資源才貴，所以策略是「新的一律照規範、舊的等有餘力再補」，而不是停下來先整理全部存量。資源不足時怎麼跟上層談這些工作的優先級，在「模組九：怎麼把 infra 推動起來」展開。

該開始導入 IaC 的訊號

手動環境到了某些訊號出現時，繼續手動的邊際成本會超過導入 IaC 的一次性成本，這就是該往模組一跨進去的時機。訊號是規模與協作的函數，不是時間的函數。

第一個訊號是環境數量變多：當你需要 dev、staging、production 三套幾乎一樣的環境，手動複製會在環境之間留下難以察覺的差異，而 IaC 的價值正是用同一份程式碼複製環境。第二個是多人同時動資源：一個人手動操作還能靠記憶維護，兩三個人並行時，沒有 plan / review 的手動變更會互相覆蓋、互相破壞。第三個是環境爆炸頻率上升：如果「改一個設定結果弄壞別的東西」這類事故開始每月發生，代表手動環境的隱性依賴已經超過人腦能追蹤的上限。

任一訊號穩定出現，就是把第一個資源納入 IaC 的起點 — 前面做的命名、tagging、資源盤點此時直接成為 import 的輸入，第一步怎麼跨進去在「模組一：最小可行 IaC」。在訊號出現前過早導入 IaC 也有代價：單人、單環境、低變更頻率時，IaC 的學習與維護成本可能高於它省下的手動工，所以這裡的判準是等訊號、不是趕進度。

章節文章

文章	主題
手動環境的可控底線與納管準備	還沒有 IaC 的環境怎麼守住底線、讓變更可追溯、降低未來納管成本，以及辨識何時該開始導入 IaC

跨分類引用

→ 模組零：infra 是什麼：成熟度階梯上「全手動」這一階的定位
→ 模組一：最小可行 IaC：訊號出現後，第一步怎麼跨進 IaC
→ 模組二：身分與憑證地基：長期憑證護欄的系統性設計
→ 模組三：網路地基：手動階段網路大改的回退考量、之後的系統性設計
→ 模組八：治理好習慣：tagging 在成本歸因與批次操作的後續價值
→ 模組九：怎麼把 infra 推動起來：資源不足時怎麼跟上層談優先級
→ 接手維運：別人建的環境怎麼接管：接手前人的專案時的盤點與接管流程

升級的共通操作框架

Fri, 26 Jun 2026 00:00:00 +0000

環境與系統升級的核心約束是系統在升級過程中要持續服務客戶。這個約束排除了「關機 → 換版本 → 開機」的簡單路徑，取而代之的操作模式是四個階段：評估新舊版本的差異、在旁邊建一個新環境驗證、把流量分批切過去、確認沒問題後退役舊環境。這四個階段不管升級的對象是 runtime 版本、資料庫引擎、作業系統還是整個平台，框架相同，差異落在每個階段的具體操作與風險點。

Phase 1：差異評估

差異評估的產出是一份 change manifest——列出所有已知的新舊差異、每項的風險等級、以及需要的應對措施。這份清單是後續所有階段的依據：平行環境要驗證清單上的每一項、切換策略要先處理高風險項、退役前要確認清單上的所有相容性問題都已解決。

差異的三個維度

第一個維度是目標本身的變化。版本升級要看 changelog、breaking changes list、deprecated features list。平台遷移要看兩個平台的功能差異（共享主機沒有的 cron 彈性、VPS 有的 SSH 存取）。資料庫升級要看 SQL 語法差異、預設行為變更（如 MySQL 8.0 的 caching_sha2_password 預設認證方式）。

第二個維度是依賴關係。升級 PHP 版本時，所有 Composer 套件都可能受影響；升級 MySQL 時，ORM 的 SQL 生成可能不相容；遷移平台時，原本靠主機面板設定的 cron job 要改用系統 crontab 或雲端排程。依賴關係沒列完整，平行環境的測試就會漏掉受影響的元件。

第三個維度是過渡期的雙版本相容性。升級不是瞬間完成的——在切換的過程中，系統的某些部分跑新版本、某些部分跑舊版本。這段期間兩個版本必須能共存：資料庫的 schema 要同時相容新舊版本的程式碼、API 的回應格式要讓新舊版本的客戶端都能處理、session 格式要能跨版本延續。

風險分級

風險等級	定義	應對方式	範例
低	向後相容、不需改 code	平行環境驗證即可	PHP 8.x 的效能改善
中	需要改 code 但改動明確	先改 code、確認新舊版本都能跑	deprecated function 替換
高	行為變更、可能影響商業邏輯	需要完整的功能測試 + 人工驗證	浮點數精度變更、排序預設值變更
阻塞	無法在新版本運作、沒有替代方案	必須在升級前解決或決定放棄升級	依賴的套件不支援新版本

每一項差異分級後，高風險和阻塞項決定升級的可行性與時程。阻塞項超過團隊能處理的量時，升級可能需要拆成多個階段（先升到中間版本、再升到目標版本）或延後。

時程與管理層報告

差異評估的時程通常佔整個升級的 20-30%——看起來「還沒開始做」但這段時間的產出（change manifest）決定了後面所有階段的範圍。向管理層報告時用 change manifest 的風險分級表：「共 N 項差異，其中 X 項低風險、Y 項中風險、Z 項高風險、W 項阻塞。中高風險項的處理估計 M 天，阻塞項的替代方案評估需要額外 K 天。」

Phase 2：平行環境驗證

平行環境驗證的責任是用事實證明「新版本在跟 production 相同的條件下能正常運作」。它的產出是一份驗證報告——每一項 change manifest 上的差異都標上「已驗證通過 / 有問題待修 / 不影響」。沒有這份報告就切換，等於在賭新版本會正常。

建立平行環境

平行環境跟 production 越相似，驗證結果越可信。理想狀態是完全複製 production 的架構（同規格、同設定、同網路拓撲），只差目標元件的版本不同。成本限制下的折衷是用縮小版（較小的 instance、較少的資料量），但關鍵設定（PHP 模組、MySQL 參數、安全設定）必須跟 production 一致。

資料的處理要特別注意。用 production 的資料副本驗證最可靠（能觸發真實的邊界狀況），但如果資料含 PII，需要先脫敏處理。另一個選項是用 staging 環境的資料，但要確認 staging 的 schema 跟 production 一致——schema drift 會讓驗證結果失真。

驗證清單

驗證項目	方法	通過標準
應用程式啟動	部署到新環境、觀察 log	無 fatal error、所有服務啟動成功
自動化測試	跑完整測試套件	通過率跟舊環境一致
關鍵業務流程	人工操作核心流程（登入、下單、金流）	每個步驟的結果正確
效能比對	同樣的 workload 打新舊環境	回應時間差異 < 10%（或可解釋）
相容性問題	逐一驗證 change manifest 的中高風險項	每項有「通過」或「已修」的紀錄
外部整合	第三方 API callback、webhook、email	外部服務能正常與新環境互動

平行期的時間長度

平行環境跑多久才能切換？取決於業務週期。如果系統有月結、季結的批次處理，平行環境至少要跑過一次完整週期。電商系統要跑過至少一個促銷活動。沒有明顯週期的系統，一到兩週的平行驗證通常足夠發現主要問題。

Phase 3：分批切換

分批切換的核心原則是不一次切 100%——先把最低風險的流量導到新環境，觀察一段時間確認正常，再逐步增加比例。

切換策略

策略	適用環境	操作方式	回退速度
DNS 權重切換	有多組 server 的環境	Route 53 weighted routing 或類似機制，逐步調整新舊比例	分鐘級（改 DNS 權重）
Blue-green	有 load balancer 的環境	新舊環境各掛在不同 target group，LB 切換指向	秒級（切 target group）
Canary	容器化或 serverless 環境	新版本只接 5% → 20% → 50% → 100% 流量	秒級（調整 weight）
維護窗口	共享主機（無 LB）	公告停機時間、切換、驗證、恢復服務	分鐘級（FTP 上傳舊版）

共享主機通常只能用維護窗口策略——沒有 load balancer 做流量分配、沒有 DNS 權重可調。維護窗口的關鍵是時間規劃：備份（15 分鐘）→ 切換（30 分鐘）→ 驗證（30 分鐘）→ 恢復或回退（15 分鐘），在窗口內必須完成全部步驟，超時就回退。

切換期間的監控

切換開始後要密切觀察的指標：

錯誤率：5xx / 4xx 比例相對於切換前的基線
回應時間：p50 和 p99 相對於基線
業務指標：轉換率、訂單數、付款成功率（如果適用）
外部整合：第三方 callback 是否正常

回退觸發條件

在切換前就定義好回退條件，避免事故發生時還要開會決定要不要退：

錯誤率超過基線的 2 倍持續 5 分鐘 → 回退
核心業務流程失敗（登入、結帳、金流） → 立刻回退
回應時間超過基線的 3 倍持續 10 分鐘 → 回退

回退不是失敗——它是風險控制機制的正常運作。回退後排查問題、修正、重新走 Phase 2 驗證、再嘗試切換。

切換的通知

對象	通知時機	內容
內部團隊	切換前 24 小時 + 切換開始時	切換時間、影響範圍、回退計畫
客戶（如有 SLA）	切換前 1 週	預計維護窗口、預期影響
外部 vendor	切換前 1 週	endpoint 變更（如有）、IP 變更（如有）

Phase 4：退役舊環境

切換完成後不要立刻刪掉舊環境——保留 1-2 週的冷備。這段時間處理長尾問題：DNS 快取還沒更新的客戶端、排程任務還指向舊 endpoint 的外部系統、舊環境上可能還有未遷移的資料。

退役前的檢查

舊環境的存取 log 是否歸零？（有流量代表還有東西指向它）
所有 cron job 是否都已在新環境運行？
外部系統的 webhook / callback URL 是否都已更新？
舊環境上有沒有需要歸檔的資料？（log、上傳檔案、備份快照）

退役步驟

停止舊環境的應用服務（但不刪除）
觀察 1 週——如果有問題可以快速重啟
匯出需要保留的資料（log、uploaded files）
刪除舊環境的運算資源（VM、容器）
保留舊環境的最後一份備份 30 天，作為最後的保險
清理舊環境的 DNS 記錄、SSL 憑證、IAM 角色

貫穿全程的升級紀律

一次只升一個東西

同時升級 PHP 版本 + 遷移到新主機 + 重構資料庫 schema，出問題時無法判斷是哪個變更造成的。每次升級只改一個主要元件，穩定後再升下一個。如果業務壓力要求一次完成，至少在 Phase 2 的驗證環境裡逐一引入、逐一確認。

每個階段轉換前備份

Phase 1 結束前備份 production 現況、Phase 3 切換前備份、Phase 4 退役前備份。三份備份各自獨立、各自有還原驗證。備份不只是「做了」——要實際測試過還原，確認備份的完整性。

記錄每一步

每個升級操作記錄在 repo 的 changelog 裡：什麼時間、誰做的、改了什麼、觀察到什麼結果。升級出問題時，changelog 是回溯「上一步做了什麼」的唯一依據。

在平行階段就練習回退

不要等到 Phase 3 切換時才第一次嘗試回退。在 Phase 2 的平行環境裡，刻意從新版本切回舊版本一次，確認回退路徑能走通、回退後服務能正常恢復。回退的演練跟升級的驗證同等重要。

跨分類引用

→ 接手維運：接手後穩定維運的下一步常是升級
→ 模組五：核心服務上 IaC：stateful 資源（RDS、S3）的升級涉及特殊的備份與切換策略
→ 模組八：治理好習慣：升級期間的變更紀錄對齊治理紀律
→ 模組七：infra 走 PR 流程：升級涉及的 IaC 變更走 PR review

手動環境的可控底線與納管準備

Fri, 26 Jun 2026 00:00:00 +0000

手動起家是絕大多數服務的常態起點。從一個人在 Console 點出第一台 EC2 驗證想法，到小團隊接手開始長出更多資源，環境會經歷一段「全部靠手動、沒有任何程式碼描述」的階段。這個階段在成熟度階梯（從全手動到全程式碼治理的五階分級）上屬於第零階，它的責任是把自己管理成「可控的手動」，而不是假裝已經納管。可控意味著三件事：高風險操作有護欄、關鍵變更有痕跡、現實長什麼樣有紀錄。做好這三件事，當下出事的成本降低，未來把資源 import 進 IaC 的成本也跟著降低。

判讀自己是否可控

可控的手動環境能在五分鐘內回答以下問題：

production 有哪些對外開放的 port？
上週誰動過資料庫參數，動了什麼？
刪掉某台機器會不會連帶弄壞別的東西？
現在用了幾把長期 access key，每把用在哪裡？
有沒有一份清單能對照 Console 上的資源，確認沒有漏掉的？

五題都能答的團隊不多，目標也不是一次全通。辨識出哪些區域不可見，按傷害代價從高到低逐一收斂，就是這一章的路線。

護欄先上在回退代價最高的操作

手動環境沒有 IaC 的 plan / diff 當預檢，人為操作直接生效。護欄的優先級看的是失誤的回退代價，不是操作頻率。回退代價最高的三類操作各自有最低成本的防線。

長期憑證外洩

長期 access key 一旦外流，攻擊者拿到的是不會過期的權限。回退代價高的原因不只是撤銷這把 key 本身，而是要找出所有使用它的地方同步更換 — 而「所有使用它的地方」在手動環境裡幾乎沒有完整清單。一把用了半年的 key 可能已經被複製到 CI 環境變數、某個同事的測試腳本、一個早已被遺忘但還在跑的 cron job 裡。

最低成本的護欄分三步。第一步是盤點：列出帳號裡所有長期 access key，記下建立時間、上次使用時間與對應用途。

1aws iam generate-credential-report
2aws iam get-credential-report --output text --query Content | base64 -d

第二步是替換路徑。對人類操作者，改用會過期的登入工作階段（如 AWS IAM Identity Center 的臨時憑證，幾小時後自動失效）。對跑在雲上的自動化（EC2 上的腳本、ECS task），改用平台原生的角色綁定 — instance profile 或 task role 會自動輪替短期憑證，程式碼不需要存任何 key。對跑在雲外的 CI/CD（如 GitHub Actions），改用 OIDC 聯合（見模組二：身分與憑證地基）。

第三步是輪替紀律。把還在用的長期 key 設定定期輪替提醒（60 天或 90 天，對齊 AWS IAM credential report 的建議週期），每次輪替時問自己：這把 key 能不能這次就換成臨時憑證，讓它成為最後一次輪替？

刪除 production 資源

在 Console 選中一個 security group 按刪除，平台可能只問「確定嗎？」就直接執行，不會告訴你有三個 EC2 instance 正在引用這個 group。EBS volume 被刪除後，上面的資料就不存在了 — 除非之前有做 snapshot，而手動環境裡有沒有做 snapshot 通常取決於某個人的記憶。

對承載狀態的資源，最低成本的護欄是開啟平台的刪除保護：

1aws rds modify-db-instance \
2  --db-instance-identifier payments-prod \
3  --deletion-protection \
4  --apply-immediately
5
6aws ec2 modify-instance-attribute \
7  --instance-id i-0abc123 \
8  --disable-api-termination

RDS 有 deletion_protection，EC2 有 termination_protection，S3 bucket 可以開 MFA delete。這些機制把「一鍵刪除」變成「先關保護再刪除」兩步操作，擋不住蓄意刪除，但能擋住手滑跟批次操作的誤傷。

刪除保護之外，備份是另一道防線。手動環境裡至少確認 RDS 的自動備份是開著的（預設保留 7 天），以及 S3 bucket 的 versioning 是開著的。S3 bucket 的 versioning 預設是關的，一個沒開 versioning 的 bucket，覆寫或刪除物件後就回不去了。

網路規則的大改

手動調整 VPC 路由、subnet 關聯的 route table、或 security group 的入站規則，影響範圍跨越多個服務，而且在手動環境裡沒有版本控制可以 diff 改了什麼。一條路由改錯，某些 private subnet 的服務可能瞬間失去出站能力。

最低成本的護欄是「改之前先把現況存下來」：

1aws ec2 describe-security-groups \
2  --group-ids sg-0abc123 \
3  --output json > sg-backup-$(date +%Y%m%d).json

用 CLI 把當前的 security group 規則、route table 設定匯出一份 JSON。改完後如果出問題，這份 JSON 就是回退的依據。這不是自動回退 — 手動環境沒有那個能力 — 但至少讓「改回去」有個明確的目標狀態。網路地基的系統性設計在模組三：網路地基展開。

該先做什麼

這三類護欄的共同判準是：護欄成本低（幾條 CLI 指令或 Console 設定）、失誤代價高（憑證外洩、資料遺失、服務中斷）。判讀某個資源該不該現在就加護欄，問自己一個問題：「這個資源出事的回退時間是分鐘級、小時級、還是不可回退？」不可回退的（資料刪除、key 外洩）優先加；分鐘級可回退的（重啟一個 stateless service）可以排後面。

讓變更留下痕跡

變更留痕的責任是讓「誰、在什麼時候、改了什麼、為什麼」事後可追溯。IaC 的 git history 天然提供這件事，手動環境得靠人為紀律補上。

人工變更日誌

最低限度是一份變更日誌，可以只是 repo 裡的一個 markdown 檔或團隊共用文件。一條記錄至少包含四個欄位：

1## 2026-06-20
2
3- **操作者**：alice
4- **資源**：sg-0abc123 (payments-api-prod)
5- **變更**：新增 ingress rule, port 8080 from 10.0.0.0/16
6- **原因**：內部監控服務需要存取 health check endpoint
7- **回退方式**：刪除該 ingress rule

格式不需要精美，需要的是「每次都寫」。常見陷阱是只在「大改動」時才記錄，結果真正出事的往往是某次以為無關緊要的小調整 — 改了一個 parameter group 的值、調了一條路由的目標、把某個 instance 的 security group 換了一個。判準簡化成一句：只要這個操作別人事後可能需要知道，就記。

平台稽核日誌

和人工日誌互補的是平台的稽核日誌（如 AWS CloudTrail、GCP Audit Log）。稽核日誌自動記錄 API 層級「發生了什麼」— 某個 IAM user 在某個時間對某個資源呼叫了哪個 API — 不依賴人為紀律、也不會漏。但它只記錄事實，不記錄意圖。它告訴你 security group 在幾點被改，卻不告訴你改的原因。人寫的變更日誌補上的正是「為什麼」這一段。

1aws cloudtrail describe-trails \
2  --query 'trailList[].{Name:Name,S3Bucket:S3BucketName}'
3
4aws cloudtrail lookup-events \
5  --lookup-attributes AttributeKey=EventName,AttributeValue=AuthorizeSecurityGroupIngress \
6  --max-items 10

CloudTrail 在 AWS 帳號裡預設開啟 management event 的 90 天查閱。手動環境裡至少確認 management event 的 trail 存在且在寫入 — 這是事後回推「到底誰動了什麼」的最後防線。兩者一起，事故排查時才能從「哪裡變了」一路追到「為什麼改、能不能安全回退」。

命名與 tagging 從手動階段就開始

命名規範與資源標籤讓每個資源自帶「我是誰、屬於哪個服務、誰負責、哪個環境」的身分資訊。手動點出來的資源若名稱是 test-2、new-db-final、temp-sg，日後納管時得靠人逐一辨認哪個還在用、屬於哪條業務線，考古成本遠高於當初多打幾個字。

命名規範

從手動階段就固定一套命名規則，讓名稱本身攜帶足夠的上下文。一個實用的格式是 {service}-{component}-{env}：

資源類型	命名範例	攜帶的資訊
EC2 instance	`payments-api-prod`	服務 + 角色 + 環境
Security group	`payments-api-prod-sg`	同上 + 資源類型
RDS instance	`payments-db-prod`	服務 + 資源類型 + 環境
S3 bucket	`acme-payments-assets-dev`	組織 + 服務 + 用途 + 環境

命名不需要完美或涵蓋所有維度，需要的是一致。同類資源都用同一套格式，人眼掃一頁 Console 就能分辨「這個屬於 payments 的 prod」跟「這個屬於 auth 的 dev」。不一致的命名（有些用底線、有些用連字號、有些帶 env 有些不帶）會在日後盤點時讓每個資源都變成需要考古的謎題。

最小 tag 集合

標籤至少包含三個維度：

Tag	問的問題	典型值
`service`	這屬於誰	`payments-api` / `auth`
`env`	哪個環境	`prod` / `staging` / `dev`
`owner`	出事找誰	`team-payments` / `platform`

手動階段的 tag 靠人工填。在 Console 建資源時順手加 tag 幾乎零成本 — 多打三行字而已。但如果沒有約定「哪些 tag 是必填」，多數人會跳過。最低限度的紀律是：在團隊文件裡寫下「建任何資源前先填這三個 tag」，並在每次盤點時檢查有沒有漏標的資源。

這套規則在導入 IaC 後直接升級成 Terraform 的 default_tags — 自動套用、不靠人記（見模組八：治理好習慣）。先在手動階段建立習慣，導入 IaC 時只是換一個強制機制，而不是從零學起一套分類法。

盤點現有資源作為納管輸入

資源盤點把「現實長什麼樣」寫成一份清單，它是日後納管的直接輸入。接手別人建的環境時，盤點的範圍和方法更完整的版本見接手維運模組。手動環境裡最難管理的是未標記的閒置資源 — 測試用的 EC2、實驗用的 RDS — 持續計費但沒有標籤，無法用查詢系統性找出，也無法確認是否仍有服務依賴。

盤點方法

按資源類型分批拉，每批存一份 JSON 或 CSV 進 repo：

 1aws ec2 describe-instances \
 2  --query 'Reservations[].Instances[].[InstanceId,InstanceType,State.Name,Tags[?Key==`Name`].Value|[0],Tags[?Key==`env`].Value|[0]]' \
 3  --output table
 4
 5aws rds describe-db-instances \
 6  --query 'DBInstances[].[DBInstanceIdentifier,Engine,DBInstanceClass,MultiAZ,DeletionProtection]' \
 7  --output table
 8
 9aws ec2 describe-security-groups \
10  --query 'SecurityGroups[].[GroupId,GroupName,IpPermissions]' \
11  --output json > security-groups-$(date +%Y%m%d).json
12
13aws s3api list-buckets --query 'Buckets[].Name'

盤點後的三件事

這份清單同時服務三個目的。

當下的安全盤查：security group 清單裡有沒有不該開的對外 port？有沒有 EC2 直接掛著公網 IP 卻不是 load balancer？用 0.0.0.0/0 搜一遍 security group 的輸出，命中的每一條都要能說出「這個全開是故意的、理由是什麼」。

未來 IaC import 的範圍界定：哪些資源該先 import。判準是「改動頻率」與「改錯代價」的乘積 — 頻繁改動且改錯代價高的（security group、IAM role）先排進來，很少動的（一個已經穩定的 S3 bucket）可以排後面。

成熟度評估的事實基礎：成熟度階梯的定位（見模組零：infra 是什麼）需要知道「全手動到底有多少資源、分布在幾個帳號、跨幾個 region」，這份清單就是評估的輸入。

盤點的節奏

第一次盤點最花時間，因為很多資源的用途需要考古。之後每月或每季重跑一次比對差異 — 重點是看「上次到這次之間長出了什麼新資源」。如果每次比對都發現大量未標記的新資源，這本身就是一個訊號：手動操作的可見性不足，該考慮導入 IaC 了。

資源與信任不足下的高槓桿取捨

當時間、人力或上層信任都不足，無法一次把上面每件事做齊時，取捨原則是先做「失誤代價高且護欄成本低」的少數幾件：

護欄	實施成本	失誤代價	優先級
長期 key 盤點	低	極高	立刻做
刪除保護	低	極高	立刻做
變更日誌	低	中	第二順位
命名規範	近零	累積	新資源立刻套用
資源盤點	中	累積	有空就做
存量重命名	高	累積	等有餘力

長期憑證盤點與刪除保護兩者加起來的實施時間可能不到一小時。命名與 tagging 的策略是「新的一律照規範、舊的等有餘力再補」，而不是停下來先整理全部存量。資源不足時怎麼跟上層談這些工作的優先級，在模組九：怎麼把 infra 推動起來展開。

該開始導入 IaC 的訊號

手動環境到了某些訊號出現時，繼續手動的邊際成本會超過導入 IaC 的一次性成本。訊號是規模與協作的函數，不是時間的函數 — 一個人運維一個簡單服務，手動可能撐很久；三個人同時動一個稍微複雜的環境，幾週內就會踩到手動的極限。

環境數量變多：當需要 dev、staging、production 三套幾乎一樣的環境，手動複製會在環境之間留下難以察覺的差異。某個人在 staging 加了一條 security group 規則，忘了在 prod 也加，結果 staging 測通了、prod 部署後服務連不上。IaC 用同一份程式碼複製環境，環境差異只存在於參數值。

多人同時動資源：一個人手動操作還能靠記憶維護，兩三個人並行時，沒有 plan / review 的手動變更會互相覆蓋。A 改了一個設定解了自己的問題，B 幾天後改了另一個設定把 A 的修正覆蓋掉，事故原因得靠翻 CloudTrail 才查得到。

環境爆炸頻率上升：如果「改一個設定結果弄壞別的東西」這類事故開始每月發生，代表手動環境的隱性依賴已經超過人腦能追蹤的上限。一個典型的隱性依賴：security group A 被 instance X 和 instance Y 同時引用，改 A 時只想著 X 的需求、忘了 Y 也依賴它，改完 Y 就斷了。

合規或稽核要求：外部稽核（SOC 2、ISO 27001）開始要求「列出所有對外暴露的服務」「提供存取權限的變更紀錄」「證明 production 環境的變更有經過審查」。手動環境回答這些問題時，每次都是一場考古工程。IaC 加上 PR 流程後，答案就在 repo 裡。

任一訊號穩定出現，就是把第一個資源納入 IaC 的起點 — 前面做的命名、tagging、資源盤點此時直接成為 import 的輸入。第一步怎麼跨進去在模組一：最小可行 IaC。

在訊號出現前過早導入 IaC 也有代價：單人、單環境、低變更頻率時，IaC 的學習與維護成本可能高於它省下的手動工 — 寫一份 HCL、配一個 state backend、設一條 pipeline 的固定成本，在只有三個資源的環境裡不一定划得來。這裡的判準是等訊號、不是趕進度。

跨分類引用

→ 接手維運：如果這個手動環境是接手來的，先走接手維運的盤點流程
→ 模組零：infra 是什麼：成熟度階梯上「全手動」這一階的定位
→ 模組一：最小可行 IaC：訊號出現後，第一步怎麼跨進 IaC
→ 模組二：身分與憑證地基：長期憑證護欄的系統性設計
→ 模組三：網路地基：手動階段網路大改的回退考量、之後的系統性設計
→ 模組八：治理好習慣：tagging 在成本歸因與批次操作的後續價值
→ 模組九：怎麼把 infra 推動起來：資源不足時怎麼跟上層談優先級

後端 migration、rollout 與 rollback 流程

Thu, 21 May 2026 00:00:00 +0000

後端部署流程的核心責任是讓程式、資料與流量在相容窗口內推進。後端服務通常會同時依賴 database、queue、cache、外部 API 與 runtime config；CI/CD 需要把 build 成功、migration 安全、readiness 可信、rollback 可執行分成不同 gate。

流程定位

後端部署的主要風險是有狀態依賴。前端 artifact 可以直接回退上一份靜態檔，後端服務一旦寫入新資料、消費 queue message 或呼叫外部 side effect，rollback 就不再只是換回舊 image。發布流程要先定義新舊版本如何短暫共存，再決定 migration 與流量切換順序。

階段	責任	判讀訊號
Build	產生 binary、package 或 image	版本是否可追到 commit
Contract test	驗證 API、queue、DB 相容性	新舊 schema / message 是否可共存
Migration	推進資料結構與資料狀態	是否可漸進、可重試、可停止
Rollout strategy	分批接流量	readiness、error rate、latency 是否可信
Rollback strategy	縮小錯誤版本影響	程式、資料、queue 與 config 是否可回復

Build 階段負責產生可部署服務。服務版本要能從 runtime 反查 commit、workflow run、image digest 與 migration 版本，讓事故時能快速定位哪一次變更進入環境。

Contract test 階段負責驗證跨邊界相容。API response、database schema、queue message 與 config key 都是契約；只測 service 內部函式，通常抓不到新舊版本並存時的破壞性變更。

Migration 階段負責推進資料狀態。安全 migration 通常採 expand-and-contract：先加相容欄位或表、部署可讀新舊格式的程式、回填資料，最後移除舊格式。直接在同一次 release 刪欄位與切程式，會讓 rollback 失去空間。

Rollout strategy 階段負責控制新版本接到的流量。Rolling、canary 與 blue-green 都需要可信 readiness；readiness 應檢查服務能否接流量，而不只是 process alive。

Rollback strategy 階段負責定義失敗時的處理路由。後端 rollback 常見做法是 app rollback、config rollback、traffic rollback 或 forward fix；資料已被新程式寫入時，forward fix 往往比直接資料回滾安全。

Migration 順序

Migration 順序的責任是保留相容窗口。資料結構變更應讓至少兩個相鄰程式版本能共存，避免部署中途任何一端先完成都造成服務不可用。

新增向前相容 schema，例如新增 nullable column 或新表。
部署可同時讀舊欄位與新欄位的程式。
執行 backfill 或 background migration。
切換讀取來源或寫入路徑。
觀察穩定後移除舊欄位、舊 index 或舊 message 格式。

這個順序的價值是可停止。若第 3 步回填異常，可以暫停 backfill，不必立即回退 app；若第 4 步切換後錯誤率升高，可以先切回舊讀取路徑，再評估資料修補。

Rollout 判讀

Rollout 判讀要同時看技術指標與業務副作用。服務能啟動不代表能安全接流量；API error、queue lag、database lock、第三方 API 錯誤與核心業務漏斗都可能是發布問題。

訊號	判讀	下一步
readiness 未通過	新版本尚未能接流量	暫停 rollout，查 config / 依賴
error rate 上升	新版本或相依服務契約出錯	降低流量或切回舊版本
migration lock 久	schema 變更影響正常查詢	停止 migration，改成分段方案
consumer lag 上升	worker 消費速度或 message 壞	暫停新版 worker 或降速
rollback 後仍錯	資料或外部 side effect 已變動	進入 forward fix / repair 流程

這些訊號要先接到發布流程。若指標只存在 dashboard 裡、workflow 不知道如何判讀，團隊仍會在事故當下靠人工臨場決策。

常見反模式

反模式的共同問題是把後端部署當成單一 deploy 動作。後端發布的本質是多個相依狀態的協調流程。

反模式	風險	替代做法
app 與 destructive migration 同步	rollback 後舊程式失去讀取契約	expand-and-contract
readiness 只檢查 process alive	流量進入尚未準備好的服務	檢查依賴、config 與初始化狀態
rollback 只切 image tag	資料與 queue side effect 留下	定義 app / data / config 路由
migration 沒有 dry run	發布時才發現權限或鎖表問題	staging 或 shadow 環境先跑驗證

下一步路由

後端部署總覽：回後端部署 CI/CD。
Migration 術語：讀 Migration。
Gate 原理：讀 CI gate 與 workflow 邊界。

平台遷移

Fri, 26 Jun 2026 00:00:00 +0000

平台遷移改變的是系統跑在哪裡，不是系統跑什麼。應用程式碼不動，改變的是網路拓樸、儲存位置、運算環境與存取方式。遷移成功的判準是應用程式在新平台上以等同或更好的效能運作，且舊平台可以被安全退役。

遷移的核心約束是帶電施工——系統在搬遷過程中要持續服務。這決定了操作模式：在新平台建起平行環境、驗證通過後用 DNS 切換流量、確認沒問題再拆舊環境。每一步都保留回退到舊環境的能力，直到新環境穩定運行一段時間。

遷移路徑的常見組合

路徑	獲得	失去	主要變動
共享主機 → VPS	SSH、cron 彈性、自訂軟體安裝	主機商代管的面板、email、自動備份	需要自己管 OS、web server、SSL
VPS → 雲端	Auto-scaling、managed DB、IaC、多 AZ	固定月費的簡單計費	計費模型改按用量、運維複雜度上升
地端 → 雲端	彈性擴縮、不管硬體	對硬體的直接控制	網路重新設計、合規審查、資料主權確認

每條路徑的遷移工程量級不同：共享主機 → VPS 是最輕的（應用層搬家）、地端 → 雲端是最重的（整個基礎設施重建）。選擇遷移路徑時先確認商業目標——如果目標是「能裝自訂軟體」，共享主機 → VPS 就夠了，不需要一步跳到雲端。

共享主機 → VPS 遷移

遷移前的記錄

把共享主機的所有設定記下來，作為 VPS 上重建的 checklist。需要記錄的項目：

項目	記錄方式	用途
PHP 版本與模組	`phpinfo()` 匯出	VPS 上安裝對應版本
Cron jobs	主機面板截圖或匯出	VPS 上重建 crontab
Email 帳號與轉發規則	面板匯出	另外處理（見下方）
DNS 記錄（A / CNAME / MX）	域名管理介面匯出	切換時需要
SSL 憑證	簽發者、到期日	VPS 上重新簽發或遷移
.htaccess 規則	從站台下載	轉換成 nginx 設定

接手維運模組的環境設定拍照有更完整的盤點方法。

VPS 環境建立

VPS 上從零安裝 web stack：

 1# Ubuntu 22.04 為例
 2sudo apt update && sudo apt upgrade -y
 3
 4# Web server
 5sudo apt install nginx -y
 6
 7# PHP（對齊共享主機的版本）
 8sudo apt install php8.1-fpm php8.1-mysql php8.1-curl php8.1-mbstring php8.1-gd php8.1-xml -y
 9
10# MySQL
11sudo apt install mysql-server -y
12
13# SSL（Let's Encrypt）
14sudo apt install certbot python3-certbot-nginx -y
15sudo certbot --nginx -d example.com -d www.example.com

安裝完成後用 php -m 比對共享主機的 phpinfo 記錄，確認所有模組都已安裝。缺少的模組用 apt install php8.1- 補上。

資料搬移

1# 程式碼：從本地 Git repo 部署（不從共享主機直接搬）
2git clone git@github.com:org/site.git /var/www/site
3
4# 資料庫：從備份匯入
5mysql -u root -p site_db < backup-latest.sql
6
7# 使用者上傳檔案：從共享主機 FTP 下載後 rsync 到 VPS
8rsync -avz /local/backup/uploads/ user@vps:/var/www/site/uploads/

.htaccess → nginx 設定轉換

共享主機用 Apache 的 .htaccess，VPS 如果改用 nginx 需要手動轉換。常見的規則對照：

 1# .htaccess: RewriteEngine On / RewriteRule ^(.*)$ index.php/$1
 2# nginx 等價：
 3location / {
 4    try_files $uri $uri/ /index.php?$query_string;
 5}
 6
 7# .htaccess: Options -Indexes
 8# nginx 等價：
 9autoindex off;
10
11# .htaccess: deny from all (某目錄)
12# nginx 等價：
13location ~ /\.env { deny all; }

轉換後在本地或 staging 驗證每條規則的行為是否一致。WordPress、Laravel 等框架有現成的 nginx 設定範例可參考。

Email 處理

共享主機通常附帶 email 服務（用主機面板建 email 帳號）。VPS 預設不含 email。三個處理方式：

自架 email server（Postfix + Dovecot）：維運成本高、不推薦除非有特殊需求
改用第三方 email 服務（Google Workspace / Zoho Mail）：設定 MX 記錄指向服務商
只轉發（不收信）：應用程式的寄信功能改用 SMTP relay（SendGrid / Mailgun）

DNS 的 MX 記錄要在切換前就改好指向新的 email 服務，否則切換後 email 會中斷。

SSL 自動續期

共享主機的 SSL 通常由主機商代管續期。VPS 上用 Let’s Encrypt 的 certbot 會自動設定 systemd timer 或 cron 做續期，但要驗證它確實在跑：

1# 確認 certbot 的自動續期排程存在
2sudo systemctl list-timers | grep certbot
3
4# 模擬續期測試（不實際續期）
5sudo certbot renew --dry-run

VPS → 雲端遷移

服務盤點與雲端對照

VPS 上的每個 process 都需要對應到雲端的服務：

VPS 上的角色	雲端對應	備註
nginx + PHP-FPM	ECS Fargate / EC2 + ALB	容器化或直接搬
MySQL	RDS	managed DB、自動備份
cron jobs	EventBridge + Lambda / ECS task	排程觸發的獨立 task
背景 worker	ECS service / SQS + Lambda	依工作模式選型
檔案儲存	S3 + CloudFront	上傳檔案搬到物件儲存

自動化遷移工具

AWS Application Migration Service（MGN）可以自動化 VM workload 的搬遷——把現有 server 的 block-level data 持續複製到 AWS、切換時啟動 EC2 instance。適合大量 VM 的 lift-and-shift，但不處理應用層的重構（nginx config、cron 轉 EventBridge 等仍需手動）。單台 VM 的遷移用 MGN 反而比手動 dump/restore 多一層設定成本，適用場景是同時搬 5 台以上。

IaC 的導入時機

VPS → 雲端是導入 IaC 的最佳時機——新環境從零建起，沒有歷史包袱。用 Terraform 描述 VPC、subnet、RDS、ECS、ALB 等資源，讓新環境可重現（見模組一：最小可行 IaC）。遷移完成後，這套 IaC 直接成為持續維運的基礎。

資料庫遷移

小型資料庫（< 10GB）：mysqldump + 匯入 RDS，遷移期間短暫唯讀即可。

1# 從 VPS dump
2mysqldump -u user -p --single-transaction site_db | gzip > site_db.sql.gz
3
4# 匯入 RDS
5gunzip -c site_db.sql.gz | mysql -h rds-endpoint.region.rds.amazonaws.com -u admin -p site_db

大型資料庫（> 10GB 或需要零停機）：使用 AWS DMS（Database Migration Service）做持續複寫，VPS 上的 MySQL 作為 source、RDS 作為 target，DMS 做初始全量複製後持續同步增量，切換時把應用指向 RDS 端點。

網路設計

雲端環境的網路要在遷移前規劃好。VPC、subnet、security group 的設計見模組三：網路地基。VPS 上的 iptables 規則要映射成 security group 規則——iptables 的每條 accept 對應一條 SG ingress rule，但 SG 不支援 deny（用「不開就是 deny」的白名單模式）。

資料同步策略

策略	停機時間	複雜度	適用場景
一次性 dump + restore	分鐘到小時級	低	資料 < 10GB、可接受維護窗口
持續複寫（DMS / 邏輯複寫）	秒級（切換瞬間）	高	資料大、不允許停機
檔案 rsync 增量同步	取決於差異量	低	靜態檔案、上傳內容

選擇策略時先問兩個問題：資料量多大（決定 dump 時間）、業務能接受多長的唯讀或停機窗口（決定要不要持續複寫）。

對於上傳檔案（圖片、文件），遷移到雲端時通常從本地檔案系統搬到 S3：

1# 從 VPS 同步上傳目錄到 S3
2aws s3 sync /var/www/site/uploads/ s3://site-uploads/ --delete

應用程式碼裡的檔案路徑要改成 S3 URL 或用 CDN 代理。

DNS 切換與驗證

切換前準備

遷移前 48 小時，降低 DNS TTL 到 300 秒（5 分鐘）。正常的 TTL 通常是 3600 秒（1 小時）或更長——如果切換出問題需要回退，短 TTL 讓 DNS 傳播更快。

1# 確認當前 TTL
2dig example.com +short +ttlid

切換操作

1# 更新 A record 指向新平台的 IP / ALB endpoint
2# 如果用 Route 53：
3aws route53 change-resource-record-sets --hosted-zone-id Z123 --change-batch '{
4  "Changes": [{"Action": "UPSERT", "ResourceRecordSet": {
5    "Name": "example.com", "Type": "A",
6    "AliasTarget": {"HostedZoneId": "Z456", "DNSName": "alb-xxx.region.elb.amazonaws.com", "EvaluateTargetHealth": true}
7  }}]
8}'

切換後監控

切換後的驗證窗口至少等 2 倍 TTL（短 TTL 設 300 秒的話，至少等 10 分鐘）。在這段時間內：

新平台：監控 HTTP 狀態碼、回應時間、錯誤率
舊平台：觀察流量是否遞減到零（仍有流量代表 DNS 還沒完全傳播）
功能驗證：跑一次關鍵流程（登入、查詢、交易）

回退

如果新平台出問題，回退方式是把 DNS 切回舊平台的 IP。回退的生效時間等於當前的 TTL——這正是切換前降低 TTL 的理由。舊平台在 DNS 切換後要保留至少 72 小時（全球 DNS 快取最慢的清除時間），確認完全沒有流量後再退役。

切換後收尾

穩定運行 1-2 週後：

把 DNS TTL 恢復到正常值（3600 秒）
退役舊平台（關機 → 保留快照 → 一個月後刪除）
更新文件：新環境的存取方式、部署流程、監控端點

時程與管理層溝通

遷移路徑	典型時程	主要風險
共享主機 → VPS	1-2 週	.htaccess 轉換、email 處理、SSL 續期
VPS → 雲端	2-4 週	資料庫遷移、網路設計、IaC 建立
地端 → 雲端	4-8 週	網路重建、合規審查、資料主權

向管理層溝通時的關鍵訊息：「應用程式碼不變、改的是運行環境。風險集中在資料搬移和 DNS 切換這兩個步驟，兩者都有回退路徑。」

成本變化也要提前說明：共享主機 → VPS 的月費通常持平或略增（$5-30/月）；VPS → 雲端的月費取決於資源用量，初期可能增加 50-200%（換到的是彈性和 managed 服務），但可以透過 reserved instance 和 rightsizing 後續優化。

跨分類引用

→ 升級的共通操作框架：評估差異 → 平行環境 → 切換 → 退役的四階段模型
→ 接手維運：無 SSH 的 FTP 環境：遷移前的環境盤點方法
→ 模組一：最小可行 IaC：雲端遷移是導入 IaC 的最佳時機
→ 模組三：網路地基：雲端環境的 VPC / subnet 設計

10.3 託管形態遷出：資產線盤點與並行期執行

Thu, 11 Jun 2026 00:00:00 +0000

0.21 交付形態選型的升級自建 tripwire 回答「何時該重新評估」、評估成立後、本章接手回答「按下遷出鍵之後的工程」。讀者情境：產品跑在 Wix / Shopify / Firebase / WordPress 這類託管形態上、tripwire 已命中、目標是自建或半託管。遷出的核心原則是把「搬家」拆成多條資產線各自的受控 migration：資料、身分、流量、整合的可攜性差異極大、斷點位置不同、可以分開 cutover — 把它們綁成同一天的大爆炸切換（big bang cutover）、等於把可攜性最差的那條線的風險強加給其他所有線。

Vendor lock-in 在遷出日的具體形狀就是這幾條資產線的斷點。0.21 的可遷出保險清單（自有網域、資料定期匯出、客戶聯絡管道自有、金流可攜性、密碼不可攜的預案、業務邏輯文件化）是進場時買的保險、本章是理賠流程 — 保險有買、每條線的斷點都有現成出口；保險沒買、本章每一節都會多一段「先補保險再動手」的前置工。

資產線盤點

動手前先盤點：這個產品在平台上累積了哪些資產、每項資產走哪條線、可攜性如何。盤點的產出是一張「資產 → 線 → 出口 → 斷點」對照、它決定後面所有階段的順序與凍結窗口長度。

資料線

資料線問兩個問題：拿得出來嗎、拿出來之後能直接用嗎。多數平台對第一個問題的答案是肯定的 — Shopify 的商品與訂單歷史有官方 CSV / API 匯出、WordPress 的文章與媒體是最成熟的匯出路徑、Firebase 的 Firestore 有官方 export。真正的工程量在第二個問題：匯出格式是平台資料模型的快照、不是自建系統的 schema。

兩個典型情境。第一、BaaS 的反正規化結構：Firestore 的文件沿查詢需求生長、同一份事實散在多個 collection、而目標端的關聯式 database 要求單一事實單一位置 — 執行順序是先設計目標 schema、再寫轉換管線、而不是把 export 原樣灌進去。第二、半託管 CMS 的外掛私有表：WordPress 官方匯出涵蓋文章與媒體、外掛各自的私有表（會員等級、預約規則、客製欄位）在匯出範圍之外 — 每個外掛要單獨確認資料位置與匯出手段。盤點階段把這兩類「拿得出來但不能直接用」的資產標出來、它們是資料線時程的主要變數。

歷史資料搬完之後、增量是另一個問題：平台在並行期仍持續產生新訂單、新會員、新內容、需要一條增量同步管道（webhook、API 輪詢、排程匯出）把變更餵進新系統 — 角色等同自建世界的 change data capture、只是來源是平台 API 而不是資料庫 log。

資料線還有一類「可放棄、但要快照」的資產：平台內建報表與分析歷史。這類數據多數沒有匯出路徑、平台降級或關站後即消失 — 歷史明細可以放棄、但 cutover 後的健康判讀需要遷移前的基線（自然流量、轉換率、客單價）。盤點階段把基線指標匯出存檔、觀察期的「下滑超過預估」才有對照對象。

身分線

身分線的可攜性在所有資產線中分布最極端。會員的 email 與基本資料幾乎都可匯出；密碼雜湊多數平台拒絕交出 — Firebase Auth 是少數友善案例、官方工具可匯出密碼雜湊、演算法參數從主控台另行取得、自建認證系統照參數驗證即可無感銜接。多數平台（電商會員、網站會員系統）把雜湊留在自己手上、這條線的執行形態於是變成全體重設密碼。

重設密碼遷移要當成產品功能設計、而不是遷移日的告示：分批寄送重設邀請、首次登入時引導重設、保留舊 email 驗證鏈路、把重設高峰排開行銷活動。0.21 可遷出保險裡「密碼不可攜的預案」指的就是這套體驗、執行階段它從預案變成排程上的工作項。

Session 綁定在平台端、cutover 當天全體使用者重新登入是預設行為、要納入切換日的客服與監控預期。第三方登入（Google / Apple 登入）的識別碼可攜性介於兩者之間：識別碼存在 provider 端、但可能綁定在 OAuth client 或開發者帳號的範圍上 — Apple 的 user identifier 以開發者團隊為界、換團隊後同一使用者拿到不同識別碼。遷移前先用測試帳號驗證新舊系統拿到的識別碼一致、再決定第三方登入使用者要走無感銜接還是重新綁定。

身分線的盤點對象除了終端使用者、還有操作者與機器：員工帳號、角色權限、API key 與第三方服務的 OAuth 授權都要在新系統重新佈建、並納入 cutover 演練 — 切換日客服登不進新後台、是這條線最常見的自傷事故。

流量線

流量線的前提是自有網域 — 0.21 可遷出保險清單裡的保險項。網域在自己名下、DNS 自己控制、流量切換就是一次 DNS 變更加一套轉址規則；流量活在平台贈送的子網域上、遷出等於換址、SEO 與既有連結歸零、這條線要先補保險（買網域、在平台上綁定、讓搜尋引擎與外部連結先收斂到自有網域）再談切換。

執行面的關鍵是斷裂面管理。平台的 URL 結構（/products/handle、/blogs/news/slug）跟自建系統的路由幾乎必然不同、而離開平台後、舊 URL 的轉址規則沒有地方住 — 平台停用後它連 404 都不會回、是 DNS 直接指向新系統。所以轉址表（舊 URL 樣式 → 新 URL）要建在新系統自己身上：cutover 後由新系統對舊樣式回 301、搜尋引擎與外部連結沿轉址收斂。配套動作：cutover 前把 DNS TTL 調低、cutover 後重交 sitemap、用搜尋主控台觀察索引替換進度。SEO 累積是按月計的資產、轉址表缺漏的代價以自然流量下滑直接體現。

整合線

整合線收所有由平台出面跟外部世界握手的合約、其中金流是最硬的斷點 — 它在本章盤點順序排最後、執行確認要排最早、答案會改變整場遷移的形狀。一次性收款的遷移成本低 — 換金流串接、新訂單走新管道。訂閱制是另一回事：扣款授權 token 存在金流商的 vault 裡、且常綁定在平台名下的金流帳戶上。遷出時先問金流商「授權能否轉移到商家自有的金流帳戶」— 部分金流商支援處理商之間的卡號資料轉移、談得下來就是一次後台作業；談不下來、全體訂閱者重新授權、流失率直接換算成訂閱營收缺口。執行手段跟重設密碼同構：分批通知、寬限期、必要時用優惠補償授權摩擦。

金流之外、整合線還包括：平台外掛 / app 生態承擔的業務邏輯（Shopify app 做的折扣規則、WordPress 外掛做的預約流程）要逐個盤點、決定重寫進自建系統、換成獨立 SaaS、或趁機放棄；對外 webhook（ERP、出貨、會計系統）的端點切換要跟對方排時程；行銷 email 的寄送信譽綁在平台的寄件網域上、換到自有寄件網域要重建 SPF / DKIM 並逐步暖機、避免遷移週的通知信全進垃圾箱。

並行期設計

並行期是舊平台與新系統共存、用真實資料驗證新系統的階段 — 前提是目標系統已依模組零的選型順序建置完成、本章不重複選型推導。它跟 10.2 服務拆分執行 Runbook 的雙寫期同源但形狀不同：服務拆分時、寫入路徑在自己的程式碼裡、可以實作 dual write；託管平台的寫入發生在平台內部 — 顧客在 Shopify 結帳、會員在平台註冊 — 自建程式碼插不進那條寫入路徑。所以並行期的形態是「平台維持 source of truth、單向同步、新系統唯讀驗證」：

增量同步管道（webhook / API 輪詢 / 排程匯出）持續把平台變更餵進新系統
新系統以唯讀 replica 的角色運轉、對帳 job 定期比對兩邊的訂單數、會員數、金額總和
內部使用者先在新系統上工作（報表、後台查詢）、用真實業務流量驗證資料轉換的正確性
差異率收斂並穩定後、才排 cutover 日

Cutover 本身是一段 cutover window、不是一個按鈕：選低流量時段、短暫凍結平台側變更（電商常用「暫停結帳維護頁」幾十分鐘）、跑最後一輪增量同步、切 DNS、然後密集觀察訂單成功率、登入成功率、金流授權成功率 — 觀察清單來自資產線盤點、每條線各有自己的健康訊號。

回切窗口的設計決定這場遷移的失敗代價。cutover 後保留舊平台訂閱與設定、回切動作是 DNS 切回；代價是新系統在窗口內產生的交易要補回平台 — 平台側通常沒有批次匯入訂單的好路徑、補回多半是手動作業、所以回切窗口內要刻意壓低不可逆變更的累積速度（例如窗口前 48 小時內暫停大型行銷活動）。這跟 10.2 寫路徑切換的 point of no return 是同一個判讀：回退成本隨時間墊高、go/no-go 要當成有明確時點的決策執行、判定條件在進入窗口前排定。

關舊站走降級、而不是直接刪除。觀察期過後、平台帳號先降到最低方案、店面關閉但後台保留 — 退款處理、客服查歷史訂單、會計與稅務稽核都還會用到平台側資料。刪除帳號前的檢查條件：所有歷史資料已完整落地自有儲存並驗證可讀、法規要求的交易紀錄保存年限已由自有系統接手、最後一筆平台側退款 / 爭議單已結案。

部分遷出是常見的中繼形態

資產線可以獨立 cutover 的另一面、是遷出可以分期：先撤其中幾條線、其餘留在平台。部分遷出是把遷移風險拆期攤還的標準形態、結構上同 Strangler Fig：新系統從旁長出、逐線取代、平台最後才退役。

常見的中繼形態有四種。資料層先撤：增量同步管道建好之後、自有資料庫先成為報表與分析的 source、前台與結帳留在平台 — 0.21 BaaS 段描述的跨集合報表困境、在這個形態下已經解掉、而最高風險的金流與流量線還沒動。前台先撤（headless）：自建前端體驗層、平台降級為後端引擎（結帳 API、內容 API）— 流量線與 SEO 控制權先回手、金流與資料留在平台的成熟路徑上。身分後撤：認證是使用者感知最強的線、Firebase Auth 這類可攜性好的元件常被留到最後 — 資料與流量都搬完、產品穩定後、再做密碼雜湊匯入或重設遷移。金流後撤（或長期留平台）：訂閱授權轉移談不下來時、資料、前台與流量都遷出、訂閱扣款續走平台帳戶 — 它跟前三種不同、可能由中繼轉成長期形態、去留判讀回整合線的金流斷點確認。

中繼形態的判讀標準是「每個階段結束時、撤出的那條線已經完整脫離平台、由新系統持有唯一事實」。模糊狀態（一半訂單在平台、一半在自建、靠人腦記得哪邊查）是部分遷出最常見的事故源 — 每條線在任一時刻都要有唯一的 source of truth。

判讀訊號

訊號	判讀重點	對應動作
盤點時發現業務邏輯只存在平台 UI 設定裡	0.21 可遷出保險「業務邏輯文件化」缺項	先文件化再動手、規則重建期計入時程
並行期對帳差異率不收斂	資料轉換有 gap、或增量同步管道漏事件	暫停 cutover 排程、audit 轉換管線與 webhook
金流商拒絕授權轉移	訂閱線變成全體重新授權、流失進入營收預估	重算遷移 ROI、評估訂閱線單獨延後
Cutover 後自然流量持續下滑超過觀察期預估	轉址表缺漏、或索引替換異常	比對搜尋主控台的 404 清單、補轉址規則
回切窗口內手動補單量超出客服消化能力	不可逆變更累積速度超過回切設計	縮短決策週期、提前 go/no-go 判定
並行期超過原定窗口仍未排 cutover	並行不是穩態、雙系統維運與平台月費在吃遷移 ROI	重訂 cutover 條件、或承認部分遷出為長期形態
新舊系統各管一部分同類資料超過一個階段	部分遷出停在模糊狀態、source of truth 分裂	強制收斂該資產線、明確指定唯一 source of truth

業務邏輯那一列值得展開：平台設定裡長出來的折扣邏輯、會員等級、運費規則、是盤點階段最容易漏的資產 — 它們沒有檔案形態、不會出現在任何匯出工具裡。0.21 可遷出保險清單把「業務邏輯文件化」列為進場保險、沒買這項保險的遷移、第一個階段是考古：對著平台後台逐頁截圖、把規則寫成文件、再評估哪些重寫、哪些放棄。

金流那一列是整場遷移裡少數「工程努力無法繞過」的斷點 — 授權轉移的決定權在金流商與平台的合約上、不在工程團隊手上。所以它在盤點階段就要最先確認：答案直接改變遷移的營收影響模型、甚至可能讓「訂閱線留在平台、其餘遷出」成為長期形態。

定位邊界

本章專注「託管形態 → 自建 / 半託管」的遷出執行。當問題回到「該不該遷、何時該重新評估」、回 0.21 交付形態選型的升級自建 tripwire 表；遷移目標的自建選型（資料庫、部署、金流接法）走模組零的選型順序；自建系統之間的資料庫搬遷技術細節（雙寫、shadow read、切換）進 1.6 資料庫轉換實作；服務層的漸進替換紀律進 10.2 服務拆分執行 Runbook。

下一步路由

要回頭確認遷移時機與保險、見 0.21 交付形態選型。要看並行期同源的雙寫與切流紀律、見 10.2 服務拆分執行 Runbook。遷入自建後的第一站、從 0.0 後端需求分類地圖開始走選型順序。

營運後技術轉換：語言、工具與架構何時該換

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是把「營運後轉換」變成可判讀決策，而不是技術潮流追逐。服務在成長期常會遇到早期選型與現況負載不再匹配，此時轉換的重點是風險收斂與效率改善，而不是語言偏好。

大量真實案例與轉換原因

案例	轉換類型	為什麼轉換
Slack：PHP 逐步遷移到 Hack	語言/型別系統	以漸進式靜態型別提升重構安全與開發效率，降低 runtime 才暴露型別錯誤的成本。
Discord：Read States 服務 Go 重寫為 Rust	語言/執行模型	Go 服務在特定負載下出現 GC 造成的週期性延遲尖峰，Rust 以無 GC 記憶體模型降低延遲抖動。
Dropbox：Python 2 轉 Python 3	語言/runtime 生命週期	Python 2 EOL 與型別工具鏈演進壓力，驅動全面升級並降低長期維護風險。
Dropbox：內部 RPC 轉向 gRPC（Courier）	工具/協定標準化	多語言服務擴張後，需要統一傳輸契約、提高跨團隊可維護性與可觀測性。
GitLab：單一資料庫拆成 Main/CI 資料庫	資料層架構	單庫承載產品與 CI 工作負載，容量與干擾風險上升，需以職責拆分換取穩定性。
Notion：Postgres 單庫轉分片	資料層架構	寫入與資料量成長造成熱點與容量壓力，以分片提升可擴展性與故障隔離。
Shopify：Rails 後端引入 Vitess 水平擴充	資料層工具	MySQL 垂直擴充成本上升，需在不中斷服務前提下取得分片與路由能力。
Shopify：Ruby 導入 Sorbet 靜態型別	工具/語言治理	大型程式碼庫重構與跨團隊協作風險高，需要型別訊號降低變更不確定性。
Figma：服務遷移至 Kubernetes	平台/部署工具	手工或半自動部署流程難以支撐規模成長，需要統一調度、回滾與資源治理能力。
Cloudflare：邊緣系統由 C/NGINX 模組逐步改寫 Rust	語言/安全性	記憶體安全與可維護性需求提升，在高效能路徑引入 Rust 降低記憶體錯誤風險。
Slack：關鍵服務從單體拓撲遷移到 Cell-based 架構	架構/隔離策略	以降低爆炸半徑與提高冗餘為目標，將重大故障影響限制在局部 cell。
Uber：大規模微服務治理轉向 Domain-oriented 邊界重整	架構/組織對齊	服務數量擴張後依賴複雜度暴增，需要把技術邊界與業務邊界對齊以降低協作與故障傳染成本。
Meta：MySQL 大規模場景導入 MyRocks	儲存引擎/成本優化	寫入放大與儲存成本壓力上升，透過新儲存引擎換取空間效率與寫入效能。

案例分組判讀

語言與型別系統轉換

語言轉換常見於「延遲抖動不可接受」或「重構風險不可接受」兩類壓力。前者多是 runtime/記憶體模型問題，後者多是大型程式碼庫可維護性問題。

代表案例：Slack PHP -> Hack、Discord Go -> Rust、Dropbox Python 2 -> Python 3、Cloudflare C/NGINX -> Rust
主要動機：降低 tail latency、提升記憶體安全、對抗 runtime EOL、引入更強型別訊號

資料層與儲存架構轉換

資料層轉換通常源自單體資料庫在容量、隔離與可恢復性上出現結構性瓶頸，追新技術本身很少是真正驅動力。

代表案例：GitLab Main/CI split、Notion Postgres sharding、Shopify Vitess、Meta MyRocks
主要動機：解耦不同負載、降低熱點、取得水平擴充、降低儲存成本

平台與部署工具轉換

平台轉換通常發生在部署頻率提升後，原本的人工作業或弱自動化無法承擔發布風險。

代表案例：Figma 遷移 Kubernetes、Dropbox RPC 標準化到 gRPC
主要動機：統一部署控制面、縮短發布/回滾時間、提升跨語言協作效率

架構邊界重整

架構重整通常是「故障會跨邊界放大」或「團隊邊界與系統邊界失配」時的修正動作。

代表案例：Slack cellular architecture、Uber domain-oriented microservice governance
主要動機：縮小 blast radius、讓服務責任與組織責任對齊、降低跨團隊耦合

三倍擴充案例池（42）

這份案例池的核心責任是提供「可直接回寫實作」的案例母體，而不是只做公司清單。下面分成兩層：外部官方遷移案例（偏選型與轉換動機）與站內已整理案例（偏實作、驗證、事故教訓）。

A. 外部官方遷移案例（20）

案例	轉換主題	實作討論入口
Slack PHP -> Hack	漸進型別化與大型重構安全	1.6
Discord Go -> Rust	延遲長尾與 GC 抖動治理	6.11
Dropbox Python 2 -> 3	runtime EOL 與生態升級	6.8
Dropbox RPC -> gRPC	協定標準化與跨語言維運	0.4
GitLab Main/CI DB split	單庫拆分與負載隔離	1.6
Notion Postgres sharding	熱點與容量壓力分片	0.5
Shopify MySQL -> Vitess	水平擴充與線上遷移	1.6
Shopify Ruby + Sorbet	動態語言型別治理	6.10
Figma -> Kubernetes	部署控制面平台化	0.4
Cloudflare C/NGINX -> Rust	記憶體安全與效能路徑重寫	0.6
Slack monolith topology -> cellular	blast radius 局部化	0.7
Uber domain-oriented microservices	服務邊界與組織對齊	0.1
Meta MySQL -> MyRocks	儲存成本與寫入效率	0.2
Pinterest HBase -> TiDB	零停機儲存遷移	6.11
Pinterest 新 wide-column DB（RocksDB）	資料層能力換血	0.2
Meta MySQL Raft deploy	failover 工具化	6.7
Shopify MySQL upgrade program	大規模升級治理	6.8
GitLab major PostgreSQL upgrade	主版本升級與回退窗	6.11
AWS shuffle sharding adoption	多租戶隔離重整	6.14
Cloudflare observability stack內建化	觀測平台內生化	4.18

B. 站內可回寫實作案例池（22）

案例	轉換主題	實作討論入口
Stripe：Idempotency 與零停機遷移	交易安全 + migration 並行	6.11
Pinterest：快取可靠性與容量驚奇治理	快取策略與容量重整	6.9
Amazon：Shuffle Sharding 與 Cell 邊界	cell/shard 重整	0.7
Meta：Region Failover 與可靠性邊界	區域切換能力演進	6.7
Shopify：BFCM 容量治理與 Game Day	高峰前治理轉換	6.6
Google：Error Budget 發布門檻	從速度導向轉為預算導向	6.2
Microsoft：變更治理與可靠性門檻	變更流程平台化	6.8
Spotify：平台工程與可靠性契約	團隊自助平台化	0.4
LinkedIn：Capacity Headroom 與 On-call 分層	容量與值班模型重整	6.9
Netflix：Steady State、Chaos 與 FIT	驗證方法轉換	6.5
Honeycomb：Burn Rate 驅動操作	告警治理轉換	4.13
GitHub 2018 MySQL Topology Incident	跨區 DB 拓撲決策轉換	1.6
Reddit 2023 Kubernetes 升級事故	平台升級失敗模式	5.2
Discord 2022 Gateway 容量事件	容量與連線模型調整	0.5
Cloudflare 2019 Regex CPU Outage	規則系統推送模型調整	8.13
Cloudflare 2023 Control Plane Token Incident	控制面信任邊界重整	7.12
Fastly 2021 全域 Edge 配置事故	配置發布流程轉換	6.8
AWS S3 2017 US-EAST-1 事件	控制面操作模型重整	8.3
Atlassian 2022 多租戶刪除事故	tenant 安全邊界重整	0.6
Azure AD 2021 身分控制面事件	身分服務依賴治理	8.20
GCP 2019 多服務網路擁塞事件	區域網路依賴重整	6.14
Heroku 2021 Routing 控制事件	路由控制面恢復策略	8.3

這兩層合計 42 個案例。使用方式是先在 A 層找轉換動機，再到 B 層找可操作證據與失敗模式，最後回寫到 01/04/06/08 的正文。

跨分類覆蓋與缺口

這一段的核心責任是避免案例池被資料庫議題主導。選型與轉換在實務上會同時涉及快取、訊息傳遞、觀測、部署、安全與事故治理，因此案例覆蓋要跨分類配置。

分類	目前案例密度	代表案例入口	目前缺口與補查方向
01 Database / Storage	高	1.7 Schema Migration Rollout 證據	已有遷移流程與 rollout evidence；下一步補更多 vendor 轉換對照
02 Cache / Redis	中低	Pinterest：快取可靠性與容量驚奇治理	補「快取策略轉換」案例（cache-aside -> write-through、multi-layer cache）
03 Message Queue	中低	Amazon：Shuffle Sharding 與 Cell 邊界	補「自管 broker -> managed queue」與「語義轉換（at-least-once / exactly-once）」
04 Observability	中	Honeycomb：Burn Rate 驅動操作	補「監控平台遷移」與「OpenTelemetry 導入遷移」案例
05 Deployment Platform	中	Reddit：2023 Kubernetes 升級事故	補「自建部署 -> Kubernetes/GitOps」轉換案例
06 Reliability	高	Stripe：Idempotency 與零停機遷移	持續補不同產業的 rollout/rollback 對照
07 Security / Data Protection	中低	Cloudflare 2023 Control Plane Token Incident	補「憑證、金鑰、身分邊界治理轉換」案例
08 Incident Response	高	GitHub 2018 MySQL Topology Incident	補「轉換期間事故」專題，建立遷移失敗模式索引

覆蓋門檻與缺口追蹤

這份追蹤表的核心責任是把「案例夠不夠」變成可量化判斷，而不是主觀感覺。

分類	最低門檻（篇）	目前已收錄（篇）	狀態	下一步
01 Database / Storage	12	12	達標	補 vendor 轉換對照深度
02 Cache / Redis	10	10	達標	進入案例深度擴寫與反例補充
03 Message Queue	10	10	達標	進入案例深度擴寫與反例補充
04 Observability	10	10	達標	進入案例深度擴寫與反例補充
05 Deployment Platform	10	10	達標	進入案例深度擴寫與反例補充
06 Reliability	10	12	達標	補產業多樣性與 rollback 成本對照
07 Security / Data Protection	10	10	達標	進入案例深度擴寫與反例補充
08 Incident Response	10	12	達標	補「轉換期間事故」專題索引

下一輪優先順序

門檻已達標，下一輪優先順序改為：

每分類補「失敗反例」與「轉換失敗回退案例」
每分類補「同議題不同規模企業」對照
把案例回寫到章節正文中的判讀訊號與 tripwire 欄位

回退失敗專題索引

這個索引的核心責任是讓讀者在「已經出錯」時，能快速找到對應回退失敗模式，而不是從頭重讀選型章節。

分類	回退失敗專題
02 Cache / Redis	2.C9 反例：快取切換失敗
03 Message Queue	3.C9 反例：語義切換失敗
04 Observability	4.C9 反例：OTel 訊號漂移
05 Deployment Platform	5.C9 反例：切流未先 drain
07 Security / Data Protection	7.C9 反例：憑證輪替失敗

回退判讀寫法

回退判讀的核心責任是把失敗條件寫回該分類自己的業務語境。快取看的是回源壓力與資料新鮮度；queue 看的是語義、lag 與重播；observability 看的是訊號語意漂移；deployment 看的是切流、draining 與連線生命週期；security 看的是身份、憑證作用域與控制面擴散。

這些判讀不能抽成同一份模板。每次寫案例時，先回答該分類自己的問題：哪個業務路徑受影響、哪個訊號最早失真、哪個回退動作會降低傷害、哪份證據能證明回退有效。

下一輪補查清單（非 DB 優先）

下一輪補查會優先補目前中低密度分類，目標是讓每一類至少有 8 到 12 個可回寫案例。

Cache：快取策略遷移與失效治理（multi-layer、eviction、warmup）
Queue：broker/語義轉換與 replay 風險控制
Observability：監控平台遷移與資料品質治理
Deployment：部署平台轉換與灰度/回滾策略
Security：控制面信任邊界與憑證機制轉換

第二批外部案例補充（非 DB 類）

這一批的核心責任是把中低密度分類補到可用水位，讓 02/03/04/05/07 都有可引用的真實轉換案例，而不是只有資料庫案例可用。

分類	案例	轉換焦點	回寫入口
Cache	Meta：Cache made consistent	cache invalidation 一致性治理升級	2.1
Cache	Meta：mcrouter at scale	單機快取轉成跨區路由層	2.4
Cache	Meta：CacheLib + Kangaroo	DRAM-only 快取轉向 flash-friendly 架構	2.5
Cache	Shopify：Marshal -> MessagePack cache migration	快取序列化格式遷移與雙軌相容	2.1
Cache	Shopify：Shop App write-through cache	read-heavy 路徑轉 write-through	2.1
Queue	Meta：FOQS disaster-ready migration	區域佇列轉全域架構且零停機	3.3
Queue	LinkedIn：Running Kafka at Scale	單叢集使用模式轉 tiered cluster	3.1
Queue	LinkedIn：TopicGC	Kafka topic 治理從手動轉自動回收	3.2
Queue	VMware Tanzu CloudHealth：Kafka -> Amazon MSK	自管 broker 轉 managed streaming	3.1
Queue	Slack：Scaling job queue	背景工作通道轉 Kafka + Redis 組合	3.4
Observability	AWS：X-Ray SDK/Daemon -> OpenTelemetry migration	vendor SDK 轉 OTel 標準化	4.21
Observability	Google Cloud：OTLP support in Cloud Trace (2025)	專有 ingest 轉 OTLP 標準入口	4.21
Observability	AWS：ADOT 建立集中觀測平台	多代理轉單一 OTel pipeline	4.18
Observability	AWS：EKS + ADOT + X-Ray/CloudWatch	既有監控拆散轉標準化管線	4.7
Observability	Honeycomb：Burn rate operations	告警規則轉 error budget 驅動治理	4.13
Deployment	Tradeshift：self-hosted K8s -> EKS (zero downtime)	自管控制面轉 managed control plane	5.2
Deployment	Condé Nast：K8s platform modernization on EKS	多團隊異質集群轉統一平台	5.2
Deployment	Orbitera：AWS -> GKE migration	基礎平台重置與容器編排轉換	5.2
Deployment	Mobileye：workloads -> EKS	資源調度模式轉 managed K8s	5.2
Deployment	Miro：microservices/K8s -> EKS managed	自維運平台轉 managed service 組合	5.2
Security/Control Plane	Cloudflare：2026 route leak incident	路由政策自動化治理重整	7.16
Security/Control Plane	Cloudflare：2026 BYOIP BGP withdrawal	控制面變更保護與回退策略	8.3
Security/Control Plane	Cloudflare：2023 control-plane token incident	token 管理邊界與供應鏈信任調整	7.11
Security/Control Plane	Azure AD：2021 identity control-plane disruption	身分控制面故障隔離與恢復路由	8.8
Security/Control Plane	Microsoft 365：2023 suite-wide authentication incident	身分服務相依邊界重整	8.20

第二批補查來源

Meta：Cache consistency / mcrouter / CacheLib / Kangaroo / FOQS / MyRocks migration
LinkedIn Engineering：Kafka at scale / TopicGC
AWS：CloudHealth Kafka -> MSK、X-Ray -> OTel migration、ADOT/EKS 實務、EKS 遷移案例
Google Cloud：OTLP in Cloud Trace、Orbitera -> GKE
Shopify Engineering：cache serialization migration、write-through cache
Cloudflare Post-mortem：2023/2026 control-plane 與路由事件

判讀訊號

訊號	判讀重點	對應章節
延遲分布長尾惡化	是平均值問題還是尖峰問題	0.5
重構風險持續升高	型別/契約是否不足以支撐變更	0.6
故障常跨服務放大	架構邊界是否缺乏隔離能力	0.7
發布節奏被品質問題拖慢	問題在語言、工具鏈或架構層	0.4

轉換決策資料要求

資料面向	最低需要的證據	若缺失會發生什麼事
成本面	現況維運成本與轉換成本（人力、基礎設施、機會成本）	轉換中途停擺或 ROI 判斷失真
風險面	故障型態、爆炸半徑、回退時間	上線後故障放大但無法快速止血
性能面	P50/P95/P99、吞吐、尖峰流量下的行為	只優化平均值，長尾問題仍存在
組織面	團隊技能分布、訓練成本、維運責任邊界	工具換了但組織無法承接
生命週期面	依賴版本 EOL、供應商策略、平台相容性	被動升級，且在最差時機被迫遷移
遷移可行性面	雙寫/雙跑策略、灰度範圍、指標切換門檻、回滾條件	遷移無法分段驗證，風險一次性爆發

轉換前要先回答的三個問題

現有問題是「局部優化可解」還是「結構性不匹配」？
轉換後的收益是性能、可靠性、開發效率哪一項，如何量化？
遷移期間如何維持雙軌可運行與回退能力？

如果三個問題答不清楚，通常代表先做局部治理比全面轉換更穩定。

常見誤區

把「技術新舊」當成轉換理由，容易忽略遷移期成本。可靠做法是先界定症狀與邊界，再決定要換語言、換工具，或只換架構切分方式。

下一步路由

若問題在執行時特性（延遲抖動、記憶體模型），先回 0.2 與 0.5。若是資料庫轉換已進入執行階段，直接進 1.6 資料庫轉換實作；需要把 production migration 寫成 evidence、gate 與 decision log，接 1.7 Schema Migration Rollout 證據；需要放行與回滾治理時，接 6.11 Migration Safety；若要看事故層教訓，接 GitHub 2018 Oct21 MySQL Topology Incident。

引用源

Hacklang at Slack: A Better PHP：Slack 說明 PHP 到 Hack 的遷移動機與型別收益。
How Big Technical Changes Happen at Slack：Slack 逐步遷移與組織推進方式。
Why Discord is switching from Go to Rust：Discord 說明 Go→Rust 的延遲與 GC 觀察。
Slack’s Migration to a Cellular Architecture：Slack 從單體拓撲轉到 cell 架構的原因。
The Long-Awaited Python 3 Upgrade at Dropbox：Dropbox 的 Python 2 -> 3 遷移動機與推進方式。
Rewriting the heart of our sync engine：Dropbox 在核心效能路徑重寫的轉換決策脈絡。
Courier: Driving the first years of gRPC：Dropbox 內部 RPC 到 gRPC 的演進背景。
Splitting database into Main and CI：GitLab 的資料庫職責拆分案例。
Sharding Postgres at Notion：Notion 分片遷移與容量壓力背景。
Horizontally scaling the Rails backend of Shop App with Vitess：Shopify 導入 Vitess 的原因與方式。
How Shopify Is Adopting Sorbet：Shopify 在大型 Ruby 程式碼庫導入型別系統。
Migrating Figma to Kubernetes：Figma 的平台遷移原因與收益。
A Rust regex engine in NGINX：Cloudflare 在高效能路徑導入 Rust 的案例。
Domain-Oriented Microservice Architecture：Uber 在規模化後重整服務邊界。
MyRocks: A space- and write-optimized MySQL database：Meta 導入 MyRocks 的成本與效能動機。

OS 與基礎軟體更換

Fri, 26 Jun 2026 00:00:00 +0000

作業系統到達 end-of-life（EOL）後不再收到安全修補——每一個新發現的漏洞都會永久敞開。EOL OS 上跑的服務不是「可能有風險」，而是「風險只會隨時間單調增加」。遷移的問題是何時做和怎麼做，不是要不要做。

EOL 風險評估

EOL 在操作層面的意義是三件事同時停止：安全修補（CVE 不再被回填到該版本的 patch release）、核心更新（kernel 的錯誤修正與硬體支援停止）、套件庫維護（官方 repository 凍結或下架，新裝套件或更新依賴都做不到）。

風險時間軸

EOL 是一段逐漸惡化的過程，而非單一時間點：

階段	事件	影響
宣告	官方公布 EOL 日期（通常提前 1-2 年）	開始規劃遷移的訊號
正式 EOL	最後一個安全修補發布	新 CVE 不再有 patch
套件庫凍結	官方 mirror 停止同步或下架	`yum update` / `apt update` 失敗
合規失效	稽核認定執行環境不符標準	PCI DSS / SOC 2 / ISO 27001 判定不合規

常見的 EOL 情境

CentOS 7 在 2024 年 6 月結束支援，但仍有大量 production 環境在使用。CentOS 8 在 2021 年 12 月被轉向 CentOS Stream，打破了原本預期到 2029 年的支援承諾，迫使使用者重新選型。Ubuntu 18.04 的標準支援在 2023 年 4 月結束，Canonical 提供 ESM（Extended Security Maintenance）付費延長到 2028 年，但 ESM 只涵蓋 main 套件庫。

ESM 或類似的付費延長支援（RHEL 的 ELS、CentOS 的第三方 TuxCare）是「買時間做遷移」的合理策略——付月費取得額外 2-5 年的安全修補，讓團隊有餘裕規劃平行建置而非被迫緊急遷移。Ubuntu Pro 免費涵蓋 5 台 instance 的 ESM，超過才需要付費。ESM 是給遷移專案爭取時間的保險，而非長期方案——延長支援的套件覆蓋範圍通常比標準期窄。

合規的影響很直接：PCI DSS 要求所有面對持卡人資料的系統都執行在有安全修補支援的軟體上；SOC 2 和 ISO 27001 的定期稽核會檢查作業系統的支援狀態。在 EOL OS 上跑的 production 環境會讓稽核結果出現 finding，需要額外的補償控制（compensating control）才能通過——而補償控制的維護成本通常高於遷移本身。

目標 OS 選型

選型看四個維度：LTS 發布週期（支援年限多長）、社群與商業支援（問題能不能查到答案、能不能買付費支援）、套件可用性（應用層需要的 runtime 和 library 在官方 repo 裡有沒有）、團隊熟悉度（操作指令和設定路徑的學習成本）。

常見選擇

OS	支援週期	適用情境
Ubuntu 22.04 / 24.04 LTS	5 年標準 + 5 年 ESM	社群最大、套件最新、學習資源最多
Debian 12 (Bookworm)	~5 年	穩定性優先、更新保守
Amazon Linux 2023	5 年	AWS 生態深度整合、EC2 預設選項
Rocky Linux 9 / AlmaLinux 9	~10 年	CentOS 替代、RHEL 相容

同家族 vs 跨家族

CentOS → Rocky Linux / AlmaLinux 是同家族遷移：套件名稱、設定路徑、init 系統（systemd）幾乎不變，應用層的改動最少。CentOS → Ubuntu 是跨家族遷移：套件管理從 yum/dnf 換成 apt、設定路徑從 /etc/httpd/ 變成 /etc/apache2/、某些服務名稱不同。

同家族遷移的優勢是應用層風險低——多數設定檔可以直接搬過去。跨家族遷移的優勢是可以借機切到更活躍的生態（Ubuntu 的社群回答量和第三方套件支援在多數指標上領先），代價是設定檔要全面調整。

選型判準：如果團隊已經有 Ubuntu 經驗、或其他系統已經跑 Ubuntu，統一到 Ubuntu 的長期維護成本較低。如果團隊對 RHEL 系操作更熟、或有 RHEL 付費支援合約，Rocky/Alma 是阻力最小的路。

遷移策略：原地升級 vs 平行建置

原地升級

在現有伺服器上直接換 OS 版本。做法是用 OS 提供的升級工具（如 do-release-upgrade、leapp）在跑著的系統上切換。

風險集中在升級過程中系統處於不確定狀態——kernel 換了但 userland 還沒、init 系統切了但服務設定還指向舊路徑。如果中途失敗、伺服器可能開不了機，而 rollback 意味著從備份還原整台機器。原地升級只在同 OS 家族的小版本升級（如 Ubuntu 20.04 → 22.04）且有完整 VM 快照保底時才值得考慮。

平行建置

在旁邊建一台新 OS 的伺服器、安裝應用層、遷移資料、用 DNS 或 load balancer 切換流量。舊伺服器保留作為 rollback 目標，確認新環境穩定後再退役。

平行建置的成本是短期多付一台伺服器的費用（通常是幾天到幾週）。收益是：升級失敗時舊伺服器完好無損、切回去只需要改 DNS 或 LB 的 target；新伺服器可以在切換前充分測試、不影響線上服務；整個過程可以在非尖峰時段進行。

對多數環境來說平行建置是預設策略。原地升級只在無法多開一台伺服器（預算極度受限、或裸機硬體無備品）時才退而求其次。

應用層的遷移清單

新 OS 上要重建整個應用執行環境。以下是逐項需要確認的面向：

Web 伺服器

如果新舊 OS 都用 Apache，設定檔的路徑可能不同（RHEL 系 /etc/httpd/conf.d/、Debian 系 /etc/apache2/sites-available/），模組載入方式也不同（LoadModule 指令 vs a2enmod 工具）。逐一比對現有的 VirtualHost 設定、rewrite 規則、SSL 設定。

如果同時換成 nginx，見下一節。

Runtime 版本對齊

新 OS 的官方 repo 裡的 PHP / Node / Python 版本可能跟舊 OS 不同。Ubuntu 22.04 預設 PHP 8.1、如果應用需要 PHP 7.4 要加第三方 PPA（如 ondrej/php）。確認所有 PHP extension（mysqli、curl、gd、mbstring、redis）在新 OS 上都有對應的套件名稱且已安裝。

1# 舊伺服器：列出所有已載入的 PHP module
2php -m > old-php-modules.txt
3
4# 新伺服器：比對缺了什麼
5php -m > new-php-modules.txt
6diff old-php-modules.txt new-php-modules.txt

資料庫客戶端程式庫

應用連接 MySQL / PostgreSQL 用的 client library（libmysqlclient、libpq）版本要跟資料庫伺服器相容。跨大版本（MySQL 5.7 client → MySQL 8.0 server）通常向前相容，但反過來可能有驗證方式不匹配的問題（如 MySQL 8.0 的 caching_sha2_password 預設驗證方式）。

Cron jobs

從舊伺服器匯出 crontab（crontab -l），在新伺服器重建。如果舊 OS 使用 /etc/cron.d/ 的檔案式 cron，確認新 OS 的 cron daemon 支援同樣的格式。Cron 的環境變數（PATH、MAILTO）在不同 OS 可能有不同預設。

日誌路徑

Apache 的預設 log 路徑在 RHEL 系是 /var/log/httpd/、Debian 系是 /var/log/apache2/。應用程式如果 hardcode 了日誌路徑，要在新 OS 上對齊。同時確認 logrotate 的設定在新 OS 上存在且正確。

檔案權限與使用者

不同 OS 的 web server 執行使用者不同（RHEL 的 apache、Debian 的 www-data）。如果應用依賴特定使用者名稱的檔案權限（如 upload 目錄的 owner），遷移後要調整 chown。

服務管理

現代 OS 都使用 systemd。但如果舊 OS 還有 sysvinit 腳本（/etc/init.d/），遷移時要轉換成 systemd unit file。轉換的核心是把 init 腳本的 start/stop/restart 邏輯對應到 systemd 的 ExecStart、ExecStop、Restart 欄位。

 1# /etc/systemd/system/myapp.service
 2[Unit]
 3Description=My Application
 4After=network.target mysql.service
 5
 6[Service]
 7Type=simple
 8User=www-data
 9ExecStart=/usr/bin/php /var/www/myapp/worker.php
10Restart=on-failure
11RestartSec=5
12
13[Install]
14WantedBy=multi-user.target

基礎軟體切換（Apache → nginx）

如果已經在為 OS 遷移建新伺服器，同時切換 web server 是成本最低的時機——反正設定檔要重寫、不如一次到位。分開做的話要拆兩次遷移、測兩次、承受兩次風險。

.htaccess → nginx 設定轉換

Apache 的 .htaccess 是分散式設定——每個目錄可以有自己的 .htaccess，Apache 在每次請求時逐層讀取。nginx 沒有這個機制，所有設定集中在 /etc/nginx/ 的設定檔裡。

轉換的第一步是找出所有 .htaccess 檔案：

1find /var/www/ -name ".htaccess" -exec echo "=== {} ===" \; -exec cat {} \;

常見的轉換對應：

Apache .htaccess	nginx 對應
`RewriteRule ^old$ /new [R=301]`	`rewrite ^/old$ /new permanent;`
`RewriteCond %{HTTPS} off` + `RewriteRule`	`if ($scheme = http) { return 301 https://...; }`
`Options -Indexes`	`autoindex off;`（通常是預設）
`php_flag engine off`	`location /uploads/ { deny all; }` 或不傳給 PHP
+ `Deny from all`	`location ~ /\.env { deny all; }`
`AuthType Basic` + `.htpasswd`	`auth_basic` + `auth_basic_user_file`

平行測試

在新伺服器上同時安裝 nginx（port 80）和 Apache（port 8080）。用 curl 比對兩者的回應：

1# 比對首頁
2diff <(curl -s http://new-server/) <(curl -s http://new-server:8080/)
3
4# 比對一個有 rewrite 規則的 URL
5diff <(curl -sI http://new-server/old-path) <(curl -sI http://new-server:8080/old-path)

回應一致後再把 Apache 移除。重點比對項：HTTP status code（rewrite 的 301/302）、response body（PHP 輸出）、response header（cache control、security header）。

常見陷阱

.htaccess 的分散式設定在 WordPress 或其他 CMS 中常被用來動態控制 URL rewrite。WordPress 的 permalink 功能依賴根目錄的 .htaccess，切到 nginx 需要在設定檔裡加 try_files $uri $uri/ /index.php?$args; 才能讓 permalink 運作。其他 CMS（Drupal、Laravel）也有各自的 nginx 設定範例，通常在官方文件裡可以找到。

時程與管理層溝通

OS 遷移（平行建置）的時程取決於應用層的複雜度：

環境複雜度	時程估算	典型特徵
簡單	1-2 週	單一 web app、標準 LAMP/LEMP stack
中等	2-3 週	多個服務、自訂套件、cron 密集
複雜	3-4 週	多台伺服器、叢集、自建 daemon

跟管理層溝通時用三個框架：

為什麼現在做：「目前的 OS 已經停止安全修補，每個月不遷移等於多一個月的曝險窗口。如果有合規要求（PCI DSS / SOC 2），下次稽核會被標記。」

做什麼：「在旁邊建一台新 OS 的伺服器，把應用搬過去、驗證通過後切換。舊伺服器保留一到兩週作為 rollback。」

花多久和多少錢：「工程師時間 1-3 週（依複雜度）。多一台伺服器的費用只有切換期間的短期成本。不做的隱藏成本是安全事故的潛在損失和合規罰款。」

跨分類引用

→ 升級的共通操作框架：四階段模型（評估差異 → 平行環境 → 分批切換 → 退役）
→ 平台遷移：如果 OS 遷移同時伴隨平台搬遷（地端 → 雲端）
→ Runtime 版本升級：PHP / Node 版本升級常伴隨 OS 遷移
→ 接手維運：接手一個 EOL OS 的環境後的下一步

1.6 資料庫轉換實作：雙寫、回填、切流與回滾

Wed, 13 May 2026 00:00:00 +0000

資料庫轉換實作的核心責任是讓 schema、資料與流量切換都可分段驗證、並在任一階段可安全回退。這一頁不討論要不要轉換、專注回答「決定要換之後怎麼做」。

本章跟 1.12 大規模 DB 遷移實戰分工：

1.6 同 DB 內：schema 演進、資料變更、新舊欄位共存、雙寫驗證、切流。例：加欄位、改欄位、拆表、合表、加 partition。
1.12 跨 DB 引擎：換 vendor（PostgreSQL → Aurora、MongoDB → Cosmos DB、TiDB → DynamoDB）。例：9.C20 Zomato、9.C30 Microsoft 365。

兩者用同樣的工程方法論（dual-write、shadow、cutover、rollback）、但 stakes 跟 跨越的邊界 不同。本章先處理 1.6 的同 DB schema 轉換、1.12 處理更大規模的 cross-engine。若來源是託管平台（Shopify / Firebase / WordPress）的匯出而非自建資料庫、整場遷出的資產線盤點與並行期設計見 10.3 託管形態遷出；資料落地自建後的 schema 演進回到本章、跨引擎搬遷走 1.12。

實作流程

階段	核心動作	交付成果
1. 邊界定義	定義 source of truth、切換範圍、不可中斷路徑	migration scope 與 rollback 邊界
2. Expand	新欄位 / 新表先上線、應用可同時讀舊寫新或雙寫	新舊版本相容窗口
3. Backfill	批次回填歷史資料、保留節流與 checkpoint	可追蹤的回填進度與失敗重試
4. 驗證	shadow read、checksum、業務指標對帳	一致性證據包
5. Cutover	逐步切讀、再切寫、保留快速回切策略	切流完成且可回退
6. Contract	移除舊欄位與舊路徑、收斂技術債	單一資料語意落地

Expand-Contract 模式

Expand / Contract（也叫 parallel change）是同 DB schema 演進的核心模式。

為什麼需要這個模式：

應用 deploy 跟 DB migration 不能原子完成
在 deploy window 內、有些 instance 跑舊 code、有些跑新 code
DB 必須同時容納舊 code 跟新 code 的 schema

Expand 階段（加新欄位、不刪舊）：

加 new_column、允許 nullable
應用層 dual-write：同時寫 old_column 跟 new_column
應用層 read 仍走 old_column

Backfill 階段（資料同步）：

把歷史 row 的 new_column 補上值（從 old_column 算出來）
分批跑、用 checkpoint 追進度、避開 peak
監控：rate、error、progress、unaffected rows count

Migrate Reads 階段（切讀）：

應用層 read 改走 new_column
仍 dual-write、可以快速 fallback 回 old_column
持續 shadow read 驗證一致性

Contract 階段（刪舊）：

確認所有 application instance 都跑新 code 後
刪 old_column、停止 dual-write
移除應用層的 fallback 邏輯

每個階段都是 可獨立 rollback 的、不像 big-bang 一次切完。

同 DB 內常見 migration 類型

Type A：加欄位（最簡單）

直接 ALTER TABLE ADD COLUMN（nullable 或 default）
應用層後續加寫入、讀取
風險：低
注意：大表 ADD COLUMN with DEFAULT 在 PostgreSQL 11+ 是 instant、之前要 rewrite

Type B：刪欄位

先讓所有 application 不再讀寫該欄位
部署完成、確認後再 DROP COLUMN
風險：中
注意：DROP COLUMN 是 instant、但無法 rollback、必須 backup

Type C：改欄位型別

用 expand-contract：加新欄位、dual-write、backfill、切讀、刪舊
風險：高（特別是大表）
注意：直接 ALTER COLUMN TYPE 可能 rewrite 整表、lock 時間長

Type D：改欄位名 / 表名

同型別改名：用 expand-contract、加新名 + dual-write、切讀、刪舊
DB 端 native rename 是 instant 但 application 需要同步 update — 不適合大規模 deploy

Type E：拆表 / 合表

拆：先 dual-write 到新舊表、backfill、切讀、刪舊
合：先 dual-write 到新表、backfill、切讀、刪舊
風險：高 — 影響面廣

Type F：加 index

PostgreSQL：CREATE INDEX CONCURRENTLY（不 lock 表、可能 slow）
MySQL：gh-ost / pt-online-schema-change（ghost table）
風險：低-中（看 index 大小）

Type G：加 NOT NULL constraint

先確保 application 所有 instance 都不寫 null
backfill null 為 default
加 NOT NULL constraint
風險：中

Type H：加 partition

先把現有表變成 partition 0
加新 partition 接新資料
漸進把舊資料 move 到對應 partition
風險：高（schema 大變）

Online Schema Change 工具

大表 ALTER TABLE 直接跑會 lock。生產級 migration 用 online schema change 工具：

PostgreSQL：

CREATE INDEX CONCURRENTLY（內建）
pg_repack（vacuum + reindex without lock）
pgroll（zero-downtime migration）
Atlas（schema-as-code）

MySQL：

gh-ost（GitHub 開源、無觸發器、推薦）
pt-online-schema-change（Percona、用觸發器）
Vitess online DDL（managed via Vitess）

機制概要：

建 ghost table（新 schema）
copy 資料到 ghost table（漸進、avoid peak）
用 trigger 或 binlog 同步 ongoing changes
切換：原 table → ghost table（atomic rename）

對應 MySQL vendor page 跟 PostgreSQL vendor page 的相關段落。

Validation Query 設計

migration 過程中必須有 validation query 確認資料一致性。

Checksum 對比：

跑 MD5(new_column) = MD5(derived_from_old)
抽樣 10% 跑、不打全表
不一致 → 修轉換函式、不直接修資料

Row count 對比：

新欄位 NULL count 跟預期 backfill 進度比對
過慢 → 增加 backfill worker
不一致 → 找出 backfill 漏跑的 batch

業務指標對比：

跟業務 metric 對齊（訂單金額總和、用戶數）
比 row-level checksum 更貼近 business correctness

詳見 Validation Query 卡片跟 1.7 Schema Migration Rollout Evidence。

Backfill 設計

backfill 是 migration 中最 容易出錯 的環節 — 大量寫、影響 production。

設計要點：

節流（throttle）：每秒寫入限制、跟 production peak 錯開
Checkpoint：紀錄進度、可 resume
錯誤分類：可 retry 的錯誤 vs 必須人工處理
dry-run mode：先看會修改多少、不實際寫
monitoring：rate、error、progress、replica lag

backfill 反模式：

一個大 transaction 跑全表 → lock 太久、可能 OOM
沒 checkpoint → 中途失敗從頭開始
沒 throttle → 影響 production read

對應 Backfill 卡片。

各階段監控訊號

每階段都要監控、不只是「最後驗證」：

階段	主要訊號
Expand	DDL 執行時間、replication lag
Backfill	rate、error rate、checkpoint progress、production load 影響
驗證	shadow read 不一致率、checksum 結果、業務 metric 差異
Cutover	error rate、p99 latency、rollback trigger 是否就緒
Contract	DDL 執行時間、無 application 還在用舊 column 的證據

判讀訊號

訊號	判讀重點	對應動作
回填速度不穩、延遲飆高	可能與線上流量競爭 IOPS	降低批次大小、加節流、避開 peak
雙寫成功率高但 shadow read 漂移	業務語意映射不一致	先修轉換函式、再重跑對帳
切流後 error rate 升高	新庫讀寫路徑與索引未對齊	回切舊讀路徑、補索引後再灰度
rollback 時間超出 RTO	回退流程過度人工	把回退腳本化並演練
大表 ALTER TABLE 卡住	online 工具沒用對 / lock	用 gh-ost / pgroll、或分批執行
Backfill 後 NULL count 不歸零	有漏跑的 batch、或新寫入沒走 dual-write	補檢查 dual-write 邏輯、re-run backfill

常見誤區

把資料庫轉換當成單次 DDL 任務、會讓風險集中在 cutover 當下。穩定做法是把每一階段都做成可驗證、可回退的獨立里程碑。

把 dual-write 當成最終保障也常出錯。雙寫只能保證「兩邊都有寫」、不保證「語意一致」、仍要配 shadow read 與業務對帳。

把 online schema change 工具當「萬能」也是錯。gh-ost / pgroll 仍有限制（例如 trigger 限制、IO 影響）、要按工具規格操作。

案例回寫

選型層案例： 0.C4 營運後技術轉換
可靠性治理： 6.11 Migration Safety
事故反饋： GitHub 2018 Oct21 MySQL Topology Incident
大規模跨 DB 遷移： 1.12 大規模 DB 遷移實戰（Zomato、Netflix、Microsoft 365 等 case）

這組案例主要支撐的是「分段切換與可回退驗證」判讀、不直接支撐快取 TTL 或 broker delivery 參數；若問題核心在快取新鮮度或投遞語意、應轉到 2.x 或 3.x。

跨模組路由

與 1.2 的交接：欄位演進與命名語意回到 schema design。
與 1.3 的交接：交易邊界與副作用切分回到 transaction boundary。
與 1.7 的交接：production rollout 證據實作 — Schema Migration Rollout Evidence。
與 1.12 的交接：跨 DB 引擎遷移 — 大規模 DB 遷移實戰。
與 4.20 的交接：validation query 與一致性證據進入 Observability Evidence Package。
與 6.11 / 6.8 的交接：放行與停損條件進入 Migration Safety 與 Release Gate。
與 8.19 的交接：pause、rollback、fail-forward 決策記錄到 Incident Decision Log。

下一步路由

若你還在判斷是否該轉換、先回 0.C4 看決策訊號。若你要把這套流程寫成 production rollout evidence、接著讀 1.7 Schema Migration Rollout 證據實作示範。若你在設計放行與演練、接著看 6.11 與 6.8。若你在事故回溯、接著看 8.23 Post-incident Review。若你要做 跨 DB 引擎遷移、看 1.12。

1.7 Schema Migration Rollout 證據（Schema Migration Rollout Evidence）實作示範

Mon, 11 May 2026 00:00:00 +0000

Schema migration rollout 證據（Schema Migration Rollout Evidence）的核心責任是把正式狀態的演進拆成可觀測、可放行、可停止與可回寫的服務路徑。這篇以訂單資料表的付款狀態欄位演進為例，示範資料庫變更如何從 schema design、backfill、cutover 交接到 evidence package、release gate 與 incident decision log。

服務路徑與狀態責任

這條服務路徑是 checkout-api -> order-db -> payment-callback -> reconciliation-job。Checkout 建立訂單時先寫入訂單主檔與付款待確認狀態；payment callback 會更新付款結果；客服後台與對帳 job 會讀取同一筆訂單狀態來判斷是否需要補償、退款或人工處理。

本篇示範的變更是把原本單一 status 欄位中的付款語意拆到 payment_state。這個欄位屬於正式狀態，會影響使用者看到的訂單結果、付款回呼的冪等更新、客服查詢與對帳流程，因此 rollout 的核心是讓新舊狀態語意在過渡期同時成立；DDL 只是其中一個執行動作。

這條路徑的前置概念來自 1.2 schema design 與資料建模、1.3 transaction 與一致性邊界與 1.6 資料庫轉換實作。1.2 定義欄位責任，1.3 定義哪些更新要在同一個交易邊界內成立，1.6 定義 expand、backfill、cutover 與 contract 的執行節奏。

Rollout 階段

Migration rollout 的責任是把一次高風險資料變更切成多個可驗證階段。每個階段都要有輸入條件、完成訊號與停止條件，讓團隊能在資料漂移擴大前停下來。

階段	服務責任	完成訊號
Expand	新欄位與新程式碼能和舊版本共存	新舊程式可同時讀寫，舊欄位仍可支撐服務
Backfill	歷史訂單補齊 `payment_state`	checkpoint 穩定前進，mismatch 維持在門檻內
Cutover	讀取路徑改以新欄位為主	新欄位讀取成功率與對帳結果達到放行條件
Contract	移除舊語意與舊寫入路徑	舊欄位已無服務依賴，回寫與監控已更新

這張表的重點是責任轉移。Expand 保護相容性，backfill 保護歷史資料，cutover 保護線上讀取，contract 保護長期維護成本；四者對應不同 evidence，也需要不同 release gate 判讀。

實作基準：先寫出狀態契約

狀態契約的責任是讓 migration 先有可驗證的語意邊界。這篇的範例把 orders.status 裡混合的訂單生命週期與付款語意拆開：訂單仍用 status 表示 created、fulfilled、cancelled 這類流程狀態，付款結果則交給 payment_state 表示 pending、authorized、captured、failed 與 refunded。

舊狀態	新欄位 `payment_state`	判讀理由
`pending_payment`	`pending`	訂單已建立，付款結果仍未確認
`paid`	`captured`	付款已完成，可進入出貨或履約流程
`payment_failed`	`failed`	付款失敗，需要重試或取消路由
`refunded`	`refunded`	付款已逆向處理，客服與對帳要可查
`cancelled_before_pay`	`pending`	沒有付款成功事實，只保留流程取消
`manual_review_required`	`pending`	付款狀態未完成，等待人工判讀

這張 mapping table 是 validation query、backfill job 與 incident decision log 的共同語意來源。Mapping table 留在工程師腦中時，後續 mismatch 會變成「資料看起來怪」；mapping table 進入 artifact 後，gate 就能判斷錯誤集中在哪個付款語意，而不是停在總筆數。

Expand：先建立相容窗口

Expand phase 的核心責任是讓新資料結構先進入 production，同時保留舊程式的可運作性。以 payment_state 為例，常見起點是新增 nullable 欄位、補上必要索引，並讓寫入路徑可以在新欄位缺值時仍使用舊 status 判讀付款狀態。

1ALTER TABLE orders
2  ADD COLUMN payment_state text NULL;
3
4CREATE INDEX CONCURRENTLY idx_orders_payment_state
5  ON orders (payment_state)
6  WHERE payment_state IS NOT NULL;

這段 SQL 的用途是示範 artifact 形狀。Nullable 欄位保留舊資料的相容窗口；partial index 讓新讀取路徑能先被驗證，同時避免把尚未 backfill 的歷史資料全部推進新查詢模型。不同資料庫會有不同線上 DDL 能力，release gate 要把 lock 行為、index build 進度與 replication lag 納入 checks。

應用程式在 expand 階段要支援 read compatibility。相容性較高的寫法是讀取時優先使用 payment_state，缺值時 fallback 到舊 status 的付款語意；寫入時則依交易邊界同步更新舊欄位與新欄位，直到 cutover 前都保留一致性檢查。

 1readPaymentState(order):
 2  if order.payment_state is not null:
 3    return order.payment_state
 4  return mapLegacyStatusToPaymentState(order.status)
 5
 6applyPaymentCallback(order, callback):
 7  nextPaymentState = mapCallbackToPaymentState(callback)
 8  update orders
 9    set status = mapPaymentStateToLegacyStatus(nextPaymentState),
10        payment_state = nextPaymentState
11    where id = order.id

這段相容讀寫的重點是「同一個 callback 只產生一個付款判讀」。舊欄位與新欄位可以同時存在，但它們要由同一份 mapping function 產生，否則 payment callback、客服修復與 reconciliation job 會各自形成一套隱性規則。

這裡要特別看 dual write 的風險。雙寫只表示兩個欄位都有被寫入，仍要用 validation query 驗證兩者語意是否一致。若付款回呼、手動退款與對帳修復走不同程式路徑，雙寫函式也要被這些路徑共同使用。

Dual-write divergence schema

Dual-write 的責任不只是「兩邊都寫」、是「兩邊寫的結果一致」。要證明這件事、需要明確的 divergence schema、否則事故當下無法區分 mapping bug 跟 race condition。

最小 divergence 紀錄欄位：

欄位	用途
`order_id`	哪一筆訂單
`legacy_value`	舊欄位寫入後的值
`new_value`	新欄位寫入後的值
`expected_new`	用 mapping function 從 `legacy_value` 推算的預期新值
`divergence_type`	`mapping-mismatch` / `race-condition` / `manual-override`
`write_path`	哪個程式路徑寫的（callback / refund / manual / reconciliation）
`detected_at`	偵測時間

expected_new 跟 new_value 對不上、表示 mapping function 在某些 path 沒被使用、是 mapping bug。legacy_value 跟 new_value 對不上、且 expected_new == legacy_value 對得上、是 dual-write 本身少寫一筆、可能是 race condition 或部分失敗。兩種情況的修法完全不同、不分類會在事故當下亂修。

Dual-write 失敗回退策略：寫舊欄位成功、寫新欄位失敗時、不能直接 retry 新欄位（會跟主寫入競爭）。實務做法是把 divergence 寫進 outbox / repair queue、由 backfill 同類流程補。對應 9.C16 SeatGeek 的 outbox-style 設計。

線上 DDL 的 vendor 差異

Expand 階段加欄位 / 加索引、不同資料庫的 阻塞行為 差異極大、選錯時機會直接讓 production 鎖表。

PostgreSQL：ALTER TABLE ADD COLUMN ... NULL 是 metadata-only、不重寫 table。ADD COLUMN ... NOT NULL DEFAULT ... 在 PG 11+ 才是 metadata-only。CREATE INDEX CONCURRENTLY 不阻塞寫入、但更慢、且 transaction 中不能用。ALTER TABLE ALTER COLUMN TYPE 通常會重寫整張表、要先評估規模。
MySQL / Aurora MySQL：ALTER TABLE ... ALGORITHM=INSTANT 是 8.0+ 的 metadata-only、5.7 則靠 ALGORITHM=INPLACE / LOCK=NONE。Aurora MySQL 還有 fast DDL（部分變更秒級完成、不重寫）。判讀重點是 explicitly 指定 ALGORITHM、不要讓 MySQL 自己選（可能掉回 COPY 算法、整張表複製）。
Spanner：schema change 預設非阻塞、後端 async 補欄位。新欄位 read 在 schema change 完成前可能讀不到、應用層要容忍。
DynamoDB：表本身沒 schema、但 GSI（Global Secondary Index）創建是 async、可能跑數小時、且新 GSI 在 backfill 完成前查不到完整資料。判讀重點：cutover 不能假設新 GSI 立即可用、要等 IndexStatus = ACTIVE。
Cosmos DB：document 級別無 schema、新 indexed path 加進 indexing policy 後、後端 re-index 整個 partition、期間 RU consumption 飆升。

各 vendor 的線上 DDL evidence 都要包含：操作開始時間、預估完成時間、是否阻塞讀寫、實際 lock duration。expand gate 通過條件不能只看 DDL 跑完、要看 所有副效應收斂（index status active、re-indexing 完成、replica 同步）。

對應 vendor pages：PostgreSQL、MySQL、Aurora、Spanner、DynamoDB、Cosmos DB 的線上 DDL 段。

Backfill：把歷史資料變成可驗證進度

Backfill phase 的核心責任是把歷史資料補齊成可追蹤、可暫停、可重試的進度。訂單表通常會同時承擔交易查詢、客服查詢與對帳查詢；backfill 若只追求速度，容易和線上流量競爭 I/O、放大 replication lag 或改變查詢計畫。

Backfill job 應以 checkpoint 管理進度。每批選取固定範圍的訂單，轉換 status 到 payment_state，寫入後立刻產生該批 validation query 結果。批次大小要能依延遲、鎖等待、replication lag 與線上錯誤率調整。

1checkpoint:
2  migration_id: orders-payment-state-2026-05
3  last_order_id: 18420000
4  batch_size: 5000
5  started_at: 2026-05-11T02:10:00Z
6  completed_at: 2026-05-11T02:12:40Z
7  rows_scanned: 5000
8  rows_updated: 4921
9  mismatch_count: 3

Checkpoint 的角色是把 backfill 變成可恢復流程。last_order_id 告訴下一批從哪裡繼續，rows_updated 與 mismatch_count 告訴 gate 這批是否可以被納入放行證據，時間欄位則讓 replication lag、slow query 與錯誤率能回到同一個觀察窗口。

Validation query 的責任是證明語意一致。最小集合包含總筆數、已補筆數、缺值筆數、新舊語意不一致樣本、每批耗時、慢查詢與 replication lag。這些查詢要保留 query link 與 time range，後續才能進入 4.20 Observability Evidence Package。

1SELECT
2  count(*) AS total_rows,
3  count(*) FILTER (WHERE payment_state IS NULL) AS missing_payment_state,
4  count(*) FILTER (
5    WHERE payment_state IS NOT NULL
6      AND payment_state <> map_legacy_status_to_payment_state(status)
7  ) AS mismatch_rows
8FROM orders
9WHERE id BETWEEN 18415001 AND 18420000;

Validation query 要和 mapping table 共用同一個語意。資料庫端缺少同一份 mapping function 時，查詢至少要把 mapping 規則展開成明確 CASE expression，並把 query version 保存在 evidence package；這樣事後才能知道 mismatch 是資料錯誤、mapping 規則改變，還是查詢本身落後。

Cutover：先切讀取，再收斂寫入

Cutover phase 的核心責任是把服務判讀權交給新欄位，同時保留可回退窗口。對訂單付款狀態來說，切換順序通常先從低風險讀取路徑開始，例如客服後台與內部對帳，再進入 checkout 查詢與使用者可見狀態；每一批切換都要有自己的 cutover window。

讀取 cutover 的 stop condition 要比寫入 cutover 更早觸發。新欄位讀取後出現 mismatch、客服查詢結果漂移、對帳 job 補償量異常時，先回到 fallback read，讓錯誤限制在判讀層，再重新驗證寫入收斂條件。

寫入 cutover 要確認所有更新來源都已對齊。付款回呼、手動修復、退款、訂單取消與 reconciliation job 都可能更新付款狀態；只切主 checkout 寫入路徑會留下長尾漂移。完成 cutover 前，要用 audit query 確認仍在寫舊欄位的程式路徑已經歸零或被納入例外清單。

Shadow read pattern：cutover 前的讀取驗證

Shadow read 的責任是讓新讀取路徑在 真實流量 下被驗證、但 不影響使用者結果。這跟 dual-write 是對偶機制：dual-write 證寫入收斂、shadow read 證讀取分歧。

實作模式：

每一筆讀取請求、同時用 舊邏輯 跟 新邏輯 查一次。
回給用戶的仍是舊邏輯結果（用戶體驗不變）。
在背景把兩個結果差異寫進 divergence log。
收集足夠樣本後、再決定切換 cutover。

 1readPaymentStateWithShadow(order):
 2  legacy = mapLegacyStatusToPaymentState(order.status)
 3  new_result = order.payment_state ?? legacy
 4  if legacy != new_result:
 5    asyncLogDivergence({
 6      order_id: order.id,
 7      legacy: legacy,
 8      new: new_result,
 9      sample_at: now(),
10      caller: requestContext.caller,
11    })
12  return legacy  // 用戶仍拿舊邏輯結果

Shadow read 的判讀重點：

抽樣率：1% / 10% / 100% — 高流量場景全量 shadow 會雙倍 DB 讀取、要先評估容量。Cosmos DB / DynamoDB 的 RU 成本要乘 2。
分歧分類：跟 dual-write 一樣、divergence 要分類（mapping bug / race condition / stale read）、不分類無法定位修法。
覆蓋條件：要驗證所有 caller path（checkout / support / reconciliation / external API）都跑過 shadow、否則 cutover 後可能踩到沒測試過的 path。
退場條件：shadow read 不該長期跑、會增加負載。設明確 sunset deadline、cutover 完成後一週內移除。

對應 9.C20 Zomato TiDB → DynamoDB migration — migration 期間用 shadow read 持續驗證 mapping 規則、抓到 mapping drift。

Dual-write 跟 shadow read 的選擇不是互斥、是依風險組合：

風險場景	建議組合
新邏輯只影響讀取（cache、index）	shadow read 即可、不需要 dual-write
新欄位是 source of truth	dual-write 必要、cutover 前加 shadow read 驗證
跨 service 共用欄位	dual-write + shadow read + cross-service contract test
跨 region migration	dual-write + shadow read + 跨 region replication evidence

Multi-region 與跨服務協調

Migration 跨越 region 或多個 service 時、rollout 順序錯誤是最常見的失敗模式。Service A 切到新欄位、service B 還在讀舊欄位、結果整條業務流量看到不一致。

Multi-region rollout 順序

跨 region 的 schema migration 要從 最後寫入點 開始 expand、從 最後讀取點 開始 cutover。先 expand 寫端、再 expand 讀端；先 cutover 讀端、再 cutover 寫端。順序反了會在過渡期讀到沒被寫的新欄位、或寫了沒被讀的新欄位。

實務步驟：

Schema expand：所有 region 同步加新欄位（先寫端再讀端、不能跳）。確認跨 region replication lag 在新欄位上收斂、再進下一步。
Backfill：可以平行跑、但每 region 各自 checkpoint、不共用。某 region backfill stuck 不應該卡住其他 region。
Cutover read：region by region 切讀、用 canary region 先試 24-48 小時、再擴散。
Cutover write：所有 region 都切完讀、再統一切寫。寫端切換比讀端更敏感、跨 region 寫差異會放大成跨 region inconsistency。

對應 1.11 全球分散式 OLTP 的跨 region consistency 段。

Cross-service migration 協調

當 schema 變更影響多個 service 時、API contract 是 鬆耦合 介面、不該讓所有 service 同步切換。

協調機制：

新欄位先在 API 是 optional：API contract 加新欄位、預設 nullable / optional。下游 service 可選擇何時讀。
舊欄位保留至少一個版本週期：API 不能跟 DB schema 同步 contract、否則下游沒時間切。實務上保留 1-2 季、給下游充足 cutover 窗口。
owner-by-owner cutover roster：明確列出每個下游 service 的 owner、預計 cutover 時間、目前狀態。常用工具是共享 dashboard、不是散落的 ticket。
Contract test：每個下游 service 對新欄位都要有 contract test、在 CI gate 跑過。避免上游 cutover 後下游才發現沒讀對。

對應案例：9.C20 Zomato TiDB → DynamoDB — 跨多個 service 的 access pattern 變更、必須每個 service 各自驗證、不能假設「DB 切了就好」。

Evidence Package

資料庫 migration 的 evidence package 負責證明資料演進是否可判讀。這份 package 要把 validation query、時間窗、資料限制與 owner 包成後續放行與事故判斷可引用的證據，dashboard 只作為摘要入口。

欄位	訂單欄位演進中的內容
Source	validation query、DB metric、migration job log、audit log
Time range	expand、backfill、cutover 各階段的查詢窗口
Query link	row count、mismatch sample、replication lag、slow query
Owner	database owner、checkout owner、reconciliation owner
Data quality	query 延遲、replica freshness、sample completeness
Confidence	confirmed / suspected / needs follow-up
Known gap	未覆蓋的手動修復路徑、低流量 tenant、延遲回呼

Source 欄位要保留資料來源的能力邊界。Validation query 能證明欄位語意一致，DB metric 能看出 latency 與 lag，job log 能追進度，audit log 能判斷是否有高權限修復行為。把這些來源混在一起會讓下游誤判證據的用途。

Data quality 欄位要直接寫出限制。若查詢只跑 primary、replica lag 還在回復、某些 tenant 因資料遮罩未被抽樣，這些限制要跟 evidence 一起交給 release gate，讓 gate 能以證據完整度決定是否放行。

 1evidence_package:
 2  name: orders-payment-state-cutover-batch-37
 3  source:
 4    - validation_query: q_orders_payment_state_batch_37
 5    - db_metric: replication_lag_orders_primary
 6    - job_log: backfill_orders_payment_state_2026_05
 7  time_range: 2026-05-11T02:10:00Z/2026-05-11T02:20:00Z
 8  owner:
 9    database: data-platform-oncall
10    service: checkout-oncall
11    reconciliation: finance-ops-owner
12  data_quality:
13    replica_freshness: "primary only; replica lag still recovering"
14    sample_completeness: "tenant tier enterprise covered; sandbox tenants excluded"
15  confidence: suspected
16  known_gap:
17    - "manual refund repair path not yet sampled"

這份 package 故意把 confidence 標成 suspected。原因是 evidence 已能支持 backfill 繼續前進，但還不足以支持使用者可見讀取 cutover；這種中間狀態要被明確寫出，gate 才能做分階段決策。

Release Gate

Schema migration 的 release gate 負責判斷下一階段是否可以放行。它接收 evidence package，但決策語言要回到 6.8 Release Gate 與變更節奏：Gate decision、Checks、Stop condition、Rollback window、Owner。

Gate 欄位	這條路徑的最小內容
Gate decision	放行下一批 backfill、暫停 cutover、回到 fallback read 或 fail-forward
Checks	compatibility result、mismatch rate、replication lag、slow query
Stop condition	mismatch 超門檻、交易錯誤率上升、lag 超窗口、客服查詢漂移
Rollback window	讀取 fallback 可用時間、舊欄位可支撐多久、contract 前最後回退點
Owner	migration owner、service owner、on-call owner

Gate decision 要用服務語言書寫。migration pass 這種結論對下游不夠具體；放行 10% 訂單 backfill、暫停使用者可見讀取 cutover、維持 fallback read 24 小時 才能讓執行團隊知道下一步。

Rollback window 是資料庫 migration 的關鍵欄位。Expand 與 backfill 階段通常能回到舊讀取；cutover 後仍可 fallback；contract 後舊語意被移除，回退會變成資料修復或 fail-forward。gate 要在每階段說清楚目前還剩哪種退路。

 1release_gate:
 2  gate_decision: "allow next 10% backfill; block customer-visible read cutover"
 3  checks:
 4    mismatch_rate: "0.04%, below 0.1% batch threshold"
 5    replication_lag: "p95 12s, below 30s stop condition"
 6    slow_query: "no new support-admin slow query above 500ms"
 7  stop_condition:
 8    - "mismatch_rate >= 0.1% for two consecutive batches"
 9    - "replication_lag >= 30s for 10 minutes"
10    - "support-admin query drift confirmed by reconciliation owner"
11  rollback_window: "fallback read available until contract phase starts"
12  owner: checkout-oncall

這份 gate record 把「繼續 backfill」和「暫緩讀取 cutover」拆成兩個決策。資料庫 migration 常見的判讀問題是 evidence 只支撐下一批資料修補，還支撐不了使用者可見行為切換。

Incident Decision Log

Migration 進入 production 後，pause、rollback 與 fail-forward 都是事故決策。這些決策要同步寫入 8.19 Incident Decision Log，讓事中交班與事後復盤能回放當時的證據與限制。

常見決策包括暫停 backfill、降低 batch size、回到舊讀取、停止 contract、手動修補 mismatch、選擇 fail-forward。每筆都要保留 Timestamp、Decision、Context、Evidence、Owner、Expected effect 與 rollback condition。

例如 cutover 後發現客服查詢 mismatch 升高，decision log 可以寫成：

 1incident_decision:
 2  timestamp: 2026-05-11T03:05:00Z
 3  decision: "rollback support-admin read path to legacy status fallback"
 4  context: "support-admin mismatch increased after internal read cutover"
 5  evidence:
 6    - query: q_orders_payment_state_support_mismatch
 7    - window: 2026-05-11T02:35:00Z/2026-05-11T03:05:00Z
 8    - interpretation: "suspected callback mapping drift"
 9  owner: checkout-incident-commander
10  expected_effect: "support ticket misclassification returns to baseline"
11  rollback_condition: "mismatch remains above threshold after 15 minutes"

這種記錄能避免事後只剩「當時有回退」的模糊敘事。後續 8.23 Control Plane Decision Log and Write-back 實作示範可承接同一組決策紀錄，把缺少 validation、owner 或 runbook 的地方回寫成改善項。

判讀訊號

判讀訊號的責任是讓讀者知道何時該繼續、何時該停、何時該改路線。Migration 訊號要同時看資料正確性、線上健康度與回退窗口。

訊號	判讀重點	對應動作
mismatch rate 持續低於門檻	新舊欄位語意大致一致	放行下一批 backfill 或低風險讀取 cutover
mismatch 樣本集中在特定 callback	轉換函式或特定付款路徑語意不一致	暫停 cutover，修 mapping 後重跑該批
dual-write divergence 分布偏向 mapping	mapping function 在某 path 沒被使用	找出該 path、強制走共用 mapping function
dual-write divergence 偏向 race	部分寫入失敗、寫順序問題	切到 outbox-based dual-write、別直連
shadow read 抽樣 RU 飆升	shadow 讀取沒設抽樣率、雙倍負載	降低抽樣率、或改成 off-peak shadow
replication lag 在 backfill 升高	migration 與線上查詢競爭資源	降低 batch size，避開 peak，延長觀察窗口
slow query 出現在客服查詢	新欄位索引或查詢模型未對齊	回到 fallback read，補 index 或改查詢條件
DynamoDB GSI 仍在 building	cutover 前依賴未 ACTIVE 的 GSI	等 GSI ACTIVE 再切讀、別假設立即可用
跨 region replica lag 在新欄位上漂移	expand 階段沒等所有 region 收斂	暫停 backfill、等 region 同步
某下游 service 沒 cutover	cross-service 協調沒做 contract test	補 contract test、推遲 contract 階段
contract 前仍有舊欄位寫入	更新來源尚未完全收斂	延後 contract，盤點寫入來源與 owner

這些訊號要放回服務路徑判讀。Mismatch 要看集中在哪個業務入口；若 mismatch 只出現在延遲付款 callback，它代表外部 provider 回呼語意未對齊。Replication lag 要看是否和 backfill 批次對位；若它只在 backfill 批次出現，gate 應調整 migration 節奏，再判斷 schema 設計是否需要修正。

Dual-write 跟 shadow read 的 divergence 要分開看 — 兩者偵測不同層的問題。Dual-write divergence 偏向 mapping bug 或 race condition；shadow read divergence 偏向讀取邏輯漂移或 stale read。混在同一個 dashboard 會讓 reviewer 看不出問題真正在哪一層。

常見誤區

把 schema migration 寫成 DDL 任務，會讓風險集中在切換當下。穩定做法是先建立相容窗口，再用 evidence 證明資料語意已經跟上，最後才收斂舊路徑。

把 validation query 當成事後對帳，也會削弱 rollout 控制。Validation query 適合在 expand、backfill、cutover 每一階段都產生證據，讓 release gate 能在風險擴大前停下來。

把 rollback 寫成單一動作容易誤導團隊。資料庫 migration 的 rollback 會隨階段改變：expand 可回退 schema 使用，backfill 可暫停與重跑，cutover 可回到 fallback read，contract 後多半只能做資料修復或 fail-forward。

把 dual-write 跟 shadow read 當成同一個工具。兩者偵測不同層、結合使用可以互補、互相替代會留下盲點。Dual-write 不跑 shadow read、cutover 後可能踩到沒驗過的讀取 path；shadow read 不跑 dual-write、新欄位可能在某些寫路徑根本沒被寫進去。

把線上 DDL 當「一個 SQL 跑完就好」。各 vendor 的 DDL 語意差異大、PostgreSQL 的 ADD COLUMN NOT NULL DEFAULT 在 PG 10 重寫整張表、PG 11+ 是 metadata-only；MySQL 不指定 ALGORITHM=INSTANT 可能掉回 COPY。Expand evidence 要包含 實際 lock duration、不是只看 DDL 是否回傳成功。

只在主寫入路徑切 cutover、忘記補償流程跟 reconciliation job 也會寫舊欄位。這些長尾寫入會在 contract 階段才暴露、那時候已經沒有 fallback 可走。Cutover 前要 audit 所有寫舊欄位的程式路徑、不只看主流程。

案例回寫

0.C4 營運後技術轉換可以回寫這篇的決策層。當服務營運後需要拆欄位、拆庫、分片或升級儲存引擎，先用 0.C4 判斷「為什麼要換」，再用本篇判斷「進入 production 後如何證明每一步成立」。

GitHub 2018 Oct21 MySQL Topology Incident 可以回寫這篇的事故層。該事件顯示資料一致性優先時，團隊需要可回放的 fail-forward / fail-back 判準；本篇則把這個需求落到 migration rollout 的 evidence、gate 與 decision log。

這兩個案例共同支撐的是「資料狀態演進需要證據閉環」。0.C4 提供轉換動機與選型壓力，GitHub 事故提供資料一致性與恢復決策的代價；兩者都不直接替代 validation query、release gate 與 decision log 的實作細節。

跨模組路由

與 1.2 的交接：欄位責任、命名與查詢模型回到 schema design。
與 1.3 的交接：付款回呼、手動修復與對帳更新的交易邊界回到 transaction boundary。
與 1.6 的交接：expand、backfill、cutover 與 contract 的執行流程回到資料庫轉換實作。
與 4.20 / 4.22 的交接：validation query、row count、lag 與 slow query 進入 Observability Evidence Package 與 Checkout API Evidence Package。
與 6.11 / 6.8 / 6.25 的交接：migration 可逆性與放行條件進入 Migration Safety、Release Gate 與 Provider Dependency Release Gate。
與 8.19 / 8.23 的交接：pause、rollback、fail-forward 與 write-back 進入 Incident Decision Log 與 Control Plane Decision Log and Write-back。

下一步路由

要把資料庫 migration 的 evidence 交給 release gate，接著讀 6.25 Provider Dependency Release Gate 實作示範，並把 provider 依賴示範中的 gate 欄位改寫成 migration gate 欄位。要看下一條分類服務路徑，接著進 02 Cache / Redis 模組的 Cache migration and stampede rollback 服務路徑。

跨 vendor schema migration 深入：

Spanner interleaved table 的 schema migration — 全球分散式表結構變更的 evidence shape
Aurora 從自管 PostgreSQL / MySQL 遷入 — schema 比對與 dual-write 證據鏈
Cosmos DB MongoDB API vs SQL API — multi-API document 在 rollout 階段的相容性 evidence

模組十：系統演進與遷移

Wed, 27 May 2026 00:00:00 +0000

系統演進與遷移的核心目標是把高風險的執行變更從設計時的選型判斷分離出來、用獨立的紀律處理。模組零回答「該選哪個服務」、模組十回答「決定要改之後、怎麼安全動手」。兩者的失敗模式不同 — 選型錯了重來成本是「再評估一次」、遷移錯了重來成本可能是「事件、資料損失、回退耗時數週」。

跟模組零的責任分工

模組零（服務選型）處理設計階段：辨識需求、比較能力、決定要不要引入某類服務。模組十（系統演進）處理執行階段：拆服務、跨服務重構、schema 大型變更、雲端切換、capacity ramp 的劇本與回退條件。兩者銜接點是「決策完成、執行待動」 — 模組零的結論「應該拆某個服務」進到模組十、變成「怎麼拆、用什麼 pattern、何時切流、回退條件是什麼」。

階段	模組零承擔	模組十承擔
起點訊號	需求分類、流量形狀、團隊能力	已決定要動、評估完成
主要產物	選型表、能力對照、取捨判讀	執行劇本、切流策略、回退條件
失敗代價	選錯方向、回頭再評估	切流失敗、資料損失、事件影響使用者
工具語言	mental model、taxonomy、capability	runbook、cutover、rollback

跟其他模組的邊界

模組十收的是「跨服務、跨模組、跨環境的演進劇本」、不是「該技術的小範圍變更」。常見的容易誤判邊界：

議題	留原模組	進模組十
schema migration 語法、index 設計、rollout	01 留	—
schema 跨多 release 的 zero-downtime 切換	—	模組十收（未來、Strangler Fig 跨服務替換）
cache aside / TTL / eviction	02 留	—
cache 大型 vendor 切換（自建 → 雲服務）	—	模組十收（未來）
service 拆分判讀	—	模組十收（10.1）
service 拆分執行 runbook	—	模組十收（10.2）
雲端能力對照（AWS / GCP / Azure）	00 留（0.19）	—
跨雲遷移執行劇本	—	模組十收（未來）
9.x 擴展軸、容量規劃	09 留	—
交付形態該不該遷、升級 tripwire 判讀	00 留（0.21）	—
託管形態遷出的執行劇本	—	模組十收（10.3）
拆分後造成的容量重平衡 runbook	—	模組十收（未來）

判別問題是「這個變更失敗時、回退範圍跨幾個服務 / 模組？」。跨多模組的演進劇本進模組十、單模組內的小範圍變更留原模組。

章節列表

章節	主題	關鍵收穫
10.1	服務拆分與邊界判讀	整理 monolith vs microservice 取捨、服務邊界判讀訊號、拆分時機與回退路徑
10.2	服務拆分執行 Runbook	10.1 決定該拆之後、實際怎麼動手 — Strangler Fig、雙寫期管理、切流策略、回退條件設計
10.3	託管形態遷出	0.21 升級自建 tripwire 觸發之後、從託管平台 / BaaS 遷往自建的執行 — 資料 / 身分 / 流量 / 整合的資產線盤點、並行期與回切窗口、部分遷出中繼形態

後續擴充方向

本模組目前收服務拆分與託管形態遷出議題。未來會擴充的演進類議題：

跨服務 schema 演進：API contract migration、event schema versioning、跨服務的 backfill 策略
大型雲端遷移：on-prem → cloud、跨雲遷移的 cutover 劇本、流量切換策略
基礎設施替換：資料庫引擎切換（如 MySQL → Postgres、自建 → managed）、cache vendor 切換、queue broker 切換的執行紀律
容量重平衡：拆分後的服務間流量分佈、shard 重分佈、tenant 隔離調整

這些議題的共同特徵：跨多個技術模組、失敗代價遠超「該技術的小範圍變更」、需要獨立的執行劇本跟回退條件。

Migration

Wed, 06 May 2026 00:00:00 +0000

Migration 的核心概念是「把舊狀態受控推進到新狀態」。它不只涉及資料庫 schema，也包含資料回填、相容窗口與發布順序。

概念位置

Migration 位在 build 之後、deploy 與 rollout 之前後的關鍵路徑，常與 release gate、rollback strategy 一起設計。

可觀察訊號

新舊版本需要共存一段時間。
發布步驟包含 schema 或資料形狀變更。
部署失敗時要判斷是否可回退或需要 forward fix。

接近真實服務的例子

後端服務先擴充 schema，再讓新版本寫入新欄位，最後收斂舊欄位讀取；整個過程需要 migration gate 與回退方案。

設計責任

Migration 要定義相容策略、執行順序、觀測指標與異常回復路由，避免部署成功但資料邏輯失效。

DragonflyDB → Redis / Valkey：回退到標準生態的遷移路徑

Mon, 22 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 DragonflyDB（source）跟 Redis / Valkey（target）。反向路徑見 Redis → DragonflyDB。跑 6 維 diff dimension audit 後判定為 Type B drop-in（RESP 協定相容），但 HA 和持久化有差異需要處理。

為什麼從 DragonflyDB 遷回

DragonflyDB 遷回 Redis/Valkey 的 driver 跟正向遷移互為鏡像：

Redis Modules 需求：業務開始需要 RedisJSON、RediSearch 或 RedisTimeSeries，DragonflyDB 不支援 Redis Modules 生態
Cluster mode 需求：DragonflyDB 設計為單機 scale-up，當資料量超過單機記憶體上限（數 TB）或需要跨 node sharding 時，Redis Cluster 或 Valkey Cluster 是成熟選擇
Sentinel / HA 生態：DragonflyDB 的 HA 用自家 replication，不支援 Sentinel。若團隊已有 Sentinel 或 Operator 基礎設施，回到 Redis/Valkey 整合成本更低
BSL 授權疑慮：DragonflyDB 是 BSL 1.1（4 年後轉 Apache 2.0），部分組織偏好 BSD（Valkey）或即使是 RSALv2（Redis）的已知授權

6 維 diff dimension audit

維度	評估	等級
Schema / API	RESP 相容、data types 一致	Low
Operational model	DragonflyDB replication → Sentinel/Cluster；snapshotting → RDB+AOF	Medium
Abstraction / paradigm	相同（key-value cache）	Low
Number of components	DragonflyDB 1-2 nodes → Redis primary + replica + Sentinel（或 Cluster 6 nodes）	Medium
Application change	endpoint 換、client config 微調（無 API 差異）	Low
Data topology	DragonflyDB snapshot → Redis RDB 相容	Low

全域 Low-Medium → Type B drop-in，工作重心在 HA 架構切換和持久化模式對齊。

相容性確認

DragonflyDB → Redis 的相容方向跟 Redis → DragonflyDB 相反 — Redis 是 superset，回到 Redis 不會有功能缺失。但有幾個操作面差異需要處理：

DragonflyDB 行為	Redis 行為	處理方式
Multi-threaded 吞吐量	單主線程（I/O threads 輔助）	回到 Redis 後 throughput 下降是預期行為；若單機不夠需要 Cluster 分片
Fork-less snapshot	BGSAVE fork + COW	關注 persistence fork latency，大 dataset 的 fork 會造成延遲 spike
自家 replication	Redis replication + Sentinel 或 Cluster	需要重建 HA 架構，見下方階段二
無 AOF	AOF + RDB 混合持久化	依需求決定是否開 AOF；純 cache 場景可只用 RDB
無 Cluster mode	Redis Cluster 或 Valkey Cluster	資料量大時需要規劃 sharding

階段一：資料匯出

DragonflyDB 支援 SAVE / BGSAVE 產生 RDB 格式 snapshot，跟 Redis RDB 相容。

1# 在 DragonflyDB 觸發 snapshot
2redis-cli -h dragonfly-host BGSAVE
3
4# 等 BGSAVE 完成
5redis-cli -h dragonfly-host LASTSAVE
6
7# 複製 snapshot 檔案到 Redis 資料目錄
8cp /dragonfly-data/dump.rdb /redis-data/dump.rdb

RDB 載入驗證：

1# 啟動 Redis 載入 RDB
2redis-server --dbfilename dump.rdb --dir /redis-data
3
4# 驗證 key count
5redis-cli DBSIZE

若 DragonflyDB 跑的是較新版本產出的 RDB，先在測試環境驗證 Redis 能正常載入。DragonflyDB 的 RDB 基於 Redis 6.x 格式，Redis 7.x 和 Valkey 8.x 向下相容無問題。

階段二：HA 架構重建

DragonflyDB 回到 Redis/Valkey 後，HA 需要從 DragonflyDB replication 切換到 Sentinel 或 Cluster。

Sentinel 路徑（適合非分片場景）

1 primary + N replica + 3 Sentinel nodes。配置見 Sentinel HA Failover。

Cluster 路徑（適合需要分片的場景）

最小 3 primary + 3 replica。配置見 Redis Cluster Resharding。

選擇依據：資料量 < 單機記憶體的 70% 用 Sentinel，需要水平擴展用 Cluster。

階段三：Client 切換

Application 的 Redis client 不需要改 API — DragonflyDB 跟 Redis 用同一套 RESP 協定。需要改的只有：

Endpoint：從 DragonflyDB host:port 改為 Redis primary（或 Sentinel/Cluster endpoint）
認證：若 DragonflyDB 用 requirepass，Redis 同參數；若要升級到 ACL 趁此機會配置
Sentinel/Cluster 配置：client library 需要啟用 Sentinel discovery 或 Cluster mode

1# 切換前：直連 DragonflyDB
2r = redis.Redis(host="dragonfly-host", port=6379, password="secret")
3
4# 切換後：Sentinel 模式
5sentinel = redis.Sentinel([("sentinel-1", 26379), ("sentinel-2", 26379), ("sentinel-3", 26379)])
6r = sentinel.master_for("mymaster", password="secret")

階段四：效能 baseline 與回退

效能預期

回到 Redis 後，單機 throughput 會低於 DragonflyDB（Redis 單主線程 vs DragonflyDB 多線程）。建立 baseline 時要跟 Redis 的歷史數據比，不是跟 DragonflyDB 比。

指標	預期變化	應對
吞吐量	下降（單線程限制）	Cluster 分片或 read replica 分散
Latency p99	BGSAVE 期間可能有 spike	調整 BGSAVE 排程避開高峰
記憶體使用	上升 ~30%（Redis 記憶體效率較低）	預先調整 maxmemory 和 eviction policy

回退路徑

回退到 DragonflyDB：把 Redis 的 RDB dump 回 DragonflyDB 載入，endpoint 改回。Cache 資料可重建，即使 RDB 不搬，DragonflyDB 重啟後 cache miss 回源到 DB 即可。

DragonflyDB 在遷移完成後保留 7 天再下線。

交接路由

Source vendor：DragonflyDB
Target vendor：Redis / Valkey
反向路徑：Redis → DragonflyDB
HA 重建：Sentinel HA Failover、Cluster Resharding
持久化注意：Persistence Fork Latency

KeyDB → Redis / Valkey：從多線程 fork 回歸主線的遷移路徑

Mon, 22 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 KeyDB（source）跟 Redis / Valkey（target）。跑 6 維 diff dimension audit 後判定為 Type B drop-in（KeyDB 是 Redis fork、RESP 相容、RDB/AOF 相容），但 active-active replication 跟 multi-threading 特性回退需要額外處理。

為什麼從 KeyDB 遷回

KeyDB 是 Snap 維護的 Redis fork，主要差異化在多線程和 active-active replication。遷回的 driver：

維護活躍度疑慮：KeyDB 的 release cadence 跟 Redis/Valkey 主線比較慢，部分組織擔心長期維護與安全 patch 的及時性
Valkey 生態收斂：Valkey 在 Linux Foundation 治理下快速演進（8.x 多線程改進），KeyDB 的多線程優勢逐漸縮小
Active-active 不再需要：業務不再需要跨 region active-active、或改用 application 層處理衝突解析
社群與工具生態：Redis/Valkey 的 client library、monitoring exporter、Operator 支援度更廣

6 維 diff dimension audit

維度	評估	等級
Schema / API	完全相容（fork 自 Redis 6.x）	Low
Operational model	active-active → Sentinel/Cluster；multi-thread config 移除	Medium
Abstraction / paradigm	相同	Low
Number of components	相近（1 primary + N replica + HA）	Low
Application change	endpoint 換、client config 微調	Low
Data topology	RDB/AOF 完全相容	Low

Type B drop-in，工作重心在 active-active replication 拆除和效能 baseline 對齊。

KeyDB 特有功能的處理

KeyDB 特有功能	Redis/Valkey 對應	遷移處理
Multi-threading（`server-threads`）	Redis I/O threads / Valkey 8 async I/O	回到 Redis 後吞吐量下降是預期，需要 benchmark 建立新 baseline
Active-active replication	無原生等價。Redis 需要 application 層解衝突或用 CRDTs（社群方案）	遷移前確認業務是否仍需 multi-master。不需要則直接切 Sentinel/Cluster
FLASH storage（`storage-provider flash`）	無原生等價。Redis 純記憶體	遷移前把 FLASH 資料回收到記憶體，或接受遷移後記憶體需求上升。調整 `maxmemory`
Subkey expires	Redis 無 subkey expire（只有 top-level key TTL）	檢查 application 是否依賴 subkey expire；若有需要改寫為 top-level key 或用 sorted set 模擬
`EXPIREMEMBER` 命令	Redis 無此命令	grep application code 確認未使用；若有需改寫

FLASH storage 的處理取決於冷資料比例。如果多數資料在 FLASH 上（用 OBJECT FREQ 確認），遷移後的 Redis 記憶體需求會大幅上升 — 要提前計算純記憶體所需容量，調整 instance 規格或改用更積極的 eviction policy。Subkey expires 和 EXPIREMEMBER 的影響範圍通常較小，但一旦 application 依賴就需要重構資料結構（用 top-level key + TTL 或 sorted set 模擬過期）。

Active-active 拆除

若 KeyDB 的 active-active replication 正在使用，遷移前需要先收斂為單主寫入：

選定一個 region 的 KeyDB 為 primary，其他 region 停止寫入
等資料同步完成（replica 追上 primary offset）
從 primary 做 RDB export
用 RDB 建立 Redis/Valkey instance
各 region 的 application 切到新的 Redis/Valkey（Sentinel 或 Cluster）

資料搬遷

KeyDB 的 RDB 和 AOF 與 Redis 格式相容，搬遷流程跟 DragonflyDB 回退類似：

1# KeyDB 端觸發 BGSAVE
2redis-cli -h keydb-host BGSAVE
3
4# 複製 RDB 到 Redis/Valkey 資料目錄
5scp keydb-host:/data/dump.rdb redis-host:/data/dump.rdb
6
7# Redis/Valkey 載入
8redis-server --dbfilename dump.rdb --dir /data

如果使用了 FLASH storage，RDB 只包含記憶體中的資料。FLASH 上的冷資料需要先用 OBJECT FREQ 確認存取頻率，決定是要 warm up 到記憶體再 export，還是接受遷移後冷資料 cache miss 回源。

效能差異預期

指標	KeyDB → Redis 變化	應對
吞吐量	下降（KeyDB multi-thread → Redis single-thread）	評估是否需要 Cluster 分片補償。Valkey 8 的 async I/O 可部分彌補
記憶體	上升（若使用了 FLASH storage 被移除）	提前計算純記憶體所需容量，調整 instance 規格
Latency p99	BGSAVE fork spike 可能出現	KeyDB 的多線程降低了 fork 影響，回到 Redis 需要關注 persistence fork latency
Active-active latency	不適用（已拆除）	N/A

回退路徑

Cache 資料可重建，回退方式：

Application endpoint 改回 KeyDB
若 KeyDB 已下線，重啟 KeyDB 載入 Redis 的 RDB（格式相容）
Cache miss 回源到 DB 自然 warm up

KeyDB 保留 7 天再下線。

交接路由

Source vendor：KeyDB、KeyDB Active-Active Replication
Target vendor：Redis / Valkey
HA 重建：Sentinel HA Failover
效能參考：Persistence Fork Latency、Connection Pipeline Latency

AWS SQS → Google Pub/Sub：queue 模型搬到 topic + subscription 模型的跨雲遷移

Tue, 16 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 AWS SQS 跟 Google Pub/Sub。這是一個 跨雲 managed-to-managed 遷移：兩端都是 cloud-managed、運維負擔都低、但 資料拓樸 跟 消費抽象 不同 — SQS 是 region-scoped 的單一 pull queue、Pub/Sub 是 global topic + 多個 first-class subscription。主結構走 operational redesign hybrid（Type C）、額外為 components / data topology 兩個高維度抽獨立段。

SQS 跟 Pub/Sub 不是同一種訊息抽象

SQS 跟 Pub/Sub 都是 cloud-managed 非同步訊息服務、都解「解耦 producer / consumer、不自管 broker」這個問題、application 程式碼裡都是「發訊息、收訊息、處理完確認」的形狀。從這層看兩者可互換、遷移像是換 SDK。

差別在 消費抽象 跟 資料拓樸。SQS 的核心實體是 queue：一條 region-scoped 的訊息隊列、訊息被一個 consumer 領走（in-flight）就對其他 consumer 隱形、處理完 DeleteMessage 就消失。要讓同一筆事件送給多個下游、SQS 端的做法是在 SNS 前面 fan-out、再各接一條 SQS queue。Pub/Sub 的核心實體是 topic + subscription 兩層：topic 收訊息、subscription 是 first-class 的消費端點、一個 topic 可掛 N 個 subscription、每個 subscription 各自維護消費進度、fan-out 是模型內建而不是外接。

這個差別決定了遷移的形狀。如果原系統只是「一條 queue、一群 worker 競爭領取」、那 Pub/Sub 端是「一個 topic、一個 pull subscription」、對位乾淨、application 改動小。如果原系統靠 SNS-to-many-SQS 做扇出、那 Pub/Sub 端是「一個 topic、多個 subscription」、整個 fan-out 拓樸要重畫、這不是換 SDK、是重設計訊息流。先判斷自己屬於哪一種、再決定 playbook 的重量。

為什麼會跨雲遷這條路徑

跨雲從 SQS 遷到 Pub/Sub 的 driver 跟同雲 vendor 切換不同、通常不是「Pub/Sub 比 SQS 好」、而是 整體 workload 的重心移到 GCP：

資料平台落在 GCP：下游分析走 BigQuery、streaming 走 Dataflow、容器跑 Cloud Run。事件如果留在 AWS、每筆都要跨雲搬到 GCP 才能進 BigQuery、跨雲 egress 費用跟延遲都是常態成本。把訊息層也移到 Pub/Sub、事件可以用 BigQuery subscription 直接落地、省掉中間搬運。
需要 global topic、不想管 region：SQS queue 綁 region、跨 region 要自己複製或在前面架路由。Pub/Sub topic 沒有 region 概念、publish 進去全球可訂閱、多區域服務的事件分發是 first-class。
fan-out 從外接變內建：原本靠 SNS + 多條 SQS 維護的扇出拓樸、在 Pub/Sub 是「一個 topic 掛多個 subscription」、少一層 SNS、扇出關係在 subscription 列表一覽。

這三條 driver 都假設 重心已經或即將在 GCP。如果系統長期紮根 AWS、只為了「換個 queue」跨雲、會付出跨雲 IAM 重對位、雙雲計費、跨雲網路延遲的代價、ROI 通常不成立。遷移前先確認 driver 是 workload 重心轉移、不是單純偏好。

結構為什麼是 operational hybrid 加兩個高維度獨立段

寫這篇前先跑 diff dimension audit、6 維評級如下：

Diff 維度	評級	SQS → Pub/Sub 的具體差異
Schema / API	Medium	都是「發 / 收 / 確認」、但 API 名詞與參數全換（QueueUrl → topic+subscription）
Operational model	High	IAM policy → Service Account、CloudWatch → Cloud Monitoring、redrive → DLT 重訂閱
Abstraction	Medium	都是訊息服務、但 pull queue ↔ topic/subscription 的消費抽象不同
Components（數量）	High	單一 queue ↔ topic + N subscription 兩層實體；SNS+SQS 扇出 ↔ topic 內建扇出
Application change	Medium	SDK 換、ack / fan-out 邏輯改、但商業邏輯多數可保留
Data topology	High	region-scoped queue ↔ global topic；single-consumer ↔ multi-subscription fan-out

主導維度是 operational model（跨雲身份與監控全換）、所以主結構走 Type C operational redesign hybrid。但 components 跟 data topology 也是 High — 不是把它們塞進 operational 段就能講清楚的、消費抽象從「一條 queue」變「topic + 多 subscription」是讀者最容易踩雷的地方。按 migration 方法論的 multi-axis 規則、高維度抽成獨立段補充、不硬塞進單一 type 標籤。所以本篇結構是：operational 對位主軸 + 「消費抽象重設計」獨立段（components / topology 軸）+ 跨雲特有的 IAM 與網路段。

Operational 對位：機制名詞換、語意要逐一確認

跨雲遷移最容易出錯的環節、是 找到語意相近的功能、卻假設行為一致。SQS 跟 Pub/Sub 多數機制都有對位、但每一組都有行為差、找得到對應功能只是第一步。下表先給對照、後面逐項展開語意陷阱。

SQS 機制	Pub/Sub 對位	語意是否等價
Visibility timeout	Ack deadline	近似、但上限與延長機制不同
DeleteMessage	Ack（acknowledge）	近似、但 Pub/Sub 自動 extension 改變實際行為
maxReceiveCount + DLQ + redrive	Dead-letter topic + 重訂閱	概念對應、DLT 是 topic 不是 queue、重處理方式不同
Long polling（WaitTimeSeconds）	Streaming pull	不等價、streaming pull 是長連線串流、不是輪詢
Message attributes	Message attributes	概念對應、型別與大小限制不同
FIFO queue（MessageGroupId）	Ordering key	都給順序、但去重與吞吐取捨不同
IAM policy + Queue policy	IAM role + Service Account	跨雲身份模型完全不同、不是改語法是重對位
CloudWatch metric / alarm	Cloud Monitoring metric / alert	metric 名詞與語意不同、alarm 邏輯要重寫

Visibility timeout → ack deadline

Visibility timeout 跟 ack deadline 都回答同一個問題：consumer 領走訊息後、多久沒確認就視為失敗、把訊息重新投遞。語意對位成立、但兩端的數字與延長機制不同。

SQS visibility timeout 預設 30 秒、上限 12 小時、consumer 要延長就主動呼叫 ChangeMessageVisibility。Pub/Sub ack deadline 預設 10 秒、上限 600 秒（10 分鐘）、而且 client library 預設會自動在背景延長 deadline（lease management）。這個自動延長是最容易踩到的差異：在 SQS 端習慣「設一個夠長的 visibility timeout、處理完再 delete」、搬到 Pub/Sub 如果只把 ack deadline 設成 600 秒上限、卻沒意識到 client library 在背景幫忙延長、長任務的行為會跟預期不同；反過來、如果關掉自動延長又設了預設 10 秒、處理稍久就重投。對位的正確做法是先理解 client library 的 lease 行為、再決定 ack deadline 跟 MaxAckPending、而不是把 SQS 的 timeout 數字直接搬過去。

maxReceiveCount / redrive → dead-letter topic

兩端都用「重試 N 次仍失敗就隔離」防止 poison message 阻塞 pipeline、但隔離後的容器不同。SQS 的 DLQ 是另一條 queue、用 maxReceiveCount 控制門檻、修好下游後用 redrive policy 把訊息放回原 queue。Pub/Sub 的 dead-letter topic 是另一個 topic、用 subscription 的 max delivery attempt 控制門檻、超過就 publish 到 DLT。

差別在重處理路徑。SQS redrive 是把 DLQ 訊息搬回 main queue、是一個 queue-to-queue 的搬移動作。Pub/Sub 的 DLT 是 topic、要重處理得在 DLT 上再開一個 subscription 來消費、沒有內建的「放回原 topic」按鈕。Mercari item feed 的案例就是用 DLT 把重試多次仍失敗的訊息隔離、讓後續訊息優先處理、同時把 topic 當突發流量的 load-leveling buffer。從 SQS 搬過來時、redrive 的心智模型要換成「DLT 是一個獨立 topic、重處理是另開 subscription」、不是「按一個按鈕放回去」。設定 DLT 還需要給 Pub/Sub service account 對 DLT 的 publisher 權限跟對原 subscription 的 subscriber 權限、漏設會讓訊息卡住不進 DLT。

Long polling → streaming pull

這一組不是等價對位、是機制不同。SQS long polling 是 consumer 發一個 ReceiveMessage 請求、最多等 20 秒、有訊息就回、沒有就空回、本質仍是輪詢、只是把空輪詢的頻率降下來省 cost。Pub/Sub 的 pull 在 client library 預設是 streaming pull：consumer 跟 Pub/Sub 建一條長連線、訊息一到就推過來、不是 consumer 反覆問。

對位時不要把 long polling 的「WaitTimeSeconds 20 秒」翻譯成某個 Pub/Sub 參數 — 沒有對應參數、因為機制不同。要關注的是 flow control：streaming pull 因為訊息會主動推來、要用 MaxOutstandingMessages / MaxAckPending 控制同時在處理的訊息量、否則 consumer 會被一次塞太多訊息壓垮。SQS 端「一次拉最多 10 條」的批次節流、在 Pub/Sub 端變成 flow control 設定。Spotify autoscaling 的案例揭露了相關陷阱：下游失敗時 consumer 不 ack 仍持續消耗 CPU、autoscaling 反而把資源越拉越高 — autoscale 訊號要看處理成功率、不是 backlog 加 CPU。

IAM policy → Service Account

跨雲遷移裡、身份模型是 重對位 而不是改語法的部分。SQS 的存取控制是 IAM policy（identity-based、掛在 user / role）加 queue policy（resource-based、掛在 queue）兩層、cross-account 靠這兩層互動。Pub/Sub 是 GCP IAM role（publisher / subscriber / viewer 等）加 Service Account、push subscription 要用 Service Account 認證到目標 endpoint。

兩套身份模型沒有自動轉換工具、要逐條重畫：誰能 publish 對應誰有 topic 的 publisher role、誰能消費對應誰有 subscription 的 subscriber role。跨雲場景還多一層 — 如果遷移期 AWS 端的服務要 publish 到 GCP 的 topic、得用 workload identity federation 或 service account key、讓 AWS 的工作負載拿到 GCP 身份。這部分沒有 case 可引、依 GCP 官方 IAM 文件加最小權限原則設計：每個 service account 只給它實際需要的 role、不要為了遷移方便給 broad role 再說以後收緊、那個「以後」通常不會來。

CloudWatch → Cloud Monitoring

監控訊號要重建、不是改名。SQS 在 CloudWatch 看 ApproximateNumberOfMessagesVisible（queue 深度）跟 ApproximateAgeOfOldestMessage（lag）。Pub/Sub 在 Cloud Monitoring 看 num_undelivered_messages（backlog）跟 oldest_unacked_message_age（最老未確認訊息年齡）。語意相近、但 alarm 邏輯要重寫、而且 Pub/Sub 的 backlog 數字要配合 subscription 維度看 — 同一個 topic 的不同 subscription 各自有 backlog、一個堵住不代表全部堵住。遷移時要把原本對 queue 深度的告警、改成對每個 subscription 的 backlog 與 age 告警。

消費抽象重設計：從一條 queue 到 topic 加多 subscription

這是 components 跟 data topology 兩個高維度的核心、也是從 SQS 搬到 Pub/Sub 最需要重新畫圖的地方。SQS 的世界裡、一條 queue 對應一群競爭領取的 worker；要扇出就在前面架 SNS、SNS 後面接多條 SQS、每條 queue 各一群 worker。Pub/Sub 把這個拓樸壓平：一個 topic 收訊息、掛多少個 subscription 就有多少條獨立的消費流、每個 subscription 各自記進度、彼此不影響。

重設計從盤點現有拓樸開始。先列出：哪些是「單一 queue、一群 worker」的簡單情境、哪些是「SNS fan-out 到多條 SQS」的扇出情境。簡單情境對位乾淨 — 一個 topic、一個 pull subscription、原本競爭領取的 worker 改成同一個 subscription 的多個 consumer、Pub/Sub 自動把訊息分給它們。扇出情境要把 SNS + 多 SQS 換成「一個 topic + 多 subscription」、原本每條 SQS queue 變成一個 subscription、SNS 那一層消失。

扇出情境裡有個方向相反的陷阱要避免：不要把「多個下游」誤設計成「多個 consumer 共用一個 subscription」。同一個 subscription 的多個 consumer 是競爭關係、訊息只會給其中一個 — 那是負載分攤、不是扇出。要每個下游都收到完整一份、就要每個下游一個獨立 subscription。這跟 SQS 端「一條 queue 一個下游、扇出靠 SNS 複製」的直覺方向一致、但實體換了：在 SQS 是多條 queue、在 Pub/Sub 是多個 subscription。畫遷移圖時、SQS 的每條 fan-out queue 一對一映射到 Pub/Sub 的一個 subscription、不要合併。

Application 重設計範例：SQS receive-delete 換成 Pub/Sub pull-ack

 1// SQS 端：long polling receive、處理完 DeleteMessage
 2svc := sqs.NewFromConfig(cfg)
 3for {
 4    out, _ := svc.ReceiveMessage(ctx, &sqs.ReceiveMessageInput{
 5        QueueUrl:            &queueURL,
 6        MaxNumberOfMessages: 10,
 7        WaitTimeSeconds:     20, // long polling
 8    })
 9    for _, m := range out.Messages {
10        process(m.Body)
11        svc.DeleteMessage(ctx, &sqs.DeleteMessageInput{
12            QueueUrl:      &queueURL,
13            ReceiptHandle: m.ReceiptHandle,
14        })
15    }
16}

1// Pub/Sub 端：streaming pull、處理完 Ack、用 flow control 節流
2sub := client.Subscription("orders-sub")
3sub.ReceiveSettings.MaxOutstandingMessages = 100 // flow control、取代「一次拉 10 條」
4err := sub.Receive(ctx, func(ctx context.Context, msg *pubsub.Message) {
5    process(msg.Data)
6    msg.Ack() // 取代 DeleteMessage；client library 在背景自動延長 ack deadline
7})

差異：

SQS 主動輪詢（ReceiveMessage 迴圈）→ Pub/Sub 回呼模型（Receive 把訊息推進 callback）
SQS DeleteMessage → Pub/Sub msg.Ack()、語意都是「確認處理完、別重投」
SQS WaitTimeSeconds 控制輪詢等待 → Pub/Sub MaxOutstandingMessages 控制 flow control
SQS 一次最多 10 條的批次上限 → Pub/Sub 沒有這個上限、改用 flow control 設同時在途量
ack deadline 的延長在 SQS 要主動 ChangeMessageVisibility、在 Pub/Sub 由 client library 自動處理

application 邏輯的商業處理部分（process 函式）多數可保留、改動集中在收訊息的框架跟確認語意、估計 20-40% 程式碼。

Production 故障演練

Case 1：fan-out 設計成共用 subscription、下游各收到一部分

徵兆：把原本 SNS fan-out 到 3 條 SQS 的拓樸搬到 Pub/Sub、為了省事建一個 topic + 一個 subscription、讓 3 個下游服務都連這個 subscription。上線後發現每個下游只收到大約三分之一的訊息、不是各收完整一份。

根因：同一個 subscription 的多個 consumer 是負載分攤關係、Pub/Sub 把訊息分給其中一個 consumer、不是每個都送。這對應到 SQS 端「一條 queue 多個 worker 競爭領取」的行為、但被誤用在需要扇出的場景。SQS 端的扇出靠 SNS 複製訊息到多條 queue、那個複製動作在 Pub/Sub 應該由「多個 subscription」承擔、不是多個 consumer 共用一個 subscription。

修法：

每個下游一個獨立 subscription：3 個下游就建 3 個 subscription 掛同一個 topic、每個各收完整一份
遷移圖一對一映射：SQS 的每條 fan-out queue 對應一個 Pub/Sub subscription、不合併
負載分攤跟扇出分開設計：同一下游要多 worker 分攤、是同一 subscription 多 consumer；不同下游各收一份、是多 subscription

Case 2：ack deadline 沿用 SQS 數字太短、長任務反覆重投

徵兆：SQS 端 visibility timeout 設 5 分鐘跑得好好的、搬到 Pub/Sub 隨手把 ack deadline 設成預設或一個小數字、結果處理時間稍長的訊息被反覆重投、同一筆訊息處理多次、下游出現重複副作用。

根因：Pub/Sub ack deadline 預設 10 秒、上限 600 秒、跟 SQS visibility timeout 上限 12 小時差很多。如果關掉 client library 的自動 lease extension、又把 ack deadline 設小、處理時間一超過就被判定失敗重投。SQS 的「設一個夠長的 timeout」直覺搬過來不適用、因為 Pub/Sub 的上限低很多、且延長機制是 client library 自動做。

修法：

理解 client library 的 lease 行為：多數 client library 預設會背景自動延長 ack deadline 到處理完、優先依賴這個而不是手動設超長 deadline
長任務拆短或改架構：單筆處理超過 10 分鐘上限的、考慮拆成多階段或把長任務移出訊息處理路徑
下游做 idempotency：跟 SQS 一樣、Pub/Sub 是 at-least-once、重投本來就會發生、下游用 message ID 去重才是根本解

Case 3：FIFO 順序需求對位到 ordering key、吞吐落差超出預期

徵兆：原系統用 SQS FIFO queue + MessageGroupId 保證同一群訊息順序處理、搬到 Pub/Sub 啟用 ordering key 對位、上線後吞吐比預期低很多、且某些情境順序仍亂。

根因：SQS FIFO 跟 Pub/Sub ordering key 都提供順序、但取捨點不同。SQS FIFO 同時給「順序」跟「5 分鐘去重窗口」、吞吐受限（每 MessageGroupId 串行）。Pub/Sub ordering key 給「同一 key 的訊息按 publish 順序送達」、但要 publish 端跟 subscription 端都正確設定（publish 要設 ordering key、subscription 要 enableMessageOrdering）、漏一邊順序就不保證；而且啟用 ordering 後同一 key 串行、吞吐同樣受限。把 FIFO 的「去重 + 順序」一包功能、誤以為 ordering key 也一包提供、是落差來源。

修法：

拆開「順序」跟「去重」兩個需求：Pub/Sub ordering key 只管順序、去重要 application 端自己用 message ID 做
publish 跟 subscription 兩端都設 ordering：缺一邊順序不保證、遷移檢查清單要把兩端都列上
重新評估是否真需要全域順序：FIFO 常被過度使用、很多場景只需要 per-entity 順序、用 ordering key 按 entity 分 key、比強制全域串行吞吐高很多

Case 4：跨雲遷移期雙雲都在跑、egress 成本與延遲被低估

徵兆：漸進 cutover 期間 AWS 跟 GCP 兩邊都在處理訊息、為了對帳把訊息在兩雲之間搬、月底帳單跨雲 egress 費用遠超預估、且跨雲呼叫的尾延遲拖慢端到端處理。

根因：SQS 在 AWS region 內、Pub/Sub 在 GCP、遷移期的 dual publish 或對帳如果讓資料反覆跨雲、每一筆出 AWS 的訊息都計 egress 費。跨雲不只是錢、跨雲網路的延遲跟抖動比同雲高、放在同步處理路徑上會放大尾延遲。同雲 vendor 切換沒有這個維度、跨雲遷移必須把它列進成本模型。

修法：

縮短雙雲並行窗口：dual publish 的對帳期越短越省、設明確的並行截止日、不要無限期雙跑
對帳用抽樣不用全量搬運：驗證一致性用抽樣比對 message ID / count、不要把所有訊息都搬到對面雲比對
生產者就近落點：遷移後讓 producer 直接 publish 到 Pub/Sub、不要繞 AWS 再跨雲、消除穩態的跨雲 egress

Case 5：dead-letter topic 權限沒配齊、毒訊息卡住不進 DLT

徵兆：subscription 設了 dead-letter topic 跟 max delivery attempt、預期重試超限的訊息進 DLT、實際上毒訊息一直在原 subscription 反覆重投、DLT 是空的、後續訊息被堵。

根因：Pub/Sub 要把訊息送進 DLT、是由 Pub/Sub 的 service account 代為 publish 到 DLT topic；同時它也要對原 subscription 有 subscriber 權限才能 ack 掉原訊息。這兩個權限漏任一個、forwarding 到 DLT 就失敗、訊息卡在原 subscription。SQS 端 DLQ 是 queue 屬性、不需要額外給 service 權限、所以這個跨雲差異容易被漏掉。

修法：

配齊 DLT 雙權限：給 Pub/Sub service account 對 DLT topic 的 publisher role、跟對原 subscription 的 subscriber role
遷移後做毒訊息演練：故意 publish 一筆會失敗的訊息、確認它真的在 max attempt 後進 DLT、不是卡在原 subscription
監控 DLT backlog：DLT 開一個 subscription 監控其 num_undelivered_messages、確認毒訊息有被導流且有人處理、對照 Mercari DLT 案例的設計

漸進 cutover：dual publish 加雙消費對帳

跨雲遷移風險高、不適合一次切換、走漸進 cutover 把可逆邊界拉長：

Phase 0：拓樸盤點 — 列出所有 SQS queue、標記哪些是單一 queue、哪些是 SNS fan-out、各自映射到 Pub/Sub 的 topic / subscription 結構
Phase 1：Pub/Sub 端建好對位資源 — 建 topic / subscription / DLT、配齊 IAM 與 service account、重建 Cloud Monitoring 告警、application 寫好 Pub/Sub consumer 但先不收流量
Phase 2：dual publish — producer 同時 publish 到 SQS 跟 Pub/Sub、兩邊 consumer 都跑、Pub/Sub 端的處理結果先寫到隔離區或標記、不影響正式下游
Phase 3：雙消費對帳 — 抽樣比對兩邊處理的訊息 ID 與數量、確認 Pub/Sub 端沒漏、沒重複到無法接受的程度、ack deadline / fan-out / ordering 行為都符合預期
Phase 4：流量切換 — 對帳通過後、把正式下游切到 Pub/Sub 端、SQS 端轉成備援、保留一段觀察期可回切
Phase 5：下線 SQS — 觀察期穩定後停掉 dual publish、移除 SQS 資源、消除穩態跨雲 egress（這是不可逆階段、不要在對帳沒過時提前做）

對帳期是這套流程的核心保險、也是 Case 4 跨雲成本的來源 — 對帳用抽樣、並行窗口設明確截止日、平衡「驗證信心」跟「雙雲成本」。

Capacity / cost 對照

維度	AWS SQS	Google Pub/Sub
計費模型	每百萬 request（含 send / receive / delete）	按 throughput（publish + subscribe 的資料量計費）
Region 模型	Region-scoped、跨 region 自己處理	Global topic、無 region 概念
扇出成本	SNS + 多 SQS、每條 queue 各計費	一個 topic 多 subscription、按各 subscription throughput
訊息保留	預設 4 天、上限 14 天	預設 7 天、可調
順序成本	FIFO queue 比 standard 貴	ordering key 啟用後吞吐受限、計費同 standard
跨雲 egress	出 AWS 計 egress	出 GCP 計 egress；穩態應讓 producer 就近 publish
監控	CloudWatch（隨用量計費）	Cloud Monitoring

判讀：穩態成本兩者量級相近、真正的成本差在 遷移期 — dual publish 雙雲並行加跨雲對帳搬運是一次性高峰、不是穩態。把這段窗口縮短、是控制跨雲遷移成本的關鍵、不是去比 SQS 跟 Pub/Sub 的單價。扇出重度的系統遷到 Pub/Sub 後、少掉 SNS 那一層、扇出的計費結構也變簡單。

整合 / 下一步

遷移後事件可直接落 GCP 資料平台

遷到 Pub/Sub 的一個結構性好處、是事件可以用 BigQuery subscription 直接寫進 BigQuery、不需要再寫 Dataflow pipeline 搬運；或用 Cloud Storage subscription 批次落 GCS。這正是「workload 重心在 GCP」這條 driver 的回報 — 事件層跟資料平台同雲、省掉跨雲搬運。這也是評估是否該跨雲遷移時、要放進 ROI 的一邊。

跟 Kafka 遷移的結構對照

篇	主導差異維度	結構
Kafka ↔ NATS	Paradigm（高）	partial + 長期混合
SQS → Pub/Sub（本篇）	Operational（高）+ components / topology（高）	operational hybrid + 高維度獨立段

結論：SQS → Pub/Sub 不是 paradigm shift（兩端都是 cloud-managed 訊息服務、可收斂成單一目標）、是 operational redesign 為主、消費抽象重設計為輔的跨雲遷移；結構由主導差異維度（operational）決定主軸、高維度（components / topology）抽獨立段補充。

RabbitMQ → Kafka：從『處理即承諾』到『寫入即承諾 + 可 replay』的 paradigm shift

Tue, 16 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 RabbitMQ 跟 Kafka。跟同類產品的 drop-in 或 operational 遷移不同、本篇是 paradigm shift — 兩端不是「同類 broker 的不同實作」、是 不同責任模型的 messaging system：RabbitMQ 是「處理即承諾」的 work queue、Kafka 是「寫入即承諾、可長期 replay」的 event log。

RabbitMQ → Kafka 不是把 queue 換成 topic

RabbitMQ 跟 Kafka 都被歸在「message queue」這個傘狀詞下、但兩者承擔的責任不同。RabbitMQ 的可靠性建立在 consumer 處理完才 ack、未 ack 的訊息 broker 重新投遞；訊息一旦被成功消費就從 queue 移除、broker 是「任務分派 + 重試」的中介。Kafka 的可靠性建立在 訊息寫進 partition log 就持久化、consumer 各自維護 offset；訊息在 retention 期內一直留著、broker 是「事件儲存 + 多方各自讀取」的 log。

把 RabbitMQ「migration」成 Kafka 的字面理解通常是：queue 對 topic、exchange 對 producer key、consumer 對 consumer group。這個對映在 transport 層成立、在責任層不成立。RabbitMQ 一個 message 被 ack 後就消失、Kafka 一個 message 寫進 log 後對所有 consumer group 都還在；RabbitMQ 的 routing 由 broker 端 exchange + binding 決定、Kafka 的「routing」由 producer 端 partition key 決定、broker 不做內容路由。先確認這層差異、再決定哪些 workload 值得遷。

6 維 diff dimension audit

跨 vendor 遷移前先盤點 source 跟 target 在六個維度的落差、用最大落差維度決定 playbook 結構、而不是反過來套既有模板。RabbitMQ → Kafka 的 audit 結果：

維度	落差	說明
Schema / API	中	AMQP client → Kafka client、wire protocol 全換、但都是 publish / consume 心智模型
Operational model	中	單 broker + management UI → multi-broker + KRaft / Schema Registry / Connect、運維資產變重
Abstraction/paradigm	高	work queue「處理即承諾、ack 後即刪」→ event log「寫入即承諾、offset replay」、責任模型整個不同
Number of components	低	兩端都是單一 messaging system、不是一站式拆多工具
Application change	高	consumer 要重設計（ack → offset commit）、producer 要重設計（exchange routing → partition key）
Data topology	高	exchange + queue + binding 的 routing 拓樸 → topic + partition + key 的 log 拓樸、資料分佈邏輯不同

三個維度 High：paradigm、application change、data topology。其中 paradigm 是主導維度 —— application change 跟 data topology 的落差都是 paradigm 落差的下游結果。consumer 要重寫，是因為「ack 後即刪」變成「offset 不刪」；資料拓樸要重劃，是因為「broker 路由到 queue」變成「producer 決定 partition」。

主導維度是 paradigm、對映 Type E paradigm shift 結構：先講「字面 migration 不成立」、再講適配度（什麼能遷什麼不能）、再講 application 重設計與部分 cutover、最後是長期混合架構。application change 跟 data topology 這兩個高維度不另起 playbook、而是落在 application 重設計段與故障演練段裡展開。

為什麼 paradigm 是主導、不是 application change

application change 看起來工作量最大（consumer / producer 都要改），直覺會把它當主導維度。但 application change 的方向跟難度是由 paradigm 決定的：如果只是 AMQP client 換 Kafka client、心智模型不變，那 application change 是機械式翻譯、屬於 Schema/API 維度。實際上 consumer 不只是換 SDK、是要把「處理完才 ack、失敗就 nack 重投」的設計改成「拉一批、處理、commit offset、失敗自己重試或寫 DLQ topic」—— 這是責任模型的改變，不是 API 的改變。所以主結構走 paradigm、application change 是它的展開。

什麼 workload 真該遷、什麼不該

Application 模式	RabbitMQ 適配	Kafka 適配	遷移可行性
任務分派（寄信 / 轉檔 / webhook）	強	中（overkill）	不該遷（保留 RabbitMQ）
複雜 routing（topic exchange + binding）	強	弱（broker 不做路由）	不該遷或要重新設計拓樸
RPC over messaging（request-reply）	強	弱（不適合）	不該遷
Event sourcing（多 consumer 各自 replay）	弱（ack 即刪）	強	該遷（這是 Kafka 的主場）
CDC / 跨系統事件總線	弱	強	該遷
高吞吐事件流 + 長期 retention	弱	強	該遷
同一事件要被多個獨立團隊各自消費	中（多 queue）	強（多 consumer group）	該遷

判讀的核心問題是：這個 workload 需要的是「處理一次就完成的任務」、還是「被多方各自讀取、可回放的事件」。

任務分派場景不該遷。寄信、轉檔、生成縮圖這類 workload 的本質是「有一個工人池、把任務做完就結束」、RabbitMQ 的 manual ack + prefetch + DLX 對這條路徑是貼合的設計。把它搬到 Kafka 會引入不需要的複雜度：partition 數要規劃、consumer group rebalance 要管、offset commit 時機要自己設計、而換來的 replay 能力在「任務做完就丟」的場景根本用不到。單純 work queue 不需要 Kafka 是這篇 playbook 最該先說清楚的判讀。

事件流場景該遷。當同一份事件要被 analytics pipeline、search index sync、audit log、下游微服務各自消費、而且各自進度不同、偶爾要回放過去 N 天重算 —— RabbitMQ 的「ack 後即刪」就會逼出「為每個 consumer 複製一份 queue」的反模式，這正是 Kafka 的 consumer group + retention 要解的問題。

複雜 routing 場景要重新設計、不是平移。RabbitMQ 的 topic exchange 用 order.*.created 這種 binding pattern 在 broker 端做內容路由、consumer 訂閱 binding 就收到符合的訊息。Kafka broker 不做內容路由，要嘛把路由邏輯前移到 producer（按內容決定寫哪個 topic / partition key），要嘛 consumer 端全收後自己 filter。直接平移會發現 Kafka 沒有 exchange 這個概念，routing 拓樸必須重新設計。

為什麼會考慮這個 paradigm shift

實務上從 RabbitMQ 評估遷往 Kafka 通常由三條 driver 觸發：

同一事件要 fan-out 給愈來愈多 consumer：初期一個 queue 一個 worker、後來下游團隊一個個來要「也給我一份」。RabbitMQ 要嘛加 fanout exchange + 每團隊一個 queue、要嘛 consumer 互搶。Kafka 的 consumer group 天然支援「N 個獨立團隊各自從頭讀」、這是最常見的 driver。
需要 replay 重算：下游邏輯出 bug、要重跑過去 7 天的事件修資料；RabbitMQ ack 後訊息已刪、無從回放。Kafka retention 期內可以從任意 offset 重讀。
吞吐量壓到 RabbitMQ 的設計邊界：單 queue 的 throughput 受限於單一 queue 的處理模型、量大時要拆 queue 手動分流；Kafka 的 partition 並行是 first-class。

這三條 driver 都指向 event streaming 的特性、不是「Kafka 普遍比較好」。任務隊列場景套不上這三條 driver、就不該被這個評估帶著走。

Migration 結構：application 重設計 + 部分 cutover + 長期混合

RabbitMQ → Kafka 不是一次性 cutover，是按 workload 拆分、漸進遷移、長期共存：

Phase 0：workload 盤點 — 把現有 queue / exchange 逐一分類「適合 Kafka（event 性質）」vs「保留 RabbitMQ（task 性質）」。盤點輸出是清單，不是「全遷」。
Phase 1：application code 重設計 — 對判定要遷的 workload，重寫 producer（exchange routing → topic + partition key）跟 consumer（manual ack → offset commit + 自管重試 / DLQ）。這是 paradigm 翻譯，不是 SDK 替換。
Phase 2：dual-write 並行 — producer 同時寫 RabbitMQ 跟 Kafka、新 consumer 從 Kafka shadow consume 驗證行為對齊、舊 consumer 持續從 RabbitMQ 消費。
Phase 3：cutover 個別 workload — shadow 驗證通過後、把該 workload 的真正消費切到 Kafka、停掉 RabbitMQ 端的對應 consumer 與 dual-write。
Phase 4：長期混合 — task 性質的 workload 永遠留在 RabbitMQ、event 性質的在 Kafka。兩者共存是終態、不是過渡。

整體不是「把 RabbitMQ 換成 Kafka」、是「把適合 event log 的部分搬到 Kafka、其餘留在 RabbitMQ」。多數環境的終態是兩者並存。

Application 重設計範例：manual ack → offset commit

RabbitMQ consumer 的核心是 每個 message 處理完顯式 ack、broker 才認定投遞成功；失敗就 nack、broker 重投或進 DLX。Kafka consumer 沒有 per-message ack 的概念、是 批次拉取、處理、commit offset；commit 的是「讀到哪了」、不是「哪幾條成功了」。

 1# RabbitMQ 端：manual ack、per-message 成敗
 2channel.basic_qos(prefetch_count=10)
 3
 4def on_message(ch, method, properties, body):
 5    try:
 6        process(body)
 7        ch.basic_ack(delivery_tag=method.delivery_tag)
 8    except Exception:
 9        # 拒絕並不重新入列、由 DLX 接住
10        ch.basic_nack(delivery_tag=method.delivery_tag, requeue=False)
11
12channel.basic_consume(queue="orders", on_message_callback=on_message)
13channel.start_consuming()

 1# Kafka 端：批次 poll、處理後 commit offset
 2consumer = KafkaConsumer(
 3    "orders",
 4    group_id="orders-worker",
 5    enable_auto_commit=False,        # 關掉 auto commit、自己控制時機
 6    auto_offset_reset="earliest",
 7    max_poll_records=10,             # 對應 RabbitMQ 的 prefetch
 8)
 9
10for batch in iter_batches(consumer):
11    for msg in batch:
12        try:
13            process(msg.value)
14        except Exception:
15            send_to_dlq_topic(msg)   # 自建 DLQ topic、Kafka broker 不提供 DLX
16    consumer.commit()                # commit 的是 offset、不是個別 message

差異的關鍵不在 API 形狀、在責任邊界：

RabbitMQ 一條失敗就 nack 一條、其餘正常 ack；Kafka commit 的是 offset 這個「水位線」、水位線以下視為已處理。失敗的單條訊息無法「跳過不 commit 但繼續往後」—— 要嘛阻塞、要嘛自己寫 DLQ topic 後讓 offset 照常前進。
RabbitMQ 重試由 broker 負責（重投 / DLX）；Kafka 重試要 application 自己設計（原地重試 / 寫 retry topic / 寫 DLQ topic）。
RabbitMQ prefetch 控制「broker 一次推幾條未 ack 的給我」；Kafka max.poll.records 控制「我一次 poll 拉幾條」—— 方向相反，一個是 broker push、一個是 consumer pull。

Production 故障演練

Case 1：manual ack 觀念帶到 offset commit、誤判「已處理」

徵兆：cutover 後某 worker crash 重啟、發現一批訊息被重複處理；或反過來、一批訊息明明沒處理成功卻再也讀不到。RabbitMQ 端跑了多年的 ack 邏輯搬過來就出事。

根因：把 RabbitMQ 的「per-message ack」心智直接套到 Kafka 的 offset commit。常見錯法是 enable.auto.commit=true + 預設 auto.commit.interval.ms、消費迴圈還沒處理完、背景 thread 已經把 offset commit 出去了 —— crash 後 offset 已前進、未處理的訊息永遠跳過（資料遺失）。或反過來、處理完才 commit 但 commit 失敗、重啟後從舊 offset 重讀（重複處理）。RabbitMQ 的 ack 是「這一條我處理完了」、Kafka 的 commit 是「這個 offset 之前我都讀過了」—— 後者是水位線、不是逐條確認。

修法：

關掉 auto commit、手動 commit：enable.auto.commit=false、在一批訊息確實處理完之後才 commit()。
接受 at-least-once、設計 idempotency：Kafka 的預設語意是 at-least-once、重啟重讀無法完全避免、consumer 端要用 message key + dedup store 顯式去重。對應 6.12 idempotency / replay。
commit 時機對齊處理邊界：批次處理完才 commit、不要一邊處理一邊讓背景 commit 跑在前面。

Case 2：routing key → partition key、ordering 邊界悄悄改變

徵兆：cutover 後同一個訂單的 created / paid / shipped 事件偶爾亂序到達 consumer；RabbitMQ 端用 consistent hash exchange 跑了兩年、同一訂單的事件一直是有序的。

根因：RabbitMQ 用 consistent hash exchange 把同 key 的訊息路由到同一個 queue、單一 consumer 順序處理就有序。Kafka 的 ordering 保證範圍是 單一 partition 內、跨 partition 無序。如果 producer 沒設 partition key、或設了但 key 選得不對（例如用 event type 當 key 而不是 order id）、同一訂單的事件就散到不同 partition、被不同 consumer 並行處理、ordering 就斷了。RabbitMQ 的 ordering 邊界是「queue」、Kafka 的 ordering 邊界是「partition key」—— 邊界從 broker 端的 binding 移到了 producer 端的 key 選擇。

修法：

ordering 單位當 partition key：需要保序的單位（order id / user id）設成 partition key、同 key 落同 partition。
盤點現有 RabbitMQ 的保序假設：哪些 queue 隱含「同 key 有序」、把那個 key 顯式提升為 Kafka partition key。
接受 partition 數限制並行：保序的代價是同 key 只能單一 partition、partition 數是並行上限；保序需求跟並行度需要一起設計。對應 Partition 卡。

Case 3：DLX → 自建 DLQ topic、毒訊息卡住整個 partition

徵兆：某條訊息 application 處理永遠拋例外、consumer 不斷在這條上重試、整個 partition 後面的訊息全卡住、consumer lag 暴增；RabbitMQ 端這種毒訊息會被 nack 進 DLX、不影響後面。

根因：RabbitMQ 有原生 DLX、處理失敗的訊息 nack 後自動進 dead-letter exchange、queue 繼續往下。Kafka broker 沒有 DLX 概念、也沒有「跳過這一條」的機制 —— offset 是連續水位線、要往後就得處理掉當前這條。如果 application 在毒訊息上無限重試、offset 永遠不前進、後面所有訊息餓死。把 RabbitMQ「broker 幫我處理毒訊息」的假設帶過來、就會卡死。

修法：

自建 DLQ topic：consumer 端設重試上限、超過上限把訊息寫進專屬的 orders.DLQ topic、然後 commit offset 讓主流程前進。對應 Dead-letter queue 卡。
retry topic 分層：仿 RabbitMQ 的延遲重試、可以設 orders.retry.5s / orders.retry.1m 多層 retry topic、由獨立 consumer 延遲後重投主 topic。
DLQ 要有人看：自建 DLQ topic 不像 RabbitMQ management UI 有現成可視化、要主動監控 DLQ topic 的訊息數、否則毒訊息靜默堆積。

Case 4：prefetch → max.poll.records，poll 間隔超時觸發 rebalance

徵兆：consumer 處理一批訊息花的時間偏長、Kafka 突然判定這個 consumer 死了、觸發 rebalance、partition 被重新分配、同一批訊息被另一個 consumer 重複處理；RabbitMQ 端用 prefetch 控制併發從沒這問題。

根因：RabbitMQ prefetch 只控制「broker 一次最多推幾條未 ack 給這個 consumer」、處理多久 broker 不管。Kafka 用 max.poll.interval.ms 監控「兩次 poll 之間最多隔多久」、如果一批 max.poll.records 拉太多、處理超過 max.poll.interval.ms 還沒回來 poll、broker 認定 consumer 卡死、踢出 group 觸發 rebalance。把 prefetch 的數值直接套成 max.poll.records、又沒考慮單批處理時間、就會超時。

修法：

max.poll.records 配合單條處理時間設：一批的總處理時間要明顯小於 max.poll.interval.ms；處理慢就把 batch 設小。
長處理 workload 調大 max.poll.interval.ms：單條本來就慢（呼叫外部 API）的、把 interval 放寬、或把處理移到另一個 thread pool、poll 迴圈只負責拉取。
理解 push vs pull 的差異：RabbitMQ 是 broker push、consumer 慢只是堆積；Kafka 是 consumer pull、consumer 慢會被誤判為死亡。這層差異是 prefetch 跟 max.poll.records 不能直接對映的根因。對應 Consumer group 卡。

Case 5：RabbitMQ 即刪 vs Kafka retention、replay 行為差異炸出資料量

徵兆：團隊以為 Kafka「跟 RabbitMQ 一樣處理完就沒了」、結果 disk 持續長大；或反過來、需要 replay 時才發現 retention 設太短、要回放的事件已經被清掉。RabbitMQ 心智下「訊息消費完就不佔空間」的假設不成立。

根因：RabbitMQ ack 後訊息即刪、queue 的空間隨消費釋放。Kafka 寫進 log 後在 retention 期內一直留著、不管有沒有被消費 —— 這正是 replay 能力的來源、也是 disk 成本的來源。沒設好 retention，要嘛留太久 disk 爆、要嘛留太短該 replay 時沒得 replay。RabbitMQ 沒有「retention」這個旋鈕（它是 ack 即刪），Kafka 必須顯式設 retention policy。

修法：

按 replay 需求設 retention：event sourcing 要回放幾天就設幾天的 retention.ms、不是抄 RabbitMQ 的「處理完即刪」心智。
算清 retention 的 disk 成本：retention × 寫入速率 = 佔用空間、納入容量規劃；對比 RabbitMQ 只佔「未消費」的量、Kafka 佔「retention 期內全部」的量。
compact topic 給狀態類資料：如果只需要「每個 key 最新值」（像 RabbitMQ 不存在的場景）、用 cleanup.policy=compact 而非 time-based delete、避免無限長大。對應 Topic 卡的 retention policy。

漸進 cutover：dual-write 與 shadow consume

paradigm shift 不能一次切換、因為 consumer 行為（offset 語意、ordering、DLQ、重試）全變了、需要在真實流量下驗證新 consumer 跟舊 consumer 結果一致才敢切。漸進 cutover 用兩個機制：

dual-write：producer 同時往 RabbitMQ 跟 Kafka 寫同一份事件。RabbitMQ 端維持舊 consumer 正常生產、Kafka 端讓新 consumer 接收。dual-write 期間 RabbitMQ 仍是 source of truth、Kafka 只是並行驗證。要處理的細節是雙寫的一致性 —— 寫了 RabbitMQ 但 Kafka 寫失敗時怎麼辦、實務上通常容忍 Kafka 端短期缺漏（因為還沒切過去）、但要監控雙端的訊息數落差。

shadow consume：新的 Kafka consumer 跑完整處理邏輯、但 side effect 導到影子環境（寫影子 DB、不發真實 webhook、不寄真實信）。把 Kafka consumer 的處理結果跟 RabbitMQ consumer 的真實結果比對、確認 ordering、去重、DLQ 行為都對齊。shadow 期是 paradigm 翻譯正確性的驗證窗口、不是效能測試。

cutover 是 per-workload 的：某個 workload shadow 驗證通過、就把它的真實消費切到 Kafka、停掉該 workload 的 RabbitMQ consumer 與 dual-write；其他 workload 維持原狀繼續驗證。不是全站一次切。

Capacity / cost 對照

維度	RabbitMQ（self-managed）	Kafka（self-managed）
Cluster baseline	1-3 node（含 management plugin）	3-5 broker + KRaft controller
RAM / node baseline	4-16GB	16-64GB
Storage 模型	未消費訊息量（ack 即刪）	retention 期內全部訊息（與消費無關）
Operational FTE	0.2-0.5 FTE	0.5-2 FTE
額外運維元件	通常無	Schema Registry / Connect / 監控 lag
Throughput / node	數萬到數十萬 msg/s	100K-1M+ msg/s
Replay 能力	無（ack 即刪）	retention 期內任意 offset
複雜 routing	強（exchange + binding）	弱（producer 端決定、broker 不路由）
學習與運維成本	低	高（partition / offset / rebalance 都要懂）

判讀：純 work queue 場景 RabbitMQ 的運維成本顯著低、Kafka 的 storage 跟運維是為了 replay 與高吞吐付的價。如果 workload 用不到 replay 跟跨 consumer group fan-out、遷到 Kafka 是用更高的成本換用不到的能力。

整合 / 下一步

混合架構是 long-term default

多數環境的終態是 RabbitMQ 與 Kafka 共存、各管各的責任：

1[task 分派：寄信 / 轉檔 / webhook]        [event log：CDC / 事件總線 / replay]
2         RabbitMQ                                    Kafka
3         │                                            │
4         └──────── Bridge（Connect source / 自寫）────┘

RabbitMQ 跑「處理即承諾」的任務隊列、Kafka 跑「寫入即承諾」的事件流。需要從任務流產生事件記錄時、用 Kafka Connect 的 RabbitMQ source connector 或自寫 bridge 把選定的訊息搬到 Kafka topic。

跟 outbox pattern 對位

從 RabbitMQ 遷往 Kafka 常伴隨 資料庫交易與事件發布一致性 的需求 —— 因為 event sourcing 場景要求事件不能丟。直接在交易中寫 Kafka 有雙寫一致性問題、應該走 3.3 outbox pattern：交易內只寫 outbox 表、再由 Debezium CDC 把 outbox 變更發到 Kafka topic。

跟其他 migration 結構的對照

篇	Schema 差	Operational 差	Paradigm 差	結構
Kafka ↔ NATS	中	中	高	partial + 混合
RabbitMQ → Kafka（本篇）	中	中	高	partial + 混合

兩篇都是 paradigm shift、都是 partial migration + 長期混合。差別在落差的方向：Kafka ↔ NATS 是 log vs subject messaging 的抽象層差異、RabbitMQ → Kafka 是 work queue vs event log 的責任模型差異 —— 後者的核心翻譯是「處理即承諾」如何重新表達成「寫入即承諾 + offset replay」。

Redis → Valkey：同一份程式碼、不同授權的 drop-in 遷移

Tue, 16 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 Redis（source）跟 Valkey（target）。跑 6 維 diff dimension audit 後判定為 Type B drop-in（全維度 Low），結構走 6-section + 相容性 audit 前置。實機驗證於 valkey/valkey:8（valkey_version 8.1.8、redis_version 7.2.4）、最後檢查日 2026-06-16。

同一份程式碼、不同授權

多數 migration 的工作量在「source 跟 target 不一樣」——schema 要翻譯、API 要改、資料要轉。Redis → Valkey 幾乎沒有這個問題：Valkey 是 2024 年從 Redis 7.2.4 直接 fork 出來的，那一刻它跟 Redis 是 bit-for-bit 同一份程式碼。RDB 與 AOF 檔案格式相同（可以直接把 Redis 的資料目錄拷給 Valkey 載入）、RESP 協定相同、所有 Redis client library 不改一行就能連。技術上，這是 cache 領域最容易的遷移。

那為什麼要寫一篇 playbook？因為這個遷移的工作量不在資料層，在兩個別的地方。第一是授權——Redis 2024 改成 RSALv2 / SSPL（非 OSI 認可），Valkey 是 BSD 3-clause（OSI、Linux Foundation 治理），這個遷移的整個 driver 是授權合規，而合規驗證有它自己的流程。第二是fork 後的分歧——fork 那一刻兩者相同，但之後各自演進：Redis 加了 7.4+ 的新功能、Valkey 加了自己的（如 8.x 多執行緒），用到 fork 之後 Redis 新功能的部署會有相容缺口。

INFO server 上看得到這個「同源但分歧」的事實：

1valkey-cli INFO server | grep -E "redis_version|valkey_version"
2# redis_version:7.2.4    ← fork 點、client 以此判斷相容性（裝成 Redis 7.2.4）
3# valkey_version:8.1.8   ← Valkey 自己的演進線

redis_version:7.2.4 是相容性的保證（client 看到就以 Redis 7.2.4 行為運作）；valkey_version 是分歧的證據。這篇 playbook 處理的就是「資料層幾乎零工作、工作在授權與分歧盤點」的 drop-in 遷移。

6 維 diff dimension audit：為什麼是 Type B

跑 diff dimension audit，Redis → Valkey 全維度 Low：

維度	評估	等級
Schema / API	同 Redis 7.2.4（fork 同源）、RESP 協定一致	Low
Operational model	同 redis.conf、同監控指標、同 CLI 命令	Low
Abstraction / paradigm	完全相同（同一份 code base 演進）	Low
Number of components	1 → 1（單服務換單服務）	Low
Application change	零（所有 Redis client library 直接相容）	Low
Data topology	RDB / AOF 檔案相容、可直接拷資料目錄	Low

全 Low → Type B drop-in（6-section + 相容性 audit 前置、週期 1-4 週）。跟同模組的 Redis → DragonflyDB 對照：DragonflyDB 是 C++ 重寫（drop-in 但 Lua / encoding / module 有差異），Valkey 是 fork（同源、連 RDB 檔都相容）——Valkey 的相容度比 DragonflyDB 更高，是 Type B 裡最純粹的一端。

這個遷移的特殊之處是 driver 在資料層之外：它是授權 / 合規驅動。依 migration 方法論的漏類處理，政策 / 合規驅動的遷移資料層仍走 Type B，但 audit 重點多一塊授權驗證與證據收集。

相容性 audit：cutover 前要確認的清單

Valkey 號稱 100% 相容 Redis 7.2.4，但「100%」的邊界在 fork 之後的分歧。Pre-migration 必跑的 audit：

Redis feature	Valkey 相容程度	Action
Core data types / commands / RESP	完全相容（fork 自 7.2.4）	無需處理
RDB / AOF 檔案格式	完全相容（可直接拷資料目錄）	無需轉檔
Eviction / persistence / pub-sub	完全相容	無需處理
Client libraries	完全相容（透過 redis_version 協商）	無需改 code
Cluster / Sentinel	完全相容（同 Redis 模型）	無需處理
Redis 7.4+ 新功能（fork 後新增）	Valkey 不一定跟進	盤點是否用到、確認 Valkey 對應
Redis Stack 商業 module（JSON/Search）	不相容（Valkey 有 valkey-search / valkey-bloom）	盤點 module 使用、確認替代或改寫
RedisInsight 等 Redis Inc 監控工具	部分 vendor-specific 命令缺	改通用工具（valkey-cli / redis_exporter）

audit 的關鍵 output：兩份清單——(1) 用到的 Redis 7.4+ 功能（fork 後新增、Valkey 可能沒有）、(2) 載入的 Redis Stack module。這兩塊是僅有的相容風險，其餘資料層零工作。盤點方法：

1# 盤點載入的 module（最大相容風險）
2redis-cli MODULE LIST
3
4# 盤點是否用到 7.4+ 功能（抓 production traffic 對照 Redis 7.4 changelog）
5redis-cli MONITOR    # 限時抓樣、grep 可疑的新命令

Step-by-step cutover

因為 RDB 檔案相容，cutover 比 DragonflyDB 更簡單（無版本轉換風險）：

 1# 1. 部署 Valkey（同 Redis 配置、可直接沿用 redis.conf）
 2docker run -d --name valkey -p 6380:6379 \
 3  -v /data/valkey:/data \
 4  valkey/valkey:8 valkey-server /etc/valkey/valkey.conf
 5
 6# 2. Redis 端 BGSAVE 產生 RDB
 7redis-cli -h redis-primary BGSAVE
 8redis-cli -h redis-primary INFO Persistence | grep rdb_last_save_time
 9
10# 3. 把 dump.rdb 拷給 Valkey（檔案格式相容、無需轉換）
11scp redis-primary:/var/lib/redis/dump.rdb valkey-host:/data/valkey/
12
13# 4. 重啟 Valkey 載入 RDB
14docker restart valkey
15
16# 5. 驗證資料一致 + 版本
17valkey-cli -h valkey-host -p 6380 DBSIZE          # 對齊 Redis DBSIZE
18valkey-cli -h valkey-host -p 6380 INFO server | grep redis_version  # 7.2.4
19
20# 6. 替代方案（零停機）：用 replicaof 讓 Valkey 當 Redis 的 replica、即時同步後 promote
21#    valkey-cli -h valkey-host REPLICAOF redis-primary 6379
22#    重要邊界：此路徑只在 source 是 Redis 7.2 或更早版本時成立。
23#    Redis 7.4+（Community Edition）改了複製格式、Valkey 無法當其 replica
24#    → source 為 7.4+ 時改走上面的 RDB 拷貝路徑（步驟 2-4）。
25
26# 7. Cutover：client 配置切到 Valkey endpoint、Redis 留 standby

關鍵時間點：

RDB 拷貝 + load：100GB 約 5-15 分鐘（無版本轉換、比 DragonflyDB 少一道風險）
replicaof 路徑：要零停機可讓 Valkey 當 Redis replica 即時同步、確認 lag 趨零後 promote + 切 client（僅限 source 為 Redis 7.2 或更早；7.4+ 複製格式已分歧、不適用、改走 RDB 拷貝）
Cutover：client 配置切換（單次完成、硬邊界）、Redis 留 standby 1-2 週
Decom：無相容問題後關閉 Redis

Production 故障演練

Case 1：用到 Redis 7.4+ 功能、Valkey 沒有

徵兆：cutover 後某功能報 unknown command 或行為不同，命令是 Redis 在 7.4 之後（fork 點之後）才加的。

根因：Valkey fork 自 Redis 7.2.4，Redis 7.4+ 新增的功能 Valkey 不一定跟進。pre-migration audit 漏掉了這些 fork 後的新功能。

修法：

pre-migration 對照 Redis 7.4+ changelog 盤點用到的新功能（audit 清單第一項）
Valkey 有對應就確認版本、沒有就評估改寫或留在 Redis 商業版
多數標準 cache 用法不碰 7.4+ 新功能，這個風險集中在用了較新進階功能的部署
Valkey 自己的 roadmap（valkey.io）會逐步補上 Redis 新功能，可追蹤

Case 2：載入了 Redis Stack 商業 module

徵兆：cutover 後 JSON.SET / FT.SEARCH 報 unknown command，application 部分功能失效。

根因：用了 Redis Stack 的商業 module（RedisJSON / RedisSearch），這些不在 fork 範圍。Valkey 有自己的 valkey-search / valkey-bloom，但不是同一套命令、要另外安裝。

修法：

pre-migration MODULE LIST 盤點所有載入的 module（audit 清單第二項）
確認 Valkey 對應替代（valkey-search 對 RedisSearch）、確認命令相容度
沒有對應的評估改 module-free 設計（JSON 操作拉回 application 層）或留在 Redis Inc 商業版
對應 Valkey 相容性 deep article 的三層相容邊界

Case 3：以為換 Valkey 解決了記憶體 / fork 問題

徵兆：因為 Redis 的 OOM 或 fork 延遲尖峰而遷 Valkey，遷完發現同樣問題還在。

根因：Valkey fork 自 Redis 7.2.4，繼承了完全相同的記憶體模型、eviction 演算法、AOF/RDB fork 機制。這些行為在 Valkey 上一模一樣——遷移沒有改變它們。

修法：

記憶體 / fork 調校在 Valkey 上跟 Redis 完全相同，直接套用 Redis 記憶體調校與 persistence / fork latency
遷 Valkey 的理由應是授權合規 / 多執行緒吞吐 / managed 成本，不是記憶體問題
fork 尖峰要根治走 DragonflyDB 的 fork-less，不是換 Valkey
遷移前釐清痛點是授權（Valkey 解）還是架構（Valkey 不解）

Case 4：授權合規驗證沒做完整、合規卡關

徵兆：技術遷移完成、但法務 / 合規 review 要求證明「不再使用 RSALv2 / SSPL 授權的軟體」，缺少證據。

根因：這個遷移的 driver 是授權合規，但團隊只做了技術 cutover、沒收集合規證據。Redis 的 binary / image / 相依套件若還殘留在某些環境，合規目標沒真正達成。

修法：

盤點所有環境（dev / staging / prod / CI）的 Redis binary / image / 相依，確認全部換成 Valkey
收集合規證據：image SBOM、套件清單、部署 manifest 顯示 Valkey BSD 授權
把「不再使用非 OSI 授權 cache」寫成可驗證的 CI 檢查（掃 image / 依賴）
依 migration 方法論的合規驅動漏類，audit 重點就是 evidence collection

Case 5：監控 dashboard 部分指標斷掉

徵兆：cutover 後 RedisInsight 或某監控 dashboard 部分面板空白、vendor-specific 命令回錯。

根因：RedisInsight 等 Redis Inc 工具有部分偏商業版的命令，Valkey 不一定實作。核心指標通用，但進階面板可能缺。

修法：

監控改用通用工具：valkey-cli INFO、Prometheus + redis_exporter（相容 Valkey）、Grafana
核心指標（used_memory / keyspace_hits / connected_clients）在 Valkey 完全相容、覆蓋不受影響
把監控相容性納入 cutover 前驗證、不要遷完才發現面板空白
RedisInsight 連 Valkey 多數仍可用、只是部分 vendor 進階面板缺

Capacity / cost 對照

維度	Redis（self-managed）	Valkey（self-managed）	取捨
授權	RSALv2 / SSPL（非 OSI）	BSD 3-clause（OSI、Linux Foundation）	Valkey 對合規敏感場景是決定性優勢
核心效能	baseline	同 Redis 7.2.4 + 8.x 多執行緒選項	Valkey 多核 workload 可更高（依 workload）
相容度	原生	100%（fork、檔案相容）	平手（同源）
記憶體 / fork	baseline	完全相同（同源）	平手（遷移不改變這層）
7.4+ 新功能	有	不一定跟進	Redis 領先（用到才在意）
Redis Stack module	RedisJSON / Search / Graph	valkey-search / valkey-bloom（不同套）	Redis 商業 module 較全
managed 選項	ElastiCache for Redis（legacy）	ElastiCache for Valkey（AWS default、約低 20%）	Valkey 在 AWS 生態成本優勢
遷移成本	—	極低（drop-in + 檔案相容）	Valkey 是最容易的遷移目標

判讀：合規敏感（公部門 / 企業 OSI 政策）或想降 managed 成本 → 遷 Valkey（drop-in、風險集中在 module / 7.4+ 盤點）；重度依賴 Redis Stack 商業 module → 留 Redis Inc 商業版。

整合 / 下一步

跟 ElastiCache for Valkey 對位

AWS 已把 ElastiCache default engine 設為 Valkey（約低 Redis 20%）。自管 Redis → ElastiCache for Valkey 是「換授權 + 轉 managed」一次到位，但要同時處理 managed 責任邊界（failover / cluster mode / client 重連）。

跟 client / 監控整合

client library 零改（透過 redis_version 協商）；監控把 exporter 指向 Valkey 即可（redis_exporter 相容）、RedisInsight 部分面板需換通用工具。

跟 Valkey 8 多執行緒對位

遷移後可評估開 Valkey 8 的 io-threads 榨多核吞吐（Redis 7.2.4 沒有的能力），見 Valkey 相容性與 io-threads deep article。

下一步議題

反向遷移（Valkey → Redis）：僅在重度依賴 Redis 7.4+ 功能或 Stack 商業 module 時需要、同樣 drop-in
跨雲 managed Valkey：GCP Memorystore / Azure Cache 的 Valkey 支援陸續推出、評估 vendor boundary
授權合規 CI 化：把「不使用非 OSI 授權 cache」寫成持續檢查

Redis Streams → Kafka：從 embedded stream 長成 dedicated event streaming

Tue, 16 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 Redis Streams 跟 Kafka。對位 Kafka ↔ NATS 的 paradigm shift 模板 — 兩端不是同類產品的不同實作、是不同抽象層的系統：一個是 Redis 行程內的 append-only log data structure、一個是專用的 distributed event streaming platform。

Redis Streams 跟 Kafka 是不同抽象層的東西

Redis Streams 是 Redis 行程內的一個 data structure、Kafka 是一整套獨立的 distributed event streaming platform。這個區別決定整趟遷移的性質：要把 messaging 能力從「既有 Redis 行程的一塊記憶體」搬到「自成一格、要獨立運維的多節點叢集」，遠超過換個相容 broker 的工作量。

Redis Streams 的責任邊界是「在已經跑著的 Redis 裡多一個 append-only log」。它共用 Redis 的記憶體、持久化（AOF / RDB）、failover（Sentinel / Cluster）跟運維團隊。寫入用 XADD、消費用 XREADGROUP，consumer group 跟 pending entries list（PEL）都活在同一個 Redis 行程。它的設計取捨偏向「低延遲、低運維增量、跟 Redis 生命週期綁定」。

Kafka 的責任邊界是「成為跨系統的事件總線」。它把訊息寫成 partition 化的 log、落在獨立 broker 的磁碟、用 replication 保護、用 consumer group offset 追蹤各 consumer 進度，可長期保留並隨意 replay。它的設計取捨偏向「寫入即承諾、磁碟級長期保留、多 consumer 各自重播、水平擴展吞吐」。

維度	Redis Streams	Kafka
部署形態	Redis 行程內的 data structure	獨立 broker 叢集（3-5 broker + KRaft）
儲存後端	RAM-bound（受 `maxmemory` 限制）	Broker 本地磁碟（可加 tiered storage to S3）
拓樸單位	單一 stream key（綁單一 shard）	Topic + 多 partition（跨 broker 分布）
Retention 機制	`MAXLEN` / `MINID`、application 主動 trim	Broker 端 retention policy（time / size）
消費進度	PEL + `XACK`（broker 維護待 ack 集合）	Consumer offset commit（per partition）
失敗接管	`XCLAIM` / `XAUTOCLAIM`（手動 / 半自動）	Rebalance protocol（broker 協調自動分配）
Replay	從 entry ID 重讀（受 retention 內資料限制）	從任意 offset 重讀（受磁碟 retention 限制）
延遲	亞毫秒（記憶體操作）	5-50ms
運維增量	近乎零（沿用 Redis）	顯著（多養一套叢集 + schema / connect 生態）

關鍵在「拓樸單位」這列。Redis Streams 的一個 stream key 只能落在單一 shard、沒有 partition 概念，吞吐與資料量受單 shard 的記憶體與單執行緒處理能力封頂。Kafka 的 topic 天然切成多 partition、分散到多 broker，這是兩者在規模上的分水嶺，也是後面所有對位與故障演練的根。

先確認是不是真的該遷：多數中小規模不該遷

決定遷移前先做反向確認：在中小規模、且團隊已熟 Redis 的情境，Redis Streams 往往已經夠用，把它換成 Kafka 多半是引入運維負擔而非解決問題。遷移的正當理由來自規模或保留需求真的超出 Redis Streams 的能力邊界，而不是 Kafka 更主流。

Arcjet 的方向恰好相反、值得當反向參照。Arcjet 的 security / bot detection 平台需要低延遲請求處理，原本評估 Kafka，發現 managed Kafka 要六位數美元年費、自管運維難度也高；他們把既有的 Redis cache 層升級成 Streams，總成本掉到約一千美元年費。代價是 Redis Streams 沒有自動 retention，他們自寫一個 Janitor process，依約每分鐘一百則的實際處理速度監測 stream 長度跟 consumer group 狀態、selectively trim。

Arcjet 的判讀對遷移方向的啟示：當 workload 是低延遲、資料量留在記憶體可承受的範圍、團隊本來就在跑 Redis，Redis Streams 是務實且便宜的選擇；願意自寫 retention 工具就能補上它缺的治理能力。這條路成立時，遷去 Kafka 是用六位數年費跟一整套叢集運維，去換一個現有方案已能覆蓋的需求。

Bitso 是另一個 Redis Streams 站得住的高壓案例。Bitso 的撮合引擎微服務要扛每秒上千則訊息、亞毫秒延遲、撐住 BTC 價格暴動的尖峰；他們先後評估 Kafka（延遲不符）跟 SQS（vendor lock-in + 延遲）後選 Redis Streams，自建一層 Reliable Streams 抽象封裝 PEL + retry + DLQ，走 idempotent processing 接受重複勝過遺失。Bitso 揭露 Redis Streams 是「資料結構」而非「broker 系統」，可靠性責任在 application 層；但在亞毫秒延遲是硬指標的撮合場景，這個取捨反而讓 Redis Streams 勝過 Kafka。

兩個案例共同點：當延遲是硬指標、資料量在 RAM 可承受範圍、團隊能自建缺的治理層，Redis Streams 就站得住。遷去 Kafka 的決策該建立在這些前提不再成立之上，而不是建立在 Kafka 更有名之上。

真正該遷的訊號

決定遷移的依據是 Redis Streams 的三個能力邊界被實際 workload 突破：retention 需求超出 RAM 的成本曲線、需要長期 replay、consumer group 或 partition 規模超出單一 Redis 行程。三個訊號中任一個被觸發、且自建工具補不回來時，遷去 Kafka 才划算。

第一個訊號是 retention 超出 RAM 的成本翻轉。Redis Streams 的資料活在記憶體，保留越久、stream 越長、佔的 RAM 越多，而 RAM 是 Redis 叢集裡最貴的資源。當 retention 需求從「幾小時的緩衝」長到「數天到數週的事件保留」，把這些資料留在 RAM 的成本會快速超過 Kafka 把同樣資料留在 broker 磁碟（甚至 tiered storage 到 S3）的成本。Learning.com 退場案例就是這條線被突破的反例 — 把 Redis 當長期事件儲存（Stream 是其中一塊），事件量每週以 GB 成長、AOF fsync 與 EBS I/O 變成 latency 痛點，最終退回 PostgreSQL。成本曲線翻轉是最常見、也最該觸發遷移的訊號。

第二個訊號是需要長期 replay。事件溯源（event sourcing）或合規稽核場景，需要保留並重播數週、數月甚至數年的歷史事件。Redis Streams 的 replay 只能重讀 retention 內還在的資料，而 retention 受 RAM 限制無法拉得很長；Kafka 的磁碟保留加 tiered storage 讓長期 replay 變成 first-class 能力。當 replay 視窗的需求超出 RAM 能承受的 retention，這個訊號成立。

第三個訊號是 consumer group 或 partition 規模超出單一 Redis。Redis Streams 的單一 stream key 綁在單一 shard，吞吐受單 shard 封頂、沒有 partition 可以水平拆分並行度；要跨 shard 只能手動用 hash tag 切成多個獨立 stream，application 自己路由。當單一邏輯 stream 的吞吐需求、或 consumer 並行度需求超過單 shard 能給的，且手動切 stream 的複雜度已經失控，Kafka 的原生 partition 才值得換。

這三個訊號之外，還有一個放大條件：是否需要 Kafka 生態（Schema Registry、Connect / Debezium CDC、Streams 流處理）。如果遷移同時要接上 CDC pipeline 或 schema 強制治理，那 Kafka 帶來的不只是 retention 跟 partition、而是整套生態，這會讓遷移的價值天平更傾向 Kafka。但若只是想要更長 retention、生態用不到，先評估 Redis tiered 方案或自建 Janitor 是否更便宜。

概念對位：XADD/XREADGROUP/XACK/MAXLEN/XCLAIM

遷移的核心工作是把 Redis Streams 的五個核心操作對應到 Kafka 的等價概念、並理解每個對位背後語意的偏移，這比換 SDK 重得多。直接照字面搬會在 retention、消費進度、失敗接管三處踩雷，這三處正是後面故障演練的來源。

Redis Streams 操作	Kafka 等價	語意偏移
`XADD stream * field val`	`producer.send(topic, key, val)`	Kafka 用 key 決定 partition、Redis 單 stream 無 partition
`XREADGROUP GROUP g c`	consumer group + `poll()`	Kafka rebalance 自動分配 partition、Redis 要手動 `XCLAIM`
`XACK stream g id`	offset commit	PEL 是逐則待 ack 集合、offset 是單調位移、語意不同
`MAXLEN` / `MINID` / `XTRIM`	retention policy（time / size）	application 主動 trim → broker 端被動 retention
`XCLAIM` / `XAUTOCLAIM`	rebalance protocol	手動 / 半自動接管 → broker 協調自動 reassign

XADD 對 producer.send 的最大偏移是 partition key。Redis 的單一 stream key 沒有 partition，所有 entry 都在同一條序列上嚴格有序；Kafka 把訊息依 key 雜湊分到不同 partition，只有同一 partition 內保證有序。遷移時要決定哪個欄位當 partition key、這個決定同時決定了 ordering 的範圍跟 hot partition 的風險。

XREADGROUP 對 consumer group 的偏移在 rebalance。Redis consumer group 沒有自動 rebalance，consumer 掛掉後它名下未 ack 的訊息留在 PEL，要靠其他 consumer 主動 XCLAIM 接管；Kafka 的 consumer group 有 rebalance protocol，consumer 加入或離開時 broker 自動把 partition 重新分配。從手動接管搬到自動 rebalance，application 端負責接管的那段邏輯可以刪掉、但要改成理解 rebalance 行為。

XACK 對 offset commit 是最容易誤用的一處，獨立成下一節的故障演練。MAXLEN 對 retention policy 是成本模型翻轉的核心，也獨立成故障演練。

Production 故障演練

Case 1：Retention 模型從 RAM 限制翻成 log 成本，磁碟與成本失準

徵兆：團隊把 Redis Streams 的 MAXLEN 100000（保留最近十萬則、控制 RAM）習慣直接對映成 Kafka 的某個數字，結果 cutover 後不是 broker 磁碟暴漲超出預期、就是資料保留遠短於業務需要、replay 視窗對不上。

根因：Redis Streams 的 MAXLEN 是 application 在每次 XADD 主動修剪的「條數上限」，目的是壓住 RAM 佔用，是一個 count-based 的記憶體預算旋鈕。Kafka 的 retention 是 broker 端被動執行的 policy、預設是 time-based（retention.ms）或 size-based（retention.bytes），目的是控制磁碟保留窗，而磁碟比 RAM 便宜一到兩個數量級。兩者的單位、執行主體、成本曲線都不同 — 把「保留十萬則以省 RAM」直接搬成 Kafka 設定，會錯估磁碟用量，也會把 Redis 時代「為了省 RAM 而被迫短保留」的限制錯誤地帶進一個本來就能長保留的系統。

修法：

從業務需求重算 retention、不沿用 Redis 的 RAM 預算：Redis 的 MAXLEN 數字是 RAM 成本的妥協、不是業務的真實保留需求；遷移時回到「業務需要 replay 多久」重新算 retention.ms，這正是遷移要解鎖的能力。
改用 time-based 為主、size-based 當保險絲：Kafka 設 retention.ms 對齊業務 replay 窗、再設 retention.bytes 防單 partition 磁碟失控。
長保留接 tiered storage：retention 需求拉到數週數月時，把冷資料分層到 S3、熱資料留本地磁碟，成本曲線進一步壓平，而這在 Redis 的 RAM 模型下做不到。

Case 2：PEL 觀念被帶進 offset，造成重複或漏消費

徵兆：遷移後 consumer 出現「明明處理過的訊息又被重新消費」或「某些訊息整批沒被處理」；團隊照 Redis 時代「逐則 XACK」的心智模型管理 Kafka offset commit，結果對不上。

根因：PEL 跟 offset 是兩個不同的進度模型。Redis Streams 的 PEL 是 broker 維護的「逐則待 ack 集合」，每則訊息獨立追蹤是否已 ack，consumer 可以亂序 ack 某幾則、其他留在 PEL；XACK 是針對特定 entry ID 的點狀確認。Kafka 的 offset 是 per partition 的單調位移、代表「這個位置之前都算消費完」，commit offset N 意味著 0 到 N-1 全部視為已處理。把 PEL 的逐則語意套到 offset 上會出兩種錯：一是處理完亂序的訊息後 commit 了較大的 offset，中間沒處理完的訊息被當成已消費而漏掉；二是 commit 時機錯置（auto-commit 在處理前就 commit），crash 後從錯誤位置重讀造成重複。

修法：

理解 offset 是區間承諾、不是逐則確認：commit offset 前確保該 offset 之前的訊息都已處理完、不要對亂序處理的批次 commit 最大 offset。
關 auto-commit、改 manual commit 在處理之後：enable.auto.commit=false，處理完一批再 commit，對齊 at-least-once。
保留 application 端 idempotency：這點從 Redis 時代就該有、遷到 Kafka 仍成立 — at-least-once 下重複難免，用 message ID + dedup store 顯式去重，對位 idempotency 卡跟 Bitso 的 idempotent processing。

Case 3：單 stream key 換成多 partition，ordering 假設破裂

徵兆：遷移前所有事件在單一 Redis stream 上嚴格有序、downstream 依賴這個順序（例如同一筆訂單的 created → paid → shipped）；切到 Kafka 多 partition 後，同一筆訂單的事件被分到不同 partition、處理順序錯亂。

根因：Redis Streams 的單一 stream key 綁單一 shard、所有 entry 在一條序列上全域有序，application 不需要思考 ordering 範圍就免費得到全序。Kafka 把 topic 切成多 partition 來換取水平吞吐，代價是只保證 同一 partition 內 有序、partition 之間無序。遷移時若沒指定 partition key、訊息會被 round-robin 或依預設雜湊散開，同一個業務實體（訂單、帳戶、裝置）的事件落到不同 partition，全序假設就破了。

修法：

用業務實體當 partition key：把需要保序的實體 ID（訂單 ID、帳戶 ID）當 Kafka message key，同 key 雜湊到同 partition、partition 內保序，把「全域有序」收斂成「per-entity 有序」這個多數業務真正需要的粒度。
辨識哪些流真的需要全序：若某條流真的需要全域嚴格有序且無法拆成 per-entity，設單 partition topic（犧牲該 topic 的水平吞吐）；這也是個訊號 — 若大量流都需要全序，遷 Kafka 的吞吐優勢用不上、該重新評估遷移。
規劃 partition 數對齊並行度跟 hot key：partition 數決定 consumer 並行上限，同時注意熱門 key 造成的 hot partition，對位 Kafka topic 設計的 key 策略段。

Case 4：Redis 既有低延遲被 Kafka 吞吐換掉，延遲敏感路徑受傷

徵兆：遷移後某些原本靠 Redis Streams 亞毫秒延遲的路徑（即時風控判斷、撮合前置）延遲跳到數十毫秒，下游 SLA 破線。

根因：Redis Streams 的亞毫秒延遲來自記憶體操作 + 行程內 data structure；Kafka 為了長期保留跟高吞吐，訊息要落磁碟、過 replication、走網路到獨立 broker，單則訊息延遲落在 5-50ms 區間，這是它換吞吐跟持久性付出的代價。把延遲敏感路徑無差別搬上 Kafka，等於用一個為吞吐優化的系統去服務一個為延遲優化的需求。

修法：

按延遲需求分流、不要全遷：把延遲敏感的即時路徑留在 Redis Streams（或 Redis 其他結構）、把需要長保留 / 高吞吐 / replay 的事件流遷到 Kafka，這正是 Bitso 在撮合場景堅持 Redis Streams 的理由。
接受混合架構是常態：Redis Streams 跟 Kafka 共存、各自服務適配的 workload，不追求「全部統一到 Kafka」；對位 Kafka ↔ NATS 的混合架構是 long-term default 思路。
若 Kafka 延遲必須壓低：調 producer linger.ms=0 + acks=1、consumer fetch.min.bytes=1 換取較低延遲，但這會犧牲吞吐與部分可靠性、是 trade-off 不是免費午餐。

Migration 結構：漸進 cutover + 長期混合

這趟遷移的結構是漸進拆分而非一次性切換：先按 workload 性質分流、再對需要遷的事件流做 dual-write 並行、逐流 cutover、最終留下 Redis Streams 跟 Kafka 共存的混合架構。一次性把所有 stream 搬上 Kafka 既無必要、也會把延遲敏感路徑拖下水。

Phase 0：scope 分流 — 對每條 stream 跑前面三個訊號的判讀，分成「該遷 Kafka」（retention / replay / 規模超界）跟「留 Redis Streams」（延遲敏感 / 規模在範圍內）兩類。這一步直接決定後續工作量、也避免無差別遷移。
Phase 1：Kafka 叢集與 topic 設計 — 建 broker 叢集、依 Case 3 的 partition key 設計建 topic、依 Case 1 的業務需求設 retention，這時做的是基礎設施準備、還沒碰流量。
Phase 2：dual-write 並行 — producer 同時寫 Redis Streams 跟 Kafka、新 consumer 接 Kafka 驗證正確性、舊 consumer 持續吃 Redis Streams，這是可逆階段、出問題退回只讀 Redis 即可。
Phase 3：逐流 cutover — 逐條 stream 把流量切到 Kafka、確認 consumer 進度（offset）跟 idempotency 都對、再停掉該 stream 的 Redis 端寫入；cutover 以 stream 為單位、不是整批。
Phase 4：長期混合 — 留在 Redis Streams 的延遲敏感流跟遷到 Kafka 的事件流共存、各自運維；需要時用 bridge（消費 Redis Streams 寫入 Kafka、或反向）同步必要資料。

dual-write 階段的可逆性是這個結構的安全邊界：在 Phase 2 之前一切可退回純 Redis、Phase 3 逐流 cutover 把不可逆動作（停 Redis 寫入）切到最小粒度，單條 stream 出問題不影響其他流。

Capacity / cost 對照

維度	Redis Streams（既有 Redis 內）	Kafka（self-managed）
部署增量	近乎零（沿用 Redis 行程）	3-5 broker + KRaft、獨立叢集
儲存成本曲線	RAM-bound（最貴的資源）	磁碟為主（便宜 1-2 數量級）+ tiered to S3
Retention 上限	受 `maxmemory` 限制、實務數小時到數天	數週到數月（磁碟）、數年（tiered storage）
吞吐 / 單邏輯 stream	受單 shard 封頂	多 partition 水平擴展
延遲	亞毫秒	5-50ms
運維 FTE 增量	近乎零	0.5-2 FTE（含 schema / connect 生態）
Replay 能力	retention 內重讀（受 RAM 限制）	任意 offset 重讀（受磁碟 retention 限制）
生態	Redis 工具鏈	Schema Registry / Connect / Streams

判讀：成本的核心翻轉在「儲存成本曲線」這列。Redis Streams 把資料壓在最貴的 RAM、retention 越長越貴，所以實務上被迫短保留；Kafka 把資料攤到便宜的磁碟、再分層到 S3，讓長保留變得可負擔。但這個翻轉只在「retention 需求真的長」時成立 — 若 retention 只需數小時、資料量小，Redis Streams 沒有獨立叢集跟 0.5-2 FTE 的運維增量，總成本反而低，這正是 Arcjet 的處境。遷移划不划算取決於 retention 跟規模需求落在這條曲線的哪一段。

整合 / 下一步

混合架構是常見終態

多數從 Redis Streams 起步、因規模長出 Kafka 需求的系統，終態是兩者共存而非取代：

1[延遲敏感即時路徑]                    [長保留 / replay / 高吞吐事件流]
2   Redis Streams                              Kafka
3        │                                       │
4        └──────────── Bridge（雙向同步）────────┘

Redis Streams 服務亞毫秒延遲的即時路徑（風控、撮合前置）、Kafka 服務需要長保留與 replay 的事件流；需要打通時寫一段 bridge 同步必要 stream。這跟 Kafka ↔ NATS 的混合架構是 long-term default 是同一個 paradigm shift 結論的兩個實例。

接上 Kafka 生態

遷到 Kafka 後可解鎖 Redis Streams 沒有的生態能力：

Schema 治理：用 Schema Registry 強制 producer / consumer 契約，補上 Redis Streams 缺的 schema enforcement（對位 Bitso 自建抽象層的紀律性責任）。
CDC pipeline：接 Debezium 把資料庫變更流進 Kafka topic，做事件溯源主軸。
長期 replay：tiered storage 把冷事件分層到 S3、支援數年 replay。

反向確認的 tripwire

遷移後若觀察到：延遲敏感路徑 SLA 破線、Kafka 叢集運維成本超出省下的 RAM 成本、實際 retention 需求遠短於規劃 — 這些是「該遷的訊號其實不成立」的回溯訊號，應重新評估該 stream 是否該退回 Redis Streams，對位 Arcjet 的成本判讀。

從 Firestore 遷往自建 relational：撞牆驅動的 Type E 重建模、存取模型反轉與並行期

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Firestore overview 的 migration playbook。寫作參照 Migration Playbook 寫作方法論。BaaS 託管平台整場遷出的資產線盤點與並行期總覽見 10.3 託管形態遷出；本文聚焦資料層的跨 paradigm 重建模。

「我們把 Firestore 整包匯出，匯進 PostgreSQL 就好。」這句話低估了遷移的真正內容 — Firestore 遷往自建 relational 的難點是反轉整個存取模型，搬資料只是其中最容易的一條線。Firestore 是 client 用 SDK 直連資料庫、授權寫在 Security Rules；自建 relational 是 client 打自己的後端 API、授權在後端中介層。資料可以匯出，但反正規化的 document 形狀、沿查詢限制長出來的資料模型、realtime listener 與 offline 同步能力，都沒有 1:1 的對應物。字面意義的「匯出再匯入」只搬走了最容易的那部分。本文走 paradigm shift 結構：先講為何字面遷移不成立、再講哪些該遷哪些先留、最後才是階段化執行。

遷移的 driver：三面牆，不是「relational 比較好」

Firestore 遷往自建很少因為「relational 比較好」這種空泛動機，而是撞到 0.21 BaaS 段描述的三面具體的牆。先確認 driver 真的成立、再啟動遷移：

Driver	撞牆訊號	遷移要解的問題
報表 / 分析查詢	跨 collection 報表查不出來、已經在維護資料複製管線	把資料放回支援 JOIN / aggregation 的 relational
成本曲線轉折	read / write 計費隨流量線性成長、超過自建 + cache 的成本	用自管資料庫 + 應用層快取壓低單位成本
授權控制面失控	Security Rules 長到難以測試 / review、授權邏輯沒有版本治理	把授權拉回後端 API 中介層、可測試可審查

No-go condition：產品仍以多裝置 realtime 同步與 offline-first 為核心賣點、且查詢需求簡單、成本仍在舒適區 → 先不要遷。這些正是 Firestore 的主場，硬遷會把 realtime / offline 這層平台白送的能力變成自己要重建的工程。遷移前先問「撞的是哪面牆」，三面牆都沒撞到就是 0.22 講的偽自建。

逐能力遷出是常態而非整包搬離：0.22 的「成長期 SaaS」例子就是只把撞牆的資料層搬到自管 PostgreSQL、認證留在原平台。本文預設的也是這種逐能力遷出 — 遷的是資料層，不一定連認證、儲存一起搬。

6 維 diff audit：主導維度是 paradigm + application change

遷移前先盤點 source 跟 target 的差異落在哪幾維、決定 playbook 結構：

維度	Firestore → 自建 relational	程度
Schema / API	document / collection → 正規 table、SDK query → 後端 API + SQL	High
Operational model	serverless 全託管 → 自管 / managed 資料庫、自己擔 backup / failover	High
Paradigm	client 直連 + 規則授權 → API 中介 + 後端授權	High
Components 數量	單一平台 → 新增一層自建後端服務 + 資料庫	High
Application change	前端拔 SDK 改打 API、realtime / offline 要重建	High
Data topology	平台複製 → 自己設計 replica / 多 region / DR	Medium

主導維度是 paradigm 與 application change：六維裡五維落在 High。這定義了結構 — Type E paradigm shift（排除 schema 翻譯 Type A 和 drop-in Type B）：存取模型反轉、部分能力重建、可能長期混合（資料層自建、認證仍留平台）。

為什麼字面遷移不成立：存取模型反轉

Firestore 的存取模型是 前端即客戶端、資料庫直接面向公網、授權在規則層；自建 relational 是 前端打後端、後端面向資料庫、授權在服務層。這個反轉是遷移的核心難點，不在資料搬運。

反正規化 document → 正規 schema：

Firestore 為了繞開查詢限制，常把關聯資料冗餘寫進同一 document（一份資料複製多處）
遷往 relational 要把冗餘拆回正規化 table、重建外鍵關係，這是逆向工程：要先讀懂當初為什麼這樣存
反過來說，有些 document 的巢狀結構在 relational 用 JSONB 保留更省事（見 PostgreSQL jsonb）— 不是所有 document 都要拆成 table

Security Rules 授權 → 後端授權：

Firestore 的授權邏輯散在 Security Rules DSL 裡，遷移要把每一條規則翻譯成後端 API 的權限檢查
這層翻譯是安全敏感的：漏一條規則等於開一個越權查詢的洞，對應 1.5 資料層紅隊

SDK 直連 → API 中介：

前端原本用 Firestore SDK 直接讀寫，遷移後要拔掉 SDK、改打自建 API
這是 application 層的大改，不是資料庫換連線字串

realtime listener / offline persistence → 自己重建：

snapshot listener 的即時推送、offline 讀寫快取，是平台白送的能力
自建要用 WebSocket / SSE 重建即時層（見 03 訊息佇列與 presence 設計）、用前端本地儲存重建 offline — 這是遷移最容易被漏估的工作量

所以遷移的第一步不是匯資料，是盤點 application 對 Firestore 的所有依賴面：查詢路徑、授權規則、realtime 訂閱、offline 行為。這份清單決定哪些能直接遷、哪些要重建、哪些先留在平台。

哪些該遷、哪些先留（逐能力混合）

Type E 的本質是不收斂 — 不必把所有 Firebase 能力一次搬完。判讀標準：

Workload / 能力特徵	去向
需要報表 / JOIN / aggregation 的資料	遷自建 relational
讀取量大、成本敏感、access pattern 穩定的資料	遷自建 + 應用層快取
仍以 realtime 同步為核心、查詢簡單的資料	先留 Firestore / 或最後再遷
認證（Firebase Auth）	可留平台、逐能力決定（見 0.22）
檔案儲存（Firebase Storage）	可留平台、與資料層解耦後再評估

0.22 的成長期 SaaS 是這個判讀的 case anchor：撞牆的是資料層的 query 複雜度與成本，遷的就是資料層，認證留在原地。混合不是過渡失敗，是逐能力選型的穩態。

Phase plan：存取模型反轉的階段化

paradigm shift 的階段化把不可逆動作放到最後、每階段有獨立驗證門檻：

Phase 1：依賴面盤點

列出 application 對 Firestore 的所有讀寫路徑、Security Rules 授權條件、realtime 訂閱點、offline 行為。標每項的頻率、安全敏感度、是否可重建。這份清單不完整不進下一階段。

Phase 2：relational 重建模

把反正規化 document 設計回正規 schema、決定哪些巢狀結構用 JSONB 保留。同步設計後端 API 的端點與授權檢查、把 Security Rules 逐條翻譯成服務層權限。對應 1.2 schema design 與 1.5 資料層紅隊。

Phase 3：自建後端 + dual-write

立起自建後端 API 與資料庫，前端關鍵寫入路徑同時寫 Firestore 與新後端。Firestore 仍是 source of truth、新庫累積資料。dual-write 要處理一邊失敗的補償（對應 1.9 Reconciliation）。

Phase 4：backfill 歷史資料

把 Firestore 既有 document 按新 schema 轉換寫入新庫。backfill 與 dual-write 並行時要處理覆蓋順序，backfill 不能蓋掉 dual-write 的新值。轉換過程記 checksum / row count 對照。

Phase 5：shadow read 驗證

讀路徑同時打 Firestore 與新後端、比對結果、記錄差異但仍以 Firestore 回應用戶。差異率降到可接受才進 cutover。對應 1.7 Schema Migration Rollout 證據的 evidence 方法。

Phase 6：漸進 cutover + 重建即時層

前端逐步把讀寫從 Firestore SDK 切到自建 API（按比例 / 按功能模組），保留切回能力。若產品需要 realtime，這階段要把 snapshot listener 換成自建即時層（WebSocket / SSE）並驗證延遲與斷線重連。cutover 完成後資料層的 source of truth 轉到自建；未遷的能力（認證、儲存）仍在平台 — 混合架構成立。

Evidence：每階段的前進依據

每個階段用資料證明可前進、不靠感覺：

階段	Evidence
dual-write	雙寫成功率、寫入失敗補償紀錄、兩邊 document / row 數差異
backfill	已轉換比例、轉換錯誤數、checksum 對照、反正規化還原正確性抽查
shadow read	新舊結果差異率、差異分類（建模差異 vs 真錯誤）、授權翻譯漏洞掃描
cutover	切流比例、新 API latency p99、error rate、realtime 推送延遲、rollback 是否觸發

這些 evidence 對齊 4.20 Observability Evidence Package（Source / Time range / Query link / Owner / Data quality）與 6.8 release gate。授權翻譯這項要特別當成 gate 條件 — 它是安全邊界、不只是功能正確性。

Cutover 與 rollback 決策

資料庫切流失敗代價高、加上這裡牽涉授權正確性，決策權責要寫清楚：

cutover window：選低流量時段、明確切流比例階梯（如 1% → 10% → 50% → 100%），按功能模組切比按全站切安全
rollback condition：新 API error rate / latency 超閾值、shadow read 差異率異常、或發現授權翻譯漏洞 → 切回 Firestore
decision owner：誰有權喊停、依據什麼 evidence、記錄在 8.19 incident decision log
realtime 連續性：若即時層同步切換，要驗證切換期間訂閱不中斷、或明確告知短暫降級

對應 rollback window、rollback condition。

Cleanup 與長期混合

Type E 的 cleanup 通常不是「關掉整個 Firebase」— 多數情況認證、儲存仍留平台：

已遷資料路徑的 Firestore collection、Security Rules、dual-write code path 退役
shadow read 比對 code 移除
前端殘留的 Firestore SDK 依賴清掉（資料層已不走它）
但 Firebase Auth / Storage 若仍在用，保留；明確標示哪條資料路徑的 source of truth 是自建庫、哪條仍在平台
Firestore 的資料匯出備份保留到確認新庫穩定，對應 10.3 的並行期退役判準

混合架構不是遷移失敗、是逐能力選型的穩態 — 撞牆的資料層自建、沒撞牆的認證 / 儲存留在平台。

失敗模式

production 常見的 5 個踩雷：

Case 1：只匯資料、漏了存取模型反轉

把 Firestore 匯出匯進 PostgreSQL 就以為遷完、忘了前端還在打 SDK、授權還在 Security Rules。修法：依賴面盤點是 Phase 1、資料搬運只是其中一條線，存取模型反轉才是主體。

Case 2：Security Rules 翻譯漏洞

把規則翻成後端授權時漏一條、開了越權查詢的洞、上線後資料外洩。修法：授權翻譯要逐條對照 + 紅隊驗證（1.5）、當成 cutover gate 條件、不是功能 bug。

Case 3：反正規化還原錯誤

document 的冗餘副本拆回 table 時還原錯關係、新庫資料關聯接錯。修法：Phase 2 先讀懂當初為何反正規化、backfill 後抽查還原正確性、shadow read 比對抓出建模差異。

Case 4：低估 realtime / offline 重建工作量

以為遷資料庫就好、上線才發現 snapshot listener 與 offline 同步整層要自己重建、進度爆炸。修法：依賴面盤點就把 realtime 訂閱點與 offline 行為標出來、列入工作量、必要時這層最後遷或先保留。

Case 5：dual-write 一邊失敗沒補償

dual-write 時新庫寫成功 Firestore 失敗（或反之）、兩邊分歧、cutover 後資料不完整。修法：dual-write 要有失敗補償（記錄、重試、標記人工對帳），對應 1.9 Reconciliation。

Anti-recommendation：產品仍重度依賴 realtime / offline、或團隊還沒有自建後端與資料庫的營運能力（backup、failover、授權設計）→ 先不要遷。可先把一塊撞牆最明顯、realtime 需求最低的資料（例如報表來源資料）試點、累積自建營運經驗再擴大。

容量與成本：crossover 判讀

遷移的成本判讀關鍵是 遷移後的總帳、不是只看 Firestore 帳單：

遷移當下：高 read 流量下，自管資料庫 + 應用層快取的單位成本常低於 Firestore 的 per-read 計費
但要加回自建的隱性成本：後端服務的開發與維運、資料庫的 backup / failover / 擴容、realtime 層的重建與維護、團隊人力
判讀分層：撞到成本牆且已有後端團隊 → 自建總帳通常划算；仍是小團隊、realtime 是核心、流量不大 → Firestore 的「平台白送能力」可能仍比自建總帳便宜

Scope warning：crossover 隨流量形狀、region pricing、團隊成本結構變動、無通用閾值。遷移省下的 Firestore 帳單要扣掉自建後端 + 資料庫 + 即時層的維運成本後再比，不是直接拿兩邊資料庫帳單對照。

接回 0.6 成本、風險與選型取捨、1.10 KV / Document DB 容量規劃。

邊界與整合

跟其他遷移路徑的關係

保留 document model：若只是要逃離 Firestore 的查詢限制、但 document 形狀仍適合，遷 MongoDB 比遷 relational 的 paradigm 跨度小、不必反正規化還原
整包託管遷出：若連認證、儲存一起搬離 Firebase，整場資產線盤點與並行期走 10.3 託管形態遷出、本文是其中資料層那一條
反向視角：哪些資料當初就不該進 Firestore（報表來源、強一致交易），見 Firestore overview 的不適用場景

Sibling 與 cross-link

Firestore overview — 服務定位與查詢邊界
1.6 資料庫轉換實作 — 通用 dual-write / shadow read / cutover 框架
1.5 資料層紅隊 — Security Rules 授權翻譯的安全驗證
1.9 Reconciliation 與 Data Repair — dual-write 失敗補償與資料對帳
從 RDS / MongoDB 遷往 DynamoDB — 同為 Type E paradigm shift 的對照（方向相反：遷入 NoSQL vs 遷出 BaaS）
0.21 交付形態選型 / 0.22 能力級買 vs 建 — 遷移 driver 的選型層背景

Docker Swarm → Kubernetes：5 個 Swarm production cluster 撞牆數據

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link Docker Swarm 跟 Kubernetes。跑 migration-playbook-methodology 6 維 audit 後對映 Paradigm = High（Swarm 簡單 container orchestration → K8s declarative resource model）→ Type E paradigm shift。

5 個 Swarm production cluster 撞牆數據

從 2020-2024 觀察 5 個中型 organization 的 Swarm production cluster lifecycle、典型撞牆點：

Cluster	規模 (peak)	撞牆點	觸發遷移時間
A (SaaS startup)	80 service / 12 node	service discovery latency 升、無 sidecar mesh	2022
B (E-commerce)	150 service / 25 node	rolling update + canary 邏輯自寫複雜	2023
C (Fintech)	60 service / 15 node	secret rotation + RBAC 自管、合規難	2023
D (Media)	200 service / 40 node	autoscaling 自寫、預測流量失敗	2024
E (Logistics)	100 service / 20 node	multi-region 不支援	2024

5 個共同 pattern：

Swarm 簡單但 ceiling 100-200 service / 20-40 node
跨 service 治理（mesh / RBAC / secret / autoscale）需要外掛工具、複雜度反超 K8s
無 multi-region native、災備受限
生態縮、社群活躍度低、新 feature 緩

撞牆點不是「Swarm 跑不動」、是「Swarm 不會幫你解 跨 service 治理 問題、要自寫」。Kubernetes 不是 simpler、是 把治理問題納入框架。

為什麼遷：ceiling / ecosystem / multi-region 三條 driver

Driver	觸發
Ceiling	Swarm 跑 100-200 service 後 service discovery latency / scheduling 跟不上
Ecosystem	K8s ecosystem (Helm / Operator / mesh / GitOps) 成熟、Swarm 對等工具缺
Multi-region	Swarm 不支援、K8s 多 cluster federation 成熟

反向 driver（K8s → Swarm）：

純 internal tool / 小規模（< 30 service）、K8s 過度複雜
Edge / IoT scenario、Swarm footprint 小

6 維 audit

維度	等級
Schema / API	High（docker-compose stack.yml → K8s YAML、syntax 完全不同）
Operational	Medium（Swarm 自管 → K8s self-host or managed）
Paradigm	High（簡單 container orchestration → declarative resource model）
Components	Low（同 1 個 orchestration 系統）
Application change	Low（container image 不變）
Data topology	Low

Schema + Paradigm 雙 High → Type E paradigm shift 為主、Schema 高維獨立段。

Paradigm 對位

概念	Swarm	K8s
Workload unit	Service	Deployment + Pod + Service
Stack 定義	stack.yml (docker-compose 格式)	YAML manifest (multiple resources)
Networking	Overlay network (built-in)	CNI plugin (Calico / Cilium / etc)
Service discovery	DNS-based built-in	DNS-based (CoreDNS) + Service object
Load balancing	Built-in routing mesh	Service + Ingress + LoadBalancer
Secret management	Docker secrets	K8s Secret + 外部 Vault / Secrets Manager
Rolling update	`docker service update --image ...`	Deployment + rolling update + readiness probe
Autoscaling	手動 scale	HPA (Horizontal Pod Autoscaler)
RBAC	Limited (Swarm enterprise)	First-class (Role / RoleBinding / ServiceAccount)
Persistent storage	Volume + driver plugin	PV / PVC + CSI driver
Service mesh	無 (要外掛 Traefik)	Istio / Linkerd / Cilium
GitOps	無 native	Argo CD / Flux (first-class)

Schema gap：docker-compose vs K8s YAML

 1# Docker Swarm stack.yml
 2version: '3.8'
 3services:
 4  webapp:
 5    image: myapp:1.0
 6    deploy:
 7      replicas: 3
 8      update_config:
 9        parallelism: 1
10      restart_policy:
11        condition: on-failure
12    networks:
13      - frontend
14    ports:
15      - "8080:8080"

 1# K8s equivalent (Deployment + Service + Ingress)
 2apiVersion: apps/v1
 3kind: Deployment
 4metadata:
 5  name: webapp
 6spec:
 7  replicas: 3
 8  strategy:
 9    type: RollingUpdate
10    rollingUpdate:
11      maxSurge: 1
12      maxUnavailable: 0
13  selector:
14    matchLabels: { app: webapp }
15  template:
16    metadata:
17      labels: { app: webapp }
18    spec:
19      containers:
20        - name: webapp
21          image: myapp:1.0
22          ports:
23            - containerPort: 8080
24          readinessProbe:
25            httpGet:
26              path: /healthz
27              port: 8080
28          resources:
29            requests:
30              cpu: 100m
31              memory: 128Mi
32            limits:
33              cpu: 500m
34              memory: 512Mi
35---
36apiVersion: v1
37kind: Service
38metadata:
39  name: webapp
40spec:
41  selector: { app: webapp }
42  ports:
43    - port: 8080
44      targetPort: 8080

1 Swarm service → 2-3 K8s resource（Deployment + Service + 可能 Ingress / HPA）；application 不改但 deployment 端工作量 5-10x。

Migration 流程

Partial migration + 混合架構

跟 Kafka ↔ NATS / etcd → Consul 同 Type E pattern：

 11. Audit application：列所有 Swarm stack + service
 22. 分類處理 plan:
 3   - 簡單 stateless: 先切 K8s (低風險)
 4   - Stateful (DB / queue): 評估 K8s operator 或保留 Swarm
 5   - Critical service: 雙跑期確認 K8s 行為對等
 63. K8s cluster 建置:
 7   - Managed (EKS / GKE / AKS) vs self-host (kubeadm)
 8   - 配 ingress controller / cert-manager / monitoring
 94. Application 遷移 (per stack)
10   - 寫 K8s YAML / Helm chart
11   - 配 readiness/liveness probe / resource request
12   - Networking + secret 對位
135. Cutover + Swarm decommission
14   - 部分 stack 切完、評估 Swarm 是否保留 (legacy / edge)
15   - 多數 organization 完全 decommission Swarm

整體 3-6 個月、依 stack 數量跟 application 複雜度。

Production 故障演練

Case 1：Networking model 差、cross-service connectivity 失效

徵兆：cutover 後 service A 連 service B 失敗、Swarm 端 tasks.service_b DNS 對位 K8s 端 service-b.namespace.svc.cluster.local 不通。

根因：Swarm overlay network 內 service-to-service 用 short name (service_b)、K8s 用 FQDN；application 端 service URL 寫死。

修法：

Application 端用 short name + cluster DNS search domain
K8s 端設 dnsPolicy: ClusterFirst 預設、確認 kubectl get svc -A 對應
NetworkPolicy 預設 deny-all、明示 allow rule

Case 2：Secret rotation 從 Swarm secrets 換 Vault / Secrets Manager

徵兆：原本 Swarm 用 docker secret 旋轉 secret、切 K8s 後 K8s Secret 是 static value、rotation 不自動。

根因：K8s Secret 是 K8s-native 但 not auto-rotated、需要外部 Vault / Secrets Manager + agent (vault-agent-injector / external-secrets-operator)。

修法：

K8s 端 deploy external-secrets-operator + AWS Secrets Manager / Vault integration
Application 端 mount file or env variable、不在 code 寫死
Rotation 走 vendor-side、K8s 端 sidecar 自動 reload

Case 3：Readiness probe 沒設、rolling update 期間 traffic loss

徵兆：cutover 後 deploy 期間 application 5-10% request 失敗；發現 pod startup 完成前就接 traffic。

根因：Swarm 簡單 restart_policy 沒對等 probe 概念；K8s 預設 deploy 後 immediate ready、若沒 readiness probe、startup 時間長的 application 會在未 ready 時接流量。

修法：

必加 readiness probe：HTTP / TCP / exec check
配 initial delay：JVM application 預留 30-60s
配 minReadySeconds：deployment 端設 30s 確保 stable

Case 4：HPA 預設不啟、autoscaling 失效

徵兆：Swarm 端寫了 cron-based autoscale script、切 K8s 後 script 失效、流量高峰沒 scale up。

根因：K8s HPA 不是預設啟動、需要 明示配置 + metrics-server install。

修法：

 1apiVersion: autoscaling/v2
 2kind: HorizontalPodAutoscaler
 3metadata:
 4  name: webapp-hpa
 5spec:
 6  scaleTargetRef:
 7    apiVersion: apps/v1
 8    kind: Deployment
 9    name: webapp
10  minReplicas: 3
11  maxReplicas: 20
12  metrics:
13    - type: Resource
14      resource:
15        name: cpu
16        target:
17          type: Utilization
18          averageUtilization: 70

裝 metrics-server / Keda（event-driven autoscaling）+ 配 HPA per Deployment。

Case 5：YAML 維護地獄、Helm / Kustomize 配置遲

徵兆：cutover 後 K8s YAML 從 5 個檔（Swarm stack）變 50+ 個 K8s manifest；每個 application 端要改一個 config 都要動 N 個 file。

根因：K8s YAML 是 very verbose、不像 docker-compose 簡潔；缺 templating 跟 environment 抽象。

修法：

Helm chart：對 application 包成 chart、用 values.yaml 抽象環境差異
Kustomize：base + overlay pattern、不靠 templating
GitOps with Argo CD / Flux：宣告式部署、降 manual kubectl 操作

Capacity / cost

維度	Docker Swarm	Kubernetes (managed)
Cluster cost (mid-tier)	$300-800 / mo	$500-1500 / mo（EKS/GKE/AKS control plane + nodes）
Operational FTE	0.3-0.8	0.5-1.5（除非 managed、降到 0.3-0.7）
Ecosystem maturity	低、衰退	高、active growth
Multi-region	不支援	多 cluster federation 成熟
Migration cost	-	2-4 FTE × 3-6 個月
Long-term ROI	Negative（社群縮）	Positive（feature growth）

判讀：< 30 service 小 organization 可不切；50+ service 開始撞 Swarm ceiling、值得評估；100+ service / multi-region 必切。

整合 / 下一步

跟 Service mesh 整合

Cutover 後順便評估 Istio / Linkerd / Cilium service mesh、cover mTLS / observability / traffic policy；不要在 Swarm migration 後立刻上 mesh、分階段。

跟 GitOps 整合

K8s + Argo CD / Flux 是 natural pair；migration 時直接走 GitOps、避免 manual kubectl 操作累積。

跟 Vault → AWS Secrets Manager 對齊

Swarm secrets → K8s Secret → external secrets management 是 3-step 演進、不是 1-step；migration 期間先用 K8s Secret、之後切 Vault / Secrets Manager。

DynamoDB Strongly Consistent → Eventually Consistent：same protocol, different contract

Tue, 19 May 2026 00:00:00 +0000

本文是 DynamoDB overview 的 implementation-layer deep article。同時是 #128 self-aware limitation 第 1 點「6 維仍可能漏類（identity / consistency / residency 三軸候選）」的 consistency 軸驗證。

Same protocol, different contract：consistency model 對照

DynamoDB 的 read 操作支援兩種 consistency：

屬性	Strongly Consistent Read	Eventually Consistent Read
Protocol	同（DynamoDB API）	同
API call	同 `GetItem` / `Query` / `Scan`	同（多 `ConsistentRead=false` flag）
結果	最新 commit 的值	可能 stale 0-100ms
Latency p99	5-15ms	1-5ms
Throughput cost (RCU)	1 RCU per 4KB read	0.5 RCU per 4KB read
Cross-AZ	跨 AZ 讀（quorum）	單 AZ 讀
故障行為	leader unavailable 時 read 失敗	secondary alive 時 read 仍 work

兩者 同 protocol, same API, same table — 唯一差異是 application contract：能否接受 0-100ms 的 staleness。

跑 6 維 diff dimension audit 對「strongly consistent → eventually consistent」遷移：

維度	評估	等級
Schema / API	同 API、只改 ConsistentRead flag	Low
Operational model	同 cluster、operational stack 不變	Low
Paradigm	同 NoSQL document store	Low
Components	同 1 個 table	Low
Application change	每個 read site 評估、可改	Medium
Data topology	同 partition / replication	Low
Consistency contract	strong → eventual、application semantic 完全改	High

6 維 audit 抓不到「Consistency contract = High」這軸。用既有 6 維歸類、會走 Type B drop-in + application change 中維獨立段；但這個歸類 漏掉真正的工作量：

Application code change（加 ConsistentRead flag）：~10%
Operational verification：~5%
Application contract review（每個 read site 評估 staleness 是否可接受）：~85%

工作量主軸在 contract semantic 重審、不在既有 6 維任一個。Consistency 是 候選的第 7 維（或 8 維、跟 identity 並列）。

Consistency axis 是否獨立：3 個論據

Yes、consistency 是獨立軸：

Schema / paradigm / operational 不變 → consistency 仍可變：同 DynamoDB table、同 application、同 IAM、只改 ConsistentRead flag、cost 砍半但 application contract 改；其他 6 維皆 Low、但工作量 80%+ 在 contract review
Paradigm 是 high-level、consistency 是 low-level：Kafka ↔ NATS 是 paradigm 差（log-based vs subject-based）；DynamoDB strong → eventual 是 同 paradigm 內的 consistency 子議題；歸 paradigm 維度太粗
可獨立發生：PostgreSQL READ COMMITTED → SERIALIZABLE migration 同 vendor 同 schema 同 operational、只改 isolation level；Cassandra LOCAL_QUORUM → EACH_QUORUM 同 vendor、只改 consistency level — 都是 consistency 獨立變動的 case

No、consistency 可塞 paradigm：

反論：consistency 是 paradigm 的子議題
拒絕：paradigm 涵蓋 核心抽象（OLTP / log / pub-sub / document）、consistency 是 正確性 contract 屬不同 axis

實證：本文 migration 工作量 85% 在 contract review、確認 consistency 是 獨立工作量主軸。

結構：類 Type B + consistency contract review 獨立段

跟既有 Type B Redis → DragonflyDB 對照、本文多出 consistency contract review 獨立段：

11. Same protocol, different contract（consistency axis 對照表開頭）
22. Consistency axis 是否獨立的論據
33. 結構 differentiator（類 Type B + contract review）
44. Read site audit (per-call site review)
55. Migration 流程（dual-read 觀察 + canary cutover）
66. Production 故障演練
77. Capacity / cost
88. 整合 / 下一步

8 章節、200-260 行。比標準 Type B 多 1 段（contract review）+ 1 段（axis 獨立論據）。

Read site audit：per-call site contract review

不是 table-level 決定 consistency、是 call site-level 決定。每個 GetItem / Query / Scan 必須單獨 audit：

 1# Pre-audit application code
 2# Find all DynamoDB read sites
 3$ grep -r "table.get_item\|table.query\|table.scan" src/
 4
 5# Per-site contract review template:
 6# - Site: src/order_service.py:123 - get_item by order_id
 7# - Context: 顯示 order detail page、user 剛點「我的訂單」
 8# - Contract: user 可接受 100ms 內 stale data?
 9# - Decision: YES → ConsistentRead=False, saves 50% RCU
10#             NO  → keep ConsistentRead=True

Audit 分類矩陣（典型 application）：

Read pattern	預設 consistency	Eventual 是否可接受	估佔比
User read 自己剛 commit 的 data	Strong（read-your-write）	通常 NO	5-10%
List query（顯示用 / search 結果）	Strong（過度保守）	YES	30-40%
Background job / analytics	Strong（過度保守）	YES	20-30%
Real-time dashboard refresh	Strong	depends（refresh 間隔）	10-15%
跟 strongly consistent write 同 transaction	Strong（必要）	NO	5-10%
Health check / monitoring	Strong（不必要）	YES	5-10%

audit 完後 application 端 60-80% read site 可改 eventual、剩餘 20-40% 保留 strong；整體 RCU cost 降 30-40%。

Migration 流程

Phase 0：Audit + classify

Grep application code 找所有 read site
per-site contract review、決定 strong / eventual
估計 RCU saving

Phase 1：低風險 site 切換

 1# Before
 2response = table.get_item(
 3    Key={'order_id': order_id},
 4    ConsistentRead=True  # 預設保守
 5)
 6
 7# After（顯式設）
 8response = table.get_item(
 9    Key={'order_id': order_id},
10    ConsistentRead=False  # 明示 eventual OK
11)

從 background job / search result 開始（低風險、staleness impact 低）、跑 1 週觀察 application metric。

Phase 2：中風險 site 切換

User-facing list query
Dashboard refresh
配 application-side 「last updated X seconds ago」hint 讓 user 知道是 cached/stale

Phase 3：審慎 site 保留 strong

Read-your-write pattern
Transactional read
Financial / payment-critical lookup

Decision document 寫進 ADR、之後新 read site 直接套規則。

Production 故障演練

Case 1：Read-your-write 失效、user 看到自己沒提交的舊資料

徵兆：user 在 settings page 改了 email、submit 後跳轉首頁、首頁 widget 顯示舊 email 5-30 秒；user feedback「我改了但沒生效」。

根因：首頁 widget 用 ConsistentRead=False 讀 user profile、剛 commit 的 write 還在 propagate；違反 read-your-write semantic。

修法：

Read-your-write 場景強制 strong read：user 自己 fetch 自己的 data、加 ConsistentRead=True
Application-side cache invalidation：write 後立刻 invalidate local cache、避免 stale read 餵 user
Routing：user-self-fetch 路由到 strong read、其他 user 看 user 用 eventual read（90% 流量仍便宜）

Case 2：跨 record consistency 假設失效

徵兆：application 寫 order + 寫 inventory（兩個 record）、之後 read order + read inventory；發現有時 order 已寫 inventory 沒寫、application 顯示「order created but inventory not updated」、business state inconsistent。

根因：DynamoDB 沒 transaction 跨多 record（除非用 TransactWriteItems API）；eventual read 加劇 inconsistency window；strong read 並不解決根因。

修法：

架構：跨 record 寫入用 TransactWriteItems、確保 atomic
read 端 saga pattern：accept eventual + application-level retry/reconcile
eventual consistency 不是 root cause：strong read 也會看到 inconsistency、修跨 record write 是根因解

Case 3：Background job retry 跑舊資料

徵兆：background job 每 5 分鐘掃 unprocessed orders、用 ConsistentRead=False；偶爾 job retry 2 次都 process 同 order、duplicate processing。

根因：job round 1 抓到 unprocessed order → mark as processed；job round 2 read 仍看到 未 mark 的舊狀態（eventual stale）、又 process 一次。

修法：

Idempotent processing：用 order ID + 自己 dedup 表、不依賴 DynamoDB consistency
Conditional write：UpdateItem 加 ConditionExpression: attribute_not_exists(processed_at)、duplicate 由 DynamoDB 拒絕
不切 strong：background job 切 strong 也只是減少 duplicate 機率、不解決；用 idempotent + conditional 才對

Case 4：Cost 沒降反升、application 改錯方向

徵兆：切換 6 個月後 RCU 成本反而上升 20%；audit 後發現 application 加了大量 background scan 用 ConsistentRead=False、scan 本身就比 query 貴、cost 飆。

根因：team 把「consistency 砍半 = cost 砍半」過度推廣、加了原本不存在的 read site；新 read 即使 eventual 也是 新 cost。

修法：

Migration scope 內 freeze new read：consistency 切換期間禁止加新 read 邏輯
Cost monitoring 在切換前 baseline：對齊原 RCU usage、新 read 出現必須單獨 review
Scan vs Query：跑 sample data、確認 application 用 Query 不是 Scan（Scan 對所有 partition 讀 / Query 對 partition key 讀）

Case 5：故障期間 eventual read 還能 work、應變流程沒覆蓋

徵兆：us-east-1 partial outage、strong read 開始 timeout、application 切到 fallback；但 fallback 邏輯只 cover「全 region fail」、沒 cover「strong fail / eventual ok」中間狀態；流量打到 fallback 路徑、出乎預期慢。

根因：DynamoDB 提供 partial consistency degradation — leader replica 不可用時 strong read 失敗、secondary 仍 alive、eventual read 仍可；application 沒設計這個中間狀態的處理。

修法：

明示 fallback strategy：strong read 失敗時 application 端 retry with eventual + warning user「showing potentially stale data due to system degradation」
Circuit breaker per-consistency-level：strong read circuit 跟 eventual read circuit 分開、避免一邊 fail 拖另一邊
DR drill 覆蓋此 case：故障演練不只「全失敗 vs 全 work」、要演 partial degradation

Capacity / cost

維度	All strongly consistent	Mixed（70% eventual + 30% strong）	All eventually consistent
RCU per read	1 RCU per 4KB	0.65 RCU per 4KB（avg）	0.5 RCU per 4KB
Read latency p99	10-15ms	5-10ms	1-5ms
Cost saving	baseline	~35%	~50%
Application complexity	Low	Medium（per-site decision）	Low
Audit / migration cost	-	2-3 FTE 月 × audit	同 mixed
Cross-AZ failure	Strong read fail	Strong fail, eventual work	All work

判讀：完全 strong 是 過度保守、完全 eventual 是 過度激進；mixed 是 sweet spot、但 audit 工作量大。

整合 / 下一步

跟 PostgreSQL READ COMMITTED → SERIALIZABLE 對照

PostgreSQL isolation level migration 也是 consistency axis 變動、但方向相反（弱 → 強）；同樣需要 per-call-site review、application 端可能撞 serialization failure 處理。

跟 Cassandra LOCAL_QUORUM → EACH_QUORUM 對照

Cassandra tunable consistency 是另一個 consistency 獨立軸 case；EACH_QUORUM 跨 DC 需所有 DC quorum、latency 增、availability 降。

跟 Aurora read replica 對照

Aurora read replica 也涉 eventual read decision；application 路由策略類似但 mechanism 不同（DNS-based vs API flag）。

下一步議題

Consistency axis 升級為第 7 維 audit dimension：累積 PostgreSQL isolation level / Cassandra tunable consistency / Aurora reader endpoint 3-5 個 case 後評估
Sub-dimension proposal：consistency axis 可拆 sub-dimension - read consistency / write consistency / replication lag tolerance / serialization level
跟 paradigm 軸的邊界釐清：CRDT / event sourcing 是 paradigm 還是 consistency model 選擇？

Kafka ↔ NATS：不是 migration、是 messaging paradigm 重設計

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 Kafka 跟 NATS。跟前四篇 migration（schema 差 / drop-in / operational redesign / multi-tool 拆分）對照、本篇是 paradigm shift — 兩端不是「同類產品的不同實作」、是 不同抽象層的 messaging system。

「Kafka → NATS migration」字面上不成立

前面四篇 migration 都隱含一個前提：source 跟 target 是 同類產品、只是不同實作或 deployment 模型。「Kafka → NATS」字面上看起來也是 messaging migration、但實際上：

維度	Kafka	NATS Core	NATS JetStream
Core abstraction	Distributed log（partition + offset）	Pub/Sub subject（fire-and-forget）	Stream（subject group + retention）
Message persistence	Default persistent（log retention）	不持久化（subscriber 缺席 = lost）	持久化（K/V backend / file）
Delivery semantic	At-least-once / exactly-once（事務）	At-most-once	At-least-once / exactly-once
Consumer model	Consumer group + offset	Subscriber + subject pattern	Durable consumer + pull / push
Ordering	Per partition strict	無 ordering guarantee	Per stream / per consumer
Replay	隨意 from offset	無	from sequence number
Throughput	高（M msg/s）	極高（10M+ msg/s）	中（100K-1M msg/s）
Latency	5-50ms	< 1ms	5-20ms

Kafka 跟 NATS Core 是 不同類產品 — 一個是 durable event log、一個是 transient pub/sub。「migration」需要先決定 target 是 NATS Core 還是 JetStream、然後判斷 application 模式能否重設計 對應。

什麼情境真的能換、什麼不能

Application 模式	Kafka 適配度	NATS Core 適配	NATS JetStream 適配	「migration」可行性
Event sourcing（replay 過去事件）	強	不可（無 replay）	中（JetStream replay）	部分（移到 JetStream）
Microservice async messaging	強	強	強	高
Real-time pub/sub（低延遲、可丟）	中	強	中	高（移到 Core）
跨 service 命令 / RPC	弱（不適合）	強（request-reply）	弱	不需要遷
大量 log / metric / event collection	強	弱	中	低（保留 Kafka）
Multi-tenant message bus	中	強	強	高
Strict ordering + transactional	強	不可	中（per stream）	部分（部分功能犧牲）
5+ 年歷史 retention	強	不可	中（retention 設長）	部分

判讀：

Microservice async messaging + 低延遲需求 → NATS Core 更合適、是 真正的 migration
Event sourcing + replay → JetStream 部分對等、但 partition / offset 觀念變了
Log collection / event streaming → 不該遷、保留 Kafka

為什麼會考慮這個 paradigm shift

實務上觸發評估 NATS 通常三條 driver：

Cost + operational complexity：Kafka cluster + ZooKeeper（或 KRaft）+ Schema Registry + Connect 是重資產、3-5 broker + ops 1+ FTE；NATS 單 binary、無依賴、輕量
Latency 要求 < 1ms：Kafka 對單 message latency 不是 SLA、NATS Core 是
Multi-tenant / multi-region 簡化：NATS 內建 account + leaf node 拓樸、跨 region 是 first-class

但這三條 driver 都 只在特定 application 模式有效。不是普世 better、是 某類 workload 適合。

Migration 結構：application 重設計 + 部分 stream cutover

跟前面四篇 migration 結構都不同、Kafka ↔ NATS 是混合：

Phase 0：scope 判讀 — 列 application、區分「適合 NATS」vs「保留 Kafka」
Phase 1：application code 重設計 — 不是 SDK 換、是 messaging pattern 改（event sourcing → message bus / consumer group → durable consumer）
Phase 2：部分 stream parallel run — 新 application 走 NATS、舊 application 持續 Kafka
Phase 3：cutover 適合的 stream
Phase 4：長期混合架構 — Kafka 跟 NATS 共存、不消滅一邊

整體不是 一次 migration、是 漸進拆分。多數 production 環境永遠是混合架構。

Application 重設計範例：consumer group → durable consumer

 1// Kafka 端 consumer group pattern
 2consumer := kafka.NewConsumer(&kafka.ConfigMap{
 3    "bootstrap.servers": "kafka:9092",
 4    "group.id":          "myapp-orders",
 5    "auto.offset.reset": "earliest",
 6})
 7consumer.SubscribeTopics([]string{"orders"}, nil)
 8
 9for {
10    msg, err := consumer.ReadMessage(-1)
11    // process msg.Value
12    consumer.CommitMessage(msg)
13}

 1// NATS JetStream durable consumer
 2js, _ := nc.JetStream()
 3sub, _ := js.PullSubscribe("orders.>", "myapp-orders",
 4    nats.AckExplicit(),
 5    nats.MaxAckPending(100),
 6)
 7
 8for {
 9    msgs, _ := sub.Fetch(10, nats.MaxWait(5*time.Second))
10    for _, msg := range msgs {
11        // process msg.Data
12        msg.Ack()
13    }
14}

差異：

Kafka auto.offset.reset → NATS DeliverPolicy（多種選項）
Kafka commit message → NATS explicit Ack（per message）
Kafka partition → NATS subject hierarchy（orders.> 通配）
Kafka rebalance → NATS 不需要、durable consumer 跨 instance 共享

Application 邏輯改動 30-60%、不是 SDK 換。

Production 故障演練

Case 1：Consumer offset 觀念差，replay 不對等

徵兆：application 設計「跑歷史 7 天事件 catch-up」、Kafka 設 auto.offset.reset=earliest + seek_to(timestamp) 跑；換 NATS JetStream 後找不到 seek_to 等價 API、catch-up 失敗。

根因：Kafka offset 是 broker-side 維護 + consumer-side commit；NATS JetStream 用 sequence number + DeliverPolicy.ByStartTime、但 time-based seek 精度低、且 application code 必須改。

修法：

預先設計：NATS JetStream 用 DeliverPolicy.ByStartSequence + 自管 sequence-time mapping
保留 Kafka 給 replay-heavy use case：不是所有 application 都遷
混合架構：歷史 replay 走 Kafka、新事件流走 NATS、application 處理雙來源

Case 2：Retention model 差異、磁碟使用炸

徵兆：NATS JetStream stream 設 retention=interest（subscriber 收到就刪）、cutover 後 disk 持續長大；預期跟 Kafka log retention 7 天類似、實際資料留 30+ 天沒清。

根因：NATS JetStream retention 有 3 種：limits / interest / workqueue。interest 是 至少一個 subscriber 還沒 ack 就保留；application 端 silent consumer（已下線但沒 unsubscribe）讓 message 永留。

修法：

預設 retention=limits：用 MaxAge / MaxBytes 跟 Kafka log retention 對應、明確控制
interest retention 慎用：只在 確認所有 subscriber lifecycle 受控 場景
Subscriber cleanup：application graceful shutdown 必須主動 unsubscribe、不留 zombie consumer

Case 3：Exactly-once 假設不對等

徵兆：cutover 後發現某 application（payment processor）開始出現 duplicate transaction；Kafka 端用 transactional producer + idempotent consumer 跑了 2 年沒問題。

根因：Kafka exactly-once 是 producer transaction + consumer offset commit atomic；NATS JetStream exactly-once 概念不一樣 — 是 publish ack + consumer ack 跨層 atomic、application 端要主動處理 idempotency。

修法：

重新審視 application 端 idempotency：用 message ID + dedup store（Redis SETEX）顯式 dedup
NATS JetStream 對 exactly-once 不該假設「自動」：application 端責任、不是 broker 端
Payment / financial 場景慎遷：保留 Kafka transactional pattern 較穩

Case 4：Schema registry 缺位、ad-hoc schema 漂移

徵兆：NATS 部署 3 個月後、producer / consumer 間 schema 對不上、application bug；Kafka 端有 Confluent Schema Registry 強 enforce、NATS 沒對等服務。

根因：NATS 哲學是 minimalist、不內建 schema registry；application 自己決定 payload format。Kafka 生態的 Avro / Protobuf + Registry 模式不直接搬。

修法：

外部 schema management：用 BSR（Buf Schema Registry）或自家 Git-based registry、producer / consumer build-time 驗證
NATS Object Store：JetStream 提供 K/V + Object Store、可存 schema 文件
接受紀律性 trade-off：NATS 簡潔代價是 application 端紀律、不能靠 broker 強 enforce

Case 5：Fan-out 模式跟 Kafka 不一致

徵兆：同一 event 要送 5 個 downstream service、Kafka 端用 consumer group + 5 個 group 跑；NATS 端設計 5 個 durable consumer、結果某些 message 漏 fan-out。

根因：Kafka consumer group 對 同 group 內 partition 分配、不同 group 各自完整消費；NATS JetStream Durable consumer 預設行為跟 group 不同 — 單 durable consumer 是 shared subscription、要 fan-out 需多個獨立 durable。

修法：

明確設計 fan-out：N 個 downstream 對應 N 個 獨立 durable consumer、不共用
用 AckPolicy.None + push subscriber：不需要 ack 的 fan-out 場景、用 ephemeral push subscriber
檢查 application stream config：fan-out 失敗多半是 consumer config 錯、不是 NATS bug

Capacity / cost 對照

維度	Kafka（self-managed）	NATS（JetStream）
Cluster size baseline	3-5 broker + ZooKeeper / KRaft	3 server（含 JetStream cluster）
RAM / broker baseline	16-64GB	2-16GB
Storage requirement	高（log retention）	中（JetStream file backend）
Operational FTE	0.5-2 FTE	0.1-0.3 FTE
Throughput / single node	100K-1M msg/s	NATS Core：10M+、JetStream：100K-1M
Latency p99	5-50ms	NATS Core：< 1ms、JetStream：5-20ms
Retention 1TB / month cost	$400-800（含 HA）	$200-400
Operational complexity	高（Schema Registry / Connect / Streams）	低
Ecosystem maturity	高（10+ 年）	中（JetStream 2021+）

判讀：簡單 messaging workload NATS 顯著便宜；complex event streaming（Schema Registry / Streams / Connect 重度用）Kafka 不替代。

整合 / 下一步

混合架構是 long-term default

多數 production 環境最終是 Kafka + NATS 共存：

1[event sourcing / log collection]        [microservice async messaging]
2         Kafka                                       NATS
3         │                                            │
4         └──────── Bridge (Connect / Custom) ────────┘

NATS 跑微服務間 messaging、Kafka 跑 event log / analytics pipeline；中間用 Kafka Connect NATS connector 或自寫 bridge 同步必要 stream。

跟 Logical Replication + Debezium 對位

CDC pipeline 設計：

DB → Debezium → Kafka topic（event sourcing 主軸）
Kafka → NATS bridge → microservice fan-out
不直接 DB → Debezium → NATS（Debezium 不原生支援 NATS sink）

跟前 4 篇 migration 的結構對照

篇	Schema 差	Operational 差	Paradigm 差	結構
Splunk → Elastic	高	中	低	6-phase
Redis → DragonflyDB	無	低	低	6-section + audit
PostgreSQL → Aurora	無	高	低	hybrid
Datadog → Grafana Stack	中	中	低	parallel streams
Kafka ↔ NATS（本篇）	中	中	高	partial + 混合

結論：migration 結構由 最大差異維度 決定、不是 universal phased playbook。

MongoDB → Atlas：Atlas 不是 MongoDB + managed、是另一個 product

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 MongoDB 跟 MongoDB Atlas。本文是 Migration playbook methodology Type C operational redesign hybrid 的標準形態實證。每階段切換用 migration gate 把關 — 4 phase 之間的驗證條件就是 gate。

Atlas 不是 MongoDB + managed、是另一個 product

「MongoDB Atlas 是 MongoDB 的 managed 版本」這個 framing 看似合理、實際誤導：

Protocol 相容：MongoDB wire protocol 一致、driver 不改、mongosh 連線跟 self-managed 一樣
Storage 一致：WiredTiger storage engine 一樣、document model 一樣
API 一致：Aggregation framework、indexing、change stream 都一樣

但 operational surface 完全不同：

Operational concept	Self-managed MongoDB	Atlas
Cluster bootstrap	mongod + replica set config + cfgsvr + shard 手動	UI / API 一鍵建集群、全自動
HA	Replica set 自管 + arbiter + priority	自動跨 AZ replica + automatic failover
Backup	mongodump + S3 archive 自管	內建 cloud backup + PITR（按 region 設）
Network access	VPC + security group + IP whitelist 自管	Atlas private endpoint / VPC peering / IP access list
Authentication	mongod 內部 user / x.509 自管	Atlas Database User + 整合 LDAP / SSO / AWS IAM
Monitoring	Self-deploy Prometheus + grafana	Atlas Performance Advisor + APM 內建
Sizing	Manual instance class + scale	Auto-tier scaling + tier-based pricing
Patching	Manual + outage window	Automatic（可配置 maintenance window）

Migration 主要工作不在 資料層 — protocol drop-in 已 cover；是 operational stack 全換：SRE runbook、monitoring dashboard、access control、IAM 整合、cost 預估全要重做。「Atlas 是 managed MongoDB」這個 framing 低估了 operational 工作量。

跑 diff dimension audit：

維度	評估	等級
Schema / API	MongoDB protocol / API 完全相容	Low
Operational model	HA / backup / monitoring / IAM / network 全換	High
Abstraction / paradigm	同 document DB	Low
Number of components	同 1 個 cluster	Low
Application change	Connection string / IAM 整合改、application logic 不改	Low/Medium

主導維度 Operational = High、Schema / Paradigm 都 Low — 對映 Type C operational redesign hybrid。

結構：4-phase operational + drop-in cutover

跟 PostgreSQL → Aurora 結構對齊（同 Type C）：

 1Phase 0：Pre-migration audit（1-2 週）
 2  - Workload sizing（IOPS / connection / storage）
 3  - Application connection pattern audit
 4  - Compliance requirement audit
 5
 6Phase 1：Operational infrastructure 準備（2-3 週）
 7  - Atlas cluster 建立
 8  - VPC peering / private endpoint
 9  - IAM role + Atlas Database User
10  - Monitoring + alert
11  - Backup retention 設定
12
13Phase 2：Data migration（取決於 dataset 大小）
14  - mongomirror / Atlas Live Migration tool
15  - 或 mongodump → mongorestore（小 DB）
16
17Phase 3：Cutover 跟 verification
18
19Phase 4：Cleanup（self-managed decommission）

整體 4-12 週、依 dataset 大小跟 organization 流程複雜度。

Phase 0：Pre-migration audit

Workload sizing → Atlas tier

 1Self-managed observations:
 2- Peak IOPS: 8000
 3- P99 read latency: 5ms
 4- Connection count peak: 1500
 5- Storage: 800GB
 6- Cross-region replication needed: yes
 7
 8Atlas tier mapping:
 9- M40 (8 vCPU, 16GB RAM): IOPS 3000、不夠
10- M60 (16 vCPU, 64GB RAM): IOPS 6000、邊界
11- M80 (32 vCPU, 128GB RAM): IOPS 9000、安全（選此）
12- Storage: 1TB tier（足夠 800GB + 25% buffer）
13- Cross-region replication add-on

Atlas 不是 自由 instance class、是 固定 tier；workload 跨 tier 邊界時要選 上一級 而不是 push 下一級。

Connection pattern audit

1// Application connection pool config
2const client = new MongoClient(uri, {
3  maxPoolSize: 100,     // ← Atlas 端 tier-specific connection limit
4  minPoolSize: 10,
5  maxIdleTimeMS: 60000,
6});

Atlas tier 對 single user connection 有限制（M40 ~1500、M80 ~3000）；多 application instance 跑同帳號連 Atlas 可能撞 limit。預先計算 total connection = pod_count × maxPoolSize、對照 tier limit。

Compliance audit

Data residency：Atlas 部署 region 是否符合 GDPR / 客戶合約
Encryption at rest：Atlas 預設 enable、但 encryption key 是 Atlas-managed — 合規嚴格要用 CMK / BYOK
Audit log：Atlas 提供 audit log、export 到 S3 / Splunk

Phase 1：Operational infrastructure 準備

Atlas cluster 配置

 1# 用 Terraform mongodbatlas provider
 2resource "mongodbatlas_cluster" "production" {
 3  project_id   = var.project_id
 4  name         = "production-cluster"
 5  cluster_type = "REPLICASET"
 6
 7  provider_name         = "AWS"
 8  provider_region_name  = "US_EAST_1"
 9  provider_instance_size_name = "M80"
10
11  backup_enabled         = true
12  pit_enabled            = true   # PITR
13  mongo_db_major_version = "7.0"
14
15  advanced_configuration {
16    javascript_enabled                   = false
17    minimum_enabled_tls_protocol         = "TLS1_2"
18    no_table_scan                        = false
19    oplog_size_mb                        = 51200
20  }
21}
22
23# Backup retention
24resource "mongodbatlas_cloud_backup_schedule" "production" {
25  project_id   = var.project_id
26  cluster_name = mongodbatlas_cluster.production.name
27
28  reference_hour_of_day    = 3
29  reference_minute_of_hour = 0
30  restore_window_days      = 7
31
32  policy_item_daily {
33    frequency_interval = 1
34    retention_unit     = "days"
35    retention_value    = 7
36  }
37}

VPC peering / private endpoint

 1Pattern A: VPC Peering
 2  AWS VPC <──peering──> Atlas project VPC
 3  - 跨 region 跑、routing table 對齊
 4  - 適合中型 / 大型 workload、stable network topology
 5
 6Pattern B: Private Endpoint (Atlas private link)
 7  AWS VPC ──private link──> Atlas
 8  - 不需要 routing table 改
 9  - 適合 multi-account / multi-region 複雜場景
10  - Cost 略高

production default 走 Private Endpoint、設定簡單跟 IAM 整合好。

Atlas Database User 跟 IAM 整合

1Pattern A: 傳統 username / password
2  - 設 Database User、application 用 SCRAM-SHA-256 連
3  - 適合 legacy application
4
5Pattern B: AWS IAM authentication（推薦）
6  - Atlas Database User type: "AWS IAM"
7  - Application 用 AWS IAM role + Atlas SDK
8  - Token 15 分鐘輪換、application 自管 refresh

cutover 時間表內加 IAM authentication migration、不要事後補。

Phase 2：Data migration

Atlas Live Migration tool（小到中型）

Atlas UI 內建 Live Migration tool：

Source cluster URI（self-managed MongoDB）
Atlas target cluster
tool 自動 full sync + oplog tailing
Cutover window 內 final cutover

支援 dataset < 100GB 簡單；100GB-1TB 需要分批 / collection 順序設計。

mongomirror（大型）

1# Mongomirror: source → atlas
2mongomirror \
3  --host source-replicaset/host1:27017,host2:27017 \
4  --destination atlas-cluster-host:27017 \
5  --destinationUsername admin \
6  --destinationPassword $ATLAS_PASSWORD \
7  --ssl

mongomirror 分兩段：

Initial sync（full dump + restore）
Oplog tailing（continuous CDC）

Cutover 期間 application 切 connection string、mongomirror 跟著 stream 收尾。

Phase 3：Cutover + verification

11. Application 端設 maintenance mode（block write）
22. Wait mongomirror catch up（oplog gap → 0）
33. 驗證 Atlas 端 collection count + sample query
44. Application connection string 切到 Atlas
55. 解除 maintenance、monitor 24-48 小時
66. Self-managed mongo read-only standby 1-2 週

Production 故障演練

Case 1：Atlas tier connection limit 撞牆

徵兆：cutover 後 application 流量高峰時大量 Connection refused、Atlas 端顯示 connection limit reached；self-managed 階段沒有這問題。

根因：M80 tier connection limit ~3000、application 100 個 pod × maxPoolSize=50 = 5000 connection；超出 limit。

修法：

Pre-migration 計算：total connection 對照 Atlas tier、超出選上一級 tier
降 maxPoolSize：100 pod × 30 = 3000、剛好 cap；但 burst 仍可能撞
加 connection proxy：在 application 跟 Atlas 之間放 connection pooler（如 mongos sharded 或 ProxySQL-style proxy）

Case 2：IP whitelist 漏 application VPC、cutover 後完全連不上

徵兆：cutover 後 application 直接報 connection timeout、Atlas dashboard 顯示 zero traffic；troubleshooting 1 小時才發現是 IP access list 漏掉某 application VPC CIDR。

根因：Atlas IP access list 預設 deny all、必須明示加 application VPC；Phase 1 設定漏看某個 VPC（如 multi-account organization 內的 staging account）。

修法：

Pre-cutover 連線測試：每個 application VPC 跑 sample MongoDB 連線、確認 ping 通
改 Private Endpoint：不靠 IP whitelist、用 PrivateLink 自動 routing
Backup access：保留 bastion host with whitelisted IP、incident 期間能直連

Case 3：Backup retention 設不夠、compliance audit 抓到

徵兆：cutover 3 個月後 SOX audit 發現 backup retention 設 7 天、合規要求 90 天；急忙改 Atlas config 設 90 天、但 過去 3 個月 backup 已不可恢復。

根因：Atlas backup retention 是 向前生效、不能回追加；Phase 1 預設配置漏對合規 review。

修法：

Pre-Phase 1 跑 compliance review：跟 legal / security team 確認 retention / data residency / audit log
預設 retention 設保守值（30 / 60 天）、之後可降不能升
PITR 跟 backup retention 分開設：PITR window 7-30 天、full backup 90-365 天

Case 4：IAM token 過期、application 端 reconnect storm

徵兆：production 切到 IAM authentication 後、每 15 分鐘出現一波 connection failure；Atlas log 顯示「auth token expired」。

根因：AWS IAM token 15 分鐘輪換、application 用舊 token 重連失敗；token refresh 邏輯沒寫對。

修法：

1// 用 Atlas SDK + AWS SDK 整合、自動 token refresh
2const { MongoClient } = require('mongodb');
3const { fromIni } = require('@aws-sdk/credential-providers');
4
5const credentials = fromIni({ profile: 'production' });
6const client = new MongoClient(uri, {
7  authMechanism: 'MONGODB-AWS',
8  // SDK 自動 refresh token
9});

不要自管 token rotation、用 vendor SDK 抽象掉。

Case 5：Billing 暴漲、IOPS 跟 backup storage 超預估

徵兆：第一個月 Atlas 帳單 $15K USD、預估 $8K；Atlas dashboard 顯示 backup storage 跟 IOPS 各超 1.5-2x 預估。

根因：

Atlas backup 預設 跨 region replicated、storage cost 2x
IOPS-heavy workload 在 M tier 內可能撞 burst credit、auto-tier-up 暫時觸發更貴 tier
Data transfer 跨 region / 跨 cloud 計費沒算

修法：

Pre-migration cost estimate：用 self-managed metrics 估 IOPS / bandwidth、套 Atlas pricing
Backup region 設單一：若不要跨 region DR、設 same-region backup 省 50%
Reserved Instance：穩定 workload 預付 1-3 年、省 30-40%
Performance Advisor 早用：第一週就跑、找 inefficient query 降 IOPS

Capacity / cost

維度	Self-managed MongoDB	Atlas
Cluster cost (M80)	EC2 r6g.4xlarge × 3 ≈ $1.5K / mo	M80 + storage + backup ≈ $3K / mo
Operational FTE	0.5-1.5 FTE	0.1-0.3 FTE
Backup cost	S3 + tooling 自管	內建 + tiered storage
Cross-region DR cost	Manual + 2x infrastructure	1-click + 1.5-2x billing
Time to value	1-3 個月（HA + ops setup）	1-2 週（cluster ready + IAM）
Migration cost	-	1-3 FTE × 2-3 個月

Break-even：~200GB / 中型 workload、Atlas operational savings 平攤 1-2 年後比 self-managed cheaper；TB+ 大型 workload self-managed 仍可能便宜、但需要 ops team。

整合 / 下一步

跟 PostgreSQL → Aurora migration 對照

兩篇都是 Type C operational redesign hybrid、模板共用、細節差：

Aurora 端 RDS Proxy 是推薦做法、Atlas 端 Private Endpoint 更標準
Aurora 端 IAM authentication 是 optional best practice、Atlas IAM 是 推薦預設
兩家 cost model 都複雜、I/O cost 是 surprise 主要來源

跟 Application 端 IAM token rotation 整合

Vault dynamic credential 可 issue Atlas Database User credential、lease lifecycle 對齊 application；對 high-stakes workload 是好做法、但 setup 複雜。

下一步議題

Atlas Data Federation：跨 Atlas 集群 query S3 / 跨 region；如果走 multi-region 評估這 feature
Atlas Online Archive：cold data 自動 archive 到 S3、查 query 透明；對 retention 重的 workload 省 storage cost
Atlas Serverless：burst workload 適合、steady 不划算

MySQL → PostgreSQL：從 SQL dialect diff 跑出來的 Type A 6-phase migration

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 MySQL 跟 PostgreSQL。本文是 Migration playbook methodology Type A 的標準形態實證。

三類 SQL dialect diff sample：先看具體差距

 1-- 1. Auto increment / sequence
 2-- MySQL
 3CREATE TABLE users (id INT AUTO_INCREMENT PRIMARY KEY);
 4-- PostgreSQL
 5CREATE TABLE users (id SERIAL PRIMARY KEY);
 6-- 或 PG 10+:
 7CREATE TABLE users (id INT GENERATED ALWAYS AS IDENTITY PRIMARY KEY);
 8
 9-- 2. String concatenation
10-- MySQL: CONCAT(a, b) 或 a || b 在 ANSI mode
11SELECT CONCAT(first_name, ' ', last_name) FROM users;
12-- PostgreSQL: a || b 或 CONCAT(a, b)
13SELECT first_name || ' ' || last_name FROM users;
14-- 注意: PostgreSQL 對 NULL || x = NULL、MySQL CONCAT 對 NULL 處理不同
15
16-- 3. UPSERT
17-- MySQL
18INSERT INTO users (id, name) VALUES (1, 'Alice')
19ON DUPLICATE KEY UPDATE name = VALUES(name);
20-- PostgreSQL (9.5+)
21INSERT INTO users (id, name) VALUES (1, 'Alice')
22ON CONFLICT (id) DO UPDATE SET name = EXCLUDED.name;
23
24-- 4. Index hint / FORCE INDEX
25-- MySQL
26SELECT * FROM orders FORCE INDEX (idx_created_at) WHERE created_at > '2025-01-01';
27-- PostgreSQL: 沒對應 syntax、依賴 planner + statistics
28-- 必要時用 enable_seqscan=off 或 pg_hint_plan extension
29
30-- 5. JSON path
31-- MySQL 5.7+
32SELECT data->'$.name' FROM events;
33-- PostgreSQL
34SELECT data->'name' FROM events;
35SELECT data->>'name' FROM events;  -- 取出 text

5 個 sample 看出 MySQL → PostgreSQL 主要工作是 SQL dialect translation；不是 5-10 個函數差、是 跨整個 application SQL surface 的 audit + 改寫。對應 diff dimension audit 結果：

維度	評估	等級
Schema / API	SQL dialect 差大、CREATE TABLE / INDEX / function 都差	High
Operational model	兩者都 OLTP RDBMS、replication 概念對等但語法不同	Medium
Abstraction / paradigm	同 SQL RDBMS	Low
Number of components	同 1 個	Low
Application change	ORM 多數能 cover、raw SQL 必改	Medium

主導維度 Schema = High、走 Type A 6-phase playbook 標準結構。

Phase 0：rule audit + SQL surface 盤點

 1-- 1. 列所有 stored procedure
 2SELECT routine_schema, routine_name, routine_type
 3FROM information_schema.routines
 4WHERE routine_schema NOT IN ('mysql', 'sys', 'information_schema', 'performance_schema');
 5
 6-- 2. 列所有 trigger
 7SELECT trigger_name, event_object_table, action_statement
 8FROM information_schema.triggers;
 9
10-- 3. 列所有 view
11SELECT table_name, view_definition
12FROM information_schema.views;
13
14-- 4. 列所有 index 含 prefix length
15SHOW INDEX FROM users;
16-- PostgreSQL 對 prefix index 處理不同、要逐個 audit

Audit 主要產出三類清單：

Direct port：標準 SQL feature、PG 直接接受
Translate：MySQL-specific syntax、需要改寫（UPSERT / CONCAT NULL 行為 / index hint）
Refactor：MySQL-specific behavior（auto_increment session-level / SELECT FOUND_ROWS / GROUP BY 寬鬆 / TEXT 隱性 cast）— 不能直接 port、application code 也要改

Phase 1：schema 對位

MySQL	PostgreSQL
`INT AUTO_INCREMENT`	`INT GENERATED ALWAYS AS IDENTITY` 或 `SERIAL`
`TINYINT(1)` (boolean usage)	`BOOLEAN`
`DATETIME`	`TIMESTAMP WITHOUT TIME ZONE`
`DATETIME(6)` (microsecond)	`TIMESTAMP(6)`
`VARCHAR(N)` with charset	`VARCHAR(N)` (UTF-8 always)
`TEXT`	`TEXT` (no length limit)
`LONGTEXT`	`TEXT`
`JSON`	`JSONB` (推薦、indexed) 或 `JSON`
`ENUM('a','b','c')`	自定 `TYPE foo AS ENUM('a','b','c')` 或 `VARCHAR + CHECK`
`SET('a','b')`	Array `TEXT[]` + CHECK
`BINARY(N)`	`BYTEA`
Index prefix `KEY (col(10))`	Functional index `CREATE INDEX ON t (LEFT(col, 10))`
`FULLTEXT INDEX`	`tsvector` + GIN index
Geographic types	PostGIS extension（必須先裝）

Schema 對位表存版控、application code refactor 時對照。

Phase 2：Translation pipeline（3-tier 跟 Splunk → Elastic 類似）

Tier 1：vendor / community tool

1# pgloader：成熟工具、cover ~70-80% schema + data
2pgloader mysql://user:pass@mysql-host/dbname \
3         postgresql://user:pass@pg-host/dbname
4
5# 或 AWS DMS（managed、適合 RDS / Aurora target）
6# DMS task: Full Load + CDC

Tier 2：自家 SQL refactor

對 ORM 不能 cover 的 raw SQL：

Manual grep application code 找 auto_increment / ON DUPLICATE KEY / FORCE INDEX / FOUND_ROWS() / CONCAT NULL
寫 codemod / lint rule、CI 強制 check（PG-incompatible SQL block PR）

Tier 3：tricky case manual

例：MySQL SELECT * FROM t1, t2 WHERE t1.id = t2.id GROUP BY t1.id（implicit GROUP BY 寬鬆）— PG 嚴格 GROUP BY 必須 list 所有 non-aggregate column；application code refactor 必要。

Phase 3：Parallel run

雙寫 + 雙讀比對 1-2 個月：

1Application ──→ MySQL (write + read primary)
2            └─→ PostgreSQL (write only + read shadow)
3                                    ↓
4                            Diff checker (latency / result diff)

pt-table-checksum (MySQL) + 自家 checksum scanner 對 sample table 跑 daily checksum、找 schema 對位錯。

Phase 4：Cutover

設 application maintenance window（30 分鐘）
Drain MySQL write、等 last LSN propagated to PG
Application switch connection string → PG
解除 maintenance、monitor 24-48 hours

Phase 5：Cleanup

MySQL read-only 1-2 週（fallback window）
之後 stop replication、decommission MySQL

Production 故障演練

Case 1：Auto_increment vs SERIAL 跨 transaction 行為差

徵兆：cutover 後某 batch job 跑得比 MySQL 慢 5-10x、PG log 顯示 sequence 競爭。

根因：MySQL AUTO_INCREMENT 取值受 innodb_autoinc_lock_mode 控制（8.0 預設 mode=2 interleaved 可並行、mode=0 才是 table-level lock；詳見 Lock contention）、PG SERIAL 是 sequence-level non-transactional；mode=0 場景跟 PG SERIAL 差異最大、mode=2 跟 PG SERIAL 行為較接近（皆可亂號、皆可並行）。

修法：

改 UUID v7 / bigserial：消除 sequence 競爭
bigserial + cache：CREATE SEQUENCE ... CACHE 100、batch 預取 100 個 ID 降 contention
批量 insert 改 COPY：COPY t FROM STDIN 是 PG 對 batch 最快路徑

Case 2：Charset / collation 跑出 unicode 異常

徵兆：cutover 後某些用戶名 / 中文文字 query 對不到結果、SELECT * WHERE name = '張三' 返回空。

根因：MySQL default utf8mb3（3-byte UTF-8、不能存 emoji / 部分 unicode）、PG default UTF8 全 unicode；資料遷移時 MySQL 端的 utf8mb3 column 帶到 PG 後 bytes 不變 但 collation rule 變；string comparison 結果差。

修法：

Pre-migration audit：MySQL 強制 utf8mb4、avoid utf8mb3 data
Collation 對位：MySQL utf8mb4_unicode_ci → PG LC_COLLATE = 'C.utf8' 或 ICU collation
Application encoding contract：明示 UTF-8 全範圍、不接受 utf8mb3-only client

Case 3：Case sensitivity 反轉

徵兆：cutover 後 application query SELECT * FROM users 報錯 relation does not exist；但 SELECT * FROM "Users" works。

根因：MySQL Linux default table name case-sensitive、Windows case-insensitive、配置 lower_case_table_names 影響；PG all identifier folded to lowercase unless quoted。MySQL on macOS 開發環境是 case-insensitive、PG 嚴格 case-sensitive、application code 端可能用 mixed case。

修法：

Schema migration 階段強制 lowercase：所有 table / column name 統一 lowercase
Application code refactor：grep raw SQL 找 mixed case identifier、改 lowercase
ORM 端設定 naming_strategy：JPA / Hibernate 等明示 lowercase mapping

Case 4：Replication 行為差、CDC pipeline 失效

徵兆：MySQL 端 binlog-based CDC（Debezium MySQL connector）跑得好好的、cutover 後 PG 端要重建 CDC pipeline、初期 1-2 週 message 模式異常。

根因：MySQL binlog row format vs PG logical replication slot 完全不同 protocol；Debezium 對兩家連接器是獨立 binary、message schema 部分對等但不直通。

修法：

Pre-cutover 建 PG 端 CDC：Debezium PG connector 提前部署、初期跟 MySQL CDC 並存比對
Schema registry 同步：Avro schema 從 MySQL 端 export、註冊 PG 端 connector 用同 schema
Consumer 端 idempotent：cutover 期間 dual-source、consumer 必須 idempotent 避免 duplicate

Case 5：FULLTEXT INDEX 對應 tsvector、application search broken

徵兆：cutover 後 application 全文搜尋功能失效、MATCH(name) AGAINST('xxx') 不被 PG 認；application 端 raw SQL 對 search 寫死。

根因：MySQL FULLTEXT INDEX + MATCH ... AGAINST syntax PG 不支援；PG 用 tsvector + ts_rank + to_tsquery、概念對等但 syntax 完全不同。

修法：

Pre-migration：列 application 用到的 fulltext search 場景、改寫成 tsvector pattern
大型 search 改 Elasticsearch / Meilisearch：fulltext 是專門 search engine 的本職、不該用 RDBMS 解
降級為 LIKE：簡單 case WHERE name ILIKE '%xxx%'、performance 較差但相容性好

Capacity / cost

維度	MySQL	PostgreSQL
Instance cost	對等（同 EC2 / RDS spec）	對等
Operational FTE	對等	對等
Connection pooling	proxysql / mysql-proxy	PgBouncer（更成熟）
Index performance	對等	對等
JSON performance	Improving	JSONB 領先
Replication	Async binlog	Async streaming + logical
Extension ecosystem	少	大（PostGIS / TimescaleDB / pgvector）
Migration cost (one-time)	-	2-6 FTE 月 × project length（含 application）

Migration 主要 cost 在 application code refactor + dual-write window operational、不是 DB itself。

整合 / 下一步

跟 PostgreSQL → Aurora migration 串接

部分組織走 MySQL → PostgreSQL → Aurora 兩段：

先 MySQL → self-managed PostgreSQL（schema 對位 + application 改）
穩定後 self-managed PostgreSQL → Aurora（operational simplification）

不要一次跑 MySQL → Aurora PostgreSQL compat、認知負擔太大、failure mode 互相干擾。

跟 Logical Replication + Debezium 對位

PG 端 CDC pipeline 在 cutover 完成後立刻可用；可作為 downstream CDC 重建 的契機、設計 outbox pattern 更穩。

下一步議題

MySQL 8 vs PostgreSQL 16 feature gap：MySQL 8 加了 CTE / window function / generated column；2025+ feature parity 漸高、migration ROI 評估會變
Reverse migration（PG → MySQL）：少見、通常是 application 端 dependency lock-in（用了 MySQL-specific stored procedure）
MariaDB → PostgreSQL：跟 MySQL → PG 類似、MariaDB 部分 syntax 略接近 PG（如 RETURNING）

New Relic → Datadog：APM schema 對位 + agent 替換 + dashboard 重建

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link New Relic 跟 Datadog。跑 migration-playbook-methodology 6 維 audit 後對映 Schema = High（NRQL ↔ Datadog query、APM agent 不同）→ Type A phased translation。

問題情境

中型 SaaS 跑 New Relic 3-5 年、production observability 飽和、團隊發現幾個問題：cost 暴漲（per-host APM + custom event + synthetic）、APM trace 對 Kubernetes-native workload 不夠細、跟 PagerDuty / Slack integration 雖然有但 latency 偏高。同期 Datadog 在 K8s monitoring + APM 端深度整合、cost model 在 100-500 host 規模更可預測。

評估遷移時、發現 New Relic → Datadog 不是「換個 agent 就好」 — APM schema、NRQL 查詢語言、custom dashboard、synthetic monitoring rule 全部要 重新對位；application code 端的 agent 也要 完全換 binary。是 Type A 高 schema 差 migration、不是 drop-in。

為什麼遷：cost / k8s-native / vendor consolidation 三條 driver

Driver	觸發場景
Cost	New Relic per-host pricing + custom event + synthetic 加總爆、Datadog 在 K8s 場景單 host 多 container 更划算
K8s-native	Datadog agent 對 K8s sidecar / DaemonSet / autodiscovery 更深
Vendor consolidation	已用 Datadog log / metric、APM 統一 vendor 降工具切換 cost

反向 driver（Datadog → New Relic）：

New Relic 對 full-stack observability（APM + browser + mobile + synthetic）的整合包仍領先
已深用 New Relic NRQL 跟 New Relic University 培訓的 organization、不切

Schema 對位

New Relic concept	Datadog 對應
APM agent (NR Java / Python / Node)	Datadog agent + APM tracer library
NRQL query	Datadog query (Metric / Log / Trace)
Synthetic monitor	Datadog Synthetic Tests
Custom event	Datadog custom metric / log event
NRQL alert condition	Datadog monitor
New Relic dashboard	Datadog dashboard (need rebuild)
Apdex score	Datadog APM `apm.service.errors` + `apm.service.latency`
Distributed trace	Datadog APM trace（OpenTelemetry-compatible）

Phase 0：Audit + classify

列所有 application 跟對應 NR agent version
列所有 NRQL alert / dashboard / synthetic monitor
估每月 cost 跟 Datadog 對比

Phase 1：Schema 對位 + Datadog cluster 建置

Datadog organization 申請 / IAM integration
VPC peering / private link (如果用 self-hosted agent)

Phase 2：Translation pipeline (3-tier)

Tier 1: Datadog 端 import tool（API-based NRQL → Datadog query 轉換、cover ~40-60%）
Tier 2: LLM-assisted（剩餘 query / dashboard）
Tier 3: manual (synthetic / complex correlation)

Phase 3：Parallel run (dual-agent 4-8 週)

兩個 agent 跑同 application、metric / trace / log 雙端輸出、SOC 比對 detection coverage / alert / dashboard 一致性。

Phase 4：Cutover + cleanup

Application 端切 agent
New Relic license downgrade / cancel
Decommission timeline 3-6 個月（保留歷史查詢能力）

Production 故障演練

Case 1：NRQL 不直接對位 Datadog query

徵兆：NRQL SELECT count(*) FROM Transaction FACET name WHERE duration > 5 SINCE 1 hour ago 在 Datadog 端需要拆 metric query + filter + group by；翻譯後語意對等但 syntax 完全不同、SOC analyst 學習曲線陡。

修法：

翻譯腳本 + LLM-assisted、保留 NRQL 字面 + Datadog query 對照表（runbook）
SOC training，1-2 週 hands-on
部分 query 改 Datadog dashboard widget、不用直接 query

Case 2：Synthetic monitor 對位失敗

徵兆：NR Synthetic 跑 100+ ping / browser / API test、切 Datadog Synthetic 後發現 step-based monitor 對應的「Browser Test」配置複雜、setup 工作量 2-3 倍預估。

修法：

Pre-cutover 跑 sample synthetic、估真實 setup cost
優先遷 critical synthetic、其他評估退役
用 Datadog API + Terraform 自動化、避免 UI 手動建

Case 3：Cost 模型反轉

徵兆：cutover 後第一個月 Datadog 帳單比 NR 高 30%；breakdown 後發現 log retention + custom metric series + log indexing 三個項目超預估。

修法：

Pre-migration 估 Datadog cost 必須含 log indexing pricing（按 indexed event 計）、不是純 ingest
Application 端 log scrub PII + sample debug log、降 ingest GB
Custom metric cardinality control（tag combination 爆 series count）

Case 4：Dashboard 自動轉失敗、人工 rebuild 80%

徵兆：用 Datadog import tool 跑 NR dashboard、80% widget 缺 / 對應錯；team 估 2 週 dashboard rebuild、實際跑 6-8 週。

修法：

接受重建：production dashboard 必須人工重建、不要期待自動轉
Prioritize：先重建 SOC critical 30%、其他 deprecate
Migration window 增 4-6 週：dashboard rebuild 是 underestimated effort

Case 5：Cross-platform metric 命名差

徵兆：NR 端 metric Apdex/Apdex 在 Datadog 沒對應、application code 寫死 metric name 失效；alert query 對 NR-specific metric 全失效。

修法：

Pre-cutover 列所有 NR-specific metric、application code 改用 OpenTelemetry-style metric 命名
Datadog query 端 rebuild、用 application-level metric name 而非 vendor-specific
長期：metric naming 用 OpenTelemetry semantic conventions、避免 vendor lock

Capacity / cost

維度	New Relic	Datadog
Pricing model	per-host + custom event / synthetic	per-host APM + log indexing + custom metric
K8s-friendly	中、autodiscovery 有但配置複雜	高、K8s-native autodiscovery first-class
Migration cost	-	2-4 FTE × 2-3 個月
Operational FTE	0.3-0.6	0.3-0.6（相當）

整合 / 下一步

跟 Datadog → Grafana Stack migration 對位

兩種 Datadog 端的後續路線：

切到 Datadog 後 繼續用（穩定 multi-year）
切到 Datadog 後 再切 Grafana Stack 省 cost（multi-tool 拆分、Type D）

多數 organization 第一輪 NR → Datadog 已花 2-3 個月、不會立刻再切；至少穩定 1-2 年。

跟 OpenTelemetry 對齊

Migration 順便升 OTel 化 application、避免下次 vendor 切換重複工作量。

Self-managed Prometheus → Grafana Cloud Metrics：feature × ops × cost 對照

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link Prometheus 跟 Grafana Stack（Grafana Cloud Metrics、Mimir-backed）。跑 migration-playbook-methodology 6 維 audit 後對映 Operational = High → Type C operational redesign hybrid。

Feature / ops / cost 三維對照

維度	Self-managed Prometheus	Grafana Cloud Metrics
Storage backend	Local disk + remote_write (optional)	Mimir + S3 (auto cold tier)
Retention	TSDB local 15 天 default	13 個月 default、可延長
HA	Two Prometheus + sidecar	Built-in multi-AZ
Cardinality limit	自管 limit + recording rule	1.5M active series / tier、scale-up 配額
Query API	PromQL + Prometheus HTTP API	完全相容
Alert	Alertmanager self-managed	Grafana Cloud Alerting
Dashboard	Grafana self-managed	Grafana Cloud (included)
Long-term storage	Thanos / Cortex / Mimir 自管	Mimir 內建
Cost (mid-tier)	$500-2000 / mo + ops FTE	$300-1500 / mo (按 series)
Operational FTE	0.3-0.8	0.05-0.15

跑 6 維 diff dimension audit：

維度	等級
Schema / API	Low（PromQL + API 完全相容）
Operational	High（HA / retention / scaling 全託管）
Paradigm	Low（同 Prometheus metric paradigm）
Components	Low
Application change	Low（remote_write endpoint 改）
Data topology	Low

Operational = High → Type C standard。

為什麼遷：retention / ops / vendor consolidation 三條 driver

Driver	觸發
Retention	Prometheus TSDB local 預設 15 天、長期 retention 需要 Thanos / Cortex / Mimir 自管
Ops FTE	Self-managed Prometheus + Alertmanager + Grafana 自管全部加起來 0.5-1 FTE
Vendor consolidation	已用 Grafana Cloud（logs / traces）、metric 加進 stack 統一

Operational redesign

Concept	Self-managed	Grafana Cloud Metrics
Cluster bootstrap	Helm chart + manual config	UI 一鍵建
HA	Two Prometheus 配置	內建 multi-AZ Mimir
Long-term retention	Thanos / Cortex / Mimir 自管	Built-in (S3-backed)
Cardinality control	Manual recording rule + relabel	Adaptive sampling + cardinality limit
Alerting	Alertmanager 自管	Grafana Cloud Alerting (integrated)
Dashboard	Grafana self-host	Grafana Cloud (free tier 包含)

Migration 4-phase

Phase 0：Audit

列所有 Prometheus job / scrape config
統計 active series 數（Mimir tier 計費基準）
估 retention 需求

Phase 1：Grafana Cloud setup

Account + organization 設定
API key for remote_write
Grafana Cloud Mimir endpoint 啟用

Phase 2：Dual-write

 1# prometheus.yml
 2remote_write:
 3  - url: https://prometheus-prod-XX-prod-us-central-0.grafana.net/api/prom/push
 4    basic_auth:
 5      username: 
 6      password: 
 7    write_relabel_configs:
 8      # Optional: drop high-cardinality before sending
 9      - source_labels: [__name__]
10        regex: 'high_card_metric_.*'
11        action: drop

跑 4-8 週、確認 query 結果一致 + cost 在預期。

Phase 3：Cutover

Dashboard / alert 切到 Grafana Cloud endpoint
應用層 / Grafana 自管 instance 關閉 query 對 self-managed Prometheus

Phase 4：Cleanup

Self-managed Prometheus stop scrape
留 1-2 月歷史查詢能力（用 archive snapshot）
Decommission

Production 故障演練

Case 1：Cardinality 爆、cost 暴漲

徵兆：dual-write 第 2 週 Grafana Cloud series 從預估 100K 漲到 800K、cost 翻 8 倍。

根因：application-level high-cardinality label（user_id / request_id）沒被 drop、scraped 進來。

修法：

write_relabel_configs drop unbounded label
Application metric 設計改 fixed-bucket histogram、不用 unbounded label
Mimir cardinality limit 設保護 + alert

Case 2：Recording rule 對應失效

徵兆：cutover 後 Grafana dashboard 某些 panel 顯示空；發現用了 Prometheus 端 recording rule (job:request_count:rate5m)、Grafana Cloud 端沒對應 rule。

根因：Prometheus 端 recording rule 是 server-side、不會跟著 remote_write 帶過去；Grafana Cloud 需要自己 setup recording rule。

修法：

Export 所有 recording rule、import 到 Grafana Cloud Mimir
或改用 raw query + Grafana query template、不依賴 recording rule

Case 3：PromQL 微差行為

徵兆：某些 query 在 self-managed Prometheus 跑得好好的、切 Grafana Cloud Mimir 後 returns slightly different results。

根因：Mimir 對某些 edge case（empty result handling / staleness marker timing）行為跟 Prometheus 略不同；多數 query 一致、< 1% query 受影響。

修法：

Pre-cutover dual-query 驗證、用 critical dashboard 比對
Affected query 重寫、用更 robust PromQL pattern
文件 known incompatibility list

Case 4：Alert routing 改變

徵兆：Cutover 後 PagerDuty / Slack 收不到 alert；發現 Alertmanager 端 webhook 沒切。

根因：alert 邏輯從 self-managed Alertmanager 搬到 Grafana Cloud Alerting、routing / contact 配置完全重做。

修法：

Pre-cutover 在 Grafana Cloud 端 rebuild alert + routing
雙 alert pipeline 跑 1-2 週、確認 Grafana Cloud 收到
Cutover 切 routing、SOC drill 一次

Case 5：歷史資料查不到

徵兆：Cutover 後 SOC 想 query 6 個月前事件、Grafana Cloud 只有 2 個月（dual-write 後的）資料。

根因：Grafana Cloud 從 dual-write 開始才有資料、之前的 self-managed Prometheus historical data 沒 backfill。

修法：

Phase 2 期間用 promtool tsdb dump + mimirtool 把 self-managed historical 灌進 Mimir
或保留 self-managed Prometheus read-only 6 個月（給 historical query）
Long-term：retention 從 cutover 開始算、historical 是 one-time backfill

Capacity / cost

維度	Self-managed	Grafana Cloud Metrics
Compute (100 host, 100K series)	$500-1000 / mo + ops	$300-800 / mo
Operational FTE	0.3-0.8 = $3K-8K	0.05-0.15 = $500-1500
Long-term retention	Thanos / Cortex / Mimir 自管	Built-in 13 個月
Total (mid-tier)	$4K-9K / mo (含 FTE)	$1K-2.5K / mo
Migration cost	-	1-2 FTE × 1-2 個月

整合 / 下一步

跟 Datadog → Grafana Stack migration 對位

兩條 Grafana Stack 路線：

Self-host (Mimir + Loki + Tempo) on K8s：開源、自管
Grafana Cloud：SaaS、operational simplification

本篇是「self-managed Prometheus → Grafana Cloud」、互補；如果跑兩階段（self-host → Cloud）跟「Datadog → Grafana Cloud」差不多。

跟 OpenTelemetry 整合

OTel Collector 可同時 ship 到 Mimir (metric) + Loki (log) + Tempo (trace)；Migration 順便升 OTel 化避免下次 vendor 切換重複。

Sentry → Honeycomb：trace 不是 error、是不同 observability paradigm

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link Sentry 跟 Honeycomb。跑 migration-playbook-methodology 6 維 audit 後對映 Paradigm = High（error tracking ↔ wide-event observability）→ Type E paradigm shift。

Trace 不是 error、是不同 paradigm

把 Sentry → Honeycomb 當「trace tool 替換」是最常見的誤判 — Sentry trace 是 error 上下文、Honeycomb trace 是 observability 第一性：

概念	Sentry	Honeycomb
核心 paradigm	Error tracking + transaction trace	High-cardinality wide-event observability
第一性 unit	Error event	Wide event (span with N fields)
Trace 角色	Error 的「附帶 context」	Observability 主軸、每 event 是 trace span
Sampling	Error 全收 + transaction sample	Adaptive sampling、保留 anomaly
Query model	Filter + group by + aggregation	High-cardinality 多維 query (BubbleUp / heatmap)
User base	Developer (debug error)	SRE + Platform (debug system behavior)
Cost model	Per-error event + transaction	Per-event (wide event volume)

核心差異不在「Honeycomb 是 better Sentry」、在「兩者是不同 observability paradigm」：

Sentry 適合 application-level error debug — 拿到 error stack trace + minimal context、快速 fix
Honeycomb 適合 system-level behavior debug — 看流量分佈 / 多維 correlation / 異常 outlier、找 為什麼這個 user 在這個時段在這個 endpoint 慢

Migration scope 包含 paradigm reset — 不是 SDK 換、是 SRE / Dev team 對 observability 的心智模型重設。

為什麼遷：observability 成熟度 / cardinality / cost 三條 driver

Driver	觸發
Observability 成熟度	Application 規模到跨多 service / multi-tenant、Sentry error tracking 不夠細、SRE 要看 high-cardinality 多維 query
High-cardinality	Sentry tag system 限制 cardinality（~1000 unique value）、Honeycomb native 支援 millions cardinality
Cost	Per-error pricing 對 high-error volume 場景爆、Honeycomb per-event 在 wide event 場景更可預測

反向 driver（Honeycomb → Sentry）：

Pure error tracking 場景、Honeycomb wide-event 過度設計
Frontend / mobile 客戶端 error tracking、Sentry 對 web/mobile/desktop SDK 成熟度高

6 維 audit

維度	等級
Schema / API	Medium（event schema 概念不同、SDK 完全換）
Operational	Low（兩者都 SaaS、operational 對等）
Paradigm	High（error tracking ↔ wide-event observability）
Components	Low（同 1 個 observability vendor）
Application change	High（SDK 換 + instrumentation 重設計）
Data topology	Low

Paradigm = High（其他 Low-Medium）→ Type E paradigm shift；application change 雖 High 但是 paradigm 的 downstream。

結構：partial migration + 混合架構是 long-term default

跟 Kafka ↔ NATS / Redis → Memcached 同 Type E pattern：

不存在 complete migration：Sentry 對 frontend error tracking 強項、Honeycomb 對 backend system observability 強項
長期混合架構：frontend / mobile 保留 Sentry、backend / SRE 走 Honeycomb
Application 重設計：instrumentation 用 OpenTelemetry、避免 vendor SDK lock-in

Application 重設計範例

 1# Before: Sentry SDK
 2import sentry_sdk
 3sentry_sdk.init(dsn='https://x@sentry.io/y')
 4
 5try:
 6    process_order(order_id)
 7except Exception as e:
 8    sentry_sdk.capture_exception(e)
 9    raise
10
11# After: OpenTelemetry + Honeycomb
12from opentelemetry import trace
13from opentelemetry.sdk.trace import TracerProvider
14from opentelemetry.sdk.trace.export import BatchSpanProcessor
15from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
16
17trace.set_tracer_provider(TracerProvider())
18trace.get_tracer_provider().add_span_processor(
19    BatchSpanProcessor(OTLPSpanExporter(endpoint='https://api.honeycomb.io', headers={'x-honeycomb-team': 'YOUR_API_KEY'}))
20)
21tracer = trace.get_tracer(__name__)
22
23with tracer.start_as_current_span('process_order') as span:
24    span.set_attribute('order.id', order_id)
25    span.set_attribute('user.id', user_id)
26    span.set_attribute('order.amount', order.amount)  # high-cardinality 自然
27    span.set_attribute('order.region', region)
28    try:
29        process_order(order_id)
30        span.set_status(trace.Status(trace.StatusCode.OK))
31    except Exception as e:
32        span.set_status(trace.Status(trace.StatusCode.ERROR, str(e)))
33        span.record_exception(e)
34        raise

差異：

Sentry 只 capture exception + 簡 context
Honeycomb 對每 operation 寫 wide event 含 high-cardinality field（user.id / order.amount / order.region）
SRE 端能跑 WHERE order.region = "us-west-2" AND duration > 5000 的 multi-dim query

Migration 流程

 11. Audit application：列所有 Sentry SDK 使用 + capture pattern
 22. 分類處理 plan:
 3   - Pure error tracking (frontend): 保留 Sentry
 4   - Backend system trace: 切 Honeycomb / OTel
 5   - Error + context (混合): 雙寫期 evaluate
 63. OpenTelemetry instrumentation 化:
 7   - 用 OTel SDK 取代 vendor SDK
 8   - Honeycomb 是 OTLP target、跟 vendor lock 解耦
 94. Backend application 切 Honeycomb (3-6 個月)
105. Frontend / mobile 保留 Sentry
116. SRE training: Honeycomb BubbleUp / heatmap / multi-dim query

Production 故障演練

Case 1：Event schema 對位失敗、SRE 不會用 BubbleUp

徵兆：切 Honeycomb 後 SRE 用 Sentry 思維 — 找 error → fix；Honeycomb BubbleUp / heatmap 沒人會用、observability 退化到 只看 error count。

根因：Sentry → Honeycomb migration 不只是 tool 換、是 observability mindset 換；SRE 沒培訓 wide-event query / BubbleUp anomaly detection。

修法：

SRE training：1-2 週 hands-on Honeycomb BubbleUp + heatmap + multi-dim query
Migration scope 含 sample query playbook：每個 incident type 對應 Honeycomb query 寫成 runbook
保留 Sentry frontend / mobile：不要逼 SRE 全切、保留 paradigm fit 的部分

Case 2：Sampling 行為差、production cost 飛

徵兆：切 Honeycomb 後第 1 個月 event volume 比 Sentry 高 100x；帳單暴漲。

根因：Sentry 對 transaction 端 sample（10% 預設）、error 全收；Honeycomb 端 每 span 都 wide event、application 端沒設 sampling 全送、event volume 爆。

修法：

Honeycomb Refinery (sampling proxy)：deploy refinery 在 application 端跟 Honeycomb 之間、tail-based sampling
Sample rule：保留 anomaly (error / slow / outlier)、drop boring success 90%+
Cost monitoring 第一週密集：cardinality + event volume + cost dashboard、catch 預期外 spike

Case 3：Error grouping 失效

徵兆：切 Honeycomb 後 相似 error 沒被 group 成「同類 issue」、SRE 看每 event 獨立、failure 模式淹沒在 noise。

根因：Sentry 自動 error grouping (by stack trace fingerprint)、Honeycomb 沒對等 — wide event 是 first-class、event grouping 需要 application 端 explicit 設 error.type field。

修法：

Application 端設 error type field：span.set_attribute('error.type', exception_class)
Honeycomb derived column：用 derived column 算 error fingerprint
保留 Sentry error tracking：純 error grouping 場景 Sentry 強項、別硬切

Case 4：Cost 模型差、預估錯

徵兆：切 Honeycomb 後預估 50% cost saving、實際只省 10-15%。

根因：Sentry per-error pricing 對 error-heavy application 貴；Honeycomb per-event pricing 對 wide event volume application 貴；如果 application 是 event volume 高但 error 少、Honeycomb 反而貴。

修法：

Pre-migration 估：用 OTel pilot 跑 1-2 週、估真實 event volume
Sample rule 設計：retention 7 天 hot + 30 天 cold + 1 年 archive、降 cost
混合架構保留：frontend / mobile 走 Sentry、backend 走 Honeycomb、避免一邊 cost 爆

Case 5：Alert paradigm 不對等

徵兆：Sentry alert 簡單（error rate / latency p99 threshold）、Honeycomb trigger 配置複雜（SLO + burn rate + BubbleUp）；SOC 學習曲線 1-2 個月。

修法：

Migration 含 alert rebuild scope：Honeycomb trigger 不直接對位 Sentry alert、要重寫
SLO-driven alert：用 Honeycomb SLO 取代 Sentry threshold alert、降 alert fatigue
PagerDuty integration：兩家都支援、routing rule 跟 dedup 要 review

Capacity / cost

維度	Sentry	Honeycomb
Pricing model	Per-error + transaction	Per-event (wide event)
Cost (mid-tier)	$500-2000 / mo	$400-3000 / mo (依 event volume)
Sampling	Built-in transaction sampling	Refinery (additional component)
Cardinality	~1000 unique value / tag	Millions / field
Application complexity	Low (SDK + capture exception)	Medium (OTel + wide event instrument)
Migration cost	-	2-4 FTE × 2-3 個月

整合 / 下一步

跟 OpenTelemetry 整合

OTel 是 vendor-neutral instrumentation、Honeycomb 是 OTLP backend；application 端 OTel 化後可以同時 ship 到多個 backend（dev 端 Jaeger / production 端 Honeycomb / fallback 端 Tempo）。

跟 Datadog → Grafana Stack 對位

兩條 observability 路線：

Grafana Stack (Mimir / Loki / Tempo)：self-host or Grafana Cloud、open source baseline
Honeycomb：SaaS-only、focus wide-event observability

選擇取決於 observability paradigm：trace-heavy 走 Tempo / Honeycomb、metric-heavy 走 Mimir / Datadog。

Terraform → OpenTofu：HCL 跟 state file 級 drop-in、CI runner 切 binary 完成

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link Terraform（source）跟 OpenTofu（target）。Type B drop-in migration 標準形態、跑 migration-playbook-methodology 6 維 audit 後對映 6 維皆 Low → Type B drop-in；本文驗證 skill 的 Type B anatomy 在 IaC 領域成立。

HCL / state file / provider 三層 diff sample

跟前批 Redis → DragonflyDB 同為 Type B drop-in、本文用 code-led entry — 直接給 3 種 diff sample 證明「真 drop-in」：

1# 1. HCL syntax: 完全相同 (Terraform 1.5.x baseline)
2resource "aws_s3_bucket" "logs" {
3  bucket = "myapp-logs"
4  tags = {
5    Env = "production"
6  }
7}
8# 兩家 binary 都接受、執行結果一致

 1# 2. State file: 完全相同 schema
 2$ cat terraform.tfstate | jq '.version, .terraform_version'
 34
 4"1.5.7"
 5
 6# 切 OpenTofu 後 re-init、state 保留
 7$ tofu init
 8$ cat terraform.tfstate | jq '.version, .terraform_version'
 94
10"1.6.0"  # tool version 標記變、其他不變

 1# 3. Provider: registry 路徑唯一明顯差異
 2terraform {
 3  required_providers {
 4    aws = {
 5      source  = "hashicorp/aws"     # 兩家共用 source 字串
 6      version = "~> 5.0"
 7    }
 8  }
 9}
10# Terraform 從 registry.terraform.io 拉
11# OpenTofu 預設從 registry.opentofu.org 拉 (fallback 到 terraform registry)

3 層 diff sample 顯示：HCL / state schema / 主流 provider 配置完全相容；唯一明顯差異在 registry routing。

跑 6 維 diff dimension audit：

維度	評估	等級
Schema / API	HCL 完全相容、CLI command 對映 (terraform → tofu)	Low
Operational model	同 workflow (init / plan / apply)	Low
Paradigm	同 IaC declarative	Low
Components	同 single binary	Low
Application change	無（不是 application、是 infrastructure tool）	Low
Data topology	同 single state file backend	Low

6 維皆 Low → Type B drop-in。

為什麼遷：license / governance / community 三條 driver

跟前批 Redis → DragonflyDB 不同（cost / performance driver）、Terraform → OpenTofu 主要 driver 在 governance：

Driver	觸發場景
License	Terraform 在 2023-08 改 BSL（Business Source License）、商業使用限制；OpenTofu 維持 MPL 2.0 開源
Vendor neutrality	多雲 / 多客戶情境想避免 HashiCorp lock-in、用 Linux Foundation 治理的 OpenTofu
Community / feature	OpenTofu 1.6+ 加 state encryption、跟 Terraform 商業版差異化、社群驅動 feature

反向 driver（OpenTofu → Terraform）：

Terraform Cloud / Enterprise 特定 feature 依賴（policy as code 用 Sentinel、跟 OpenTofu 自家 OPA 不對等）
既有 module 在 Terraform registry 維護、未同步 OpenTofu registry

相容性 audit

Pre-cutover 必跑：

議題	處理方式
Terraform version pin（`required_version = ">= 1.5.0, < 1.6.0"`）	改 `>= 1.6.0` 涵蓋 OpenTofu / 移除 upper bound
Provider 來源 (registry path)	主流 provider（aws / azurerm / gcp / k8s）都同源、自家 / 第三方 provider 確認 OpenTofu registry mirror
Terraform Cloud / Enterprise feature	Sentinel policy → OpenTofu OPA / Conftest；workspace API 對等性逐項 check
CLI binary name 在 CI pipeline	`terraform plan` → `tofu plan`、或 alias `terraform=tofu` 保留兼容
State backend (S3 / GCS / Azure / Consul / Terraform Cloud)	S3/GCS/Azure 完全相容；Consul backend 兩家都支援；Terraform Cloud 走自家 remote backend、不直通
Module source	git-based module 完全相容；registry module 確認 OpenTofu registry 有 mirror

Audit output：列「100% drop-in」block + 「需處理」block；後者通常 < 5% 範圍。

Step-by-step cutover

 1# 1. Install OpenTofu (跨 OS)
 2brew install opentofu                # macOS
 3snap install --classic opentofu      # Ubuntu
 4# https://opentofu.org/docs/intro/install/
 5
 6# 2. 在 workspace 跑 tofu init
 7$ cd terraform-workspace/
 8$ tofu init -upgrade
 9# 升級 provider / module、re-init backend、保留 state
10
11# 3. Plan diff（應該 = 0 changes）
12$ tofu plan
13# Plan: 0 to add, 0 to change, 0 to destroy.
14# 如果有 diff、表示 provider version 不對齊、檢查 lock file
15
16# 4. Apply（保險起見、staging 先跑）
17$ tofu apply
18
19# 5. CI / CD pipeline 切 binary
20# Before
21terraform init
22terraform plan -out=tfplan
23terraform apply tfplan
24
25# After
26tofu init
27tofu plan -out=tfplan
28tofu apply tfplan
29# 或保留 terraform 字面、用 alias / symlink

整個 cutover 通常 < 1 天（單 workspace）；多 workspace organization 視規模 1-4 週逐個切。

Production 故障演練

Case 1：Provider version drift、staging plan 出現意外 diff

徵兆：tofu plan 顯示 100+ resource 有 in-place update、實際業務沒改任何 config。

根因：.terraform.lock.hcl 鎖的 provider version 在 Terraform / OpenTofu registry 不一致（同 version 但 binary checksum 微差）；OpenTofu 在 init 時拉新 checksum、視為「provider 變了」。

修法：

預先對齊：tofu init -upgrade 重建 lock file、把 OpenTofu 端 checksum 寫進去
CI lockfile commit：lock file 進版控、不同 binary 端跑前先 lockfile 對齊
若 plan 仍有差異：通常是 provider 內部 schema 對 nil 值處理不同、用 lifecycle.ignore_changes 暫忽略、後續逐項 fix

Case 2：State file lock 機制微差

徵兆：兩個 CI pipeline 同時跑 tofu apply、其中一個應該 lock 拒絕、實際兩個都跑、production 端 race condition。

根因：Terraform DynamoDB lock 跟 OpenTofu lock 用相同 schema 但 lock_id 規則略不同；舊 lock entry 殘留時 OpenTofu 端解析失敗、視為「無 lock」繼續跑。

修法：

DynamoDB lock table 手動清舊 entry：cutover 期間先 aws dynamodb delete-item 清舊 lock
單向流量切換：cutover 期間 freeze 所有 CI、只一個 pipeline 跑、避免 race
架構：用 fully replicated lock backend（如 Consul）avoid backend-specific lock 怪異

Case 3：Terraform Cloud workspace 不能直接搬

徵兆：team 已用 Terraform Cloud workspace 跑 100+ pipeline、想切 OpenTofu、發現 terraform login / workspace API / VCS integration 全 HashiCorp-specific。

根因：OpenTofu 沒對等 Terraform Cloud 服務；自家 backend 用 S3 + Atlantis / Spacelift / env0 等第三方 platform 對接、不是 1:1 替代。

修法：

保留 Terraform Cloud 跑 production（OpenTofu 不替代）、用 OpenTofu 跑 dev / sandbox
遷出 Terraform Cloud：state 遷 S3 + 用 Atlantis 跑 PR-based plan/apply（mature open source）
評估 Spacelift / env0 商業替代、支援 OpenTofu + 對等 workspace feature

Case 4：CI pipeline 寫死 `terraform` binary name

徵兆：cutover 後 CI 跑 terraform plan 報「command not found」；team 100+ pipeline / GitHub Action / GitLab CI / shell script 都寫死 terraform。

根因：rollout 計畫沒 grep 全 organization 找 binary name 引用。

修法：

Alias 策略：CI image 內 ln -s /usr/local/bin/tofu /usr/local/bin/terraform、保留兼容 1-3 個月
逐步改 tofu：跟著 IaC team 修 pipeline file、target 100% 改完才 remove alias
架構：避免在 pipeline / script 寫死 binary、用 env variable IAC_BINARY=${IAC_BINARY:-tofu}

Case 5：Registry routing、自家 module 拉不到

徵兆：cutover 後 tofu init 對自家 private module 報「not found」；同 module 在 Terraform 端跑得好好的。

根因：private module 註冊在 Terraform Cloud private registry、OpenTofu 預設不知道這個 endpoint；需要顯式設 registry source URL。

修法：

顯式 source URL：source = "app.terraform.io/myorg/myapp/aws" 改 git source 或自架 module registry
架構：用 git-based module source（source = "git::ssh://git@github.com/myorg/myapp.git"）、避開 registry lock-in
長期：自家 module 同時 publish 到 OpenTofu registry / Terraform Cloud / git、跨 tool 兼容

Capacity / cost

維度	Terraform	OpenTofu
Binary cost	免費 (community edition)	免費（永遠）
Terraform Cloud cost	$20 / user / month、enterprise 高	無對等服務（用 Atlantis / Spacelift / env0）
State storage	S3 / 自家 backend、低	S3 / 自家 backend、低
Migration cost	-	1-5 person-day（含 audit + cutover + CI 改）
License risk	BSL 限制商業使用	MPL 2.0 開源、無 license risk
Long-term governance	HashiCorp 單一供應商	Linux Foundation + 多廠商貢獻

判讀：純 IaC 用戶切 OpenTofu 風險低 + 省 license 風險；重度依賴 Terraform Cloud feature 的 organization 保留或評估 commercial alternatives（Spacelift / env0）。

整合 / 下一步

跟 Atlantis / Spacelift / env0 整合

OpenTofu 沒對等 Terraform Cloud、需要 third-party orchestrator：

Atlantis：自架、開源、輕量、適合中小型 team
Spacelift：SaaS、policy as code、支援 OpenTofu first-class
env0：SaaS、cost estimation、workflow 完整

跟 Terragrunt 整合

Terragrunt（OpenTofu / Terraform 共用 wrapper）已支援 OpenTofu 1.6+；多環境配置抽象保留、底層 binary 切換無感。

反向 migration（OpenTofu → Terraform）

罕見、通常是 organization 走商業合約綁 HashiCorp Enterprise 才會做；流程鏡像對稱、注意 OpenTofu 1.6+ 自家 feature（state encryption / provider for_each）在 Terraform 端可能缺。

下一步議題

State encryption（OpenTofu 1.7+）：sensitive state 加密、Terraform 商業版才有對等 feature
跨 IaC tool（Pulumi / CDK）：Pulumi / AWS CDK 是不同 paradigm（imperative）、不在本 migration scope
Provider ecosystem 長期分裂：兩家 registry 自我演化、需要 quarterly review provider compat

Splunk → Elastic Security Detection Rule Migration：6 段 phased playbook 跟 5 大踩雷

Mon, 18 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 Splunk（source）跟 Elastic Security（target）兩個 vendor overview。Migration playbook 跟 vendor deep article methodology 的 6-section flow 不同 — 是 phased process（audit → translation → parallel run → cutover → cleanup）、強調 時間軸 跟 回退邊界。

為什麼遷：cost / multi-vendor / cloud-native 三條 driver

Splunk → Elastic 遷移在 2022+ 變主流選項、driver 通常三條疊加：

Driver	觸發場景
Cost	Splunk per-GB ingest pricing 在 5+ TB/day 規模累積到無法接受、Elastic fixed-tier pricing 可省 50-70%
Multi-vendor	想避免 SIEM lock-in、跟 Sentinel / Datadog Security 同時跑形成 portfolio
Cloud-native	已用 Elasticsearch / Kibana 做 application observability、想統一 stack 走 Elastic Cloud / ECK

反向 driver（Elastic → Splunk）也存在但少數 — 主要是 合規 / 政府客戶要 Splunk Cloud GovCloud、或 Splunk Premium ES 的 RBA + UEBA 成熟度仍領先。本文聚焦 Splunk → Elastic、反向流程結構相同但 schema 對位方向相反。

結構：phased migration 不是 6-section deep article

跟 single-feature deep article（Splunk RBA、Vault dynamic credential）不同、migration playbook 的核心是 time-sequenced phase + 回退邊界。6 段 phase：

Phase	內容	預估時長	回退邊界
Phase 0：rule audit	盤點 Splunk 端 rule、量化 precision / FP rate / alert volume	1-2 週	不影響 production
Phase 1：schema 對位	SPL ↔ KQL / ES	QL、CIM ↔ ECS、index ↔ data view 對應規格	1-2 週	不影響 production
Phase 2：translation	rule 一條條轉、AI-assisted + 人工 verify	4-12 週	翻譯失敗的 rule 退回 manual / 標 deferred
Phase 3：parallel run	兩 SIEM 同時跑、alert 兩邊產出、累積 confidence	4-8 週	切回單 Splunk、Elastic 端關 alert
Phase 4：cutover	alert routing 切到 Elastic、Splunk 仍 ingest 但不送 alert	1 週	routing 切回 Splunk、半小時內可逆
Phase 5：cleanup	Splunk ingest 停、歷史資料 archive 到 S3、license decommission	2-4 週	不可逆 — 過早走會失去歷史查詢能力

整個遷移週期 4-9 個月、跟 single deep article 1-2 小時完全不同 scale。

Phase 0：rule audit 建 baseline

遷移前必須先知道 current state：

-- Splunk rule 盤點
| rest /servicesNS/-/-/saved/searches
  splunk_server=local search="alert"
| where disabled=0
| eval rule_age=now()-strptime(updated, "%Y-%m-%dT%H:%M:%S")
| stats count, avg(rule_age) by app, owner

每條 rule 量化四個指標：

指標	怎麼算	用途
Alert volume / day	`index=_audit action=alert_fired rule_name=X` 過 30 天	高 volume 先翻、cutover 期間影響大
Precision (TP / total)	SOC review 過去 30 天 alert、標 TP / FP / unknown	低 precision 先翻（藉機 fix、不是直接複製問題）
Detection coverage	對應 MITRE ATT&CK technique	確認 Elastic 端有對應 coverage、不能漏 tactic
Owner / 維護狀態	rule 的 owner team + 最後 update 時間	Owner 失聯的 rule 翻譯成本爆、考慮直接退役

Audit 階段的關鍵決策：哪些 rule 不翻譯 — production 通常 30-50% rule 是 legacy / dead code / 已 deprecated；遷移是 清理機會、不是「全部複製過去」。

Phase 1：Schema 對位

Splunk 跟 Elastic 的 data model 沒有 1:1 mapping、必須先建對位 spec：

Splunk concept	Elastic 對應	對位難度
SPL search language	KQL（簡單）/ ES	QL（複雜 query、PG 14+ piped）	中、語法差距大但概念對齊
Index	Data view（read）/ data stream（write）	低、概念相同
CIM data model	Elastic Common Schema (ECS)	中、欄位命名差、有對照表（CIM→ECS open source）
Macros	Runtime fields / transforms / ingest pipeline	高、Splunk macro 是 SPL fragment、Elastic 沒對等概念
Lookups	Enrich processors / lookup index	中、邏輯對等但 lifecycle 管法不同
Correlation search	Detection rule（KQL / EQL / Threshold / ML）	中、Splunk 一條 search、Elastic 拆 rule type
Summary index	Transform / rollup	高、Splunk `tstats` summary index 概念複雜
Notable event	Alert + signal（Security app）	低、Elastic 7.x+ 已成熟
Saved search	Saved query	低
Dashboard	Kibana dashboard	中、Splunk XML/SimpleXML 跟 Kibana JSON 不可直接轉

Field mapping 是最大坑：Splunk 自由 schema（extract runtime）vs Elastic 強 type ECS。Splunk 端 src_ip 可能是 string；Elastic 端必須 source.ip 是 ip type — 任何 ingest pipeline 都要先把 raw event 轉成 ECS 結構。

Phase 2：Translation pipeline

實務 translation 用 3-tier hybrid：

Tier 1: vendor tool（cover 30-50%）

Elastic 官方提供 splunk-to-elastic migration assistant（SaaS / on-prem）— 對 簡單 SPL search 自動轉 KQL；cover ratio 視 SPL 複雜度而定。

Tier 2: LLM-assisted（cover 30-40%）

對 中等複雜 SPL（含 stats / eval / where）、用 Claude / GPT 翻譯：

1prompt template:
2"Convert this Splunk SPL to Elastic ES|QL. Preserve detection logic. List any
3unmappable functions.
4
5SPL:
6index=auth action=login user=* | bucket _time span=5m
7| stats count by user, src_ip, _time | where count > 10"

LLM output 必須 人工 verify：

對相同樣本資料跑 SPL vs ES|QL、output 對齊
FP rate 不能惡化
Threshold / window 對等（5m window 跟 5m window 對應）

Tier 3: manual（cover 10-30%）

剩下的是：

含 macro 跨 SPL fragment 的 rule（macro 必須先展開或 inline）
含 summary index 跟 tstats 的高效能 rule
用 transaction / streamstats 的 stateful query

這類 rule 翻譯成 KQL 邏輯後、通常 效能差 5-20x（Splunk summary index 是 precomputed、KQL 是 runtime）；要評估 改用 Elastic transform 或 接受效能下降。

Phase 3：Parallel run

雙 SIEM 同時跑是 最重要的 confidence-building 階段：

1                 ┌─→ Splunk ──→ alert ──┐
2data source ─┤                          ├─→ alert dedup ──→ SOAR / SOC
3                 └─→ Elastic ──→ alert ─┘

Dedup 策略：

Key：rule_name + event_id + timestamp_5min_bucket
Window：5-10 分鐘（兩端有不同處理 latency）
Routing：dedup 後送 SOAR、SOC 看「來自哪個 SIEM」標籤

跑 4-8 週累積：

指標	期望
Alert coverage 一致性	Elastic 抓到 Splunk 的 95%+ 對應 alert
FP rate 不惡化	Elastic FP / Splunk FP ≤ 1.2（允許 20% 浮動）
Detection latency 對等	Elastic 端 alert 時間在 Splunk 端 ± 5 分鐘內
Volume / day	Alert 總數兩端對齊（10% 內）

不對齊的 rule 退回 Phase 2 重新 translation；累積到 95%+ 對齊才能進 Phase 4。

Phase 4：Cutover — routing 切換

1Before cutover:
2  Splunk → SOAR (active routing)
3  Elastic → SOAR (parallel, marked test)
4
5After cutover:
6  Splunk → ingest 持續 / alert disabled
7  Elastic → SOAR (active routing)

Cutover 期間：

PagerDuty / Opsgenie 端 先建 Elastic integration、不立刻 disable Splunk
切換 dedup key 的 routing priority — 同一 alert 優先取 Elastic 那條
保留 Splunk ingest — 不立刻停、提供 fallback 半小時
SOC 24h 監視、無異常進入 Phase 5

回退邊界：cutover 失敗（Elastic 端 alert 大量遺漏 / 延遲）→ routing 切回 Splunk、Elastic 端 alert 再標 test、回 Phase 3。回退時間 30 分鐘內。

Phase 5：Cleanup — 不可逆階段

Splunk ingest 停、license decommission、歷史資料 archive：

1# 1. 歷史 archive 到 S3（Splunk DDAS / Smart Store / 第三方）
2splunk export ... | aws s3 cp - s3://splunk-archive/
3
4# 2. 確認 archive 可查（cold storage retrieve test）
5# 3. Splunk indexer disable / Splunk Cloud subscription downgrade

不可逆邊界：Splunk license 退掉、historical query 必須走 S3 + 重 ingest 才能跑、SLA 從即時變天級。決策關鍵：

法規 retention（GDPR / SOX / HIPAA）多久
Incident response 需要 historical query 的頻率
翻譯後的歷史資料 indexable in Elastic？多數情況 ECS 跟 CIM 結構差太大、historical 不直接可查

實務 default：Splunk Cloud 保留最低 tier 1 年、Elastic 接新資料；1 年後再評估 archive 策略。

Production 故障演練

Case 1：Macro 跨 SPL 沒對應 KQL function

徵兆：translation tool 把 macro \my_internal_lookup(…)`` 標 unmappable、人工翻譯後發現 macro 含 3 個巢狀 macro、共 80 行 SPL 邏輯；KQL 端拆成 5 個 runtime field + 2 個 ingest processor 才對等。

修法：

Audit 階段 用 splunk btool savedsearches list | grep 找所有 macro 使用點、估翻譯成本
Inline 策略：macro 在 5 處以下、直接 inline 到 detection rule、不重建 KQL macro
Ingest processor 策略：macro 是 資料轉換 邏輯、放 Elastic ingest pipeline、不放 detection rule
退役策略：macro 已 deprecated、不翻譯、把使用的 rule 一起退役

Case 2：Time zone parsing 差異

徵兆：parallel run 階段、Splunk 跟 Elastic 對同一個 raw event 解出的 _time 差 8 小時；dedup key 沒對齊、雙 alert 都觸發。

根因：Splunk _time 是 epoch、time zone 由 props.conf 端決定；Elastic ingest pipeline 用 date processor、time zone 預設 UTC。raw event 有 Asia/Taipei timestamp、Splunk 解 UTC、Elastic 解 local。

修法：

Ingest pipeline 統一：所有 raw event 在 ingest 時轉 UTC、不依賴 source-side time zone
dedup 容忍 window：dedup window 拉到 30 分鐘、cover time zone 漂移
schema 對位 spec 明示時區處理：Phase 1 spec 要列「所有時間戳統一 UTC」

Case 3：Summary index 翻譯效能爆

徵兆：Splunk 端 tstats count from datamodel=Authentication where _time>=-7d 跑 2 秒、翻譯成 KQL 後 Elastic 跑 45 秒；SOC dashboard 端 timeout。

根因：Splunk summary index 是 precomputed（小時 / 天聚合預先算好）、tstats 直接讀 summary；KQL 直接跑 search 是 raw event scan、效能差數量級。

修法：

Elastic Transform：Elastic 端建 continuous transform、把 raw event 預先 aggregate 到 transform index、KQL 查 transform index、效能對等
Rollup index（Elastic legacy）：給 metric-style data 用、deprecated 但仍可
接受 latency：dashboard query 可接受 30s、不必精準對等 Splunk

Case 4：Cutover 期間 PagerDuty dedup key 衝突

徵兆：cutover 後 24h、SOC 收到雙倍 alert；PagerDuty 兩條 incident 各標 splunk 跟 elastic source、實際是同一事件。

根因：PagerDuty 的 dedup key 用 rule_name + alert_id、Splunk alert_id 跟 Elastic signal_id 命名空間不同、PagerDuty 視為兩個獨立 incident。

修法：

預先設計 dedup key：用 rule_name + event_hash、不用 SIEM 內部 ID
PagerDuty routing rule：cutover 期間 disable Splunk source routing、不要靠 dedup
Phase 3 parallel run 期間就測試 dedup：不要拖到 cutover 才發現

Case 5：過早 decommission Splunk、歷史 incident 無法回溯

徵兆：cutover 後 6 個月、發生 incident、需要回查 12 個月前的 auth log；Splunk 已 decom、Elastic 端歷史資料缺、S3 archive 無索引、4 小時找不到 evidence。

根因：Cleanup phase 過早走、沒先做 historical query rehearsal；S3 archive 沒可用的索引層。

修法：

預防：Phase 5 前跑 5 個 historical query drill、驗證 incident response 時能用
架構：S3 archive 配 Elastic frozen tier（searchable snapshot）、6 個月 retrieve latency 接受
法規對齊：Cleanup 時間表必須跟 compliance retention requirement 對齊、不只是 cost-driven

Capacity / cost 對照

維度	Splunk Enterprise / Cloud	Elastic Security	取捨
Pricing model	per-GB ingest（昂貴 in scale）	fixed tier / data tier / per-resource	Elastic 5+ TB/day 規模便宜 50-70%
Ingest performance	強、Splunk forwarder 成熟	強、Elastic Agent / Filebeat	略接近、Splunk 對 unstructured raw 略優
Search performance	強、SPL + summary index	中、KQL runtime + transform	Splunk 對複雜 query 仍領先
Detection content	ES content + SOC content	Elastic Security 内建 detection rule + 開源	兩端都有、Elastic 對 cloud-native 較強
UEBA / ML	ES Premium UEBA、成熟	Elastic ML + 7.x+ rule type	Splunk 領先、Elastic 追趕中
Cloud-native	Splunk Cloud（managed but proprietary）	Elastic Cloud / ECK on K8s	Elastic 更 K8s-friendly
Lock-in	高（SPL / 自家 forwarder / ES app）	中（open-source core + commercial extension）	Elastic 較易遷出（理論上）
Total cost (5y, 10TB/day)	$5-15M USD	$1.5-5M USD	5-3 倍差

整合 / 下一步

跟 SOAR 整合

PagerDuty / Tines / Splunk SOAR：

cutover 期間 SOAR playbook 仍用 Splunk-shaped event、Phase 5 後改 Elastic-shaped
Playbook 內 SPL query 必須改寫 KQL / ES|QL、可 hybrid（短期保留 SOAR 端原 SPL 邏輯）

跟 case management 整合

Jira / ServiceNow / Elastic Cases：

Splunk notable → Jira ticket 用 link field 帶 splunk_url
Elastic alert → Jira 用 elastic_url
兩個 URL field 期間同時存在、Phase 5 後 archive

反向遷移（Elastic → Splunk）

結構 mirror 對稱、phase 仍 6 段、但 schema 對位方向相反：

KQL → SPL 翻譯（vendor tool 對等度低、ES|QL → SPL 更困難）
ECS → CIM 對位
多數企業不會反向遷、reverse migration 多半是合規驅動（特定客戶要 Splunk）

下一步議題

Multi-vendor SIEM portfolio：不選一家、Splunk + Elastic + Sentinel 同時跑、routing 邏輯按 cost / use case 切
AI-native detection：兩家都在發展、translation 流程可能再次重來
Compliance migration constraints：金融 / 政府客戶 SIEM migration 需通過 audit、phase 時間表會被拉長

ElastiCache → 自管 Redis / Valkey：脫離 managed 的遷移路徑

Mon, 22 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 AWS ElastiCache（source）跟 Redis / Valkey（target）。跑 6 維 diff dimension audit 後判定為 Type C operational redesign hybrid：engine 層相容（Low）但 operational model 差異大（IAM auth → password/ACL、CloudWatch → 自管監控、auto failover → Sentinel/自建 HA）。

為什麼從 managed 遷出

ElastiCache 遷出的 driver 通常不是 engine 層問題 — 它跑的就是 Redis 或 Valkey。常見遷出原因：

成本：managed premium 在大規模（數百 GB、多叢集）下比自管 + 運維人力更貴，尤其跨帳戶大量叢集時
跨雲或混合雲：業務需要在 GCP、Azure 或 on-prem 同時運行 cache 層，ElastiCache 只在 AWS
功能限制：ElastiCache 不支援所有 Redis module（RediSearch、RedisJSON 等），或 Valkey 8.x 新功能 ElastiCache 尚未上線
控制權：自管可以自訂 redis.conf、自選 kernel 參數、自決 upgrade 時機

資料搬遷用 RDB export + import 就完成，真正的工程量在 operational model 重建 — ElastiCache 幫你管的 HA、monitoring、backup、security，遷出後全要自建。

6 維 diff dimension audit

維度	評估	等級
Schema / API	同 Redis/Valkey engine、RESP 相容	Low
Operational model	IAM auth → ACL/password、CloudWatch → 自管監控、auto failover → Sentinel 或手動	High
Abstraction / paradigm	相同（key-value cache）	Low
Number of components	ElastiCache 1 → Redis/Valkey + Sentinel/HA + 監控 + backup 多元件	Medium
Application change	endpoint 換、認證方式換、少量 client config 修改	Low-Medium
Data topology	RDB 相容、cluster mode 對應 Redis Cluster	Low

Operational model 是 High — 這是 Type C 的判定依據。遷移重心在重建 ElastiCache 幫你做的那些事。

階段一：盤點 ElastiCache 依賴

在動手之前，先列出 ElastiCache 幫你管的所有東西，每一項都要在自管環境重建或決定不要。

認證與網路

IAM auth：ElastiCache 支援 IAM auth token（短效 token），自管 Redis 改用 requirepass 或 Redis 6+ ACL
VPC / Security Group：自管 Redis 仍需 VPC 隔離，但 security group 規則要自己維護
TLS：ElastiCache 原生 in-transit encryption，自管要自己配 redis TLS 憑證

高可用

Auto failover：ElastiCache 自動偵測 primary failure 並 promote replica。自管用 Sentinel HA failover 或 Redis Cluster 內建 failover
Cross-AZ replication：ElastiCache 自動跨 AZ。自管要自己在不同 AZ 部署 replica

監控與備份

CloudWatch metrics：ElastiCache 自動發 CurrConnections、CacheHitRate、ReplicationLag 等。自管用 INFO 指令 + Prometheus redis_exporter
Snapshot：ElastiCache 自動 daily snapshot + 手動 snapshot。自管用 BGSAVE + cron + 外部 storage

跨 region replication

Global Datastore：ElastiCache 支援跨 region active-passive replication。自管 Redis 沒有原生跨 region replication — 若目前使用 Global Datastore，遷出前需要決定是用 application-level replication、第三方工具（Redis Enterprise Active-Active）還是放棄跨 region cache 同步

升級與維護

Engine 升級：ElastiCache 在維護窗口自動或手動升級。自管要自己做 rolling upgrade
Patch：安全 patch 由 AWS 負責。自管要自己追蹤 CVE

階段二：建立自管環境

部署架構

最小 production 架構：1 primary + 1 replica + 3 Sentinel（或 Redis Cluster 3 primary + 3 replica）。

1# Docker Compose 驗證用（production 用 VM 或 K8s）
2# Primary
3docker run -d --name redis-primary -p 6379:6379 redis:7 \
4  redis-server --requirepass "$REDIS_PASSWORD" --appendonly yes
5
6# Replica
7docker run -d --name redis-replica -p 6380:6379 redis:7 \
8  redis-server --replicaof redis-primary 6379 \
9  --masterauth "$REDIS_PASSWORD" --requirepass "$REDIS_PASSWORD"

Sentinel 或 Redis Cluster 配置見 Sentinel HA Failover。

監控重建

ElastiCache CloudWatch metrics 對應的自管替代：

ElastiCache metric	自管替代	來源
CurrConnections	`connected_clients`	`INFO clients`
CacheHitRate	`keyspace_hits / (keyspace_hits + keyspace_misses)`	`INFO stats`
ReplicationLag	`master_repl_offset - slave_repl_offset`	`INFO replication`
EngineCPUUtilization	`used_cpu_sys + used_cpu_user`	`INFO cpu`
DatabaseMemoryUsagePercentage	`used_memory / maxmemory`	`INFO memory`
Evictions	`evicted_keys`	`INFO stats`

用 Prometheus redis_exporter 自動採集，接 Grafana dashboard。

Backup 重建

1# cron job: 每日 BGSAVE + 等完成 + 上傳 S3
2# LASTSAVE 回傳 Unix timestamp，BGSAVE 完成後 LASTSAVE 會更新
30 3 * * * BEFORE=$(redis-cli -a "$REDIS_PASSWORD" LASTSAVE) && \
4  redis-cli -a "$REDIS_PASSWORD" BGSAVE && \
5  while [ "$(redis-cli -a "$REDIS_PASSWORD" LASTSAVE)" = "$BEFORE" ]; do sleep 5; done && \
6  aws s3 cp /data/dump.rdb s3://backup-bucket/redis/$(date +\%Y\%m\%d).rdb

Production 建議搭配 persistence fork latency 的監控，確認 BGSAVE 的 fork 不會造成延遲 spike。

階段三：資料搬遷與切換

搬遷策略

ElastiCache 的資料搬遷有兩條路：

RDB export + import（適合 downtime 可接受的場景）：

ElastiCache 建立手動 snapshot
把 snapshot export 到 S3（ElastiCache console → Export snapshot）
下載 RDB 檔，放到自管 Redis 的資料目錄
重啟自管 Redis 載入 RDB

雙寫期間遷移（適合零停機需求）：

Application 同時寫 ElastiCache 和自管 Redis（雙寫）
讀取仍走 ElastiCache
監控自管 Redis 的資料量與命中率追上後，切讀取到自管
移除 ElastiCache 寫入
下線 ElastiCache

雙寫的複雜度高於 RDB export。Cache 資料可重建的特性讓第一種策略在多數場景夠用 — 短暫 cache miss 的代價是回源到 DB，通常可接受。

Endpoint 切換

Application 用 endpoint 連 ElastiCache。切換時：

把 application config 的 Redis host 改為自管 Redis endpoint
確認 TLS 與認證方式對齊（IAM token → password/ACL）
Rolling restart application
監控 cache hit rate 與 latency 回到 baseline

如果用 DNS CNAME 間接指向 ElastiCache endpoint，可以直接改 CNAME 指向自管 Redis，application 不用改 config。

階段四：驗證與回退

驗證清單

驗證項目	通過條件	工具
連線正常	application 能 PING、無 auth error	redis-cli + application log
資料完整	key count 跟 ElastiCache 一致（容許 TTL 過期差異）	`DBSIZE` 比對
效能 baseline	latency p99 與 hit rate 跟遷移前一致	Prometheus + Grafana
HA 測試	kill primary，Sentinel promote replica，application 自動重連	手動 failover drill
Backup 測試	BGSAVE 產生 RDB、上傳成功、可還原	還原到測試 instance 驗證

回退路徑

Cache 遷移的回退比 DB 遷移簡單 — cache 資料可重建。回退步驟：

Application config 改回 ElastiCache endpoint（或 CNAME 指回）
Rolling restart
Cache miss 回源到 DB，自然 warm up

ElastiCache 在遷移期間不要下線，保留 7-14 天作為回退保險。確認自管 Redis 穩定運行後再刪除 ElastiCache cluster。

成本對照

項目	ElastiCache	自管 Redis
Compute	managed node pricing（含 premium）	EC2 / K8s 原價
HA	auto failover 內建	Sentinel 或 Cluster 自建
監控	CloudWatch 內建	redis_exporter + Prometheus 自建
Backup	自動 snapshot	cron + S3 自建
人力	低（AWS 管）	高（on-call + upgrade + patch）
靈活度	受限（engine version、module）	完全自控

小規模（< 50 GB、< 5 cluster）通常 ElastiCache 的 managed premium 比自管人力便宜。Compute 跟 HA 的差額在小規模可忽略，但監控跟 backup 的自建成本是固定開銷 — 即使只管一個 cluster，redis_exporter + Prometheus + cron backup 的設定跟維護都要做。大規模（數百 GB、多叢集）或跨雲場景下，managed premium 累積到 cluster 數 × node 數的倍數，自管的邊際成本反而更低，遷出 ROI 才成立。

交接路由

Source vendor overview：AWS ElastiCache
Target vendor 操作：Redis Sentinel HA、Redis Cluster Resharding
監控重建：Redis Memory Eviction Tuning、Redis Persistence Fork Latency
反向路徑：Redis → ElastiCache

Kafka → Google Cloud Pub/Sub：從 partition 到 topic-subscription 的模型轉換

Mon, 22 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 Apache Kafka（source）跟 Google Cloud Pub/Sub（target）。跑 6 維 diff dimension audit 後判定為 Type E paradigm shift：兩者投遞模型本質不同（partition-based log vs topic-subscription pub/sub）。

為什麼從 Kafka 遷到 Pub/Sub

這個遷移的 driver 通常是平台策略：

All-in GCP：組織決定收斂到 GCP 生態，Kafka 是唯一非 GCP 的 stateful 服務，維運孤島成本高
運維簡化：自管 Kafka cluster 的 broker、ZooKeeper/KRaft、partition rebalance、retention 管理需要專職團隊；Pub/Sub 是全託管
GCP 整合：下游是 BigQuery、Dataflow、Cloud Run — Pub/Sub 原生串接，Kafka 要加 connector 層
全球路由：Pub/Sub topic 是 global（不綁 region），Kafka 需要 MirrorMaker 做跨 region 同步

遷移的工作量不在資料搬遷（message queue 通常不搬歷史資料），在 模型轉換 — Kafka 的 partition ordering、consumer group、offset commit 跟 Pub/Sub 的 topic-subscription、ack deadline、ordering key 是不同抽象。

6 維 diff dimension audit

維度	評估	等級
Schema / API	Kafka producer/consumer API → Pub/Sub client library，完全不同 API	High
Operational model	自管 broker/ZK/KRaft → 全託管	High（方向：簡化）
Abstraction / paradigm	partition-based log vs topic-subscription pub/sub	High
Number of components	Kafka + Schema Registry + Connect → Pub/Sub + (optional) Dataflow	Medium
Application change	Producer/Consumer 全部改寫	High
Data topology	Partition × offset → Topic × subscription × ack	High

五維 High — Type E paradigm shift，是兩套模型的橋接，工程量遠超 drop-in 或翻譯。

模型差異對照

遷移前必須理解兩套模型的對應關係。對應不是一對一 — 有些概念在對方沒有直接等價物。

Kafka 概念	Pub/Sub 對應	差異重點
Topic	Topic	名稱相同但語意不同：Kafka topic 有 partition，Pub/Sub topic 沒有
Partition	無直接對應	Pub/Sub 的 ordering 用 ordering key 實現，但 ordering key 不保證全域順序
Consumer group	Subscription	每個 subscription 獨立消費 topic 的全部訊息，類似 Kafka 的 consumer group
Offset	無直接對應	Pub/Sub 用 ack/nack 而非 offset commit。ack 後訊息不可重讀（除非用 seek）
Offset commit	Ack	Kafka 可以 commit 到任意 offset（replay）；Pub/Sub ack 是 per-message、seek 可以回到 timestamp
Retention	Message retention	Kafka retention 期內可任意 seek；Pub/Sub retention 期內可用 timestamp seek
Consumer lag	Oldest unacked message age	觀測指標不同：Kafka 看 offset lag、Pub/Sub 看 oldest_unacked_message_age
Partition rebalance	無（Pub/Sub 自動負載分散）	Kafka rebalance 是操作痛點，Pub/Sub 消除了這個概念
Schema Registry	Pub/Sub Schema	Pub/Sub 原生支援 Avro/Protobuf schema validation
Kafka Connect	Dataflow / BigQuery subscription	下游整合的對應工具不同

Ordering 語意是最大差異

Kafka 的 ordering 保證是 partition 內全域有序。同一個 partition 的訊息按寫入順序消費，consumer group 內每個 partition 只有一個 consumer。

Pub/Sub 預設不保證 ordering。要 ordering 需開啟 ordering key — 同一 ordering key 的訊息有序，但不同 ordering key 之間無序。ordering key 的並行度由 key 的 cardinality 決定（類似 Kafka 的 partition key）。

遷移時的判斷：

若 Kafka 的 ordering 只依賴 partition key（常見），ordering key 直接對應
若依賴 partition 內的全域順序（少見但存在），需要重新設計 — Pub/Sub 沒有 partition 全域順序的概念
若完全不需要 ordering（fan-out 場景），Pub/Sub 預設行為更簡單

Component 數量轉換

Kafka 生態的 Schema Registry 在 Pub/Sub 由原生 Schema 功能替代（topic-level schema validation）；Kafka Connect 的 sink connector 由 BigQuery subscription 或 Dataflow job 替代。Dataflow 不是必要 — 簡單的 push/pull consumer 不需要 Dataflow，只有 stream processing（windowed aggregation、join）才需要。

階段一：Producer 遷移（雙寫）

雙寫策略是 paradigm shift 遷移的標準起手。Application 同時把訊息寫入 Kafka 和 Pub/Sub，consumer 仍從 Kafka 消費。

Producer 改造

 1# 示意：雙寫 wrapper（實際生產用各自語言的 client library）
 2def publish_order_event(event):
 3    # 原有 Kafka producer
 4    kafka_producer.send("order-events", key=event.order_id, value=event.to_bytes())
 5
 6    # 新增 Pub/Sub producer
 7    pubsub_publisher.publish(
 8        "projects/my-project/topics/order-events",
 9        data=event.to_bytes(),
10        ordering_key=event.order_id  # 對應 Kafka partition key
11    )

雙寫驗證

驗證項目	方法	通過條件
訊息數量一致	比對 Kafka produce count 與 Pub/Sub publish count	差異 < 0.01%（允許 timing 差異）
Ordering 一致	同一 ordering key 的訊息在兩端順序相同	抽樣驗證 100 個 key
Latency 影響	監控 request latency 變化	p99 增加 < 10ms
失敗隔離	Pub/Sub publish 失敗不影響 Kafka publish	Pub/Sub timeout 時 Kafka 正常

雙寫的失敗隔離要嚴格設計。Pub/Sub publish 失敗時，application 應該 log + metric 但不 block request。Kafka 是已驗證的正式路徑，Pub/Sub 在這個階段是 shadow。

階段二：Consumer 遷移（逐 subscription 切換）

Producer 雙寫穩定後，逐一把 consumer 從 Kafka 切到 Pub/Sub subscription。

Consumer 改造重點

Ack 模型差異：Kafka consumer 是 poll + commit offset；Pub/Sub 是 pull（或 push）+ per-message ack。

 1# Kafka consumer pattern
 2for msg in kafka_consumer:
 3    process(msg)
 4    kafka_consumer.commit()
 5
 6# Pub/Sub pull subscriber pattern
 7def callback(message):
 8    try:
 9        process(message.data)
10        message.ack()
11    except Exception:
12        message.nack()  # 會被重新投遞
13
14subscriber.subscribe("projects/my-project/subscriptions/order-processor", callback=callback)

Idempotency 更重要：Pub/Sub 的 at-least-once delivery 加上 ack deadline 機制，redelivery 比 Kafka 更容易觸發（ack deadline 內沒 ack 就重投）。Consumer 的 idempotency 設計要比 Kafka 時更嚴格。

Flow control：Pub/Sub client library 支援 max_outstanding_messages 和 max_outstanding_bytes 做 backpressure 控制，對應 Kafka 的 max.poll.records。

切換順序

依 consumer 的重要度和複雜度排序：

先切 stateless consumer（log pipeline、metrics aggregation）— 低風險
再切有 side effect 但 idempotent 的 consumer（search index sync、notification）
最後切核心 consumer（payment processing、inventory update）— 需要完整 idempotency 驗證

每切一組 consumer：

建立對應的 Pub/Sub subscription
部署新 consumer（讀 Pub/Sub）
驗證處理正確性（比對 Kafka consumer 和 Pub/Sub consumer 的輸出）
停止舊 Kafka consumer
觀察 7 天無異常

階段三：停止雙寫

所有 consumer 切完後：

停止 Kafka producer（移除雙寫邏輯）
觀察 Kafka topic 不再有新訊息
等 Kafka retention 過期
下線 Kafka cluster

Kafka cluster 不要在 consumer 切完後立即下線。保留 retention period + 7 天作為回退保險。

回退路徑

Type E 遷移的回退要在每個階段都設計：

階段一回退：移除 Pub/Sub publish 邏輯，Kafka 路徑不受影響
階段二回退：重啟 Kafka consumer、停止 Pub/Sub subscriber。Kafka 的 offset 要確認是否仍在 retention 內
階段三回退：如果 Kafka 已下線，需要重新建 cluster 並從 Pub/Sub 反向雙寫回 Kafka — 成本高，所以階段三前要確認穩定

回退的關鍵指標：consumer lag（Pub/Sub 的 oldest_unacked_message_age）持續上升、error rate 上升、或 redelivery rate 異常。

遷移後的監控對照

Kafka 監控指標	Pub/Sub 對應指標	來源
Consumer lag (offset)	`subscription/oldest_unacked_message_age`	Cloud Monitoring
Produce rate	`topic/send_message_operation_count`	Cloud Monitoring
Consume rate	`subscription/pull_message_operation_count`	Cloud Monitoring
Redelivery count	`subscription/dead_letter_message_count` + nack rate	Cloud Monitoring
Broker disk usage	無需關注（fully managed）	N/A
Rebalance events	無（Pub/Sub 自動分散）	N/A

不適合遷移的場景

以下場景 Kafka → Pub/Sub 的 ROI 不成立：

需要 exactly-once semantics：Kafka 的 transactional producer + idempotent producer 提供 exactly-once；Pub/Sub 是 at-least-once，application 層做 dedup
需要長期 replay：Kafka retention 可設數月甚至永久（tiered storage）；Pub/Sub message retention 最長 31 天（若需超過 31 天的 replay，可用 BigQuery subscription 做長期歸檔，但查詢模式不同於 Kafka 的 offset-based replay）
大量 ordering 依賴：如果 Kafka topology 重度依賴 partition ordering 且 key cardinality 低，Pub/Sub ordering key 的並行度會比 Kafka 差
使用 Kafka Streams / ksqlDB 做 stateful processing：stream processing 邏輯跟 Kafka 綁定（state store backed by changelog topic），遷到 Pub/Sub 要同時遷移 processing 框架（→ Dataflow / Beam），工程量額外翻倍且 API 完全不同
多雲 / 非 GCP 環境：Pub/Sub 是 GCP-only，跨雲場景反而讓 Kafka 更合理

交接路由

Source vendor overview：Apache Kafka
Target vendor overview：Google Cloud Pub/Sub
Pub/Sub 操作細節：Push / Pull / Ack Flow Control、Ordering / DLT / Schema
Consumer idempotency：3.4 Consumer Design、3.6 Processing Recovery Semantics
反向路徑（SQS → Pub/Sub）：AWS SQS → Google Pub/Sub

RabbitMQ → AWS SQS：交出 broker 維運、把 routing 收斂進 application

Tue, 16 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 RabbitMQ 跟 AWS SQS。對照 Kafka ↔ NATS 的 paradigm shift、本篇主導差異維度是 operational model：source 跟 target 都是任務隊列、能力大致對得上、但運維責任從「自管 broker 叢集」整批交給 AWS managed 服務。

RabbitMQ → AWS SQS 的核心是把 broker 運維責任轉移給 managed 服務、同時接受 SQS 沒有 exchange routing 這個事實、把路由邏輯收斂回 application 或改用 SNS fan-out。這個遷移不是 protocol drop-in（AMQP client 不能直接連 SQS）、application 端需要改 delivery 控制機制（manual ack → visibility timeout + delete）；但它也不是 paradigm shift（兩端都是 at-least-once 任務隊列、DLQ / 重試 / 解耦的語意一致）。主導差異落在 operational 維度、所以本文走 Type C operational redesign hybrid 結構。

為什麼遷：不想再養 RabbitMQ 叢集

觸發評估 SQS 的最常見壓力是 broker 維運成本、不是功能缺口。自管 RabbitMQ 叢集要承擔的運維責任包含 Erlang cluster 拓樸維護、network partition（腦裂）處理、quorum queue 的 Raft 一致性調校、disk / memory alarm 的容量規劃、版本升級的 rolling restart。這些責任需要至少 0.5-1 FTE 的持續投入、且在 network partition 這類事故發生時需要熟悉 Erlang runtime 的人即時介入。

SQS 把這整層責任移除。沒有 broker 實例、沒有 cluster 拓樸、沒有 disk / memory watermark、沒有版本升級。換來的代價是 routing 能力消失（SQS 沒有 exchange）、application 要改 delivery 控制機制、以及 AWS 生態綁定。這個交換在三種情境下成立：

第一種是 AWS 生態原生服務。若 producer / consumer 已經跑在 Lambda、ECS、EKS 上、SQS 的 event source mapping 跟 IAM 整合讓 application 不必自管連線池跟認證。RabbitMQ 在 AWS 上要嘛自管 EC2 叢集、要嘛用 Amazon MQ（仍是 broker 模型、運維責任只是部分轉移）、都不如 SQS 的 serverless 整合直接。

第二種是 routing 邏輯本來就簡單。若 RabbitMQ 的用法是 direct exchange + 少數固定 routing key、或單純 worker pool 消費單一 queue、那 exchange 的靈活性本來就沒被用到、遷到 SQS 不損失能力。Airbnb 的 Dynein 分散式延遲任務系統就是這個形狀：用 SQS at-least-once + DLQ 取代原本受限於單 Redis 的 Resque、每 scheduler instance 達約 1000 QPS、水平擴展（見 3.C48 Airbnb Dynein）。任務排程對「不丟資料」的需求 at-least-once 足夠、不需要 broker 級 routing。

第三種是團隊規模不支撐 broker 專業。小團隊養一套 RabbitMQ 叢集、真正用到的是「可靠的任務隊列 + DLQ」、但要付出整套 Erlang 運維學習曲線。把這層交給 SQS、團隊把精力放回 application 邏輯。

6 維 diff dimension audit

遷移前先跑 diff dimension audit、對每個維度評估 source 跟 target 的差異程度、決定主導維度跟結構：

維度	RabbitMQ（self-managed）	AWS SQS（managed）	差異
Schema / API	AMQP 0-9-1 協議、exchange / queue	HTTP API、SendMessage / ReceiveMessage	中
Operational model	自管 Erlang 叢集、cluster / disk / 升級	Fully managed、無實例、無版本	高
Abstraction / paradigm	任務隊列 + 重試 + DLQ	任務隊列 + 重試 + DLQ	低
Components（1 vs N）	broker 一站式（routing 內建）	SQS + 需要 SNS 補 fan-out routing	中
Application change	manual ack / nack、prefetch、AMQP client	visibility timeout + delete、batch、SDK	中高
Data topology	單叢集 / federation 拓樸	region-scoped queue、無拓樸概念	低

主導維度是 operational（高）：遷移的核心價值跟核心風險都在「broker 運維責任整批轉移」。Application change 維度評中高、因為 delivery 控制機制要改、但這是受控的 SDK 層改寫、不是 paradigm 重設計。Components 維度評中、因為 exchange routing 在 SQS 沒有對等物、要靠 SNS fan-out 或多 queue 補回來。其餘三維度低或中。

主導維度落在 operational、所以主結構走 Type C：以 operational redesign 對位開頭、phased 執行、故障演練聚焦在「以為對等其實不對等」的運維陷阱。Application change 跟 Components 兩個次高維度不硬塞進主結構、各自抽出獨立段（下面「application 改寫」跟「routing 收斂」兩段）。

Operational redesign 對位

Operational 維度差異最大、先逐項對位「原本自己做的事、現在誰做、怎麼做」：

運維責任	RabbitMQ（自己做）	SQS（managed / application）
高可用	quorum queue + cluster + partition 處理	AWS 跨 AZ 自動冗餘、無需配置
容量規劃	disk / memory watermark、queue length 限	自動擴展、無實例容量概念
版本升級	rolling restart、相容性驗證	無、AWS 維護
監控	Management UI + Prometheus exporter	CloudWatch metric（depth / age）
Delivery 控制	broker-side ack / nack 狀態機	client-side visibility timeout + delete
重試 / DLQ	DLX + dead-letter routing key	redrive policy + maxReceiveCount
Routing	exchange + binding（broker 內建）	application 或 SNS（broker 外）

前四列是純收益：責任消失、不需要對等實作。後三列是責任轉移、不是消失 — delivery 控制從 broker 移到 client、重試從 DLX 移到 redrive policy、routing 從 broker 移到 application。這三列正是故障演練聚焦的地方、因為「以為功能還在、其實機制換了」是這類遷移的主要事故來源。

監控這列值得展開。RabbitMQ 的 queue depth、unacked、consumer 數量是從 broker 直接讀；SQS 改看 CloudWatch 的 ApproximateNumberOfMessagesVisible（queue depth）跟 ApproximateAgeOfOldestMessage（lag 訊號）。差異在於 SQS 的 metric 是 approximate、且有分鐘級延遲、不適合用來做秒級的 backpressure 決策。原本靠 RabbitMQ Management UI 即時看 queue 狀態的 runbook 要改寫成 CloudWatch alarm 驅動。

Application 改寫：manual ack → visibility timeout + delete

Application change 維度的核心是 delivery 控制機制換了一套模型。RabbitMQ 是 broker-side 維護訊息狀態、consumer 用 ack/nack 回報處理結果；SQS 是 client-side 用 visibility timeout + 顯式 delete、broker 不維護「處理中」以外的狀態。

 1# RabbitMQ 端：manual ack pattern
 2channel.basic_qos(prefetch_count=10)  # 一次最多領 10 條未 ack
 3
 4def callback(ch, method, properties, body):
 5    try:
 6        process(body)
 7        ch.basic_ack(delivery_tag=method.delivery_tag)
 8    except Exception:
 9        # nack + requeue，或丟 DLX
10        ch.basic_nack(delivery_tag=method.delivery_tag, requeue=False)
11
12channel.basic_consume(queue="orders", on_message_callback=callback)
13channel.start_consuming()

 1# SQS 端：visibility timeout + delete pattern
 2while True:
 3    resp = sqs.receive_message(
 4        QueueUrl=queue_url,
 5        MaxNumberOfMessages=10,        # batch、對應 prefetch
 6        WaitTimeSeconds=20,            # long polling
 7        VisibilityTimeout=60,          # 處理中對其他 consumer 隱藏
 8    )
 9    for msg in resp.get("Messages", []):
10        try:
11            process(msg["Body"])
12            sqs.delete_message(           # 顯式 delete = ack
13                QueueUrl=queue_url,
14                ReceiptHandle=msg["ReceiptHandle"],
15            )
16        except Exception:
17            pass  # 不 delete、visibility timeout 後自動回 queue 重試

對應關係：

RabbitMQ basic_ack → SQS delete_message：處理成功的訊息要顯式刪除、否則 visibility timeout 後重新可見。「不做事」在 SQS 等於「重試」、在 RabbitMQ 等於「卡住 unacked」。
RabbitMQ prefetch_count → SQS MaxNumberOfMessages（上限 10）+ visibility timeout：併發控制從「broker 限制未 ack 數量」變成「一次 receive 的 batch 大小 + 隱藏時間窗」。
RabbitMQ basic_nack(requeue=False)（丟 DLX）→ SQS redrive policy：失敗不再是 application 主動丟 DLX、而是「達到 maxReceiveCount 次數後 SQS 自動送 DLQ」。
RabbitMQ push 模型（broker 主動推給 consumer）→ SQS pull 模型（consumer 主動 long polling）：consumer loop 結構不同、SQS 沒有 broker 主動推送、要嘛自己 poll、要嘛交給 Lambda event source mapping 代 poll。

application 邏輯改動集中在 consumer 的 receive / ack / 重試三段、producer 端從 basic_publish 改成 send_message 相對單純。整體改動量取決於原本用了多少 AMQP 特性、典型情境是 consumer 端 20-40% 改寫。

Components 維度的核心是 SQS 沒有 exchange、RabbitMQ 的 routing 能力要在 broker 外重建。RabbitMQ 的 exchange 在 broker 內承擔分流：一條訊息經 routing key 跟 binding 決定進哪些 queue。SQS 是裸 queue、producer 直接指定 queue、沒有中間分流層。

RabbitMQ routing 模式	SQS 對應方案
Direct（固定 key）	直接 send 到對應 queue、routing 收斂進 producer 程式碼
Fanout（廣播）	SNS topic → 多個 SQS queue 訂閱（SNS-to-SQS fan-out）
Topic（層級 key 匹配）	SNS + message filtering（subscription filter policy）
Headers	SNS message attribute filtering

判讀：

Direct exchange + 少數固定 key：最容易遷。routing 邏輯本來就是「key X 進 queue X」、改成 producer 直接 send_message 到對應 queue url。routing 從 broker 收斂進 application、程式碼多幾行 if/else 或 map 查表。
Fanout（一條訊息給多個 downstream）：用 SNS-to-SQS。SNS topic 當 fan-out 點、每個 downstream 訂閱一個自己的 SQS queue。Twitch EventSub 就是這個形狀（見 3.C54 Twitch EventSub）：SNS fan-out 到多個 SQS、各 consumer 獨立消費。這比 RabbitMQ fanout exchange 多一層 SNS、但換來 managed 運維。
Topic exchange（複雜層級匹配）：SNS 的 subscription filter policy 能做 attribute-based 過濾、但表達力不如 AMQP topic 的 * / # 通配。複雜 topic routing 是「不該遷」的訊號（見下節）。

關鍵取捨：SQS + SNS 把 RabbitMQ 的單一 broker（routing 內建）拆成兩個 managed 服務（SQS 排隊 + SNS 分流）。好處是各自 managed、壞處是 routing 從宣告式 binding 變成要管 SNS topic + subscription + filter policy 的組合、跨服務除錯多一層。

什麼不該遷：保留 RabbitMQ 的訊號

SQS 的 managed 簡潔有代價、三類用法遷過去會損失能力或增加複雜度：

複雜 topic routing。若 RabbitMQ 重度使用 topic exchange 的 * / # 層級通配、binding 規則數十條、那 routing 的表達力是核心價值。SNS subscription filter 的 attribute 匹配做不到對等表達、勉強遷會把 broker 內的宣告式 routing 拆成散落在 SNS filter policy + application 程式碼的命令式邏輯、維護成本反而上升。GoCardless 用單一 topic exchange 當服務 mesh（見 3.C26 GoCardless Hutch）這類設計、routing 就是架構本身、不該拆。

需要 broker 級 ordering。RabbitMQ 單 queue 預設 FIFO、consistent hash exchange 還能做 per-key ordering（見 3.C28 WeWork hash ordering）。SQS standard queue 無 ordering；要 ordering 只能用 FIFO queue、而 FIFO 吞吐受限（每 MessageGroupId 有序、整體 3000 msg/sec with batching）。若 workload 同時要高吞吐跟嚴格 ordering、SQS FIFO 兩者不可兼得、RabbitMQ 反而更適合。

RPC over messaging（request-reply）。RabbitMQ 的 reply-to + correlation-id 做同步 RPC 模式、SQS 沒有原生 request-reply、要自己用兩條 queue + correlation 拼、延遲也不適合（SQS 是 task queue 不是低延遲傳輸）。這類用法該考慮 NATS 的 request-reply 或直接 HTTP。

Migration 結構：漸進 cutover

operational redesign 的 cutover 走 dual-run、按 queue（不是按整個叢集）漸進切、每步都保留回退邊界：

Phase 0：scope 盤點 — 列出所有 exchange / queue / binding、標註 routing 模式（direct / fanout / topic）跟 ordering 需求。判斷哪些 queue 適合遷（簡單 routing、at-least-once 夠用）、哪些保留（複雜 topic、需 broker ordering、RPC）。
Phase 1：SQS / SNS 基礎建設 — 對適合遷的 queue 建對應 SQS queue + DLQ（設 redrive policy + maxReceiveCount）、fanout 場景建 SNS topic + subscription。設好 IAM policy、visibility timeout 對齊 consumer 最大處理時間。
Phase 2：consumer 改寫 + dual-consume — application consumer 改成 SQS pull 模型（或 Lambda event source）、先讓新 consumer 跟舊 RabbitMQ consumer 並存、producer 暫時雙寫到 RabbitMQ + SQS、驗證 SQS 端處理正確。
Phase 3：producer cutover — 逐 queue 把 producer 從 RabbitMQ 切到 SQS / SNS、停掉該 queue 的雙寫。這步可逆：發現問題切回 RabbitMQ producer 即可。
Phase 4：下線 RabbitMQ queue — 確認某 queue 在 SQS 穩定運行、且 RabbitMQ 端該 queue 已排空、才停掉 RabbitMQ 對應的 exchange / queue。這是不可逆步驟、不該過早。
Phase 5：叢集退役 — 所有適合遷的 queue 都切完、RabbitMQ 只剩保留的複雜 routing queue（或完全清空）、才縮編或退役叢集。

漸進 cutover 的關鍵是 按 queue 切、不按叢集切。每條 queue 是獨立的遷移單元、各自走 Phase 2-4、互不阻塞。複雜 routing 的 queue 可以永遠留在 RabbitMQ、形成 RabbitMQ + SQS 長期共存的混合架構。

Production 故障演練

Case 1：DLX 改 redrive policy，重試語意不對等

徵兆：RabbitMQ 端用 DLX 配 message TTL 做「延遲重試 + 多層 escalation」（如 3.C25 Indeed Delay + DLQ 的三層 retry）；遷到 SQS 後發現 redrive policy 只能設「失敗 N 次直接進 DLQ」、做不出原本的延遲重試階梯。

根因：RabbitMQ DLX 是 routing 機制、能配 TTL + 多個中繼 queue 組出任意 escalation 拓樸；SQS redrive policy 是單一規則（maxReceiveCount 到了就送 DLQ）、沒有中繼層。兩者都叫「DLQ」、但 RabbitMQ 的是可編程 routing、SQS 的是固定計數。

修法：

指數退避用 visibility timeout 做：失敗時 application 主動 ChangeMessageVisibility 延長隱藏時間、實現退避、而不是依賴 DLX TTL。
多層 escalation 用多 queue 串：若真需要 N 層、建 N 個 SQS queue、application 失敗時把訊息 send 到下一層 queue、每層設不同 redrive policy。複雜度比 DLX 高、是「複雜 routing 不該遷」的訊號之一。
接受簡化：多數 task queue 的重試需求是「重試幾次後進 DLQ 人工檢視」、SQS redrive policy 直接對應、不需要重建 escalation 階梯。

Case 2：prefetch 改 batch + visibility，併發控制行為變了

徵兆：RabbitMQ 端 prefetch_count=1 確保 worker 一次只處理一條（公平派發、慢任務不囤積）；遷 SQS 後 consumer 一次 receive_message 領 10 條、其中一條慢任務拖累整批、且 visibility timeout 對整批同時計時、處理到一半超時導致前面已處理的訊息重複。

根因：RabbitMQ prefetch 是 per-message 的未 ack 上限、broker 逐條控制；SQS 的 batch 是一次領多條、visibility timeout 對 batch 內每條獨立計時、但 application 若同步處理整批、慢的那條會讓後面的訊息在處理前就接近超時。

修法：

慢任務用 batch size 1：對等 RabbitMQ prefetch=1 就設 MaxNumberOfMessages=1、一次領一條、避免批內互相拖累。
visibility timeout 設成略高於最大處理時間：Capital One 的 SQS + Lambda 實務明示這點（見 3.C50 Capital One）— timeout 太短重複處理、太長延遲 retry。長任務處理中主動 ChangeMessageVisibility 續期。
逐條 delete 不等整批：每條處理完立刻 delete_message、不要等整批做完才一起刪、降低整批超時導致部分重複的風險。

徵兆：RabbitMQ fanout exchange 廣播到所有 binding queue、新增 downstream 只要 bind 上去就收得到；遷成 SNS-to-SQS 後、某個新 downstream 的 SQS queue 沒訂閱到 SNS topic、或 subscription filter policy 設錯、導致該 downstream 靜默漏訊息。

根因：RabbitMQ fanout 的廣播是 broker 內建語意、binding 一建立就生效；SNS-to-SQS 的 fan-out 是「每個 downstream 各自建 SQS queue + 訂閱 SNS topic + 設 queue policy 允許 SNS 投遞」三步、任一步漏掉或 filter policy 寫錯就靜默漏。多一層服務 = 多一層配置出錯點。

修法：

訂閱關係 IaC 管理：SNS subscription + SQS queue policy 用 Terraform / CloudFormation 宣告、避免手動建漏。
驗證 fan-out 完整性：cutover 前發測試訊息、確認每個 downstream queue 都收到（對照 RabbitMQ 端 binding 清單逐一核對）。
filter policy 預設寬鬆：除非明確要過濾、subscription 不設 filter policy（全收）、避免「以為廣播、實際被 filter 擋掉」。

Case 4：訊息超過 256KB，SQS 拒收

徵兆：RabbitMQ 對單訊息大小無硬性低上限（受 frame_max / memory 限制、實務常見 MB 級 payload）；遷 SQS 後、原本能傳的大 payload 訊息被拒、SendMessage 報 message 超過 256KB 上限。

根因：SQS 單訊息上限 256KB（含 message attribute）。RabbitMQ 沒有這個低上限、application 可能習慣直接把大 payload（如完整文件、序列化大物件）塞進訊息體。

修法：

Claim-check pattern：大 payload 存 S3、訊息只放 S3 物件的引用（key / presigned URL）、consumer 收到後從 S3 取。FINRA 的大檔案處理是 S3 event notification → SQS（檔案上傳 S3 後由 S3 推通知），結果同樣讓訊息只帶 S3 物件引用，但機制是 S3 觸發、不是 producer 主動 offload（見 3.C53 FINRA Large File）。
SQS Extended Client Library：AWS 官方 library 自動把超過上限的 payload 透明存 S3、訊息存指標、consumer 端自動取回、application 程式碼幾乎不改。
盤點 payload 大小分佈：Phase 0 audit 時量測現有訊息大小、超 256KB 的比例決定是否需要 claim-check、避免 cutover 後才發現大量訊息被拒。

Case 5：ordering 從 RabbitMQ 到 SQS FIFO，吞吐撞天花板

徵兆：RabbitMQ 單 queue 提供順序消費、原本靠這個保證同一筆訂單的事件有序處理；遷 SQS standard queue 後 ordering 消失、改用 SQS FIFO queue 恢復 ordering、但吞吐從原本的數萬 msg/sec 掉到 3000 msg/sec 上限、隊列堆積。

根因：SQS standard queue 無 ordering（為了吞吐跟可用性的設計取捨）；FIFO queue 提供 per-MessageGroupId 有序 + 去重、但整體吞吐上限 3000 msg/sec（with batching）。RabbitMQ 單 queue 的有序消費吞吐遠高於此。SQS FIFO 的吞吐上限是 300 TPS（不 batch）／ 3000 TPS（batch，後者為通用 SQS FIFO 數值）。Twilio 的 webhook buffer 文件特別點出 FIFO 300 TPS 這個限制（見 3.C58 Twilio webhook）。

修法：

重新審視 ordering 粒度：用 MessageGroupId 把 ordering 限縮到真正需要的範圍（如 per-訂單、per-用戶）、不同 group 平行處理、整體吞吐 = group 數 × per-group 吞吐、繞過單 queue 3000 上限。
拆分 ordered 跟 unordered 流量：只有真需要 ordering 的訊息走 FIFO、其餘走 standard queue 拿高吞吐。多數 workload 只有一小部分需要嚴格 ordering。
ordering 是「不該遷」的硬訊號：若 workload 整體都需要高吞吐 + 嚴格 ordering、SQS FIFO 兩者不可兼得、保留 RabbitMQ 或考慮 Kafka（per-partition ordering + 高吞吐）。

Capacity / cost 對照

維度	RabbitMQ（self-managed EC2）	AWS SQS（managed）
叢集 baseline	3 broker（HA）+ EBS	無實例
運維 FTE	0.5-1 FTE	~0.1 FTE（IAM / alarm 配置）
計費模型	EC2 instance hour + EBS + 流量	per-request（每百萬 request）+ 跨 region 流量
吞吐上限	受 broker 規格 / 網路限制	standard 近乎無限、FIFO 3000 msg/sec
Ordering	單 queue 有序、consistent hash per-key	standard 無、FIFO per-group
Routing	broker 內建 exchange	無（需 SNS / application）
訊息大小上限	受 frame_max / memory（MB 級可行）	256KB（超過用 S3 claim-check）
監控延遲	即時（Management UI）	CloudWatch approximate、分鐘級

判讀：低到中吞吐、簡單 routing、AWS 生態的 task queue、SQS 在運維成本上顯著划算（FTE 從 0.5-1 降到約 0.1）。高吞吐 + 嚴格 ordering、或重度 exchange routing 的 workload、SQS 的 per-request 成本跟能力限制可能讓 RabbitMQ（或 Kafka）反而合適。SQS 的 cost 是用量驅動、流量大時 per-request 費用要納入評估、對照 0.6 成本取捨。

整合 / 下一步

混合架構是常見終態

多數遷移不會把 RabbitMQ 完全清空。簡單 task queue 遷 SQS、複雜 topic routing / broker ordering / RPC 留 RabbitMQ、形成長期共存：

1[簡單 task queue / fanout]              [複雜 topic routing / RPC / ordering]
2        AWS SQS / SNS                              RabbitMQ
3        │                                            │
4   Lambda / ECS consumer                    自管叢集（縮編後）

按 queue 漸進切的結果就是混合架構 — 不需要為了「遷乾淨」勉強把不適合的 queue 也搬過去。

跟 RabbitMQ → Kafka 的對照

RabbitMQ 還有另一條遷移路徑是 RabbitMQ → Kafka（work queue → event streaming）。兩條路的差異：遷 SQS 是 交出運維、能力對等簡化（仍是 task queue）；遷 Kafka 是 換 paradigm、要 replay / 高吞吐 streaming（從任務隊列變 event log）。選哪條看的是「想擺脫運維」還是「需要 streaming 能力」、不是同一個決策。

跟前面 migration playbook 的結構對照

篇	主導差異維度	結構
Kafka ↔ NATS	Paradigm（高）	partial + 混合
RabbitMQ → SQS（本篇）	Operational（高）	Type C operational hybrid

結論：兩篇都是 message queue 跨 vendor、但主導差異維度不同 — Kafka ↔ NATS 卡在 paradigm（不同抽象層）、RabbitMQ → SQS 卡在 operational（運維責任轉移）。結構由主導維度決定、不是 universal phased playbook。

Datadog → Grafana Stack：把 $50K/month bill 拆解到 self-hosted observability

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 Datadog（source）跟 Grafana Stack（target）。跟前三篇 migration（Splunk → Elastic phased / Redis → DragonflyDB drop-in / PostgreSQL → Aurora hybrid）對照、本篇是 cost-driven multi-tool migration — 不是換一個產品、是把 一站式 SaaS 拆成 五個專責 OSS / cloud component。

$50K/month bill 拆解：先看錢花在哪、再決定怎麼遷

中型 SaaS（100-500 host、5K-50K metric series、TB-level log/day）的 Datadog 月帳單長這樣：

計費項	平均單價	中型 SaaS 估算 / month
Infrastructure host	$15-23 / host	200 host × $20 = $4,000
APM host	$31 / host	100 host × $31 = $3,100
Custom metrics	$0.05 / 100 series	30K series × $0.05 = $1,500
Log ingest	$0.10 / GB ingested	50TB × $0.10 = $5,000
Log retention（15-day）	$1.27 / million events	50G event × $1.27 = $6,350
Log indexing	$1.70 / million events	50G × $1.70 = $8,500
Network	$5 / host	200 × $5 = $1,000
RUM / Session	$1.50 / 1000 session	30M session × $1.5 = $4,500
Synthetics	$5 / 10K test runs	50K test = $25
Total	-	$34,000 / month（保守估）

擴張到 500 host / 100TB log 的 production：$80K-150K / month 範圍。Grafana stack（self-hosted on K8s + Grafana Cloud 部分服務）對等 capacity 通常 $8K-30K / month — 2.5-5x cost reduction。

但 cost 不是唯一 driver。其他 driver：

Multi-cloud / hybrid：Datadog 集中、Grafana 可分散部署符合資料 residency
OpenTelemetry-first：Grafana stack 對 OTel 是 native、Datadog 仍 vendor-specific agent
Long-term retention：Loki 用 S3 cold tier 跑 1 年 retention 比 Datadog 便宜 10-50x

五個責任、五個 component：不是替換一個產品

Datadog 是 一站式 SaaS、單一 agent + 單一 UI 包 5 個責任。Grafana stack 把責任拆給 5 個專責 component：

責任	Datadog 處理	Grafana Stack 對應
Metric	Datadog metric	Mimir（Prometheus-compatible long-term）
Log	Datadog Logs	Loki（label-indexed log）
Trace	Datadog APM	Tempo（trace-only object storage）
Dashboard	Datadog dashboard	Grafana
Agent / shipper	Datadog Agent	Alloy（OTel-based collector）+ Grafana Agent / Promtail

Migration 是 五個獨立 stream、不是單一 cutover。SRE 對「一個 agent 包所有」的心智模型要拆。

Migration 結構：每個 component 各自 phased、整體 staggered

不像前三篇 migration 是線性流程、本篇是 5 個 parallel migration stream + 跨 stream coordination：

1           Phase 0           Phase 1            Phase 2          Phase 3
2           Audit             Deploy             Dual-ship        Cutover
3Metric    [audit]──→        [deploy Mimir]──→ [dual-ship]──→  [cutover]
4APM       [audit]──→        [deploy Tempo]──→ [dual-ship]──→  [cutover]
5Log       [audit]──→        [deploy Loki]──→  [dual-ship]──→  [cutover]
6Dashboard [audit]──→        [deploy Grafana]──→ [rebuild]──→   [cutover]
7Alert     [audit]──→        [deploy Alertmgr]──→ [parallel]──→ [cutover]

每個 stream 獨立做 dual-ship + cutover、不必同步；通常 Metric 先遷（cardinality 議題暴露最快）、然後 Log、最後 APM（trace correlation 最依賴 dashboard / alert）。

Agent migration：Datadog Agent → OTel Collector / Alloy

Datadog Agent 是 vendor-specific binary、抽出來換成 OpenTelemetry Collector / Grafana Alloy：

 1# alloy config (HCL-like)
 2prometheus.scrape "k8s_pods" {
 3  targets = discovery.kubernetes.pods.targets
 4  forward_to = [prometheus.remote_write.mimir.receiver]
 5}
 6
 7prometheus.remote_write "mimir" {
 8  endpoint {
 9    url = "https://mimir.internal/api/v1/push"
10  }
11}
12
13loki.source.kubernetes "pods" {
14  targets = discovery.kubernetes.pods.targets
15  forward_to = [loki.write.production.receiver]
16}
17
18otelcol.receiver.otlp "default" {
19  grpc {}
20  output {
21    traces = [otelcol.exporter.otlp.tempo.input]
22  }
23}

Migration 期間 dual-shipper 是標準作法：

Datadog Agent 跟 Alloy 並存（短期 capacity 兩倍）
同 host 同時 ship 兩端、觀察一致性
漸進 disable Datadog Agent 的 metric / log / APM 子模組

Production 故障演練

Case 1：Cardinality 爆，Mimir 端 series 暴增

徵兆：Datadog 端 30K series、ship 到 Mimir 後 series 變 500K、Mimir indexer OOM。

根因：Datadog 內部對 tag 做 自動 aggregation 跟 low-cardinality enforcement；Prometheus / Mimir 對 每個 unique label set 算一個 series、application code 的 high-cardinality label（user_id / request_id）直接爆。

修法：

Audit 階段 跑 topk(100, count by (__name__) ({__name__=~".+"})) 找 high-cardinality metric
drop high-cardinality label：Alloy / OTel collector 端 relabel 規則 drop user_id 等 unbounded label
改 histogram bucket：高 cardinality 通常來自 label combination、改用 fixed-bucket histogram
適當改 metric 為 log：請求 ID 是 trace context、不該是 metric label

Case 2：Log volume cost 預估失準

徵兆：Loki 部署 1 個月後 S3 帳單比預估高 2x；object storage 跟 query GB-scan 都超預期。

根因：Datadog 對 log 做自動 sampling / aggregation、bill 是 indexed event；Loki 是 全量 raw ingest + S3 cold storage、按實際 byte 計費。raw log volume 比 indexed event 高 3-10x。

修法：

Ingest-side sampling：Alloy / Promtail 端 sample debug / info log、只 ingest warn / error 全量
Log structure：JSON log 比 text log 壓縮率高、Loki S3 size 少 50%
Retention tier：hot 7 天 S3 standard / cold 1 年 S3 Glacier、retention budget 控制

Case 3：Datadog dashboard 不能直接轉 Grafana

徵兆：Migration 計畫設「dashboard 自動轉換」、實際跑 Datadog API export → Grafana import、80% dashboard 缺 widget / metric 對不上。

根因：

Datadog query syntax 跟 Grafana / Mimir 的 PromQL 不直接相容
Datadog widget type（top-list / hostmap）Grafana 沒對應
Tag-based aggregation 對應 Prometheus label 但語法不同

修法：

接受重建：production-grade dashboard 必須人工重建、不要期待自動轉
Prioritize：先重建 SOC 用 / production-critical 30%、其他 deprecate
migration window 增 4-6 週：dashboard rebuild 是 underestimated effort

Case 4：Alert routing 換邏輯，PagerDuty integration 不通

徵兆：Cutover 後 alert 不送 PagerDuty、SOC 半小時才發現；alert 端 webhook 配置正確、但 payload format 跟 Datadog 不同、PagerDuty 端 rule 過濾掉。

根因：

Datadog alert payload 含 event_type=alert、PagerDuty integration 用這個 routing
Alertmanager 預設 payload 結構不同
PagerDuty rule 端針對 Datadog event 寫 schema、Alertmanager event 不 match

修法：

Pre-cutover test：Alertmanager → PagerDuty 跑 dry-run、send test alert 驗證
PagerDuty Service：建獨立 Grafana-source Service、不共用 Datadog Service
Alertmanager template：用 webhook 自定 JSON template、payload 接近 Datadog 結構

Case 5：SLO definition 跟 monitor type 對不上

徵兆：Datadog SLO 跑 99.9% availability、轉到 Grafana SLO + Mimir 後實際 9X% 數字不一致；SOC 跑 dashboard 比對 5 個 SLO、4 個誤差 0.1-0.3%。

根因：

Datadog SLO 計算 over time window 用內部 query；Grafana SLO 用 PromQL 寫公式
Datadog 對 success_rate 處理 missing data 跟 PromQL 預設不同
Time bucket boundary 處理差異

修法：

重定義 SLO 在 PromQL：不嘗試「複製」、是「重定義」、認真寫 PromQL 表達式
接受 ±0.1% drift：production-critical SLO 跑 dual-track 1-2 個月、tune PromQL 到 acceptable drift
SLO migration 不是 dashboard migration 子集：獨立 stream、留更多時間

Capacity / cost 對照

維度	Datadog	Grafana Stack（self-hosted on K8s）
Setup cost	低（SaaS）	中高（K8s deploy + storage backend）
Operational cost (200 host)	$34K / month	$8-12K / month（含 S3 + K8s）
Operational cost (500 host)	$80-150K / month	$15-30K / month
Operational FTE	0.1-0.3	1-2 FTE（K8s + storage + Grafana operator）
Long-term retention	$1.27 / million event for 15+ day	S3 + Loki：~$0.02 / GB / month
Multi-cloud / hybrid	受 Datadog region 限	自由部署
Vendor lock-in	高	低（OSS + OTel）
Time to value	1-2 週	4-8 週
Migration cost (one-time)	-	1-3 FTE × 3 個月

Break-even point：~150 host 規模、3 年 amortized 後 self-hosted cheaper；< 100 host 規模 SaaS 較 ROI 高。

整合 / 下一步

跟 OpenTelemetry 對齊

Migration 是 OTel-first 轉型 的機會：

Application code 用 OTel SDK、避免 Datadog SDK lock-in
Trace context propagation 走 W3C Trace Context
未來換 backend 不用再改 application

跟 Splunk → Elastic 對照

兩篇都是 cost-driven SaaS migration、但細節差：

Splunk → Elastic 是 SIEM 領域、schema translation 是核心議題
Datadog → Grafana 是 multi-tool 拆分、agent + dashboard 重建是核心
共同 pattern：dual-ship → parallel run → cutover

反向遷移（Grafana Stack → Datadog）

存在但少數 — 主要是 operational complexity reduction（不想自管 Mimir / Loki）；schema 對位方向相反、agent 換回 Datadog Agent。

下一步議題

Grafana Cloud 混合：部分 component（Tempo）用 Grafana Cloud SaaS、其他 self-host、混合架構
OpenTelemetry Collector 跟 Alloy 取捨：兩者都是 OTel-based、Alloy 是 Grafana 自家 fork
Vector vs Alloy vs Fluentd：log shipper 戰場、cost / 功能 / OTel 整合度比較

etcd → Consul：KV + N 個 extras feature matrix

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link etcd 跟 Consul。跑 migration-playbook-methodology 6 維 audit 後對映 Paradigm = High（pure KV → service mesh paradigm）→ Type E paradigm shift；跟 Redis → Memcached（paradigm reduction）對偶、本文是 paradigm expansion（upgrade）方向。

KV + N 個 extras：feature matrix

概念	etcd	Consul
核心 paradigm	Pure KV with Raft consensus	Service mesh（KV + 6 個其他）
Data store	KV with versioned values + watch	KV + service catalog + health checks + sessions
API style	gRPC + HTTP/REST	HTTP/REST + gRPC（Connect）+ DNS
Service discovery	無（application 自管）	Built-in（DNS / HTTP API）
Health check	無	Built-in（HTTP / TCP / script / TTL）
Service mesh	無	Connect（mTLS + intentions + service-to-service）
Multi-DC	不支援（per-cluster only）	Built-in WAN federation
ACL system	RBAC (etcd 3.5+)	Token-based ACL + namespaces (Enterprise)
Lock primitive	Lease + transaction	Session + KV check-and-set
Watch event model	Event stream（gRPC stream）	Long-polling blocking query (X-Consul-Index)
Distributed config	KV + watch	KV + watch + template rendering (consul-template)
Use case 對映	K8s control plane / 純 distributed KV	Service mesh + service discovery + config + KV

核心差異不在「Consul 多功能」、在「Consul 是 service mesh paradigm」：service discovery / health check / Connect mTLS 是 first-class、KV 只是其中一個 sub-feature。

跑 6 維 diff dimension audit：

維度	評估	等級
Schema / API	KV API 對位 + 多 N 個 extra API	Medium
Operational model	兩者 Raft-based、ops similar	Low
Paradigm	Pure KV → service mesh	High
Components	同 1 cluster	Low
Application change	KV API 改 + 新增 service registration / health	Medium
Data topology	單 DC → multi-DC（如果用 federation）	Low-Medium

Paradigm = High（其他 Low-Medium）→ Type E paradigm shift；KV 是 sub-feature、不是 migration scope 全部。

為什麼遷：3 條 expansion driver

Service mesh adoption：本來用 etcd 跑 K8s control plane、現在 application 端要 service mesh（mTLS / intentions / 流量切換）、Consul 一站式 cover
Multi-DC strategy：etcd 不支援跨 DC、要 active-passive failover；Consul WAN federation 支援 active-active 多 DC
Configuration management：consul-template + envconsul 比 etcd watch + 自寫 reloader 簡單

反向 driver（Consul → etcd）：

純 K8s control plane scenario、不需要 service discovery / health check / mesh、etcd 簡單足夠
Resource constraint：Consul agent 比 etcd 更吃資源、low-end VM 上不夠

Paradigm expansion 路線

跟 Redis → Memcached paradigm reduction（移除 features）對偶、Consul 是 補進 features：

 1etcd KV pattern         → Consul KV API (1:1 對位)
 2etcd watch              → Consul blocking query / consul-template
 3etcd lease + lock       → Consul session + KV CAS
 4
 5(額外加進)
 6無                      → Consul service registration (services.json / API)
 7無                      → Consul health check (HTTP / TCP / TTL)
 8無                      → Consul service discovery (DNS / HTTP)
 9無                      → Consul Connect (mTLS + intentions)
10無                      → Consul WAN federation (multi-DC)
11無                      → Consul ACL token + policy

Migration 不只是 KV API 對位、是 application 增能。

API 對位

1# etcd basic KV
2etcdctl put /myapp/config/db_url 'postgres://...'
3etcdctl get /myapp/config/db_url
4
5# Consul KV (對位)
6consul kv put myapp/config/db_url 'postgres://...'
7consul kv get myapp/config/db_url

1# etcd watch
2etcdctl watch --prefix /myapp/config/
3
4# Consul blocking query (long polling)
5curl 'http://consul:8500/v1/kv/myapp/config?recurse&index=5&wait=10s'
6# X-Consul-Index header 為 watch cursor

 1# etcd transaction (multi-key atomic)
 2etcdctl txn < 3compares:
 4mod("/myapp/lock") = "0"
 5success requests:
 6put /myapp/lock "owner1"
 7EOF
 8
 9# Consul session + KV CAS (對位)
10SESSION_ID=$(curl -X PUT 'http://consul:8500/v1/session/create' | jq -r .ID)
11curl -X PUT 'http://consul:8500/v1/kv/myapp/lock?acquire='$SESSION_ID -d 'owner1'
12# 若失敗 lock 已被別人持有

Application 重設計

 1# Before: etcd
 2import etcd3
 3etcd = etcd3.client(host='etcd', port=2379)
 4etcd.put('/myapp/config/db_url', 'postgres://...')
 5db_url = etcd.get('/myapp/config/db_url')[0]
 6
 7# After: Consul (KV-only)
 8import consul
 9c = consul.Consul(host='consul', port=8500)
10c.kv.put('myapp/config/db_url', 'postgres://...')
11_, kv = c.kv.get('myapp/config/db_url')
12db_url = kv['Value']
13
14# (額外加進) After: Consul service discovery
15c.agent.service.register(
16    name='myapp',
17    service_id='myapp-1',
18    address='10.0.0.10',
19    port=8080,
20    check=consul.Check.http('http://10.0.0.10:8080/health', '10s', '5s', '30s')
21)
22
23# DNS-based discovery (其他 service 找 myapp)
24# dig +short myapp.service.consul SRV

Migration 流程

 11. Pre-migration audit
 2   - 列 etcd 使用的所有 application
 3   - 評估每個 application 是否 *需要* Consul extras（service discovery / health / mesh）
 4   - 純 KV use case 標 *low-effort migration*、用得到 extras 標 *value-add migration*
 5
 62. Consul cluster build
 7   - 跨 DC 設計（WAN federation 規劃）
 8   - ACL system 配置（不要 default open）
 9   - 性能 sizing（Consul agent 比 etcd 重）
10
113. Application migration（per-app）
12   - 純 KV: SDK 換、API 對位、cutover
13   - Service discovery: 加 registration + health check + DNS lookup
14   - Service mesh: 加 Connect proxy + intentions
15
164. Dual-run period
17   - etcd 仍跑、application 漸進切到 Consul
18   - 每 application cutover 後驗證
19
205. etcd decommission
21   - 確認所有 application 已切
22   - K8s control plane（如果是 etcd 唯一 user）保留不切

整體 2-4 個月、依 application 數量跟 extras 採用程度。

Production 故障演練

Case 1：KV API 對位看似 1:1、watch event model 不同

徵兆：application 端從 etcd watch 切 Consul blocking query 後、event 處理 latency 從 50ms 漲到 1-5s；應用以為 event push 即時、實際變 polling。

根因：etcd watch 是 gRPC stream、event 即時 push；Consul blocking query 是 long-polling、有 wait timeout、event 在 timeout 內到才即時收到。

修法：

降 wait timeout 跟業務需求對齊（default 5min、可設 10s）
多 instance 並發 polling：N 個 application instance 各自 polling、降單點 event 延遲
架構：critical event 用 Consul event API（PUT /v1/event/fire/）+ blocking query event endpoint、跟 KV change 分開
保留 etcd for critical watch：mission-critical watch 用 etcd 不切

Case 2：Session-based lock 跟 etcd lease 差

徵兆：原本 etcd lease 5s TTL、lease holder application 失聯時 5s 內 lock 自動釋放；切 Consul session 後、session TTL 仍生效、但 health check 整合複雜、偶發 lock not released。

根因：Consul session 有兩種模式 — delete（session expire 時 release lock）vs release（release lock 但 KV 保留）；TTL 配 health check 時行為複雜。

修法：

1# 明示 session behavior
2session_id = c.session.create(
3    name='myapp-lock',
4    ttl=15,           # 15s TTL
5    behavior='delete' # session 過期時 lock 自動 release
6)
7c.kv.put('myapp/lock', 'owner1', acquire=session_id)

session TTL 範圍 10s-86400s、不能 < 10s（etcd 可以 1s）；critical low-latency lock 不適用 Consul。

Case 3：Multi-DC failover、KV 寫到 wrong DC

徵兆：跨 DC 部署後、某 application 寫 KV、但 read 不到；發現 application 端 hardcode 一個 DC 端點、write 到 us-east 但 read 來自 us-west。

根因：Consul WAN federation 跨 DC 不自動同步 KV；KV 是 per-DC、跨 DC sync 需要 Consul Enterprise license 或自管 consul-replicate。

修法：

每 application instance 連 local DC Consul：write/read 同 DC
KV replication 跨 DC：用 consul-replicate 自管、或升 Enterprise
Architecture：跨 DC 共享 config 改用 DB-backed config（持久 + 跨 DC）+ Consul KV 只存 DC-local config

Case 4：ACL system 預設 open、cutover 後曝險

徵兆：Consul cluster 上線 1 個月後 SOC 跑 audit、發現任何 application 都能 read 任何 KV；ACL 沒設、所有 token 都全權限。

根因：Consul ACL 預設 disabled、需要 bootstrap；很多 setup tutorial 簡化跳過 ACL、cutover 後沒補。

修法：

 1# Bootstrap ACL system
 2consul acl bootstrap
 3# 生成 management token、保留為 root credential
 4
 5# 建 policy
 6consul acl policy create -name 'myapp-readonly' \
 7  -rules 'key_prefix "myapp/" { policy = "read" }'
 8
 9# 建 token 給 application
10consul acl token create -policy-name 'myapp-readonly'

Production setup 第一步就 bootstrap ACL、不可以延後。

Case 5：Health check failure 連鎖、service discovery 失效

徵兆：某 application instance 因 GC pause 5 秒未 respond health check、被 Consul 標 failed；DNS query 不返回該 instance；流量切走；GC 結束後 instance 仍 healthy 但 Consul 端 still failed、需要 minutes recover。

根因：Consul health check 失敗後進入 critical state、需要 連續 N 次成功 才回 passing；default 1-2 次成功即可、但實際時間視 check interval 而定。

修法：

success_before_passing 設低（1）讓快速恢復
failures_before_critical 設高（3-5）容忍 transient failure
Multi-check strategy：HTTP + TCP + script check 三軸、不靠單 check
Application-side hint：JVM application 配 MaxGCPauseMillis 限制 GC pause < health check interval

Capacity / cost

維度	etcd	Consul
Cluster baseline	3-5 node Raft cluster	3-5 server + N agent (per host)
Memory per node	2-8GB	4-16GB（含 agent）
Operational FTE	0.2-0.5	0.5-1.0（多 features 多運維）
Feature surface	Pure KV	KV + service mesh + multi-DC + ACL
Setup complexity	Low	Medium-High
Multi-DC support	不支援	Built-in WAN federation
License	Apache 2.0 (open)	MPL 2.0 (community) / commercial (enterprise)
Migration cost	-	1-3 FTE × 2-4 個月

判讀：純 KV use case 走 etcd；service mesh / multi-DC / discovery 需求大走 Consul；混合 deployment 是 long-term default（K8s control plane 仍跑 etcd、service mesh 跑 Consul）。

整合 / 下一步

跟 Kubernetes 對位

K8s control plane 永遠用 etcd、不切 Consul；Consul 是 K8s 外的 service mesh + 跨 cluster discovery。兩者並存、不互斥。

跟 Vault 整合

Consul + Vault 是 HashiCorp 同生態、Consul 跑 service discovery / mesh、Vault 跑 secrets；Consul ACL token 可從 Vault dynamic engine 取得。

跟 Istio / Linkerd 對位

Consul Connect 是 service mesh paradigm、跟 Istio / Linkerd 並列；多數 K8s-native organization 用 Istio / Linkerd、Consul 強項在 跨 K8s + VM + multi-DC mesh。

反向 migration（Consul → etcd）

少數 organization 簡化 stack 時做、流程鏡像對稱、但 退掉 service mesh / multi-DC 是有意識降級、不能假裝功能等價。

下一步議題

Consul Connect production rollout：mesh adoption 是 incremental、per-service intentions 漸進
Multi-DC topology 設計：active-active vs active-passive、依 RPO/RTO 跟 cost trade-off
跟 Kubernetes Gateway API 整合：service mesh paradigm 在 K8s 內 vs 外整合策略

Jenkins → GitHub Actions：Pipeline 5 段 lifecycle 的對位 + 翻譯

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link Jenkins 跟 GitHub Actions。跑 migration-playbook-methodology 6 維 audit 後對映 Schema = High（Groovy DSL ↔ YAML workflow）→ Type A phased translation。

Pipeline 5 段 lifecycle 的對位 + 翻譯

本文按 pipeline lifecycle 5 段 組織內容（variant E）— 不是「為什麼遷」driver 開頭，是 Jenkins vs GHA 對 5 段各自的處理：

Lifecycle 段	Jenkins 機制	GHA 機制
1. Source / SCM	SCM polling / webhook trigger	`on: [push, pull_request]` event
2. Build / Package	`stage('Build') { sh 'mvn package' }`	`jobs.build.steps[].run: mvn package`
3. Test / 並行 matrix	`parallel { ... }` + agents	`jobs.test.strategy.matrix: ...`
4. Security scan	Plugin（Snyk / SonarQube / Aqua）	Action（snyk/actions / sonarsource-actions）
5. Deploy / promote	Deploy plugin + approval gate	`environment: production` + reviewer approval

跑 6 維 diff dimension audit：

維度	評估	等級
Schema / API	Groovy DSL ↔ YAML、syntax 完全不同	High
Operational model	Self-hosted Jenkins → GHA SaaS / self-hosted runners	Medium
Paradigm	Imperative pipeline → declarative workflow + events	Medium
Components	Jenkins + plugins → GHA + actions marketplace	Low
Application change	Build script 多數不改、CI integration 端要改	Low
Data topology	同單一 build state	Low

Schema = High（其他 Medium-Low）→ Type A phased translation 為主、加 paradigm + operational 獨立段。

為什麼遷：cost / vendor / cloud-native 三條 driver

Cost：Jenkins self-hosted 是「免費 software + 高 ops cost」、GHA 按 minute 計費對中小團隊更便宜
Vendor consolidation：repository 已在 GitHub、整合進 GHA 省一個外部系統
Cloud-native：GHA matrix build + reusable workflow 對 cloud-native deploy（K8s / serverless）有 first-class action

Phase 0：Audit + classify

 1# Jenkins workspace 盤點
 2find . -name "Jenkinsfile" -o -name "*.groovy"
 3# 列所有 pipeline file
 4
 5# 統計 plugin 使用
 6# Jenkinsfile 內 import / @Library / sh "tool plugin..."
 7grep -rE "@Library|import|tools\s*\{" Jenkinsfile*
 8
 9# 每 pipeline 評估 complexity
10# - Simple linear pipeline: 1-3 stage、無 shared library
11# - Medium: parallel stage + 2-5 shared library
12# - Complex: 條件分支 + 動態 stage + 10+ plugin / 5+ shared library

Audit output：

列「100 個 pipeline、35 simple / 50 medium / 15 complex」
每 complexity level 估翻譯時間（simple 0.5 day / medium 2 day / complex 5-10 day）
Plugin 依賴清單對應 GHA action 替代品

Phase 1：Schema 對位（Groovy DSL ↔ YAML）

 1// Jenkins Declarative Pipeline
 2pipeline {
 3  agent { label 'docker-build' }
 4  stages {
 5    stage('Test') {
 6      parallel {
 7        stage('Unit') { steps { sh 'mvn test' } }
 8        stage('Integration') { steps { sh 'mvn verify' } }
 9      }
10    }
11  }
12  post {
13    failure { mail to: 'devops@', subject: 'Build failed' }
14  }
15}

 1# GHA Workflow 對等
 2name: CI
 3on: [push]
 4jobs:
 5  test:
 6    runs-on: [self-hosted, docker-build]
 7    strategy:
 8      matrix:
 9        suite: [unit, integration]
10    steps:
11      - uses: actions/checkout@v4
12      - name: Run ${{ matrix.suite }}
13        run: |
14          case "${{ matrix.suite }}" in
15            unit) mvn test ;;
16            integration) mvn verify ;;
17          esac
18  notify-failure:
19    needs: test
20    if: failure()
21    runs-on: ubuntu-latest
22    steps:
23      - uses: dawidd6/action-send-mail@v3
24        with:
25          to: devops@
26          subject: Build failed

對位差異：

parallel { ... } → strategy.matrix（粒度不同、matrix 是「同 step 不同參數」、parallel 是「不同 step」）
post.failure → 獨立 job + if: failure()
@Library shared library → reusable workflow（uses: ./.github/workflows/reusable.yml）
Jenkins tools { jdk 'java17' } → setup-java action（手動配 toolchain）

Phase 2：Translation pipeline（3-tier hybrid）

對應 Splunk → Elastic translation 同 3-tier：

Tier 1：community tool（jenkins-to-actions converter、cover 簡單 pipeline 30-50%）
Tier 2：LLM-assisted（Claude / GPT 翻 medium complexity、人工 verify）
Tier 3：manual（shared library 改 reusable workflow / conditional 動態 stage 重寫）

Phase 3：Parallel run（雙 CI 跑 4-8 週）

1Repository ──┬─→ Jenkins webhook ──→ Jenkinsfile pipeline
2             └─→ GitHub Action ────→ .github/workflows/ci.yml
3
4Compare:
5- 同 commit 兩端結果一致
6- Latency / cost / artifact location 對齊

Diff dashboard 列「test pass rate / build time / failure mode」三 metric、跑到 95%+ 一致才進 cutover。

Phase 4：Cutover + cleanup

Disable Jenkins webhook
GHA 成 primary CI
Jenkins 留 standby 2 週 fallback
Decommission Jenkins controller + agents

Production 故障演練

Case 1：Shared library equivalence、reusable workflow 表達不足

徵兆：複雜 Jenkins shared library（含 Groovy class / closure / 動態變數）翻成 reusable workflow 後失準、某些動態邏輯無法表達。

根因：Jenkins Groovy 是 imperative + 完整 programming language；GHA reusable workflow 是 declarative YAML、limited expressiveness。

修法：

複雜邏輯外包到 script：reusable workflow 只當 orchestrator、複雜邏輯放 .github/scripts/*.sh 或 actions/javascript-action
自定 composite action：multi-step logic 包進 composite action、reuse 程度比 reusable workflow 高
退役過度設計的 shared library：trans 過程暴露 90% library code 其實只用 10%

Case 2：Ephemeral workspace、build cache 失敗

徵兆：cutover 後 build time 從 5 分鐘漲到 20 分鐘；Maven / Gradle / node_modules / Docker layer 每次都重抓。

根因：Jenkins agent workspace persistent、build cache 跨 build 保留；GHA ephemeral runner 每次新 VM、cache 預設沒帶。

修法：

actions/cache@v4：cache key 用 hashFiles('**/pom.xml') 等 lock file、cross-build 復用
Self-hosted runner with cache：critical pipeline 跑 self-hosted runner、persistent volume
Docker layer cache：用 docker/build-push-action 配 BuildKit cache、不 rebuild full image

Case 3：Plugin 不對等、CI feature 退化

徵兆：Jenkins 用 50+ plugin、GHA action marketplace 找不到對應；team 對 SonarQube quality gate / Jira integration / custom report 等失去 first-class 支援。

根因：Jenkins plugin ecosystem 20+ 年累積、GHA marketplace 5 年；某些 niche plugin 在 GHA 沒對等 action。

修法：

API-based integration：用 curl 對 vendor API 直接 call、不依賴 plugin / action
自寫 action：critical feature 自寫 composite / JavaScript action、publish 到 marketplace
退役舊 plugin：trans 期間 audit plugin 真實使用、80% 可退役

Case 4：Self-hosted runner setup + scaling

徵兆：production workload 需要 GPU / large memory runner；GHA hosted runner spec 不夠、想用 self-hosted runner、發現 scaling / security / monitoring 比 Jenkins agent 複雜。

根因：GHA self-hosted runner 是 ephemeral、scaling 需要 runner controller（actions-runner-controller on K8s）；跟 Jenkins agent / Kubernetes plugin 對應但 setup 不同。

修法：

actions-runner-controller (ARC)：K8s-native runner scaling、跟 Jenkins K8s plugin 對應
Runner labels：用 label 路由 job（runs-on: [self-hosted, gpu, linux]）
Security：ephemeral runner 用 short-lived token、不跨 job persist secret

Case 5：Matrix build vs parallel stage 表達差

徵兆：Jenkins 有 動態 parallel（runtime 決定要跑哪些 stage、按 input 變動）；GHA matrix 是 static at workflow load time、表達不到。

根因：GHA matrix 是 declarative、workflow parse 時 expand；runtime 動態決定 stage 需要用 if: condition + 多 job。

修法：

動態 matrix：用 jobs.set-matrix 先跑一個 job 算 matrix、輸出 JSON、後續 job strategy.matrix: ${{ needs.set-matrix.outputs.matrix }}
conditional job：每個 dynamic stage 寫獨立 job + if: 控制觸發
重設計：90% 動態邏輯其實可改 static matrix + condition、純 runtime 動態通常是 over-engineering

Capacity / cost

維度	Self-managed Jenkins	GitHub Actions
Compute cost	EC2 + agent licenses	per-minute billing（free tier + over-cap）
Operational FTE	0.5-1.5 FTE	0.1-0.3 FTE
Plugin / action ecosystem	20+ 年成熟	5 年快速成長
Cold start	Agent ready < 1 min	Hosted runner 30-60s spin-up
Self-hosted scaling	Jenkins K8s plugin	ARC（actions-runner-controller）
Security	Self-managed VPC + secret	OIDC + repository secret + environment
Migration cost	-	1-3 FTE × 1-3 個月

判讀：100+ pipeline organization 切 GHA 通常 6-12 月 ROI 持平、之後省 ops cost；< 30 pipeline 早就該切。

整合 / 下一步

跟 GitLab CI 對位

GitLab CI YAML 語法跟 GHA 接近、shared library 對應 include:、self-hosted runner 對等；Jenkins → GitLab CI migration 流程跟本文鏡像對稱、3-tier translation pipeline 通用。

跟 Circle CI 對位

CircleCI orb 對等 GHA composite action；跨 SaaS CI 切換比 Jenkins → GHA 簡單（都 YAML-based）。

反向 migration（GHA → Jenkins）

少數 enterprise（金融 / 政府）合規要求 self-hosted CI / on-prem；GHA → Jenkins 鏡像對稱、注意 Jenkins shared library 表達力更強、reusable workflow 內 dynamic 邏輯可不必拆。

下一步議題

Reusable workflow + composite action 混用：reusable workflow 適合 跨 repo orchestration、composite action 適合 單 repo logic encapsulation
OIDC + cloud deploy：用 OIDC token 取代 long-lived cloud credential、是 GHA migration 順便升級的機會
Cost optimization：minute-based billing 對 high-volume CI 需要 monitoring + budget alert

Redis → DragonflyDB：drop-in 相容下的容量躍升 + 5 個踩雷

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 Redis（source）跟 DragonflyDB（target）。跟前一篇 Splunk → Elastic Security 的 6-phase playbook 對照、Redis → DragonflyDB 是 drop-in 相容 形態的 migration、結構更接近 vendor deep article methodology 的 6-section flow + 一段「相容性驗證」前置。

為什麼遷：cost / single-thread / multi-tenancy 三條 driver

Driver	觸發場景
Memory cost	Redis 6.x cluster 跑 1-10 TB 時、機器成本爆；DragonflyDB 記憶體效率提升 ~30%、相同 dataset 少 30% RAM
Single-thread bottleneck	Redis 主執行緒在單一 hot key 寫入時是瓶頸、scale-up 受限；DragonflyDB 多執行緒 + shared-nothing 設計、單機 throughput 號稱 25x
Multi-tenancy	Redis Cluster 多 namespace 需要 cluster-per-tenant、運維成本爆；DragonflyDB 設計上 namespace 隔離成本低

反向 driver（DragonflyDB → Redis）也存在 — 主要是 Redis Modules 依賴（RedisJSON / RedisSearch / RedisGraph）DragonflyDB 不支援、或 Lua script 用了 redis.call 進階 API。

跟 phased migration 的對照：drop-in 不需要 phased

跟前一篇 Splunk → Elastic 的 6-phase playbook 不同、Redis → DragonflyDB 的 migration 結構接近 standard deep article：

維度	Splunk → Elastic（phased）	Redis → DragonflyDB（drop-in）
Schema 對位	需要（SPL ↔ KQL / CIM ↔ ECS）	不需要（RESP protocol 相容）
Rule translation	4-12 週 SOC engineering 工作	不需要（command 直接相容）
Parallel run	4-8 週 dual-SIEM 跑	1-7 天 dual-write 觀察
Cutover 邊界	軟邊界（routing 切換、可逆 30 分鐘）	硬邊界（client 配置切換、單次完成）
不可逆 cleanup	1 年後 archive	立刻（DragonflyDB 接管後 Redis 可關）
整體週期	4-9 個月	1-4 週

判斷依據：migration 結構由 source 跟 target 的 schema / protocol 差異程度 決定、不是 universal phased playbook。本批第 2 篇驗證 deep article methodology 的 6-section 框架 在 drop-in migration 仍適用（只需前置 相容性驗證 段、其他 6 段對位）。

相容性驗證：在 cutover 前要確認的清單

DragonflyDB 號稱 Redis drop-in、但「drop-in」涵蓋範圍依 Redis feature 使用程度而定。Pre-migration 必跑的相容性 audit：

Redis feature	DragonflyDB 支援程度	Action
Basic data types (String / Hash / List / Set / ZSet)	完全相容	無需處理
RESP protocol v2 / v3	完全相容	無需處理
RDB load	Redis 6.x RDB 完全相容；7.x 部分 feature 待測	用 BGSAVE → 切換 → load 驗證
AOF	DragonflyDB 不用 AOF、改 snapshotting 模式	不直接 import AOF、需經 RDB 中介
Lua scripts	90% 相容、部分 redis.call API + EVAL 邊界 case 差異	Lua script audit 必跑、不能假設全相容
Pub/Sub	相容、但 message fanout 行為差異（多 thread 處理）	高 fanout pub/sub 場景需測 latency
Cluster mode	DragonflyDB 單機即可達 cluster throughput、不必 cluster；emulated cluster mode 部分相容	評估是否仍需 cluster
Sentinel HA	不直接支援、用 DragonflyDB 自家 replication	HA 架構重設計
Redis Modules (RedisJSON / Search / Graph)	不支援	必須前置改寫 application
Streams	相容、但 consumer group 行為部分差異	Stream consumer 跑 dual-write 觀察
Keyspace notifications	相容	無需處理

Audit 的關鍵 output：列「不相容功能」清單 + 對應 application code 修改範圍；若 Modules 在 production 使用、migration 退役。

Step-by-step cutover

 1# 1. 部署 DragonflyDB
 2docker run -d --name dragonfly -p 6380:6379 \
 3  -v /data/dragonfly:/data \
 4  docker.dragonflydb.io/dragonflydb/dragonfly:latest \
 5  --logtostderr --requirepass=
 6
 7# 2. Redis 端 BGSAVE
 8redis-cli -h redis-primary BGSAVE
 9# 等到 BGSAVE 完成
10redis-cli -h redis-primary INFO Persistence | grep rdb_last_save_time
11
12# 3. 把 dump.rdb 拷到 DragonflyDB
13scp redis-primary:/var/lib/redis/dump.rdb dragonfly-host:/data/dragonfly/
14
15# 4. 重啟 DragonflyDB 載入 RDB
16docker restart dragonfly
17
18# 5. 驗證資料一致
19redis-cli -h dragonfly-host -p 6380 DBSIZE
20redis-cli -h redis-primary DBSIZE
21# 兩端 key 數對齊
22
23# 6. Dual-write 1-7 天（application 同時寫兩端）
24# 7. Read 切換到 DragonflyDB、Redis 端只寫不讀
25# 8. Write 切換、Redis 端 standby
26# 9. 觀察 1-2 週、無異常後 Redis decommission

關鍵時間點：

BGSAVE → load：100GB RDB 約 5-15 分鐘、跨網路 SCP 時間另算
Dual-write window：1-7 天觀察、application 寫兩端、read 仍走 Redis
Cutover：read switch → write switch、每步間隔 24 小時
Decom：Redis 保留 standby 1-2 週、無異常後關閉

Production 故障演練

Case 1：RDB 版本差，DragonflyDB load 失敗

徵兆：Redis 7.2 端 BGSAVE 出的 dump.rdb 在 DragonflyDB load 時報 Unsupported RDB version、DragonflyDB 啟動失敗。

根因：Redis 7.2 RDB version 11 含新 feature（function library / sharded pubsub）DragonflyDB 當前 release 沒支援；版本相容性需逐 release 確認。

修法：

Pre-migration 版本相容矩陣 audit：DragonflyDB release note 對照 Redis version、確認 RDB version 支援
降級 BGSAVE：Redis 端設 rdb-version 9（Redis 6.x 兼容版本）、犧牲 Redis 7.x 新 feature
替代方案：用 redis-cli --scan + MIGRATE 命令 incremental 搬、不用 RDB；速度慢 100x 但相容性好

Case 2：Lua script 跑進 EVAL 不一致

徵兆：dual-write 階段、發現某些 EVAL script 在 Redis 跟 DragonflyDB 結果不同；具體是某個 redis.call("OBJECT", "ENCODING", key) 在 DragonflyDB 回不一樣的 encoding 字串。

根因：DragonflyDB 內部不用 Redis 的 ziplist / listpack encoding（dashtable 不需要）、OBJECT ENCODING 返回值不對等；script 邏輯依賴 encoding 來決定行為、結果不同。

修法：

Audit Lua script：grep 所有 redis.call("OBJECT"、列出依賴 encoding 的 script
改寫 application：不依賴 encoding、改用 MEMORY USAGE 或 high-level check
接受差異：DragonflyDB 不會回 encoding 但 functional 結果對等、SOC review 確認可接受

Case 3：Pub/Sub fanout 高負載 latency

徵兆：production 切到 DragonflyDB 後、Pub/Sub 訂閱端 latency p99 從 5ms 漲到 20-50ms；topic fanout >10K subscriber 場景。

根因：DragonflyDB 多 thread 設計、Pub/Sub message 在 thread 間 dispatch 需要 routing；Redis single-thread 沒這個 overhead。高 fanout 是 DragonflyDB 設計取捨。

修法：

架構：高 fanout Pub/Sub 不用 DragonflyDB、改 NATS / Redis Streams + consumer group
DragonflyDB 配置調整：--proactor_threads 對 Pub/Sub 影響大、調到符合 CPU 核心數
接受 latency：< 10K subscriber 差異可忽略、不必動

Case 4：Cluster mode 看似相容但 slot routing 行為差

徵兆：application 用 Redis Cluster client（lettuce / Jedis cluster mode）連 DragonflyDB emulated cluster、運行幾天後 MOVED redirect 異常、key 找不到。

根因：DragonflyDB emulated cluster mode 是 single node 模擬、CLUSTER SLOTS 返回固定 mapping；某些 client 端 cluster topology cache 跟實際 routing 不對齊、發 redirect。

修法：

Application 改 standalone client：DragonflyDB single node 已能達 cluster 級 throughput、不必用 cluster client
Client config：lettuce 端 clusterTopologyRefreshOptions(...) 設較長 refresh、減少 redirect 機會
長期：等 DragonflyDB cluster 正式 GA 後再評估

Case 5：Modules 用了沒注意，migration 卡住

徵兆：cutover 後幾天、application 某個功能完全壞、log 顯示 ERR unknown command 'JSON.SET'；DragonflyDB 不支援 RedisJSON。

根因：Pre-migration audit 漏掉 application 用了 RedisJSON（透過某 client library 抽象）；DragonflyDB 不支援該 Module 命令、application 直接壞。

修法：

Pre-migration audit 必跑：MONITOR 抓 1 小時 production traffic、grep 非 standard command（JSON.* / FT.* / GRAPH.*）
應急回退：Redis standby 還在、application client config 切回
長期：JSON 改用 standard Hash + serialization、Search 改 Elasticsearch / Meilisearch、Graph 改 Neo4j

Capacity / cost 對照

維度	Redis（self-managed）	DragonflyDB	取捨
Single-node throughput	~100K-200K ops/s	~2-5M ops/s（號稱 25x）	DragonflyDB 領先、實測依 workload 而定
Memory efficiency	baseline	-30% 平均、依資料分佈	DragonflyDB 領先
Persistence	RDB / AOF 雙模式	Snapshotting 為主、不用 AOF	Redis 對 durability 要求高的 workload 仍領先
HA / Replication	Sentinel + Cluster 成熟	自家 replication、HA 文件相對少	Redis 領先
Modules ecosystem	RedisJSON / Search / Graph / TimeSeries	不支援	Redis 領先
Cluster scaling	Cluster mode 成熟	單機效能高、cluster 仍 emerging	Redis 領先、但 DragonflyDB 單機已能 cover 多數 use case
Total cost (10TB cache)	$8-15K USD / month	$2-5K USD / month	DragonflyDB 顯著便宜
Operational maturity	高（10+ 年 production）	中（2022+、production 案例 1000+）	Redis 領先

判讀：cache use case 簡單（pure cache / session store）走 DragonflyDB；複雜 use case（Modules / Pub/Sub fanout / strict durability）保留 Redis。

整合 / 下一步

跟 client library 整合

主流 Redis client（lettuce / Jedis / redis-py / node-redis / go-redis）都直接相容 DragonflyDB；唯一例外是 cluster client 模式行為差（見 Case 4）。

跟 monitoring 整合

DragonflyDB exporter 提供 Prometheus metric、跟 Redis exporter 對應 metric 名稱 80% 相同；grafana dashboard 需小改：

redis_memory_used_bytes → dragonfly_memory_used_bytes
redis_commands_processed_total → dragonfly_commands_processed_total

跟 Redis Sentinel HA 對位

DragonflyDB 不直接支援 Sentinel、HA 走自家 master-replica + DNS-based failover：

DragonflyDB primary + replica
K8s 用 StatefulSet + Service + readiness probe
失敗 failover 比 Sentinel 慢（30s-2min vs 5-15s）

下一步議題

DragonflyDB Cluster GA：正式 cluster mode 出來後重評估
Stream + consumer group 細節：dual-write 期間驗證每個 consumer pattern
Modules 替代方案：JSON / Search / Graph 各自的 cloud-native 替代評估

Self-managed ELK → Elastic Cloud：5 年 ELK 集群的 lifecycle 收尾

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link Elastic Stack 跟 Elastic Cloud。跑 migration-playbook-methodology 6 維 audit 後對映 Operational = High（self-managed → Elastic managed）→ Type C operational redesign hybrid。

5 年 ELK 集群的 lifecycle 收尾

跟前批 PostgreSQL → Aurora 同 Type C、本文用 lifecycle-driven entry — 看 5 年 ELK 集群典型壽命曲線：

年份	Phase	集群狀態
0-1	Build	3 node、簡單部署、SOC 學 Lucene query / dashboard / alert
1-2	Scale-out	5-7 node、shard 計畫、hot/warm/cold tier、index lifecycle management
2-3	Degrade	10+ node、shard 過多、query latency 升、upgrade window 開始痛
3-4	Save	加 dedicated master / cross-cluster replication、ops cost 飛漲
4-5	Migrate decision	評估走 Elastic Cloud（managed）或下一個 SIEM vendor

多數中型 organization 在 lifecycle 第 4-5 年遇到 operational ceiling — SRE team 0.5-1.5 FTE 跑 ELK ops、新 feature 開發停滯、cost 跟 alternative observability vendor 比較。Elastic Cloud 把 operational stack 全託管、SOC 留在 Lucene query + dashboard + alert 層、不再管 cluster sizing。

為什麼遷：FTE / availability / version cadence 三條 driver

Driver	觸發
FTE	Self-managed ELK 0.5-1.5 FTE 跑 ops、Elastic Cloud 降到 0.1-0.3 FTE
Availability	Cross-AZ failover 自管太複雜、Cloud 內建
Version cadence	Elasticsearch 8.x quarterly release、self-managed upgrade window 是痛點、Cloud 自動

6 維 audit

維度	等級
Schema / API	Low（Elasticsearch API 完全相容）
Operational	High（cluster mgmt 全託管）
Paradigm	Low（同 Elasticsearch + Kibana + Beats / Logstash）
Components	Low
Application change	Low-Medium（連線 endpoint + auth 改）
Data topology	Low

Operational = High → Type C standard。

Operational redesign 對位

Concept	Self-managed ELK	Elastic Cloud
Cluster bootstrap	手動 install + config	UI / API 一鍵建 deployment
HA	自管 master / dedicated voting / cross-AZ	內建 multi-AZ
Upgrade	手動 rolling restart 6-12 小時	自動 patch + minor version
Backup	自管 snapshot to S3	內建 snapshot lifecycle
Shard management	手動 ILM policy	UI-driven ILM
Security	自管 X-Pack / SSL cert	內建 + 自動 cert rotation
Monitoring	自管 Metricbeat → 自己集群	內建 deployment monitoring

Migration 4-phase

Phase 0：Pre-migration audit

列 application 連線 endpoint (Logstash / Beats / SDK direct)
列 ILM policy + retention setting
估 deployment size（hot tier RAM / cold tier storage）

Phase 1：Elastic Cloud deployment 建置

選 region + provider（AWS / GCP / Azure）
Hot tier RAM × N + cold tier S3-backed × N
Snapshot lifecycle 配置

Phase 2：Data migration

Cross-cluster replication (CCR) 從 self-managed → Cloud（推薦、incremental）
或 snapshot + restore（簡單但需要 maintenance window）

Phase 3：Cutover + cleanup

Application 端切 endpoint
Self-managed 端 read-only 1-2 月
Decommission

Production 故障演練

Case 1：Application endpoint hardcode、cutover 失敗

徵兆：cutover 後 N 個 application 仍連舊 endpoint、log / metric 斷流。

根因：endpoint 寫死在 config file、deploy 時沒一起改。

修法：endpoint 用 ENV variable + service discovery、cutover 是 single deploy。

Case 2：CCR replication lag、cutover 時資料 gap

徵兆：CCR 跑 1 週、cutover 前 lag 200ms 看似 OK；application 切到 Cloud 後 search 顯示 缺最近 5 分鐘 data。

根因：CCR replication 不保證即時 catch up、cutover 期間仍可能 lag；且 follower index 對 write 不接受。

修法：

Cutover 流程加 drain window — 停 application write 5-10 分鐘、等 CCR catch up
確認 follower index 已 promote 成 write-capable
監控 CCR lag、< 100ms 才 cutover

Case 3：Auth 改變、SOC alert 失效

徵兆：cutover 後 SOC dashboard 顯示「authentication failed」、SIEM rule 全失效。

根因：self-managed 用 X-Pack basic auth、Cloud 用 API key + SSO；SOC tooling 沒改 auth。

修法：

Pre-cutover 列所有 tool 連線 ELK 的 auth
改 API key、用 IAM-friendly token rotation
Cloud 端 enable SSO + 設 service account

Case 4：Cost 暴漲、cold tier 設定錯

徵兆：第一個月 Cloud 帳單比預估高 50%；cold tier 用 fast storage（hot-tier-level）而非 S3-backed。

根因：Cloud deployment template 預設 hot 是 fast、cold 也是 fast（slow 需要明示）；team 沒 review template。

修法：

Pre-cutover review deployment template、確認 cold tier = searchable snapshot to S3
Cost monitor 第一週密集 check
Hot tier RAM 估算 conservative

Case 5：Snapshot 跨 region 失效

徵兆：DR drill 切 region 失敗；Cloud 內建 snapshot 是 same-region、不跨 region。

根因：multi-region DR 需要 cross-region snapshot 或 multi-deployment、不是預設。

修法：

評估 DR 需求、是否需要 cross-region
配 additional deployment in DR region + CCR
Cost 增 50-100%、是 DR 投資不是 cost optimization

Capacity / cost

維度	Self-managed ELK	Elastic Cloud
Compute cost (5 node)	$1,000-2,000 / mo	$1,500-3,000 / mo
Storage cost	EBS	included + 加 S3 cold tier
Operational FTE	0.5-1.5 = $5K-15K	0.1-0.3 = $1K-3K
Total (5 node, mid-tier)	$6K-17K / mo	$2.5K-6K / mo
Migration cost	-	1-2 FTE × 1-2 個月

整合 / 下一步

跟 Splunk → Elastic Security migration 對位

兩篇都到 Elastic 生態、但 Splunk → Elastic Security 是 Schema 高差 Type A、本篇是 Operational 高差 Type C；如果同時跑兩個 migration、Splunk → Elastic Security 先、ELK Cloud 後（避免雙重變動）。

跟 Application observability stack 整合

Elastic Cloud + APM + OpenTelemetry：cutover 後可以 順便升 OTel 化 application、避免下次 vendor 切換重複工作。

Self-managed Kafka → AWS MSK：把 $15K/month operational cost 拆解到 managed

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link Kafka 跟 AWS MSK。跑 migration-playbook-methodology 6 維 audit 後對映 Operational = High（self-managed → AWS managed）→ Type C operational redesign hybrid。

$15K/month operational cost 拆解

跟 Datadog → Grafana Stack（H cost variant）同 framing — 用 cost 拆解開頭、不是「為什麼遷」driver list：

Self-managed Kafka cost 項	中型 (3 broker + 3 ZK + monitoring) / month
EC2 (3× r6g.xlarge broker)	$660
EBS (3× 1TB io2)	$1,500
EC2 (3× t3.medium ZK / KRaft)	$90
Monitoring (Prometheus + Grafana on EC2)	$200
Backup S3 (1TB)	$25
Cross-AZ traffic	$300
Operational FTE (0.5)	$5,000-8,000
Patching window cost	$200 (downtime opportunity)
Total infrastructure	$7,975-10,975
Total with FTE	$13,000-18,975

最大成本塊是 operational FTE、不是 infrastructure。MSK 把 50-80% operational 工作轉嫁 AWS、留 application + cost monitoring 給 SRE。

跑 6 維 diff dimension audit：

維度	評估	等級
Schema / API	同 Kafka protocol、client SDK 不改	Low
Operational model	Self-managed → AWS managed、HA / patch / backup 全託管	High
Paradigm	同 Kafka log-based	Low
Components	同 1 個 Kafka cluster	Low
Application change	Auth config 改（IAM / SASL）、其他不變	Low-Medium
Data topology	同 broker + partition 配置	Low

Operational = High（其他 Low-Medium）→ Type C operational redesign hybrid。

為什麼遷：FTE / availability / consistency 三條 driver

Operational FTE：Kafka self-managed + ZooKeeper / KRaft + Prometheus 端到端 ops 是 0.5-1 FTE、MSK 把 patch / HA / backup 全託管
Availability：MSK 自動 multi-AZ broker + auto-recovery、self-managed 自管 broker 故障 RTO 30 分鐘-2 小時
Consistency with cloud stack：已 deep on AWS（RDS / S3 / Lambda）、MSK 進 same VPC + IAM auth、降低 cross-vendor 設置成本

反向 driver（MSK → self-managed）：

Throughput / GB 規模大時 MSK 跨 broker cost 反轉（cost > self-managed）
需要 Kafka 客製化（custom plugin / kraft early adopter / 非 AWS region）
Multi-cloud / hybrid 架構不想 vendor lock

Operational redesign 對位

跟 PostgreSQL → Aurora / MongoDB → Atlas 同 Type C pattern：

Operational concept	Self-managed Kafka	MSK
Cluster bootstrap	手動配置 broker + ZK + brokers.properties	UI / Terraform 一鍵建
HA	自管 replica + ISR + broker placement	自動 multi-AZ + auto-recovery
Patching	Rolling restart 手動 / 工具	MSK 自動 monthly maintenance window
Backup	自管 MirrorMaker / cluster snapshot	MSK 內建 backup（S3、自動）
Authentication	SASL/SCRAM / mTLS 自管	IAM auth（推薦）/ SASL/SCRAM via Secrets Manager
Monitoring	Prometheus + JMX exporter 自建	CloudWatch + open monitoring + Prometheus
Sizing	手動 broker instance class	MSK broker size（kafka.m5.large+）
Configuration	server.properties 全控	Configuration set（限制可調 parameter）
Cluster topology	自管 placement / rack awareness	MSK 自動 multi-AZ + rack-aware
Tiered storage	Kafka 3.6+ 自管	MSK Tiered Storage（auto-tier 到 S3）

每行 operational concept 都需要 migration plan、application code 不變但 運維知識體系全換。

4-phase migration（Type C 標準流程）

Phase 0：Pre-migration audit

Workload sizing → MSK broker class：當前 throughput / partition count / topic count
Application connection pattern audit：客戶端 producer / consumer 用 SASL / mTLS / plaintext？哪個 application
Topic config audit：retention / replication factor / cleanup policy
Backup pattern audit：有 MirrorMaker / cross-cluster mirror 嗎

Phase 1：MSK cluster 建置（2-3 週）

 1resource "aws_msk_cluster" "main" {
 2  cluster_name           = "production"
 3  kafka_version          = "3.6.0"
 4  number_of_broker_nodes = 3
 5
 6  broker_node_group_info {
 7    instance_type   = "kafka.m5.large"
 8    client_subnets  = var.private_subnets
 9    security_groups = [aws_security_group.msk.id]
10    storage_info {
11      ebs_storage_info {
12        volume_size = 1000
13        provisioned_throughput {
14          enabled           = true
15          volume_throughput = 500
16        }
17      }
18    }
19  }
20
21  client_authentication {
22    sasl {
23      iam = true        # IAM auth (推薦)
24      scram = false
25    }
26  }
27
28  configuration_info {
29    arn      = aws_msk_configuration.main.arn
30    revision = aws_msk_configuration.main.latest_revision
31  }
32
33  encryption_info {
34    encryption_in_transit {
35      client_broker = "TLS"
36    }
37  }
38
39  logging_info {
40    broker_logs {
41      cloudwatch_logs {
42        enabled   = true
43        log_group = aws_cloudwatch_log_group.msk.name
44      }
45    }
46  }
47}

Phase 2：Data migration（MirrorMaker 2.0）

1Self-managed Kafka ──(MM2)──→ MSK
2                       │
3                consumer offset sync
4                       │
5                topic config sync

MM2 跑 1-7 天、依 topic 量 + retention 期間；replica.lag 對齊後進 cutover。

Phase 3：Cutover

Application 端切 bootstrap.servers 從 self-managed → MSK
Producer 漸進切（10% → 50% → 100%）
Consumer 切換時 offset 從 MM2 sync 過的位置開始
Self-managed cluster read-only standby 2 週

Production 故障演練

Case 1：IAM auth 沒設、application 連不上

徵兆：cutover 後 application 報 SaslAuthenticationException: Access denied；MSK 端 cloudWatch log 顯示 IAM principal 不認。

根因：MSK IAM auth 要求 client 跑 MSK IAM auth library（Java 用 aws-msk-iam-auth、Python 用 aws-msk-iam-sasl-signer-python）；application 端用 standard Kafka client、不知道怎麼 sign IAM signature。

修法：

 1# Python kafka-python + IAM auth
 2from aws_msk_iam_sasl_signer import MSKAuthTokenProvider
 3from kafka import KafkaProducer
 4
 5class AwsMskIamProvider(MSKAuthTokenProvider):
 6    def token(self):
 7        return self.generate_auth_token('us-east-1')[0]
 8
 9producer = KafkaProducer(
10    bootstrap_servers='b-1.mycluster.kafka.us-east-1.amazonaws.com:9098',
11    security_protocol='SASL_SSL',
12    sasl_mechanism='OAUTHBEARER',
13    sasl_oauth_token_provider=AwsMskIamProvider(),
14)

EKS pod 必須有 IAM role（IRSA）對 MSK cluster kafka-cluster:Connect action。

Case 2：Version pinning、3.6.0 跟 self-managed 行為差

徵兆：cutover 到 MSK 3.6.0 後、某些 consumer 跑舊 client 失敗；新 broker 改 default inter.broker.protocol.version 但 client 不認。

根因：MSK 升 Kafka version 後 broker config 變動、舊 client（< 2.8）跟新 broker 協議不對；self-managed 端可能用更舊 broker version 跑、看不出問題。

修法：

Pre-migration：所有 client 升 Kafka client library 2.8+
MSK kafka_version 對齊 self-managed：先建 MSK 3.0 / 3.5、跟 self-managed 一致、cutover 後再升
Phase rollout：用 Tiered Storage + retention 策略保留舊資料、新 producer / consumer 用新 version

Case 3：Metric pipeline 失效、SOC dashboard 無數據

徵兆：cutover 後 Grafana dashboard 顯示 MSK metric 0；舊 JMX exporter 抓不到 MSK；CloudWatch 有 metric 但 SOC 端不接 CloudWatch。

根因：MSK 不暴露 JMX、metric 走 CloudWatch / open monitoring (Prometheus + Grafana)、跟自建 JMX-based pipeline 不對等。

修法：

Open monitoring enabled：MSK config 設 open_monitoring.prometheus.jmx_exporter.enabled = true、跑 Prometheus 對 MSK broker 拉 metric
CloudWatch → Prometheus：用 cloudwatch-exporter 拉 CloudWatch metric 進 Prometheus
Dashboard refresh：Grafana dashboard 對 MSK-specific metric name 重寫（kafka_server_* → aws_kafka_* 或統一 alias）

Case 4：Cross-cluster mirror（MM2 → MSK）配置複雜

徵兆：MM2 跑了 1 週、self-managed 跟 MSK consumer offset 沒同步；application 切過去後 重新讀整批舊資料、duplicate processing。

根因：MM2 consumer offset sync 需要 跨 cluster mapping、source 端 offset 跟 target 端 offset 不直通；MM2 預設 offset sync 沒打開。

修法：

1# MM2 config
2source.consumer.bootstrap.servers=self-managed-kafka:9092
3target.consumer.bootstrap.servers=msk-cluster:9098
4target.security.protocol=SASL_SSL
5sync.group.offsets.enabled=true       # 必須打開
6emit.checkpoints.enabled=true
7checkpoints.topic.replication.factor=3

Architecture：consumer 切換時讀 MM2 checkpoint topic、不直接讀 internal offset；application 端用 idempotent + dedup key、avoid duplicate processing。

Case 5：MSK billing 暴漲、Tiered Storage / cross-AZ 沒控

徵兆：MSK 第一個月帳單比預估高 50%；breakdown 後發現 cross-AZ traffic（producer/consumer 跨 AZ）+ Tiered Storage 退到 S3 的 hot tier。

根因：

MSK auto multi-AZ deployment 不可避免 cross-AZ traffic、producer 寫 partition leader 可能跨 AZ
Tiered Storage 對 hot data（retention < 24 小時）會多 storage cost；cold data 才 cost-effective

修法：

Application AZ-aware routing：producer 走 same-AZ broker（用 rack-aware producer config）、降 cross-AZ
Retention 對齊 hot tier：< 24 小時 retention 用 broker local storage、24 小時+ 才走 Tiered Storage
Reserved instance：MSK 不直接 reserved、但 EBS / data transfer 可預付、降 10-20%

Capacity / cost

維度	Self-managed Kafka	MSK
Cluster cost (3 broker)	$660 EC2 + $1500 EBS = $2,160	$2,500-3,500（含 storage + multi-AZ）
Operational FTE	0.5-1 FTE = $5K-10K	0.1-0.3 FTE = $1K-3K
Patch / maintenance	Manual + downtime opportunity	Auto + maintenance window scheduled
Backup	Self-managed MirrorMaker	Built-in（S3 archive、auto）
Metric / monitoring	Prometheus + Grafana self-deploy	CloudWatch + open monitoring
Cross-AZ traffic	Limited by VPC layout	Auto multi-AZ、cross-AZ traffic cost 注意
Tiered storage	Kafka 3.6+ self-managed	MSK built-in tiered storage
Total (3 broker, 中型)	$7K-11K / mo (含 FTE)	$3.5K-6.5K / mo (含 FTE)
Migration cost	-	1-3 FTE × 1-2 個月

判讀：< 50 broker organization MSK ROI 通常 6-12 月持平、之後省 FTE；50+ broker 大 organization 自管 cost 可能反而低。

整合 / 下一步

跟 Kafka ↔ NATS migration 對位

兩條 Kafka 出路：

MSK：operational simplification、protocol drop-in、cost 中等漲；適合 繼續用 Kafka paradigm 的 organization
NATS：paradigm shift、application 必須改、適合 單純 messaging 不要 event sourcing 的 use case

多數 organization 不需要 paradigm shift、MSK 更合理；真正需要 lightweight messaging 才走 NATS。

跟 Confluent Cloud 對位

Confluent Cloud 是另一個 managed Kafka、跨 cloud（AWS / GCP / Azure）；MSK 是 AWS-only、但跟 IAM / VPC 整合更深。Multi-cloud organization 走 Confluent、AWS-deep organization 走 MSK。

跟 IAM / Secrets Manager 整合

MSK + IAM auth + Secrets Manager（連 Vault → AWS Secrets Manager migration）是 AWS-deep stack 的標準組合；short-lived credential + IRSA 是 production best practice。

反向 migration（MSK → self-managed）

少見、通常是 cost 反轉（大 scale）或 multi-cloud strategy；流程鏡像對稱、注意 MSK Tiered Storage data 不直接 export、需要 先 disable tiered storage + recall data。

下一步議題

MSK Connect：managed Kafka Connect、降 connector 運維、但 plugin ecosystem 比 self-managed Connect 少
MSK Serverless：burst workload 適合、steady workload 反而貴
Cost monitoring playbook：MSK billing 拆解每月跑一次、catch unexpected egress / tiered storage cost

Vault → AWS Secrets Manager：「secret」不是「secret」、identity model 才是核心差異

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link HashiCorp Vault 跟 AWS Secrets Manager。本文同時是 #128 self-aware limitation 第 1 點「6 維仍可能漏類（identity / consistency / residency 三軸候選）」的 identity 軸驗證。

「secret」不是「secret」：兩家對「secret」的定義不同

把 Vault → AWS Secrets Manager 當成「secret store 替換」是最常見的誤判 — 兩家的「secret」概念跨完全不同的 identity model：

概念	HashiCorp Vault	AWS Secrets Manager
Secret 本身	一個 secret path（`secret/data/myapp/db`）	一個 ARN（`arn:aws:secretsmanager:us-east-1:...`）
存取者身份	Vault token（self-managed token TTL）	AWS principal（IAM user / role / federation）
授權模型	Vault policy（capabilities：read/create/…）	IAM policy + Resource policy（雙層）
Authentication	AppRole / Kubernetes / LDAP / OIDC / 自管 auth method	AWS Sigv4 + STS token / Identity Federation
Dynamic credential	Vault database secrets engine（lease + renew）	Lambda rotation（無 lease 概念）
Audit log	Vault audit log（自管 endpoint）	CloudTrail event（AWS 統一）
Multi-tenant 隔離	Namespace + path-level policy	Account boundary + resource policy
Tooling 整合	Application 端 Vault SDK / agent injector	AWS SDK + Lambda

核心差異不在「存 secret 的地方」、在「身份從哪來、怎麼 enforce、怎麼 audit」。 Migration 的真實工作量在 identity model 重設計、不是 secret 搬遷。

跑 6 維 diff dimension audit：

維度	評估	等級
Schema / API	API 完全不同（Vault HTTP API vs AWS SDK）	Medium
Operational model	Self-managed Vault cluster → AWS managed	High
Paradigm	兩家都是 secret store paradigm	Low
Components	Vault binary + storage backend → AWS SaaS	Low
Application change	必改（SDK 換、auth method 換、retry pattern 換）	High
Data topology	同 single instance, no sharding	Low
Identity model	完全不同（Vault token vs IAM principal）	High

6 維 audit 抓不到「Identity model = High」這軸 — 用既有 6 維歸類、會走 Type C operational redesign + Application change 高維獨立段；但實際工作量分佈：

Operational redesign（vault cluster 拆 / Lambda 配 / 監控換）：~25%
Application change（SDK / retry / token 換 IAM credential）：~30%
Identity model 重設計（每個 secret 對應的 principal / policy / 跨 service auth chain）：~45%

最大工作量塊在 identity model 重設計、不在既有 6 維任一個。Identity 是 候選的第 7 維。

Identity axis 是否獨立：4 個論據

Yes、identity 是獨立軸：

Identity 不變 → operational 仍可變：Vault on-prem → Vault on-EKS、operational 變 high 但 identity model 不變（仍 Vault token）；可分開 audit
Operational 不變 → identity 仍可變：Vault namespace 重組（管理 50 個 namespace → 5 個 namespace + namespace-level policy）、operational 不變但 identity boundary 重劃；可分開 audit
Application change 不變 → identity 仍可變：純 infrastructure-level rotation（手動 → 自動）、application code 不變但 identity issuance flow 變；可分開 audit
Paradigm 不變 → identity 仍可變：同樣是 secret store paradigm、Vault token vs IAM principal 是 identity model 差、不是 paradigm 差

No、identity 可塞 application change：

反論：application code 改 SDK + IAM signer 都算 application change
拒絕：application change 是 consequence、不是 root cause；identity model 變動才是驅動 application change 的原因

實證上、本文 migration 工作量 45% 在 identity 對位、確認 identity 是 獨立的工作量主軸、不該被壓進 application change 軸。

結構：Type C + identity model 對位獨立段

跟既有 Type C PostgreSQL → Aurora 對照、本文多出 identity model 對位 獨立段：

11. 「secret」不是「secret」（identity axis paradox 開頭）
22. Identity axis 是否獨立的論據
33. 結構 differentiator（Type C + identity 獨立段）
44. Identity model 對位（Vault → AWS principal mapping）
55. Operational migration（4 phase）
66. Application change（SDK + retry pattern）
77. Production 故障演練
88. Capacity / cost
99. 整合 / 下一步

9 章節、260-280 行。比標準 Type C 多 1 段（identity model 對位）+ 1 段（axis 獨立論據）。

Identity model 對位

 1Vault concept                    →  AWS Secrets Manager 對應
 2─────────────────────────────────   ────────────────────────────
 3Vault token (auth 結果)           →  AWS STS temporary credential
 4AppRole (auth method)             →  IAM role + AssumeRoleWithWebIdentity
 5Kubernetes auth method            →  IAM Role for Service Account (IRSA)
 6LDAP auth method                  →  IAM Identity Center (formerly SSO)
 7Vault policy (capabilities)       →  IAM policy + Resource policy
 8Path-level ACL (secret/db/*)      →  Resource ARN pattern (arn:aws:secretsmanager:...:secret:db/*)
 9Namespace                         →  AWS account + resource-based isolation
10Audit device                      →  CloudTrail event
11Database secrets engine           →  Lambda rotation function

每行對位都有 語意差、不是 1:1 mapping：

Vault token TTL vs AWS STS credential expiration：Vault token TTL 可由 application 主動 renew；STS credential 不能 renew、必須 re-assume
Vault policy capabilities vs IAM action：Vault read capability 對應 AWS secretsmanager:GetSecretValue、但 AWS 還要 resource policy 允許；雙層授權
Vault Kubernetes auth vs IRSA：兩者都是 K8s service account → secret access、但 IRSA 需要 EKS + OIDC provider 設置、Vault K8s auth 不需要

Migration scope 包含每行對位的 application-level 適配、不是 secret 搬。

Operational migration (4 phase)

Phase 0：Audit + design

列所有 Vault secret + path + 使用 application
每個 secret 對應 AWS principal（IAM role / IRSA / federation）
設計 ARN 命名規則（按 namespace / application / environment）
規劃 AWS account boundary（dev / staging / prod 分 account）

Phase 1：AWS Secrets Manager + IAM 設置

Terraform / CloudFormation 建 secret + IAM role + resource policy
設 IRSA / WebIdentity provider
預先建 staging secret、跑 application test

Phase 2：Application dual-read

1# Application 同時讀 Vault + AWS Secrets Manager
2def get_db_password():
3    aws_value = boto3.client('secretsmanager').get_secret_value(SecretId='myapp/db')['SecretString']
4    vault_value = vault_client.read('secret/data/myapp/db')['data']['data']['password']
5
6    if aws_value != vault_value:
7        logger.warning(f"Secret diff between Vault and AWS!")
8
9    return aws_value  # Use AWS as source of truth

跑 1-2 週、確認兩端一致 + AWS API latency / error rate 接受。

Phase 3：Cutover + cleanup

Application 端切到 AWS Secrets Manager only
Vault read-only 1-2 週 standby
之後 decommission Vault cluster

Application change

Application 端必改的 4 個 pattern：

1# Before: Vault SDK
2import hvac
3vault_client = hvac.Client(url='https://vault.internal', token=vault_token)
4secret = vault_client.read('secret/data/myapp/db')['data']['data']['password']
5
6# After: AWS SDK + IAM
7import boto3
8sm = boto3.client('secretsmanager')
9secret = sm.get_secret_value(SecretId='myapp/db')['SecretString']

關鍵差異點：

Authentication：Vault token 由 application 自管 / refresh；AWS SDK 自動處理 STS credential（透過 IAM role / instance profile / IRSA）
Caching：Vault secret read 通常 cache 5-15 分鐘；AWS Secrets Manager 有 cache library（aws-secretsmanager-caching-python）需顯式啟用
Retry pattern：Vault 用 exponential backoff；AWS SDK 自帶 retry but boto3 default 跟 application requirement 不一定 match
Rotation hook：Vault 用 SDK 端 lease renewal；AWS 用 Lambda rotation function、application 端只需要 re-read

Production 故障演練

Case 1：IAM principal 對位錯、production application 拿不到 secret

徵兆：cutover 後 application 啟動失敗、log 顯示 AccessDeniedException: User: arn:aws:sts::...:assumed-role/EKS-NodeRole/i-xxx is not authorized to perform: secretsmanager:GetSecretValue。

根因：EKS pod 用 node role 而非 pod IRSA role；Phase 0 audit 沒設 service account 對應的 OIDC trust。

修法：

預先設 IRSA：建 IAM OIDC provider for EKS、設 service account annotation
驗證 principal：aws sts get-caller-identity 從 pod 內跑、確認 returned role 是預期的
Resource policy + IAM policy 雙層：確認 secret 的 resource policy allow 該 role、IAM policy 也 allow

Case 2：Dynamic credential 對等失敗、application 連 DB 失敗

徵兆：Vault 端用 database secrets engine 自動 rotate DB password、application 透過 Vault SDK 拿 lease；切到 AWS Secrets Manager + Lambda rotation 後、Lambda rotation 完成、但 application 端仍用 cached old password、連 DB 拒絕。

根因：Vault SDK 自帶 lease renewal logic、application 知道 password 即將過期會主動 re-read；AWS SDK 沒 lease 概念、application 自己決定多久 re-read 一次。

修法：

設 cache TTL 短於 rotation interval：rotation 24 小時、cache TTL 1 小時、最壞情況 1 小時 stale
顯式 cache invalidation：rotation Lambda 跑完發 SNS、application subscribe 主動 refresh
Connection-level retry：DB connection 認證失敗時 application 重 fetch secret 跟重連
重新評估 rotation cadence：AWS Lambda rotation 不是 Vault dynamic、是 scheduled rotation；不能假設兩者同 semantic

Case 3：Audit log 結構差、SOC dashboard 失效

徵兆：cutover 後 SOC 端 dashboard 顯示 secret access metric 全 0；舊 Vault audit log 結構在 Splunk 端 parse 過、AWS CloudTrail 結構完全不同、search query 全失效。

根因：Vault audit log 是 Vault-specific JSON 結構（含 lease_id / policy / token）；CloudTrail event 是 AWS-specific（含 eventName / requestParameters / userIdentity）；SOC parse rule 不能搬。

修法：

Pre-cutover 重寫 SOC rule：CloudTrail event 對應 Vault audit log 的 detection coverage 必須 1:1 mapping
GuardDuty integration：AWS GuardDuty 自動 surface secret access anomaly、降低自寫 rule 工作量
CloudTrail → S3 → Athena：long-term audit query 走 Athena、tooling 跟 Vault 完全不同、SOC re-training

Case 4：Calling cost 反轉、AWS 比 Vault 自管貴

徵兆：Vault on-prem 跑了 $200 / month（EC2 + ops），切到 AWS Secrets Manager 後 $1500 / month；帳單拆解後 GetSecretValue API call 是大頭。

根因：AWS Secrets Manager $0.05 per 10K API call — application 高頻 read（每 request 都讀 secret + 沒 cache）會爆 cost；Vault 端 application 自管 cache + token TTL 內無 API call。

修法：

強制 application-side cache：用 aws-secretsmanager-caching library、cache TTL 5-15 分鐘、API call 從 100M/month 降到 10K/month
Re-architect application：把 high-frequency secret read 改 connection-level（建 DB connection 時讀一次、connection lifecycle 內復用）
Cost monitoring：對 secret access 設 CloudWatch alarm、過 threshold 立即 alert

Case 5：跨 region replication 對位失敗、DR 演練失效

徵兆：DR drill 切 region 後、application 連不到 secret；發現 us-west-2 的 Secrets Manager 沒有 us-east-1 的 secret。

根因：AWS Secrets Manager 不是 global resource、是 region-scoped；Vault 自管 multi-DC replication；cutover 漏設 cross-region replication。

修法：

設 secret replication：AWS Secrets Manager 內建 replication 到其他 region（ReplicaRegions）
DR drill 必跑：cutover 前 + cutover 後各 drill 一次、驗證 region failover 順
架構：考慮用 AWS Backup 對 Secrets Manager 做 cross-region backup 補強

Capacity / cost

維度	Vault self-managed	AWS Secrets Manager	Trade-off
Setup cost	Mid（自管 cluster + storage + HA）	Low（一鍵建 secret）	AWS 顯著低
Operational FTE	0.3-1 FTE	0.05-0.1 FTE	AWS 省 SRE
Per-secret cost	~$0（含在 cluster）	$0.40 / month	AWS 按 secret 數計費
API call cost	~$0（含在 cluster）	$0.05 / 10K call	High-frequency app 顯著貴
Cross-region	自管 replication	內建 `ReplicaRegions`	AWS 簡化
Audit	Vault audit device	CloudTrail（內建）	AWS 跟 SOC pipeline 統一
Identity integration	多 auth method	IAM + IRSA + Identity Center	AWS 跟 cloud-native 整合好
Total cost (100 secret, 50K read/day)	$200 / mo (含 ops)	$40 + $7 + replication = ~$50 / mo + ops 省	AWS 1/4 cost、若 read 不爆

判讀：少 secret + 中頻 read 走 AWS Secrets Manager；高頻 read + multi-cloud / on-prem 約束走 Vault。

整合 / 下一步

跟 Vault Dynamic Credential 對比

Vault dynamic credential 是 Vault 特有 feature、AWS Secrets Manager 用 Lambda rotation 對應、但 semantic 不同：

Vault: per-application lease、application-aware lifecycle
AWS: scheduled rotation、application 不知道何時被 rotate

Migration scope 應該降級 dynamic credential 場景、用 Lambda rotation 替代、application logic 改 cache + retry pattern。

跟 IAM Identity Center 整合

人類存取 secret（emergency break-glass）走 IAM Identity Center + temporary role assumption；不要直接給 user IAM key。

下一步議題

Reverse migration（AWS → Vault）：通常是 multi-cloud / on-prem 約束驅動、cost 在大 scale 反轉
Hybrid pattern：cloud-native secret 走 AWS、cross-cloud / on-prem secret 走 Vault；應用程式根據 secret 來源 routing
identity axis 驗證：本文認為 identity 是獨立軸、未來累積 LDAP → OIDC / 自管 RBAC → IAM 等 migration 驗證

1.12 大規模 DB 遷移實戰

Wed, 13 May 2026 00:00:00 +0000

概念定位

DB 遷移是後端工程中 風險最高的長期工作 之一。一次失敗的遷移可能造成資料丟失、用戶體驗劣化、合規違約、團隊信心受挫。本章整理近 5 年公開的大規模 DB 遷移案例、提煉出可重用的工程流程。

跟 1.6 database migration playbook 的關係：1.6 是 generic playbook、本章針對「跨 DB 種類」遷移（PostgreSQL → Aurora、TiDB → DynamoDB、MongoDB → Cosmos DB）、規模較大、風險較高。

跟 1.7 Schema Migration Rollout Evidence 的關係：1.7 處理 同一 DB 內 的 schema 演進、本章處理 換 DB engine 的遷移。兩者都用 evidence-based gate、但 stakes 不同。

讀完後讀者能回答：跨 DB 遷移該怎麼分階段、dual-write 怎麼設計、shadow read 怎麼驗證、cutover 怎麼安全進行、rollback window 訂多久。

遷移類型分類

DB 遷移不是單一概念、按 變動範圍 分四類、每類風險跟流程不同。

Type 1：scale-up（換 instance）：

例：m5.large → m5.4xlarge
變動：硬體規格、不變 schema、不變 DB engine
風險：低、通常 minutes downtime 即可
工具：vendor 提供 in-place scaling

Type 2：schema migration：

例：加欄位、加 index、改 data type
變動：schema 結構、不變 DB engine
風險：中、需要 expand-contract 模式
詳見 1.7 Schema Migration Rollout Evidence

Type 3：cross-DB engine migration：

例：PostgreSQL → Aurora、SQL Server → PostgreSQL、TiDB → DynamoDB
變動：DB engine、可能 schema、可能 query language
風險：高、可能需要應用層改寫、cutover 風險大
本章重點

Type 4：cross-model migration：

例：RDBMS → KV、Document → Graph
變動：資料模型、必須應用層大改寫
風險：極高、通常分 service 漸進遷移、不會一次切完
對應 9.C20 Zomato TiDB → DynamoDB

為什麼要做大規模 DB 遷移

不是所有遷移都值得做。理由要強過 成本 + 風險、不然不該開工。

合理動機：

舊系統規模上限：9.C20 Zomato TiDB 必須長期 over-provision 應付 spike、成本不划算 → 換 DynamoDB on-demand 後 50% 成本下降
舊系統運維成本：9.C9 Spotify 自管 Kafka 工程成本太高 → 換 managed Pub/Sub 釋放 SRE
舊系統失能：9.C23 Netflix 多套 RDBMS（PostgreSQL、MySQL、Oracle）DBA 負擔重 → 統一到 Aurora、效能 +75% 成本 -28%
vendor 終止支援：mongoDB 改授權、TiDB 改授權、Mesos 被棄、Oracle 升級費高
合規要求：9.C14 Standard Chartered 新市場上線、需要本地合規 cluster
新功能需求：9.C30 Microsoft 365 需要 global distribution、原 MongoDB 達不到

不合理動機（要警惕）：

「新技術好酷」：fad-driven、通常會後悔
「vendor sales 推銷」：sales 利益跟你 ROI 不一致
「同行 X 也在遷」：人家的場景跟你不同
「主管要看到 transformation」：政治、不是工程

遷移階段流程

成熟的大規模 DB 遷移分五階段、每階段有明確 exit criteria。

階段 1：可行性評估（T-180 ~ T-90）

輸出：可行性報告、決定 go / no-go。

評估項目：

workload 在新 DB 上是否真的能跑（不是 marketing、是實測 POC）
應用層改寫成本（哪些 query 需要改、哪些 ORM 需要換）
遷移時程預估（含 合規審查 lead time、如金融業可能 3-12 個月）
成本對比（總成本曲線、不只當下 snapshot）
失敗代價（如果遷移失敗、business 影響多大）

跨雲遷移特有 gap 分析：當遷移橫跨雲廠商時、評估項目要加上 0.19 雲端服務對照地圖的「對應 ≠ 等價」差異維度：

一致性模型差異（如 DynamoDB eventual vs Cosmos DB 五級可選）
failover 時間差異（vendor 文件 vs 實測長尾）
計價模型差異（per-request vs provisioned capacity 換算）
配額差異（partition 上限、batch size、throttling 行為）
Data gravity / egress lock-in（PB 級資料的 egress fee 常是被低估的單筆最大成本）

跨雲遷移的失敗多數來自 0.19 對照表沒做完整 gap 分析、把「名稱對應」當「能力等價」。

對應案例：

9.C20 Zomato — POC 驗證 DynamoDB 撐得住、再決定遷移
9.C30 Microsoft 365 — MongoDB API 相容讓 POC 成本低、加速決策

階段 2：應用層相容性改造（T-90 ~ T-30）

輸出：應用層支援 新舊 DB 雙寫、可以隨時切換。

改造項目：

Repository adapter 抽象化（1.4 Repository Adapter）
新增 新 DB 的 adapter 實作
配置「寫入 mode」：old only / dual-write / new only
query 端「讀取 mode」：old / new / shadow（讀兩邊比對）
error handling 兼容（不同 DB 的錯誤碼）

API-compatible 遷移的優勢：

9.C30 Microsoft 365 MongoDB → Cosmos DB MongoDB API — 應用層幾乎不用改、只換 connection string
Aurora PostgreSQL-compatible → 不改 SQL 跟 ORM
缺點：API 相容不等於行為完全相同、要 特定 query pattern 驗證

階段 3：Dual-write + shadow read 驗證（T-30 ~ T-7）

dual-write / shadow read / backfill 的 generic 機制 詳見 1.6 database migration playbook 跟 1.7 schema migration rollout evidence（含 Dual-write divergence schema 詳細分類）；本章只強調 跨 DB engine 遷移的特殊取捨。

輸出：新 DB 已 並行寫入、跟舊 DB 結果一致。

Dual-write 流程：

應用層同時寫入 old 跟 new DB
用 old DB 結果回應用戶
log 兩邊寫入是否成功、有差異就 alert
backfill 之前的歷史資料到 new DB

Shadow read 驗證：

應用層查 old DB 拿結果回用戶
也查 new DB、比對結果是否一致
不一致記錄到 audit log
跑 N 天（建議 7-14 天）確認一致性高

注意事項：

Dual-write 期間 兩邊都要可寫、寫失敗的 fallback 流程明確
新 DB 還沒承擔流量、容量規劃要 提前 ramp up、不要等 cutover 才發現容量不夠
監控指標：write success rate、cross-DB inconsistency rate、replication lag、performance metrics

對應案例：9.C20 Zomato — 遷移前用 dual-write 驗證 4 倍吞吐改善是真的、不是 POC marketing。

階段 4：Cutover（T-7 ~ T-0）

輸出：用戶流量切到 new DB、old DB 變成 fallback。

Cutover 策略：

Big-bang cutover：一次切全部流量

優點：簡單、不必維護 跨 DB consistency
缺點：風險集中、rollback 困難
適合：小規模、low-stakes

Gradual cutover（推薦）：分階段切

T-7：1% 流量到 new DB、觀察 1 天
T-6：5% → 觀察 1 天
T-5：25% → 觀察 1 天
T-3：50% → 觀察 2 天
T-1：100%

Reverse rollout：某些工作負載先切（read-only first、再 write）

T-7：所有 read 切到 new DB（write 還在 old）
T-3：write 切到 new DB（read 已驗證）

階段 5：Rollback window + 清理（T+0 ~ T+30+）

Rollback window：cutover 後保持 可隨時 rollback 回 old DB 的狀態。

Rollback window 設計：

短期（T+7）：保持 dual-write、可以即時切回 old DB
中期（T+30）：保留 old DB read-only、需要 manual 切回但快
長期（T+90）：保留 old DB snapshot、disaster recovery 用
結束：徹底刪除 old DB（含 backup、ETL pipeline 改寫）

Cleanup 工作：

移除 dual-write code
移除 shadow read code
簡化 repository adapter（只保留 new DB）
文件更新（runbook、onboarding doc）
decommission old DB（不立即砍、保留至少 90 天備援）

對應案例：9.C9 Spotify Kafka → Pub/Sub — 大規模事件交付系統的 multi-month 漸進遷移、有明確 rollback path。

API-compatible vs 應用層改寫

跨 DB 遷移的關鍵決策：要不要追求 應用層零改動。

API-compatible 遷移：

新 DB 提供舊 DB 的 wire protocol / API
應用層只換 connection string、不改 query
例：MongoDB → Cosmos DB（MongoDB API）、Cassandra → Cosmos DB（Cassandra API）、MySQL → Aurora（MySQL）

優點：

遷移成本低（不必改 application code）
風險低（不會引入 query bug）
時程快（不必等 application 改寫）

缺點：

行為可能不完全一致（subtle bug）
性能可能不是最佳（compat 層有 overhead）
vendor lock-in 更深

應用層改寫：

換 query 風格、ORM、access pattern
例：PostgreSQL → DynamoDB（SQL → NoSQL access pattern）

何時必須應用層改寫：

跨 model（RDBMS → KV）
跨 query paradigm（SQL → MongoDB 風格）
想拿 native 性能 / 成本優勢

對應案例：

9.C30 Microsoft 365 — MongoDB API compat、應用層幾乎不改
9.C23 Netflix — 多套 RDBMS → Aurora、PostgreSQL / MySQL 相容、最小應用層改動
9.C20 Zomato — TiDB（SQL）→ DynamoDB（KV）、必須改 access pattern、不能 API compat

容量規劃在遷移中的角色

DB 遷移期間有特殊的容量挑戰、跟一般 capacity planning 不同。

遷移期容量需求：

old DB 持續服務 production
new DB 接 dual-write（額外負載）
backfill historical data（額外負載）
shadow read（讀兩倍）
應用層擴容（dual-write 邏輯吃 CPU）

典型容量增加：

應用層 +20-30%（dual-write、cross-DB logic、metric）
new DB 必須 提前 provision 接 100% 流量
監控 / log 容量 +50%（要追蹤更多事件）

對應 9.6 容量規劃模型：遷移期是「臨時 over-provisioning 期」、要算進 cost。遷移完才能 right-sizing。

對應 9.10 Production-Side 驗證：dual-write 跟 shadow read 是 production validation 的特殊形式、要按 9.10 的安全邊界設計。

案例對照

案例	遷移類型	教學重點
9.C9 Spotify	self-managed → managed	7500 萬用戶事件交付系統遷移、人力成本驅動
9.C20 Zomato	NewSQL → KV NoSQL	對照 over-provisioning 成本、50% 帳單下降
9.C23 Netflix	多套 RDBMS → 統一 Aurora	DB consolidation 釋放 DBA、效能 +75%
9.C30 Microsoft 365	MongoDB → Cosmos DB（API compat）	API 相容遷移路徑、planet-scale 分析

遷移評估的成本曲線

遷移 ROI 評估常見錯誤是 只看當下流量下的成本對照、忽略未來流量曲線。決策時要算 12-24 個月的累積成本、不是 snapshot。

對應 9.C20 Zomato TiDB → DynamoDB — Zomato 帳單系統「成本降 50%」是當下流量下的對照。如果未來流量繼續成長、DynamoDB on-demand 的單位成本可能比 TiDB 自管 cluster 高、達到某規模後 TiDB 反而更便宜。

評估公式：

1未來 N 個月累積成本 = sum(月流量 × 月單位成本)

各 DB 的「月單位成本 vs 流量」曲線形狀不同：

DynamoDB on-demand：線性、按用量計費、單位成本固定
DynamoDB provisioned + reserved：階梯、預訂量越大單價越低
自管 TiDB / PostgreSQL：階梯 + 固定基線、低流量時單位成本高（基線分攤）、高流量時單位成本低
Aurora Serverless：線性、但有最低 ACU 基線
Spanner：節點數 × 單價、增量是 100 pu 一單位

曲線交叉點是選型決策的關鍵：DynamoDB on-demand 跟自管 PostgreSQL 在某個流量水位交叉、流量低於此值前者便宜（無基線成本）、高於此值後者便宜（基線分攤後單價低）。Aurora Serverless 跟 Aurora provisioned 也有類似交叉、波動大的 workload 在 Serverless 划算、穩定的在 provisioned 划算。Spanner 因為節點數階梯式增加、跨節點交叉點通常在 每節點 70-80% 利用率 — 過了就要加節點、新節點利用率掉回 50% 是常態。判讀重點：選型不該只看 當下流量點、要看未來 12-24 月的流量曲線會跨過哪些交叉點、再決定哪種計費模式總成本最低。

遷移 ROI 評估的維度：

維度	應該算進去
Infra 成本	當下 + 預期成長下的累積、不是 snapshot
人力成本	DBA、SRE、on-call 工時、跟 vendor 整合工時
機會成本	遷移期間不能做新功能的時間成本
Lock-in 成本	換 vendor 的退場成本、合約年限
合規 lead time	受監管產業每市場 3-12 月審查、不算進來時程會崩
Migration 本身成本	dual-write infra、shadow read 雙倍負載、人力、風險

機會成本延伸：機會成本是遷移期間 不能做新功能 的時間。大型遷移通常綁住核心 team 6-12 個月、期間業務側看不到產品演進、可能流失市場機會。實務上要算「如果這 6 個月去做新產品、營收 / 競爭優勢值多少」、若超過遷移節省的 infra 成本、遷移不划算。

Lock-in 成本延伸：vendor lock-in 不是「不能換」、是「換的時候要付多少」。包含：(1) 應用層改寫成本（DynamoDB → Spanner 要改 access pattern）、(2) 合約終止 penalty（reserved capacity 提前解約罰款）、(3) 資料導出成本（雲商出口流量費）、(4) 人才再訓練（DBA 從 Aurora 轉 Spanner 需要時間）。選 vendor 時就要評估這四項、即使沒打算換、合約年限到時也要面對。

判讀重點：「遷移後成本降 50%」這種敘述只看 infra 成本、且只看當下。完整評估要看所有六個維度跨 12-24 月、決策才不會出「短期省、長期更貴」或「短期看似賺、合規卡 1 年」的事故。

合規審查 lead time 是時程主要拉力

受監管產業（金融、醫療、電信、政府）的 DB 遷移、合規審查 通常是時程主導因素、不是技術整合。

對應 9.C14 Standard Chartered — 跨 7 個受監管市場遷移到 Aurora、每個市場各自審查（中央銀行 / 金融監管機關 / 個資主管機關）、單一市場審查 3-12 個月、總時程是「市場數 × 平均審查月份」、不是「技術遷移月份」。

合規 lead time 的常見項目：

中央銀行核心系統變更審查（金融業）
個資主管機關的跨境傳輸審批（GDPR / 各國個資法）
醫療資料的隱私審查（HIPAA / 各國醫療法）
雲端服務商的合規認證對應（PCI-DSS、ISO 27001、SOC 2）
跨市場資料駐留限制（中國《數據安全法》、印度資料保護法、歐盟 GDPR）

規劃含義：

技術側 ready ≠ 可上線、合規簽核才是 cutover gate
合規審查通常 serial、不能 parallel（單一審查機關沒法平行處理多 case）
高風險變更（DB 換 vendor、cross-border）審查週期最長
跨市場部署、各市場各自審、不能用某市場結果代替

判讀重點：受監管產業的遷移計畫、預設技術側 50%、合規 50% 工時、不是「技術 90% / 合規 10%」。低估合規 lead time 會讓專案在最後關頭卡關、且無法用工程資源補。

Benchmark 對照基準的解讀

遷移案例的「X% improvement」要追問 跟什麼基準比、否則容易誤導。

對應 9.C14 Standard Chartered — 「10x throughput」是 vs 舊系統、不是 vs 競爭對手。受監管銀行的舊系統通常是 1990s-2000s 的 mainframe 或自建 OLTP、性能本來就低、改善幅度大不代表絕對性能領先。

對應 9.C23 Netflix Aurora consolidation — 「up to 75% improvement」是 跨多個 workload 的最大改善幅度、不是「每個 workload 都 +75%」。實際每個 workload 改善從 10% 到 75% 不等、平均可能 30-40%。

benchmark 解讀的關鍵問題（遷移情境專屬）：

vs 什麼基準：跟舊系統比 vs 跟競爭對手比 vs 跟理論最佳比
哪個 workload：是平均 vs 最快 vs 最慢
規模對照：在多大流量下測的、自家業務規模類似嗎

讀 vendor 案例研究時、這三個遷移專屬維度都要對照、否則「75% 改善」可能變成「在某個 cherry-picked workload、跟舊系統比、規模跟自家不同」、實際搬過去未必有對應收益。

規模對照延伸：vendor 案例研究最容易誤判的維度。讀者要識別三個訊號才能判斷規模是否類似 — (1) 資料量（vendor 揭露的是 GB 還是 PB？自家在哪個量級？）、(2) QPS 分布（vendor 是 sustained 還是 bursty？自家流量形狀是否類似？）、(3) 讀寫比（vendor 案例是 write-heavy 還是 read-heavy？自家業務性質是否吻合？）。三個訊號至少要有兩個跟自家對齊、benchmark 數字才有參考價值。對應 9.C5 Amazon Ads 案例的 18:1 讀寫比、跟一般電商的 5:1 完全不同、不能用同一份 benchmark 推論。

Percentile 跟時間窗口維度 — 是更通用的容量數字判讀問題、詳見 1.1 高併發資料存取的「讀峰值數字的工程細節」段（容量三口徑、p50/p99/p999 解讀）。遷移情境只需在這個基礎上加「vs 基準 / workload / 規模對照」三個遷移專屬問題。

「預設 DB」治理 pattern

大規模平台選 DB 的做法是建立「預設 DB」規則、新團隊用其他要 justify、逐案決定在這個規模行不通。這個治理 pattern 簡化 onboarding、降低 DB 種類太多的運維成本。

對應 9.C24 Genesys — Genesys Cloud 的 Chief Architect 明確說「Amazon DynamoDB is our primary data layer by default, and teams have to justify the use of something else」。對應 9.C23 Netflix — 把多套 RDB 整合到 Aurora、降低 DB 種類就是降低運維 surface area。

預設 DB 治理的工程含義：

新團隊預設用 X、特殊需求才評估其他、減少 DB 評估的認知負擔
DBA / SRE 知識集中、不必養多個 vendor 的專業
監控、backup、compliance 流程統一、運維成本下降
多個服務的 schema migration / capacity planning 可以共用 tooling

選擇預設 DB 的判讀條件：

平台規模夠大（10+ 微服務）、運維 surface area 是真實成本
業務需求大部分可以收斂到單一 DB（OLTP 90%、KV 10% 可以選 OLTP 為預設）
vendor 提供完整能力組合（managed + multi-region + auto-scaling）

預設 DB 對應：

AWS 生態大規模 OLTP → Aurora（Netflix）
AWS 生態大規模 KV → DynamoDB（Genesys、Capcom、Disney+）
Azure 生態 multi-model → Cosmos DB
GCP 生態 OLTP → Spanner / AlloyDB

同一雲廠商兩個預設 DB 怎麼選邊界：AWS 生態同時有 Aurora（OLTP 預設）跟 DynamoDB（KV 預設）、不衝突、但要清楚兩者邊界。預設選 Aurora 的條件是「需要 SQL JOIN / ACID 跨表 transaction / 既有 ORM」、預設選 DynamoDB 的條件是「access pattern 已知且固定 / 預期跨 region 寫入 / surge 場景下 connection-based DB 撐不住」。這條邊界要寫進平台的 onboarding doc、否則新 team 會在「Aurora 還是 DynamoDB」之間反覆 review、抵消預設 DB 治理的價值。

判讀重點：小規模平台（< 5 微服務）不必預設 DB 治理、case-by-case 決定即可。隨著服務數量增加、DB 種類失控成為大規模平台的隱性成本、預設 DB 治理變成規模化階段的工程紀律。

Vendor dogfood 是 selection signal

Vendor dogfood signal 是 vendor 自家 production-critical workload 對該服務的使用程度、反映 vendor 對自家服務的真實信任度。讀 vendor 案例研究時、這個訊號比 sales material 更可信、因為 vendor 自己賭身家。

對應 9.C1 AWS Prime Day — Amazon Prime Day 用自家 DynamoDB + Aurora 撐 1.51 億 RPS + 500B txn。對應 9.C10 Spanner — Google 自家 Ads、Play、Search 都用 Spanner。對應 9.C30 Microsoft 365 — Microsoft 365 usage analytics 用自家 Cosmos DB。

Dogfood 訊號為什麼重要：

vendor 自家賭身家、出問題自己第一個踩
內部 dogfood 通常比外部 customer earlier 用、bug 修得快
vendor sales team 的「能撐 X」如果跟內部 dogfood 不一致、是 marketing
內部用量大、vendor 對該服務的工程投入比 marginal customer 多

Dogfood 訊號的限制：

vendor 內部享有專屬資源配額跟內部成本機制、外部用戶在公開計費下、單位成本邊界不同
vendor 內部享有深度 API 客製化跟特殊 SLA、外部用戶實際可取得的能力是公開版本
vendor 自家業務的 workload pattern 反映 vendor 自己的業務需求、跟你業務的 workload 可能不同

判讀重點：dogfood 是必要訊號、不是充分訊號。看 vendor 自家用代表服務經過嚴格驗證；但「自家業務 vs 你業務」的相似度（資料量、QPS、讀寫比、一致性需求）才是 dogfood signal 是否能套用的判讀條件。

反模式

大規模 DB 遷移的常見錯誤：

沒做 POC 就 commit 遷移：發現新 DB 撐不住某個 query pattern、時程崩
dual-write 沒 monitoring：兩邊不一致沒被發現、cutover 後資料錯亂。divergence 該怎麼分類追蹤、詳見 1.7 Dual-write divergence schema
shadow read 跑太短：1-2 天就 cutover、long-tail bug 沒暴露
沒 rollback path：cutover 後發現問題、回不去
app 跟 DB 一起遷：兩個 risk source 疊加、追根因困難
忽略合規 lead time：技術側 ready 但合規審查還在跑、整個 stuck
忽略 ETL pipeline：production cutover 完、下游 BI / analytics 還在打 old DB

下一步路由

上游：1.6 database migration playbook（基本流程）/ 1.7 Schema Migration Rollout Evidence（schema 演進）
平行：1.10 KV / Document DB 容量規劃 / 1.11 全球分散式 OLTP
跨模組：9.10 Production-Side 驗證（dual-write、shadow）、9.6 容量規劃模型、6.11 Migration Safety、8.19 Incident Decision Log
跨 vendor 實戰深入：Cosmos DB MongoDB API vs SQL API（document → multi-model）、Aurora 從自管 PG / MySQL 遷入、Spanner 從 Cloud SQL PG 遷入、MongoDB 遷入 Atlas

既建知識卡片

Redis → Memcached：Memcached 不是 simpler Redis、是 cache paradigm

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link Redis 跟 Memcached。跑 migration-playbook-methodology 6 維 audit 後對映 Paradigm = High（multi-paradigm → pure cache）→ Type E paradigm shift；本文是 paradigm reduction（downgrade 方向）的 dogfood。

Memcached 不是 simpler Redis、是 cache paradigm

把 Redis → Memcached 當「移除 Redis 功能」是最常見的誤判：

概念	Redis	Memcached
核心 paradigm	Multi-paradigm（KV + 資料結構 + pub/sub + script）	Pure cache（KV + TTL）
Value 類型	String / Hash / List / Set / Sorted Set / Stream / Bitmap / HyperLogLog	byte string only
Atomic operations	100+（INCR / LPUSH / ZADD / …）	INCR / DECR / APPEND / CAS
Server-side scripting	Lua scripts (`EVAL`)	無
Pub/Sub	Native	無
Persistence	RDB / AOF	無（restart 全失）
Replication	Async / sync replication	無
Cluster	Redis Cluster + Sentinel HA	Memcached cluster（client-side sharding）
Eviction policy	8 種（LRU / LFU / random / …）	LRU only
Expiration accuracy	TTL 精確到 ms	TTL 精確到 second、lazy expiration

核心差異不在「Memcached 少了 Redis 功能」、在「Memcached 是不同的 cache paradigm」。 Redis 的 features（hash / sorted set / pub/sub）多數 不該移除、是 重新分配到對應 specialized service：

Hash / sorted set → application 端用 JSON + 自管 index
Pub/Sub → message queue（NATS / Redis Streams / Kafka）
Lua scripts → application code
Persistence → 真正需要的 data 該存 DB、不是 cache
Replication / cluster → Memcached 自己 cluster strategy

為什麼遷：simplification / cost / ops 三條 driver

Operational simplification：Memcached 沒 persistence / replication / cluster mode、ops surface 縮小、團隊不用懂 Redis 25+ command family
Cost：對 純 cache use case 而言、Memcached 每 GB 比 Redis 便宜（memory efficiency 略勝 + 無 persistence overhead）
Strict cache discipline：Memcached 逼 application code 把「真正的 cache」跟「半 persistent state」分開、避免 Redis 變 poor man’s database

反向 driver（Memcached → Redis）：

Application 寫到 Memcached 後發現需要 atomic counter / leaderboard / queue / lock、應該升 Redis（不是繼續 wrap Memcached）

跑 6 維 audit

維度	評估	等級
Schema / API	Redis 命令集 → Memcached 命令集、相容度 < 20%	High
Operational model	兩者都簡單、Memcached 略簡單	Low
Paradigm	Multi-paradigm → pure cache	High
Components	同 1 個 cache service	Low
Application change	必改（任何 hash / list / sorted set / pubsub 用法）	High
Data topology	同 single instance / cluster	Low

3 維 High（Schema / Paradigm / Application change）多軸高、主導維度 = Paradigm → Type E paradigm shift；Schema + Application change 抽獨立段補充。

結構：類 Type E + paradigm reduction 分配路線

 11. Memcached 不是 simpler Redis（concept reverse 開頭）
 22. 為什麼遷
 33. 6 維 audit
 44. Paradigm reduction 路線（Redis features 對應的 specialized service）
 55. Schema 差段（Redis vs Memcached command set）
 66. Application 重設計（per-call-site refactor）
 77. Migration 流程（漸進、部分 use case 切）
 88. Production 故障演練
 99. Capacity / cost
1010. 整合 / 下一步

10 章節、220-260 行。比 Type E（Kafka ↔ NATS）多 paradigm reduction 路線 段。

Paradigm reduction 路線

Redis features 對應的 specialized service：

 1Redis Hash           → Application 端 JSON.stringify + Memcached SET
 2                       (or 直接存 DB + Memcached cache layer)
 3
 4Redis List (queue)   → NATS / Kafka / RabbitMQ / SQS
 5
 6Redis List (stack)   → Application 端用 array + 自管 LIFO
 7
 8Redis Set            → Application 端用 array + dedup OR 用 DB unique index
 9
10Redis Sorted Set     → Application 端用 ordered list + comparator
11                       OR PostgreSQL + index
12
13Redis Stream         → Kafka / Redis Streams (保留) / NATS JetStream
14
15Redis Pub/Sub        → NATS Core / Redis Streams / Kafka
16
17Redis Lua script     → Application code（避免 atomic 假設）
18
19Redis distributed lock → Consul / etcd / DB advisory lock / Redis (保留)
20
21Redis Bitmap         → DB bit column / 應用端 bitset
22
23Redis HyperLogLog    → DB approx_count_distinct / 應用端 cardinality estimator

Migration scope 包含 每個 Redis-specific feature use case 對應的 service 評估；不是「移除」、是「重新分配」。

Application 重設計

 1# Before: Redis hash
 2redis.hset('user:123', 'email', 'a@b.com')
 3redis.hset('user:123', 'name', 'Alice')
 4user = redis.hgetall('user:123')
 5
 6# After: Memcached + JSON
 7import json
 8user_data = {'email': 'a@b.com', 'name': 'Alice'}
 9mc.set('user:123', json.dumps(user_data))
10user = json.loads(mc.get('user:123') or '{}')

1# Before: Redis sorted set (leaderboard)
2redis.zadd('leaderboard', {'alice': 100, 'bob': 95})
3top_10 = redis.zrevrange('leaderboard', 0, 9, withscores=True)
4
5# After: PostgreSQL + index + Memcached cache
6# Persistent: write to DB
7# Cache: pre-compute top 10 in DB query, cache in Memcached
8mc.set('leaderboard:top10', json.dumps(db.query('SELECT user, score FROM scores ORDER BY score DESC LIMIT 10')))

1# Before: Redis distributed lock
2with redis.lock('resource:1', timeout=10):
3    process_resource()
4
5# After: PostgreSQL advisory lock OR Consul session
6with db.advisory_lock(resource_id):
7    process_resource()

每個 Redis-specific pattern 都要 per-call-site refactor、不是 SDK 換。

Migration 流程

跟 Kafka ↔ NATS 同 partial migration：

 11. Audit application code、列所有 Redis call site + feature 使用
 22. 按 feature 分類處理 plan:
 3   - Pure KV (GET/SET/DEL/TTL): 切 Memcached 直接
 4   - Hash → JSON + Memcached: per-call-site refactor
 5   - List/Sorted Set: 評估是 queue / leaderboard / 其他用途、對應 service
 6   - Pub/Sub: 移到 message queue
 7   - Lock: 移到 DB 或保留 Redis
 83. 部分 application 先切（純 KV use case）
 94. 複雜 use case 逐步 refactor 到對應 service
105. Memcached 跑 production 後、Redis 可降為 *narrow scope*（只跑剩餘 Redis-specific feature）
11   或完全退役（如果 application 已 refactor 乾淨）
126. 長期混合架構：Memcached cache layer + DB persistent state + 可選的 Redis（locks / specialty）

整體 3-12 個月、依 Redis-specific feature 使用深度。

Production 故障演練

Case 1：Hash → JSON 後 GET/SET round-trip 變 N+1

徵兆：cutover 後 application latency p99 從 5ms 漲到 50ms；profiling 顯示「為了改 user.email、要先 GET user object → modify → SET」、原本 Redis HSET 1 個 round-trip 現在 2 個。

根因：JSON-encoded value 不能 partial update、每次改一欄都要 read-modify-write。

修法：

Application 端 cache JSON object in memory：read-modify-write 仍 1 個 SET、但 read 是 memory
Compare-and-swap (CAS)：Memcached CAS 防止 concurrent update lost
Field-level cache key：把 hash 拆成 N 個 Memcached key（user:123:email / user:123:name）、避開 JSON

Case 2：Sorted set leaderboard 退化、recomputation cost 爆

徵兆：原本 Redis leaderboard ZADD + ZREVRANGE < 1ms；切 DB-backed leaderboard 後 SELECT ... ORDER BY ... LIMIT 10 在 1M+ row 跑 100-500ms。

根因：Memcached 不支援 sorted set、leaderboard 必須在 DB 算、N 大時 sort 慢。

修法：

Cache pre-computed top N：DB scheduled job 每分鐘算 top 100、寫 Memcached、application 讀 cache 不直查 DB
Materialized view + index：DB 端用 materialized view + index、毫秒級 query
保留 Redis sorted set：leaderboard 是 Redis 強項、不該退到 Memcached、走混合架構

Case 3：Pub/Sub 移除、缺 fan-out 機制

徵兆：原本 Redis Pub/Sub 跑 cache invalidation broadcast、N 個 application instance 都收 invalidation msg；切 Memcached 後失去 broadcast、cache stale。

根因：Memcached 沒 Pub/Sub；application 需要外部 fan-out 機制。

修法：

NATS / Redis Streams + consumer group：each application instance 是 consumer、收 invalidation
Database trigger + LISTEN/NOTIFY：PostgreSQL LISTEN/NOTIFY 對中型 fan-out 足夠
Architecture rethink：是否真需要 broadcast invalidation？通常用 TTL-based cache + cache key versioning 就能 cover 多數 invalidation use case

Case 4：Atomic INCR 沒對等、race condition

徵兆：rate limiter / counter pattern 切 Memcached、mc.incr(key) 在 key 不存在時 return None（不 auto-init 為 0）；application 端 if None: mc.set(key, 1) race condition、低機率 counter reset。

根因：Memcached INCR 對 missing key 不像 Redis 自動 init；application 端 init logic 容易 race。

修法：

1# 用 ADD（atomic put-if-absent）
2mc.add(key, 0)  # only sets if missing
3mc.incr(key)    # always works after add

ADD + INCR 兩個 atomic operation 合起來 race-free。

Case 5：Eviction policy 差異、production cache hit rate 降

徵兆：cutover 後 cache hit rate 從 95% 降到 80%；profiling 發現「重要 key 沒在 cache」、新 key 一直擠走熱 key。

根因：Redis 預設 allkeys-lfu (least frequently used)、長期熱 key 不被擠；Memcached 只有 LRU、單純按 access time、burst access 的 cold key 擠走 long-tail hot key。

修法：

Memory headroom：Memcached memory 限制拉高 30-50%、避免 eviction pressure
Application-side cache priority：critical key 用 no-expiration set + 主動 refresh
保留 Redis for LFU workload：long-tail hot key 場景 Redis LFU 更合適、不該退 Memcached

Capacity / cost

維度	Redis	Memcached
Memory efficiency	baseline	+10-20%（無 metadata overhead）
Throughput	~100K ops/s single-thread	~500K-1M ops/s multi-threaded
Latency p99	1-3ms	0.5-1ms
Persistence overhead	5-15% CPU	0
Operational FTE	0.3-0.8	0.1-0.3
Application complexity	Low（feature 豐富）	Higher（feature 移到 application）
Cost per GB memory	baseline	略低（無 persistence I/O / replication overhead）

判讀：純 cache use case 走 Memcached 省 ops + 略省 cost；application 已用 Redis-specific feature 不該切；混合架構是 long-term default。

整合 / 下一步

跟 Redis → DragonflyDB 對比

兩條路：

DragonflyDB：保留 Redis paradigm、優化 throughput + memory；application 不用改
Memcached：退到 pure cache paradigm、application 必須改、但 ops 簡化

選擇取決於 是否真的需要 Redis multi-paradigm features：用得到就 DragonflyDB / Redis、用不到就 Memcached。

跟 NATS 整合

Redis Pub/Sub 移除後、應用端 fan-out / messaging 需求轉到 NATS / Redis Streams / Kafka；本文 cross-link migration playbook Kafka ↔ NATS 有 paradigm shift 流程參考。

下一步議題

Memcached Cluster strategy：client-side consistent hashing vs server-side cluster mode、ops 簡化 vs scalability 取捨
Long-term mixed architecture：80% Memcached + 20% Redis 是常見 stable state、不一定要完全消除 Redis

Memcached → Redis：不搬資料、搬存取層的能力升級遷移

Tue, 16 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link Memcached（source）跟 Redis（target）。跑 migration-playbook-methodology 6 維 audit 後對映 Schema/API + application change High、但 data topology Low（cache 可重建）——本文是「能力升級 + 資料層免遷」的 dogfood，跟反向的 Redis → Memcached（Type E paradigm reduction）對位。

cache 遷移不搬資料、搬存取層

一般 migration 最重、最危險的部分是搬資料——schema 要對、一致性要保、cutover 要不丟。Memcached → Redis 把這塊幾乎拿掉了，因為 cache 的資料本來就是可重建的副本。遷移不需要把 Memcached 裡的東西搬到 Redis；讓 Redis 空著上線、cache miss 自然回源、命中率慢慢 warm 起來即可。Memcached 在 warm-up 期間繼續服務，等 Redis 命中率追上來再切。

這個性質讓 Memcached → Redis 的工作重心完全不同：不在資料層，在存取層（換 client library、換協定）跟可選的能力升級。觸發這個遷移的通常是「outgrew pure KV」——本來只用 Memcached 存 string，後來需要 counter（用 application 層讀-改-寫硬湊、有 race）、需要 session 物件（serialize 整包 JSON、改一個欄位要全寫）、需要 leaderboard（在 app 排序、慢）。這些 Redis 用 INCR / Hash / Sorted Set 原生解，把 application 層硬湊的邏輯收回 cache 層。

本文跑 diff audit 確認這個形狀、用兩階段結構（先 drop-in、再升級能力）展開遷移與踩坑。

6 維 diff dimension audit

維度	評估	等級
Schema / API	Memcached 協定 → Redis RESP、純 string → 可選 data types	High
Operational model	Redis 多了 eviction policy / persistence / cluster 決策	Medium
Abstraction / paradigm	pure cache → data structure store（但可先維持 pure KV 用法）	Medium
Number of components	1 → 1	Low
Application change	client library 換、可選改用 data types	High
Data topology	cache 可重建、不搬資料、re-warm	Low

主導維度是 Schema/API + application change（存取層），但這個 migration 的特徵是 data topology Low——這是 cache 類遷移獨有的性質。對映 migration 方法論的 type：本文是 cache 類 Type A 的簡化變體（phased translation 的存取層翻譯，但因 data topology Low 省掉了資料遷移階段）。結構上採兩階段：Phase 1 drop-in 替換（維持 pure KV 用法、先把 client 換掉），Phase 2 漸進採用 data types（把 application 層硬湊的邏輯收回 Redis）。Phase 2 是可選的、可以慢慢來。

Phase 1：drop-in 替換（pure KV、不搬資料）

第一階段把 Memcached 換成 Redis，但只用 Redis 當 pure KV（GET / SET / DEL + TTL），存取行為跟 Memcached 一樣。這一步風險最低，因為不碰 data model、不搬資料。

1存取層對應（Phase 1 維持 pure KV 語意）：
2  Memcached set(key, val, ttl)   →  Redis SET key val EX ttl
3  Memcached get(key)             →  Redis GET key
4  Memcached delete(key)          →  Redis DEL key
5  Memcached incr/decr            →  Redis INCR/DECR（Redis 原生原子、比 Memcached 更穩）

cutover 流程（cache 可重建、無資料遷移）：

11. 部署 Redis（空的）、設 maxmemory + eviction policy（見記憶體調校）
22. application 改用 Redis client（雙寫期：同時寫 Memcached + Redis，讀仍走 Memcached）
33. 讀切到 Redis（cache miss 回源 + 寫回 Redis、命中率逐步 warm up）
44. 觀察 Redis 命中率追上 Memcached、origin 壓力無異常
55. 停止寫 Memcached、下線 Memcached

判讀：

不需要資料遷移工具——Redis 空上線、靠 cache-aside 自然 warm（見 2.2 cache aside）
warm-up 期 origin 壓力會短暫上升（命中率從 0 爬升），低流量時段切、或預熱熱 key
Phase 1 完成後 application 行為跟用 Memcached 時一致，只是底層換 Redis
想保留開源 OSI 授權，target 直接選 Valkey（Redis 相容、BSD）

Phase 2：漸進採用 data types（可選）

Phase 1 上線穩定後，再把 application 層硬湊的邏輯逐步收回 Redis 的原生 data types。這一階段是能力升級、不是遷移必需，可以一個場景一個場景來。

1application 硬湊 → Redis 原生：
2  讀 JSON → 改欄位 → 寫回整包    →  Redis Hash（HSET/HGET 單欄位、免全寫）
3  app 端計數 + CAS 重試           →  Redis INCR（原子、無 race）
4  app 端排序 leaderboard          →  Redis Sorted Set（ZADD/ZRANGE）
5  app 端 set 去重                 →  Redis Set（SADD/SISMEMBER）
6  多 key 操作要原子               →  Redis MULTI / Lua（Memcached 只有 CAS）

判讀：

Phase 2 每個改動是獨立的小重構，不必一次到位
收回 data types 的收益是「消除 application 層的 read-modify-write race + 減少網路往返」
不是所有東西都要升級——純 string cache 留在 GET/SET 就好，別為了用而用

Production 故障演練

Case 1：warm-up 期 origin 被打爆

徵兆：切讀到 Redis 的瞬間，origin（DB）QPS 暴增、延遲升高，因為 Redis 還是空的、大量 cache miss 同時回源。

根因：Redis 空上線、命中率從 0 開始，warm-up 期所有讀都 miss 回源。沒有控制就是一次 origin 衝擊（類似冷啟動 stampede）。

修法：

低流量時段切讀、讓命中率平緩爬升
預熱熱 key（migration 前先把已知熱 key 灌進 Redis）
cache miss 回源加 singleflight / jitter，避免同 key 並發回源（見 2.9 stampede rollback）
雙寫期先讓 Redis 被寫入 warm 一段時間，再切讀

Case 2：把 Memcached 的 multi-get 行為直接搬、效能不如預期

徵兆：Memcached 的 batch get（一次拿多 key）搬到 Redis 後延遲沒改善甚至更差。

根因：Memcached client 的 multi-get 跟 Redis 的 MGET / pipeline 行為不同。直接一個 key 一個 GET（N 次往返）會比 Memcached 的 batch 慢——Redis 要用 MGET 或 pipeline 才能合併往返（見 Redis 連線 / pipeline）。

修法：

Memcached multi-get → Redis MGET（同 slot）或 pipeline
不要把「N 次獨立 GET」當成 multi-get 的等價
cluster 模式下 MGET 跨 slot 會失敗，用 hash tag 或 pipeline 分組
量測往返次數，存取層遷移要保持「一次互動的往返數」不退化

Case 3：TTL 精度與 eviction 行為差異造成命中率變化

徵兆：遷到 Redis 後命中率跟 Memcached 時期不一樣（可能更高或更低），cache 行為不如預期。

根因：Memcached 是 LRU + 秒級 lazy expiration + slab 限制；Redis 有 8 種 eviction policy + ms 級 TTL + 不同記憶體模型。沿用 Memcached 的 TTL 與容量設定不會得到一樣的淘汰行為。

修法：

明確設 Redis 的 maxmemory-policy（純 cache 用 allkeys-lru / allkeys-lfu，見記憶體與淘汰調校）
不要假設 Memcached 的容量設定直接套用——Redis 記憶體模型不同（無 slab calcification、但有自己的 fragmentation）
觀察 evicted_keys 與命中率，對齊預期 working set
Memcached 的 slab 浪費 vs Redis 的編碼，記憶體佔用會不同，重新算容量

Case 4：以為 Redis 一定比 Memcached 快 / 省

徵兆：遷到 Redis 後純 string cache 的記憶體佔用或延遲沒有改善，甚至 Redis 單執行緒在高並發純 GET 下不如 Memcached 多執行緒。

根因：對「純 string KV、高並發」這個 Memcached 的本場，Memcached 的多執行緒可能比 Redis 單執行緒（命令層）更適合。遷 Redis 的收益在 data types / persistence / 生態，不是純 KV 效能。

修法：

釐清遷移動機——是要 data types / persistence（Redis 解）還是純 KV 效能（Memcached 可能更好）
純 KV 高並發要 Redis 的多核走 DragonflyDB / KeyDB 或 Redis I/O threads
純 cache 紀律本來就是 Memcached 的優勢，遷 Redis 要小心別把 cache 用成 database
沒有 data types / persistence 需求的純 KV，留 Memcached 可能更對

Case 5：把可重建的 cache 當成要搬的資料、白做遷移工具

徵兆：團隊花時間寫 Memcached → Redis 的資料遷移腳本、做一致性校驗，結果發現 cache 切換後這些資料本來就會被新值覆蓋。

根因：用一般 migration 的思維（搬資料 + 校驗）處理 cache 遷移，沒意識到 cache 是可重建副本——搬過去的舊值很快被回源的新值取代，搬資料是白工且可能搬到 stale 值。

修法：

cache 遷移預設不搬資料、靠 re-warm（這是 cache 類遷移的核心簡化）
只有「重建成本極高的 cache」（昂貴計算結果）才考慮搬，且要評估 stale 風險
把精力放在存取層正確性與 warm-up 控制，不是資料搬遷
對照 cache copy boundary：cache 是副本、不是 source-of-truth

Capacity / cost 對照

維度	Memcached（source）	Redis / Valkey（target）
資料遷移	—	不需要（cache 可重建、re-warm）
data types	純 string KV	6 大 + Stream / Geo
原子操作	INCR / DECR / CAS	100+（INCR / HSET / ZADD / Lua）
persistence	無	RDB / AOF（可選）
多執行緒	原生多執行緒	單執行緒命令 + I/O threads
eviction	LRU only	8 種 policy
純 KV 高並發效能	多執行緒、本場強	單執行緒命令可能略遜（要多核走 fork）
遷移風險	—	低（無資料遷移、存取層 + warm-up）

判讀：要 data types / persistence / 原子操作 → 遷 Redis（兩階段、低風險）；純 KV + 高並發 + 嚴格 cache 紀律 → 留 Memcached。

整合 / 下一步

Memcached → Redis 是能力升級，它跟 Redis 的調校與選型交織：

跟 Redis 記憶體與淘汰調校：遷過去要設對 maxmemory-policy，Redis 記憶體模型跟 Memcached slab 不同。
跟 Redis 連線 / pipeline：Memcached multi-get → Redis MGET / pipeline，存取層遷移要保持往返數。
跟反向 Redis → Memcached：反向是 Type E paradigm reduction（downgrade）；本文是能力升級（upgrade），兩者對位看 cache paradigm 的兩個方向。
跟 Valkey：要開源 OSI 授權，target 選 Valkey（Redis 相容、BSD），遷移流程一致。

自管 Redis / Valkey → AWS ElastiCache：engine 不變、變的是誰運維

Tue, 16 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link Redis / Valkey（source、自管）跟 AWS ElastiCache（target、managed）。跑 migration-playbook-methodology 6 維 audit 對映 Operational model = High（自管 → managed）、其他 Low → Type C operational hybrid。ElastiCache 是 managed SaaS、AWS 操作依官方文件（未本機驗證、引數以官方為準）、最後檢查日 2026-06-16。

engine 不變、變的是誰運維

多數 vendor 遷移會換掉某個本質的東西——協定、data model、paradigm。自管 Redis/Valkey → ElastiCache 一個都沒換：ElastiCache 跑的就是 Redis 或 Valkey engine，同樣的 RESP 協定、同樣的 data types、同樣的 client library、同樣的命令。application code 幾乎不用動。

那遷的是什麼？運維責任的歸屬。自管時要自己部署、自己打 patch、自己設 replication、自己半夜處理 failover。ElastiCache 把這些接走——AWS 做 failover、patching、snapshot、跨 AZ 複製。這個遷移的全部工作量集中在「把運維交出去」這件事上：網路（VPC）、安全（IAM / Security Group）、cutover 的資料連續性，以及想清楚交出運維的同時、交出了哪些控制權（不再能 SSH 進機器、不能改任意 config、parameter group 限定可調項）。

這對映 migration 方法論的 Type C operational hybrid——operational model 是唯一的 High 維度，其他全 Low。本文展開這個「engine 不變、運維轉移」遷移的實際工作與責任邊界。

6 維 diff dimension audit

維度	評估	等級
Schema / API	同 engine（Redis/Valkey）、RESP 一致、命令一致	Low
Operational model	自管 → AWS managed（failover/patch/snapshot）	High
Abstraction / paradigm	完全相同（同 engine）	Low
Number of components	1 → 1	Low
Application change	endpoint 換、client 加 reconnect / TLS、其餘不動	Low
Data topology	cache 可重建（re-warm）或 RDB seed / online 複製	Low

唯一 High 是 operational model，對映 Type C operational hybrid。Type C 的結構是「operational audit 前置 + drop-in cutover」——因為 engine/API 不變，cutover 本身接近 drop-in（換 endpoint），重點在前置的網路/安全/責任邊界盤點。

operational audit：cutover 前要盤點的

ElastiCache 把運維接走，但也劃下新的邊界。cutover 前必盤：

面向	自管時的負責項	ElastiCache 後
部署 / patch	自己裝、自己升級	AWS 管（失去任意版本控制、跟 AWS 的 engine 版本走）
failover	自己設 Sentinel / 手動切	Multi-AZ 自動（需確保 client 會重連）
config	改任意 redis.conf	只能改 parameter group 開放的項（部分鎖死）
網路存取	自己的網路	只在 VPC 內可達、要設 subnet group / Security Group
認證	AUTH password / 自管 TLS	IAM auth（Redis 7+）/ ElastiCache 管的 TLS
監控	自己的 Prometheus 等	CloudWatch（指標名與自管不同、dashboard 要改）

audit 的關鍵 output：(1) 目前改了哪些 redis.conf 項、ElastiCache parameter group 是否支援；(2) client 是否有 failover reconnect 邏輯（managed failover 不會代為重連）；(3) 監控要從自管工具搬到 CloudWatch。這三項是 Type C 的核心工作。詳細的 managed 責任邊界見 ElastiCache 責任邊界 deep article。

cutover：資料連續性的兩條路

因為 engine/API 不變，cutover 接近 drop-in（換 endpoint）。資料連續性有兩條路：

 1路徑 A：re-warm（cache 可重建、最簡單）
 2  1. 建 ElastiCache cluster（空的、選 Valkey / Redis engine、設 parameter group）
 3  2. application 雙寫（自管 + ElastiCache）、讀仍走自管
 4  3. 讀切到 ElastiCache endpoint、cache miss 回源 warm up
 5  4. 命中率追上 → 停寫自管 → 下線自管
 6
 7路徑 B：RDB seed（要 cache 連續性、避免 warm-up origin 衝擊）
 8  1. 自管端 BGSAVE 產生 RDB
 9  2. RDB 上傳 S3、ElastiCache 從 S3 seed 建 cluster（依官方 restore 流程）
10  3. application 換 endpoint cutover
11  （ElastiCache 也提供 self-managed Redis online migration、見官方文件）

判讀：

純 cache、能接受短暫 warm-up → 路徑 A（最簡單、無資料遷移）
大 dataset、warm-up 會打爆 origin → 路徑 B（RDB seed 保連續性）
AWS CLI 建 cluster 與 restore 細節依 ElastiCache 官方文件（未本機驗證）
engine 選 Valkey（AWS default、約低 Redis 20%）除非有 Redis 商業 module 依賴

Production 故障演練

Case 1：parameter group 不支援自管時改的 config

徵兆：自管時改了某個 redis.conf 項（例如特定 client-output-buffer-limit 或某個進階參數），遷到 ElastiCache 後該設定無法套用或行為不同。

根因：ElastiCache 只允許改 parameter group 開放的項，部分 config 被 AWS 鎖死（為了 managed 穩定性）。自管時的任意 config 自由度在 managed 後收窄。

修法：

pre-migration 列出自管端所有非預設 config，逐項對照 ElastiCache parameter group 支援度
不支援的項要評估影響——有些是 AWS 已用更好的方式處理、有些要調整 application 適應
把這個盤點放在 operational audit（cutover 前），不要遷完才發現
高度依賴特殊 config 調校的場景，managed 可能不適合、留自管

Case 2：failover 後 client 不重連（managed 不代為重連）

徵兆：ElastiCache Multi-AZ failover 完成，但 application 持續連舊 primary、寫入失敗。

根因：ElastiCache 接走了 failover（自動晉升 replica），但 application 的 client 重連仍是 application 端的責任——這是 managed 責任邊界的核心：AWS 換 primary，client 要自己跟上。

修法：

client 連 primary endpoint（會跟著 failover 更新 DNS）、不寫死 node IP
client 設合理 socket timeout + retry + 縮短 DNS 快取
遷移前就驗證 client 有 failover reconnect 行為（自管 Sentinel 時可能靠不同機制）
對應 Redis Sentinel failover 時序：自管與 managed 的 failover 機制不同、client 處理要重驗

Case 3：endpoint 只在 VPC 內、cutover 後連不上

徵兆：cutover 後 application 完全連不上 ElastiCache、連線逾時。

根因：ElastiCache endpoint 只在 VPC 內可達、不對公網開放。Security Group 沒開 6379、subnet group 配置錯、或 application 不在同 VPC / 沒有 VPC peering，就連不上。

修法：

cutover 前確認 Security Group 開 6379 給 application 的來源、subnet group 正確
application 不在同 VPC 要設 peering / Transit Gateway
從 VPC 內 EC2 先 redis-cli -h ping 驗證連通，再切 application
這是自管（自己的網路）→ managed（AWS VPC 模型）最常見的卡點

Case 4：監控斷層（自管工具 → CloudWatch）

徵兆：cutover 後原本的 Prometheus / Grafana dashboard 全空、告警失效。

根因：自管時用 redis_exporter + Prometheus，ElastiCache 的指標在 CloudWatch、指標名與維度不同。直接搬 dashboard 不會動。

修法：

cutover 前把關鍵告警在 CloudWatch 重建（DatabaseMemoryUsagePercentage / ReplicationLag / CurrConnections 等）
要保留 Grafana 可用 CloudWatch data source 接
把監控遷移納入 operational audit、不要遷完才發現沒監控
核心指標語意相同（記憶體 / 命中 / 連線 / 複製延遲）、只是來源與命名變了

Case 5：以為 managed 就不會 OOM / stampede / 熱 key

徵兆：遷到 ElastiCache 後仍然 OOM、cache stampede、熱 key 打爆單 shard。

根因：ElastiCache 接走的是運維（failover/patch/snapshot），不是 cache 使用方式的問題。記憶體淘汰、stampede、熱 key、key 設計仍是 application 端的責任——managed 不等於 hands-off。

修法：

記憶體 / eviction 調校仍要做（透過 parameter group 設 maxmemory-policy），見記憶體調校
stampede / 熱 key 的 application 端防護（jitter / singleflight / 兩層 cache）照舊
釐清 managed 的責任邊界——左欄 AWS 管、右欄 application 端管，見責任邊界 deep article
遷 managed 是減運維、不是免設計

Capacity / cost 對照

維度	自管 Redis / Valkey	ElastiCache（managed）
engine / API	同（Redis / Valkey）	同（Redis / Valkey engine）
運維責任	全部自己扛	failover / patch / snapshot 交 AWS
config 自由度	任意 redis.conf	parameter group 開放項（部分鎖死）
failover	自設 Sentinel / Cluster	Multi-AZ 自動（client 要會重連）
成本	機器 + 人力運維	node 費 + managed premium（省人力）
控制權	完全	受 AWS 邊界限制
適合	要極致控制 / 跨雲 / 特殊 config	AWS 生態 / 要減運維 / 可預測 SLA

判讀：在 AWS 生態、要把運維交出去、能接受 config 自由度收窄 → 遷 ElastiCache（engine 不變、Type C 低風險）；要極致控制 / 跨雲 / 依賴特殊 config → 留自管。engine 選 Valkey 省約 20%。

整合 / 下一步

self-managed → ElastiCache 是運維轉移，它跟 managed 邊界與 engine 調校交織：

跟 ElastiCache 責任邊界 deep article：遷過去後哪些 AWS 管、哪些仍 application 端管，是這個遷移的核心後果。
跟 Redis Sentinel failover：自管 failover（Sentinel）→ managed failover（Multi-AZ），client 重連邏輯要重驗。
跟 Valkey：ElastiCache default engine 是 Valkey，自管 Redis 遷 ElastiCache for Valkey 是「換授權 + 轉 managed」一次到位（見 Redis → Valkey 遷移）。
跟能力級買 vs 建：自管 vs managed 的上層取捨見該章，本文是「決定買（managed）之後」的遷移執行。

MySQL 5.7 → 8.0 Major Version Upgrade：character set / authentication / atomic DDL 三條 paradigm 同時換軌

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL 內 version upgrade migration playbook、走 Migration playbook methodology Type E paradigm shift 結構。

5.7 → 8.0 看起來是 minor bump（從 5.7.40 升到 8.0.36）、但不是。Oracle 把這個 release boundary 當成 清庫存的機會 — 同時推出 3 個 behavioral paradigm shift：

Paradigm	5.7 default	8.0 default	影響
Character set	latin1 / utf8（=utf8mb3）	utf8mb4	string column 儲存 + emoji / 4-byte UTF-8
Authentication plugin	mysql_native_password	caching_sha2_password	client / library 需要支援新 plugin
DDL atomicity	Non-atomic（crash 留 orphan）	Atomic（crash recovery 乾淨）	開發信心、crash recovery 行為

對應 任意一個 paradigm 升級失誤、production 都會 down。三條同時換、必須 三條都規劃。

這條 upgrade 比 PostgreSQL major-version-upgrade 工作量大 — PG major upgrade 主要是 pg_upgrade 工具流程、MySQL 是 behavioral compatibility audit + ecosystem 全 review。

為什麼是 Type E（不是 minor upgrade）

跑 6 維 diff dimension audit：

維度	評	說明
Schema	Medium	SQL 一致、reserved keyword 新增、collation 預設變
Operational	Medium-High	binary upgrade flow 簡單、但 ecosystem 工具兼容性 audit 工作量大
Paradigm	High	3 條 default paradigm shift（charset / auth / atomic DDL）
Components	Low	同 MySQL 引擎、不引新 component
App change	Medium-High	client library / driver / connection string 都可能要改
Topology	Low	部署 topology 不變

Paradigm = High + App change = Medium-High → Type E paradigm shift。

雖然是 同一個 vendor 的 major version、實際的 application 行為差異 跨越多個 paradigm、6 type 框架仍適用、結構走 partial migration 收斂。

4-phase upgrade

Phase 1：Pre-check audit

8.0 升級前用 MySQL Shell upgrade checker + 手動 audit：

1mysqlsh root@5.7-primary.example.com -- util check-for-server-upgrade

Upgrade checker 報告：

Reserved keyword 衝突（5.7 不是 keyword 但 8.0 是、例如 WINDOW / RANK / LATERAL）
舊 character set / collation 使用點（latin1 / utf8mb3）
Deprecated feature 使用（GROUP BY 隱含 ORDER BY 等）
Datatype 變動（DATETIME 行為微差）

手動 audit：

Application driver / library 版本是否支援 caching_sha2_password
Connection string 內 default-authentication-plugin 設定
ORM / framework 是否假設 utf8 而非 utf8mb4

完成標準：寫出 blocker list（必須在升級前修） + warning list（可在升級後處理）。

Phase 2：Shadow upgrade — Replica 升 8.0

從 non-critical replica 升起。先升一個 replica、跑 production traffic（read-only）2-4 週：

 1# 1. Stop replica
 2systemctl stop mysql
 3
 4# 2. Backup（XtraBackup）
 5xtrabackup --backup --target-dir=/backup/pre-upgrade
 6
 7# 3. Install MySQL 8.0 binary（apt / yum 升級）
 8apt-get install mysql-server-8.0
 9
10# 4. 啟動 8.0、自動 upgrade data dictionary
11systemctl start mysql
12
13# 5. 8.0 自動跑 server-upgrade（8.0.16+ 內建、mysql_upgrade utility 已 deprecated）
14# 若 5.7 升 8.0.16 之前 server、才需要手動跑 mysql_upgrade -u root -p
15
16# 6. 重新 attach 為 5.7 primary 的 replica（8.0 replica 可 attach 5.7 primary）
17CHANGE MASTER TO MASTER_AUTO_POSITION=1;
18START SLAVE;

跑 production read traffic 觀察：

Query result 是否跟 5.7 一致（特別 character set 相關）
Replication lag 是否在 baseline 範圍
8.0-specific feature 是否需要（hash join / window function 等）

Phase 3：Promote 8.0 為 primary

確認 shadow replica 穩定後：

 1# 1. 升其他 replica 到 8.0
 2# （per-replica 跑 Phase 2 流程）
 3
 4# 2. Application application 改用 8.0-compatible driver
 5# 把 connection string 加 default-authentication-plugin=caching_sha2_password
 6# 或仍用 mysql_native_password（user 端設定）
 7
 8# 3. Failover：promote 8.0 replica 為 primary
 9# 用 Orchestrator / 自管 failover 流程
10
11# 4. 5.7 primary 變成 8.0 replica、升 5.7 → 8.0

完成標準：所有 server 都是 8.0、application 連 8.0 endpoint 無 error。

Phase 4：Decommission 5.7 + 套用 8.0 paradigm

完成 binary upgrade 不是真正完成 — 還要逐步遷移 paradigm：

Character set 升級：歷史 latin1 / utf8 table 改 utf8mb4
```
1ALTER TABLE orders CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci;
```
每張 table 走 gh-ost / pt-osc（避免 production 阻塞）
Authentication 升級：逐步把 user 從 mysql_native_password 改 caching_sha2_password
```
1ALTER USER 'app'@'%' IDENTIFIED WITH caching_sha2_password BY 'new_password';
```
需確認 application driver 已支援新 plugin（多數 modern driver OK、legacy 可能要升級）
Reserved keyword 處理：column / table 名稱跟新 reserved word 衝突的、改名
```
1ALTER TABLE events RENAME COLUMN window TO event_window;
```

多數 org 在 Phase 3 停留更久 — paradigm 升級不是一次 big bang、是漸進。

5 個 Production 踩雷

1. Authentication plugin — Application 突然連不上

升 8.0 後 new user 預設用 caching_sha2_password、舊 application driver（< 5 年版本）不支援、connect error: Authentication plugin 'caching_sha2_password' cannot be loaded。

修法：

先升 driver：每個 application 升級 mysql-connector-* 到支援 caching_sha2 的版本（多數 modern release 已支援）
短期 workaround：用 mysql_native_password（new user 顯式 create with IDENTIFIED WITH mysql_native_password）
設 default_authentication_plugin=mysql_native_password、強制保留舊 default

2. Character set 4-byte UTF-8 — Emoji 進不去

5.7 latin1 / utf8（=utf8mb3）column 升 8.0 後 仍是 utf8mb3、不會自動升 utf8mb4。Application 寫入 emoji（4-byte UTF-8）會被 truncate / 拒絕。

修法：

逐 table CONVERT：gh-ost / pt-osc 跑 ALTER TABLE ... CONVERT TO CHARACTER SET utf8mb4
新建 table 預設用 utf8mb4（character_set_server=utf8mb4 設定）
Application 連線 charset 設定一致（character_set_client / connection / results）

3. Reserved keyword — Application query 突然 syntax error

5.7 跑得好的 query：

1SELECT window, rank FROM events;

8.0 報錯：window 跟 rank 都是 reserved keyword、必須 backtick：

1SELECT `window`, `rank` FROM events;

修法：

Phase 1 upgrade checker 已抓出來、Application code review 改 SQL
推薦 predefer table / column 名 backtick policy（一律加 backtick、避免未來 reserved word 衝突）
ORM 多數會自動 backtick、raw SQL 容易踩

4. Group Replication / 新 feature 開了就不能 rollback

8.0 升級後 誘惑使用 8.0-only feature：

Group Replication（5.7 也有但 8.0 更穩）
Resource Group（5.7 沒有）
Histograms（5.7 沒有）
CTE / window function（5.7 沒有）

一旦 application 用了這些 feature、不能 rollback 5.7（feature 不存在、query 失敗）。

修法：

Phase 1-3 期間禁用 8.0-only feature、保留 rollback option
Phase 4 完成 且穩定運作 30+ 天後、才開始 evaluate 8.0-only feature
加 8.0-only feature 時 明確記錄不可 rollback

5. Collation default 變動 — Sort order 跟 unique 行為改變

5.7 utf8mb4 預設 collation = utf8mb4_general_ci、8.0 預設 = utf8mb4_0900_ai_ci。兩者排序行為不一致：

utf8mb4_general_ci：簡化 collation、不嚴格遵循 Unicode
utf8mb4_0900_ai_ci：Unicode 9.0 compliance、accent-insensitive

對 已存在的 table、collation 不會被 8.0 升級改變（保留 5.7 設定）。但 新建 table 預設用 0900_ai_ci、UNION / JOIN 跨不同 collation 的 column 可能 error: Illegal mix of collations。

修法：

統一 collation：要麼 所有 table 改 0900_ai_ci、要麼 所有 table 保留 general_ci
Schema migration 走 OSC 工具
Application 內 sort-dependent logic（leaderboard / search ranking）要驗證新 collation 結果

Capability gap：5.7 有但 8.0 沒有

少數 8.0 拿走的能力：

Query Cache：5.7 內建（但已 deprecated）、8.0 完全移除。Query cache 在高並發場景 actually slowing down、移除是好事
InnoDB MEMORY engine：5.7 部分支援、8.0 限制更多
Some MyISAM optimizations：8.0 強制 InnoDB-first、MyISAM-specific 工作流 broken

對 Query Cache user：升 8.0 前評估是否依賴、考慮改 application-side cache（Redis）。

容量與成本對照

項目	5.7	8.0
Cost	Free (CE) / Enterprise	Free (CE) / Enterprise
升級 hosts × 時間	-	per-instance ~30 分鐘 binary upgrade
Application 改動	-	driver upgrade + SQL review
Character set conversion	-	per-table OSC、大表小時級
Ops headcount	-	1-2 個 DBA × 2-4 週
對 production 影響	-	Phase 2-3 漸進升級、無大 downtime

5.7 → 8.0 upgrade 整體成本是 1-2 個 FTE 月 規模。對中型 deployment（100+ DB）可能更多。

何時不升

App 用 Query Cache 重度：8.0 沒了、要 application 改造
Old driver 不能升：legacy enterprise application 用 10 年前 driver、driver vendor 已倒、無法升 8.0-compatible
Compliance freeze：某些金融 / 醫療場景 freeze technology 多年、升級需要重 audit + recertification
5.7 已 EOL（2023-10）後仍堅持不升：security risk 高、應該 優先升

跟 PostgreSQL Major Version Upgrade 對比

維度	MySQL 5.7 → 8.0	PostgreSQL N → N+1
Tool	binary upgrade + 自動 server-upgrade（8.0.16+；舊版用 mysql_upgrade）	pg_upgrade（in-place）
Downtime	< 5 分鐘 per instance（binary + DD upgrade）	< 1 分鐘 per instance（pg_upgrade）
Paradigm shift	3 條（charset / auth / atomic DDL）	一般 0-1 條（PG major 多保 compat）
App 必須改	多（driver + query）	少（多數 query 兼容）
Risk	高（paradigm 多）	中-低
Rollback	不可（一旦 atomic DDL data 寫入、5.7 不認）	不可（pg_upgrade 不可逆）

PG major upgrade 比 MySQL 簡單。MySQL 5.7 → 8.0 是特例 — Oracle 把多年 deprecated 一次清。8.0 → 8.4 / 9.x 預期更平順。

跟其他模組整合

跟 Replication topology

8.0 replica 可 attach 5.7 primary（向下兼容）、但 5.7 replica 不能 attach 8.0 primary（向上不兼容）。Upgrade 順序必須 replica 先升、primary 後升。詳見 Replication Topology。

跟 InnoDB Tuning

8.0 InnoDB 改寫了 redo log（atomic、可動態調整）、innodb_log_file_size 升級後可以 online 改、不必停機。詳見 InnoDB Tuning。

跟 Modern SQL Features

8.0 補 CTE / window / JSON_TABLE / hash join — 是 為什麼要升 8.0 的 driver。詳見 Modern SQL Features。

跟 Group Replication

GR 在 5.7 有、但 8.0 才成熟。Group Replication 的 MySQL Shell + Router 整套 stack 主要在 8.0 才完整。詳見 Group Replication。

跟 Aurora / PlanetScale 等 managed

從 5.7 升 8.0 是個好時機 同時評估 是否要遷 Aurora / PlanetScale — 既然要做 paradigm shift、不如一次到位。詳見 migrate-to-aurora / migrate-to-planetscale。

MySQL → Aurora MySQL：storage layer 轉手到 AWS、replication / HA / backup 全部 outsource

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 MySQL 跟 Aurora。走 Migration playbook methodology Type C operational hybrid 結構。每階段切換用 migration gate 把關。

Ops 責任	自管 MySQL	Aurora MySQL
Storage	EBS / local SSD、自己選 + 監控	Aurora distributed storage（自動 6 份跨 3 AZ）
Replication setup	binlog + semi-sync 自己配	Storage layer 自動、無 binlog replication
Failover	Orchestrator + VIP + fence script	Aurora 內建、< 30 秒 RTO
Backup	mysqldump / Percona XtraBackup	自動 continuous backup、PITR
Parameter tuning	my.cnf 自己改	Parameter group（部分 knob 鎖）
Connection limit	max_connections 自己設	看 instance class、有上限
Auto scaling	不適用	Aurora Serverless v2 + read replica auto-scaling
Multi-region	自己配 chained replication	Aurora Global Database
Per-month cost	EC2 + EBS + 自己管 ops	Higher per-GB / per-IOPS、但 ops headcount saving

從 MySQL 角度 看 Aurora MySQL：wire protocol 一致、SQL 一致、ORM 不必改、application 連 endpoint 字串以外幾乎不必動。從 Ops 角度 看 Aurora MySQL：所有 storage / replication / failover knob 都 看不到也改不了、整個 ops 心智模型重寫。

這是 Type C operational hybrid 的典型 signature — schema / paradigm 接近、operational 完全不同。

為什麼是 Type C（operational 為主）

跑 6 維 diff dimension audit：

維度	評	說明
Schema	Low	MySQL wire protocol + SQL 完全一致
Operational	High	storage / replication / failover / backup ops 全部轉到 AWS
Paradigm	Low	同 OLTP relational paradigm
Components	Medium	Aurora 加 storage layer / cluster endpoint / reader endpoint
App change	Low	主要 connection string + connection pool 設定
Topology	Low-Medium	single-region scaling、跨 region 走 Global Database

Operational = High（其他 Low） → Type C operational hybrid。Migration 路徑用 4-phase drop-in cutover + operational re-onboarding。

Driver：TCO + Multi-AZ HA + AWS integration

從自管 MySQL 遷到 Aurora MySQL 的核心 driver：

TCO：自管 MySQL 真實 cost = EC2 + EBS + ops headcount（1-3 個 FTE 撐大 MySQL deployment）。Aurora per-GB / per-IOPS 比 EC2+EBS 貴 30-50%、但省 ops headcount、總帳通常 break-even 或更便宜
Multi-AZ HA：Aurora storage 自動 6 份跨 3 AZ、failover < 30 秒、不需要自管 Orchestrator + VIP + fence script
AWS ecosystem integration：跟 Lambda / SAM / CloudFormation / IAM / Secrets Manager 整合、給 cloud-native architecture 加分
Read scaling：Aurora 最多 15 個 read replica、storage layer 共享（不 replicate data、僅 replicate page cache）、read latency < 10ms inter-replica

不適合 已用 Percona Server fork 或 需要 cross-cloud portability 的 org — Aurora MySQL 是 AWS-only、且 fork 自 MySQL 5.7/8.0、跟 Percona 特性不完全一致。

4-phase migration

Phase 1：Aurora cluster 起來作為 read replica

最低風險入口：建 Aurora cluster、用 MySQL binlog 把 production 資料 stream 進 Aurora。Application 仍寫自管 MySQL primary、Aurora 作為 external read replica。

 1# 1. 在 AWS 建 Aurora MySQL cluster
 2aws rds create-db-cluster \
 3  --db-cluster-identifier prod-aurora \
 4  --engine aurora-mysql \
 5  --engine-version 8.0.mysql_aurora.3.04.0 \
 6  --master-username admin \
 7  --master-user-password ... \
 8  --database-name production \
 9  --vpc-security-group-ids sg-xxx \
10  --db-subnet-group-name prod-subnet
11
12# 2. 用 mysqldump 或 Percona XtraBackup 拿 baseline
13mysqldump --single-transaction --master-data=2 --triggers --routines --events \
14  --all-databases > baseline.sql
15
16# 3. Restore 到 Aurora
17mysql -h prod-aurora.cluster-xxx.us-east-1.rds.amazonaws.com -u admin -p < baseline.sql
18
19# 4. 設定 Aurora 從自管 MySQL 接 binlog
20CALL mysql.rds_set_external_master(
21  'self-managed-primary.example.com', 3306,
22  'replication_user', 'password',
23  'mysql-bin.000123', 12345, 0
24);
25CALL mysql.rds_start_replication;

完成標準：Aurora replica lag < 1 秒、跟 production primary 同步。

Phase 2：Application read 切到 Aurora reader endpoint

Application 仍寫自管 primary、但讀 query 切到 Aurora reader endpoint：

Aurora reader endpoint：prod-aurora.cluster-ro-xxx.us-east-1.rds.amazonaws.com
自動 round-robin 多個 read replica
ProxySQL 或 application config 改 read connection string

跑 1-2 週、確認：

Aurora read latency 跟自管 replica latency 接近（通常 Aurora 略好）
Aurora replication lag 穩定 < 1 秒
Aurora query 結果跟自管 primary 一致（spot-check critical query）

完成標準：所有 read traffic 都進 Aurora、no application bug。

Phase 3：Cutover — promote Aurora primary

Cutover window 內：

 1# 1. 停 application 寫入（feature flag / scheduled maintenance）
 2
 3# 2. 等自管 primary 跟 Aurora 同步完成（檢查 Aurora replica lag = 0）
 4
 5# 3. 把 Aurora 從 external replica 提升為獨立 primary
 6CALL mysql.rds_stop_replication;
 7CALL mysql.rds_reset_external_master;
 8
 9# 4. Application 寫 connection string 切到 Aurora writer endpoint
10# prod-aurora.cluster-xxx.us-east-1.rds.amazonaws.com
11
12# 5. 開始 application traffic

完成標準：寫入流量 100% 進 Aurora、自管 primary 變 idle。Cutover 通常需要 30-60 分鐘 maintenance window。

Phase 4：Decommission 自管 MySQL

跑 1-2 週確認 Aurora 穩定後 慢慢退役自管：

自管 primary 保留作 cold backup（1-3 個月）、不接 traffic、可隨時 rollback
Replica 一個一個關掉
監控 Aurora cost vs 預估、確認 break-even

完成標準：自管 EC2 instance terminate、EBS volume snapshot 後 delete、cost 對比驗證符合預期。

5 個 Production 踩雷

1. Parameter group 沒對齊 — `innodb_flush_log_at_trx_commit` 等行為差

Aurora 的 parameter group 取代 my.cnf。預設 parameter group 不一定跟自管 MySQL 一致：

innodb_flush_log_at_trx_commit：自管常設 1（zero loss）、Aurora 預設仍 1 但走 Aurora storage durability（行為等價但不同 mechanism）
sync_binlog：自管 1、Aurora 沒有 binlog 寫 disk 概念（Aurora 不用 binlog 做 replication、binlog 是 optional output）
time_zone：Aurora 預設 UTC、自管常設 local time、TIMESTAMP query 行為可能不同
character_set_*：自管常設 utf8mb4、Aurora 預設可能是 latin1（看 cluster create 命令）

修法：

Phase 1 完成後 逐 row 對比 parameter group：
```
1SELECT @@global.variable_name FROM ...
```
建 custom DB cluster parameter group、匹配自管設定
重啟 Aurora primary 套 parameter group 改變（部分 parameter 需要重啟）

2. IAM authentication — application 沒準備

Aurora 提供 IAM authentication（不用 password、用 AWS IAM role + temporary token）。Application 用 IAM auth 不必管 password rotation、但程式碼必須 call AWS SDK 取 token、放 connection 設定。

如果 Phase 2-3 期間沒 reverse engineer application connection logic、cutover 後 application 仍試用 password auth、Aurora 拒絕、production down。

修法：

評估是否啟用 IAM auth — 簡單情況保留 password、整合 AWS Secrets Manager 自動 rotation
啟用 IAM 必須 application code 改：
- Java：com.amazonaws.services.rds.auth.RdsIamAuthTokenGenerator
- Python：boto3.client('rds').generate_db_auth_token(...)
- Go：aws-sdk-go-v2/feature/rds/auth
Phase 2 期間 application 對 Aurora 用 IAM token、self-managed 仍 password — 雙 path code

3. Aurora-only feature 寫進 application、rollback 成本升高

Migration 過程開發發現 Aurora 有 Aurora-only feature（Backtrack、Performance Insights、Aurora Global Database）、誘惑使用。一旦 application 用了 Aurora-only feature、要 rollback 自管 MySQL 變不可能（feature 不存在、query 失敗）。

常見 Aurora-only feature：

Backtrack：72 小時內 in-place rollback 整個 DB（不同於 PITR）
Aurora ML：SQL function 內接 SageMaker / Comprehend
Aurora Parallel Query：analytical query 跨 storage node 並行
Aurora Auto Scaling：read replica 數量按 CPU 自動加減

修法：

Phase 1-3 期間禁用 Aurora-only feature、保留 rollback option
Phase 4 完成後 才開始 evaluate Aurora-only feature、加進來時 明確記錄不可 rollback decision
把 Aurora-only feature 跟 Aurora 特定 cluster 綁定，避免 application 邏輯依賴 Aurora-only

4. Read replica endpoint behavior — Application 不知道 reader endpoint round-robin

Aurora reader endpoint（prod-aurora.cluster-ro-xxx）是 DNS-based load balancer、每次 DNS query 給不同 replica IP。Application connection pool 連續開 10 個 connection、可能全部連同一個 replica（DNS cache）、不均勻。

修法：

Application connection pool 強制 DNS re-resolve（避免長時間 cache）
或用 RDS Proxy（managed connection pool）放在前面、不直接連 reader endpoint
或用 Route 53 latency-based routing 配 Aurora reader endpoint per AZ、application 連最近 AZ

5. Region failover — Aurora Global Database vs 自管 chained replication

自管 cross-region replication 是 chained replication（primary → region2 replica → region2 cascading replica）。Aurora Global Database 是 storage-level replication（storage page 直接 ship，而非 binlog）、跨 region < 1 秒 lag、failover < 1 分鐘。

但 Aurora Global Database 是 active-passive（primary region 可寫、secondary region 只讀）。如果原本自管已經 cross-region active-active write（用 multi-master 或應用層 sharding）、Aurora Global Database 的寫入模型會成為限制。

修法：

評估 cross-region 是 DR 用途還是 active write 用途
純 DR + read scaling：Aurora Global Database 直接 cover
Active-active write：要 Aurora DSQL（2024 新推出、跟 Aurora 不同 product）或 distributed SQL（CockroachDB / Spanner）

Capability gap：自管 MySQL 有但 Aurora 沒有

能力	自管 MySQL	Aurora MySQL
Plugin 自己裝	任意	受限（Aurora 只允許官方支援）
OS-level access	完整 SSH access	managed service，無 SSH access
MySQL 8.0 latest patch	你決定	跟 Aurora major version 對應、有滯後
InnoDB log_file_size	自己改	Aurora 內建 storage path
Custom storage engine	可（MyRocks / TokuDB）	只 InnoDB（Aurora optimized）
Cross-cloud DR	自配 binlog ship	Aurora-only (AWS region)

評估時必須確認 當前自管功能 沒用到 Aurora 不支援的能力。如果在用 MyRocks 等 storage engine、Aurora migration 不可行。

容量與成本對照

對 100 GB DB、5K WPS、20 個 application instance 的 deployment：

項目	自管 MySQL（EC2）	Aurora MySQL
Primary instance	r5.2xlarge（$0.50/hr）	db.r6g.2xlarge（$0.83/hr）
EBS / Aurora storage	io2 100 GB + 5000 IOPS = ~$70/mo	Aurora storage 100 GB = ~$10/mo + I/O $0.20/M
Replica × 3	3 × r5.2xlarge = $1080/mo	3 × db.r6g.large = $540/mo
Backup storage	S3 + 自己 cron mysqldump ~$50/mo	Aurora backup 100 GB 免費 + 額外 $0.021/GB
Ops headcount	1-2 FTE × $150K = $300-500K/yr	< 0.5 FTE × $150K = $75K/yr
Total infra	~$1500/mo + 大 ops cost	~$2000-3000/mo + 小 ops cost

Pure infra cost Aurora 貴 30-50%、但 ops cost 降幅大過 infra increase — 200 人 eng team 養 1.5 FTE DBA 是 $300K-400K/yr、Aurora 換成 0.3 FTE 是 $60K-100K/yr、差距 $200K+ 抵 infra increase。

小團隊 / 小 deployment Aurora 不一定划算 — 50 人 eng team 沒有 dedicated DBA、自管 MySQL 也只佔某人 20% 時間、Aurora migration 的 ops saving 不存在。

Production case：Netflix Aurora consolidation

MySQL → Aurora migration 的 production 責任是把自管 database operation 轉移成 managed SQL 的契約，而非只搬 schema 與資料。9.C23 Netflix Aurora consolidation 提供的工程訊號是多套 RDBMS 整併到 Aurora 後，效能、成本與操作責任一起改變。

這個案例要回收到三個操作判準。第一，migration driver 應寫成 operation transfer，例如 backup、failover、storage growth、patching 與 observability 由誰承擔。第二，效能與成本要一起看，因為 Aurora 的 storage / compute / I/O 計費會把原本藏在 DBA 操作裡的成本攤開。第三，整併多套 RDBMS 時要先做 feature inventory，確認 plugin、storage engine、charset、replication topology 與 SQL mode 都能落到 Aurora MySQL 支援範圍。

Netflix case 的 sibling 路由是 Aurora vendor page 與 PostgreSQL → Aurora。若 migration 目標從 managed SQL 變成 multi-region active-active write，應改接 1.11 全球分散式 OLTP。

何時維持原路線

Cross-cloud portability 是 requirement：Aurora AWS-only、要 cross-cloud 用 PlanetScale 或自管
用 Percona Server fork / MyRocks 等非標準 engine：Aurora 不支援
需要 OS-level customization：Aurora 完全 managed、無 SSH
規模太小：< 100 GB / < 1K WPS、自管 MySQL EC2 spot instance 已經夠便宜
規模太大：> 50 TB single DB / > 100K WPS、Aurora single-instance 仍是 ceiling、考慮 Vitess 或 Aurora DSQL

MySQL → PlanetScale：managed Vitess + branch-based schema workflow 的 hybrid shift

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 MySQL 跟 PlanetScale。走 Migration playbook methodology Type E paradigm shift 結構。

維度	自管 MySQL	PlanetScale
Sharding	自己配 Vitess 或不 shard	Vitess 透明（即使單 keyspace 也走 Vitess）
Schema migration	gh-ost / pt-osc 跑 ALTER	Branch + Deploy Request workflow
Failover	Orchestrator 自管	PlanetScale 自動
Branching	不存在概念	DB branch（git-like）+ revert
Connection limit	max_connections 自己設	PlanetScale connection pool / per-plan limit
Foreign key	支援	有限支援（Vitess 18+ / 2023 起、需明確啟用）
`SUPER` privilege	自己有	無
Multi-region	自己配 binlog ship	PlanetScale 內建（Boost feature）
Per-month cost	EC2 + EBS + ops	per-row-read + per-row-written + storage

從 application 連線 視角：跟 Aurora MySQL migration 一樣低、connection string 換就完事。從 schema management 視角：PlanetScale 強推 branch-based workflow — 改 schema 不再是「跑 gh-ost」、是「開 branch → Deploy Request → review → merge」。整個 schema change 工作流跟 git 同型、跟 application code review 同 workflow。

這是 workflow + schema-tooling shift — Aurora 是「同 workflow + managed」、PlanetScale 是「同 protocol + 不同 schema workflow + branch tooling」。Database paradigm（OLTP relational）跟 application change 都 Low、主要 shift 在 DBA / dev 操作介面。

為什麼是 Type E（Paradigm + Operational + Schema 多軸）

跑 6 維 diff dimension audit：

維度	評	說明
Schema	Medium-High	MySQL wire protocol 一致、FK 有限支援（Vitess 18+）、部分 INSTANT DDL 行為差
Operational	High	branch lifecycle、Deploy Request workflow、connection pooler 不同
Paradigm	High	branch-based schema management、跟自管 gh-ost / pt-osc 思維完全不同
Components	Medium	PlanetScale CLI / Console / API / connection pooler 都進團隊工具
App change	Low	connection string + 移除 FK 約束
Topology	Low-Medium	Vitess 透明 sharding 即使單 keyspace

Paradigm + Operational + Schema 三軸 High。按優先序 Schema > Paradigm > Operational、預設選 Type A。但 讀者最關心 的是 schema workflow paradigm 轉變、不是 schema field translation — Type E 結構更貼合「不收斂、部分 adopt」的真實 migration 流程。

→ Type E paradigm shift、4-phase partial migration（多數 org 停 Phase 2-3 hybrid）。

Driver：Branch-based workflow + Vitess transparent sharding + zero DBA

從自管 MySQL 遷 PlanetScale 的核心 driver 有三條：

Branch-based schema workflow：

改 schema 開 branch（pscale branch create）、在 branch 上跑 ALTER、跑 application code 改、merge 進 main 前 Deploy Request review
Deploy Request 顯示 schema diff、跟 GitHub PR 同概念
Merge 後 PlanetScale 自動跑 no-downtime schema migration（內部 VReplication）
出問題可 revert（48 小時內、用 Vitess VReplication 反向 ship 資料）

這條 workflow 對 developer ergonomic 拉力大 — schema change 不再是「DBA 工作」、是「dev 自己處理、跟 code review 同流程」。

Vitess transparent sharding：

PlanetScale 強制每個 cluster 走 Vitess（即使單 keyspace 看似 unsharded）
寫吞吐成長到需要 shard 時、加 shard 是 PlanetScale internal 操作、application 看不到
不用養 Vitess SRE 團隊

Zero DBA：

PlanetScale 接管所有 ops（failover / backup / parameter / scaling）
跟 Aurora 同等級「managed」、加上 branch workflow

FK 處理：早期 Vitess（< 18）不支援 FK、PlanetScale 對應期間建議全 drop FK + 改 application enforcement。Vitess 18（2023 末）後加 FK 支援、PlanetScale 在合適 plan 內可啟用、但 cross-shard FK 仍受限。Phase 1 audit 重點不再是「全 drop FK」、而是「驗證 FK 行為（特別 cascade / cross-shard）跟自管 MySQL 預期一致」。

4-phase partial migration（不收斂）

Phase 1：FK 行為驗證 + schema audit、PlanetScale shadow cluster 起來

第一步是 FK 行為驗證 + schema layout audit。Vitess 18+ / PlanetScale 已支援 FK、但行為跟自管 MySQL 有差異：

列所有 FK：SELECT * FROM information_schema.KEY_COLUMN_USAGE WHERE REFERENCED_TABLE_NAME IS NOT NULL
對每個 FK 評估：
- Cross-shard FK：PlanetScale 不允許 FK 跨 shard、parent 跟 child 必須同 shard（透過 Vindex 設計）
- Cascade 行為：cross-shard DELETE cascade 在 PlanetScale 不執行、改 application 層處理
- Native FK 啟用 vs application enforcement：依 Vitess 18+ 行為決定保留 FK 或改 app-level
PlanetScale shadow cluster 起來、跑 application schema、用 Vitess Connector 從自管 binlog ship 資料

工作主要塊：

FK 行為 audit + 改 cross-shard cascade（依 FK 數量、weeks 工作量）
Schema dump → PlanetScale import（用 pscale shell）
Vitess Connector 設定 binlog stream

完成標準：PlanetScale shadow cluster 有完整 production schema、cross-shard FK 已處理、binlog stream lag < 1 秒。

Phase 2：Read traffic 切 PlanetScale

跟 Aurora migration Phase 2 同概念：read query 切 PlanetScale connection string、寫入仍自管 MySQL。

差異：

PlanetScale connection 有 per-plan rate limit（Scaler Plan: 10K connections、Enterprise: 100K）
必須走 PlanetScale connection pool（不是直接連、有 SSL handshake overhead）
監控 pscale_io_read_query_throttled_total 確認沒撞 plan limit

跑 2-4 週、確認：

PlanetScale read latency 跟自管 replica latency 接近（PlanetScale Boost cache 可能比自管快）
Vitess Connector stream 穩定
Application 對 PlanetScale row read 量符合 cost forecast

Phase 3：Schema workflow 切 PlanetScale + write cutover

關鍵 paradigm shift：停 gh-ost / pt-osc、改用 PlanetScale branch workflow。

訓練步驟：

第一個 small schema change 用 PlanetScale branch + Deploy Request 跑
開發團隊熟悉 pscale branch create / pscale deploy-request create CLI
CI integration：把 PlanetScale CLI 加進 deploy pipeline
退役 gh-ost / pt-osc CI integration

完成 schema workflow 訓練後 write cutover：

1# 1. PlanetScale 把 shadow cluster promote 為 primary（用 PlanetScale console / API）
2# 透過 PlanetScale Console 啟用 production write 或用 `pscale` CLI 對應 promotion 命令
3# （CLI 命令名稱隨 pscale 版本變動、以 pscale --help 為準）
4
5# 2. Application connection string 切 PlanetScale writer
6# 自管 → mysql://primary.example.com:3306/production
7# PlanetScale → mysql://...@xxx.connect.psdb.cloud/production?sslaccept=strict
8
9# 3. Vitess Connector 反向（PlanetScale → 自管）作為 rollback insurance

完成標準：寫入流量 100% 進 PlanetScale、自管 MySQL 接 PlanetScale binlog（rollback buffer）。

Phase 4：自管 MySQL 退役 / 保留作 rollback buffer

跟 Aurora migration Phase 4 同模式：

自管保留 30-90 天作 cold buffer
確認 PlanetScale cost forecast 跟 actual 一致（per-row read / write 計費可能超預期）
確認 branch workflow 在 production team 內 adopt（不是「PlanetScale 在用、但團隊還是用 gh-ost on staging」這種 stuck 狀態）

多數 org 在 Phase 3 停留更久（半年-一年）— Vitess Connector 反向 binlog ship 是穩定 rollback path、Phase 4 不急。

5 個 Production 踩雷

1. Cross-shard FK — PlanetScale 跟 native MySQL 行為不同

Vitess 18+ / PlanetScale 已支援 FK、但 cross-shard cascade 不執行。同 shard 內 FK 跟 native MySQL 一致；parent 跟 child 跨 shard 時、ON DELETE CASCADE 在 PlanetScale 不會跨 shard 觸發 child delete、結果 application 看到 orphan row。

修法：

Phase 1 audit 出哪些 FK 跨 shard（Vindex 設計決定 parent / child 是否同 shard）
同 shard FK：直接保留、行為跟自管 MySQL 一致
Cross-shard cascade：改 application 層 transaction 內 explicit DELETE child、或 background reconciliation job（定期掃 orphan）
把 parent / child 強制同 shard（用相同 Vindex column）是預防 cross-shard FK 議題的根本解

2. Deploy Request 思維轉換不到位 — 團隊仍用「跑 ALTER」心智模型

DBA / SRE 習慣 直接連 PlanetScale 跑 ALTER —但 PlanetScale 在 production branch 上 禁止 DDL（必須走 Deploy Request）。失敗訊息 not actionable（ERROR: not authorized）、DBA 找不到原因、production maintenance 卡住。

修法：

Phase 3 訓練步驟 不能跳：找一個 small schema change 在 staging 走完整 branch workflow、團隊每個 DBA / SRE 都 hands-on 過
在 ops runbook 寫明 production schema change must go through Deploy Request、列 CLI 命令模板
緊急 schema change（事故中）也走 branch + Deploy Request、PlanetScale 可加速 Deploy（不能 bypass workflow）

3. Schema diff 邊界 — PlanetScale 看不到 application-level INSERT changes

Deploy Request 顯示 schema-level diff（CREATE / ALTER / DROP）、不顯示 data diff。如果 branch 上有 INSERT 進去（測試資料 / seed data）、merge 進 main 時 資料不會搬（只搬 schema）、application 預期有資料但 production 沒。

修法：

把 seed data INSERT 放 application migration / fixture、不在 PlanetScale branch 內
用 PlanetScale CLI export branch data 跟 import to main（手動操作）作為 escape hatch
教育團隊：PlanetScale branch = schema branch、不是 git-like data branch

4. Branch lifecycle ops cost — 100 個 stale branch

每個 PR 都開一個 PlanetScale branch、PR merge 後忘記刪、累積 100 個 stale branch。每個 branch 佔 storage cost、PlanetScale plan limit 也限制 branch 數量。

修法：

CI integration：PR close 自動 pscale branch delete
設 branch retention policy（30 天無活動自動刪）
監控 pscale branch list | wc -l 數量、超 threshold alert
把 branch lifecycle 寫進 team playbook（不是 PlanetScale 教、是團隊內部規範）

5. 無 `SUPER` privilege — 部分操作不可行

PlanetScale connection 拿到的 MySQL user 沒有 SUPER privilege。需要 SUPER 的操作直接失敗：

SET GLOBAL（不能改 runtime variable）
KILL 別人的 query（PlanetScale console 提供 alt 介面）
SHOW MASTER STATUS / SHOW SLAVE STATUS（PlanetScale 抽象掉、不暴露）
INSTALL PLUGIN（managed、不允許）
STOP SLAVE / START SLAVE（Vitess 內部）

修法：

評估 application 跟 ops tool 是否依賴 SUPER privilege
改用 PlanetScale console / API 等價操作
部分監控 query（SHOW SLAVE STATUS）用 PlanetScale 內建 dashboard 代替

Schema translation 主要工作量塊

雖然 Type E 結構不以 schema translation 為主、但 schema diff 在 Phase 1 仍佔多數時間：

自管 MySQL	PlanetScale (Vitess)	翻譯難度
FOREIGN KEY constraint	（無）+ application enforcement	高
INSTANT DDL	部分支援、其他走 Vitess online DDL	低-中
Stored procedure	支援	低
Trigger	支援	低
User-defined function	受限	中
INSERT 跨表（CTE）	支援	低
Cross-shard JOIN	必須用 Vindex（user_id 等 shard key 同表）	中-高
`SUPER` 行為	不支援	中（ops tool 改）
`RELOAD` privilege	不支援	中

容量與成本對照

PlanetScale 計費 很不同：

項目	自管 MySQL（EC2）	PlanetScale Scaler Pro
Per-row read	不計費	按量計費、$1 per 1B row read
Per-row written	不計費	按量計費、$1.50 per 1M row write
Storage	EBS、$0.10/GB-month	$1.50/GB-month + replication overhead
Connection limit	max_connections 自己設	per-plan limit、可加 Connection pooler
Branch	不適用	每 branch 含 storage cost
Boost cache	不適用	additional cost
Ops headcount	1-2 FTE	< 0.2 FTE

PlanetScale 適合 小-中規模 + high developer productivity priority：

流量 < 10K WPS：cost 接近自管、developer productivity 顯著提升
流量 10-50K WPS：cost 開始貴、但 ops saving 仍大於 cost increase
流量 > 100K WPS：PlanetScale Enterprise 議價、要 commit pricing

對 high-traffic 場景 cost forecast 必須跑 真實 workload trace — PlanetScale 提供 pscale analytics 預估 read / write 量、用 production binlog replay 在 staging 跑、估算 row read / write 計費。

何時不要遷

FK 是 application core constraint：cascade DELETE / SET NULL 廣泛使用、application 改不動
大量 SUPER-required ops 自動化：DBA tools / monitoring 寫死 SUPER、改不動
OS-level customization 需求：跟 Aurora 一樣、PlanetScale 完全 managed
流量極大 + 預算敏感：> 100K WPS row read 計費可能比 EC2 貴 5x、需要 Enterprise commit pricing
跨雲 portability 是 requirement：PlanetScale 跑在自家 cloud（背後 AWS / GCP）、不像自管 Vitess 可跨雲

跟 Aurora MySQL 對比（同 batch 的選擇）

維度	Aurora MySQL	PlanetScale
Type	C operational hybrid	E paradigm shift
工作量主軸	parameter group + IAM + endpoint	FK audit + branch workflow
Sharding	不 shard、single-region scaling	Vitess 透明 sharding
Schema workflow	仍用 gh-ost / pt-osc	Branch + Deploy Request
FK	支援	不支援
Cost model	per-hour instance + per-GB storage	per-row read / write + per-GB storage
適合規模	100 GB - 50 TB	100 GB - 1 PB
跨雲	AWS-only	PlanetScale 背後 AWS / GCP

選擇邏輯：

AWS-heavy ecosystem + 不想 schema workflow paradigm shift → Aurora
Developer-first culture + 想 branch-based schema workflow + 接受 FK 限制 → PlanetScale

兩者不互斥、有 org 用 Aurora 給 OLTP core、PlanetScale 給 newer microservices（branch workflow 帶價值）。

自管 Vitess → PlanetScale：Vitess component ops outsource、加 schema workflow shift

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 Vitess sharding 跟 PlanetScale。走 Migration playbook methodology Type C operational hybrid 結構。

元件	自管 Vitess	PlanetScale
VTGate	自己部署 + LB	Managed、隱藏在 PlanetScale endpoint 後
VTTablet	自己 per-MySQL deploy	Managed
VReplication	自己 trigger workflow	Managed、透過 Console / API
VSchema	自己維護（YAML / API）	Managed、Console UI 編輯
MySQL backend	自己 EC2 / on-prem	Managed (Aurora-like underlying)
Schema migration	gh-ost / pt-osc 或 Vitess online DDL	Branch + Deploy Request workflow
Failover	自己用 VTOrc	Managed
Multi-region	自己配 VReplication 跨 region	Boost / per-region cluster
Cost model	EC2 + EBS + ops headcount	Per-row read / write + storage

這條 migration 跟 → Aurora MySQL 相似（self-managed → managed），但 target 是 Vitess-native managed、保留 sharding 能力。同時加上 → PlanetScale from self-managed MySQL 的 branch workflow paradigm。

對 已花心力建 Vitess team 但 ops cost 太大 的 org 來說、這條 migration 比 Vitess → distributed SQL 風險低、保留 sharding investment。

為什麼是 Type C（不是 Type A 或 Type E）

跑 6 維 diff dimension audit：

維度	評	說明
Schema	Low	Vitess wire protocol + VSchema 概念一致
Operational	High	4 個 component 的 ops 全部 outsource、branch workflow 是新 paradigm
Paradigm	Medium	Vitess paradigm 不變、但加 branch workflow
Components	Low	同 Vitess engine
App change	Low	Connection string 改、無 schema rewrite
Topology	Low	Vitess sharding 結構保留

Operational = High（其他 Low / Medium） → Type C operational hybrid。Branch workflow 是 Medium paradigm shift 但不是 dominant — 主要工作量在 operational ownership 轉移。

跟自管 MySQL → PlanetScale（Type E paradigm shift）對比：那條 path 是 no-Vitess → Vitess + branch、要學 Vitess 概念 + branch；本條是 已有 Vitess + 加 branch、只學 branch、複雜度低很多。

Driver：Ops headcount + Branch workflow + Vitess feature 加速

從自管 Vitess 遷 PlanetScale 的核心 driver：

Ops headcount 削減：

自管 Vitess 通常需要 2-5 個 SRE/DBA 撐 production —VTGate / VTTablet / VReplication / VSchema 各有議題
PlanetScale 把這層全部 outsource、團隊 ops headcount 可降到 < 1 FTE
對 50-200 人 eng team、ops cost saving 是顯著 driver

Branch workflow paradigm：

自管 Vitess 仍用 gh-ost / pt-osc 或 Vitess online DDL 跑 schema migration、是 DBA 主導
PlanetScale branch workflow 把 schema migration 變 developer self-service、開 branch / Deploy Request / merge、跟 git workflow 同節奏
對 high-velocity engineering culture 是文化升級

Vitess upstream feature：

PlanetScale team 是 Vitess 的主要 contributor、新 feature 通常 PlanetScale 先 ship
自管 Vitess 升級慢、PlanetScale 用戶看到新 feature 早 3-6 個月

不適合 跨雲 portability priority high 或 strict on-prem deployment 的 org — PlanetScale 是 cloud-only。

4-phase migration

Phase 1：Topology + VSchema audit

把當前自管 Vitess cluster 完整盤點：

 1# Vitess cluster topology
 2vtctldclient GetKeyspaces
 3vtctldclient GetShards 
 4vtctldclient GetTablets
 5
 6# VSchema
 7vtctldclient GetVSchema 
 8
 9# 跨 keyspace VReplication workflow
10vtctldclient GetWorkflows

對每個 keyspace 檢查：

Shard 數量：PlanetScale plan 對 shard 數量有 limit（Enterprise 才能超大規模）
VSchema features：自管可能用 PlanetScale 不支援的 Vindex（custom Vindex）
Foreign key：Vitess 18+（2023 末）才支援 FK、自管 Vitess 大多 < 18、cluster 內已 application-enforced；遷 PlanetScale 後可選擇啟用 native FK（同 shard 內）或繼續 application enforcement
Stored procedure / trigger：PlanetScale 受限、確認是否 application 依賴

完成標準：寫 blocker list（PlanetScale 不支援的功能）+ compatibility list（功能對應）。

Phase 2：Dual cluster + binlog stream

PlanetScale 內建 Vitess Connector、從外部 MySQL（包括其他 Vitess cluster）binlog stream import：

1# 1. 用 PlanetScale CLI 建 cluster
2pscale database create production --region us-east
3
4# 2. Import schema（從自管 Vitess export）
5pscale shell production main < schema.sql
6
7# 3. 設 Vitess Connector 從自管 cluster import 資料
8# （透過 PlanetScale Console）

Vitess Connector 從自管 VTTablet 的 MySQL primary 讀 binlog、寫進 PlanetScale。Lag 通常 < 1 秒。

跑 1-2 週、確認：

Schema 完整 migrate
VSchema 對應正確（Vindex 行為一致）
Lag 穩定

Phase 3：Application read 切 PlanetScale

跟 Aurora migration Phase 2 同概念。Application read query 切 PlanetScale endpoint：

連 PlanetScale connection string（xxx.connect.psdb.cloud）
仍寫自管 Vitess、Vitess Connector 同步 PlanetScale

跑 2-4 週、驗證：

Query result 一致
PlanetScale read latency 接近自管（PlanetScale Boost cache 可能加速）
PlanetScale row read 計費跟預估一致

Phase 4：Write cutover + 自管 Vitess 退役

 1# 1. PlanetScale 把 cluster promote 為 primary（透過 Console）
 2# 透過 PlanetScale Console 啟用 production write 或用 `pscale` CLI 對應 promotion 命令
 3# （CLI 命令名稱隨 pscale 版本變動、以 pscale --help 為準）
 4
 5# 2. Application 寫 connection string 切 PlanetScale
 6# 自管 Vitess → PlanetScale
 7
 8# 3. Vitess Connector 反向（PlanetScale → 自管）作為 rollback buffer
 9
10# 4. 跑 1-2 週確認、開始 decommission 自管 Vitess

Decommission 自管 Vitess 是大工程：

VTGate / VTTablet pods 一個個關
VReplication workflow 停掉
MySQL backend 保留作 cold backup 1-3 月、然後 EBS snapshot + terminate

完成標準：所有 traffic 在 PlanetScale、自管 Vitess 資源全 release、ops headcount confirm 下降。

5 個 Production 踩雷

1. VSchema 不完全兼容 — Custom Vindex 必須改

自管 Vitess 可能用了 custom Vindex（自寫 Go plugin）、PlanetScale 不支援 custom Vindex（只支援 built-in：hash / lookup_hash / unicode 等）。

修法：

Phase 1 audit 出所有 custom Vindex
對每個 custom Vindex 評估能否用 built-in 替代
不能替代的、考慮 application 層 logic 取代 Vindex（application 自己算 shard key）
或 暫不遷該 keyspace、保留自管 Vitess 跑 custom Vindex keyspace、其他遷 PlanetScale

2. Branch workflow 訓練不到位 — DBA 仍用「Vitess online DDL」心智模型

自管 Vitess team 習慣 vtctldclient ApplySchema --strategy=vitess 跑 online DDL、遷 PlanetScale 後仍想直接這樣 — 但 PlanetScale production branch 禁止 schema change、必須走 Deploy Request。

修法：

Phase 3 訓練步驟：team 每個 DBA / SRE 都跑過完整 branch + Deploy Request workflow
寫 team runbook：production schema change must 走 branch
緊急 schema change（事故中）也走 branch、PlanetScale 可加速 Deploy

3. SUPER privilege 移除 — 自管 admin tool 失效

自管 Vitess 用 SUPER privilege 跑 admin script、PlanetScale 沒給 SUPER。常見失效：

自寫 monitor script 跑 SHOW SLAVE STATUS、PlanetScale 抽象掉
自寫 backup script 跑 FLUSH TABLES WITH READ LOCK、PlanetScale 不允許
自寫 cleanup script 跑 KILL QUERY、PlanetScale 受限

修法：

Phase 1 audit 所有 admin script
改用 PlanetScale Console / CLI / API 等價操作
PlanetScale 提供的 monitoring 介面替代自管監控

4. Connection limit — PlanetScale plan 比預期緊

PlanetScale Scaler Plan: 10K connection、Enterprise: 100K。自管 Vitess VTGate 通常設 50K-200K connection、遷 PlanetScale 後 hit limit。

修法：

Phase 1 connection forecast：peak hour 多少 active connection
升 PlanetScale plan（Scaler Pro / Enterprise）
或在 application 端加 connection pool（HikariCP / pgBouncer 等價）降低 connection count

5. Cost model 翻盤 — Per-row read 計費超預期

PlanetScale 計費是 per row read / written。自管 Vitess cost = EC2 + EBS（線性 with infrastructure scale）。遷 PlanetScale 後計費跟 application access pattern 直接相關。

常見 surprise：

Heavy analytics query（COUNT *、aggregation）讀大量 row、計費高
N+1 query pattern（application 跑很多小 SELECT）讀很多 row、計費高
Read-heavy workload 沒 Boost cache、每次 query 都 hit billing

修法：

Phase 1 cost forecast：用 pscale analytics 預估 row read / write 量、估算月帳
Phase 2 期間實際對 PlanetScale 跑 traffic、看實際 billing
Heavy analytics 改 材料化 view / async aggregation、不是每次 query
高 read frequency 開 Boost cache（額外 cost、但比 row read 便宜）

Capability mapping

自管 Vitess	PlanetScale 對應	兼容度
VTGate	PlanetScale endpoint	100%
VTTablet	PlanetScale managed	100%
VReplication	PlanetScale Console + Deploy Request	90%（內部使用更受限）
VSchema	PlanetScale Console / pscale CLI	95%（custom Vindex 不支援）
Vitess online DDL	Deploy Request workflow	不同 paradigm、功能等價
Backup	PlanetScale 自動	100%（且更好）
Failover	PlanetScale 自動	100%
Multi-region	PlanetScale Boost / per-region cluster	90%
Custom plugin	不支援	0%
SUPER privilege	不支援	0%

容量與成本對照

對 200 人 eng team 用自管 Vitess（10 shard、20 TB 資料、50K WPS）：

項目	自管 Vitess（自管 EC2）	PlanetScale Scaler Pro
Infrastructure	~$15K-25K / mo（EC2 + EBS + LB）	Variable（per row read / write）
Ops headcount	2-3 FTE × $150K / yr = $300K-450K / yr	< 0.5 FTE × $150K = $75K / yr
Vitess upgrade cost	每年 1-2 個 SRE × 2 週	自動
Per-row read	不計費	$1 per 1B row read
Per-row written	不計費	$1.50 per 1M row write
Storage	EBS $2K-5K / mo	$1.50 / GB / mo
總帳	~$400K-550K / yr	~$200K-350K / yr（看 traffic）

對中型規模、PlanetScale 通常 break-even 或更便宜。對極大規模（> 200K WPS / > 100 TB）PlanetScale Enterprise 需要 commit pricing、不一定划算。

何時不要遷

跨雲 / on-prem 是 requirement：PlanetScale cloud-only
Custom Vindex / 特殊 plugin 大量使用：兼容度低、改造工作量大
規模極大 > 500K WPS / > 200 TB：PlanetScale plan 對應 Enterprise commit、議價辛苦
強合規 / 資料主權限制：金融 / 政府 / 醫療場景、PlanetScale 不一定能 cover compliance
既有 Vitess team 強 + ops cost 低：如果 ops 已經精實、不必為 outsource 而 outsource

跟其他模組整合

跟 Vitess sharding

本 migration 保留 Vitess sharding 概念、application code 視角幾乎不變。Phase 1 audit 是 Vitess concept 對應 PlanetScale concept、不是 拆 Vitess 換 distributed SQL。

跟 → PlanetScale (from self-managed MySQL)

本 migration 是 Vitess → PlanetScale、前者是 MySQL → PlanetScale。差異：

MySQL → PlanetScale (Type E)：要學 Vitess 概念 + branch workflow + FK 處理
Vitess → PlanetScale (Type C)：只學 branch workflow + ops outsource、保留所有 Vitess investment

選哪條 path 取決於起點。

跟 Major Version Upgrade

從自管 Vitess 上 MySQL 5.7 遷 PlanetScale 也是 同時跨 major version（PlanetScale 跑 8.0+ Vitess）。Application 必須同時處理 5.7 → 8.0 paradigm shift（charset / auth）。

Cosmos DB MongoDB API vs SQL API：遷移路徑、dogfood signal、multi-model、跨雲 hedging

Wed, 27 May 2026 00:00:00 +0000

Cosmos DB 提供 5 個 API（SQL / MongoDB / Cassandra / Gremlin / Table）、底層是同一個分散式 document store。團隊從 MongoDB 來、第一個問題通常是「MongoDB API 跟 native SQL API 我選哪個」 — 但這個問題框架太窄。讀者真正在比的是 vendor selection、不是兩個 API 的 syntax 差。本文把選型推到四層問題：(a) 你的遷移路徑屬於哪一型、(b) dogfood signal 怎麼讀、(c) multi-model 差異化是否真用上、(d) 跨雲 hedging 還是單雲 lock-in。先把四層 framing 講清楚、再進兩個 API 的機制差異、最後給 MongoDB → Cosmos DB MongoDB API 的 migration playbook。

本文不是 Cosmos DB overview（請看 Cosmos DB vendor 頁）— 而是 選型決策 + 遷移實作 的深度展開。Case anchor 是 9.C30 Microsoft 365 — Microsoft 自家 dogfood、MongoDB → Cosmos DB MongoDB API 的 planet-scale 分析平台、提供四層 framing 的證據錨點。

問題情境：選型問題不是「兩個 API 哪個快」

典型觸發場景：團隊已用 MongoDB（自管或 Atlas）、評估遷到 Azure；Cosmos DB 提供 MongoDB API（wire protocol 相容）跟 native SQL API 兩條路；文件講「MongoDB API 是 wire compat、SQL API 是 native」、但這個敘述沒回答真實決策問題。

讀者實際在問：

「MongoDB API 我們的 aggregation pipeline 跑得起來嗎」
「$lookup 在 Cosmos DB MongoDB API 支援嗎」
「change stream 跟 Change Feed 是同一回事嗎」
「為什麼有人說 MongoDB API 只是過渡、最終要遷 SQL API」
「Microsoft 自己選了 MongoDB API、是不是代表 MongoDB API 才是對的選擇」

這些問題背後的 真實壓力 是 vendor selection：團隊已選 Azure、要決定「留 Atlas 還是進 Cosmos DB、進了 Cosmos DB 用哪個 API」、選錯的成本是 年級的工程遷移 — 不是 config 改不改 等級。Microsoft 365 案例（9.C30）從 MongoDB 遷到 Cosmos DB MongoDB API 是 dogfood、但 case 自承「沒有提具體 throughput、latency、cost 數字」— 引用時不能拿這個案例的「成功」當 benchmark、只能取它的 framing。

四層 framing：vendor selection 的真實決策軸

Framing 1：document model 三型遷移路徑對照（本章合成 frame）

「MongoDB → Cosmos DB」是一種遷移、不是全部遷移。document model 的遷移路徑在 case 庫至少呈現三型、風險跟 ROI 完全不同：

遷移型	案例	工程複雜度	ROI
保留 + 補周邊	9.C36 Coinbase（mongobetween + freshness token + ML predictive scaling）	低、漸進、保留 MongoDB 自管	中、解 connection storm 等瓶頸
同 DB 換託管	9.C37 Forbes（自管 → Atlas、6 個月）	中、schema 跟 access pattern 保留	高、釋放 ops 人力
同 model 換 vendor	9.C30 Microsoft 365（MongoDB → Cosmos DB MongoDB API）	高、底層架構換、driver 保留	高、planet-scale 擴展性

三型 frame 是本章合成、case 原文沒有此分類。引用時要明示：Forbes 6 個月遷移成功 不代表 Microsoft 365 也是 6 個月、底層架構換的工程複雜度遠高於託管換。讀者開頭要先問「我屬於哪一型」、再進兩個 API 比較 — 「保留 + 補周邊」根本不需要進 Cosmos DB selection、「同 DB 換託管」的主要 trade-off 是 Atlas vs Cosmos DB 跨雲問題（Framing 4）、「同 model 換 vendor」才是本文聚焦的決策。

把三型混淆的後果是：拿 Forbes 6 個月時程當 baseline 估 Microsoft 365 型遷移、實際工程複雜度高 3-5 倍、project plan 從第一天就 over-commit。

Framing 2：dogfood 是高權重 selection signal、但案例數字常不公開

Microsoft 365 案例揭露的核心 signal 是「Microsoft 自家旗艦產品 dogfood Cosmos DB」— 跟 Amazon Prime Day 用 DynamoDB、Google 自家用 Spanner 一樣、雲商旗艦 DB 都用在自家旗艦產品上、這個 signal 在 vendor selection 的權重高、因為「雲商自己賭身家」。讀者該把這當 選型訊號、不是當 production benchmark。

但 9.C30 case 自承的警示必須明示：

「沒有提具體 throughput、latency、cost 數字。Microsoft 內部數字通常不公開、跟 AWS / GCP 案例的數字密度差很多」
「『MongoDB 不夠用』是行銷話術。實際是 MongoDB 在某些 workload pattern 下不夠用、不是普遍結論」

兩條警示直接影響寫作紀律：

不能拿「Microsoft 365 遷成功」當「我們也會成功」的證據 — 規模 / workload pattern / 團隊能力都不同
不能拿「Microsoft 從 MongoDB 遷出」當「MongoDB 不行」的結論 — Microsoft 自己也有大量 MongoDB / Cosmos DB / SQL Server 並用、不是全部遷出

dogfood signal 的 正確用法 是當 frame 借鑑（multi-model 差異化、planet-scale 抽象單位、API compatibility 層）、不是當數字 benchmark。

Framing 3：multi-model 是 Cosmos DB 的差異化價值、不總是真用上

Cosmos DB 的差異化價值不是「比 Atlas 更會跑 MongoDB」、是 單一服務支援 5 個 API（SQL / MongoDB / Cassandra / Gremlin / Table）。跨雲對照揭露這個差異化的稀有度：

AWS：DynamoDB（KV）+ DocumentDB（MongoDB-compatible）+ Neptune（graph）+ Keyspaces（Cassandra）— 各 use case 一個產品
GCP：Firestore（document）+ Bigtable（KV）+ Spanner（SQL）— 各 use case 一個產品
Azure Cosmos DB：5 個 API 在 同一個服務 內、partition + RU + region 治理共用

對 selection 的意義：若團隊預期同一系統會用 document + KV + graph 混合、Cosmos DB 的 multi-model 是 運維單一服務 的 unique value、不是只看「MongoDB 替代品」就能 ROI 評估。但 anti-pattern 也明確：若團隊只用 MongoDB API、不會用其他 4 個 API、multi-model 差異化價值對該團隊 不成立、不該變成 selection 理由。

判讀時要把 multi-model 當「條件性價值」、不是「普遍優勢」 — 條件是「現在或可預見未來會用到第二個 API」。9.C30 Microsoft 365 case 策略段直接揭露「Multi-model 是 Cosmos DB 的差異化價值」、但這個價值對「只用 MongoDB API」的團隊不成立、不能套到所有讀者。

Framing 4：跨雲 hedging vs 單雲 lock-in 的 trade-off

選 Cosmos DB（單雲、Azure-only）跟選 MongoDB Atlas（跨雲、AWS / GCP / Azure 都能跑）的核心 trade-off 不是「哪個技術更強」、是 未來不確定性的對沖價值 — 對應 vendor lock-in 的退出成本評估：

Atlas：跨雲部署能力、未來換雲商不用換 DB、9.C37 Forbes 用 GCP 但保留跨雲彈性
Cosmos DB / DynamoDB / Spanner：三大雲商各自的單雲 DB、選一個就綁該雲商生態

對 未來雲商策略尚未底定 的團隊、Atlas 的 hedging 價值高、即使當下單雲就夠用 — 因為 5 年後換雲商的工程成本可能遠高於每月多付的 hosting 費用。對 已綁 Azure 生態 的團隊（Microsoft 365 dogfood、企業 AAD / Office / Power Platform 整合）、Cosmos DB 的 Azure-only 是 整合延伸、不是 lock-in 損失 — 雲商已綁、再加一個 lock-in 不增邊際成本。

引用時必須明示這是 未來不確定性 vs 當下整合 的 hedging trade-off、不是「跨雲一定比較好」。讀者該問自己：「我們未來 5 年雲商策略是已定還是未定」、答案會直接決定 Atlas vs Cosmos DB 的選擇方向。

兩個 API 的機制差異

四層 framing 講完、再進 API 機制 — 不是為了「哪個快」、是為了讓 selection 後的實作不踩坑。

兩個 API 的關係：底層是同一個 Cosmos DB 分散式 document store、API layer 翻譯不同 wire protocol。MongoDB API 把 MongoDB 操作翻譯成 Cosmos DB internal、實際跑 Cosmos DB 自身 engine、不執行 MongoDB engine；SQL API 直接操作 Cosmos DB native query language。

MongoDB API：

相容 MongoDB wire protocol（時間敏感 claim、查最新支援版本、目前對齊 6.0 / 7.0 但仍落後 native MongoDB）
Driver 不變：直接用 mongo-go-driver / pymongo / mongoose
翻譯層有 overhead、相同 query 的 Request Unit 通常比 SQL API 多 10-20%（屬通用工程估算、Microsoft 公開文件未列具體比例、case 也未直接量化、實際 overhead 依 query shape / driver 版本 / region 而異、應該以自家 workload benchmark 校正）

SQL API：

Cosmos DB native query language（SQL-like、不是標準 SQL、不支援 JOIN）
直接操作 JSON document、ARRAY / nested field native 支援
完整 Cosmos DB feature 支援（Change Feed、stored procedure、trigger）

關鍵差異點：

$lookup（join）：MongoDB API 支援度有限、跨 partition 性能差；SQL API 沒 JOIN（document model 哲學）
Aggregation pipeline：部分 stage 不支援或行為不同（時間敏感、查支援列表）
Index：MongoDB API hint / explain 行為跟 native MongoDB 不同
Change stream：MongoDB API 提供 change stream wire compat、但底層是 Cosmos DB Change Feed（語義 / ordering / retention 有差）
Transaction：兩邊都限同 partition、跨 partition transaction 都要改 workflow

API kind 是 account 層設定、建 account 時選擇、無法事後切換。MongoDB API → SQL API 的「升級」是 export → recreate account → import + 重寫 application 的全量遷移、不是 in-place 切換。

Migration playbook：MongoDB → Cosmos DB MongoDB API

「同 model 換 vendor」型遷移（Framing 1 第三型）的 6 規格面 audit：

規格面 1：Driver

主要 driver：Azure 生態整合、需要更好的 global distribution、Atlas 跨雲成本不必要（單雲團隊）
對應 Framing 4 的「已綁 Azure 生態」條件

規格面 2：No-go condition

跨雲需求（Framing 4、Atlas 仍是首選、Forbes 案例證據）
需要 native MongoDB latest feature（MongoDB API server version 落後 native MongoDB）
未來雲商策略未定（hedging 價值喪失）
純 MongoDB 投資、無 Azure 生態其他服務整合（Framing 3 multi-model 不成立）

規格面 3：Diff audit（6 維度）

Schema：document shape 不變（wire compat）；但 _id 行為跟 Cosmos DB partition key 綁定方式要審
Operational：自管 MongoDB → managed Cosmos DB、replica set / sharding 變成 partition + region、備份 / monitoring 全換
Paradigm：不變（仍 document model）
Components：MongoDB driver 保留、aggregation pipeline 部分需重寫
Application change：connection string、authentication mechanism（SCRAM → Azure key / AAD）、read preference 對應 consistency level
Topology：replica set → multi-region replication、shard key → partition key

遷移類型判定：Type B drop-in（partial）、wire compat 但有相容性 gap、必須 dual-write per query pattern 驗證、不是一次切換。

規格面 4：Phase plan

Phase 0：相容性 audit、列 unsupported aggregation stage、production query corpus 對齊
Phase 1：partition key 設計（從 shard key 翻譯）、見 partition-key-design
Phase 2：bulk export-import（mongodump → Cosmos DB Data Migration Tool）
Phase 3：CDC sync（MongoDB oplog → Azure Data Factory / 自寫 connector）
Phase 4：shadow read 驗證 query 一致性、量 RU consumption baseline
Phase 5：read cutover（讀切 Cosmos、寫仍 MongoDB）
Phase 6：write cutover
Phase 7：cleanup、退役 MongoDB cluster、保留 dump 90 天

規格面 5：Evidence

query 一致性 diff log、aggregation result checksum、RU consumption baseline、replication lag
對應 schema-migration-rollout-evidence 的 dual-write 驗證

規格面 6：Cutover + cleanup

read-only window < 10 min、aggregation result 對齊驗證
Rollback 條件：query error rate > 1% 或 RU consumption 異常偏高（翻譯層 cost 高於估算）

失敗模式

Failure 1：假設 wire compat = 100% 行為相同

「100% wire compat」是 vendor 行銷話術、實際是「在某些 query pattern 下相容」— aggregation pipeline 跑出不同結果、上 production 才發現。9.C30 case 揭露的「『MongoDB 不夠用』是行銷話術。實際是 MongoDB 在某些 workload pattern 下不夠用」同模型反向適用 — 相容性 也是「在某些 query pattern 下相容」、不是普遍相容。

修法：production query corpus dual-write 跑一遍、case-by-case 驗證每個 query pattern、不能假設 wire compat = 行為 100% 一致。Phase 4 shadow read 不是「跑一些 test」、是 把所有 production query 跑一遍、對 checksum。

Failure 2：`_id` 當 partition key

MongoDB 的 _id 預設 ObjectId、跟 Cosmos DB partition key 邏輯不同；直接拿 _id 當 partition key 容易在 high-cardinality 但低均勻度的 access pattern 下 hot partition（VIP 用戶、機器人帳號）。要審 application 的真實 query pattern、選會均勻散佈的欄位、見 partition-key-design。

Failure 3：Change stream resume token 跨 API 不可用

MongoDB API 提供 change stream wire compat、但 resume token 格式跟 native MongoDB 不同、跨環境 resume 會失敗。CDC pipeline 在遷移期間需要分兩段：MongoDB 端用原生 resume token、Cosmos DB 端用 Change Feed continuation token、不能 把 token 從 MongoDB 帶到 Cosmos DB 繼續。

Failure 4：評估時只測 happy path

unsupported aggregation stage 在 dev 環境的 sample data 看不出、production 才爆。常見漏的 stage：$graphLookup / $facet / $bucket / 部分 $lookup pattern / window function。Phase 0 audit 要把 production aggregation pipeline 拉出來、對照 Cosmos DB MongoDB API feature support 清單。

Failure 5：把 dogfood 案例數字當 benchmark

9.C30 Microsoft 365 case 自承沒提具體 throughput / latency / cost 數字、不能拿 dogfood 案例的「成功」推論「我們團隊遷過去也會成功」— 規模 / workload pattern / 團隊能力都不同。寫 sizing 計畫時要回到 ru-cost-model-sizing 用自己的 query corpus 量、不是抄 dogfood case。

Failure 6：選 MongoDB API 後想升級 native MongoDB feature

MongoDB API server version 升級節奏跟 native MongoDB 不同步、新 feature 等待時間長。選 MongoDB API 等於放棄「拿到 native MongoDB 最新 feature」、若團隊 long-term commit Cosmos DB、SQL API 反而是更穩的選擇（feature 自己決定、不等翻譯層）。這條 trade-off 在 selection 階段就要決定、不能 phase 6 才發現。

容量與觀測

必看 metric：MongoDB API 特有 MongoRequests / MongoRequestCharge、diagnostic log 看 aggregation stage 是否被翻譯成 cross-partition query
容量規劃：MongoDB API 翻譯層有 overhead、相同 query SQL API 通常便宜 10-20% — 但這個差距通常不足以驅動 API 切換（切換成本太高、見 Failure 6）
RU baseline：Phase 4 shadow read 階段量每個 query pattern 的 x-ms-request-charge、進 ru-cost-model-sizing 的 capacity forecast
回 9.6 容量規劃模型：API kind 選擇進 cost forecast、不是 sizing 後才補

Cosmos DB unique selection value 整合（四層 framing 收束）

讀者讀完本篇要能回答：「我該選 Cosmos DB MongoDB API、Cosmos DB SQL API、還是留 Atlas」 — 答案的四層判讀（對應 Framing 1-4）：

遷移路徑（Framing 1）：你是要保留 + 補周邊、換託管、還是換 vendor？三型風險不同、Forbes 時程不代表 Microsoft 365 時程
dogfood signal（Framing 2）：你能用 frame 借鑑 Microsoft 365、但避免拿 dogfood 數字當 benchmark
multi-model 是否真用上（Framing 3）：你的系統未來會不會用 graph / Cassandra / Table API？只用一個 API 時 multi-model unique value 不成立
跨雲 hedging vs Azure 整合（Framing 4）：你的雲商策略是已定還是未定？已綁 Azure 時 lock-in 是整合延伸、未定時 lock-in 是 hedging 損失

四層回答完、selection 才能落地、不是「Azure 上要不要用 Cosmos DB」單一問題。

Anti-recommendation

純 MongoDB 投資、未來不會綁 Azure、應留在 Atlas — 跨雲彈性的長期價值高於每月 hosting 差價
MongoDB API 是「Azure 上的 MongoDB 替代品」、不是 MongoDB 升級版 — 想要 native MongoDB latest feature 應留在 Atlas / 自管 MongoDB
跨雲 hedging 是 selection 主 driver 時、Cosmos DB（單雲）+ DynamoDB（單雲）+ Spanner（單雲）都不該進候選名單
只用 document model、不用其他 4 個 API 時、multi-model 不該變成 selection 理由 — 此時 Atlas managed 服務的 MongoDB 原生行為通常更穩

Migration Playbook：Cloud SQL for PostgreSQL → Cloud Spanner

Wed, 27 May 2026 00:00:00 +0000

本文是 Cloud Spanner overview 的 migration playbook。走 vendor-article-spec Migration Playbook 規格 + migration-playbook-methodology Type E（paradigm shift）。每階段切換用 migration gate 把關 — Evidence 段列的證據是 gate 通過條件、不是 nice-to-have。

Driver：為什麼遷、什麼條件不該遷

啟動壓力

single-region Cloud SQL PostgreSQL primary 觸到容量上限（connection、write throughput、storage IOPS、region 故障風險）、產品要求跨 region active-active write、external consistency 是契約而非 nice-to-have。讀者要先確認自己面對的是「real 跨 region write residency」、不是「想用更強的技術」 — driver 段的核心責任是排除空泛動機。

主要 driver 候選

Global write residency：用戶分散全球、各地寫入本地 region、跨 region 一致性是產品要求
External consistency 對帳契約：跨 region 交易順序錯誤會導致對帳爆炸（金融、計費、ticketing）
單 primary 容量天花板：Cloud SQL 最大 instance 仍撐不住、應用層 sharding 是大工程
跨 region read latency：read 從各地直接打本地 replica、Cloud SQL read replica 受 single-primary 寫入 throughput 限制

No-go condition（基礎）

流量集中單 region、跨 region 只是 DR 需求 → 維持 Cloud SQL + read replica + cross-region async DR 更便宜。這條 no-go 不複雜、但團隊常被 marketing 推著跳過 — 在自家 traffic dashboard 上 audit 一遍「write 來自哪些 region、各占比多少」、若 90%+ 來自單 region、Spanner 沒有 benefit。

No-go condition（sizing barrier）

小 / 中型 PostgreSQL workload 的成本門檻 — Spanner 早期最小單位 100 processing units（≈ 1 node）對中小負載偏貴、過去是 sizing barrier；2021+ 推出 100 pu 起跳的 granular sizing 後雖然可從小開始、但 100 pu × per-pu monthly cost 加上跨 region replication 仍可能比 Cloud SQL HA 設定貴數倍。

來源 9.C10「判讀」段第 3 點：Spanner 早期 100 pu 起跳是 sizing barrier、後來推出 granular sizing 才讓中小負載可從小開始。Dogfood 邊界明示：9.C10 case 揭露的 sizing 結構是 Google 內部 dogfood 的 capacity 規劃語言、不是 customer-facing pricing 承諾；客戶實際成本要看當期 Spanner pricing + region + replication config。

觸發 sizing no-go 的條件：

信號	判讀
workload row count < 數百萬	100 pu 對這個資料量過 over-provision
QPS < 1000	100 pu 容量遠超實際 traffic、cost / QPS ratio 高
單 region 即可滿足合規	跨 region replication cost 是純浪費
Cloud SQL HA 設定已 cover SLA	升 Spanner 沒 marginal benefit

觸發任一條 → 強烈建議走 Cloud SQL HA、不升 Spanner。判讀時要把 Cloud SQL HA cost vs Spanner 100 pu cost 對比清楚、避免讀者「想用新技術」而升級。

No-go condition（應用層延遲容忍）

應用層延遲容忍 < 50ms write 的 workload 不該升 Spanner — 跨 region Spanner write 在物理光速硬限下達 100-200ms（consistency-models-comparison 的 cross-region quorum 段）。延遲敏感 workload 升級後會在 p99 直接撞牆、回退時資料已經寫進 Spanner、roll back 成本巨大。

來源 9.C10「判讀」段第 2 點 + 「策略」段第 3 點：「external consistency 必須等多區 quorum、跨洲交易延遲可達 100-200ms」。Dogfood 邊界明示：9.C10 揭露的數量級是 Google internal observation、客戶實際 latency 隨 voting region 配置變化、引用時要附條件。

觸發 latency no-go 的場景：

實時報價系統（毫秒級回應）
高頻交易（HFT）
遊戲 leaderboard 寫入
低延遲 OLTP（金融下單、支付路由）

觸發任一條 → 強烈建議走 Cloud SQL 單 region、或考慮把 跨 region 一致性需求 重新審視（是否真的需要強一致、能不能改 event-driven async reconcile）。

替代方案排除

Aurora DSQL：AWS 生態、若團隊在 GCP、跨雲不合
CockroachDB：要自管或想 PostgreSQL wire 但不選 GCP 託管時可考慮、本 playbook 不對照
Citus on Cloud SQL：multi-region write 不是強項、不解 cross-region external consistency 需求

Case anchor + dogfood 邊界

無強 customer case。9.C10 是 Google 內部 dogfood、不是公開遷移 case；本 playbook 用 Spanner overview 的 PostgreSQL dialect 路徑 + 官方 migration guide + 通用 pattern。引用時必須明示「9.C10 揭露的線性 scaling / line-rate 設計目標是 Spanner 設計依據、不等於客戶遷移後可獲得的 capacity」。

對照 case：9.C14 Standard Chartered Aurora 受監管 banking — 雖然是 Aurora、不是 Spanner、但揭露「受監管 OLTP 遷移要算合規 lead time」「資料駐留限制 = 容量規劃 per-市場」這兩條結論在 Spanner 遷移同樣適用。讀者若是受監管產業、跨 region instance config 還要疊上 voting region 是否落在合規市場的 audit。

Diff Audit（6 規格面 + sizing / cost 第 7 面）

Schema diff

PostgreSQL DDL → Spanner PostgreSQL dialect 對照：

PostgreSQL 特性	Spanner 對應	動作
`SERIAL`	bit-reversed sequence	改 primary key 策略、避免 hot split
`JSONB`	`JSON` type	大部分相容、複雜 path query 重寫
`ARRAY`	`ARRAY`	OK
`PARTITION BY`	不直接支援	改成 interleaved table 或單表
`FOREIGN KEY`	保留 FK constraint + 考慮 Interleaved Table	parent-child access pattern 改 interleaved
`B-tree INDEX`	OK	直接遷
`GIN / GiST INDEX`	不支援	用 `STORING` column 取代部分需求、其餘改應用層
`CHECK constraint`	部分支援（time-sensitive、查最新文件）	audit 每條 constraint
`UDF / stored procedure`	少數支援	改應用層或 client-side compute
`TRIGGER`	不支援	改 application 層或 Spanner change streams

interleaved table 設計參考 schema-migration-interleaved-tables。讀者要在 schema audit 階段就決定哪些 parent-child 該 interleave、避免後悔成本。

Operational diff

維度	Cloud SQL	Spanner
基礎架構	VM-based	API-based
認證	postgres user / role	IAM role / service account
備份	pg_dump / pgBackRest	point-in-time backup（PITR）
監控	postgres-flavor（pg_stat_*）	Cloud Monitoring `spanner.*`
Connection pool	PgBouncer	SDK 內 gRPC pool
Vacuum	必要	不存在（MVCC 機制不同）
Replication lag	需監控	不存在 single-primary 概念

不再需要的 Cloud SQL 責任：vacuum、autovacuum tuning、connection pool（PgBouncer）、replication lag 監控、Patroni HA。

新增 Spanner 責任：processing unit capacity 預測、TrueTime ε 觀測（truetime-api-depth）、long-running schema operation 跟蹤、IAM 細粒度權限。

Paradigm diff

從 single-primary OLTP → 跨 region distributed SQL：

transaction commit latency：< 5ms → 50-200ms（跨洲、含 Commit Wait + cross-region quorum）
external consistency 是 default（不再是 isolation level 選擇題）
transaction 上限：Cloud SQL 無硬限 → Spanner 10s timeout、要重構成短交易
read consistency：default eventual → default strong、需顯式選 bounded staleness

詳細 consistency model 差異看 consistency-models-comparison。

Component diff

退役：

PgBouncer / pgcat（connection pool）
Cloud SQL HA / Patroni cluster
pgBackRest（備份外掛）
Citus extension（若有用）
各種 postgres extension（時間敏感、逐個 audit 是否 Spanner 支援等效）

新增：

Spanner client library（Go / Java / Node / Python）
Dataflow（用於 bulk export-import）
Datastream / Database Migration Service（用於 CDC catch-up）
Spanner Studio（query UI）

Application diff

維度	Cloud SQL（PostgreSQL client）	Spanner
ORM	全 PG ORM 相容	PostgreSQL dialect 相容部分 ORM、查最新 dialect 支援列表
Connection model	process-per-connection（postgres）	stateless gRPC client（SDK 內 pool）
Transaction model	可長交易	10s timeout、需短交易
Timestamp 使用	app 內 `now()` / `CURRENT_TIMESTAMP`	改用 `PENDING_COMMIT_TIMESTAMP` sentinel
Cursor / prepared statement	全支援	部分支援、查 SDK 文件
Stored procedure	全支援	少數支援、業務邏輯改應用層

ORM 兼容性是 time-sensitive claim — JPA / Hibernate / SQLAlchemy 在 Spanner PostgreSQL dialect 上的行為隨 dialect 版本演進、實作前查最新 vendor docs。讀者要把 ORM 兼容測試放 Phase 0、不能假設「PostgreSQL ORM 直接搬到 Spanner」。

Data topology diff

Single primary（write）+ read replica → multi-region voting + read-only replica
Primary key 設計：避免單調遞增（SERIAL）造成 hot split、改 UUID 或 bit-reversed
Partition：PostgreSQL declarative partition → Spanner 不需要顯式 partition（自動 split）

Sizing / cost diff（第 7 規格面）

維度	Cloud SQL	Spanner
計費單位	instance class（vCPU / RAM）+ storage IOPS + HA add-on	100 processing units 起跳 ≈ 1 node
起跳成本	小型 instance 月成本可控（小型 HA $50-200/月）	100 pu × per-pu monthly rate、月成本是 Cloud SQL 小型 HA 的數倍
Storage	獨立計費（GB / month）	含在 node count 內、無單獨 storage charge
Throughput cap	隨 instance class	隨 pu 線性擴展
跨 region replication	額外 read replica cost	含在 multi-region instance config 內
Egress	跨 region 額外	跨 region 額外

觸發 sizing audit 的時機：workload 行數、QPS、跨 region 需求都明確後、把「Cloud SQL HA monthly bill」對「Spanner 100 pu × monthly rate + egress」做 cost crossover 分析、無法 cost crossover 證明 → 不升。

Cost crossover 不是「Spanner 成本必須低於 Cloud SQL」、是「Spanner 多付的成本要對應到具體 benefit」：

若 benefit 是 multi-region write residency、Spanner 多付的 cost 換得跨 region 一致性 — 對齊
若 benefit 只是「更新的技術」、Spanner 多付的 cost 沒對應產品價值 — 不升

Type 判定

Type E（paradigm shift）、不是 drop-in。schema / app / operation / data topology / cost 五軸都動、不能用 Type B（drop-in）思路規劃 phase。詳細 type 判定方法看 migration-playbook-methodology。

Phase Plan：9 段、每段有驗證門檻

Phase 0 — Compatibility audit + sizing audit

跑 schema-converter（pgloader / Spanner migration tool）、列出 incompatible feature、決定哪些改 schema、哪些改 app。hot key 風險評估（SERIAL primary key、單調遞增 timestamp）。

同時跑 sizing audit：

估 target Spanner pu 數（基於 QPS、storage size、cross-region replication factor）
做 Cloud SQL HA cost vs Spanner cost crossover 分析
若 cost crossover 證明不出來 → halt migration、回到 driver 段重審

Phase 0 是 migration 的決策閘門 — 不過閘門就停、不浪費 Phase 1+ 的 engineering effort。

Phase 1 — Target schema design

interleaved table 設計（base on Phase 0 access pattern audit）
Index 重寫（GIN / GiST 用 STORING column 替代、其他用 B-tree）
Primary key 反序（避免 hot split）
Storing column 選擇（trade-off：query latency vs index size）

Output 是 target DDL、跟原 PostgreSQL schema 並排 diff 文件、給 application 團隊審。

Phase 2 — Application dual-target preparation

抽象 DB layer（repository pattern、避免直接呼 SQL）
SDK 並存（go-pg + Spanner client）
Feature flag 控制讀寫路徑（read-from-pg / read-from-spanner / dual-write）
Transaction 模式 audit（長交易拆短）

Phase 3 — Bulk initial load

Cloud SQL → Cloud Storage（CSV / Avro）→ Dataflow → Spanner。Row count + checksum 驗證、column-level diff sample。

Phase 4 — CDC catch-up

Datastream from Cloud SQL → Dataflow → Spanner。Replication lag < 1s 為前進門檻、sustained 24h。

Phase 5 — Shadow read

Production read 同時打 Cloud SQL 跟 Spanner、diff log 異常。至少 7 天觀察、divergence rate < 0.1%、p99 latency Spanner < 1.5x Cloud SQL。

Phase 6 — Dual write

Cloud SQL 為 source-of-truth、Spanner 為 mirror。偵測 dual write divergence、評估是否提早升 source-of-truth。

Phase 7 — Cutover

read-only window（< 5 min）→ 最後 catch-up → switch source-of-truth → cutover application write。

Phase 8 — Cleanup

退役 Cloud SQL primary、保留 backup、清 PgBouncer / Patroni / 監控 dashboard。

Stage 0 variant 規劃

若 read-only window 不可接受（24/7 不能停機的金融 / 醫療系統）、Phase 6 dual write 期間做 conflict resolution（last-writer-wins + manual reconcile）、進入 fail-forward 模式、不走 read-only cutover。

Evidence：每階段驗證材料

Phase	Evidence
Phase 0	incompatible feature 清單、預估改動 SP、hot key 風險 row count、sizing audit 報告（target pu 數估算 + Cloud SQL HA vs Spanner cost crossover 月 / 年成本對比）
Phase 1	DDL diff report、預估 backfill 時間（基於 row count + Spanner 文件）
Phase 3	row count 對齊、column-level checksum、payload sample diff
Phase 4	CDC lag < 1s sustained 24h、error rate < 0.01%
Phase 5	shadow read divergence rate < 0.1%、p99 latency Spanner < 1.5x Cloud SQL
Phase 6	dual write divergence < 0.01%、reconcile queue 不積壓
Phase 7	cutover window 內 write 一致性、回到 Phase 6 的條件（rollback path）

Cost crossover 報告（Phase 0 必交付）：

 1Item                          | Cloud SQL HA | Spanner 100 pu | Delta
 2------------------------------|--------------|----------------|------
 3Compute monthly               | $X           | $Y             | $Y-X
 4Storage monthly               | $A           | (included)     | -$A
 5Cross-region replication      | $B           | (included)     | -$B
 6Egress (est)                  | $C           | $C             | $0
 7Total monthly                 | $X+A+B+C     | $Y+C           | $Y-X-A-B
 8Annual                        | 12*above     | 12*above       | -
 9Benefit (qualitative)         | -            | multi-region write residency / external consistency | -
10Crossover verdict             | -            | proceed / halt | -

Verdict = proceed 才進 Phase 1；halt → 回到 Driver 段重審 driver 是否成立。

所有 evidence 進 incident decision log、回 4.20 Observability Evidence Package。

Cutover：決策與 rollback

Cutover window

選用戶最低流量時段、< 5 min read-only freeze、預先通知。受監管產業（對照 9.C14 Standard Chartered）要算合規 lead time、每市場各自審。

Decision owner

DB lead + product lead + on-call SRE 共同 sign-off。受監管產業多加合規 owner。

Rollback condition

cutover 後 30 min 內 p99 write latency 持續 > SLA 2x → rollback
error rate > 1% sustained 5 min → rollback
對帳系統發現 divergence > 0.1% → rollback

Rollback 機制

保留 Cloud SQL 為 read-only mirror 14 天、Spanner 改 read-only、reverse CDC（Spanner → Cloud SQL）需事先準備。Reverse CDC 在 Phase 4-6 期間就要 dry-run 過、不能 cutover 才第一次試。

連結 rollback-window、rollback-condition。

Cleanup：退役清單跟保留責任

退役清單

Cloud SQL primary instance
PgBouncer 配置
Patroni cluster
pgBackRest backup job（保留歸檔 90 天、依產業合規）
Datastream pipeline
Dataflow job

監控清理

postgres-specific dashboard（exporter / wal lag / autovacuum）改成 Spanner dashboard（commit_latencies / clock_skew_ms / cpu_utilization_by_priority）。

文件 / runbook 更新

postgres operation runbook 標記 deprecated、Spanner runbook 上線。新 runbook 含：

DDL long-running operation 監控
TrueTime ε 異常處理
Cross-region instance failover drill
Cost monitoring alert

稽核 / 合規

保留 final pg_dump 7 年（依產業）、incident write-back 完成、合規市場各自留檔（對照 Standard Chartered case 的 per-市場合規 lead time）。

邊界與整合：sibling、對照、anti-recommendation

Sibling deep articles

truetime-api-depth：app 對 timestamp 假設審計（Phase 2 必讀）
schema-migration-interleaved-tables：Phase 1 target schema 設計
consistency-models-comparison：Phase 0 應用層一致性要求釐清、Driver 段 latency no-go 的物理硬限

跟其他 migration 對照

PostgreSQL → Aurora DSQL Migration：兩者都是 PostgreSQL → distributed SQL paradigm shift、選 GCP / AWS 看生態
1.12 大規模 DB 遷移實戰：通用大規模遷移方法論

跟 case 對照

9.C10 Cloud Spanner planetary scale：dogfood case、揭露 Spanner 設計目標、不是 customer-facing capacity reference
9.C14 Standard Chartered Aurora banking：受監管產業遷移要算合規 lead time、per-市場容量規劃

Anti-recommendation

讀者讀完本文應該能判斷：

若 driver 只是「想用新技術」→ 回 Cloud SQL
若 workload 小（QPS < 1000、行數 < 數百萬）→ Cloud SQL HA 更划算
若應用層延遲容忍 < 50ms write → Cloud SQL 單 region
若 cost crossover 證明不出來 → halt migration、不升

Driver 是真正跨 region write residency / external consistency 對帳契約 / 單 primary 容量天花板 → 才升。Migration playbook 的目標不是把所有 Cloud SQL workload 升到 Spanner、是把「適合升」的部分用低風險路徑遷過去。

從 RDS / MongoDB 遷移到 DynamoDB：access-pattern-first 重建模、混合架構與 cost crossover

Tue, 02 Jun 2026 00:00:00 +0000

本文是 DynamoDB overview 的 migration playbook。寫作參照 Migration Playbook 寫作方法論。

「我們要把 RDS 整個搬到 DynamoDB。」這句話本身就藏著最大的誤解 — DynamoDB 遷移不是把 table schema 1:1 搬過去。RDS 的 normalized schema、JOIN、ad-hoc query 在 DynamoDB 沒有對應物；MongoDB 的彈性 document、二級索引、aggregation pipeline 也不能直接映射。字面意義的「遷移」不成立 — 遷移的動作是 從 access pattern 重新設計資料模型、搬資料只是最後一步。能不能遷、該遷多少，取決於 workload 的查詢形狀是否固定、一致性需求是否能放寬。本文走 paradigm shift 結構：先講為何字面遷移不成立、再講哪些該遷哪些該留、最後才是階段化執行。

6 維 diff audit：主導維度是 paradigm

遷移前先盤點 source 跟 target 的差異落在哪幾維、決定 playbook 結構：

維度	RDS / MongoDB → DynamoDB	程度
Schema / API	SQL / document query → KV `GetItem` / `Query`、無 JOIN	High
Operational model	self-managed / RDS-managed → fully managed serverless	Medium
Paradigm	relational / document model → access-pattern-first KV	High
Components 數量	單 DB → 單 DB（不拆分）	Low
Application change	ORM / query layer 全改、access pattern 先行	High
Data topology	partition key 設計、無跨 region transaction	Medium

主導維度是 paradigm（其次 schema / application change）。這定義了結構 — Type E paradigm shift（排除 schema 翻譯 Type A 和 drop-in Type B）：部分遷移、長期混合架構、不收斂到「全部搬完」。

No-go condition：workload 需要 ad-hoc 分析查詢、跨實體 JOIN、頻繁 schema 變動下的彈性查詢、或複雜多表交易 → 不該遷 DynamoDB。這些是 relational / document 的主場、硬遷會把複雜度推給 application 層（自己做 JOIN、自己維護冗餘）。

為什麼字面遷移不成立：paradigm gap

RDS / MongoDB 是 先有資料模型、再支援任意查詢；DynamoDB 是 先有查詢、才設計資料模型。這個順序顛倒是遷移的核心難點。

relational → DynamoDB 的斷層：

JOIN 消失：relational 用 JOIN 組合多表、DynamoDB 要嘛預先反正規化（把關聯資料寫在同一 item / 同一 partition）、要嘛 application 多次查詢自己組
ad-hoc query 消失：RDS 可以對任意欄位下 WHERE、DynamoDB 只能用 PK/SK 或預建 GSI 查（對應 gsi-lsi-design）
強一致交易縮窄：relational 任意多表交易 → DynamoDB 有限的 TransactWriteItems（對應 transactions-conditional-writes）

document（MongoDB）→ DynamoDB 的斷層：

看似接近（都是 NoSQL / document-ish）、實際 MongoDB 的二級索引彈性、aggregation pipeline、彈性 query 在 DynamoDB 都沒有對應
MongoDB 可以「先存進去、之後再想怎麼查」；DynamoDB 不行、access pattern 沒想清楚就建表、後面要重做

所以遷移的第一步不是匯資料、是 窮舉 access pattern：列出 application 對這份資料的所有讀寫路徑、每條路徑對應 DynamoDB 的 PK/SK/GSI 設計。access pattern 列不完整、就還不能開始遷。

哪些 workload 該遷、哪些該留（混合架構）

Type E 的本質是 不收斂 — 不是所有資料都該進 DynamoDB、混合架構會長期存在。判讀標準：

Workload 特徵	去向
access pattern 固定、key-based 查詢、高吞吐	遷 DynamoDB
可接受 eventually consistent	遷 DynamoDB
需要 ad-hoc 分析 / 報表 / JOIN	留 RDS / 或進 analytics 系統
需要強一致複雜交易	留 RDS
schema 頻繁演進、查詢需求不穩	留 MongoDB / RDS

9.C20 Zomato 是這個判讀的 case anchor：Zomato 遷的是 billing platform（帳單事件、access pattern 固定、可接受 eventually consistent）、不是把整家公司的資料庫都搬。帳單系統從 TiDB 遷到 DynamoDB 後吞吐 2,000 → 8,000 RPM（4x）、延遲降 90%、成本降 50%；動機是 TiDB 必須為突發流量峰值預先 over-provision、DynamoDB on-demand「pay only for what we use」避免常態浪費。

Scope warning：Zomato 的「成本降 50%」是 當下流量 下的對照、不是永久結論；「延遲降 90%」可能主要是 p50、p99/p999 改善幅度通常較小。這兩點 case 原文已標明、引用時不可升級成「DynamoDB 永遠更便宜更快」。crossover 判讀見下方容量段。

Phase plan：access-pattern-first 階段化

paradigm shift 的階段化把不可逆動作放到最後、每階段有獨立驗證門檻：

Phase 1：access pattern 窮舉

列出 application 對目標資料的所有讀寫路徑、標每條的頻率、一致性需求、是否可放寬。這份清單是後續所有設計的輸入、不完整不進下一階段。

Phase 2：DynamoDB 資料建模

依 access pattern 設計 PK/SK、single-table 結構、需要的 GSI、capacity mode。對應 single-table-design-pattern、partition-key-antipatterns。

Phase 3：dual-write

application 同時寫舊（RDS / MongoDB）跟新（DynamoDB）。舊系統仍是 source of truth、DynamoDB 累積資料。dual-write 要處理寫入失敗一致性（其中一邊失敗如何補償）。

Phase 4：backfill 歷史資料

把舊系統既有資料按新模型轉換寫入 DynamoDB。backfill 跟 dual-write 並行時要處理覆蓋順序（backfill 不能覆蓋掉 dual-write 的新值）。

Phase 5：shadow read 驗證

讀路徑同時打舊跟新、比對結果、記錄差異但仍以舊系統回應用戶。shadow read 是 cutover 前的信心來源 — 差異率降到可接受才進 cutover。對應 1.7 Schema Migration Rollout 證據的 evidence 方法。

Phase 6：漸進 cutover

讀流量逐步從舊切到新（按比例 / 按 user segment）、保留隨時切回的能力。cutover 完成後 DynamoDB 成為該 workload 的 source of truth；但其他未遷 workload 仍在 RDS / MongoDB — 混合架構成立。

Evidence：每階段的前進依據

每個階段用資料證明可前進、不靠感覺：

階段	Evidence
dual-write	雙寫成功率、寫入失敗補償紀錄、兩邊 row count 差異
backfill	已 backfill 比例、轉換錯誤數、checksum 對照
shadow read	新舊結果差異率、差異分類（可接受的 eventual vs 真錯誤）
cutover	切流比例、新系統 latency p99、error rate、rollback 是否觸發

這些 evidence 對齊 4.20 Observability Evidence Package（Source / Time range / Query link / Owner / Data quality）與 6.8 release gate 的 gate 決策。

Cutover 與 rollback 決策

資料庫切流失敗代價高、決策權責要寫清楚：

cutover window：選低流量時段、明確切流比例階梯（如 1% → 10% → 50% → 100%）
rollback condition：新系統 error rate / latency 超過閾值、或 shadow read 差異率異常 → 切回舊系統
decision owner：誰有權喊停、依據什麼 evidence、記錄在 8.19 incident decision log（Timestamp / Decision / Context / Evidence / Owner / Rollback condition）
資料凍結策略：cutover 期間若需要凍結寫入、明確凍結範圍與時長

對應 rollback window、rollback condition。

Cleanup 與長期混合

Type E 的 cleanup 不一定是「退役舊系統」— 多數情況舊系統仍服務未遷 workload：

已遷 workload 的舊 schema / 舊 writer / dual-write code path 退役
shadow read 比對 code 移除
但 RDS / MongoDB 本身保留（服務 analytics / 強一致 / 彈性查詢 workload）
明確標示哪條資料路徑的 source of truth 是 DynamoDB、哪條仍是 RDS / MongoDB、避免「到底哪個是真的」混亂

混合架構不是過渡失敗、是 paradigm shift 的穩態 — 每個 workload 待在最適合它的儲存層。

失敗模式

production 常見的 5 個踩雷：

Case 1：先匯資料才想 access pattern

把 RDS table 結構直接搬成 DynamoDB item、上線後發現查不出要的資料、要重建表。修法：access pattern 窮舉是 Phase 1、資料建模是 Phase 2；順序不能顛倒。

Case 2：把 JOIN 邏輯推給 application 卻沒評估成本

遷了關聯資料、application 每次查詢做 N 次 DynamoDB 呼叫自己組 JOIN、latency 跟成本爆炸。修法：關聯資料在建模階段反正規化（同 partition / 同 item）；無法反正規化的關聯查詢、該 workload 可能不適合遷。

Case 3：dual-write 一邊失敗沒補償

dual-write 時 DynamoDB 寫成功 RDS 失敗（或反之）、兩邊資料分歧、cutover 後發現新系統資料不完整。修法：dual-write 要有失敗補償（記錄失敗、重試、或標記該筆需人工對帳）；對應 1.9 Reconciliation 與 Data Repair。

Case 4：跳過 shadow read 直接 cutover

對自己的建模有信心、省掉 shadow read、cutover 後才發現 access pattern 漏了某個查詢路徑、生產出錯。修法：shadow read 是 cutover 前唯一能在真實流量下驗證新模型的階段、不能省。

Case 5：只看當下成本忽略 crossover

遷移時算出成本降 50% 就下決策、未來流量成長後 DynamoDB cost-per-request 累積超過自管 cluster、反而更貴。修法：算 12-24 個月在預期流量下的成本曲線、不是當下 snapshot（見容量段）。

Anti-recommendation：workload 查詢需求還在快速變化、或團隊對 access-pattern-first 建模沒經驗 → 先不要遷；用一個低風險、access pattern 已穩定的 workload 試點（如 Zomato 的 billing platform）、累積經驗再擴大。

容量與成本：crossover 判讀

DynamoDB 成本判讀的關鍵是 未來流量曲線、不是遷移當下的 snapshot：

遷移當下：相對 over-provisioned 的自管 cluster、DynamoDB on-demand 常更便宜（Zomato -50%）
流量成長後：DynamoDB cost-per-request 隨用量線性成長、自管 cluster 在高且可預測流量下有 crossover 點、可能反超便宜
判讀分層：小/中流量或流量不可預測 → DynamoDB 划算；大且可預測流量 + 已有 DBA 團隊 → 算自管 crossover

這條 vendor-level 成本軸主寫於 on-demand-vs-provisioned 軸 6；本篇從遷移決策角度引用、不重複展開 6 軸。

Scope warning：crossover 點隨 region pricing、workload shape、團隊成本結構變動、無通用閾值；Zomato 的具體百分比是單一 case 當下對照、不可外推。

接回 9.7 成本邊界與 efficiency、1.10 KV / Document DB 容量規劃。

邊界與整合

跟其他遷移路徑的關係

DynamoDB → SQL / search / analytics split（遷出方向）：當 DynamoDB workload 長出 ad-hoc 查詢需求、把分析部分拆到 OpenSearch / 數倉、是反向路徑、屬另一篇 playbook scope
MongoDB → Atlas：若只是要 managed MongoDB 而非換 paradigm、走 MongoDB → Atlas、不必遷 DynamoDB（保留 document paradigm）
跨平台等效：RDS → Aurora（保留 relational）、MongoDB → Cosmos DB（保留 document）、都比遷 DynamoDB 的 paradigm 跨度小；先確認真的需要換 paradigm

Sibling 與 cross-link

single-table-design-pattern — 遷移 Phase 2 資料建模的核心
partition-key-antipatterns — 建模時 PK 均勻度判讀
transactions-conditional-writes — 遷移後寫一致性如何在 DynamoDB 重建
on-demand-vs-provisioned — cost crossover 軸 6 SSoT
1.6 資料庫轉換實作 — 通用 dual-write / shadow read / cutover 框架
跟 Zomato 9.C20 互引：billing platform 遷移的可量化對照與 cost crossover 警示

PostgreSQL → Aurora Migration：protocol 相容、operational 重設計

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 PostgreSQL（self-managed source）跟 Aurora（cloud-managed target）。跟前兩篇 migration（Splunk → Elastic 高 schema 差 / Redis → DragonflyDB drop-in）對照、本篇是 middle ground：wire protocol drop-in、但 operational model 重設計。每階段切換用 migration gate 把關。

為什麼遷：operational cost / HA / DR 三條 driver

Driver	觸發場景
Operational cost	self-managed PostgreSQL + Patroni HA + pgBackRest backup + monitoring 需 0.5-2 FTE；Aurora 把這層責任轉嫁 AWS、SRE 專注 application
HA reliability	Patroni split-brain / DCS quorum 偶爾踩雷、production failover 4-15s；Aurora 自動 multi-AZ failover < 30s、shared storage 不丟資料
DR / backup	自管 PITR + cross-region replication 複雜；Aurora 內建 PITR + global database + backup retention 簡化

反向 driver（Aurora → self-managed）也存在 — 主要是 cost 在 10TB+ 規模時 Aurora 反而更貴、或 需要 PostgreSQL extension Aurora 不支援（pg_partman / pg_repack / TimescaleDB 等）。

結構：protocol 相容 + operational phased 的混合

跟前兩篇對照、Aurora migration 結構是 protocol drop-in（application 不改 SQL）+ operational redesign（HA / backup / monitoring 全換）：

維度	Splunk → Elastic（高 schema 差）	Redis → DragonflyDB（drop-in）	PostgreSQL → Aurora（middle）
Wire protocol	完全不同（SPL vs KQL）	完全相同（RESP）	完全相同（PostgreSQL wire）
Schema / data model	高差異（CIM vs ECS）	完全相同	完全相同
Application code	必改	不改	不改
Operational model	不同	相似	大差
HA / replication	不同	相似	完全重設計
Backup model	不同	簡化	完全換 AWS-native
Migration 週期	4-9 個月	1-4 週	6-12 週
Phased 結構需要	6-phase 明顯	不需要	混合（3 operational phase + drop-in cutover）

Hypothesis 驗證：migration playbook 結構由 最大差異維度 決定 — Splunk → Elastic 是 schema 差導向 phased、Aurora migration 是 operational 差導向局部 phased。

Operational redesign 對位

跟 self-managed PostgreSQL 比、Aurora 的 operational 模型差異：

Operational concept	Self-managed PostgreSQL	Aurora
Storage	Local disk / EBS、跟 compute 一體	Shared storage 跨 AZ 6 副本、跟 compute 解耦
HA	Patroni + DCS quorum + watchdog	Aurora 自家 failover、shared storage 不重 promote
Read replica	Streaming replication + Patroni 管理	Aurora reader endpoint、cluster 自動 routing
Backup	pgBackRest / WAL-G + S3	自動 continuous backup + PITR（內建）
Failover time	15-60s（Patroni）	< 30s（同 AZ）/ 1-2 min（跨 AZ）
Connection management	PgBouncer 必裝	RDS Proxy 推薦、Aurora 自家 connection pool
Major version upgrade	手動 + 停機	Aurora 自家 blue/green deployment
Monitoring	Prometheus + grafana-postgresql	CloudWatch + Performance Insights
Extension support	自由安裝	白名單、限 AWS 認可 extension
Custom config	postgresql.conf 全控	Parameter Group（限制）
OS / kernel access	完全控	無（fully managed）

每一條 operational concept 都需要 migration plan、application code 不變但 運維知識體系全換。

Migration 流程：3 phase operational + drop-in cutover

Phase 0：Pre-migration audit（1-2 週）

Extension 清單對位：

1SELECT extname, extversion FROM pg_extension;
2-- 對照 Aurora supported extensions list
3-- 不支援的（pg_repack / pg_partman 部分 / TimescaleDB / Citus）需替代方案

Custom config 清單：

1SELECT name, setting FROM pg_settings WHERE source != 'default';
2-- 對照 Aurora Parameter Group 可調項目

Capacity 評估：

當前 IOPS / connection / storage / WAL rate
對應 Aurora instance class（db.r6g.large to db.r6g.32xlarge）
估算 cost（vCPU + IOPS + storage + backup retention）

Application connection pool audit：

PgBouncer 配置是否能直接搬到 RDS Proxy
Connection string + IAM 認證準備

Phase 1：Operational infrastructure 準備（2-3 週）

建 Aurora cluster（Terraform / CloudFormation）
設 Parameter Group、對位 self-managed 配置
設 Security Group + IAM role
設 RDS Proxy（推薦、connection 集中管理）
CloudWatch alert + Performance Insights baseline
Backup retention + PITR window 設定

Phase 2：Data migration（取決於 dataset 大小）

兩條路：

路線 A：AWS DMS（推薦中等規模 < 5TB）

1self-managed Postgres ──(DMS)──→ Aurora
2                         |
3                  full load + CDC continuous

DMS task 設 Full Load + Ongoing Replication
跑 full load 估算（100GB ~ 1-3 小時依 instance class）
CDC 持續直到 cutover

路線 B：Logical replication（推薦 5TB+ 或要精準控制）

1-- Source：建 publication
2CREATE PUBLICATION migrate_pub FOR ALL TABLES;
3
4-- Aurora：建 subscription
5CREATE SUBSCRIPTION migrate_sub
6  CONNECTION 'host= dbname= user='
7  PUBLICATION migrate_pub;

Initial COPY 跑完後 streaming
詳見 Logical Replication + Debezium

Phase 3：Cutover 跟 verification

11. Application 端設 maintenance mode（block writes）
22. 等 replication lag → 0
33. 確認 Aurora 端 row count + checksum 對齊
44. Application connection string 切到 Aurora endpoint
55. 解除 maintenance mode
66. Self-managed 端 read-only 保留 1-2 週 standby

Cutover window 視 dataset 大小：

< 100GB：1-2 小時
100GB - 1TB：2-4 小時
1TB+：考慮 zero-downtime cutover via blue-green deployment

Production 故障演練

Case 1：Extension 不支援、application 直接壞

徵兆：cutover 後 application 某些 query 報 extension "pg_repack" not available、batch job 壞。

根因：Phase 0 audit 漏掉 application 用 pg_repack 做 maintenance；Aurora 不支援、self-managed 端的 cron job 改不過去。

修法：

Pre-migration audit 必做：SELECT extname FROM pg_extension 對照 Aurora extension whitelist
替代方案：
- pg_repack → Aurora 自家 vacuum + storage auto-resize
- TimescaleDB → 改 declarative partitioning 或換 Timestream
- Citus → 評估保留 self-managed 或重設計 schema
退役策略：Extension 是 application 必要的、評估暫不遷或選 alternative cloud（如 AlloyDB / Citus on Azure）

Case 2：Replication slot 不直通

徵兆：self-managed 端有 Debezium CDC 接 application 事件、cutover 後 CDC pipeline 直接壞、Kafka 端訊息斷流。

根因：Aurora 對 logical replication slot 有限制 — 不直接支援 external consumer（如 Debezium）讀 slot；要走 RDS Database Events 或 DMS CDC。

修法：

Pre-migration audit：列所有 logical consumer（Debezium / Kafka Connect / 自家 CDC）
替代方案：
- DMS CDC 取代 Debezium（Aurora 原生支援）
- 評估 RDS Database Activity Streams（newer feature）
- 重設計 CDC：application 寫 outbox 表、Aurora trigger 發 SNS → Lambda → Kafka
接受代價：CDC pipeline 重建是 2-4 週工作、納入 migration scope

Case 3：Autovacuum 行為跟 self-managed 不同

徵兆：cutover 後幾天、特定 hot table 的 bloat 數據異常、application 端 query latency p99 漲；CloudWatch Performance Insights 顯示 autovacuum 跑頻率比 self-managed 端高 3 倍。

根因：Aurora 預設 Parameter Group 的 autovacuum 配置跟 self-managed 不同 — autovacuum_vacuum_cost_limit 預設更低、vacuum_scale_factor 更激進；shared storage 上 vacuum 行為不一樣。

修法：

Parameter Group 對位：把 self-managed autovacuum tuning 配置複製到 Aurora Parameter Group
per-table tuning：hot table 的 ALTER TABLE SET (autovacuum_*) 可遷過去
接受差異：Aurora storage 設計讓 vacuum 不一定要跟 self-managed 同 cadence、SRE 心智模型要調

Case 4：IAM 認證強制、application 端改 connection logic

徵兆：production 切到 Aurora 後、application 仍用 password authentication、SOC team 要求改 IAM 認證（compliance）；application 連線 logic 大改、token rotation 邏輯也要加。

根因：self-managed 端用固定 username/password、Aurora 推薦（部分情境強制）IAM authentication；token 15 分鐘輪換、application 必須改連線 SDK。

修法：

Migration scope 內包含：authentication migration 是必要工作、不能事後補
SDK 整合：用 AWS SDK + RDS Proxy 抽象 token rotation、application 不直接管 token
Hybrid 期間：保留 password auth 直到 application 全切 IAM、再 disable password auth

Case 5：Cost model 預估錯、月底帳單炸

徵兆：第一個月 Aurora 帳單比預估高 50-80%；IOPS / backup storage / I/O cost 都比預期多。

根因：Aurora pricing 三層（compute instance / storage / I/O）—

Storage：actual data + backup × retention
I/O：每個 read / write block 都計費（self-managed 不算）
Backup：超過 backup retention 部分 charged as snapshot storage

self-managed 端習慣 fixed EC2 + EBS cost、Aurora I/O-based 計費對 high-IOPS workload 衝擊大。

修法：

Pre-migration cost estimate：用 self-managed pg_stat_database 估 I/O 量、套 Aurora pricing calc
I/O optimization：開 Aurora I/O-Optimized storage class（fixed monthly + 不算 I/O）、適合 high-IOPS workload
Backup retention 控制：不要 default 35 天、依 compliance 調整（7-14 天通常夠）
Reserved Instance：穩定 workload 預付 1-3 年、省 30-40%

Capacity / cost 對照

維度	Self-managed PostgreSQL（EC2 + EBS）	Aurora
Instance cost	EC2 + EBS（compute + storage 自管）	Aurora instance class + storage + I/O
HA cost	Patroni 跨 3 AZ + EBS 3 副本	Aurora 跨 3 AZ shared storage（內建）
Backup cost	pgBackRest + S3 archive	Aurora 自動 continuous backup（內建）
Operational FTE	0.5-2 FTE（HA / backup / patching）	0.1-0.3 FTE（application 端 + Parameter Group）
1TB / month cost	$400-800（含 HA）	$700-1500（含 HA）
10TB / month cost	$2K-4K	$4K-8K（I/O cost 顯著）
50TB+ cost	$10K-20K	$30K+（cost 反轉、self-managed 更便宜）

判讀：< 10TB workload Aurora 平攤 operational cost 後仍便宜；50TB+ workload Aurora cost 顯著高、要 reserved + I/O-Optimized 才有競爭力。

整合 / 下一步

跟 Patroni HA 對位

Patroni 在 Aurora migration 後退役 — Aurora 自家 failover 取代；但 SRE 心智模型要調：

Patroni 的 pg_rewind 概念不存在（shared storage）
Patroni 的 synchronous_commit 行為 Aurora 隱藏在 storage layer
Aurora 跨 region 用 Global Database、不是 Patroni cross-region setup

跟 PITR 對位

self-managed PITR rebuild 工作量大、Aurora PITR 是 native API call：

1aws rds restore-db-cluster-to-point-in-time \
2  --source-db-cluster-identifier myapp-prod \
3  --db-cluster-identifier myapp-prod-restored \
4  --restore-to-time 2026-05-19T14:30:00Z

完全不需要 base backup + WAL replay 思維、storage layer 自動處理。

跟 PgBouncer → RDS Proxy

PgBouncer 多數情境可換 RDS Proxy：

transaction pooling 等效
IAM authentication 整合
Connection pinning（Lambda / serverless workload）
限制：RDS Proxy 對某些 PG 14+ feature 仍 catching up、prepared statements 行為差異

下一步議題

Aurora Serverless v2 評估：variable workload 適合、steady workload 反而貴
Babelfish 評估：跑 SQL Server protocol on Aurora（多 source 遷移到 Aurora）
Cross-region DR：Aurora Global Database vs self-managed cross-region streaming + Patroni

PostgreSQL → Aurora DSQL Migration：PG wire-compatible Distributed SQL 的 Paradigm Shift

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 PostgreSQL（source）跟 Aurora（DSQL 也屬 Aurora family、但 paradigm 不同）。跟 migrate-to-aurora（PG → Aurora PG、protocol drop-in + operational redesign）跟 migrate-to-cockroachdb（PG → CRDB、Type E paradigm shift）對照、本篇是 Aurora 內 PG → DSQL 的 paradigm shift。每階段切換用 migration gate 把關。

時間錨點：Aurora DSQL 在 2024-12 re:Invent preview、2025-05-27 GA。本文 vendor claim 以 2025-2026 公開狀態為準、實際 migration 前請以 AWS docs 為準（feature 持續演進中）。

為什麼遷：Global Write / Operational Zero-touch / Region Resiliency 三條 driver

PG → DSQL 不是「自然演進」、是 application 需求超出 single-primary 模型 時的 paradigm 換軌。三條典型 driver 各自對應一種 application 約束、不是「三選一」、而是「至少其中一條剛性、其他兩條是 bonus」：

Driver	觸發場景
Global write	Application 需要多 region active-active write（不是 Aurora PG 的 single-writer + read replica）
Operational zero-touch	不想管 Patroni / PgBouncer / autovacuum / failover / backup retention、Aurora PG 已減一半、DSQL 進一步零接觸
Region resiliency	整 region 失效時應用無感切換（Aurora PG 是 cross-region replica 異步、DSQL 是 strong consistency 多 region）

反向 driver（DSQL → Aurora PG）也存在：

需要 PG extension（pgvector / TimescaleDB / PostGIS / pg_repack）— DSQL 不支援
Cost：DSQL 比 Aurora PG 貴 2-5x（依 region 數量）
Single-region OLTP 不需 distributed transaction 的 overhead

結構：Protocol Drop-in + Paradigm Shift

DSQL 是 PG wire-compatible（用 psql 連得上）、但內部是 distributed SQL engine：

維度	self-managed PG	Aurora PG	Aurora DSQL
Wire protocol	PG	PG	PG（subset）
Architecture	Single primary	Single primary + shared storage	Active-active distributed
Multi-region write	不支援（async replica）	不支援（async replica）	Strong consistency 多 region
Transaction model	MVCC + snapshot isolation	MVCC + snapshot isolation	OCC + strong snapshot isolation
Extension	任意	AWS whitelist	無 extension 支援
Operational	全部自管	AWS 管 storage / failover	AWS 管全部、零接觸
Failover	Patroni 15-60s	Aurora 30s	N/A（永遠 active-active、無 failover 概念）
Cost model	Self-managed instance	Instance hour + storage	Per-DPU + multi-AZ replication

Paradigm shift 的核心：

Transaction semantic：DSQL 用 OCC（Optimistic Concurrency Control）+ strong snapshot isolation、跟 PG 預設 read committed / repeatable read snapshot 不同 — 同 row 有 concurrent write 時、commit 階段才偵測衝突 + abort、application 要 handle 40001 serialization_failure
No extension：PostGIS / pgvector / TimescaleDB / pg_partman 都不能用、依賴這些 feature 的 application 要拆出去
No connection pool stateful：DSQL 內建 connection pool、application 不能依賴 session state（temp table / prepared statement / advisory lock）

Schema gap：PG 對 DSQL 限制

DSQL 是 PG-compatible subset、有幾類功能不支援：

類別	PG 支援	DSQL 支援
Extension	是	否（沒 `CREATE EXTENSION`）
Foreign key constraint	是	否（application 維護 referential integrity）
View / Materialized view	是	View 部分 / Materialized view 否
JSON / JSONB	是	部分（無 GIN index 加速）
Foreign data wrapper	是	否
Stored procedure（PL/pgSQL）	是	部分（限制多）
Trigger	是	部分
LISTEN / NOTIFY	是	否
`SELECT ... FOR UPDATE`	是	部分（DSQL OCC semantic）
Sequence（serial / identity）	是	支援、但高吞吐有 coordination overhead
Table partition	是	部分
Logical replication slot	是	否

Migration 必做 schema audit：

 1-- 找所有 extension 依賴
 2SELECT * FROM pg_extension;
 3
 4-- 找 materialized view
 5SELECT schemaname, matviewname FROM pg_matviews;
 6
 7-- 找 sequence
 8SELECT * FROM pg_sequences;
 9
10-- 找 FDW
11SELECT * FROM pg_foreign_server;
12
13-- 找 trigger
14SELECT * FROM pg_trigger WHERE NOT tgisinternal;

任何項目命中、都是 migration blocker。

Operational Redesign

跟 self-managed PG 或 Aurora PG 比、DSQL operational model 大幅簡化但語意不同：

Operational concept	self-managed PG	Aurora PG	Aurora DSQL
Storage	Local / EBS	Shared 6 副本	Distributed log + replicated state
HA	Patroni	Aurora failover	永遠 HA（無 failover 概念）
Backup	pgBackRest / WAL-G	內建 continuous	內建 continuous（更深整合）
Connection pool	PgBouncer / PgCat	RDS Proxy 推薦	內建（無需配置）
Major version upgrade	手動 + 停機	Aurora blue/green	完全 transparent（AWS 升）
Read replica	Streaming replication	Reader endpoint	無分（每 region 都讀寫）
Monitoring	Prometheus / pg_stat_*	CloudWatch + Performance Insights	CloudWatch（簡化）
預期 SRE FTE	0.5-2	0.2-0.5	< 0.1

Migration 流程：Type E Phased Plan

Type E paradigm shift 的 phased plan、跟 migrate-to-cockroachdb 結構類似：

Phase 1：Schema / Application Audit

跑 schema audit（extension / MV / FDW / sequence / trigger）
識別 application 哪些 query / transaction pattern 需重設計
估算 能直接遷的 % vs 需重寫的 %、典型 60-80% / 20-40%

Phase 2：Application 改造（不上 DSQL、先在 PG 跑）

加 transaction retry middleware（攔截 40001、exponential backoff）
用 UUID 替代 serial / bigserial
移除依賴 LISTEN/NOTIFY 的功能（改 SQS / EventBridge）
移除 materialized view（改 application-side cache 或 incremental ETL）
Stored procedure 改 application code
在 PG 上跑 staging、確認新 application code 還對

Phase 3：DSQL Cluster 建立 + Schema 遷

DSQL cluster create
DDL apply（subset of PG schema、無 extension）
DMS（Database Migration Service）initial load + ongoing replication
兩邊跑 shadow traffic、比對 query 結果

Phase 4：Cutover

Application 切 connection string 到 DSQL
保留 PG read-only 一週、出狀況 rollback
Monitor 40001 retry rate、scaling event 行為

Phase 5：多 region 拓展（如適用）

加第二 region endpoint
Application 改 multi-region routing（latency-based）
Test region failure / network partition 行為

5 個 Production 踩雷

Case 1：Transaction Retry 沒處理

情境：PG 上「兩個 transaction 都 update 同 row」走 lock + wait；DSQL 同情境一個會收 40001 serialization_failure、application 沒 catch、user 看到 500 error。

修法：

DAO 層加 retry middleware：catch 40001 + exponential backoff（jitter）
Retry 上限 3-5 次、超過回 4xx 給 user
Transaction 內不要做 side effect（API call / message send）、retry 會重做

1def with_retry(fn, max_attempts=5):
2    for attempt in range(max_attempts):
3        try:
4            return fn()
5        except SerializationError:
6            if attempt == max_attempts - 1:
7                raise
8            time.sleep((2 ** attempt) * 0.05 + random.random() * 0.05)

Case 2：Extension 缺位、Feature 整段掉

情境：production PG 用 pgvector 做 RAG search、PostGIS 做 store locator、TimescaleDB 做 metrics — 切 DSQL 後三 feature 全沒。

修法：

不要直接遷、評估 which extension is load-bearing
pgvector → 外掛 Pinecone / Weaviate 或保留 PG 跑 vector workload
PostGIS → 保留 PG 跑 GIS workload
TimescaleDB → 切 Amazon Timestream 或保留 PG
DSQL 只放 不依賴 extension 的 transactional core

實務常見拓撲：DSQL 跑 transactional core、附 PG（vector） + PG（GIS） + Timestream（metrics）。

Case 3：Sequence 高吞吐撞 Coordination Overhead

情境：SERIAL / GENERATED AS IDENTITY PK 在 DSQL 用、insert 量 1000+/s 時 sequence nextval 變成 bottleneck、insert latency 從 5ms 跳到 80-100ms+。

DSQL 有支援 sequence、但不是「local atomic counter」、是分散式 counter — 每次 nextval 需跨 region coordination 保證唯一性。低吞吐 OK、高吞吐撞牆。

修法：

高吞吐表 PK 換 UUID v7（time-sortable、無 coordination）：gen_random_uuid() 或 application-side UUID v7 library
或 application-side ULID（time-sortable、12-byte 緊湊）
完全避免依賴「連續 integer PK」的 application 邏輯（reporting / paging 改用 ORDER BY created_at, id）

1-- 換 UUID PK
2CREATE TABLE orders (
3    id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
4    ...
5);

低吞吐表（settings / config）保留 sequence OK；high-volume transactional 表（orders / events）建議 UUID。

Case 4：Aurora PG 直升 DSQL 想當 in-place

情境：team 以為「Aurora PG 跟 Aurora DSQL 都是 Aurora、應該能直升」、申請 cluster modify、發現完全是兩個 service。

修法：

不是 in-place upgrade、是 full migration（DMS + cutover）
把 DSQL 當完全新的 cluster type、走 Phase 1-4 完整流程
Aurora PG → Aurora DSQL 不比 PG → CRDB 容易、wire-compatible 只解 application connect 問題、不解 schema / paradigm 差異

Case 5：Region Failover Semantic

情境：team 以為「DSQL multi-region 等於高可用」、設計時假設「整 region 掛還是能寫」、實測發現「網絡分割時 DSQL 走 quorum、可能 reject write」。

DSQL 是 strong consistency 多 region、CAP 取 CP（不是 AP）— network partition 時部分 region 會拒絕 write、不是「永遠可寫」。

修法：

設計 application 要 handle write reject（partition recovery 後 retry）
不要把 DSQL 當「永遠可寫」的 cache 或 queue 用
真要 AP 行為、用 DynamoDB（global table）

Capacity 規劃

DSQL 計費跟 Aurora PG 差很多：

計費項目	Aurora PG	Aurora DSQL
Instance	Per-instance hour	無（serverless）
Storage	Per-GB-month	Per-GB-month（多副本價）
IO	Per-million IO	每 transaction 計費
Backup	Per-GB-month	內建（無額外）
Multi-region	Cross-region replica（額外）	每 region 全費 × N

實務 cost：Aurora PG db.r6g.4xlarge multi-AZ 月 ~$2000 → DSQL 同 workload ~$5000-10000（依 region 數）。

何時 DSQL cost 划算：

多 region active-active 需求剛性（不是 nice-to-have）
Operational FTE 節省超過 cost 差
Burst workload（DSQL 自動 scale、Aurora PG 預配置 idle 期浪費）

跟既有 Migration Playbook 對比

Migration	Type	主結構
→ Aurora PG	C	Protocol drop-in + operational redesign
→ CockroachDB	E	Paradigm shift（distributed SQL）
→ Aurora DSQL（本篇）	E	Paradigm shift（PG-compatible distributed）

Aurora DSQL vs CockroachDB 選擇：

維度	Aurora DSQL	CockroachDB
PG compatibility	Wire-compatible 較完整	高、但有差異
Vendor lock-in	AWS only	跨雲 / on-prem
Cost	AWS pricing	自管或 CockroachDB Cloud
Multi-region 模型	Strong consistency 內建	可配置（regional / global table）
Extension	完全沒	部分（CDC / changefeed）
Operational	Zero-touch	自管或 managed

選 DSQL：已綁 AWS、不想管基礎設施、需 PG semantic。選 CRDB：跨雲、有自管 SRE、需要 fine-grained control。

下一步

看 Aurora overview 認識 Aurora family
看 migrate-to-cockroachdb 對比另一個 Type E migration
回 PostgreSQL overview 看全圖

PostgreSQL → CockroachDB：三維皆 High 的多重歸類 migration

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 PostgreSQL 跟 CockroachDB。本文是 #127 多重歸類跟 tie-breaking 規則的實證 — 三維皆 High 配對的處理方式不是「選 type A 或 type C 或 type E」、是 主導維度走 Type E、其他高維度獨立加段。每階段切換用 migration gate 把關。

三維皆 High：決策矩陣

跑 diff dimension audit 對 PostgreSQL → CockroachDB：

維度	評估	等級
Schema / API	PostgreSQL wire protocol 兼容、但 SQL feature set 部分缺（CTE recursive 部分 / window function 部分 / extension 完全缺）	High
Operational model	Single-node + Patroni → distributed Raft + 自動 rebalance；HA / backup / topology 全換	High
Abstraction / paradigm	Single-node MVCC + transaction → distributed Serializable Snapshot Isolation (SSI)	High
Number of components	同 1 個 DB cluster	Low
Application change	Transaction retry pattern 必須改、ORM 可能需 patch	Medium

3 維 High + 1 維 Medium。按 methodology audit Step 5 的多重歸類處理規則：

1主導維度判讀 (優先序): Schema > Paradigm > Operational > Components
2
3實際應用: Schema High + Paradigm High + Operational High
4- Schema 是 High、但 CRDB 提供 PostgreSQL wire protocol 兼容
5- Paradigm 是 High、是 *單機 → 分散式* 的根本轉變、讀者最關心
6- Operational 是 High、但很大程度是 Paradigm 的 downstream
7
8→ 主結構選 Paradigm（Type E）、Schema + Operational 抽獨立段補充

不強迫單一 type 標籤 — 本文是 Type E 為主 + Type A / C 高維度增補 的 multi-axis 形態。

結構 differentiator：Type E 主結構 + 多軸增補段

跟前批 5 個 migration playbook 對照：

結構元素	Type A Splunk → Elastic	Type B Redis → DragonflyDB	Type C PostgreSQL → Aurora	Type D Datadog → Grafana	Type E Kafka ↔ NATS	本文（三維 High）
Phased translation	yes	-	-	-	-	partial
Compatibility audit	-	yes	-	-	-	yes
Operational redesign 對位	-	-	yes	-	-	yes（獨立段）
Schema gap 對位	-	-	-	-	-	yes（獨立段）
Parallel streams	-	-	-	yes	-	-
Paradigm contrast	-	-	-	-	yes	yes
Application 重設計	-	-	-	-	yes	yes
混合架構 long-term	-	-	-	-	yes	partial（部分 workload）

本文是「Type E 為主 + Type A schema gap 段 + Type C operational redesign 段」混合形態、9-10 章節、260-300 行。

維度 1：Paradigm shift（主導）

CRDB 是 distributed SQL DB、不是「PostgreSQL 多節點版」。核心差異：

概念	PostgreSQL	CockroachDB
Transaction isolation	MVCC、Read Committed default	Serializable Snapshot Isolation (SSI)、強一致
Transaction conflict	First writer wins	Retry-on-conflict、application 必須處理 `40001` retry code
Replication	Streaming replication + standby	Raft consensus、每筆寫 quorum + 自動 rebalance
Partition	Declarative partitioning（手動）	Automatic range-based + locality-aware
Latency p99	1-10ms（單 region）	5-50ms（cross-AZ Raft quorum）
Throughput limit	單 primary 上限 ~10-50K TPS	Linear scale by adding node、~5K TPS / node

關鍵 paradigm 改變：transaction 是 retry-able 操作、不是 atomic guaranteed。所有 transaction code 需要包 retry loop（CRDB 提供 cockroach_restart savepoint）。

維度 2：Schema gap（PostgreSQL features CRDB 不支援）

CRDB 號稱 PostgreSQL-compatible、但 covergence rate 80-90%；常見 gap：

PostgreSQL feature	CRDB 狀態	影響
Stored procedure / function (PL/pgSQL)	Limited（CRDB 22.2+ 部分支援）	Migration scope 內必須 audit + 改寫
Common Table Expression (CTE) recursive	Limited (depth + structure)	複雜 CTE 可能跑不通、必須 query refactor
Window function 全集	Partial	報表 query 需逐 case 驗證
Extensions (pg_repack / pgaudit / TimescaleDB)	不支援	用 CRDB 自家 alternative 或自管 application 層
Triggers	Limited	Audit / data integrity 邏輯遷到 application 層
Custom types / domain	Partial	用 CHECK constraint 替代
Geographic types (PostGIS)	CRDB native geo support（語法不同）	Spatial query 改寫
`SELECT FOR UPDATE` semantics	對等但底層機制不同（distributed lock）	注意 deadlock pattern 差異
Advisory locks	不支援	Application 端用其他 distributed lock（Redis / Consul）

Migration 必須 先 audit 完整 SQL feature 使用、列出 gap、評估解法或退役。

維度 3：Operational redesign

CRDB operational model 完全不同：

Operational concept	PostgreSQL self-managed	CRDB
Cluster bootstrap	Patroni / Stolon + manual	`cockroach init` + 自動 Raft formation
HA	Patroni + DCS + watchdog	內建 Raft、無 single primary
Failover	Patroni-managed、15-60s	透明 Raft re-election、< 5s
Backup	pgBackRest + WAL archive	`BACKUP TO` (incremental + full)
Restore	`pgBackRest restore` + PITR	`RESTORE FROM`
Replication	Streaming + logical	Built-in、無 logical replication 對等概念
Schema migration	`pg_dump` / Flyway / Liquibase	`cockroach sql` + online schema change（無 lock）
Monitoring	pg_stat_* views + Prometheus exporter	CRDB admin UI + Prometheus（schema 不同）
Sizing	Vertical scale（單 node big spec）	Horizontal scale（多 node 小 spec）

SRE 心智模型完全重訓：無 primary 概念 / 無 streaming lag 概念 / 無 standby promote 概念。

Migration 流程（混合形態）

不是線性 phased、是 phased + parallel + partial 混合：

 1Phase 0: scope 判讀
 2  - 列 application、區分「適合 CRDB」vs「保留 PostgreSQL」
 3  - SQL feature audit
 4  - Application transaction pattern audit
 5
 6Phase 1: schema port + application 改寫
 7  - DDL 轉成 CRDB syntax
 8  - 不支援 extension 找 alternative
 9  - Application transaction code 加 retry loop
10
11Phase 2: 雙寫期（部分 application 開始走 CRDB）
12  - 新 application 走 CRDB
13  - 舊 application 持續 PostgreSQL
14  - CDC bridge（Debezium → Kafka → CRDB consumer）
15
16Phase 3: cutover 適合的 application
17  - 每個 application 獨立 cutover
18  - 不是「全 DB 一次切」
19
20Phase 4: 長期混合架構
21  - 某些 workload 永遠保留 PostgreSQL（不適合分散式）
22  - CRDB 跑 distributed 適配 workload

整體 3-6 個月、不收斂到全 CRDB。

Production 故障演練

Case 1：Transaction retry 沒處理、application 大量 `40001` error

徵兆：cutover 後 application 5-10% transaction 報 restart transaction: TransactionRetryWithProtoRefreshError、業務 fail。

根因：PostgreSQL Read Committed 不要求 application 處理 conflict、CRDB Serializable Isolation 必須 retry-on-conflict；application code 沒 retry loop。

修法：

 1// CRDB transaction with retry
 2for retries := 0; retries < 10; retries++ {
 3    tx, _ := db.Begin()
 4    // ... transaction logic ...
 5    err := tx.Commit()
 6    if err != nil && strings.Contains(err.Error(), "40001") {
 7        time.Sleep(backoff(retries))
 8        continue
 9    }
10    break
11}

framework-level：用 CRDB-provided client lib（go-cockroachdb / crdb-jdbc）有 retry helper。

Case 2：Extension 缺位、application feature 整段掉

徵兆：cutover 後 application 某個地理計算功能直接報錯、PostGIS 函數不存在；migrate 計畫漏看。

根因：CRDB native geo 不同 syntax / API、PostGIS extension 不能直接搬。

修法：

Pre-migration 必跑 extension audit：列所有 pg_extension、找對應 CRDB feature 或退役
PostGIS 替代：CRDB native ST_* functions、部分 syntax 對齊但 spatial index 不同
退役不能換的 feature：評估保留 PostgreSQL（混合架構）

Case 3：Sequential PK 撞 Raft quorum 瓶頸

徵兆：cutover 後寫入吞吐量 / latency 不如預期、CRDB cluster CPU < 30% 但 write latency p99 high。

根因：application 用 AUTO_INCREMENT / SERIAL 連續 PK；CRDB 把連續 key 放 同一 range / 同一 Raft group、寫入串行化、無法平行 scale。

修法：

改 UUID v7 / unique_rowid()：時序排序但散佈跨 range、自動 partition by hash
PRIMARY KEY (region, id)：multi-region 場景 multi-tenancy 自然拆分
不適合的 workload 留 PostgreSQL：不是所有 schema 都適合 distributed

Case 4：Long transaction 對 Raft 衝擊

徵兆：跨 1 分鐘+ 的 transaction（batch processing / 大 ETL）大量 retry、最後失敗；同期間其他短 transaction 也 retry rate 上升。

根因：CRDB long transaction holds intent on touched ranges、阻塞其他 transaction；SSI conflict 機率隨 transaction 時間平方增長。

修法：

Long transaction 拆短：batch 用多個 short transaction、checkpoint 在 application 層
Heavy ETL 不跑 CRDB：用 CRDB CDC export 到 OLAP（Snowflake / BigQuery）跑 batch
Read-only long transaction 用 follower read：AS OF SYSTEM TIME 不 hold intent、適合 reporting

Case 5：Backup / restore 行為跟 PostgreSQL 不同、SRE runbook 失效

徵兆：DBA 嘗試 pg_restore 失敗、CRDB 端 backup format 完全不同；incident response 卡關 1-2 小時。

根因：CRDB backup 是 cluster-internal format、不能用 PostgreSQL tooling；SRE runbook 仍是 PostgreSQL world、應急時心智模型錯位。

修法：

Runbook 重寫：CRDB-specific backup / restore 流程、SRE training
DR drill：cutover 前跑完整 DR drill、用 CRDB tooling 完成、不依賴 PostgreSQL 經驗
Multi-region backup：CRDB 跨 region backup 配置、避免單 region 故障

Capacity 規劃

維度	PostgreSQL self-managed	CockroachDB
Single-node 上限	~10-50K TPS（vertical scale 到 32-128 vCPU）	~5K TPS / node（horizontal scale by adding node）
跨 region	高 latency 跨區 streaming	設計 native、Locality-aware queries
Sharding	手動 partition / pg_partman	自動 range-based
Storage / TPS ratio	不變	Storage 跨 node 3x（Raft quorum 3-replica default）
Total cost (10TB)	$2-4K USD / month（self-managed）	$5-10K USD / month（CRDB Cloud + 3x storage）

判讀：CRDB cost 顯著高、選 CRDB 必須是 paradigm 需求（distributed transaction / multi-region / linear scale）；單純成本 / availability 改善走 Aurora 更划算。

整合 / 下一步

跟 PostgreSQL → Aurora migration 對比

兩條 PostgreSQL 出路：

Aurora：operational simplification、protocol drop-in、cost 中等漲；適合 不需 distributed transaction 的 production
CRDB：distributed paradigm shift、application 必須改、cost 顯著漲；適合 真的需要 distributed 的 workload

多數 application 不需要 distributed transaction、Aurora 更合理；真正需要 cross-region 強一致 / linear scale by adding node 才走 CRDB。

跟 application transaction pattern 重設計

CRDB 強制 application 改 transaction code、retry loop 必加。團隊心智模型轉換是 migration 主要 effort、技術部分相對少。

下一步議題

CRDB → PostgreSQL reverse migration：當業務 simplify 後 distributed 不必要、reverse migration cost 高、實務上 CRDB 是 single-direction lock-in
CRDB Serverless：cost 起點低、burst workload 適合；steady workload 仍是 dedicated cluster
Multi-region active-active：CRDB 真正強項、但網路成本爆、僅金融 / 政府客戶 ROI 合理

Database Migration

Fri, 26 Jun 2026 00:00:00 +0000

Database migration 是用版本化的腳本管理資料庫 schema 變更的做法。每次 schema 變更（加欄位、改索引、拆表、改資料型別）寫成一份獨立的 migration 檔案，按順序套用。這讓 schema 的演進跟程式碼一樣有版本歷史、可追蹤、可在新環境重現。

概念位置

migration 解決的問題是「資料庫的 schema 怎麼從 A 狀態安全地變成 B 狀態」。沒有 migration 時，schema 變更靠在 phpMyAdmin 或 CLI 手動執行 SQL，改了什麼只存在操作者的記憶裡。有 migration 時，每次變更都是 repo 裡的一份檔案，跟程式碼一起 commit、一起 review。

可觀察訊號

接手專案時，如果 repo 裡有 migrations/ 目錄（或框架特定的路徑如 Laravel 的 database/migrations/、Rails 的 db/migrate/），代表專案使用 migration。如果 repo 裡只有一份 schema.sql 或完全沒有 schema 相關檔案，代表 schema 變更是手動的——這時候建立 migration 紀律是接手後的優先事項之一。

設計責任

每份 migration 檔案包含兩個方向：

UP（套用）：執行 schema 變更的 SQL
DOWN（回退）：撤銷這次變更的 SQL（不是所有變更都能完美回退，如刪除欄位後資料就沒了）

1-- migrations/2026-06-26-001-add-users-email-verified.sql
2
3-- UP
4ALTER TABLE users ADD COLUMN email_verified BOOLEAN DEFAULT FALSE;
5
6-- DOWN
7ALTER TABLE users DROP COLUMN email_verified;

常用的 migration 工具：

工具	語言 / 框架
Laravel Migration	PHP / Laravel
Rails Migration	Ruby / Rails
Flyway	Java / 跨語言（純 SQL）
Liquibase	Java / 跨語言（XML / YAML / SQL）
golang-migrate	Go
手動 SQL 檔案	無框架時的最低限度方案

沒有框架時，用日期 + 序號命名 SQL 檔案（2026-06-26-001-描述.sql），搭配一張 migration_log 表記錄哪些已經套用過，就是最低限度的 migration 系統。

鄰卡

RDS：migration 在 production 資料庫上執行時要格外小心——大表的 ALTER TABLE 可能鎖表
mysqldump：執行 migration 前先做一次完整備份

PostgreSQL Multi-Region GDPR Rollout：政策驅動的 migration 屬本 methodology 嗎

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。同時是 #128 self-aware limitation 第 1 點「6 維仍可能漏類（identity / consistency / residency 三軸候選）」的 residency 軸驗證、跟 migration playbook methodology「何時不該套」段對「政策合規驅動」是否在 methodology scope 的反思。

政策驅動的 migration 屬本 methodology 嗎

Migration playbook methodology 「何時不該套」段曾把「compliance-driven migration」歸為排除情境、後來改寫為「不在排除範圍 — 法規驅動只是 driver、資料層仍走 type A-E 之一」。本文是該改寫的 正面實證 — GDPR EU residency 強制需求驅動 single-region → multi-region rollout、本文是 政策驅動但仍走 audit + type 對映流程 的 case study。

但 reviewer D 在第三輪 audit 提出：residency 不只是 driver、本身是 cross-cutting constraint、反向約束 topology + operational + schema；該不該升 獨立 audit 軸？本文是該議題的 dogfood。

三層約束：driver / topology / contract

GDPR 對 PostgreSQL multi-region rollout 的影響在三個層次：

Driver layer：EU 客戶資料必須 物理上儲存在 EU（GDPR Article 44-49）— 觸發 multi-region migration 的根本理由
Topology layer：跨 region replication 不能 自由跨 region 複製 EU 客戶資料、必須按 GDPR scope 分區；topology 設計受合規約束
Contract layer：審計能 demonstrate 「EU 資料在 EU」、操作日誌 + replication evidence 必須可追溯；application + ops contract 多出合規 obligation

跑 6 維 diff dimension audit 對「single us-east → us-east + eu-west」：

維度	評估	等級
Schema / API	同 PostgreSQL、可能加 region column	Low
Operational model	HA / backup / monitoring 跨 region 重設計	High
Paradigm	同 OLTP RDBMS	Low
Components	同 PostgreSQL instance + Patroni	Low
Application change	Routing logic by user region、必改	Medium
Data topology	Single → multi-region replication	High
Residency contract	EU 資料禁止離開 EU、log + replication 範圍受約束	High

6 維 audit 抓不到「Residency contract = High」這軸。用既有 6 維歸類、會走 Type F multi-axis（topology + operational + application change 多 High）+ 政策合規補強段；但這個歸類 漏掉合規對 topology / operational / application 的反向約束：

Topology layer：6 維只 audit 「topology 是否變動」、漏 audit 「topology 範圍是否受合規約束」
Operational layer：6 維只 audit 「operational 是否重設計」、漏 audit 「audit log / encryption / access control 是否符合合規要求」
Application layer：6 維只 audit 「application code 是否改」、漏 audit 「資料 routing 是否符合 residency rule」

Residency 不只是 driver、是 cross-cutting constraint、會反向約束其他 3-4 維、且帶獨立工作量（合規 evidence collection / DPIA / audit prep）。

Residency axis 是否獨立：3 個論據

Yes、residency 是獨立軸：

可獨立發生：原本 multi-region setup、新增「PCI 強制信用卡資料只能 us-east」、是 純 residency 變更、其他 6 維皆 Low（topology 不重設計、operational 不重設計、application 加 routing rule 即可）；但 residency 約束 routing + log 範圍
驅動工作量分佈：本文 multi-region GDPR rollout 工作量分佈：
- Topology setup（logical replication / region setup）：~25%
- Operational redesign（HA / backup / monitoring）：~20%
- Application routing change（region detection / data filter）：~15%
- Residency compliance（DPIA / audit log / access control / encryption / evidence）：~40%
Cross-cutting nature：residency 不只影響「資料放哪」、影響：
- Backup 可不可以 cross-region store（多數 GDPR 不允許）
- Audit log 是否包含 EU PII（需 EU 端 log + 跨 region log filter）
- Encryption key 是否可 cross-region share（多數情境不允許）
- Application access logs 是否含 EU IP / user ID

No、residency 可塞 operational + driver：

反論：residency 是 operational 子議題、加 audit + replication scope 規則就好
拒絕：residency 反向約束 topology / application / operational、且帶獨立合規工作量（DPIA / cross-border transfer agreement / data subject rights）；不是單純 operational 子議題

實證：本文 migration 工作量 40% 在 compliance、確認 residency 是 獨立工作量主軸。

結構：Type F multi-axis + residency compliance 獨立段

本文結構是 Type F 為主（topology high + operational high）+ residency compliance 獨立段（不在 6 維任一個）：

11. 政策驅動的 migration 屬本 methodology 嗎（meta-reflection 開頭）
22. 三層約束：driver / topology / contract
33. Residency axis 是否獨立的論據
44. 結構 differentiator（Type F multi-axis + residency compliance 段）
55. EU residency 對 topology / operational / application 的反向約束
66. Migration 流程（含 DPIA 跟 evidence collection 階段）
77. Production 故障演練
88. Capacity / cost（含合規 audit cost）
99. 整合 / 下一步

9 章節、240-270 行。比標準 Type F 多 1 段（residency compliance）+ 1 段（meta-reflection）。

EU residency 對其他維度的反向約束

 1Residency rule → Topology constraint:
 2- EU customer data 不能 replicate to us-east
 3- Backup of EU table 不能 store in non-EU region
 4- Logical replication subscriber 在 us-east 必須 filter out EU data
 5
 6Residency rule → Operational constraint:
 7- Cross-region monitoring 不能 export EU PII to global SaaS (Datadog)
 8- Audit log 含 EU user_id 必須 store 在 EU
 9- Encryption key (KMS) 不能 share 跨 region（EU 端用 EU KMS）
10- DBA / SRE access EU data 必須 from EU jurisdiction + 記 audit trail
11
12Residency rule → Application constraint:
13- Application 必須 detect user region + route 對應 DB endpoint
14- Cross-region join / aggregate 對 EU user 必須走 EU 端 query
15- Data export feature 必須 reject 跨 region export request

每條反向約束都是 新工作量、不在 6 維 audit 內。

Migration 流程（含 DPIA + evidence collection）

10 step、跨 5 個月：

Phase	Step	對應 6 維 / 合規
0 Pre-migration	1. DPIA（Data Protection Impact Assessment）	Compliance pre-requisite
0	2. 法務 review 跨境傳輸 agreement	Compliance
1 Setup	3. EU PostgreSQL cluster build + Patroni	Operational + Topology
1	4. EU KMS + audit log + monitoring stack	Operational + Residency
2 Data	5. Logical replication 設 filter（exclude EU table from us-east）	Topology + Residency
2	6. Initial sync EU table 到 EU cluster	Topology
3 App	7. Application 端加 region detection + routing	Application change
3	8. Cross-region query banning（cross-region join 拒絕 EU table）	Application + Residency
4 Verify	9. Compliance audit + evidence package	Residency
4	10. DPO sign-off + DR drill	Residency + Operational

Step 1 + 9 + 10 是 residency-specific、不在既有 6 維內。

Production 故障演練

Case 1：Replication filter 漏 table、EU 資料 leak 到 us-east

徵兆：6 個月後 internal audit 發現 us-east 端 customers table 含 EU 客戶資料；replication filter 設定漏改、新加的 eu_customer_extensions table 被自動 replicate 到 us-east。

根因：PostgreSQL logical replication publication 預設 FOR ALL TABLES、新加的 table 自動納入；應該明示 FOR TABLE list... 並 GDPR review。

修法：

Publication 改 explicit table list：CREATE PUBLICATION xxx FOR TABLE users, orders, ...、不用 FOR ALL TABLES
Schema change review 加 GDPR check：每個 DDL PR 必須答「新 table 是否含 EU PII、是否該 filter」
Replication monitor：定期跑 SELECT * FROM pg_publication_tables 對照 expected list、漂移立刻 alert
Evidence collection：filter 配置 + audit log 留檔、出事 DPO 知道何時 leak

Case 2：Backup 跨 region store、合規違規

徵兆：跑 1 年後 GDPR audit 抓到 EU table 的 backup 存在 us-west S3 bucket；違反 Article 44-49 限制。

根因：pgBackRest 預設用 global S3 bucket（在 us-east-1）；EU PostgreSQL cluster backup 跑去 us-east、跨境傳輸無 transfer mechanism。

修法：

Per-region backup config：EU cluster 用 EU S3 bucket（eu-west-1）、寫進 pgBackRest config
Backup test：每月跑一次 backup restore drill、validate backup 是 from EU region
Bucket policy 強 enforce：EU bucket 加 aws:RequestedRegion=eu-west-1 強制 region match
Audit log archive 同理：log shipping 也必須 region-respect

Case 3：Monitor SaaS 收集 EU PII、合規 alert

徵兆：Datadog APM 收集了 EU customer 端 request 含 user_email 在 trace、被 DPO catch、required to delete 過去 90 天的 Datadog data。

根因：APM trace 預設收集 application context、含 PII；Datadog 是 us-east SaaS、PII 跨境到 Datadog us-east、違規。

修法：

APM scrub PII：application 端在 trace 前 scrub user_email / user_id 替換成 hash
EU-specific monitor stack：EU PostgreSQL + APM 用 Grafana on EU EKS、不送 Datadog
跨 region SaaS use 必須 audit：所有外部 SaaS（Datadog / Sentry / NewRelic）必須 GDPR-friendly 配置
Privacy by design：log / trace 預設 scrub PII、不是 opt-in

Case 4：Cross-region query 跑 EU + US 資料、residency 違規

徵兆：BI dashboard 跑跨 region aggregation query（EU sales + US sales）、PostgreSQL FDW 從 us-east cluster query EU cluster、EU 端 server log 顯示「PII export to us-east」。

根因：開發者用 PostgreSQL Foreign Data Wrapper（FDW）方便跑跨 region query、不知道這在 GDPR 視為跨境 PII export。

修法：

Architecture: aggregate at edge：BI 跑 per-region aggregate、再在 BI layer compose（無 PII）；不直接跨 region join
FDW 限制：disable FDW from us-east → EU cluster、enforce one-way data flow
DBA access policy：DBA 不能直接 query EU cluster 從 us-east jumpbox
Query audit：production query log 跑 PII detection（regex / NER）、發現跨境 export 立即 alert

Case 5：DR drill 跨 region failover、暴露 residency assumption 失敗

徵兆：DR drill「EU 完全不可用、切到 us-east」執行後、發現 us-east 端 沒 EU 資料 — 因為一直 strict residency filter；business 端 EU 客戶 24 小時無法服務。

根因：strict GDPR residency 跟 strict DR availability 衝突 — 要 跨 region DR 就要 跨 region 持有資料、要 strict residency 就 DR 範圍受限。

修法：

DR strategy revision：EU 端 multi-AZ within EU、不靠跨 region；EU region 全不可用情境接受 longer RTO
Compliance + DR negotiation：跟 DPO / 法務談 DR 跨境 short-window 是否可接受、簽 cross-border transfer agreement
Backup recovery 在 EU 內：EU 端 backup 跨 AZ store、不跨 region；EU AZ 災難用 EU 另一個 AZ 重建
明示 RTO trade-off：EU customer SLA 寫「regional DR 內 RTO 1 小時、global DR 24-48 小時」、residency 跟 DR 是 互斥取捨

Capacity / cost

維度	Single region	Multi-region GDPR-compliant
Infrastructure cost	baseline	+60-100%（雙 cluster + cross-region replication）
Operational FTE	0.5-1	1-2 FTE（雙 region SRE + compliance）
Compliance cost	0	$50-200K USD setup（DPIA / audit / DPO time）+ ongoing
Egress cost	Low	High（cross-region replication 流量）
Application latency	Single AZ	EU customer 連 EU、低；US customer 連 US、低
DR RTO	30 分鐘 (single region)	EU regional 1 小時 / global 24-48 小時
Audit cost	Minimal	季度 DPIA + 年度 compliance audit

判讀：GDPR multi-region 成本 1.5-2.5x、但合規是 必要 spend、用 cost optimization 的框架看會誤判；多數歐洲業務 7+ 年回本（避免 4% revenue fine）。

整合 / 下一步

跟 PostgreSQL → Aurora 對位

Aurora Global Database 可簡化跨 region setup、但 residency filter 仍需 application 端；不是「Aurora 就解決 GDPR」。

跟 Multi-DC MongoDB 對位

兩篇都是 multi-region rollout、但本文加合規維度；MongoDB 篇純 capacity + DR driver、本文加 residency constraint、結構不同。

跟 #128 self-aware limitation 第 1 點對位

本文驗證 residency axis 候選：

Yes 軸獨立：reverse-constrain topology + operational + application、且帶獨立 compliance 工作量（DPIA / evidence collection / DPO sign-off）
作為 driver 不夠：methodology 把 residency 歸為 driver 太窄、忽略 cross-cutting constraint 性質

未來 audit 可能擴 7 維（加 residency / compliance contract）；累積 PCI / HIPAA / SOX 等不同合規 case 後再評估。

下一步議題

Identity + Consistency + Residency 三軸候選統合：本批 3 篇分別驗證、未來累積 evidence 後考慮獨立 #129 卡 / 擴 audit 到 7-8 維
Schrems II + new EU data transfer rules：跨大西洋資料傳輸法規變動快、playbook 半衰期短
Data localization in China / Russia / India：類似 GDPR 但細節不同、未來 case 累積後評估

從自管 PostgreSQL / MySQL 遷到 Aurora：operational redesign migration playbook

Wed, 27 May 2026 00:00:00 +0000

從自管 PostgreSQL / MySQL 遷到 Aurora 是 operational redesign hybrid（Type C migration）— wire protocol 相容、application 不改、但 HA / backup / monitoring / capacity 模型完全不同。本 playbook 走 migration playbook 6 規格面（Driver / Diff audit / Phase plan / Evidence / Cutover / Cleanup）、補三個 Aurora-specific 議題：(1) 合規禁止跨境複製的 no-go condition、(2) 合規驅動遷移的時程模型（市場數 × 平均審查月份）、(3) Aurora 不是 all-purpose store 邊界。每階段進入下一步前都要過 migration gate — Evidence 段列出的證據是 gate 條件、不是 nice-to-have。

本 playbook 不重複 Aurora overview（請看 Aurora vendor 頁）— 前置閱讀建議 Aurora storage architecture（理解為什麼 operational redesign）、Aurora cross-AZ failover RTO（HA redesign 主項）、Aurora read replica scaling（fleet 治理 SSoT、含合規 driver）。

Migration type 判定

本 playbook 是 Type C：Operational redesign hybrid：

PostgreSQL / MySQL → Aurora wire protocol 相容、application 多數不改
但 operational model（HA / backup / monitoring / capacity）完全不同、需要 redesign
跟 Type A schema translation 差：不需要翻譯 application SQL
跟 Type B drop-in 差：HA / backup / monitoring / capacity 模型需要 redesign
跟 Type E paradigm shift 差：保留 single-primary SQL 跟 ACID transaction 語意

對照其他 Aurora-related migration playbook：

PG → Aurora DSQL 是 Type E paradigm shift（distributed SQL、multi-region active-active）
PG → CockroachDB 是 Type E paradigm shift + cross-cloud

Driver：為什麼遷

主要 driver

團隊規模成長、DBA bandwidth 飽和、backup / failover / patch 操作負擔超過產品價值
Read replica scaling 需求（傳統 streaming replication lag 秒級、Aurora 10-30ms — 詳見 Aurora read replica scaling）
Storage growth 痛點（local SSD 上限、resize 要 downtime、Aurora 自動 grow 到 128 TB）

次要 driver

HA model 簡化（Patroni / Orchestrator → Aurora cluster endpoint、見 cross-AZ failover RTO）
Backup 自動化（pgBackRest / xtrabackup → Aurora automated backup + PITR）
Multi-region DR 需求（Aurora Global Database、但合規場景例外）

No-go condition（嚴格遵守）

跨雲 / on-prem 需求觸動 vendor lock-in — Aurora storage layer 是 AWS 專屬、wire protocol 相容不代表退出成本低、long-term 跨雲策略未定時 self-managed PG / MySQL 反而保留路徑。

條件	為什麼是 no-go
跨雲 / on-prem 需求	Aurora AWS-only、wire protocol 相容但 storage 是 AWS 專屬
需要 latest upstream 特性	Aurora 通常落後 upstream PostgreSQL / MySQL 1-2 major version
預算極敏感	Aurora 比 self-managed PostgreSQL / MySQL 貴 20-30%
合規禁止跨境複製	受監管市場 Data Residency 禁止跨境複製、Aurora Global Database 在這種場景違反合規 — 要改用每市場獨立 cluster
客製化 storage / I/O	Aurora storage 是 AWS managed、不能客製化（vs self-managed 可以做 cgroup / quota / 自訂 storage 配置）

合規禁止跨境複製 no-go（9.C14 Standard Chartered 揭露）：

受監管市場資料不能跨境複製、Aurora Global Database 在這種場景違反合規。讀者規劃 Aurora migration 時不能假設「Aurora 一定有 Global Database 選項」— 要改用每市場獨立 cluster（fleet 拓樸吸收合規邊界、見 Aurora read replica scaling fleet SSoT）。

替代方案

RDS PostgreSQL / MySQL：更接近 upstream、單 AZ 便宜、不重寫 storage
自管 + Patroni HA + pgBackRest：保留控制、跨雲可用
CockroachDB / Aurora DSQL：multi-region active-active write 需求

Case anchor

9.C23 Netflix Aurora consolidation：多套 RDBMS 統一到 Aurora、driver 是 operational consolidation、不是純效能
9.C4 DraftKings：200 個 cluster、按業務切分（不是一個大 cluster + 200 schema）
9.C14 Standard Chartered：受監管場景、合規 lead time 是時程主項

Netflix scope warning（必引用）：

case「需要警惕」段第 2 點原文：「Netflix 數據層遠不止 Aurora — 還有 Cassandra（playback metadata）、EVCache（cache layer）、Iceberg（data warehouse）。Aurora 主要是『需要 ACID 的 OLTP 工作負載』、不是『all-purpose store』」
工程含義：consolidation 是 ACID OLTP 整合到 Aurora、不是 所有 store 整合到 Aurora
讀者規劃整合範圍時要明示什麼 workload 不在範圍（cache、analytics、time-series、search、KV 高峰）
「+75% performance improvement 是跨多 workload 的最大改善幅度、不是『每個 workload 都 +75%』。實際每個 workload 改善幅度從 10% 到 75% 不等」（case「需要警惕」段第 1 點）

Diff audit：6 維 source / target 差異盤點

維度	差異	主導程度
Schema	PostgreSQL extension 相容性（pg_cron 改 Lambda / Step Functions、pg_partman 改 manual / native partitioning、TimescaleDB 不支援、PostGIS 支援）；MySQL plugin（HandlerSocket 不支援、audit plugin 改 CloudTrail）	中
Operational	HA model、backup、monitoring、parameter management（postgresql.conf → DB parameter group / cluster parameter group）	高（主導）
Paradigm	保留（single-primary SQL、ACID transaction、wire protocol）	無變動
Components	connection pool（PgBouncer → RDS Proxy 或保留 PgBouncer in front of Aurora）、logical replication（pglogical / Debezium → Aurora 原生支援、但有版本限制）	中
Application	保留（connection string 改 endpoint、SSL config 改 RDS CA、driver 不改）	低
Topology	保留（single-region scaling、若要 multi-region 走另一條 playbook to DSQL）；fleet 拓樸決策（拆幾個 cluster）詳見 read replica scaling fleet SSoT	中-高

主導差異：Operational layer（HA / backup / monitoring）、不是 schema 或 application。

Schema diff 細節

PostgreSQL → Aurora PostgreSQL：

Extension	Aurora 支援	Migration 策略
pg_cron	不支援	改 Lambda 排程 + RDS event 或 Step Functions
pg_partman	不支援	改 native declarative partitioning（PostgreSQL 11+）
TimescaleDB	不支援	改 native partition + materialized view、或保留 self-managed
PostGIS	支援	直接遷
pgvector	支援（新版）	確認 Aurora PostgreSQL version、可能需要升級
pglogical	不支援	改 Aurora 原生 logical replication（有版本限制）

MySQL → Aurora MySQL：

Plugin	Aurora 支援	Migration 策略
HandlerSocket	不支援	改 SQL access 或 Aurora-specific KV cache
Vault audit	不支援	改 AWS CloudTrail + RDS audit log
MyRocks engine	不支援	改 InnoDB（Aurora 預設）、評估 storage 成本
MaxScale	不支援	改 Aurora reader endpoint 或 RDS Proxy

Operational diff 細節

元素	Self-managed	Aurora
HA	Patroni / Orchestrator + etcd / ZooKeeper	Cluster endpoint + 自動 cross-AZ failover
Backup	pgBackRest / xtrabackup + S3 lifecycle	Automated backup + manual snapshot + PITR
Monitoring	Prometheus exporter + Grafana	CloudWatch + Performance Insights
Parameter	postgresql.conf / my.cnf	DB parameter group / cluster parameter group
Failover testing	Patroni `patronictl failover`	`aws rds failover-db-cluster`
WAL / binlog 觀測	`pg_stat_wal` / `SHOW MASTER STATUS`	CloudWatch + Performance Insights wait events

Application diff 細節

1# Self-managed PostgreSQL
2jdbc:postgresql://primary.internal:5432/mydb?ssl=true&sslmode=verify-full&sslrootcert=/etc/ssl/postgresql.crt
3
4# Aurora PostgreSQL
5jdbc:postgresql://my-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:5432/mydb?ssl=true&sslmode=verify-full&sslrootcert=rds-ca.pem

Application 改動量小：connection string 換 endpoint、SSL CA 換 RDS CA、driver 不變。

對應 knowledge card：failover、replication-lag。

Phase plan：階段切換

Phase 0：Pre-migration audit（2-4 週）

工作：

Extension audit：SELECT * FROM pg_extension / SHOW PLUGINS、列出 source 使用的 extension
Parameter audit：postgresql.conf vs Aurora parameter group、列差異
Application connection string audit：所有服務的 DB connection 點位
Benchmark baseline：write QPS / read QPS / p99 latency
Cost baseline：current self-managed monthly cost vs Aurora estimate

Output：

Migration feasibility report（含 no-go condition check）
Aurora cluster sizing 估算
Extension migration plan（each extension 對應的策略）

Phase 1：Aurora infra 準備（1-2 週）

工作：

Aurora cluster 開設（dev / staging / prod）
Parameter group 對位（從 source postgresql.conf / my.cnf 翻譯到 Aurora parameter group）
SG / subnet / IAM 設定
RDS Proxy 配置（如需要）
CloudWatch dashboard + Performance Insights baseline
Backup retention 設定（1-35 天）

Output：

Aurora cluster 待 data load
Monitoring 已 ready、能對照 source 跟 target

Phase 2：Data migration（2-8 週、依資料量）

三條 path、依場景選：

Path A：AWS DMS full load + CDC

適合：< 1 TB、可接受 read-only 短窗口
流程：DMS full load → DMS CDC → application cutover
優點：managed、validation 工具齊全
缺點：CDC lag 受 DMS task config 影響、bulk DDL 不友善

Path B：pg_dump / mysqldump + logical replication catch-up

適合：> 1 TB、要長 CDC 期、預算敏感
流程：snapshot → pg_dump / mysqldump → restore to Aurora → logical replication catch-up → application cutover
優點：成本低、可控性高
缺點：手動步驟多、要自己管 CDC lag

Path C：Snapshot restore

適合：已在 RDS PostgreSQL / MySQL
流程：RDS snapshot → Aurora restore-from-snapshot → catch-up → application cutover
優點：最快、AWS-internal 操作
缺點：只適用 RDS source、不適用 self-managed

Phase 3：Dual-read validation（1-2 週）

工作：

Application read 50/50 split source / target
比對 query 結果（per-table checksum + sampling）
量測 latency（Aurora p99 ≤ source × 1.2）
確認 stale read 比例 < 0.01%

Output：

Validation report：query 結果差異、latency 對照
Go/no-go decision for cutover

Phase 4：Cutover（< 1 小時 window）

工作：

Source set read-only
CDC catch-up final（lag → 0）
Application switch endpoint（DNS / service discovery / config flag）
Smoke test（critical path query + write）
Monitor error rate + latency 1 小時

Output：

Cutover complete
Source 切到 read-only、保留作為 rollback 餘地

Phase 5：Cleanup（4-8 週）

工作：

Source 保留 1 個月 read-only（rollback window）
確認穩定後 snapshot → S3 archive → decommission
舊 monitoring / backup / runbook archive

Output：

Source decommissioned
新 runbook + monitoring 為 SSoT

本 phase plan 適用範圍

Non-regulated workload（一般 SaaS / e-commerce / 內部系統）。受監管場景（銀行 / 保險 / 醫療）請見下方「合規驅動遷移的時程模型」段、技術 phase 不變但 lead time 完全不同。

合規驅動遷移的時程模型

受監管產業遷移的關鍵時程是 合規審查 lead time、不是技術遷移時間 — 本段是補充給銀行 / 保險 / 醫療讀者、避免照本 playbook 走嚴重低估時程。

Standard Chartered 揭露的時程模型

9.C14 Standard Chartered case 「判讀」段第 3 點 + 「策略」段第 3 點原文：「每個受監管市場的審查可能 3-12 個月、合計遷移時程是『市場數 × 平均審查月份』、不是『技術遷移月份』」。

工程含義：

技術 phase plan 假設 2-8 週 data migration + < 1 小時 cutover
合規 lead time 是 獨立軸、可能比技術時程長一個數量級
不同市場合規進度不同步、可能要分批上線

合規時程組合

軸	時程估算	不可壓縮原因
技術遷移	2-8 週 data migration + < 1 小時 cutover	工程可控
單市場合規審查	3-12 個月（Standard Chartered case 揭露）	監管機構 lead time、不是技術問題
多市場合規 lead time	市場數 × 平均審查月份（7 市場 × 6 個月 ≈ 3.5 年最壞情況）	各市場各自審、平行度受監管機構文化影響
跨境複製禁令審查	包含在合規審查內、可能讓 Global Database 從候選變反指標	監管要求 data residency、無 cross-region replication option

讀者判讀

受監管場景不能用本 playbook 的「2-8 週 data migration + < 1 小時 cutover」估時程交付給管理層 — 合規 lead time 是時程主項
受監管場景不能假設 Aurora Global Database 是 multi-region DR 選項 — 合規禁止跨境複製場景下 Global Database 違反合規（見 global-database-multi-region），要改用每市場獨立 cluster
合規場景的 phase plan 要把每市場當成獨立 mini-migration、用 市場批次 推進、不是一次 big bang

scope warning（必明示、case 自承）：Standard Chartered case 未公開是 PostgreSQL 還是 MySQL、未公開具體 cost 數字 — 引用時不能擴寫「Standard Chartered 用 Aurora PostgreSQL」這類細節（case 用「相關 case study」匿名標明）。

合規時程 scope 警示：「3-12 個月、7 市場 × 6 個月 ≈ 3.5 年」是 Standard Chartered case 揭露範圍。實際合規 lead time 隨產業（銀行 / 保險 / 醫療）跟國家（東南亞 / 歐盟 / 北美 / 中東）差異大、不是恆定數字。讀者要把自家對應監管框架的實際 lead time 算進來、不是直接套 Standard Chartered 數字。

Evidence：每階段驗證資料

Phase	Evidence
Phase 0	extension list、parameter diff、application SQL 抽樣 test on Aurora dev cluster
Phase 1	Aurora cluster ready、monitoring dashboard 跟 source 對照
Phase 2	DMS row count match、checksum（per-table MD5）、CDC replication lag < 5 秒
Phase 3	query result diff < 0.01%、p99 latency Aurora ≤ source × 1.2、application error rate baseline
Phase 4	cutover 完成後 1 小時內 error rate < baseline × 2、write success rate 100%
Phase 5	30 天無 rollback trigger、cost 月帳對齊預估

受監管追加 evidence：

每市場合規 sign-off 文件（central bank / 金融監管機關）
跨境複製禁令審查記錄
Data residency 驗證測試（資料未流出受監管市場 boundary）
Audit log 連續性驗證（source / target audit log 銜接）

回路徑：4.20 Observability Evidence Package 抽 CDC / latency evidence。

Cutover：切流決策

Cutover window：

建議 4 AM local time（lowest traffic）
預留 4 小時 buffer
受監管場景可能要在合規規定的 maintenance window（例如某些央行規定週日凌晨）

Rollback condition：

error rate > baseline × 5
write latency p99 > baseline × 3 持續 10 分鐘
data corruption signal（checksum mismatch、unexpected row count drop）

Rollback path：

Application connection string 切回 source
Source 仍 read-write（cutover 前留 read-write 路徑、若已 read-only 要先解凍）
CDC 反向同步（Aurora → source）catch-up

Decision owner：

DBA lead + service owner + on-call SRE 三方 sign-off
受監管場景追加 compliance officer sign-off
Cutover decision log 記錄（rollback window / rollback condition 文件化）

對應 knowledge card：rollback-window、rollback-condition。

Cleanup：雙軌退役

元素	Cleanup 策略
Source database	read-only 1 個月、確認穩定後 snapshot → S3 archive → decommission
舊 monitoring	Prometheus exporter 拆、Grafana dashboard archive、CloudWatch dashboard 為 SSoT
舊 backup chain	pgBackRest / xtrabackup retention 保留至合規邊界（金融 7 年、一般 90 天）
舊 runbook	Patroni / Orchestrator runbook archive、新 runbook 對 Aurora cluster endpoint
舊 CDC connector	DMS task 留 7 天觀察期 → delete；自管 Debezium / pglogical 在 source decommission 同時退役

不可逆 cleanup 邊界：

Source decommission 後資料只能從 backup restore
確保 backup 可用性測試通過再 decommission
受監管場景要保留 source backup 到合規 retention（金融 7 年、可能更長）

案例對照

Netflix Aurora consolidation：operational consolidation 的價值

9.C23 Netflix 多套 RDBMS（PostgreSQL / MySQL / Oracle）→ Aurora、+75% 效能 / -28% 成本。

驗證的 driver：

DB 種類太多本身是規模化的成本（每多一種 DB 多一套 DBA 知識 / backup / monitoring）
整合到 Aurora 釋放工程資源、不是純效能改善

case 自帶警示（必引用）：

「+75% 是跨多 workload 最大改善幅度、不是每 workload 都 +75%」（case「需要警惕」段第 1 點）
Aurora 非 all-purpose store 邊界：「Netflix 數據層遠不止 Aurora — 還有 Cassandra（playback metadata）、EVCache（cache layer）、Iceberg（data warehouse）。Aurora 主要是『需要 ACID 的 OLTP 工作負載』」（case「需要警惕」段第 2 點）

工程含義：consolidation 是「ACID OLTP 整合到 Aurora」、不是「所有 store 整合到 Aurora」。讀者規劃整合範圍時要明示什麼 workload 不在範圍：

Workload	是否在 Aurora consolidation 範圍	替代
ACID OLTP	是	-
Playback metadata	否（Netflix 用 Cassandra）	Cassandra / ScyllaDB
Cache layer	否（Netflix 用 EVCache）	EVCache / Redis / Memcached
Data warehouse	否（Netflix 用 Iceberg）	Iceberg / Snowflake / Redshift
Time-series	否（性能不適合）	InfluxDB / TimescaleDB self-managed
Search	否（無 inverted index 優化）	Elasticsearch / OpenSearch

DraftKings：fleet 拓樸 redesign

9.C4 DraftKings 200 個獨立 Aurora cluster、按業務切分（不是一個大 cluster + 200 schema）。

驗證的 driver：

Migration 不只是技術切換、也是 cluster 拓樸 redesign
業務本身可切分（每體育類別 / 每地理 / 每產品線）就在 migration 時順便拆 cluster
Blast radius 隔離跟容量規劃分散一起獲得

Fleet 拓樸決策：詳見 Aurora read replica scaling 邊界段 SSoT。本 playbook 提醒 migration 是拆 cluster 的好時機、不展開拓樸決策本身。

Standard Chartered：合規 lead time + 跨境複製禁令

9.C14 Standard Chartered 受監管場景揭露：

合規 lead time 是時程主項（3-12 個月 / 市場）
跨境複製禁止讓 Global Database 變反指標
每市場獨立 cluster + cross-AZ failover 是合規場景的標準解

反例：Aurora 不適合的場景

Multi-region active-active write：見 PG → Aurora DSQL Migration
跨雲：見 PG → CockroachDB Migration
極端寫入吞吐（> 100K WPS）：考慮 sharding、CockroachDB、或 DynamoDB

邊界與整合 / 下一步

Sibling playbook：

PG → Aurora DSQL — paradigm shift、Type E、multi-region active-active
PG → CockroachDB — cross-cloud、paradigm shift
PG → Aurora — 既有 PG-specific playbook、可對照本 playbook 的 vendor-neutral 版本

Sibling deep article：

Aurora storage architecture — 理解 storage 設計才知道為什麼 operational redesign
Aurora cross-AZ failover RTO — HA redesign 主項
Aurora read replica scaling — fleet 治理 SSoT、含合規 driver
Aurora Global Database — 合規禁止跨境複製的 anti-recommendation

1.x 章節互引：

1.12 大規模 DB 遷移實戰 — migration 上游 framework

何時不用本 playbook：

從 Aurora 遷到別處（反向、走對應的反向 playbook）
從 RDS PostgreSQL 升 Aurora PostgreSQL 是 in-place upgrade、用 RDS console「Convert to Aurora」即可、不需要這套 playbook
跨雲遷移：本 playbook 不涵蓋 GCP / Azure SQL → Aurora 流程

從 MongoDB / Cassandra 遷入 Cosmos DB：protocol-compat API drop-in vs native API paradigm shift、相容性邊界與 dual-write cutover

Tue, 02 Jun 2026 00:00:00 +0000

本文是 Cosmos DB overview 的 migration playbook、寫作參照 Migration Playbook 寫作方法論。從 MongoDB 或 Cassandra 遷入 Cosmos DB 的核心決策是 選哪條路徑 — 用 Cosmos 的 protocol-compat API（MongoDB API / Cassandra API）做 wire-protocol drop-in、driver 與 query 大致不動；還是換 native SQL API、把 application 重寫成 Cosmos native paradigm。這兩條路的 diff 維度、風險、不可逆性都不同、是一個 multi-element 的 migration 規劃。本文先把 driver 與 no-go 講清楚、再做 6 維 diff audit 分出兩條路徑、再進各自的 phase plan、evidence 與 cutover。

API 選擇判斷 本身（MongoDB API vs SQL API 的四層 framing、dogfood signal、multi-model、跨雲 hedging）由 mongodb-api-vs-sql-api 主寫、本文不重複展開那層對比；本文主寫 遷移流程 — 選定路徑後怎麼安全把資料與流量搬過去。

Case anchor：9.C30 Microsoft 365（MongoDB → Cosmos DB MongoDB API、planet-scale、dogfood）、9.C37 Forbes（自管 → Atlas、6 個月、同 DB 換託管的時程對照）、9.C36 Coinbase（保留 MongoDB 補周邊、對照「不一定要遷」）。Microsoft 365 case 自承沒揭露 throughput / latency / cost 數字、本文不拿它當 benchmark、只取遷移路徑 frame。

Driver：為什麼遷、什麼條件不遷

有效的遷移 driver 不是「Cosmos DB 比較好」、而是具體壓力：team 已綁 Azure 生態、需要 turnkey global distribution、自管 MongoDB / Cassandra cluster 的 ops 負擔要轉移、或需要 multi-model 把多個 NoSQL 集中治理。Microsoft 365 的 driver 是 planet-scale 全球分散 + Azure dogfood、不是 query 性能。

No-go condition（這些情況不該遷入 Cosmos DB）：

跨雲是核心需求 — Cosmos DB 只在 Azure；跨雲彈性高於 Azure 整合時、MongoDB 留 Atlas（Forbes 路徑、跨 AWS / GCP / Azure）、Cassandra 留自管或 ScyllaDB。
需要 native MongoDB / Cassandra 最新 feature — Cosmos DB 的 protocol-compat API server version 落後原生、且部分 feature 行為不同。
未來雲商策略未定 — hedging 價值高於當下整合、見 vendor lock-in 的退出成本。
現有 cluster 補周邊就夠用 — Coinbase 保留 MongoDB 加 proxy / cache / predictive scaling、沒遷出。遷移成本高、先確認「補周邊」解不了問題再遷。

Diff audit：6 維度分出兩條路徑

source（MongoDB / Cassandra）與 target（Cosmos DB）的差異按 6 維度盤點、兩條路徑的維度高低不同、這也是 type 判定的依據。

維度	protocol-compat API（MongoDB / Cassandra API）	native SQL API
Schema	Low — document / table shape 大致保留	Medium — 重新建模成 Cosmos native document
Operational	High — 自管 cluster → managed RU/s + region	High — 同左
Paradigm	Low — 仍 document / wide-column 語意	High — 換 query 模型、index policy、RU 思維
Components	Medium — driver 保留、aggregation / CQL 部分要改	High — driver、query layer、ORM 全換
Application	Medium — connection string、auth、consistency 對應	High — 整個 data access layer 重寫
Data topology	High — replica set / ring → partition + multi-region	High — 同左

主導差異決定 type：

protocol-compat 路徑 — 最大差異是 operational 與 data topology、paradigm 維持 Low、是 wire-compat 的 drop-in 但有相容 gap。對應 Type B drop-in（partial）：driver 不換、但每個 query pattern 要驗證相容性、不是無腦切換。
native API 路徑 — paradigm High + application High、是 Type E paradigm shift：不只搬資料、要重寫 application 的整個 data access layer。

判讀句：protocol-compat 是「換底層儲存與運維、保留 query 介面」、native API 是「連 query 範式一起換」。多數遷移先走 protocol-compat 把資料與 ops 搬過去、native API 是後續若要拿完整 Cosmos feature（Change Feed、stored procedure 原生支援、SQL API query）才考慮的二次遷移 — 一次到位 native API 的工程複雜度與風險顯著更高。

Cassandra 路徑的專屬差異

Cassandra → Cosmos DB Cassandra API 跟 MongoDB 路徑有一個關鍵不同：Cassandra 的資料建模是 query-driven（partition key + clustering key 對應 access pattern）、這套建模思維跟 Cosmos DB 的 logical partition 概念部分對齊、但 Cosmos DB 的 per-partition RU 上限（目前約 10,000 RU/s、vendor 規格、實作時 cross-verify Azure doc 當前值）與 RU 計費會讓原本 Cassandra 上「寬 partition + 大量 clustering row」的設計變成 hot partition 風險。CQL 的 consistency level（QUORUM / LOCAL_ONE 等）要對應到 Cosmos DB 的 5 個 consistency level、語義不是一對一、見 consistency-levels-engineering。Cassandra 的 secondary index / materialized view 在 Cassandra API 的支援度要逐項驗證（時間敏感、查文件）。

Phase plan

兩條路徑共用大架構、protocol-compat 的相容 audit 較輕、native API 多一段 application 重寫。

protocol-compat 路徑（Type B drop-in）

Phase 0：相容性 audit — 把 production query / aggregation pipeline（MongoDB）或 CQL statement（Cassandra）拉出來、逐條對照 Cosmos DB 對應 API 的 feature support 清單、列出 unsupported 與行為不同的部分。
Phase 1：partition key 設計 — MongoDB shard key / Cassandra partition key 翻譯成 Cosmos logical partition key、檢查 10,000 RU/s 上限與 hot partition 風險、見 partition-key-design。
Phase 2：bulk export-import — 初始資料用 Data Migration Tool / mongodump / sstable export 灌入。
Phase 3：CDC sync — source 的持續變更（MongoDB oplog / Cassandra CDC）同步到 Cosmos DB、收斂初始 load 後的增量。
Phase 4：shadow read — production query 在兩邊各跑一遍、對 result checksum、量 Cosmos 端 RU baseline、見 ru-cost-model-sizing。
Phase 5：read cutover — 讀切 Cosmos、寫仍 source（可回退）。
Phase 6：write cutover — 寫切 Cosmos。
Phase 7：cleanup — 退役 source cluster、保留 export 與最終 checksum。

native API 路徑（Type E paradigm shift）多出的工作

native API 路徑在 Phase 0 與 Phase 1 之間插入 application 重寫 stream、與資料遷移 stream 並行：

重新建模 document（從 MongoDB document / Cassandra table 設計 Cosmos native shape、決定 embed vs reference）
重寫 data access layer（換掉 MongoDB driver / CQL、改用 Cosmos SQL API SDK、重寫所有 query）
重寫 aggregation（Cosmos SQL API 沒有 JOIN、aggregation 模型不同、部分邏輯移到 application 或用 stored procedure / Change Feed 物化）

這條 application stream 是 native API 路徑的主要風險與工期來源、必須跟資料遷移 stream 用獨立 owner 並行、shadow read 階段要對 重寫後的 query 與 原 query 的結果一致性、不只是資料一致性。

時程現實

Forbes 同 DB 換託管（自管 → Atlas、paradigm 不變）用 6 個月、中型團隊多 squad 並行。protocol-compat 遷入 Cosmos DB 的工程複雜度高於 Forbes 型（多了 RU / partition / region 範式與相容 gap）、native API 路徑再高一個量級（加 application 重寫）。拿 Forbes 6 個月當 native API 路徑 baseline 會從第一天 over-commit。

Evidence

每個 phase 用資料證明可前進、不靠感覺：

Phase 0：unsupported feature 清單已窮舉、每條有對應策略（改寫 / 移 application 層 / 接受降級）
Phase 2-3：row / document count 對齊、CDC replication lag 收斂到穩定
Phase 4：query result checksum 一致（protocol-compat 比原 query 結果；native API 比重寫 query 與原 query 結果）、RU baseline 量到、aggregation result 逐條對齊
Phase 5-6：error rate、p99 latency、RU consumption 在 cutover 後在預期範圍
對應 schema-migration-rollout-evidence 的 dual-write 驗證

Cutover

read cutover window：先切讀、寫留 source、Cosmos 端 read error rate 與 latency 達標再進 write cutover
write cutover window：read-only freeze < 10 分鐘、切寫、最終 checksum 對齊
Rollback condition：query error rate 超過閾值（如 > 1%）、RU consumption 顯著高於估算（protocol-compat 翻譯層 overhead 比預期高）、或 result mismatch — 任一成立回退到 source、對應 rollback condition
decision owner：cutover 期間誰有權回退要事前定、資料庫切流失敗代價高、不靠臨場判斷
不可逆點：API kind 是 account 層、建 account 時選定、無法事後切換 — protocol-compat 與 native API 是 兩個不同 account；選 protocol-compat 後想升 native API 是 export → 新 account → import + 重寫 application 的二次全量遷移、不是 in-place 升級。這個不可逆性要在 Phase 0 就決定方向、不能 cutover 後反悔

Cleanup

退役 source cluster 前確認最終 checksum、保留 export dump 90 天作為 rollback 後路
移除 dual-write writer、CDC connector、shadow read harness
保留 RU baseline 與 partition 分布觀測進 production dashboard、見 ru-cost-model-sizing
incident write-back：把相容 gap 與翻譯層成本意外寫回 runbook、給未來同類遷移

失敗模式

假設 wire-compat = 100% 行為相同

protocol-compat API 是「在某些 query pattern 下相容」、不是普遍相容。MongoDB 的部分 aggregation stage（$graphLookup / $facet 等）、Cassandra 的部分 CQL feature 在對應 API 行為不同或不支援、dev 環境 sample data 看不出、production 才爆。修法是 Phase 0 把所有 production query 拉出來逐條驗證、Phase 4 shadow read 對 checksum、不能假設相容。

shard key / partition key 直接照搬

MongoDB shard key 或 Cassandra partition key 直接當 Cosmos logical partition key、忽略 10,000 RU/s per partition 上限。原本 Cassandra 寬 partition 在 Cosmos 變 hot partition、throttle。修法是 Phase 1 按 Cosmos 的 partition 上限重新評估、必要時用 synthetic / composite key 強制分散、見 partition-key-design 與 Hot Partition。

把 native API 二次遷移當「升級」低估

選 protocol-compat 上線後、想拿 Change Feed / SQL query 等 native 能力、以為「升級到 SQL API」是改設定。實際是新 account + 全量資料遷 + application 重寫的第二次完整遷移。修法是 Phase 0 就決定終態方向 — 若終態確定要 native feature 且團隊能承擔重寫、直接走 native API 路徑、不要兩段遷。

consistency level 對應錯

CQL 的 QUORUM / MongoDB 的 read concern majority 直接假設等價於 Cosmos 某個 level、語義不是一對一。修法是按 consistency-levels-engineering 把 read-after-write 與順序需求逐場景對應、不照字面翻譯 consistency 名稱。

邊界與整合

主對比 SSoT：mongodb-api-vs-sql-api — API 選擇判斷 與三型遷移路徑分類在它主寫、本文主寫選定後的 遷移流程
Sibling deep articles：partition-key-design（shard / partition key 翻譯）、ru-cost-model-sizing（翻譯層 RU overhead 與 baseline）、consistency-levels-engineering（read concern / CQL consistency 對應）、change-feed-cdc（native API 才有原生 Change Feed、是 native 路徑的 feature driver 之一）
不遷的對照：Coinbase 保留 MongoDB 補周邊 — 確認「補周邊」解不了再遷
跨雲對照：Forbes 留 Atlas 跨雲 — 跨雲需求是 Cosmos DB 的 no-go
共通遷移模型：1.12 大規模 DB 遷移實戰
Knowledge card：vendor lock-in / Hot Partition
回 overview：Cosmos DB vendor overview 的「從 MongoDB / Cassandra 遷入」backlog

Validation Query

Mon, 11 May 2026 00:00:00 +0000

Validation query 的核心概念是「用可重跑查詢證明資料語意是否符合遷移規則」。它連接 correctness check、backfill 與 migration gate，讓資料變更不只靠 job log 或人工抽樣判斷。

概念位置

Validation query 位在 schema migration、data reconciliation 與 evidence package 之間。Correctness check 定義要驗什麼，validation query 則把規則落成可查、可保存、可交接的證據。

可觀察訊號

系統需要 validation query 的訊號是：

新舊欄位或新舊資料模型會並存一段時間
backfill job 顯示完成，但仍需要證明資料語意正確
cutover 前要知道 mismatch 集中在哪些資料範圍
事故修復後要留下可回放的資料證據

接近真實網路服務的例子

訂單服務把 status 裡的付款語意拆到 payment_state 時，validation query 可以比對每批訂單的新舊語意、缺值筆數、mismatch sample 與 replication lag 對位。這些結果會進入 release gate，而不是只停在 migration job 的成功訊息。

設計責任

Validation query 要保留 query version、time range、資料範圍、mismatch 分類與 owner。它的目標是支援 rollback window 與 incident decision log 判讀，讓團隊能知道下一步是繼續、暫停、回退讀取，還是做資料修補。

Read Compatibility

Mon, 11 May 2026 00:00:00 +0000

Read compatibility 的核心概念是「讀取路徑在過渡期同時理解新舊資料語意」。它連接 Expand / Contract、schema migration 與 fallback，讓新欄位或新資料模型可以先進入 production，再逐步切換讀取權。

概念位置

Read compatibility 位在 dual write、cutover / switchover 與 migration gate 之間。雙寫處理寫入一致性，read compatibility 處理讀取方如何在缺值、延遲回填或版本混跑時仍能給出一致判讀。

可觀察訊號

系統需要 read compatibility 的訊號是：

新欄位已新增，但歷史資料尚未全部 backfill
新舊程式版本會同時服務流量
rollback 後舊版本仍需要讀懂 production 資料
內部後台、對帳或報表的切換節奏不同於使用者可見路徑

接近真實網路服務的例子

訂單服務新增 payment_state 後，讀取時可先看新欄位，缺值時回到舊 status 的付款語意。客服後台可以先用這條相容讀取路徑驗證資料，再逐步讓使用者可見查詢改用新欄位。

設計責任

Read compatibility 要定義讀取優先順序、fallback read 條件、資料新鮮度限制與停止條件。它要搭配 validation query 與 rollback strategy，避免 cutover 後才發現舊版本或長尾讀取路徑無法判讀資料。

Fallback Read

Mon, 11 May 2026 00:00:00 +0000

Fallback read 的核心概念是「新讀取路徑尚未穩定時，暫時回到舊資料語意或舊讀取來源」。它連接 read compatibility、fallback 與 rollback-window，讓 cutover 失敗時可以先限制在讀取判讀層。

概念位置

Fallback read 位在 cutover / switchover、schema migration 與 rollback strategy 之間。它保留新資料結構、暫時把讀取判斷交回舊語意或舊來源，比完整 rollback 成本低且破壞性小。

可觀察訊號

系統需要 fallback read 的訊號是：

新欄位讀取後 mismatch 升高
客服後台、報表或使用者可見查詢結果漂移
寫入路徑已經收斂，但讀取模型或索引尚未穩定
release gate 允許暫停 cutover，但尚未需要資料修補

接近真實網路服務的例子

訂單服務把付款狀態拆到 payment_state 後，客服後台若發現新欄位判讀 mismatch 升高，可以先回到舊 status 的付款語意讀取，讓客服分類回到基線，同時保留 backfill 與 validation query 繼續查證。

設計責任

Fallback read 要定義觸發條件、讀取優先順序、可維持多久、哪些入口適用，以及何時重新嘗試 cutover。它要與 validation query 和 incident decision log 對齊，避免讀取回退變成沒有證據的永久分岔。

Cutover Window

Mon, 11 May 2026 00:00:00 +0000

Cutover window 的核心概念是「正式切換發生並被密集觀察的時間與條件範圍」。它連接 cutover / switchover、migration gate 與 rollback-window，讓切換成為一段可停止、可判讀的窗口，脫離瞬間按鈕的思維。

概念位置

Cutover window 位在 release gate、steady state 與 evidence package 之間。Release gate 決定能否開始切換，cutover window 定義切換後多久內要看哪些訊號、達到什麼條件才算穩定。

可觀察訊號

系統需要 cutover window 的訊號是：

新路徑開始承接正式讀取或寫入
切換後需要觀察 mismatch、latency、error rate 或 lag
回退條件只在切換初期仍然低成本
多個入口會分批切換，需要分別記錄時間窗

接近真實網路服務的例子

客服後台先切到新 payment_state 讀取後，前 30 分鐘是 cutover window。這段期間要看 mismatch sample、客服查詢慢查詢、對帳補償量與 rollback window；穩定後才放行使用者可見讀取。

設計責任

Cutover window 要定義開始時間、觀察長度、通過條件、stop condition 與 owner。它應進入 evidence package 與 incident decision log，讓事後能回放切換當時的訊號。

Mapping Table

Mon, 11 May 2026 00:00:00 +0000

Mapping table 的核心概念是「把舊資料語意明確對應到新資料語意」。它連接 schema migration、correctness check 與 validation-query，讓轉換規則成為可查證 artifact，而不是工程師腦中的口頭規則。

概念位置

Mapping table 位在 backfill、data reconciliation 與 migration gate 之間。Backfill 依它轉換資料，validation query 依它判斷 mismatch，incident decision log 則依它追溯當時的判讀依據。

可觀察訊號

系統需要 mapping table 的訊號是：

舊欄位混合多種業務語意，需要拆到新欄位
多個舊狀態會對應到同一個新狀態
某些舊狀態需要人工確認或例外處理
事後要能解釋 mismatch 是資料錯誤還是轉換規則錯誤

接近真實網路服務的例子

訂單服務把 pending_payment、paid、payment_failed、refunded 對應到 payment_state 的 pending、captured、failed、refunded。這張 mapping table 同時支撐 backfill job、validation query 與 cutover gate。

設計責任

Mapping table 要保留來源欄位、新欄位、對應理由、例外狀態與 owner。高風險 mapping 要版本化，並進入 evidence package；否則資料漂移時，團隊很難判斷問題出在資料、程式還是規則本身。

Rollback Window

Mon, 11 May 2026 00:00:00 +0000

Rollback window 的核心概念是「變更進入 production 後，仍能用特定方式回退或改路線的有效窗口」。它連接 rollback strategy、release gate 與 migration gate，讓 gate 能判斷目前還剩哪種退路。

概念位置

Rollback window 位在 cutover / switchover、fallback plan 與 incident decision log 之間。Rollback strategy 說明回退決策，rollback window 說明這個決策在目前階段是否仍可執行。

可觀察訊號

系統需要 rollback window 的訊號是：

expand、backfill、cutover、contract 每一階段的回退方式不同
舊版本或舊資料語意只能支撐一段時間
cutover 後仍可 fallback read，但 contract 後只能資料修復或 fail-forward
release gate 要判斷是否還能安全暫停或回退

接近真實網路服務的例子

資料庫 migration 在 expand 階段通常能回到舊讀取；backfill 階段可以暫停與重跑；cutover 後可回到 fallback read；contract 移除舊欄位後，回退會轉成資料修補或 fail-forward。這些差異都屬於 rollback window。

設計責任

Rollback window 要寫清楚目前階段、可用回退方式、最後可回退時間、資料相容性限制與 owner。它要進入 release gate 與 incident decision log，避免事故期間把已經關閉的退路當成可用選項。

PostgreSQL Schema Migration Evidence Lab

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL schema migration evidence lab 的核心責任是把 schema change 轉成 release gate 可使用的 evidence。這篇承接 Online Schema Change 與 Database Migration Playbook。

本文的驗收標準是：你能設計 expand migration、量測 lock、跑 backfill validation、建立 contract migration 的 fail-forward / rollback 判準。

Expand Migration

Expand migration 的核心責任是先加入向後相容 schema。以下範例新增 accounts.email，先允許 null。

1psql "$DATABASE_URL" <<'SQL'
2\timing on
3BEGIN;
4ALTER TABLE accounts ADD COLUMN email text;
5COMMIT;
6SQL

新增 nullable column 通常是低風險操作，但仍要記錄 timing 與 lock。正式服務要在低流量窗口或 staging 上先測。

Lock Evidence

Lock evidence 的核心責任是讓 migration 的阻塞風險可見。開另一個 terminal，在 migration 前後查 lock。

1psql "$DATABASE_URL" <<'SQL'
2SELECT locktype, relation::regclass, mode, granted, pid
3FROM pg_locks
4WHERE relation IN ('accounts'::regclass, 'ledger_entries'::regclass)
5ORDER BY granted, mode;
6SQL

Release gate 要保存 lock mode、duration、blocked session 與 application impact。高風險 DDL 要先改成 expand / backfill / contract。

Backfill and Validation

Backfill and validation 的核心責任是把資料補齊並證明結果符合 domain。

1psql "$DATABASE_URL" <<'SQL'
2UPDATE accounts
3SET email = lower(owner_name) || '@example.test'
4WHERE email IS NULL;
5
6SELECT count(*) AS missing_email
7FROM accounts
8WHERE email IS NULL;
9SQL

大型表要分 batch backfill，避免 WAL、replica lag、autovacuum 與 lock 壓力。每個 batch 要記錄 row count、duration、error 與 lag。

Add Constraint Safely

Add constraint safely 的核心責任是把資料驗證和 constraint 生效拆開。

1psql "$DATABASE_URL" <<'SQL'
2ALTER TABLE accounts
3ADD CONSTRAINT accounts_email_present
4CHECK (email IS NOT NULL) NOT VALID;
5
6ALTER TABLE accounts
7VALIDATE CONSTRAINT accounts_email_present;
8SQL

NOT VALID 讓 constraint 先約束新資料，再用 validation 掃既有資料。這是 PostgreSQL online migration 常用技巧。

Query Plan Evidence

Query plan evidence 的核心責任是確認 migration 後 query 仍走正確路徑。

1psql "$DATABASE_URL" <<'SQL'
2EXPLAIN (ANALYZE, BUFFERS)
3SELECT *
4FROM accounts
5WHERE email = 'ada@example.test';
6SQL

若 email 查詢成為正式 path，要新增 index，並用 CREATE INDEX CONCURRENTLY 評估 lock 與時間。

Contract Migration

Contract migration 的核心責任是在 application 都改用新欄位後，收斂舊欄位或舊 constraint。Contract migration 要比 expand 更謹慎，因為 rollback 空間更小。

Contract release gate：

所有 app version 已停止讀舊欄位 / 舊行為。
Backfill validation 為零缺口。
Query plan 與 index evidence 已保存。
Rollback path 是 fail-forward 或 restore，兩者擇一寫清楚。
PITR / backup window 符合風險。

Release Gate Note

Release gate note 的核心責任是形成可交付 artifact。

1Migration: add accounts.email
2Expand DDL duration:
3Backfill rows:
4Validation query:
5Lock evidence:
6Query plan:
7Rollback / fail-forward:
8Owner:

完成本篇後，複雜 migration 回到 Online Schema Change；需要跨 DB 遷移則讀 Database Migration Playbook。

PostgreSQL to YugabyteDB / TiDB Migration

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL to YugabyteDB / TiDB migration 的核心責任是處理從 single-primary PostgreSQL 走向 distributed SQL 的資料拓撲變更。這條路線通常由 multi-region write、horizontal scale、tenant sharding、availability 或 single-node capacity ceiling 觸發；其中 YugabyteDB 走 PostgreSQL-compatible YSQL 路線，TiDB 走 MySQL-compatible distributed SQL 路線，兩者的 application diff audit 不同。

本文的判讀錨點是：API compatibility 只解決入口語法的一部分。YugabyteDB 要審查 PostgreSQL 相容與 distributed operation 差異；TiDB 要額外處理 PostgreSQL → MySQL dialect / driver / tooling 轉換。Distributed SQL 會改變 transaction latency、placement、index cost、DDL、sequence、lock、backup、observability 與 incident route。

Official Documentation Route

Official documentation route 的核心責任是把 compatibility claim 固定到可回查來源。YugabyteDB compatibility 先查 YugabyteDB PostgreSQL compatibility；TiDB compatibility 先查 TiDB MySQL compatibility；本文最後檢查日是 2026-05-22。

Driver Check

Driver check 的核心責任是確認 distributed SQL 解決的是核心問題。

Driver	代表需求	審查問題
Multi-region write	多地使用者都要低延遲寫入	consistency level、latency budget
Horizontal write scaling	單 primary CPU / I/O 到頂	shard key、hot key、cross-shard txn
Tenant distribution	tenant 可依 region / size 分布	tenant placement、rebalance
Availability	節點 / zone failure 容忍	quorum、failover、RPO / RTO
Operational consolidation	多 PG shard 想收斂	migration complexity、cost

若主要問題是 read scaling、connection 數或 query index，先評估 read replica、pooler、partition、Citus 或 Aurora；distributed SQL 適合資料拓撲問題。

Compatibility Audit

Compatibility audit 的核心責任是把 PostgreSQL behavior 逐項對照 target。

面向	審查問題
Protocol / API	YugabyteDB YSQL vs TiDB MySQL protocol
SQL dialect	function、extension、type、DDL support
Transaction	isolation、lock、deadlock、retry
Sequence / ID	global sequence latency、UUID policy
Index	secondary index placement、write cost
Foreign key	distributed FK cost / support
Extension	PostGIS、pgvector、custom extension；TiDB 路線需改寫或拆出
Tooling	migration tool、CDC、backup、monitoring

Compatibility audit 要用 application query suite。只看 schema import 會漏掉 transaction retry、query planner、distributed index、dialect rewrite 與 latency。TiDB 路線還要加 PostgreSQL driver / SQL / type / migration tool 轉 MySQL ecosystem 的審查。

Data Topology

Data topology 的核心責任是決定資料如何分布。Distributed SQL 的成敗常取決於 primary key、tenant key、region placement 與 hot key 控制。

拓撲決策	判讀問題
Distribution key	query 是否能 co-locate data
Region placement	資料是否需要 residency / low latency
Hot key	high-write tenant / account 是否集中
Secondary index	index write 是否跨 shard / region
Transaction span	交易是否常跨 tenant / region

Topology 設計要從最高頻 workflow 開始。若核心交易每次都跨 shard，distributed SQL 的 latency 與 conflict cost 會很高。

Migration Phases

Migration phases 的核心責任是降低跨拓撲遷移風險。

Phase	Evidence
Lab import	schema import、query suite、driver test
Topology design	key、placement、region、index review
Backfill	snapshot、batch、checksum
CDC catch-up	LSN / change stream、lag、idempotency
Shadow read	result diff、latency profile
Cutover	freeze、final sync、traffic switch
Rollback	source PG snapshot、write replay plan

CDC catch-up 要有 clear cutover LSN。Distributed SQL migration 最怕 source / target 同時有寫入後，缺少 reconciliation plan。

Application Changes

Application changes 的核心責任是讓程式接受 distributed system 的錯誤模式。

Transaction retry：serialization / conflict error 要可重試。
Idempotency：critical write 要有 natural key 或 idempotency key。
Latency budget：跨 region transaction 要進 SLO。
Pagination / ordering：distributed query 的排序成本要審查。
Connection / driver：target driver、TLS、pooling、load balancing 要測。

Application 若假設 single-node low-latency transaction，遷移後會在 tail latency 與 retry 行為上出現落差。TiDB 路線還會出現 driver、placeholder、SQL function、type mapping 與 error code 的轉換成本；這些要在 staging failure injection 先看到。

No-Go Conditions

No-go conditions 的核心責任是阻止把 distributed SQL 當成萬用擴容。

No-go 訊號	替代路由
主要瓶頸是少數 slow query	query optimization / index
多數交易跨全局資料	重設 bounded context 或保持 single primary
Team 缺少 distributed operation 能力	managed provider / simpler topology
PostgreSQL extension 依賴重	保留 PG 或拆出 specialized service
RPO / rollback 沒有演練	先完成 migration playbook
想保留 PostgreSQL driver / SQL surface	優先評估 YugabyteDB / CockroachDB / Citus

Distributed SQL 的價值來自拓撲匹配。若 workload 缺少自然分布邊界，導入後只是把單點瓶頸換成分散式複雜度。

下一步路由

PostgreSQL to YugabyteDB / TiDB migration 完成後，先讀 Global Distributed OLTP；若需求是 PostgreSQL 內分散式 table，讀 Citus Distributed；跨 vendor 流程讀 Database Migration Playbook。

PostgreSQL to SQLite Simplification

Thu, 21 May 2026 00:00:00 +0000

PostgreSQL to SQLite simplification 的核心責任是處理反向路線：服務責任縮小後，評估 SQLite 是否能降低操作成本。這條路線適合 single-user app、CLI、desktop app、內部工具、read-mostly artifact store、demo environment、local-first prototype 或 edge-local utility。

本文的判讀錨點是：降級到 SQLite 是責任縮小，也是讓資料模型回到 single-process / file-owned / local-state 的工程選擇。只要正式需求從 multi-user server DB 回到這個範圍，SQLite 可以提供更低元件數、更容易搬移與更低維護成本。

Simplification Drivers

Simplification drivers 的核心責任是確認 PostgreSQL 的能力已超過服務需求。若 server DB 的 HA、role、replica、pool、vacuum、PITR、schema governance 都變成維運負擔，而產品只需要單一 process 持有資料，就可以評估 SQLite。

Driver	代表情境	SQLite 帶來的收益
Single-user app	desktop、CLI、local admin tool	file portability、offline use
Read-mostly artifact	build metadata、catalog snapshot	deployment simple、低 runtime dependency
Internal tool	小團隊使用、資料量小、低寫入	降低 DB server operation
Demo / fixture	每個 environment 一份可重建資料	quick reset、deterministic seed
Edge-local utility	request-local / device-local state	low latency、local ownership

Driver 要連到 ownership。SQLite 適合「這份資料由某個 process / device / artifact 明確持有」；若資料仍屬於多服務共同真相，保留 PostgreSQL 或改成 managed SQL 會更穩定。

No-Go Conditions

No-go condition 的核心責任是保護仍需要 server DB 的服務。若 PostgreSQL 的核心能力仍被業務依賴，遷到 SQLite 會把風險轉移到 application code、file backup 與人工流程。

No-go 訊號	代表責任	保留路由
多 tenant 與 centralized permission	DB role、grant、audit 仍有價值	PostgreSQL
多 instance concurrent writer	SQLite writer boundary 壓力過高	PostgreSQL / MySQL
PITR / HA 是合約要求	server DB operation 是正式責任	Managed PostgreSQL / Aurora
Analyst / job 直接查 DB	access control 與 query isolation	PostgreSQL read replica / warehouse
Cross-service source of truth	單檔 ownership 與服務邊界衝突	保留 server DB 或拆 bounded context

No-go 條件要寫進 migration proposal。Simplification 的目標是降低操作成本；若降級後要用大量自製機制補回 role、audit、HA 與 concurrent write，成本會回到系統裡。

Diff Audit

Diff audit 的核心責任是把 PostgreSQL 語意縮到 SQLite 可以清楚承擔的範圍。PostgreSQL extension、function、type、index、constraint、sequence、view、trigger、role 與 transaction behavior 都要盤點。

PostgreSQL feature	SQLite 轉換策略	審查問題
`timestamptz`	UTC ISO text 或 integer epoch	timezone policy 是否固定
`jsonb` + GIN	JSON text + limited query / app filter	query 是否仍需 index
Sequence / identity	INTEGER PRIMARY KEY 或 app ID	id stability 與 import collision
Partial index	SQLite partial index	predicate 與 query planner 是否對齊
Role / grant	filesystem permission + app auth	權限是否可移到 application boundary
Extension	application logic 或放棄 feature	feature 是否仍是正式需求

Diff audit 的輸出是一份保留 / 移除 / 改寫清單。每個 PostgreSQL feature 都要回答：這是正式需求、歷史殘留，還是可以移到 application layer 的便利功能。

Phase Plan

Phase plan 的核心責任是把 server DB 退場變成可回復流程。反向 migration 要超過一次性 dump：先收斂寫入、建立 SQLite schema、匯入資料、跑 adapter test、演練 backup，再退役 PostgreSQL。

Phase	目的	Evidence
Scope reduction	確認資料責任已縮小	ownership doc、no-go review
Schema rewrite	建立 SQLite schema	migration dry run、STRICT / constraint
Data export	從 PostgreSQL 匯出 snapshot	row count、checksum、dump metadata
Data import	寫入 SQLite file	integrity check、foreign key check
Adapter switch	app 改用 SQLite repository	contract test、error mapping
Backup runbook	建立 file lifecycle evidence	backup restore drill
Server retirement	關閉 PostgreSQL 寫入與 credential	retention、credential removal、incident route

Scope reduction 是第一關。若資料仍被多個服務寫入，應先拆出 bounded context 或建立 event / export boundary；SQLite file 才能成為明確 owned artifact。

Data Movement

Data movement 的核心責任是把 PostgreSQL snapshot 轉成 SQLite file 並保留驗證。可用 COPY / CSV、application ETL 或 dedicated migration tool；選擇取決於 type conversion 與資料量。

1psql "$DATABASE_URL" -c "\\copy orders TO 'orders.csv' CSV HEADER"
2sqlite3 app.db ".mode csv" ".import --skip 1 orders.csv orders"
3sqlite3 app.db "PRAGMA integrity_check;"

這段命令是教學骨架。正式流程要處理 NULL、delimiter、timezone、numeric precision、FK order、transaction、temporary disk、sensitive data 與 import log。

Import 後要跑三種 evidence：database integrity、row count / checksum、business invariant。Business invariant 例如 active user count、total balance、latest event id、pending job count；這些比單純 row count 更能抓到語意錯誤。

Runbook Shift

Runbook shift 的核心責任是把 PostgreSQL operation 移轉成 SQLite file operation。Server DB 的 backup / role / monitoring 退場後，要補上 SQLite 的 backup、restore、file permission、WAL、migration 與 disk 觀測。

最小 SQLite runbook 包含：

Database file path、owner process、filesystem permission。
Journal mode、busy timeout、foreign key、schema version。
Backup command、restore drill、retention、checksum。
Migration command、pre-migration snapshot、rollback path。
Observability：busy、WAL size、disk free、backup age。
Incident route：disk full、bad migration、corruption signal。

Runbook shift 要同步移除 PostgreSQL credential。Server database 退役時，保留 read-only archive、刪除 application secret、關閉 scheduled job、更新 dashboard 與 incident routing。

Cleanup and Retention

Cleanup and retention 的核心責任是讓舊 PostgreSQL 不再成為影子真相。Migration 後若舊 DB 長期可寫，團隊會在事故中分不清哪份資料有效。

Cleanup 項目	操作
Write disable	PostgreSQL role 改 read-only 或關閉 app access
Archive snapshot	保存最後 dump、checksum、schema
Credential removal	移除 app secret、CI secret、admin token
Dashboard update	停用 PostgreSQL alert、啟用 SQLite alert
Documentation	更新 source-of-truth 與 restore route

Retention 要和 data protection 對齊。若 PostgreSQL 內有 PII、audit log 或 legal retention，退役流程要依 retention policy 保存或銷毀，而非直接刪除。

Decision Route

Decision route 的核心責任是讓 simplification 保持可逆。若未來 concurrent writer、central audit、PITR 或 multi-service source-of-truth 回來，系統要能沿 SQLite to PostgreSQL migration 重新升級。

現況	建議
Single-user / local artifact	SQLite simplification
Small internal tool + low write	SQLite + restore drill
Read-mostly dataset for app bundle	SQLite artifact + release version
Multi-user SaaS	保留 PostgreSQL
Audit / HA / role 是正式要求	保留 managed PostgreSQL

Simplification 的完成標準是：SQLite file 可以被重建、備份、恢復、升級與交接。只要這些 evidence 完整，從 PostgreSQL 退到 SQLite 是清楚的工程決策。

下一步路由

PostgreSQL to SQLite simplification 完成後，先讀 file lifecycle / backup boundary 建立 file operation；再讀 SQLite observability / runbook 補 evidence；若之後需求再成長，回到 SQLite to PostgreSQL migration。

SQLite Migration Fixture Lab

Thu, 21 May 2026 00:00:00 +0000

SQLite migration fixture lab 的核心責任是把 schema migration 與 test fixture 放進同一個可重建流程。這篇承接 Schema Migration / Versioning 與 Test Fixture Best Practice，讓 migration 有版本、snapshot、validation 與 rollback note。

本文的驗收標準是：你能建立 v1 fixture、套用 v2 migration、產生 v2 snapshot，並用 validation query 證明資料合約仍成立。

Create Fixture

Create fixture 的核心責任是建立乾淨、可重建的 source fixture。沿用 quickstart schema，或重新建立一份 fixture DB。

 1mkdir -p /tmp/sqlite-fixture-lab
 2cd /tmp/sqlite-fixture-lab
 3rm -f fixture-v1.db fixture-v2.db
 4sqlite3 fixture-v1.db <<'SQL'
 5PRAGMA foreign_keys = ON;
 6PRAGMA user_version = 1;
 7
 8CREATE TABLE accounts (
 9  id INTEGER PRIMARY KEY,
10  owner_name TEXT NOT NULL,
11  status TEXT NOT NULL CHECK (status IN ('active', 'closed')),
12  created_at TEXT NOT NULL
13) STRICT;
14
15CREATE TABLE ledger_entries (
16  id INTEGER PRIMARY KEY,
17  account_id INTEGER NOT NULL REFERENCES accounts(id),
18  amount_cents INTEGER NOT NULL CHECK (amount_cents != 0),
19  idempotency_key TEXT NOT NULL UNIQUE,
20  created_at TEXT NOT NULL
21) STRICT;
22
23INSERT INTO accounts VALUES (1, 'Ada', 'active', '2026-05-21T00:00:00Z');
24INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key, created_at)
25VALUES (1, 1000, 'fixture-v1-ada', '2026-05-21T00:10:00Z');
26SQL

這個 fixture 是 v1 source of truth。CI 可以每次從 SQL 重建，也可以保存 fixture-v1.db 作為 binary fixture；兩者都要有版本與 checksum。

Pre-Migration Snapshot

Pre-migration snapshot 的核心責任是建立 rollback 起點。正式 migration 前應先保存 source DB。

1sqlite3 fixture-v1.db ".backup 'fixture-v1-before-migration.db'"
2sqlite3 fixture-v1-before-migration.db "PRAGMA integrity_check;"

這份 snapshot 代表 migration 失敗時的回退點。CI log 要保留 snapshot path、schema version 與 migration id。

Apply Add Column Migration

Apply add column migration 的核心責任是展示低風險 schema change。先複製 v1，再套用 v2。

1cp fixture-v1.db fixture-v2.db
2sqlite3 fixture-v2.db <<'SQL'
3PRAGMA foreign_keys = ON;
4BEGIN;
5ALTER TABLE accounts ADD COLUMN email TEXT;
6PRAGMA user_version = 2;
7COMMIT;
8SQL

驗證 schema version 與新欄位：

1sqlite3 fixture-v2.db <<'SQL'
2PRAGMA user_version;
3PRAGMA table_info(accounts);
4SQL

Add column 是較簡單的 migration。涉及 drop column、rename、constraint 重建或資料 reshape 時，應改用 table rebuild 策略。

Table Rebuild Example

Table rebuild 的核心責任是展示 SQLite schema migration 的高風險路徑。以下範例把 accounts.status 的 allowed value 加入 suspended，透過新表重建 constraint。

 1sqlite3 fixture-v2.db <<'SQL'
 2PRAGMA foreign_keys = OFF;
 3BEGIN;
 4
 5CREATE TABLE accounts_new (
 6  id INTEGER PRIMARY KEY,
 7  owner_name TEXT NOT NULL,
 8  status TEXT NOT NULL CHECK (status IN ('active', 'closed', 'suspended')),
 9  created_at TEXT NOT NULL,
10  email TEXT
11) STRICT;
12
13INSERT INTO accounts_new(id, owner_name, status, created_at, email)
14SELECT id, owner_name, status, created_at, email
15FROM accounts;
16
17DROP TABLE accounts;
18ALTER TABLE accounts_new RENAME TO accounts;
19
20PRAGMA user_version = 3;
21COMMIT;
22PRAGMA foreign_keys = ON;
23SQL

Table rebuild 要保存 index、trigger、view 與 FK reference。這個 lab 只有小型 schema；正式 migration 要先列出所有 dependent object。

Validation Query

Validation query 的核心責任是證明 migration 後資料仍符合 domain invariant。

1sqlite3 fixture-v2.db <<'SQL'
2PRAGMA integrity_check;
3PRAGMA foreign_key_check;
4SELECT COUNT(*) AS account_count FROM accounts;
5SELECT COUNT(*) AS ledger_count FROM ledger_entries;
6SELECT SUM(amount_cents) AS total_balance FROM ledger_entries;
7PRAGMA user_version;
8SQL

驗收結果應包含 integrity ok、foreign key check 空結果、account count 1、ledger count 1、total balance 1000、user version 3。

Contract Test Hook

Contract test hook 的核心責任是讓 fixture 進入 CI。語言與 framework 可以不同，但測試要固定做三件事：開啟 FK、確認 schema version、跑 repository contract。

1test setup:
2  copy fixture-v2.db to temp path
3  open SQLite connection
4  execute PRAGMA foreign_keys = ON
5  assert PRAGMA user_version = 3
6  run repository contract tests

每個 test 使用 temp copy 可以避免資料污染。需要測 concurrency 時，改用 WAL busy reproduction。

Rollback Note

Rollback note 的核心責任是把 migration 失敗時的處理寫清楚。這個 lab 的 rollback 是保留 fixture-v1-before-migration.db，在 migration validation 失敗時停止 release 並保存 failed DB。

正式 runbook 要記錄：

Migration id 與 source / target user_version。
Pre-migration backup path。
Validation query 與結果。
Failed DB 保存路徑。
Release block / rollback 條件。

完成本篇後，下一步可以讀 SQLite to PostgreSQL migration 或 SQLite to D1 / Turso migration。

SQLite Schema Migration and Versioning

Thu, 21 May 2026 00:00:00 +0000

本文是 SQLite overview 的 implementation-layer deep article。Overview 已說明 SQLite 的 embedded / single-file 定位；本文聚焦 schema version、ALTER TABLE boundary、table rebuild migration 與 application release compatibility。

SQLite schema migration 的核心責任是讓單檔資料庫隨 application release 安全演進。SQLite 沒有獨立 database server，也沒有 DBA 在 server 端統一套 migration；migration 常在 application startup、CLI command、mobile app upgrade 或 desktop app launch 時發生，因此 schema version、binary compatibility、backup 與 rollback 要放在同一個 release contract 中設計。

本文的判讀錨點是：SQLite migration 同時改資料庫檔案與 application 能讀的資料格式。只要使用者或服務可能拿舊 binary 打開新 database，或新 binary 打開舊 database，migration 就要處理 forward / backward compatibility，而不只是 SQL 成功執行。

Version model

SQLite schema versioning 的服務責任是讓 application 能判斷 database file 目前處於哪個契約。SQLite 提供 PRAGMA user_version 作為 application-controlled integer；更複雜的服務也可以用 migration table 記錄多步驟版本、checksum 與執行時間。

1PRAGMA user_version;
2PRAGMA user_version = 2026052101;

方式	適合情境	優點	邊界
`user_version`	mobile / desktop / CLI single file	簡單、內建、開檔即可讀	只能存一個整數，缺 migration history
migration table	small backend、多人維護 schema	可記錄每步 migration 與 owner	需要先建立 table 與初始化流程
external manifest	fixture、artifact、read-only DB	可和 release artifact 綁定	DB file 本身不含完整 history

Version model 要在第一版就定義。沒有版本欄位的 SQLite file 仍可 migration，但 application 只能靠 introspection 猜 schema，會讓 upgrade / downgrade runbook 複雜化。

ALTER TABLE boundary

SQLite ALTER TABLE 的核心責任是處理有限集合的 schema 變更。官方文件說明 SQLite 支援 rename table、rename column、add column、drop column；更複雜的變更要走 table rebuild pattern。

變更類型	SQLite 支援形態	操作判讀
Rename table / column	直接 ALTER，版本差異影響 trigger / view	需要測 trigger、view、FK reference
Add column	多數情境很快，受 default / constraint 限制	適合 expand migration
Drop column	需要檢查 index、constraint、trigger、view	可能掃資料，需 maintenance window
Change type / constraint	通常走 table rebuild	需要完整 copy、foreign key check、validation

SQLite schema 存在 sqlite_schema 的 SQL text 中；這讓檔案格式簡潔，但也讓 ALTER TABLE 的安全條件和 server SQL 不同。Production migration 應優先用官方建議的 rebuild procedure，而非直接修改 sqlite_schema。

Table rebuild migration

Table rebuild migration 的服務責任是安全完成 SQLite 直接 ALTER 難以表達的變更。官方 ALTER TABLE 文件建議的 generalized procedure 是建立新 table、copy data、drop old、rename new、重建 index / trigger / view、跑 foreign key check、commit。

 1BEGIN;
 2PRAGMA foreign_keys = OFF;
 3
 4CREATE TABLE new_orders (
 5  id INTEGER PRIMARY KEY,
 6  status TEXT NOT NULL,
 7  paid_at TEXT
 8);
 9
10INSERT INTO new_orders (id, status, paid_at)
11SELECT id, status, paid_at
12FROM orders;
13
14DROP TABLE orders;
15ALTER TABLE new_orders RENAME TO orders;
16
17PRAGMA foreign_key_check;
18PRAGMA user_version = 2026052101;
19COMMIT;
20PRAGMA foreign_keys = ON;

這段範例是教學骨架，而非可直接複製到所有 schema 的萬用腳本。真實 migration 要先保存 index、trigger、view 與 FK reference，再依 schema 重建；有資料量時還要考慮 copy duration、disk 空間與 rollback snapshot。

App release compatibility

SQLite migration 的 application compatibility 來自 binary 與 DB file 的同步問題。Server SQL migration 通常有 central deploy order；SQLite file 可能跟著使用者裝置、desktop profile、CLI artifact 或 edge deploy 留在不同版本。

相容性問題	真實情境	設計策略
新 app 打開舊 DB	使用者升級 app	startup migration、read compatibility
舊 app 打開新 DB	使用者 downgrade、同步舊 binary	保留 backward-compatible column、feature gate
多裝置不同版本	local-first / sync app	sync protocol version、server authority
fixture 與 production drift	test fixture 沒更新	fixture version、contract test、migration smoke

Compatibility 的核心是先決定支援範圍。Mobile app 常要支援舊版資料庫升級；internal CLI 可能只支援最新版本；test fixture 則需要每次 migration 後重新產生。

Migration evidence

Migration evidence 的責任是證明 schema 變更已完成且資料仍可用。SQLite migration evidence 比 server DB 簡單，但更依賴 application-level validation。

Evidence	目的	範例
schema version	確認 DB file 契約	`PRAGMA user_version`
row count	確認 copy / rebuild 無漏資料	`SELECT COUNT(*) FROM orders`
domain query	確認重要 business invariant	unpaid / paid 狀態數量
foreign key check	確認 reference integrity	`PRAGMA foreign_key_check`
integrity check	檢查 DB 結構	`PRAGMA integrity_check`
backup marker	回退點	pre-migration `.backup` file

這些 evidence 應接到 Observability Evidence Package 或 release note。SQLite migration 失敗時，最清楚的 rollback 通常是回到 migration 前 snapshot，而非在同一檔案上繼續試錯。

Production 踩雷

Case 1：startup migration 讓 app 啟動卡住

Startup migration 的核心風險是把長時間 table rebuild 放在使用者啟動路徑。小表新增 column 可能很快；大表 rebuild、index 重建或 vacuum 類操作會讓 app 啟動、CLI command 或 API cold start 變慢。

修正方向是先估資料量。短 migration 可在 startup；長 migration 要有 explicit command、progress、backup 與 rollback route。

Case 2：fixture schema 升級漏掉 production gap

Fixture schema drift 的核心風險是測試 DB 和 production DB 的 dialect / constraint 不一致。SQLite fixture 很快，但 production 若是 PostgreSQL / MySQL，type、date、NULL、constraint 與 transaction 行為都可能不同。

修正方向是把 SQLite fixture 明確標成 contract test 層。Repository error mapping、domain invariant 可以用 SQLite；production-specific SQL 要用 production database container 驗證。

Case 3：直接改 `sqlite_schema`

直接改 sqlite_schema 的核心風險是產生語法正確但語意破壞的 database file。SQLite 官方文件提供 writable schema route，但同時強調錯誤修改可能讓 database corrupt / unreadable。

修正方向是讓 writable schema 成為最後手段。一般 migration 優先用 ALTER TABLE 或 table rebuild；需要特殊修復時先複製原檔，在副本驗證。

操作檢查清單

SQLite migration runbook 至少要記錄：

DB file 目前 user_version 與 application release version。
Migration 是否可重入、是否可中斷後恢復。
Migration 前 backup / snapshot 位置。
需要 table rebuild 的 table、資料量、index / trigger / view 清單。
Validation query、row count、foreign key check、integrity check。
舊 binary / 新 binary 的相容策略。
Fixture DB 是否已重新產生並被 contract test 使用。

下一步路由

SQLite to D1 / Turso Migration

Thu, 21 May 2026 00:00:00 +0000

SQLite to D1 / Turso migration 的核心責任是把 local SQLite 轉成 edge / serverless / distributed SQLite-compatible product。這條路線的 driver 通常是 edge locality、Workers integration、managed operation、global read latency、embedded replica 或 serverless deployment workflow。

本文的判讀錨點是：D1 / Turso migration 是 runtime boundary 變更。Local file 直連變成 platform binding、remote endpoint 或 embedded replica；因此 migration 要同時審查 SQL support、data movement、driver API、auth、latency、freshness、backup 與 vendor exit。

Migration Drivers

Migration drivers 的核心責任是確認 edge SQLite 產品解決的是哪個服務壓力。D1 與 Turso / libSQL 都接近 SQLite experience，但它們的採用理由應寫成具體 workload。

Driver	適合產品	判讀訊號
Workers integration	Cloudflare D1	App 已在 Workers、資料量小、query 清楚
Serverless low ops	D1 / Turso	不想維護 host DB、可接受 platform limit
Low-latency read	Turso / embedded replica	read-heavy、freshness window 明確
Edge-local app	D1 / Turso	使用者分散、write rate 可控
Portable SQLite base	Turso / libSQL	想保留 SQLite-like schema 與 local dev

D1 的 migration driver 要和 Cloudflare platform 綁定。若 app 已用 Workers routing、KV、Queues 或 Pages，D1 可以降低跨平台整合成本；若 app 不在 Cloudflare 生態，D1 的價值要用 latency、operation 與成本證明。

Turso / libSQL 的 migration driver 要和 replica freshness 綁定。若使用者需要 local read speed，embedded replica 有價值；若產品要求每次讀都立即看到最新 global state，就要先設計 read-after-write path。

Compatibility Audit

Compatibility audit 的核心責任是確認 local SQLite schema、query 與 migration workflow 可在 target product 上運作。官方文件要作為 limits 與 feature 的單一來源：D1 參考 Cloudflare D1 docs 與 D1 limits；Turso 參考 Turso docs 與 libSQL client reference。

面向	審查問題	Evidence
SQL support	schema、trigger、index、JSON、FK	migration dry run、query suite
Size / batch	import file、query duration、batch size	limit review、sample import
Driver API	local file path 變成 binding / endpoint	repository adapter test
Auth	token、binding、environment secret	staging deployment
Transaction	request boundary、retry、write location	failure injection
Backup	export、restore、retention	restore drill

Compatibility audit 要以 production query 為單位。只跑 CREATE TABLE 會漏掉最重要的差異；query suite 要包含 list page、pagination、unique violation、FK violation、transaction rollback、large batch 與 slow query。

Data Movement

Data movement 的核心責任是把 SQLite file 轉成 target platform 可接受的 seed。Local SQLite 可以先 export 成 SQL dump、CSV 或 platform CLI 支援的 import format，再進 target product。

1sqlite3 app.db ".dump" > seed.sql

這段命令只是 seed 起點。正式流程要處理 schema ordering、unsupported SQL、large transaction、batch split、sensitive data masking、import duration、row count 與 checksum。

D1 migration 要把 Wrangler / platform workflow 納入 runbook。Cloudflare D1 的 limits 文件列出 import 與 query 限制；大型資料變更應切 batch，並在 preview / staging database 跑完整 dry run。

Turso migration 要把 remote database 與 embedded replica 分開驗證。Seed 完 remote primary 後，要測 local embedded replica 的 bootstrap、sync、read freshness、write delegation 與 offline behavior。

Application Change

Application change 的核心責任是把 database access 從 file path 改成可替換 adapter。Local SQLite 常用 file path 與 process-local connection；D1 / Turso 會加入 binding、endpoint、token、client SDK、network failure 與 platform runtime。

改動層	Local SQLite	D1 / Turso route
Connection	file path	Workers binding、HTTP / libSQL endpoint
Auth	filesystem permission	platform secret、token、binding
Error model	SQLite error code	SDK / platform error + SQLite-like error
Retry	local busy / lock retry	network retry、idempotency、timeout
Observability	app log + file metric	app log + platform metric

Repository adapter 要承擔 driver 差異。Domain layer 應看到穩定的 repository contract，例如 duplicate key、stale read、temporary unavailable、retryable write；底層才處理 D1 binding 或 libSQL client。

Idempotency 是 edge migration 的關鍵。Write request 進入 network / serverless runtime 後，retry 可能在 client、platform 或 application 層發生；每個 critical write 都應有 idempotency key 或 natural unique key。

Evidence

Evidence 的核心責任是證明 edge migration 帶來的收益大於新風險。D1 / Turso 的成功要同時看功能可用、region latency、freshness、error rate、cost、migration time 與 exit route。

Evidence	最小驗證方式
Latency by region	從主要 user region 跑 read/write test
Freshness	write 後在 replica / edge read 檢查
Migration repeatability	staging database 從空庫重跑 seed
Error mapping	duplicate、constraint、timeout、auth
Cost	request、storage、egress、operation
Exit route	export file + restore to local SQLite

Freshness evidence 要用產品語言寫。若 UI 可以顯示「同步中」，freshness window 可被使用者理解；若是付款、庫存、權限決策，讀舊資料會直接造成業務錯誤，這類 workflow 要走 primary read 或 server SQL。

Exit route 要被演練。Edge product 的 adoption cost 低，exit cost 會出現在 driver API、migration workflow、platform binding 與 data export；至少要能把 staging data export 回 SQLite file 並通過 smoke test。

Rollback

Rollback 的核心責任是保留 local SQLite snapshot 與 read-only fallback。Edge migration 若在 cutover 後遇到 auth、latency、limit 或 query error，團隊要能快速回到上一個可用資料狀態。

Rollback 觸發	回退策略
Import / migration 失敗	清空 target、修 migration、重跑 seed
Query error spike	切回 local SQLite / previous endpoint
Freshness issue	critical read 改 primary path
Cost / limit spike	降低 traffic、batch migration、重評估
Vendor incident	read-only mode、fallback endpoint

Local snapshot 要保存到 cutover 後的觀察窗口結束。若 cutover 期間已有 target-only writes，要設計回放或 reconciliation；高風險 workflow 可以先進 read-only cutover，再逐步開寫。

Decision Route

Decision route 的核心責任是把 edge migration 和 server DB migration 分開。D1 / Turso 適合 edge runtime 與 SQLite-like workflow；當需求轉向 central audit、server role、high-write OLTP 或 distributed transaction，應改走 PostgreSQL / CockroachDB / Spanner。

需求	路由
Workers app + small relational data	D1
Read-heavy app + local replica value	Turso / libSQL
Backup / restore 是主要問題	Litestream / LiteFS
多 tenant + permission + audit	SQLite to PostgreSQL
Global write transaction	Global Distributed OLTP

下一步路由

SQLite to D1 / Turso migration 完成後，先讀 D1 / Turso / libSQL comparison 釐清 product boundary；再用 SQL dialect and index limits 做 compatibility audit；需要操作演練時讀 D1 / Turso preview lab。

SQLite to PostgreSQL Migration

Thu, 21 May 2026 00:00:00 +0000

SQLite to PostgreSQL migration 的核心責任是把 embedded single-file state 升級成 server SQL operational model。這條路線通常由 multi-user access、HA、central audit、permission、online schema governance、write concurrency 或 team handoff 壓力觸發。

本文的判讀錨點是：升級到 PostgreSQL 是服務責任擴大，而非單純換 driver。Migration 要同時處理 schema 語意、資料搬遷、application adapter、backup / PITR、role、observability、cutover 與 rollback。

Migration Drivers

Migration drivers 的核心責任是確認 PostgreSQL 真的承擔新增責任。SQLite 在 single-node、single-file、low-concurrency 場景很強；PostgreSQL 的價值出現在 server database governance。

Driver	代表需求	PostgreSQL 承擔的責任
Concurrent writers	多 instance / 多使用者同時寫入	MVCC、connection management、lock insight
HA / PITR	需要時間點恢復與 managed backup	WAL archiving、replica、restore drill
Central audit	需要查詢與變更證據	role、log、extension、SIEM integration
Permission boundary	app / analyst / job 權限分離	DB role、grant、row / schema boundary
Schema governance	migration 要 online 且可審查	migration tool、lock review、rollback
Shared data platform	多服務共用正式資料	connection pool、capacity、ownership

Driver 要被量化。若問題只是單一 CLI 檔案變大，先改善 backup、VACUUM、index 與 WAL runbook；若問題是多 instance 同時寫、權限分離、audit 與 PITR，PostgreSQL 才是正確路由。

Diff Audit

Diff audit 的核心責任是把 SQLite 語意轉成 PostgreSQL 語意。SQLite 的 type affinity、date / time convention、auto-increment、foreign key、index、JSON、transaction 與 extension 都要逐項審查。

面向	SQLite source 問題	PostgreSQL target 決策
Type	dynamic typing、STRICT usage	integer / bigint / numeric / timestamptz
Primary key	rowid、INTEGER PRIMARY KEY	identity、sequence、UUID
Date/time	TEXT / INTEGER convention	timestamptz、timezone policy
JSON	JSON text / function usage	jsonb、GIN index、query rewrite
Constraint	FK pragma、check、unique collation	enforced FK、deferrable、collation
Index	partial / expression / covering index	equivalent index + explain
Transaction	single writer、savepoint	isolation level、deadlock retry

Type mapping 要先保護 domain invariant。金額欄位用 integer cents 或 numeric、時間欄位用 timestamptz 或明確 UTC text、boolean 用 boolean；每個轉換都要有 invalid sample 與 round-trip test。

Index mapping 要用 production query 重跑 explain。SQLite 的 EXPLAIN QUERY PLAN 只能說明 SQLite planner；PostgreSQL 需要自己的 EXPLAIN (ANALYZE, BUFFERS)，並使用接近真實分布的資料量。

Phase Plan

Phase plan 的核心責任是降低一次性 cutover 風險。SQLite to PostgreSQL migration 通常可以分成 schema 建模、資料匯出、adapter 切換、shadow read、freeze / cutover 與 cleanup。

Phase	目的	Evidence
Schema rewrite	建立 PostgreSQL target schema	migration dry run、schema review
Data export	從 SQLite 取出穩定 snapshot	source checksum、row count、export log
Data import	寫入 PostgreSQL	target checksum、constraint validation
Adapter layer	將 repository 改為可切換	dual test suite、error mapping
Shadow read	比對新舊 query result	mismatch report、latency profile
Cutover	切正式寫入	freeze window、rollback snapshot
Cleanup	退役 SQLite write path	retention、credential、runbook update

Adapter layer 是風險控制點。Repository 應把 SQLite 與 PostgreSQL driver 差異藏在 infrastructure layer，domain 不直接依賴 vendor-specific SQL exception 或 connection object。

Shadow read 適合先驗證 read contract。正式寫入仍留在 SQLite 時，background job 可以把相同 query 跑到 PostgreSQL mirror，記錄 row count、field diff、排序差異與 latency。

Data Movement

Data movement 的核心責任是讓搬遷結果可驗證。SQLite database file 可以透過 .dump、CSV export、application-level export 或 custom ETL 搬入 PostgreSQL；選擇取決於資料量、型別轉換、FK order 與 downtime window。

1sqlite3 app.db ".mode csv" ".headers on" ".once orders.csv" "SELECT * FROM orders ORDER BY id;"
2psql "$DATABASE_URL" -c "\\copy orders FROM 'orders.csv' CSV HEADER"

這段命令是教學骨架。正式 migration 要處理 quoting、NULL、timezone、large object、FK order、batch size、transaction size、retry、import log 與 sensitive data handling。

Row count 是基本證據，checksum 是更強證據。可以針對每張表計算穩定排序後的 hash，或在 application layer 對 domain key 與重要欄位做 checksum。

1SELECT COUNT(*) FROM orders;
2SELECT SUM(total_cents) FROM orders;

Aggregate checksum 適合快速抓大錯。正式驗證還要補抽樣 row diff、edge case row、foreign key check 與 business invariant。

Cutover

Cutover 的核心責任是控制最後一次寫入切換。SQLite source 在 cutover 前應進入 read-only 或 writer freeze，確保最後 snapshot、import 與 validation 對齊。

Cutover step	操作	Rollback 條件
Freeze writers	停止背景 job、API write、admin tool	source 寫入仍持續或 freeze 失敗
Final snapshot	SQLite backup / export	checksum 失敗
Final import	PostgreSQL transaction / batch import	constraint error、row mismatch
Smoke test	核心 read/write workflow	error rate、latency、permission failure
Switch traffic	更新 config / secret / deployment	application error rate 超過 tripwire
Monitor	query latency、lock、connection pool	pool exhaustion、deadlock spike、data diff

Rollback 要保存 source snapshot。若 cutover 後發現 PostgreSQL error mapping、permission 或 performance 問題，可以切回 SQLite read/write snapshot；前提是 cutover window 內所有新寫入都能回放或被阻擋。

PostgreSQL Operation Gate

PostgreSQL operation gate 的核心責任是確認團隊準備好接手 server DB。Migration 成功要包含資料進入 target 與 operation readiness；PostgreSQL 需要 connection pool、backup / PITR、vacuum、index bloat、role、migration lock review 與 alert。

最小 operation checklist：

Connection pool 設計：max connections、pool size、timeout、transaction pooling policy。
Backup / PITR：restore drill、retention、RPO / RTO。
Role / grant：application role、migration role、read-only role。
Migration lock review：DDL impact、online migration strategy。
Observability：slow query、lock wait、deadlock、replica lag、disk。
Incident route：rollback、restore、read-only mode、on-call owner。

這個 gate 要在 cutover 前完成。SQLite 讓 operation surface 很小；PostgreSQL 擴大能力的同時，也擴大維護責任。

No-Go Conditions

No-go condition 的核心責任是阻止過早升級。若服務仍是 single-user、local-first、low-write、可用簡單 backup 解決，PostgreSQL 可能引入比問題更大的 operation cost。

No-go 訊號	更合適路由
Single-user app 或 desktop app	保留 SQLite + backup / migration runbook
主要壓力是備份	Litestream / LiteFS
主要壓力是 edge locality	D1 / Turso route
Team 尚未準備 server DB operation	先補 observability / restore drill
Schema / query 還在快速探索	先穩定 domain model，再做正式 migration

No-go 條件要轉成 tripwire。當 writer concurrency、audit、PITR、role 或 HA 需求跨過明確門檻，再啟動 migration。

下一步路由

SQLite to PostgreSQL migration 完成後，下一步要看 target operation。PostgreSQL 能力讀 PostgreSQL；migration 方法讀 Database Migration Playbook；若需求只是 edge platform，改讀 SQLite to D1 / Turso migration。

Atlassian Statuspage → Instatus：status page 成本下降、但 compatibility audit 不能跳

Tue, 19 May 2026 00:00:00 +0000

項目	Atlassian Statuspage（Business / Enterprise）	Instatus（Pro / Business）	差距判讀
月費	Business 約 $399/mo、Enterprise 約 $1,499/mo 起	Pro 約 $20/mo、Business 約 $300/mo	savings 取決於 target tier
Custom domain + SSL	內建	Free tier 起就含	持平
Subscriber 上限	依 tier 提升	Pro 約 5,000 subscriber、Business 約 25,000 subscriber	需對齊現有 subscriber 數
Component 上限	依 tier 提升	Pro 有上限、Business 放寬	大型 page 要逐項確認
Notification channel	Email / SMS / Slack / Teams / webhook / RSS / Atom	Email / SMS / Slack / Discord / Teams / Telegram / RSS / Webhook	Instatus 多 chat channel
Metrics 圖表	Datadog / Pingdom / New Relic / Library	Datadog / Pingdom / New Relic / StatusCake / API	payload / auth 要重接
SAML SSO	Enterprise tier	Business tier	不是產品缺口、是 tier 差異
Audit / activity log	Enterprise / team governance 能力	需依 plan 確認	強合規要逐項驗證
SLA / uptime report	內建能力較成熟	需確認 plan 或外接	contract deliverable 要驗證
API parity	完整 REST	REST API	endpoint / schema 不同

成本差距是這條 migration 的 driver、但表格右側的 tier 差異是 blocker candidate。對 不需要 Enterprise governance / 強 SLA reporting / 深 Atlassian 整合 的中小 SaaS、從 Statuspage Business / Enterprise 降到 Instatus Pro / Business 可以有明顯 savings、cutover 工作量通常落在 1-4 週；對 enterprise 強合規 的場景、SSO、audit、reporting 與可用性承諾任一不能讓步時、migration 要先停在 compatibility audit。

這篇是 Type B drop-in migration playbook、結構順序是：先跑 compatibility audit（確認 gap 都可接受）→ 再進 cutover。Type B 看起來簡單、但跳過 audit 直接切是這 batch 第三常見的事故來源。

為什麼是 Type B（全 Low）

跑 6 維 diff dimension audit：

維度	評	說明
Schema	Low	component / incident / subscriber model 接近一致、欄位名稱 1:1
Operational	Low	都是 public status page + notification、ops 模型相同
Paradigm	Low	同 paradigm（public service status disclosure）
Components	Low	都是單一 SaaS
App change	Low	API 端點換、payload 接近一致
Topology	Low	都是 cloud SaaS

全 Low → Type B drop-in + compatibility audit prefix。

Compatibility audit prefix

切換前先跑 audit、確認以下 9 項 對自己的 case 是否可接受。任一項是 no、回頭評估是否真要遷：

1. Subscriber channel 完整度

Statuspage 主要 channel：Email、SMS、Slack、Microsoft Teams、Webhook、RSS、Atom。Instatus 多了 Discord 跟 Telegram、少了 Atom（RSS 仍在）。

確認現有 subscriber 用的 channel 都在 Instatus 支援列表
特別注意 legacy RSS Atom feed reader — 有些 monitoring service 用 Atom 訂閱、要改成 RSS 或 webhook

2. SAML SSO

SAML SSO 是 tier decision、不是單純產品有無。Statuspage 把 SAML 放在較高 tier；Instatus 也在 Business tier 提供 SAML。真正要判斷的是：成本 savings 是否仍成立、以及 IdP / SCIM / role mapping 是否符合 audit 要求。

確認 target Instatus plan 是否包含 SAML
確認 IdP / group / role mapping 是否能對上現有 audit requirement
如果 savings 只在 Pro tier 成立、但 compliance 要 SAML，就不能用 Pro tier 當 ROI 基準

3. Audit log

Audit log 是 governance surface。誰 publish 哪則 incident、誰改了哪個 component status、誰匯入 subscriber，這些事件在 Statuspage Enterprise / Instatus Business 類 plan 的支援深度與匯出能力要逐項比對。

確認 status page 變更是否需要 internal audit trail
確認 target plan 是否能查詢、匯出與保留 admin activity
金融 / 醫療場景要把 audit retention 與 evidence export 放進 go/no-go gate

4. SLA / uptime report 自動產出

SLA / uptime report 是 customer contract surface。Statuspage 的 enterprise workflow 通常更成熟；Instatus 是否能直接覆蓋，要看 plan、API 與既有客戶報表格式。

如果 contract 寫了「每月 SLA report 自動推送客戶」、Instatus 要外接補這條
評估外接成本（一條 cron + 一個 BI dashboard、3-5 天工程）vs Statuspage 內建

5. 可用性承諾與 provider outage

Status page provider 本身的可用性承諾是 compatibility audit 的一部分。強合規或大型 customer-facing page 要確認 provider SLA、status page provider 自身 outage 時的 fallback、以及是否需要獨立備援頁。

多數場景能接受 status page provider 跟自己 service 不同供應商已經足夠
強合規 + 「status page must never be down」場景要設獨立 fallback，而不是只比較 UI 功能

6. Metrics integration 來源

兩家都接 Datadog / Pingdom / New Relic / StatusCake / Library API。Instatus 多了 StatusCake、少了某些 Statuspage 內建 library。

確認當前 metrics 顯示圖表的 source 在 Instatus 支援列表
特別注意 custom metrics from API（自家 push 上去的）— 兩家都支援、payload 格式不同、要重寫 push script

7. Custom CSS / branding 完整度

Statuspage Enterprise 允許 完整 custom CSS override、Instatus Pro / Team 允許 theme customization（颜色 / logo / font）但 不允許任意 CSS injection。

如果有大量 custom CSS 跟既有品牌 site 視覺 1:1 對齊、Instatus 可能達不到、要評估視覺退讓
大多數 status page 視覺 ≠ 主 product site、退讓常見

8. API parity 跟自動化 hook

兩家都有完整 REST API（create incident、update component status、push subscriber）。但 endpoint URL / auth scheme / payload schema 不同：

Statuspage：https://api.statuspage.io/v1/pages/{page_id}/...、OAuth bearer token
Instatus：https://api.instatus.com/v1/{page_id}/...、API key header

如果有 從 IR 平台（incident.io / Rootly / FireHydrant / 自製 webhook）push status update 的自動化、要重寫對接、估算 2-5 天工程。

9. Atlassian 生態整合（Opsgenie / JSM / Confluence）

Statuspage 跟 Opsgenie / JSM / Confluence 同生態、有原生整合（Opsgenie incident → Statuspage incident draft、Confluence post-mortem auto-link）。Instatus 跟 Atlassian 沒原生整合、要走 webhook。

如果 Atlassian 整合是核心 workflow、評估走 webhook 工作量
如果是 incident.io / Rootly / FireHydrant 主用、Instatus 反而有原生整合（這條變優勢）

Cutover 階段

Audit 全過後、Type B drop-in 不需要 11-phase 結構、4 階段：

Stage 1：Setup + parallel run（1 週）

在 Instatus 開帳號、設 component（先複製 Statuspage 結構 1:1）
設 custom domain + SSL（Instatus 預設 free tier 已含）
接 subscriber channels（先不切 DNS、純內部測試）
用 Instatus API 從 Statuspage export incident history 灌回 Instatus（保留歷史 uptime 連續性）
Parallel run：當前若有 incident、在 Statuspage 跟 Instatus 兩邊都 push、確認 subscriber 在兩邊都收到、UI 都正常

Stage 2：DNS 預備（1 天）

Statuspage custom domain CNAME / ALIAS 預設 TTL 通常 1 小時、提前 48 小時把 TTL 降到 5 分鐘
這步是 minimize cutover window 的關鍵、不做的話 cutover 期間有 1 小時 DNS cache 兩邊 page 不同步

Stage 3：DNS cutover（30 分鐘 - 1 小時）

把 status page custom domain 從 Statuspage CNAME 改指 Instatus CNAME
5 分鐘 TTL 後新流量都進 Instatus
監控 1 小時、確認 subscriber notification 從 Instatus 發出、metrics 圖表 wire 正確、history uptime continuity 沒斷
既有 IR 平台 webhook 改指 Instatus API endpoint

Stage 4：Statuspage 關閉（2-4 週後）

不要立即取消 Statuspage 帳號 — 留 2-4 週作 rollback 緩衝
Subscriber 通知「status page URL 不變、underlying provider 換了」（多數場景不需要、subscriber 不會察覺）
確認 incident history / uptime data 在 Instatus 完整、Statuspage rollback 場景 < 0.5% 後、取消 Statuspage subscription

完成標準：DNS 100% 流量在 Instatus、Statuspage subscription 取消、SRE / SaaS provisioning team 不再 maintain Statuspage account。

5 個 production 踩雷

audit 漏掉 當前 admin 用 SAML 登入 這個事實、卻用不含 SAML 的 target tier 計算 savings，cutover 後 admin login 被迫退回 email/password + 2FA。修法是 Stage 1 就用含 SAML 的 target plan 測試 IdP、group mapping 與 break-glass admin。對 SOC 2 audit 期間 admin login method 變更要記錄的 org 來說，這是不可預期的 audit finding、要在 Stage 1 就溝通。

2. Metrics 圖表來源整合斷

Statuspage 接 Datadog metrics 的 OAuth integration 在 Instatus 要重接、auth flow 重做、Datadog API key 重 provision。常見漏網之魚：

跨 region Datadog account（US / EU）integration 重 provision 時 region 沒選對、圖表全空
Pingdom check ID 在新 integration 重新 register、historic data 斷層
自家 push metrics 的 webhook payload schema 不同（Statuspage 是 {component_id, status, ...}、Instatus 是 {componentId, status, ...} camelCase）

修法是 Stage 1 parallel run 期間就把所有 metrics integration 在 Instatus wire 通、對比兩邊圖表一致再進 Stage 2。

3. Subscriber import format 不一致

Statuspage subscriber export CSV 是 email, phone, slack_webhook_url, ... 一行多 channel；Instatus import CSV 是 email\nemail\n... 純 email list、其他 channel 要分開 import。如果有 5000 subscriber 包含 SMS / Slack mix、import 時要拆開、否則 SMS subscriber 會掉。

修法是寫 import script 把 Statuspage CSV 拆成多個 channel-specific CSV、分批 import Instatus。

4. SLA report 月報突然斷

Statuspage 月報自動 push 給客戶、cutover 後 Instatus 沒原生 SLA report、客戶下個月沒收到報表會問。修法是 cutover 前先建外接 SLA report：

寫 cron job（per month）從 Instatus API 拉 component uptime data
用簡單 template（Google Doc / PDF generator）產 report
自動 email 推給原 Statuspage SLA report distribution list

如果這條 contract 強制、外接成本約 3-5 天工程、要算進 migration 總成本。

5. Custom CSS / branding 視覺退讓

Statuspage Enterprise 有大量 custom CSS、cutover 後 Instatus 視覺對齊不到 1:1。視覺退讓清單通常是：

font weight 跟 line-height 微差
mobile breakpoint 不同
incident timeline 排版 spacing 略不同

修法是 cutover 前先在 Instatus theme customization 內把能調的調好、能接受的退讓在 Stage 1 跟設計 / brand team 確認、不能接受的就回去 audit Step 7 重新評估是否要遷。

容量與成本對比

對中小 SaaS（3000 subscriber、10 component、月均 2 incident）：

項目	Statuspage Business	Instatus Pro
月費	約 $399	約 $20
Subscriber 上限	依 plan	約 5,000
Component	依 plan	有上限
工程成本（cutover）	-	1-4 週
外接 SLA report	不需要或較成熟	0-5 天 / 持續維運
年化 saving	-	約數千美元等級

對 enterprise（30000 subscriber、50+ component、強合規）：

項目	Statuspage Enterprise	Instatus Business / Enterprise
月費	約 $1,499 起或 custom	低於典型 Enterprise quote
SAML / Audit log	必要	需逐項驗證
SLA / uptime report	必要	需逐項驗證或外接
結論	未必適合遷	先跑 audit、不要只看月費

何時不要切

SAML SSO + audit log 是 compliance requirement：金融 / 醫療 / 政府場景、Statuspage Enterprise 留
SLA report 是 customer contract 強制：如果 contract 寫明 SLA report deliverable、外接成本 + 風險高、Statuspage 留
Provider availability / fallback 必要：status page provider 自身 outage 時仍要可訪、先設獨立 fallback 或保留 Enterprise 級 provider
Atlassian 整合（Opsgenie / JSM / Confluence）是核心 workflow：原生整合斷會多很多 webhook 維護、Statuspage 留
subscriber > 10K + 強客戶 SLA：規模本身讓 Instatus 風險增大、Statuspage Enterprise 比較穩

下一步路由

平行 batch：PagerDuty → incident.io（Type E paradigm shift）/ PagerDuty → Opsgenie（Type A schema translation）
同 batch Type B：（待補、本篇是 batch 唯一 Type B）
vendor 對照：Atlassian Statuspage / Instatus
方法論：Migration Playbook Methodology（Type B drop-in + compatibility audit prefix 結構說明）

JMeter → k6：k6 不是 JMeter 的「script 版本」、是 VU model 取代 thread model

Tue, 19 May 2026 00:00:00 +0000

k6 不是 JMeter 的 「script 版本」。

這個誤解是 JMeter → k6 migration 第一週最常見的事故來源。Migration 啟動會議常聽到「JMeter 的 thread group 翻成 k6 的 VU 就好了吧」、然後團隊把 .jmx 內 100 thread → k6 vus: 100、跑下去發現 RPS 差三倍、p95 延遲表完全不同形狀、以為 k6 壞了。

實際上 k6 的 Virtual User (VU) 跟 JMeter 的 Thread 是 兩種不同的使用者行為建模方式：

JMeter Thread：一個 OS thread = 一個 user、numThreads=100 就 固定 100 個 concurrent 使用者一直跑、ramp-up period 控制怎麼啟動、無 explicit arrival rate 概念
k6 VU：一個 goroutine-like execution context、預設 vus 是 concurrent VU pool、但 k6 更推薦用 arrival-rate executor — 直接表達 每秒進來幾個 request、VU 是 為了達到 arrival rate 動態起的 worker

差別在 測量視角：JMeter 預設視角是 「我有 100 個使用者在用系統」、k6 預設視角是 「我每秒有 N 個請求進來」。兩種視角下 同一個系統的瓶頸結果完全不同：100 concurrent user 模型在 server 慢時 throughput 會自動降（user 等回應）、100 RPS arrival rate 模型在 server 慢時 queue 會累積、暴露 真實 production behavior（user 不會體諒、會繼續送請求）。

這篇 migration playbook 不是 schema translation 文（.jmx 翻成 .js 只是表面）、是 paradigm shift — 從 closed-system model（thread）到 open-system model（arrival rate）的視角轉換。

為什麼是 Type E（schema + paradigm 同 High）

跑 6 維 diff dimension audit：

維度	評	說明
Schema	High	`.jmx` XML vs JavaScript scenario、test plan 完全不同 file format / DSL
Operational	Medium	CLI / distributed run 接近、CI integration 差別大、distributed runner 模型不同
Paradigm	High	thread group closed model → arrival rate open model、測試思維不同
Components	Low	都是 load test runner、no multi-tool decomposition
App change	N/A	是 test code、不是 production code
Topology	Low	都是 CLI / runner 跑、無 sharding

Schema High + Paradigm High 兩軸 High。按優先序 Schema > Paradigm、預設選 Type A。但對 JMeter → k6 的讀者來說、paradigm shift 才是難關 — schema translation 是工作量、但搞錯 paradigm 會讓 migration 後的測試結果 跟 production 不對應。所以選 Type E paradigm shift 結構、schema translation 抽出 Phase 1-2 補充。

Driver：developer ergonomic + CI gate friendly

從 JMeter 遷出 k6 的核心拉力是 developer ergonomic + CI 友善：

.jmx XML 在 git 內 diff 不可讀：兩個 .jmx PR 的 diff 是 XML attribute reorder noise、reviewer 看不出來實際邏輯改了什麼；JavaScript 是純文字 + AST、PR diff 直接可讀
GUI 學習曲線：JMeter GUI 不是現代 IDE、不熟的工程師寫一個 scenario 要花半天找對的 sampler 跟 listener；JavaScript 用既有 IDE（VS Code / IntelliJ）、autocomplete + lint + format 全有
CI integration 步驟差：JMeter 在 CI 跑要 packaging plugin + non-GUI mode + result XML parser；k6 直接 k6 run script.js、result 是 JSON / Prometheus metrics、threshold pass/fail 直接 exit code
單機 VU 容量：JMeter 單機通常 ~500-1000 thread（受 JVM 跟 OS thread limit）、k6 單機可跑 30K-50K VU（Go runtime + goroutine）、distributed runner 需求降低
Workload model expressiveness：k6 arrival-rate executor + ramping-vus + constant-vus 三種 executor 直接對應 open system / ramping / closed system 三種測量視角、不像 JMeter 需要組合 Constant Throughput Timer + Synchronizing Timer + thread group 才達到

這條 driver 在 QA 團隊 GUI 維護 .jmx asset 的 org 沒拉力（GUI 反而是優勢）、但對 dev / SRE 寫 performance test 進 CI 的 org 是強拉力。Audience 不同、migration value 完全不同。

4-phase partial migration（不收斂）

Type E 的特徵是 不收斂 — 多數 org 不會把 .jmx 全退役、會停在某個 phase 變成 hybrid：

Phase 1：學會 k6 paradigm（不寫實際 test）

寫一個 throwaway script 跑當前 production-like API、不為了 migrate、為了搞清楚 k6 paradigm：

 1import http from 'k6/http';
 2import { check } from 'k6';
 3
 4export const options = {
 5  // 不要用 vus: 100、用 arrival rate
 6  scenarios: {
 7    open_model: {
 8      executor: 'constant-arrival-rate',
 9      rate: 100,           // 每秒 100 request
10      timeUnit: '1s',
11      duration: '5m',
12      preAllocatedVUs: 200, // 預先準備 VU 數
13      maxVUs: 500,          // 上限
14    },
15  },
16  thresholds: {
17    http_req_duration: ['p(95)<500'], // p95 < 500ms
18    http_req_failed: ['rate<0.01'],   // 失敗率 < 1%
19  },
20};
21
22export default function () {
23  const res = http.get('https://api.example.com/orders');
24  check(res, { 'status 200': (r) => r.status === 200 });
25}

對比同一個 test 用 .jmx 寫的形狀、思考 為什麼 arrival rate 跟 thread group 測出來不一樣。這 phase 的目標是 paradigm internalization、不是產出 migration artifact。團隊每個寫 performance test 的人都要過這一關、不能跳。

完成標準：寫的人能講清楚「arrival rate 100 / 5 分鐘」跟「100 thread / 5 分鐘 ramp-up」的 production behavior 差異。

Phase 2：高價值 critical path 改 k6（GUI 留 JMeter）

選 最常跑 + 最重要 的 1-3 條 scenario 改寫 k6、不全部一次轉。典型候選：

Pre-release smoke test（核心 API 的 baseline check）
Nightly regression（per-commit performance gate）
Peak readiness rehearsal scenario（活動前 T-7 跑的 stress test）

GUI / QA 團隊維護的 .jmx 不動 — 那些通常是 multi-protocol（JDBC / JMS / FTP）、不在 k6 適合 scope。

工作主要塊：

.jmx thread group → k6 scenario executor 的 paradigm-correct 翻譯（不是欄位翻譯）
HTTP request 跟 assertion 翻譯（payload / header / cookies）
CSV data source（JMeter CSV Data Set Config）→ k6 SharedArray from JSON
結果輸出 schema 改變（XML / JTL → JSON / Prometheus / k6 Cloud）
CI integration 重做（GitHub Actions / GitLab CI 直接 k6 run、不需要 packaging）

完成標準：critical path 的 k6 baseline 跟 .jmx baseline 數據對比一致（p50 / p95 / throughput 在 10% 誤差內、行為不一致時知道是 paradigm 差還是 bug）。

Phase 3：QA 團隊雙工具技能（hybrid 穩定形態）

很多 org 停在這個 phase：QA 團隊用 GUI 維護 multi-protocol .jmx（covering JDBC / JMS / LDAP / SOAP / FTP）、dev / SRE 用 k6 維護 HTTP / gRPC / WebSocket performance test in CI。Two-tool stack 不是 broken state、是 not-converged-by-design。

這個 phase 的工作主要塊：

文件化：哪類 test 用 k6、哪類用 JMeter、決策樹寫在 team handbook
結果整合：兩個工具的 metrics 都進同一個 Grafana dashboard（k6 → Prometheus 直接、JMeter → InfluxDB / Prometheus exporter）
Release gate 用 k6 為主（CI 整合直接）、JMeter 用於 manual QA campaign / multi-protocol 場景

多數 org 不進 Phase 4。

Phase 4：JMeter 退役（少見）

只有當 所有 protocol 都換到 k6 extension 或 捨棄了 multi-protocol coverage 時、才 fully 退役 JMeter。常見路徑：

用 k6 xk6 extensions 補 protocol（xk6-sql for JDBC、xk6-kafka for Kafka、xk6-amqp for RabbitMQ、xk6-mqtt for MQTT）
評估每個 extension 的 maturity / community support — xk6 ecosystem 比 JMeter plugin 小很多
接受 part of legacy .jmx test 直接 deprecate（covered by integration test 而非 load test）

完成標準：所有 protocol 都在 k6 + xk6 內可表達、.jmx 全部 archive。

5 個 production 踩雷

1. Thread group → VU 直接翻譯（最常見、Phase 2 必踩）

把 numThreads=100 翻成 vus: 100 就完事 — 結果 RPS 跟 JMeter 不一致、p95 完全不同形狀。原因：JMeter 100 thread 是 closed model（thread 等回應才送下一個）、k6 vus: 100 預設也是 closed model、但 iteration 結束就立刻送下一個（無 think time）— 兩者的 throughput 行為 差異來自 think time / response time。

修法：

不用 vus: N、用 constant-arrival-rate 或 ramping-arrival-rate、直接表達 每秒幾個請求
如果一定要 closed model（pre-existing JMeter scenario 對比）、在 default function 內加 sleep(thinkTime) 模擬 JMeter Think Time

2. Arrival rate vs concurrent VU 混淆

arrival-rate executor 的 rate: 100 意思是 每秒進來 100 request、preAllocatedVUs: 200 是 預先準備 200 個 VU worker pool。如果 service 變慢（p95 從 100ms 飄到 500ms）、需要的 VU 數會從 100/sec * 0.1s = 10 暴增到 100/sec * 0.5s = 50、preAllocatedVUs 不夠就會 warning「ran out of VUs」、實際 arrival rate 達不到 spec。

修法：

preAllocatedVUs 設為 maxVUs / 2
maxVUs 設為 rate * worst_case_response_time_seconds * 5（5x safety margin）
Monitor dropped_iterations metric — 不該 > 0、> 0 表示 worker pool 不夠

3. Protocol gap（k6 沒原生對應 JMeter 的部分）

k6 原生支援 HTTP/1.1 / HTTP/2 / gRPC / WebSocket / SSE。沒有原生支援：

JDBC（要 xk6-sql extension）
JMS（要 xk6-amqp / xk6-kafka extension）
LDAP（無 extension、要外接 LDAP client）
FTP（無 extension）
SMTP / IMAP / POP3（無 extension）
SOAP（HTTP module 內手寫 XML body、無 helper）

如果 .jmx 用了這些 protocol、評估 xk6 extension 成熟度（GitHub stars、recent commit、issue volume）、不成熟就把這些 test 留在 JMeter。

4. 結果輸出 schema 改變（result post-processing 全部要重寫）

JMeter 預設輸出 JTL XML（per-sample 一行）、有 listener 後處理。k6 預設輸出 stdout summary + optional JSON / CSV / Prometheus / k6 Cloud。如果有既有 result analysis pipeline（從 JTL 拉 data 進 BI tool、產 trend chart）、Phase 2 必須重寫。

修法：

評估直接接 Prometheus + Grafana（k6 native）取代既有 BI dashboard
或寫 k6 JSON output → 自家 BI 的 transformation script

5. CI integration 重做（distributed runner 模型不同）

JMeter 在 CI 跑要：JVM provision、plugin install、.jmx upload、non-GUI mode 跑、JTL 結果 parse、exit code 對應 threshold。k6 在 CI 跑：k6 run script.js、threshold pass / fail 直接 exit code、result 進 Prometheus / k6 Cloud。

看起來 k6 簡單、但有踩雷：

Distributed run model 不同：JMeter 用 master-slave、k6 OSS 不內建 distributed、要 Grafana Cloud k6 或自建 k6-operator on Kubernetes
大規模負載（> 50K VU）必須 distributed、Phase 2 評估時要先確認 distributed setup 不是 blocker
CI runner 資源：k6 是 native binary、CPU / memory 用量比 JMeter（JVM）低、但 runner spec 要按 max VU 估

Protocol gap 詳表

Protocol	JMeter sampler	k6 對應	成熟度 / 替代方案
HTTP/1.1	HTTP Request	`k6/http`	原生、成熟
HTTP/2	HTTP/2 sampler	`k6/http`（auto）	原生、成熟
gRPC	（無原生、要 plugin）	`k6/net/grpc`	原生、成熟
WebSocket	WebSocket sampler（plugin）	`k6/ws`	原生、成熟
SSE	（無原生）	xk6-sse	extension、中等
JDBC	JDBC Request	xk6-sql	extension、不成熟、留 JMeter
JMS	JMS sampler	xk6-amqp / xk6-kafka	extension、protocol-specific
LDAP	LDAP Request	（無）	外接 / 留 JMeter
FTP	FTP Request	（無）	留 JMeter
SMTP / IMAP	Mail sampler	（無）	留 JMeter
SOAP / XML-RPC	SOAP / XML-RPC Request	`k6/http` 手寫 XML body	工作量大、留 JMeter
TCP socket	TCP sampler	`k6/net/tcp`	原生但簡單、複雜 protocol 留 JMeter

容量與成本對照

項目	JMeter	k6 OSS	Grafana Cloud k6
Cost	Free (Apache)	Free (Apache 2.0)	$49+ / mo (Pro)
單機 VU 容量	~500-1000 thread	30K-50K VU	unlimited（cloud runner）
Distributed	master-slave 內建	不內建、需 k6-operator	cloud-native
Result store	JTL XML（local）	stdout / JSON / Prom	cloud retained
CI integration	需 packaging	native CLI	native + cloud
Multi-protocol coverage	廣	窄（HTTP/gRPC/WS）+ xk6	同 OSS

對 dev-driven CI gate use case：k6 OSS 已經夠用、Grafana Cloud k6 在 跨 region runner + result retention + dashboard 整合 時才有 ROI。對既有 multi-protocol .jmx asset：考慮 Phase 3 hybrid stable state、不要強推 Phase 4。

何時不要切

multi-protocol coverage 是核心需求：JDBC + JMS + LDAP + FTP 必要、xk6 extension 不夠成熟、留 JMeter
QA 團隊維護 GUI .jmx：QA 不寫 code、.jmx GUI 是團隊資產、貿然轉 k6 等於 throwaway QA team
既有 multi-year .jmx asset 大量：500+ scenario 全部翻譯成本 > k6 ergonomic 收益、考慮 Phase 3 stable hybrid
Distributed run 需求極大（> 100K VU）但 ops budget 緊：k6-operator on Kubernetes 不便宜、Grafana Cloud k6 對應 tier 也不便宜、JMeter master-slave 仍是 cost-effective 選項

下一步路由

平行 batch：Pyroscope → Datadog Profiler（Type C operational hybrid）
同 batch Type E：PagerDuty → incident.io（IR paradigm shift）
上游：9.3 壓測工具選型 / 9.2 Workload Modeling
下游：6.13 Performance Regression Gate（CI gate integration）
vendor 對照：JMeter / k6 / Gatling / Locust
方法論：Migration Playbook Methodology（Type E paradigm shift 結構說明）

PagerDuty → incident.io：「On-call」是個 retconned word、同名不同 contract

Tue, 19 May 2026 00:00:00 +0000

「On-call」是個被 retconned 的詞。PagerDuty 用了十年定義它為 alert routing + schedule + escalation — 重點是「誰會被叫醒」。incident.io 2024 年推出 On-call 模組時保留了同一個詞、但 contract 變了：On-call 在 incident.io 是 IR coordination + Slack-native workflow + retrospective integration 的 paging 入口 — 重點是「被叫醒之後做什麼」。

這個語意 retroactive 是這篇 migration playbook 必須先講清楚的事。讀者打開比較表會看到「PagerDuty 有 schedule、incident.io 有 schedule、PagerDuty 有 escalation policy、incident.io 有 escalation policy」、以為這是一場 schema translation 文。實際上 schema 翻譯只是其中一個工作塊、更難的是 org 的事故行為從「等 PagerDuty 叫」變成「在 Slack channel 內跑 lifecycle」。

為什麼是 Type E（不是 Type A）

跑 6 維 diff dimension audit：

維度	評	說明
Schema	High	service / escalation policy / schedule / integration 跟 incident / role / action / catalog 沒 1:1 對應
Operational	High	alert routing → Slack-native IR coordination + retrospective workflow
Paradigm	High	「alert someone」 → 「coordinate full incident lifecycle from declare to retro」
Components	Medium	incident.io 整合 Slack / Linear / Jira / Confluence 變 multi-component
App change	Medium	webhook / integration key / IaC 都要改
Topology	Low	都是 cloud SaaS、無 sharding / region 議題

三軸 High（schema / operational / paradigm）。按優先序 schema > paradigm > operational、預設會選 Type A。但這條優先序是 audience-dependent heuristic — 對「我要把 PagerDuty config 翻譯成 incident.io」的讀者選 Type A、對「我要把事故管理 paradigm 從 paging-first 變成 Slack-first」的讀者選 Type E。

決定因素是 讀者最關心什麼。從 PagerDuty 出發評估 incident.io 的 org 通常 已經有 Slack channel 跑 IR 的痛感（雙系統 state drift / context switching cost / Slack bot 補 PagerDuty 的能力斷裂）、進來找的是 paradigm 統一、不是欄位翻譯。schema translation 是工作量、但不是讀者來找答案的問題。所以選 Type E paradigm shift 結構、schema translation 抽出獨立段補充。

為什麼遷：IM-native coordination 的拉力

事故反應在已經 Slack 中心的 org 是 從 Slack 自然發生 的 — 觀測 alert 進 Slack、SRE 開 thread、PM 跳進來問影響、customer-facing team 在 incident channel 看通報、所有上下文都在 IM 內。PagerDuty 在這個 reality 下變成 第二個 system of record：incident 開在 PagerDuty 也開在 Slack、PagerDuty timeline 跟 Slack scroll 是兩條時間線、status update 要 mirror 兩次、責任分派在 Slack 講但要在 PagerDuty 點。

PagerDuty 注意到這個問題、後加了 Status Updates / Slack integration / Postmortem 模組想把 Slack 拉回 PagerDuty。但結構性還是 PagerDuty 是主、Slack 是 mirror — incident object 的 source of truth 在 PagerDuty、Slack 的訊息只是 attachment。對 Slack-first 的 org 來說這個 ownership 反了：Slack channel 才是事故進行中的 ground truth、PagerDuty incident 應該是 paging 入口的 artifact。

incident.io 設計上把這個關係翻過來：Slack channel 是 IR ground truth、incident object 是 channel 的 metadata 投影。declare incident 在 Slack、role 指派在 Slack bot prompt、status update 在 channel reply、retrospective 從 channel 訊息自動 stitch — incident.io dashboard 是 管理視圖、不是事故 進行視圖。On-call 模組加進來後、連 paging 入口也跟 IR coordination 收斂到同一個 system of record。

這個 pull 是這條 migration 的 driver。schema 翻譯只是把這條 pull 落地的工作。

4-phase partial migration（不收斂）

Type E paradigm shift 的特徵是 不收斂 — 多數 org 不會把 PagerDuty 全退役、會停在某個 phase 變成穩定的 hybrid。下面 4 phase 是 常見演進路徑、不是 必要完成步驟：

Phase 1：Slack-first response（paging 留 PagerDuty）

incident.io 接 PagerDuty incident webhook、PagerDuty 開 incident → incident.io 自動開 Slack channel、跑 response lifecycle（declare / role / status / close / retro）。PagerDuty 仍管 paging schedule + escalation、incident.io 管 response coordination。

這個 phase 的工作主要塊是：

incident.io 跟 PagerDuty 雙向 webhook 接（PD incident.trigger → IO open channel、IO incident.resolved → PD ack）
Slack workspace 整合（permissions、channel naming、stakeholder broadcast channel）
Severity 對應表（PagerDuty P1-P5 對 incident.io SEV1-SEV4、語意 reconcile）
跑 2-4 週 dual ops、訓練 SRE 在 Slack 內跑 lifecycle、不要回 PagerDuty 點 timeline

完成標準：incident commander 不再需要進 PagerDuty UI、status update / role 指派 / action item 都在 Slack。

Phase 2：Catalog + service ownership migrate

把 PagerDuty 的 service registry（service / team / escalation policy 關聯）抽出進 incident.io 的 Catalog。Catalog 是 incident.io 的 service metadata source of truth、把 service 跟 team / Slack channel / Linear project / runbook URL 綁在一起、incident 發生時自動推薦 role 跟通知 stakeholder。

工作主要塊：

從 PagerDuty API export service / team / escalation policy（REST endpoint /services、/teams、/escalation_policies）
Schema mapping：PagerDuty service → incident.io catalog entry、escalation policy → 暫時不動（留在 PagerDuty）
補 PagerDuty 沒有的欄位：Slack channel、Linear project、runbook URL、tier（catalog 比 PagerDuty service 多 metadata 維度）
Service ownership reconcile（PagerDuty 的 team grant 通常跟 GitHub team / IAM group 不一致、Catalog 是重新對齊機會）

完成標準：incident 發生時自動知道 owner team 跟對應 Slack channel、不需要人查。

Phase 3：Schedule + escalation 移到 incident.io On-call

PagerDuty 的 schedule + escalation policy 改進 incident.io On-call。這是 paging 入口的 ownership 轉移 — Phase 1 是 PD 觸發 IO response、Phase 3 是 IO 直接收 alert source 觸發 paging。

工作主要塊：

Alert source 改線：Splunk / Datadog / Cloudflare WAF / cloud control plane 的 webhook 從 PagerDuty Event API 改成 incident.io webhook endpoint、deduplication key / severity mapping 重做
Schedule 重建：PagerDuty schedule layer model（多 layer 疊加 + restriction + override）跟 incident.io schedule rule（單純 weekly rotation + override）不是 1:1、複雜 schedule 要重新設計
Escalation policy 重建：PagerDuty 的 multi-step escalation + level-based timeout 對應 incident.io 的 escalation path、policy 比 PagerDuty 簡單但要重新測 failover 行為
Mobile app 切換：on-call 人員裝 incident.io app、PagerDuty app 保留作為 backup paging（Phase 4 才完全捨棄）

完成標準：日常 paging 全走 incident.io、PagerDuty 留作 fallback 或退役。

Phase 4：Retrospective + 完全退役 PagerDuty

把 retrospective workflow 切到 incident.io 內建的 post-incident flow、捨棄 PagerDuty Postmortems / Jeli 整合。incident.io 的 retro template 從 Slack channel 訊息自動 stitch timeline、action item 推 Linear / Jira、learning review 結構化。

工作主要塊：

既有 Jeli / PagerDuty Postmortems 歷史 export（PagerDuty REST 不直接給 postmortem export、要從 Jeli web app 手動 export）
Retrospective template 對應到 org 既有的 post-incident review 結構
Action item lifecycle 整合（incident.io 推 Linear / Jira → close → retrospective 自動標 done）

多數 org 停在 Phase 2 或 Phase 3。完整 Phase 4 退役 PagerDuty 不是必要、且常見的選擇是 PagerDuty 留作 backup paging route 或 特定 integration 持續用（見下一段 capability gap）。

5 個 production 踩雷

實際遷過程踩過的 5 個典型問題：

1. 雙系統 state drift（Phase 1 最常見）

PagerDuty incident.trigger → incident.io 開 channel、但 PagerDuty 上 incident 被自動 resolve（例如 monitoring tool 認為 issue cleared）後、incident.io 沒收到對應 webhook、Slack channel 還 active 顯示 in-progress。修法是雙向 webhook 都要接（PD resolved → IO 自動 close channel），但 webhook 失序的場景仍要有 nightly reconcile job 對比兩邊狀態。

2. Severity 翻譯失真

PagerDuty 的 P1-P5 跟 incident.io 的 SEV1-SEV4 不是 5:4 對應、是兩個獨立 schema。同一個事故在 PagerDuty 是 P2（高優先但非全面 outage）、進 incident.io 可能變 SEV2（部分服務影響）或 SEV1（依 incident.io custom severity 定義）。Phase 1 雙系統並行時 SRE 在 Slack 看到 SEV1 跑進 war room mode、PagerDuty 同 incident 是 P2 沒拉 stakeholder bridge — 同事故兩邊嚴重度不同步、回應節奏錯亂。修法是事先寫死 mapping table（PD P1 → IO SEV1、PD P2 → IO SEV2、不 case-by-case 判斷），並在 Phase 3 後讓 incident.io severity 變唯一 source of truth。

3. Schedule layer 漏 holiday override / restriction layer

PagerDuty schedule 是 layer model — primary rotation（layer 1） + secondary rotation（layer 2） + holiday override（layer 3） + restriction（每層 time-of-day 限制）可以疊加。Export 出來只看 layer 1 通常會漏 holiday override 跟 restriction layer、incident.io schedule rule 是單一 rotation + override list、不 cover 多 layer 疊加。修法是 export 時用 PagerDuty API /schedules/{id} 的完整 layer + final_schedule 一起拉、用 incident.io schedule 的 override list 模擬 layer 疊加、複雜 schedule（例如 follow-the-sun + 4 region + holiday override）可能要拆成多個 incident.io schedule 用 escalation chain 串。

4. Slack channel 過載

incident.io 預設每個 incident 開一個 channel。Phase 1 啟用後 SRE 一週收 50+ channel notification、即使 P3 / P4 也開 channel、Slack sidebar 被淹沒。修法是 incident type 設計時把低 severity（SEV3 / SEV4）改成 don’t auto-create channel 或 use shared low-severity channel、只 SEV1 / SEV2 開獨立 channel。incident.io 有這個 configuration、但預設不開、要主動設定。

5. Retrospective 切換時歷史 learning 斷層

從 Jeli / PagerDuty Postmortems 切到 incident.io retro 後、過去 2 年 postmortem 留在原系統、search 跨不到、新 retro template 跟舊的結構不同、learning review 的 trend analysis 斷層。修法是 Phase 4 前先 export 既有 postmortem 為 markdown 進 GitHub Wiki / Confluence 集中保存、incident.io retro 自動 export 到同位置、retro search 不依賴 vendor lock-in。

Schema translation 主要工作量塊

雖然 Type E 結構不以 schema translation 為主、但 translation 工作量塊在 Phase 2-3 仍佔多數時間：

來源（PagerDuty）	目標（incident.io）	註
Service	Catalog entry	增加 Slack channel / Linear project metadata
Team	Catalog team	多對應 GitHub team / IAM group
Escalation policy	Escalation path	比 PD 簡單、複雜 escalation 要拆
Schedule（multi-layer）	Schedule + override list	不是 1:1、複雜 schedule 要拆多個
Integration（webhook）	Webhook endpoint	全部 alert source 要重 wire
Incident workflow	Incident type + role	重新設計、不直接翻譯
Event Orchestration rule	Workflows	incident.io workflows 比 EO 簡單、複雜 routing 要外接
AIOps / Process Automation	（無對應）	見 capability gap 段
Postmortem / Jeli	Post-incident flow	template 重寫、歷史保存獨立

Capability gap：PagerDuty 有但 incident.io 沒有

不是所有功能 incident.io 都有對應。Phase 3-4 推進前要先確認這些能力是否在用、是否願意捨棄或外接：

AIOps（intelligent grouping / noise reduction）：PagerDuty Enterprise tier 用 ML 自動 group alert、incident.io 沒對應、grouping 靠 alert source 端 deduplication key
Process Automation（runbook automation）：PagerDuty 收購 Rundeck、提供 automated remediation step、incident.io 沒對應、要外接 Tines / n8n / 自製 Lambda
Status Page 整合（PagerDuty 內建）：PagerDuty 提供 Status Page 模組、incident.io status page 是 separate product、定價跟 feature 不同
Multi-region / 強合規（FedRAMP / IL5）：PagerDuty 在金融 / 政府 / 高合規 deploy 成熟度高、incident.io SOC 2 + ISO 27001 但 FedRAMP 還在追

如果在用 AIOps + Process Automation 而且重要、不要做這個 migration、或保留 PagerDuty 作為 AIOps + Automation 後端、incident.io 處理 response coordination — Phase 1 永久 hybrid。

容量與成本對照

項目	PagerDuty	incident.io
計費模式	Per-user / month、tier-based（Pro / Business / Enterprise）	Per-user / month、On-call 模組另計
隱性容量上限	API rate limit（10K / minute）	Slack workspace seat 上限（IR participant ≤ workspace user）
AIOps 加價	Enterprise tier + AIOps add-on	不適用
Status page	內建（Business tier+）	獨立 product
Process Auto	Rundeck-based、separate pricing	不適用

實際成本對比需要 RFP — 50 人 SRE org 大致 PD Business + AIOps ~$30-40 / user / mo、incident.io Pro + On-call ~$25-35 / user / mo、cost 差距通常不是 migration 主因（是 paradigm fit + Slack-native）。

何時不要做這個 migration

Slack 不是 IR ground truth：Discord / Teams primary 或 ticket system 為主的 org、incident.io Slack-first 設計無法落地
AIOps + Process Automation 是核心能力：用了 PD AIOps 自動 group alert 跟 Rundeck 自動 remediation、且這條 chain 重要 — incident.io 沒對應
規模 < 20 SRE / 50 eng：incident.io 的 catalog + opinionated workflow 設計給中大型 org、小團隊 PagerDuty Lite 或 Grafana OnCall 已經夠用
強合規場景（FedRAMP / IL5 / 金融 SOC 1 type II）：PagerDuty 合規成熟度高、incident.io 在追、合規團隊不會 sign-off
不打算改變事故行為：如果 org 只是想換廠商但不想改變 事故在 Slack 跑 lifecycle 的工作模式、這條 migration 的價值丟一半、不如走 PagerDuty → Opsgenie（Type A schema translation、同 paradigm）

下一步路由

平行 batch：PagerDuty → Opsgenie（Type A、同 paradigm 換廠商）/ Atlassian Statuspage → Instatus（Type B drop-in）
同 batch Type E：JMeter → k6（scripting paradigm shift）
上游：8.10 Incident Workflow Automation Boundary（automation handoff）
下游：8.18 Post-Incident Review（incident.io retrospective workflow）
vendor 對照：PagerDuty / incident.io
方法論：Migration Playbook Methodology（Type E paradigm shift 結構說明）

PagerDuty → Opsgenie：Atlassian 全家桶整合 vs Opsgenie 2027 EOL 的 vendor consolidation 取捨

Tue, 19 May 2026 00:00:00 +0000

PagerDuty 物件	Opsgenie 對應	JSM Cloud 對應（2027 後）	翻譯難度
Service	Integration	Service registry	低
Escalation Policy	Escalation	Escalation	中
Schedule（layer model）	Schedule（rotation）	Schedule	中-高
User	User	Atlassian Account	中（IdP 整合）
Team	Team	JSM Team	低
Event API v2	Alert API	JSM REST API	中
Event Orchestration	Policy	Routing rule	中-高
Status Page	Statuspage（同產品）	Statuspage	低
Postmortem	（無原生）	（Confluence template）	高（要外接）

這張對照表是 PagerDuty → Opsgenie migration 的 表面 schema mapping、但表前必須先處理一個前提：Atlassian 2025 公開宣布 Opsgenie 將在 2027-04 EOL、現有 Opsgenie 客戶會被遷往 Jira Service Management Premium / Enterprise 內建的 on-call 能力。這條 migration 不是 PagerDuty ↔ Opsgenie 的 vendor swap、是 PagerDuty → Opsgenie → JSM Cloud 的雙 hop migration。

誰應該考慮這條 migration

適用條件	不適用
已是 Atlassian-heavy ecosystem（JSM / Confluence / Bitbucket）	純 Slack-first org（考慮 → incident.io）
已買 JSM Premium / Enterprise、Opsgenie 是 entitled benefit	新案、無 Atlassian 基礎
願意走 PD → Opsgenie → JSM 雙 hop（或直接跳 JSM）	不想多次 migration、想一步到位
Atlassian Identity / Cloud admin 已成熟	SSO / IdP 跟 Atlassian 沒整合好
OSS / 自管不可行（compliance / 規模）	規模 < 20 SRE（Grafana OnCall 或 PagerDuty Lite 已足夠）

對新案：不要選 Opsgenie standalone。直接評估 PagerDuty → JSM Premium 一次到位、或 PagerDuty → incident.io（如果 Slack-first 是 driver）。

對 已是 Opsgenie 客戶但從 PagerDuty 遷入的 org（少見、通常是 acquisition consolidation）：本文仍適用、但要把 Phase 5 EOL 路徑放在規劃裡。

為什麼是 Type A（schema 為主）

跑 6 維 diff dimension audit：

維度	評	說明
Schema	Medium-High	escalation policy / schedule / integration / API endpoint 都有 mapping、但概念對應度高
Operational	Low	同為 alert routing + on-call schedule 平台、ops 模型一致
Paradigm	Low	同 paging-first paradigm
Components	Low	都是 SaaS 平台、no multi-tool decomposition
App change	Medium	webhook URL / integration key 要換、application code 改動少
Topology	Low	都是 cloud SaaS

Schema = Medium-High（其他 Low） → Type A phased translation。比標準 Type A 11-12 章短、因 paradigm 不變、不需要重新訓練 SRE 行為。

Driver：Atlassian vendor consolidation

從 PagerDuty 遷入 Opsgenie 的核心 driver 是 Atlassian 全家桶整合 — 已經買 JSM + Confluence + Bitbucket + Statuspage 的 org、再買 PagerDuty 等於多一條 SaaS 採購線、SSO 配置、billing 對接、user provisioning 重複。Opsgenie（或未來 JSM Premium 內建 on-call）走 Atlassian Identity、跟 JSM ticket / Confluence runbook / Statuspage component 同一個身份體系、incident 跟 ticket / status update 跨產品聯動不用 webhook chain。

這條 consolidation 拉力的具體形態：

單一 SSO + provisioning：Atlassian Cloud admin 一處 manage user / group / SSO、不需要 PagerDuty 獨立 SCIM + IdP 配置
Ticket ↔ incident bi-directional：JSM ticket 升級成 incident、incident 自動建 ticket、close incident 自動 close ticket、不用 PagerDuty Jira integration plugin
Runbook 跟 incident channel 同產品：Confluence runbook 從 Opsgenie alert 直接 link、不用維護兩套權限
Status Page 共用 component model：Statuspage 已是 Atlassian 產品、Opsgenie incident 觸發 Status Page update 不用 webhook（內部 event）
Billing 整合：Atlassian Cloud subscription bundle、CFO 不用對 5 條獨立 SaaS invoice

這條 driver 在 PagerDuty 後加的 Status Updates / Jira plugin / Postmortems 模組下被部分削弱、但本質仍是 Atlassian 是主、PagerDuty 是外掛 vs 全部都在 Atlassian 的差別。

Type A phased migration（5 phase）

Phase 1：Schema 對照 + 識別差異

把 PagerDuty 當前 config 完整 export（API endpoint /services、/escalation_policies、/schedules、/users、/teams、/integrations、/event_orchestrations）、對照上方 schema mapping table、識別 無 1:1 對應的物件：

Event Orchestration rule 對 Opsgenie 的 Policy + Routing rule（複雜 routing 要拆）
Schedule layer model 對 Opsgenie 的 Rotation + Override（layer 疊加要展平）
PagerDuty AIOps / Process Automation 對 Opsgenie 的 無對應 — 要評估是否丟掉這條能力

完成標準：寫出 PagerDuty config inventory + Opsgenie target spec、確認所有物件都有 mapping path（即使是「捨棄」也算 mapping）。

Phase 2：Schedule + Escalation 移植

PagerDuty schedule 是 layer 疊加（primary + secondary + override + restriction）、Opsgenie 是 單一 rotation list + override。簡單 schedule（單一 weekly rotation + 偶爾 override）直接對應、複雜 schedule（follow-the-sun + holiday + restriction time-of-day）要展平：

PagerDuty /schedules/{id} 拉完整 final_schedule、用 實際輪值結果 重建 Opsgenie rotation
多層 schedule 在 Opsgenie 拆成多個 rotation、用 escalation chain 串
Restriction layer 在 Opsgenie 沒對應、要在 rotation rule 內 inline 時段限制

Escalation policy 多 step + level-based timeout 在 Opsgenie 是 step-based escalation、直接對應、但每步 timeout 跟 acknowledge behavior 要 retest。

完成標準：on-call rotation 在 Opsgenie 跑一週、跟 PagerDuty parallel 對比實際 paging 行為一致（同一個 alert 兩邊都叫到對的人）。

Phase 3：Integration / Webhook 改線

每個 alert source（Splunk / Datadog / Cloudflare WAF / cloud control plane / synthetic monitor）的 webhook URL 從 PagerDuty Event API 換成 Opsgenie Alert API：

Endpoint：https://events.pagerduty.com/v2/enqueue → https://api.opsgenie.com/v2/alerts
Auth：PagerDuty routing_key → Opsgenie API key（per-integration）
Deduplication：PagerDuty dedup_key → Opsgenie alias（行為相同、欄位名不同）
Severity mapping：PagerDuty severity（info/warning/error/critical） → Opsgenie priority（P1-P5）

這 phase 的工作量主要塊不是 schema 翻譯、是 每個 integration 都要重新測 deduplication + severity。新 integration key 配上去後第一週要密切監控、避免 dedup key 重設導致同事故開 100 個 incident。

完成標準：所有 alert source 都接 Opsgenie、PagerDuty 端 alert volume 降為 0。

Phase 4：Cutover + dual ops period

2-4 週 dual ops：alert 都進 Opsgenie 為主、PagerDuty 留作 backup paging（同樣 alert 也 mirror 進 PD、但 SRE response 全在 Opsgenie）。確認沒漏 alert、escalation 行為正確、Atlassian 整合（JSM ticket / Confluence runbook / Statuspage） wire 通。

完成標準：dual ops 4 週無漏 alert、SRE 沒回去 PagerDuty UI 操作。

Phase 5：PagerDuty 退役 + Opsgenie → JSM EOL 路徑規劃

PagerDuty 退役後立即進入 Opsgenie 2027 EOL 倒數。這 phase 不是 PD migration 的尾巴、是 下一條 migration 的起點：

2025-2026：Atlassian 推 JSM Premium 的 on-call 能力、提供 Opsgenie → JSM 遷移工具
2026-2027：實際遷 Opsgenie → JSM、schedule / integration / API 改線
2027-04：Opsgenie EOL、所有 traffic 必須在 JSM

完成標準：PagerDuty 帳號取消、Opsgenie deployment 健康運作 + JSM unification roadmap 寫進 2026-2027 SRE OKR。

5 個 production 踩雷

1. Escalation step routing 行為差異

PagerDuty escalation policy 的 step timeout 是 每步獨立 acknowledge window（step 1 等 5 分鐘沒人 ack → step 2 等 5 分鐘沒人 ack → …）、Opsgenie escalation 的行為類似但 step 之間的 notification cumulative behavior 不同 — Opsgenie 預設 step 2 觸發後 step 1 的人 仍會收到 notification（除非設定 step 1 not yet acknowledged 才繼續）。修法是寫測試 case 對比 alert 在兩邊 escalation 過程的 notification timeline、調整 Opsgenie escalation rule 的 acknowledge propagation 設定到跟 PD 一致。

2. Heartbeat monitoring 在 PagerDuty 沒對應

Opsgenie Heartbeat 是 被動 monitoring — service 必須定期 ping 一個 endpoint、超過 interval 沒 ping 就觸發 alert、用來監控 cron job / scheduled task 是否還在跑。PagerDuty 沒原生 Heartbeat、通常用 external service（Healthchecks.io / Dead Man’s Snitch）。從 PD 遷入 Opsgenie 時、把這些 external service 收回 Opsgenie Heartbeat、減少 SaaS 數量。但反向（從 Opsgenie 遷出時要先把 Heartbeat dependency 外接）是不同問題、不在本篇 scope。

3. Integration key 改線時 deduplication 重設

PagerDuty dedup_key → Opsgenie alias 行為相同、但 新 integration key 上線後第一個 alert 不會跟舊 PD incident 對應 — 同一個事故在 PD 上是 incident #5234、在 Opsgenie 上是新 alert 從零開始。Phase 3 切換時間點如果剛好遇到 active incident、會分裂成兩個系統內各自的 incident、SRE confusion。修法是 cutover 時間點選擇在 known quiet period（一般是週末早上、避開 deploy 時段）、並接受第一個切換期間有手動 reconcile 的工作。

4. Schedule 時區處理

PagerDuty schedule 的 timezone 是 per-layer 設定（layer 1 可以 PST、layer 2 可以 GMT）、Opsgenie rotation timezone 是 per-schedule 設定。Follow-the-sun schedule（亞太 / 歐洲 / 美洲三層）在 PD 是三 layer 各自 timezone、在 Opsgenie 要拆成三個 schedule 各自設定 timezone 用 escalation 串。Daylight saving transition 是另一個高風險點 — PD 跟 Opsgenie 在 DST 切換週的行為要分別測試。

5. Atlassian Identity SSO 整合

如果 org 既有 SSO（Okta / Azure AD）已經跟 PagerDuty 整合、遷 Opsgenie 時要 重新對接 Atlassian Identity。Atlassian Cloud 的 SSO 是在 Atlassian admin 層設定、跟個別產品（Opsgenie / JSM）獨立。常見問題：

PagerDuty user email 不一定等於 Atlassian account email（有人用 work email 註冊 PD、用 personal email 註冊 Atlassian）
SCIM provisioning rule 要重寫、group / role mapping 重新設計
Just-in-time user provisioning behavior 不同（PD 是即時、Atlassian 可能需要 admin 手動 approve）

修法是 Phase 1 schema mapping 時就把 user identity reconcile 列為獨立工作塊、不要假設 email 唯一對應。

容量與成本對照

項目	PagerDuty	Opsgenie	JSM Premium（2027 後）
計費模式	Per-user / month、tier-based	Per-user / month、Free tier ≤ 5 user	JSM seat + on-call entitlement
Atlassian bundle	獨立 SaaS	Atlassian Cloud subscription	JSM Premium / Enterprise 內建
AIOps	Enterprise + add-on	弱（無原生 ML grouping）	（roadmap）
Heartbeat	不適用	內建	內建
Status Page	內建（Business tier+）	Statuspage（同 Atlassian、單獨計費）	Statuspage 整合
隱性 EOL 風險	無	2027-04 EOL	Atlassian 主推

實際 TCO 對比 不能只看 per-seat price — 必須加上：

Atlassian Cloud bundle discount（多產品同訂閱通常有 15-25% 折扣）
PagerDuty AIOps + Process Automation 是否在用（如果在用、Opsgenie 沒對應、要外接成本）
雙 hop migration（PD → Opsgenie → JSM）的累計工程成本 vs 單 hop（PD → JSM 跳過 Opsgenie）

何時跳過 Opsgenie 直接 PD → JSM

對 已是 Atlassian-heavy org 但 尚未用 Opsgenie 的場景、Opsgenie 2027 EOL 表示 PD → Opsgenie → JSM 雙 hop 不划算。直接 PD → JSM Premium：

等 Atlassian 2026 公開 JSM 內建 on-call 的完整能力、確認 feature parity 跟 Opsgenie 相當
規劃 PD → JSM 一次 migration、結構接近本篇但 target 換成 JSM
風險：JSM 內建 on-call 在 2026 仍可能成熟度不夠、決策時點要看 Atlassian 公開 roadmap

對 已是 Opsgenie 客戶 的場景、本篇的 PD → Opsgenie 路徑仍適用、但 Phase 5 EOL 路徑規劃是必要 deliverable、不是 optional。

下一步路由

平行 batch：PagerDuty → incident.io（Type E、Slack-first paradigm shift）/ Atlassian Statuspage → Instatus（Type B drop-in）
同 batch Type A：（待補、本篇是 batch 唯一 Type A）
上游：8.10 Incident Workflow Automation Boundary
下游：未來 Opsgenie → JSM Premium migration（2026-2027 寫）
vendor 對照：PagerDuty / Opsgenie / incident.io
方法論：Migration Playbook Methodology（Type A phased translation 結構說明）

Pyroscope → Datadog Continuous Profiler：profiling deployment lifecycle 各階段 operational ownership 轉手

Tue, 19 May 2026 00:00:00 +0000

Continuous profiling deployment 的 lifecycle 有五階段：install（agent / SDK 部署） → instrument（service / env / version tag 注入） → ingest（profile sample 進 backend store） → query（flame graph / diff / explore） → cost（storage retention / billing）。Pyroscope 跟 Datadog Continuous Profiler 在這五階段的 ops ownership 分布完全不同：

階段	Pyroscope（self-host）	Datadog Continuous Profiler
Install	Grafana Alloy / Pyroscope agent / per-language SDK、自己部署	Datadog Agent（多半 APM 已部署）、SDK 加 flag
Instrument	tag schema 自己設計	用 Datadog 既有 `service` / `env` / `version` tag
Ingest	Pyroscope server（自管 storage / scaling）	Datadog SaaS（vendor 管）
Query	Grafana datasource explore / flame graph panel	Datadog APM 介面、跟 trace / log / metrics deep link
Cost	self-host TCO（storage + ops + on-call）	按 APM host 計費（profiling 是 add-on）

從 Pyroscope 遷出 Datadog Continuous Profiler 的本質是 operational ownership 從 self-host 轉手到 SaaS — pprof data model 跟 flame graph 視覺幾乎一樣、profile diff workflow 接近、差異 90% 在 ops 跟 ecosystem integration。schema / paradigm 差距小、operational 差距大、就是 Type C operational hybrid 的 signature。

為什麼是 Type C（operational 為主）

跑 6 維 diff dimension audit：

維度	評	說明
Schema	Low-Medium	pprof 是 industry standard、profile types (CPU / heap / etc) 接近
Operational	High	self-host backend storage / retention / scaling → SaaS 全託管
Paradigm	Low	都是 pprof-based continuous profiling、diff workflow 接近
Components	Low-Medium	都需要 agent + backend、元件數量接近
App change	Low	agent / SDK config 改、code instrumentation 接近
Topology	Low	都是 agent → backend 單向 ingest

Operational = High（其他 Low） → Type C operational hybrid。Type C 結構是 operational audit prefix + 4-phase drop-in cutover — operational diff 集中在 ingest / cost / retention 三階段、其他階段是 schema-level drop-in。

Driver：TCO + Datadog ecosystem 內 deep linking

從 Pyroscope 遷出 Datadog Profiler 的核心 driver 有兩條：

TCO（total cost of ownership）：self-host Pyroscope 看起來免費（Apache 2.0）、但實際 ops 成本：

Storage：profile sample 大、retention 與 storage cost 需要自己估（每 service 每天可能 1-10 GB）
Scaling：profile ingestion 突增（deploy event / canary rollout 期間）要 storage / ingester 撐住
On-call：Pyroscope server 自己會壞、要 on-call 帶
Ops engineer time：規模成長後可能需要 0.5-1 個 FTE 維護 Grafana stack 內的 Pyroscope

對 已經有 Datadog APM 帳單 的 org、profiling 會跟 APM / profiled host 進同一個商務談判與 usage report，不需要額外 ops headcount。這條 TCO 拉力對 50-500 人 eng 規模最強 — 小於 50 人 self-host 也撐得住、大於 500 人 self-host 的 economy of scale 可能開始 favored Pyroscope。

Ecosystem deep linking：Datadog Profiler 跟 trace / log / metrics 在同一個介面、profile span 直接連到 trace span、deploy marker 直接顯示在 flame graph timeline、cross-signal query 不用 wire。Pyroscope 要透過 Grafana datasource correlation 達到類似效果、但需要 Tempo / Loki 已部署 + 手動配 correlation rule、整合精度跟自動程度都不如 Datadog 內建。

這條 driver 對 已是 Datadog-heavy org 強、對 Grafana-heavy org 弱（後者 Pyroscope 才是自然選擇、Datadog Profiler 反而 ecosystem misfit）。

Type C migration（4-phase）

Phase 1：Operational audit

確認 Datadog Continuous Profiler 能 cover Pyroscope 當前用途、且 ops ownership 轉移可接受：

Language coverage：當前 Pyroscope 用哪些 SDK？Datadog Profiler 支援 Go / Java / Python / Node / Ruby / .NET / PHP / Rust / C / C++，但每個語言的 profiler type 與啟用方式不同；Erlang 等較小眾語言仍要逐項驗證
Profile type coverage：Pyroscope 抓的 profile type（CPU / heap / allocation / goroutine / lock / wall time）在 Datadog Profiler 同語言是否都支援？Java 跟 Go 兩家都全、其他語言可能 partial
Retention requirement：Pyroscope retention 可自管；Datadog Profiler retention 依產品資料保留政策與合約設定，要確認是否滿足既有 long-term baseline / audit 查詢需求
資料主權：profile data 包含 application function name / line number、有時帶 customer data hint（function 名字暗示 customer-specific 邏輯）— 是否能 send to SaaS？
Cost forecast：Datadog public pricing 以 profiled host / APM tier 計費，估算時要用實際 host 數、container density、APM plan 與 commit discount 跟 Pyroscope self-host TCO 比

完成標準：寫出「Datadog 能 cover、不能 cover、不確定」三欄、不確定欄全部問過 Datadog SE / 用 trial 跑過 production-like load。

Phase 2：Agent parallel run（profile 雙寫）

Datadog Agent 多半已部署（如果在用 Datadog APM）。Phase 2 在現有 Datadog Agent 開 profiling flag、不關 Pyroscope agent、跑 2-4 週 parallel：

設定 DD_PROFILING_ENABLED=true（per service env var）
每個 service SDK init 加對應 profiling enable call（Go: profiler.Start()、Python: import ddtrace.profiling.auto、Java: agent flag 即可）
Pyroscope SDK / Alloy 繼續跑、profile 雙寫到兩家
對比同一個 service / 同一個時間段在 Pyroscope flame graph 跟 Datadog Profiler flame graph、確認 hot path 一致

Parallel run 期間的 overhead：兩邊 agent 同時跑 profiling、CPU overhead 大致 2-4%（單一 profiler 通常 1-2%、雙寫 double）、production-acceptable but not free。Phase 2 不要超過 4 週、避免長期 double overhead。

完成標準：每個 production service 在 Datadog Profiler 都有 4 週連續 profile data、跟 Pyroscope flame graph 對比一致。

Phase 3：Tag schema reconcile + trace correlation

Pyroscope tag schema（自己設計）跟 Datadog standard tag（service / env / version / host）對齊：

Pyroscope tag app=checkout-api → Datadog service:checkout-api
Pyroscope tag env=prod-us → Datadog env:prod + region:us-east-1
Pyroscope tag git_sha=abc123 → Datadog version:abc123（透過 DD_VERSION）
Custom tag（team / business unit）→ Datadog custom tag（透過 SDK config 或 agent label）

Trace correlation：Datadog Profiler 自動跟 APM trace 關聯（透過 trace_id injection into profile sample）— Phase 3 要驗證這個 correlation 可用（在 Datadog APM 點 trace span、應該能跳到對應時段 profile）。

Deploy marker：CI 在 deploy 時打 Datadog deployment marker（datadog-ci deployment mark 或 API call）、讓 Profiler diff view 知道 baseline / candidate 邊界。

完成標準：tag schema 1:1 對應、trace → profile deep link 可用、deploy marker 自動推送。

Phase 4：Pyroscope agent 關掉 + server 退役

逐步關 Pyroscope agent（per service rollout）：

先關低重要性 service（dev / staging / non-critical prod）
觀察 1-2 週、確認沒事故再關下一批
最後關 critical service、留 Pyroscope server 跑 1-2 週空 ingest（rollback 緩衝）
取消 Pyroscope server（decommission storage、release K8s resource、關 on-call rotation）

Pyroscope 歷史 profile data 保留策略：

多數場景：直接 archive S3 / GCS、未來查得到但不維護 query UI
強合規場景：export Pyroscope flame graph data 為 pprof file 保存（pprof 是長期可讀格式）

完成標準：所有 production service 只走 Datadog Profiler、Pyroscope server 取消、TCO 對比驗證符合預期。

5 個 production 踩雷

1. 兩家 agent 同時跑造成 production overhead

Phase 2 parallel run 期間 CPU overhead 2-4%、預期內。但有些 service 設定錯誤（例如 sampling rate 預設都拉高）變成 6-10% overhead、p99 飄升、誤判為 Datadog Profiler 自己的問題。修法是 parallel run 期間 Pyroscope sampling rate 降低 50%（已經有歷史 baseline、不需要全採）、且 Phase 2 不要在 peak event 期間跑。

2. Tag schema 不一致導致 historic baseline 對不上

Pyroscope tag app=checkout-api 跟 Datadog service:checkout-api 都指同一個 service、但 Datadog 內 historic profile 沒有 app tag、所以從 Pyroscope 視角看 baseline 跟 Datadog 視角看 baseline 是不同的時段切片。Release regression 比較時用錯 baseline、會誤判 release 沒問題（實際 baseline 不對應）。修法是 Phase 3 明確記錄 Datadog Profiler 的 baseline 起算時間是 Phase 2 開始日、Pyroscope 歷史不直接搬入比較。

3. Trace_id correlation 斷（Phase 3 最常見）

Datadog Profiler 自動關聯 trace 的前提是 同一個 Datadog Agent + APM SDK 注入 trace_id。如果 service 用 OpenTelemetry SDK + Datadog Agent（OTel-first 配置）、trace_id 注入方式不同、profile 跟 trace 可能無法自動 correlate。修法是 確認所有 service 用 Datadog SDK 或正確配 OTel-to-Datadog converter、在 Datadog APM 介面 random 抽 10 個 trace 驗證 profile correlation 是否 wire 通。

4. Cost 突增（Phase 4 後常見）

關掉 Pyroscope agent 後、Datadog Profiler 變成 sole profile source、ingest volume 上升、Datadog bill 比預估高 30-50%。原因通常是：

Profile sampling rate 不小心開太高（部分 service config 沒對齊）
Custom tag 太多（每個 unique tag combination 增加 indexing cost）
Profile event 量比預估高（service count × sampling rate × profile types）

修法是 Phase 1 cost forecast 要保留 30% buffer、且 Phase 4 完成後立即跑 Datadog usage report 確認 actual 跟 forecast 對比。

5. Retention / baseline 政策變動造成歷史 query 斷層

Pyroscope 自管 retention 可以設成配合內部 storage 與 compliance policy；Datadog Profiler 的 retention 依產品資料保留政策與合約設定。真正的風險不是固定「7 天 vs 90 天」，而是 既有 baseline 查詢習慣是否還成立：原 Pyroscope user 可能習慣查特定 release 前後的 flame graph、Datadog 端則要看 profile tag、deployment marker 與保留政策能否支援同樣查詢。修法是 Phase 1 明確列出「要查多久前、用什麼 tag 找、誰有權限看」三個問題，超出 profile retention 的長期 trend 改用 Datadog metrics-derived signal（cumulative CPU% / memory growth rate）或保留 Pyroscope archive。

Capability 對照

能力	Pyroscope（self-host）	Datadog Continuous Profiler
Language SDK 覆蓋	Go / Java / Python / Node / Ruby / .NET / Rust / PHP	Go / Java / Python / Node / Ruby / .NET / PHP / Rust / C / C++
Profile type（CPU / heap / lock / etc）	全（依語言 SDK 而定）	全（依語言 SDK 而定）
Flame graph diff workflow	Grafana panel	Datadog Profile Comparison
Trace correlation	手動配 Grafana correlation rule	自動（trace_id injection）
Deploy marker	手動	datadog-ci 自動
Retention	自管（無上限、cost 自負）	依 Datadog retention policy / 合約設定
資料主權	完全自管	SaaS（profile 出境）
Ops ownership	自管（storage / scaling / on-call）	Vendor
Cost model	self-host TCO	profiled host / APM tier / commit discount
Cross-signal query	Grafana cross-datasource	Datadog native（trace / log / profile / metrics 同一 query bar）

何時不要切（保留 Pyroscope）

資料主權 / compliance 不允許 profile data 出境：金融 / 醫療 / 政府 / 國防、保留 Pyroscope self-host
內網 / air-gap 部署：物理上連不到 Datadog SaaS、保留 Pyroscope
OSS-first / vendor neutrality policy：org 政策不允許 vendor lock-in profiling、保留 Pyroscope
規模超大（> 500 APM host）：Datadog Profiler add-on cost × host 數可能超過 Pyroscope self-host TCO、計算交叉點
Long retention / 自訂 archive 強需求：若 profile data 必須照內部 retention policy 長期保存、保留 Pyroscope 或建立 export / archive 流程
Datadog 不支援的語言或 profiler type：Erlang、特定 runtime 或特定 profile type 若 Datadog 無法覆蓋，保留 Pyroscope 為對應 service profiling

下一步路由

平行 batch：JMeter → k6（Type E paradigm shift）
同 batch Type C：（待補、本篇是 batch 唯一 Type C）
上游：9.8 Performance Observability / 4.9 Continuous Profiling
下游：9.9 Performance Improvement Loop（profile diff 接入 release regression workflow）
vendor 對照：Pyroscope / Datadog Continuous Profiler / Parca
方法論：Migration Playbook Methodology（Type C operational hybrid 結構說明）