Database on Tarragon

部署順序與資料庫上 IaC

Fri, 26 Jun 2026 00:00:00 +0000

地基就緒後，依「地基 → 上層」的順序把實際承載業務的服務寫進 IaC。身分（IAM）、網路（VPC / subnet）與環境分離構成底層平面，這一層在它們之上描述資料庫、運算、儲存與入口 — 業務流量真正落地的地方。順序與依賴的表達方式決定了這層能不能被乾淨地重建、拆除與演進。共通原則是：描述服務的「身分與接線」，而非把每個執行期參數都塞進程式碼。

本篇先確立依賴圖怎麼驅動部署順序，再展開核心服務裡最需要謹慎描述的一類 — 資料庫。資料庫持有無法重建的狀態，它的 IaC 描述比其他 stateless 資源多出保護策略、連線管理與讀寫分流三個維度。

核心服務的部署順序

核心服務的部署順序由依賴方向決定：被依賴的先建，依賴別人的後建。網路與身分是幾乎所有上層服務的共同前置 — 資料庫要放進私有 subnet、運算要套用 IAM role 才能讀 S3、load balancer 要掛在公開 subnet 並引用 security group。這些底層平面若還沒成形，上層資源會在 apply 時因為找不到 subnet ID 或 role ARN 而失敗，或更糟，建在預設 VPC 裡繞過了所有隔離設計。

把順序交給 IaC 工具的依賴圖自動推導，比人工排序可靠。當運算資源的定義引用了 subnet 與 security group 的資源屬性，Terraform 會解析出「subnet 先於運算」的邊，apply 時自動排程。人工維護一份「先做 A 再做 B」的清單會隨資源增加而失準，依賴圖則隨程式碼本身演進。

四層依賴結構

依賴圖的典型展開順序呈現四層結構：

層次	資源	依賴來源
1	VPC、subnet、security group、IAM role	無（地基層，由模組二到四建立）
2	RDS、ElastiCache、S3 bucket	引用 subnet group、security group
3	ECS service / EKS workload、RDS Proxy	引用 subnet、IAM role、DB 端點
4	ALB、listener、target group、ACM 憑證	引用 public subnet、security group、ECS

這四層不需要手動編排。只要程式碼裡的引用關係正確，Terraform 就會自動按這個順序 apply。當 plan 輸出的順序看起來不合直覺 — 例如 ALB 先於 ECS — 通常代表某個引用斷了、兩者之間沒有依賴邊。

順序失控的徵兆

順序失控的早期徵兆是：某個上層資源的定義裡寫了一串 hardcode 的 subnet ID 或 VPC ID。

1# 硬編碼 ID — 依賴圖斷裂，底層重建時上層不會跟上
2resource "aws_db_subnet_group" "private" {
3  subnet_ids = ["subnet-0abc123", "subnet-0def456"]
4}

這段 code 跟底層的 subnet 資源沒有引用關係。底層一旦重建、ID 改變，上層不會自動跟上，state 與雲端現實之間的不一致（即 drift）就此產生。修法是把硬編碼的 ID 換成對底層資源屬性的引用：

1# 引用資源屬性 — 依賴圖自動推導，底層重建時上層自動取得新 ID
2resource "aws_db_subnet_group" "private" {
3  subnet_ids = [for s in aws_subnet.private : s.id]
4}

跨 state 的情境（網路地基與核心服務分屬不同 state）則用 data source 取代直接引用 — 這個取捨在服務依賴與跨 state 引用展開。

隱性依賴與 depends_on

自動推導涵蓋的是「引用屬性時產生的邊」。少數情況下兩個資源之間有依賴卻沒有屬性引用 — 例如一個 IAM policy attachment 必須在某個 role 被 ECS task 使用之前完成，但 task 引用的是 role ARN 而非 attachment 的輸出。這時用 depends_on 顯式宣告邊：

1resource "aws_ecs_service" "api" {
2  # ...
3  depends_on = [aws_iam_role_policy_attachment.ecs_task_s3]
4}

depends_on 應該只出現在自動推導覆蓋不了的場景。如果一個 module 裡到處都是 depends_on，通常代表引用關係寫得不夠明確，該把隱性依賴改成屬性引用。

資料庫（RDS）

資料庫是核心服務裡最需要謹慎描述的資源，因為它持有無法重建的狀態。IaC 定義它的 instance class、引擎版本、所在的 subnet group（決定它落在哪些私有 subnet）、套用的 parameter group 與 security group。連線端點不要硬編碼，改用資源 output 暴露給上層運算引用，這樣端點隨主庫 failover 或重建而改變時，上層引用自動更新。

 1resource "aws_db_instance" "primary" {
 2  identifier             = "app-${var.env}-primary"
 3  engine                 = "postgres"
 4  engine_version         = "16.3"
 5  instance_class         = var.db_instance_class
 6  allocated_storage      = 100
 7  storage_encrypted      = true
 8
 9  db_subnet_group_name   = aws_db_subnet_group.private.name
10  vpc_security_group_ids = [aws_security_group.db.id]
11
12  multi_az                  = var.env == "prod" ? true : false
13  backup_retention_period   = var.env == "prod" ? 14 : 1
14  backup_window             = "03:00-04:00"
15  deletion_protection       = var.env == "prod" ? true : false
16  skip_final_snapshot       = var.env == "prod" ? false : true
17  final_snapshot_identifier = var.env == "prod" ? "app-prod-final-${formatdate("YYYYMMDD", timestamp())}" : null
18
19  tags = { service = "payments" }
20}
21
22output "db_endpoint" {
23  value = aws_db_instance.primary.endpoint
24}

加密的不可逆性

storage_encrypted = true 確保磁碟層級的加密在資源建立時就生效。RDS 不支援事後對既有 instance 開加密 — 漏了只能重建。補救路徑是匯出快照、用加密 KMS key 複製快照成加密版本、再用加密快照還原成新 instance。這個過程需要停機或切換端點，對已經承載流量的 production 資料庫代價很高。prod 的 RDS 若 storage_encrypted 為 false，這筆技術債越早處理越便宜。

parameter group 的角色

parameter group 定義資料庫引擎層級的行為參數（如 max_connections、work_mem、log_min_duration_statement），是 RDS instance 的設定骨架。IaC 描述 parameter group 的好處是讓這些參數進版本控制 — 有人改了 max_connections 會出現在 PR diff 裡，而不是某天在 Console 改了沒人知道。

 1resource "aws_db_parameter_group" "postgres16" {
 2  family = "postgres16"
 3  name   = "app-${var.env}-pg16"
 4
 5  parameter {
 6    name  = "log_min_duration_statement"
 7    value = "1000"
 8  }
 9
10  parameter {
11    name  = "shared_preload_libraries"
12    value = "pg_stat_statements"
13  }
14}

修改 parameter group 的某些參數需要重啟 RDS instance（稱為 apply_method = "pending-reboot"），修改前要先確認這個參數屬於「立即生效」還是「要重啟」。在 Terraform plan 裡不會明確標示重啟，要靠 AWS 文件交叉比對。

連線管理

運算到資料庫之間有一段常被略過的接線：連線管理。無狀態運算水平擴張時，每個實例各自開連線，容易把資料庫的連線數打滿。一個 ECS service 從 5 個 task 擴到 50 個、每個 task 開 10 條連線，就從 50 條跳到 500 條 — 而一台 db.r6g.large 的 max_connections 預設約在 1600 左右，500 條已經吃掉三分之一。

出現「擴運算反而拖垮 DB」的訊號時，解法是引入連線池或受管的連線代理。RDS Proxy 是 AWS 的受管方案：它在運算與 RDS 之間當一層連線池，把下游的數百條短連線收斂成對 RDS 的少量長連線。在 IaC 裡一併定義，輸出 proxy 端點給運算引用：

 1resource "aws_db_proxy" "app" {
 2  name                   = "app-${var.env}-proxy"
 3  engine_family          = "POSTGRESQL"
 4  role_arn               = aws_iam_role.rds_proxy.arn
 5  vpc_subnet_ids         = [for s in aws_subnet.private : s.id]
 6  vpc_security_group_ids = [aws_security_group.db.id]
 7
 8  auth {
 9    auth_scheme = "SECRETS"
10    secret_arn  = aws_secretsmanager_secret.db_password.arn
11  }
12}
13
14output "db_proxy_endpoint" {
15  value = aws_db_proxy.app.endpoint
16}

運算端引用 db_proxy_endpoint 而非 db_endpoint，連線管理就從各 task 自己處理轉成由 proxy 統一收斂。RDS Proxy 同時提供 failover 的連線保持 — 主庫切換到 standby 時，proxy 維護的連線不會全部斷開重建，應用端感受到的是短暫延遲而非連線錯誤。

判讀是否需要 RDS Proxy 的訊號是連線數成長曲線：如果運算的擴縮範圍固定且連線數上限遠低於 max_connections，直連即可；如果運算會頻繁擴縮或連線數可能逼近上限，proxy 值得引入。proxy 本身有額外成本（按 vCPU 計費），不是所有環境都划算 — dev 環境通常直連就夠。

read replica

當讀流量遠大於寫、且能容忍副本的複寫延遲（通常是毫秒到秒級）時，read replica 是把讀請求導離主庫的下一步。replica 在 IaC 裡用獨立資源描述，引用主庫的 identifier：

 1resource "aws_db_instance" "read_replica" {
 2  identifier             = "app-${var.env}-replica"
 3  replicate_source_db    = aws_db_instance.primary.identifier
 4  instance_class         = var.db_replica_class
 5  vpc_security_group_ids = [aws_security_group.db.id]
 6}
 7
 8output "db_replica_endpoint" {
 9  value = aws_db_instance.read_replica.endpoint
10}

運算端依讀寫分流引用不同端點 — 寫走 db_endpoint（或 db_proxy_endpoint），讀走 db_replica_endpoint。這個分流邏輯屬於應用層的責任，infra 只負責把端點暴露出來。

read replica 的邊界要講清楚：它緩解讀流量對主庫的壓力，但它不是備份。replica 會同步複製主庫的所有變更 — 包括誤刪的資料。需要還原到某個時間點的保護由 backup retention 與 PITR（point-in-time recovery）提供，這兩者的 IaC 描述在 stateful 保護策略。

引擎版本升級的取捨

RDS 引擎版本（engine_version）寫進 IaC 後，版本升級就成為一個需要 PR review 的變更。升級分 minor 和 major：minor 升級（16.2 → 16.3）通常向後相容、可在維護視窗自動套用；major 升級（15 → 16）可能有 breaking change，需要先在 dev 環境驗證、備份、排維護窗口。

在 IaC 裡把 engine_version 寫死是刻意的選擇 — 它阻止 AWS 在背景自動升級 major 版本，讓版本變更必須走 PR。代價是需要定期檢查是否有 EOL 版本還在用。如果 engine_version 指向的版本已經超過 AWS 的支援期限，Terraform apply 會在某天失敗（AWS 會強制升級），這比主動升級更不可控。

資料庫在規模放大後的治理維度也會改變。Netflix 把分散的 Aurora 叢集整併後成本降了 28%——多個團隊各自開的 RDS instance 加起來的閒置容量遠超一個整併後的叢集。infra 層的教訓是 RDS 的 IaC 描述不只管單一 instance 的設定，長期還要管叢集的分布與合併策略。另一個維度是合規需求驅動的資料落地：Hard Rock Digital 因為 Wire Act 法規要求資料留在特定州，用 AWS Outposts 在地端跑運算——這類情境下 infra 的 region 與可用區選擇由法規約束驅動，而非純技術決策。

跨分類引用

→ 模組三：網路地基：資料庫的 subnet group 引用 private subnet
→ 模組二：身分與憑證地基：RDS Proxy 的 IAM role 與 secret 存取
→ 模組四：環境分離與模組化：prod / dev 用同一個 module、不同參數值
→ stateful 保護與跨 state 引用：backup retention、deletion protection、multi-AZ 的完整討論
→ 運算上 IaC：運算端怎麼引用資料庫端點
→ backend 模組一：資料庫：schema 設計、migration、query 層面的服務端討論

DB3 Vendor Selection：document / KV / multi-model 三方選型 + workload shape 前置判讀

Wed, 27 May 2026 00:00:00 +0000

DB3 vendor selection 的核心責任是把讀者從「我該選 MongoDB / DynamoDB / Cosmos DB 哪一家」這個問題、推到「我的 workload 是 document / KV / multi-model 哪一類」這個更前置的問題。三家文件都標榜 scalable schema-less、但實際取捨在 資料形狀、access pattern 穩定度、consistency 可接受度 三軸決定 — 不識別 workload shape 直接比 vendor 是源頭錯誤。本文是 DB3 reader 進來的第一站：先做 workload shape 三軸前置判讀、再過 migration path 三型 + federated DB 視角、最後落到三 vendor 對比 10 軸。

本文不展開 vendor 機制細節（partition key 設計 / consistency level / RU sizing / connection management 等）— 那些屬 per-vendor deep article 的責任、本文在每個軸後 cross-link 過去。本文也不比較三家「誰比較強」— 三 vendor 在 workload-by-workload 適配光譜上各有位置、寫成優劣比較會誤導讀者把選型壓成單軸。

問題情境：讀者進來時的真實壓力

典型啟動壓力分兩類：

第一類、團隊評估 document / KV / multi-model NoSQL 三家、文件都說「scalable schema-less」、看不出實際取捨。讀者徵兆是「我的資料是 document-shaped 還是 KV-shaped？」「partition key 該怎麼選？」「Atlas 跟 Cosmos DB MongoDB API 不一樣的點在哪？」「Cosmos DB multi-model 是真用得到還是行銷話術？」「on-demand vs provisioned 怎麼選？」

第二類、既有 PostgreSQL / MySQL workload 撞 connection limit（surge 下 1K-5K pool 是隱性天花板、F1.7）、想換 KV 但不知道是否適合。讀者徵兆是「我已經有 Memcached、還要再加 MongoDB cache 層嗎？」「DynamoDB 適合當 OLTP 嗎？」「換 NoSQL 是不是解 connection 問題的銀彈？」

這兩類讀者進來時的 真實問題 不在 vendor 之間、在 workload 自己屬哪一型。Case anchor 覆蓋六個 unique 角度：

多型 document workload — 9.C38 Toyota Connected（車載 sensor schema 隨車型演進、20 個 Atlas DB blast radius 切分）
Document 跨雲 hedging — 9.C37 Forbes（自管 → Atlas、6 個月遷移、跨雲彈性）
同 model 換 vendor 的 dogfood signal — 9.C30 Microsoft 365（MongoDB → Cosmos DB MongoDB API、保留 driver、wire compat 限制）
KV-as-buffer 正向用例 — 9.C15 Tixcraft（DynamoDB 寫入緩衝、6750x 彈性、後端慢消費）
PK 天然均勻典範 — 9.C5 Amazon Ads（90M reads/sec 年度峰值、KV pattern 純粹）
Federated DB 真實系統 — 9.C36 Coinbase（MongoDB + DynamoDB + Memcached + mongobetween + freshness token）

Workload shape × access pattern × consistency 三軸前置判讀

進三家 vendor 對比前先回答：你的 workload 屬哪一型？三軸的組合決定 vendor 候選清單、軸不識別清楚直接比 vendor 是把選型壓成「品牌偏好」、不是工程決策。

軸 1 — 資料形狀：document / KV / 不清楚

資料形狀的核心判讀是 aggregate root 邊界是否明確 跟 schema 是否會隨產品演進新增欄位。document 適合的場景是資料天然多型、單筆記錄欄位差異大、應用層用 aggregate root 模式存取；KV 適合的場景是資料形狀固定、access pattern 數量少（< 5 種）、固定 lookup by key。

訊號	適配資料模型	對應 case
資料天然多型（不同記錄欄位不同）、隨產品演進 schema 增刪欄位、aggregate root 邊界明確	Document（MongoDB / Cosmos DB SQL API / MongoDB API）	Toyota sensor schema 隨車型演進、Forbes CMS article 欄位多型
資料形狀固定、access pattern < 5 種、固定 lookup by key（meeting_id / message_id / user_id）	KV（DynamoDB / Cosmos DB Table API / Redis 持久化變體）	Amazon Ads 用 ad_id 查、Disney+ 用 user_id 查 watchlist、PayPay 用 message_id 查通知
資料形狀還在探索、access pattern 變動頻繁、未來 6 個月會加 5+ 種新 query	暫緩 NoSQL 選型、用 PostgreSQL + JSONB 過渡	屬讀者誤判常見模式、case 沒揭露但 F1.3 / F1.6 推論：NoSQL 假設 access pattern 穩定、未穩定就上 NoSQL 會撞 single-table 設計天花板

第三列的「暫緩 NoSQL」是反指標。NoSQL（特別是 DynamoDB single-table design）的核心假設是「access pattern 在設計時已知、後續變動有限」。資料模型還在探索、access pattern 半年內會大幅增減的場景、PostgreSQL + JSONB 給的彈性遠高於 NoSQL — JSONB 欄位可以演進、ad-hoc query 可以用 SQL 跑、未來釐清穩定 access pattern 後再選 NoSQL 不遲。

軸 2 — Access pattern 穩定度（KV 適用度前置判讀）

KV 適用度的核心判讀是 partition key 天然均勻度。partition key 不均勻會讓 vendor 廣告的「scale infinitely」變成「scale 到 hot partition 為止」、單一 logical key 流量超過該 partition 上限就 throttle 或 latency spike（F1.1）。

天然均勻 PK + 穩定 access pattern（meeting_id / player_id / message_id / user_id）→ DynamoDB / Cosmos DB Table API 適用、PK 不需 composite key 修補。Amazon Ads 用 ad_id 撐 90M reads/sec、Zoom 用 meeting_id、Capcom 用 player_id、PayPay 用 message_id、Disney+ 用 user_id — 五個 case 都揭露同一 frame：業務天然存在均勻 key 時 KV 是最自然的選擇。
天然不均勻 PK（event_id 一場演唱會集中 / date 時間序集中）→ 需 composite key 或 write sharding 修補。Tixcraft（9.C15）用 event_id + user_id_hash composite key 把單一熱門演唱會的 6750x spike 攤平到 partition 上 — 不是 DynamoDB 自身彈性、是 partition key 均勻分散的結果（F1.2）。
Access pattern 變動頻繁（探索期、< 5 種 query 還會增加）→ 不適合 DynamoDB single-table design、回 RDB。Single-table 把 access pattern 編進 PK / SK 結構、增加新 query 等於改 schema、改 schema 等於重新 load 資料、成本不對。

KV 適用度判讀的延伸細節（hot partition 反模式 / composite key 設計 / adaptive capacity）見 DynamoDB partition key antipatterns。

軸 3 — Consistency 需求是否可接受 eventual

Consistency 需求的核心判讀是 跨 partition / 跨 region transaction 是否為產品契約。三家 vendor 都支援單 partition / 單 region 強一致、但 cross-partition / cross-region transaction 的機制跟限制差異大。

可接受 eventual / session consistency：DynamoDB（default eventually consistent reads、可選 strong）、Cosmos DB（5 個 consistency level、default session）、MongoDB（read concern 多級）— 三家都可以、選擇看其他軸。多數 KV / document workload 屬此類（social timeline、watchlist、message queue、analytics aggregation）。
需要強一致 cross-partition transaction：DynamoDB 跨 partition transaction 限制（單一 transaction 最多 100 個 action、跨 region 不支援）、MongoDB 4.0+ 支援 multi-document transaction 但 sharded cluster 仍有 limitation、Cosmos DB 跨 logical partition transaction 受限 — 都不如 SQL／distributed SQL 自然、應回 DB4 entry point 評估 Aurora DSQL / Spanner / CockroachDB。
跨 region active-active write：三家機制完全不同 — Cosmos DB multi-region write 跟 Strong consistency 是互斥設定（CAP 取捨硬約束、見 Cosmos DB multi-region write conflict SSoT 主寫位置）；DynamoDB Global Tables 走 LWW（last-writer-wins）conflict resolution；MongoDB Atlas 跨 region 需手動 conflict 處理。三家不在同一光譜、選擇前必看各 vendor outline 的機制段。

Migration path 三型（跨 case 合成 frame）

本段是 跨 case 合成 frame、不是單一 case 揭露 — 從 Coinbase（9.C36）/ Forbes（9.C37）/ Microsoft 365（9.C30）三 case 萃取的共通結構（F2.1）。

讀者進來時通常不是綠地、是 既有系統演進。三型遷移路徑的風險、ROI、適用條件完全不同、選錯路徑會推到錯的 vendor。

第一型：保留原 DB + 補周邊工具

不換 vendor、加 connection proxy（mongobetween / pgbouncer 類）、加 cache（Memcached + freshness token）、加 predictive scaling — 主資料層不動、應用層跟 ops 層補強。

代表 case：Coinbase（9.C36）保留 MongoDB Atlas、自建 mongobetween 把 60K connections/min 降到 ~2K（一個量級）、用 Memcached + freshness token 撐 1.5M reads/sec、用 ML predictive scaling 把擴容時間從 70 → 25 分鐘提前 60 分鐘
路徑成本：中（自建工具、需要工程資源 build & operate proxy / cache layer / ML model）
風險：低（主資料層不動、回滾代價小）
ROI：保留主資料 schema + access pattern、解 driver / 部署模型 / cache 一致性瓶頸
適合：MongoDB（或主 DB）資料層撐得住、但應用層 connection storm / cache miss / 擴容慢卡瓶頸；團隊有工程能力 build 跟 maintain 周邊工具

延伸實作細節見 MongoDB connection management（per-vendor article、cross-link 待寫稿）。

第二型：同 DB 換託管

自管 → managed（Atlas / Cosmos DB / DocumentDB）、保留 schema 跟 access pattern、遷移期 6 個月量級。

代表 case：Forbes（9.C37）自管 MongoDB → MongoDB Atlas、保留 CMS schema、6 個月遷移、揭露「TCO 改善 25%」
路徑成本：中（dual-write + shadow read 驗證、driver 行為差異、operation runbook 重寫）
風險：中（dual-write 期間雙寫一致性、cutover 時點選擇）
ROI：operation transfer（DBA bandwidth 釋放給 schema design / query tuning）+ TCO 改善
適合：自管 ops burden 大（DBA bandwidth 被 backup / patching / replica lag 吃光）、不想換 model

Scope warning（Forbes 25% TCO）：「25% TCO 改善」是 Forbes 特定流量規模（120M MAU、70+ Atlas region）下的數字、不普適。引用要帶條件 — 不要寫成「Atlas 比自管便宜 25%」這種 vendor-neutral 結論。實際省多少要看自管當下的 license / hardware / ops 工時分配、跟 Atlas 在你流量規模下的 pricing tier。

第三型：換 vendor 保留 model

MongoDB → Cosmos DB MongoDB API、或 MongoDB → DocumentDB — wire protocol + driver 不變、底層架構整個換、ops 模型整個換。

代表 case：Microsoft 365（9.C30）MongoDB → Cosmos DB MongoDB API、保留 MongoDB driver
路徑成本：高（dual-write per query pattern 驗證、wire compat ≠ 100% 行為相同、aggregation pipeline 跟 transaction 行為要逐項驗證）
風險：高（每個 query pattern 都可能踩到不相容 edge case、cutover 點選擇難）
ROI：跨 vendor 換（Azure 生態 / multi-model API / global distribution）+ 保留應用層 driver code

Scope warning（Microsoft 365 dogfood）：Microsoft 365 是 Microsoft 自家 dogfood、case 沒揭露具體 throughput / latency / cost 數字（F2.17）。dogfood 是 高權重 selection signal（雲商賭自家旗艦產品）、但 不是 production benchmark（沒公開數字可比對）。引用要明示「dogfood signal」而非「production proof」。

Scope warning（100% wire compat）：Cosmos DB MongoDB API 廣告「100% wire compatibility」是 vendor 行銷話術、實際是「在某些 query pattern 下相容」（F2.9）。遷移時必須 dual-write per query pattern 驗證 — 不是看 vendor 文件 spec list、是用 production query corpus 跑一遍實測行為。Phase 0 audit checklist 應列出 unsupported aggregation stage、transaction edge case、index behavior 差異、change stream 跟 Change Feed 對應關係。

延伸 Cosmos DB MongoDB API vs SQL API 選型見 Cosmos DB MongoDB API vs SQL API。

第四型不在 DB3 範圍：paradigm shift 換引擎

KV → SQL 或 SQL → distributed SQL 屬 paradigm shift、應進 DB4 entry point: Aurora DSQL / Spanner / CockroachDB decision tree。本文範圍是 DB3 三家內部選型、不展開 paradigm shift。

從 RDB 撞牆來的快速路徑

讀者若從 PostgreSQL / Aurora connection limit 撞牆過來、想評估 KV 替代、依撞牆訊號直接 route 到對應 article、不必先跑完三軸前置判讀：

撞 connection limit（surge 下 pool 1K-5K 隱性天花板、long-lived TCP 占滿）→ HTTP API 模型（no long-lived connection）的 KV 直接接寫入緩衝、進 dynamodb/single-table-design-pattern 的「durable queue / write buffer」段（Tixcraft 9.C15 路徑：DynamoDB 接訂單、傳統 server 慢消費）、或評估 Cosmos DB Table API
撞單 primary 寫入上限（單 leader 寫吞吐天花板、read replica 無法分擔寫）→ multi-primary distributed SQL 路徑、進 DB4 entry point: Aurora DSQL / Spanner / CockroachDB decision tree 的 Path A（DoorDash 1.636 M QPS 單主寫入撞牆）
撞單一 DB 撐不下 + 多 workload 形狀並存（read-heavy / write-heavy / analytics 混在一個 DB）→ federated DB 模式、看 9.C36 Coinbase（MongoDB + DynamoDB + Memcached + mongobetween）+ 9.C29 Lemino（PostgreSQL → DynamoDB 揭露 RDB connection limit 隱性 bottleneck）

進 dynamodb/single-table-design-pattern 前先確認軸 1 / 軸 2 的 access pattern 穩定度跟 PK 天然均勻度 — connection limit 訊號 必要但不充分、KV 適用度 4 軸還是要走完、避免「為了解 connection 把不穩定 access pattern 硬塞 single-table」反模式。

Federated DB + system role 視角（跨 case 合成 frame）

本段也是 跨 case 合成 frame（F2.18 + F1.6）— 三個 rich case（Coinbase / Toyota / Forbes）都揭露 production 系統是 DB + 周邊工具 組合、不是單一 DB monolithic 撐起來。

讀者常誤以為「全用 X」是正解 — 全用 MongoDB、或全遷 DynamoDB、或全換 Cosmos DB。真實 production case 揭露兩個更前置的事實：(a) production 系統是 federated（多 DB 按 workload 分流）、不是 monolithic；(b) 每個 vendor 在系統中扮演 特定角色（control plane vs data plane vs cache）、不是 all-purpose store。

Federated DB by workload

Coinbase（9.C36）production 配置：MongoDB Atlas（document 主資料、identity service）+ DynamoDB（部分固定 KV workload）+ Memcached（read cache）+ mongobetween（connection proxy）+ Kinesis（event stream）。不是「全用 MongoDB」也不是「全遷 DynamoDB」、是按 workload shape 分流。

Toyota Connected（9.C38）：MongoDB Atlas 20 個 DB（microservice 拆 blast radius）+ Lambda + Kinesis + Redis + Kubernetes。20 個 DB 不是吞吐撐不住（18B txn/月 ≈ 7K txn/sec、單一 cluster 撐得下）、是 microservice ownership + blast radius 切分（F2.6）。

Forbes（9.C37）：MongoDB Atlas + 中介 abstraction layer + 50+ microservice。abstraction layer 隔離 schema 變動、避免 50 個服務都依賴 DB schema 細節（F2.3）。

三 case 揭露的共同 frame 是：寫 production 系統時假設「DB 一個服務搞定」、忽略 cache / queue / proxy / abstraction layer 跨層責任、會撞 connection limit / cache miss / cross-region replication 等隱性瓶頸。

System role：control plane vs data plane

DynamoDB 在 surge 場景能撐 nearly infinitely 不是 DynamoDB 自己神奇、是 系統架構解耦 的結果（F1.6）：

Control plane（metadata、state、user record）：DynamoDB / MongoDB / Cosmos DB 適合 — 流量是 small payload + high QPS pattern
Data plane（影音、大型 BLOB、media stream）：CDN / S3 / object storage、不在 DB3 範圍 — 流量是 large payload + bandwidth-bound
Cache layer：Redis / Memcached / DAX（DynamoDB 補位）— 跟主 DB 形成跨層架構、處理讀峰值 + read-your-own-write 一致性

三個 case 揭露同一 frame：Zoom 視訊 metadata 走 DynamoDB、影音走 WebRTC / edge servers；Disney+ watchlist 走 DynamoDB、影片串流走 CDN + S3；Capcom game state 走 DynamoDB + DAX、game server 走 EKS。把影音串流塞 DynamoDB 是違反 control plane vs data plane 分離、容量規劃會錯（每筆 1KB 的 KV vs 每筆 100MB 的 media chunk 是不同 workload）。

三 vendor 對比 10 軸

下表是三 vendor 在 selection 階段的 10 軸對比。每個軸後續都有 per-vendor deep article 展開機制、本文不重複展開。

軸	MongoDB	DynamoDB	Cosmos DB
資料模型核心	Document（aggregate root）+ aggregation pipeline	KV with optional document fields + GSI / LSI	Multi-model（SQL / MongoDB / Cassandra / Gremlin / Table API）
部署 topology	跨雲（Atlas AWS / GCP / Azure）+ self-hosted	AWS-only managed	Azure-only managed
跨雲 hedging	高（Atlas 跨雲、Forbes case）	無（AWS lock-in）	無（Azure lock-in）
Capacity 抽象	CPU + IOPS + working set RAM 三軸	WCU/RCU + on-demand/provisioned + adaptive capacity	RU（Request Unit）+ 5 consistency level
Contract layer	DB 層 `$jsonSchema` validator / app 層 abstraction / 混合	DynamoDB Stream + app 層 validator	DB 層 stored procedure + app 層 validator
Partition / shard key 可逆性	`reshardCollection` 4.4+ 可改、成本高	可改用 backfill	不可改、必 export-recreate
Consistency model	Read concern（local / majority / linearizable）+ causal consistency session	Eventually / strongly consistent reads	5 level spectrum（Strong / Bounded staleness / Session / Consistent prefix / Eventual）
Multi-region write	Atlas 跨 region 手動 conflict 處理	Global Tables LWW	Multi-region write（Strong 互斥、見 cosmosdb/multi-region-write-conflict SSoT）
Dogfood signal	無（MongoDB 是獨立公司、不適用）	Amazon 自家高頻使用（9.C5 Amazon Ads / 9.C27 Disney+ etc）	Microsoft 365 dogfood（9.C30、Scope warning：dogfood 數字不公開、是 selection signal 不是 benchmark）
Multi-model 差異化	單一 document model	單一 KV-with-document model	唯一單服務支援 5 API（差異化價值、F2.16）

軸的延伸子段

部署 topology / 跨雲 hedging：三家 topology 是 vendor lock-in 跟 跨雲彈性 的硬取捨。Forbes 選 Atlas 不是當下省錢（自管 MongoDB 也可以、TCO 改善是副作用）、是 未來雲商策略尚未底定 的 hedging — Atlas 提供 AWS / GCP / Azure 三家部署、未來換雲不用換 DB（F2.10）。對照 DynamoDB / Cosmos DB / Spanner / Aurora 都是單雲鎖定 — 選了就跟著該雲商生態走。團隊雲商策略已底定（深度用 AWS / Azure / GCP 其一）時、單雲 vendor 通常較划算（更好的 IAM 整合、更深的 ops 工具、單一 support 通道）。跨雲價值真正成立是 策略不確定 或 合規要求多雲 場景。

Capacity 抽象：三家 capacity 抽象的 思維遷移成本 可能高過 vendor 廣告的價差（F2.12）。MongoDB 用 CPU + IOPS + working set RAM 三軸思維、跟自管 PostgreSQL / MySQL 類似、團隊轉換成本低。DynamoDB 用 WCU/RCU 抽象、要學「估每個操作消耗多少 unit」、加上 on-demand / provisioned / adaptive capacity 三模式選擇。Cosmos DB 用 Request Unit（RU）抽象、1 RU ≈ 1 KB document 的 strong read 成本、寫 ~5 RU、複雜 query 數百 RU — 工程師要學會用 RU 思考、不是用 CPU 思考、團隊知識遷移成本可能高。容量規劃延伸見對應 vendor 的 sizing article。

Partition / shard key 可逆性：三家 不在同一光譜、是選 vendor 前必做的 access pattern audit 重點（F2.15）。MongoDB reshardCollection（4.4+）可改、但成本高、需要 cluster downtime 或長時間 background migration。DynamoDB partition key 技術上可改、實作上用 backfill（建新 table、新 PK、雙寫舊新、cutover）— ops 工作量大但可逆。Cosmos DB partition key 不可改、改 partition key 等於 export-recreate-import — 對 1TB+ 資料是大型 migration 工程。三家不可逆性遞增、選 Cosmos DB 前必須前期完整 access pattern audit、不能「先上 production 之後再調」。

Consistency model：三家機制設計哲學不同。MongoDB read concern 是 per-operation 選擇（同一 client connection 可以混用）；DynamoDB strong vs eventual 是 per-read 選項（write 端統一強一致）；Cosmos DB 5 個 level 是 account-level default + per-request override、且 Strong 跟 multi-region write 互斥（CAP 硬約束）。設計上 MongoDB 最 flexible、Cosmos DB 最 explicit、DynamoDB 介於中間。延伸機制細節見 Cosmos DB consistency levels engineering、Cosmos DB multi-region write conflict（SSoT 主寫位置）。

Multi-model 差異化：Cosmos DB 是 唯一單一服務支援 5 API 的雲商 DB（SQL / MongoDB / Cassandra / Gremlin / Table）— 對照 AWS 走多產品覆蓋（DynamoDB KV + DocumentDB MongoDB-compat + Neptune graph + Keyspaces Cassandra-compat）、GCP 走多產品覆蓋（Firestore + Spanner + Bigtable）。multi-model 的差異化價值是 減少多 DB 並存運維 — 一個產品團隊只養一個 service、一套 IAM、一套 backup / DR、一套 monitoring。但 是否真用上 multi-model 要看團隊實際 workload — 多數團隊只用 1-2 個 API、單一 model 的競品（DynamoDB / MongoDB）可能更專注（F2.16）。

失敗模式（cross-vendor 反模式）

下列七條是三 vendor 都會踩、跨 case 共通的反模式。Per-vendor 特定反模式（例如 DynamoDB on-demand 隱性 hot partition、MongoDB schema 三代並存）在 per-vendor deep article。

反模式 1：把 DynamoDB 當 OLTP

訊號：access pattern 還在探索期、5+ 種 query 還會增加、強一致 cross-partition transaction 是產品契約。應回 PostgreSQL / Aurora、不是繼續加碼 DynamoDB single-table design。

DynamoDB 的正確用法包含 control plane KV（Zoom / Disney+ / Capcom）跟 durable queue / write buffer（Tixcraft 9.C15 揭露的非 OLTP 正向用例、F1.3）— DynamoDB 接「訂單」寫入、不是即時生效、是讓 traditional server（金流 / 票庫）用自己能承受的速度消費。這層解耦讓「前端可以擴 130 倍、後端不用同步擴」。

反模式 2：把 MongoDB 當 KV

訊號：access pattern 固定、PK 天然均勻、不需要 aggregation pipeline、document 內部從不展開（只查 root 欄位）。

應改 DynamoDB / Cosmos DB Table API。MongoDB 在這場景的 overhead（document overhead / connection model / aggregation engine 未用上）不划算 — KV vendor 的單筆讀寫成本更低、scaling 模型更簡單。

反模式 3：把 Cosmos DB 當跨雲服務

訊號：團隊評估 multi-cloud DR / 跨雲 portability、看到 Cosmos DB 文件強調「global distribution」就以為支援跨雲。

Cosmos DB 是 Azure-only、global distribution 指 Azure 內跨 region。想跨雲應改 MongoDB Atlas。multi-model 差異化是 Azure 生態內 的價值（F2.16）— 一旦離開 Azure、Cosmos DB 的所有獨特優勢都不存在。

反模式 4：federated DB 假設「全用 X」

訊號：寫架構設計時假設「DB 一個服務搞定」、不規劃 cache / queue / proxy / abstraction layer。

Production 真實系統都是 federated（Coinbase / Toyota / Forbes 都是）。寫架構時假設一個 DB 搞定會撞 connection limit（surge 下 RDB 第一個爆點、F1.7）/ cache miss（單靠 DB 撐不住讀峰值）/ cross-region replication（跨 region 一致性處理錯）等隱性瓶頸。預先設計 federated topology + 跨層責任分配、不是事後補。

反模式 5：誤判 dogfood case 數字

訊號：引用 Microsoft 365 / Amazon Prime Day 等 dogfood case 時、把它當 production benchmark、抄具體數字當 sizing 依據。

Dogfood case 數字常 不公開 或 不適用 customer-facing（F2.17 + F1.10）— Amazon Prime Day 「90M reads/sec」是年度峰值最高一秒不是平均、Microsoft 365 直接沒給數字、Google Spanner「10 億 req/sec」是 Google 全使用者加總不是單客戶配額。寫架構時引用要明示 selection signal（雲商賭身家、值得當高權重 vendor 訊號）vs production benchmark（具體 sizing 數字）— 兩者不可混為一談。

反模式 6：partition key 一上 production 才發現不可逆

訊號：選 Cosmos DB / DynamoDB 時、partition key 設計沒做完整 access pattern audit、上 production 一段時間後發現 hot partition、想改 PK。

三家不在同一光譜（見前段對比表）— MongoDB shard key 4.4+ 可改但成本高、DynamoDB 可 backfill 改、Cosmos DB 不可改 必 export-recreate。選 Cosmos DB 前要前期完整 access pattern audit、列所有預期 query 跟對應 PK 訪問頻率、確認最熱 PK 流量在單一 partition 容量上限內（F2.15）。

反模式 7：wire compatibility 當 100% 行為相同

訊號：選 Cosmos DB MongoDB API 或 DocumentDB、看到「MongoDB compatible」就假設 MongoDB driver 跑得起來就是相容、跳過 query pattern 驗證。

Wire compat ≠ 行為 100% 相同（F2.9）。Cosmos DB MongoDB API 廣告「100% wire compatibility」是行銷話術、實際是「在某些 query pattern 下相容」— aggregation pipeline 某些 stage 不支援、transaction edge case 行為差異、index 行為差異都會踩到。遷移必須 dual-write per query pattern 驗證、不是看 vendor spec list。

不該選 DB3 的訊號（升 SQL / 升 distributed SQL 路徑）

下列四條訊號出現時、選擇應跳出 DB3 範圍。

JOIN-heavy + 強 normalize workload：應留 PostgreSQL（包括 PostgreSQL + JSONB 混合方案）、不該塞 NoSQL 再 $lookup。aggregation pipeline 的 $lookup 性能遠不如 SQL JOIN、在 sharded cluster 還有限制。
強一致 cross-region transaction 是產品契約：應進 DB4 entry point 評估 distributed SQL（CockroachDB / Spanner / Aurora DSQL）。三家 NoSQL 的 cross-region transaction 都有 limitation、不該當主路徑。
大流量 + 跨業務 fleet 治理：Aurora 200 cluster 模式（9.C4 DraftKings 揭露的 business sharding fleet）可能更合適、進 Aurora fleet 治理。NoSQL 的 fleet 治理工具鏈（cluster lifecycle / cross-cluster query / unified IAM）通常不如 managed SQL 成熟。
資料模型還在探索 + access pattern 變動快：暫緩 NoSQL 選型、用 PostgreSQL + JSONB 過渡。JSONB 給 document-like flexibility、SQL 給 ad-hoc query power、未來釐清穩定 access pattern 後再選 NoSQL 不遲。

下一步路由（per-vendor outline 子組）

讀者識別 workload type（軸 1-3）+ migration path（三型）+ system role（federated / control plane）後、進對應 per-vendor 子組繼續深化。

MongoDB 子組

入門：schema design pattern（contract layer 三選一：DB 層 validator / app 層 abstraction / 混合）
容量：shard key selection（單 cluster vs 多 cluster blast radius、Toyota 20 DB 模式）
Migration：migrate to Atlas（同 DB 換託管型）

DynamoDB 子組

入門：single-table design pattern（access pattern 設計 + 適用度前置判讀）
機制：consistency model optimization（strong vs eventually consistent 取捨）

Cosmos DB 子組

入門：MongoDB API vs SQL API（API model 選型、四層 framing）

跨層架構（federated DB / cache / proxy）

跨層架構的延伸內容見對應 per-vendor connection management / cache layer article（後續會寫）— 本文只在軸 2 / federated frame 點到、不展開機制。

進 DB4 evaluation

若需要強一致 cross-region SQL / paradigm shift（KV → distributed SQL 或 SQL → distributed SQL）、進 DB4 entry point: Aurora DSQL / Spanner / CockroachDB decision tree。

Knowledge card 路由

本文涉及的 knowledge card：

document-store — document model 的核心概念跟 aggregate root 邊界
hot-partition — KV vendor 的 partition 容量上限機制
database-sharding — shard key 跟 partition key 設計
consistency-level — strong / eventual / session 三類取捨
vendor-lock-in — 單雲 vs 跨雲的 hedging 取捨
distributed-sql — 跳出 DB3 進 DB4 的概念入口

1.1 高併發下的 SQL 讀寫邊界

Wed, 13 May 2026 00:00:00 +0000

高併發服務處理 SQL 的核心原則是共用資料庫 client、並讓 connection pool 管理連線生命週期。當並發升高時、真正要控制的是連線數、交易範圍、查詢時間與下游壓力；每個 request 各自建立連線會放大握手、排隊與資源回收成本。

本章是 01 模組的基礎章節之一、之後章節（1.3 transaction boundary / 1.10 KV / Document 容量規劃 / 1.11 全球分散式 OLTP / 1.12 大規模 DB 遷移實戰）都會回引這層的概念。跨模組對接 9.4 Saturation Discovery 跟 9.5 瓶頸定位流程。

本章目標

學完本章後、讀者能夠：

理解資料庫 client 為什麼應該共用
分辨 query、exec、rows 與 transaction 的不同邊界
了解連線池參數對高併發的影響
設計多層 connection pool 架構（app + middleware + DB）
識別 hot row / lock contention 並選擇對策
用 read replica 擴 read traffic、注意 replication lag
用 context 與 timeout 控制慢查詢
判斷什麼情況該換 KV / 緩衝模式而非繼續硬擴 SQL

【觀察】資料庫 client 通常代表連線池入口

多數後端語言的資料庫 client 都會包住連線池或連線管理能力。一般情況下、服務會在啟動時建立可重用的 database handle、讓 request handler、worker 或 service layer 共用它、並在需要時從池子裡取出可用連線。

這種模型的好處是：

呼叫端不用自己管理每個連線的生命週期
多個 request 或 worker 可以同時發出資料庫操作
連線回收與重用由 sql.DB 處理

【判讀】高併發需要有界連線

高併發時的核心風險是把 application concurrency 誤解成 database concurrency。語言端的 thread、task、coroutine 或 goroutine 可能很容易建立、但資料庫有自己的容量上限；連線池只是把壓力從應用端平滑地送到下游、無法消滅壓力。

連線池調校的核心觀念是：

SetMaxOpenConns 太低、request 會在應用端排隊。
SetMaxOpenConns 太高、可能把 DB 直接打滿。
SetMaxIdleConns 影響高峰與尖峰之間的重用效率。
SetConnMaxLifetime / SetConnMaxIdleTime 影響長連線與資源回收節奏。

第一個爆的通常是連線、不是 CPU 或 disk

SQL DB 在 surge 場景的 first bottleneck 不是 CPU、也不是 disk I/O、是 連線數量。原因：傳統 RDB（PostgreSQL、MySQL）每個連線吃記憶體 + 一個 process / thread、connection pool 上限通常 1K-5K。流量湧入時、application 想開更多連線、DB 直接拒絕（PostgreSQL：FATAL: too many connections）、看起來像 DB 故障、實際是連線數限制。

對應 9.C29 Lemino — NTT DOCOMO 串流平台選 DynamoDB 而非 RDB 的原因之一是「connection limit 在快速流量增加時變成 bottleneck」。DynamoDB 的 HTTP API 模型沒有 connection state、天然解決這個瓶頸。

判讀順序：surge 期間 DB 看起來慢、先 SHOW PROCESSLIST / pg_stat_activity 看連線數、再看 CPU / disk。連線數已經滿、再加 CPU 沒用；要加 middleware pool（pgBouncer / ProxySQL）或換 HTTP-based DB。

多層 Connection Pool 架構

實務上 production-grade 服務的 connection pool 通常分三層：

Layer 1：Application pool（每個 instance 內）

每個 application instance 維護自己的 driver-level pool
典型大小：30-50 connection / instance
工具：HikariCP（Java）、SQLAlchemy pool（Python）、sql.DB（Go）

Layer 2：Middleware pool（共享層）

PostgreSQL：pgBouncer（最常見、transaction pooling）、PgCat（rust、支援 sharding）
MySQL：ProxySQL（query routing + pool）
為什麼需要：多個 application instance 同時打 DB、總 connection 數會爆
pgBouncer 把 1000 application connection mux 到 50 個 DB connection、應用感覺有 1000 connection、DB 只看到 50

Layer 3：Database 端 max_connections

PostgreSQL default 100、實務常設 200-500
MySQL default 151、實務常設 1000-5000
每個 connection 吃記憶體（PG ~10MB、MySQL ~3MB）、設太高會 OOM

典型配置範例（中型網路服務）：

150 application instance × 30 connection (app pool)
2  → pgBouncer transaction pool (4 instance × 100 connection)
3  → PostgreSQL primary (max_connections = 200)

1500 application connection mux 到 200 DB connection、4 倍 multiplexing。

反模式：

跳過 middleware pool、application 直連 DB
應用 instance 50 個 × 30 connection = 1500 connection、PostgreSQL 直接拒絕

對應 9.C29 Lemino case — RDB connection limit 是 surge 場景的隱性 bottleneck、Lemino 選擇遷移到 DynamoDB 而不是擴 connection pool（因為 HTTP-based KV 沒這個問題）。

Query 反模式如何放大連線池壓力

連線池被占滿的根本原因不只是「連線數不夠」、還有「單一連線被占用的時間太長」。Query 反模式直接放大每筆 request 的連線占用時間：

N+1 query 讓一個 request 占用連線從 1 個 round trip 拉長到 N+1 個。同樣的 throughput、需要 N+1 倍的連線數來 sustain
Long-running transaction 把一個連線從幾毫秒占用變成幾秒，相當於把連線池的有效容量除以幾百倍
缺索引的 query 在熱表上跑 full scan、單筆 query 從 10ms 變成 1-5 秒、連線占用時間放大兩個數量級
SELECT * 載入大欄位：reader 在反序列化大物件期間連線一直 hold、不是 query 本身慢、是 serialization overhead 拉長占用

這些反模式單獨看是「query 寫法問題」、但放到連線池語境就是「連線池容量被間接削減」。先用 1.13 query 反模式的清單收回連線占用時間、再考慮加 9.14 connection pooler 中介層 — 順序顛倒會讓 pooler 治標不治本。

【策略】讀取與寫入要分開看

讀取的核心風險通常是慢查詢、掃描過大、N+1、熱點資料與連線被占住太久。寫入的核心風險則常常是 transaction 太大、衝突太高、鎖時間太長、重試邏輯不清楚。

讀取

用索引支援常見查詢條件。
避免一次載入過多資料。
需要分頁時、先考慮游標或穩定排序。
熱讀資料可以在上層加 cache、同時保留資料庫作為正式狀態來源。

寫入

transaction 只包住真正需要一致性的範圍。
transaction 範圍只保留必要資料操作、外部 API 呼叫、使用者等待或長迴圈應放在交易外。
高衝突寫入要搭配重試、唯一鍵或明確去重策略。
需要高吞吐時、先評估批次化、分段處理與有界並發。

詳見 1.3 Transaction Boundary 對 transaction 設計的深度討論。

Hot Row / Lock Contention 識別與處理

當多個 request 同時想 update 同一筆資料、會在 DB 層出現 lock contention。這跟 KV 的 hot partition 是同類問題、但 機制不同。

典型 hot row 場景：

inventory counter：所有用戶搶同一個 product 庫存
counter / metrics：實時計數器（view count、like count）
queue / job ledger：所有 worker 競爭同一個 job table
session：高頻 session 更新

識別訊號：

pg_stat_activity / SHOW PROCESSLIST 顯示大量 lock waiting
整體 QPS 沒滿、但某些 endpoint p99 飆
pg_locks / INFORMATION_SCHEMA.INNODB_LOCK_WAITS 有大量等待

對策：

1. 分散熱點：

counter shard：把 1 個 counter 拆成 N 個 sub-counter、寫入時隨機選一個、讀取時 SUM
例：view_count_0 ~ view_count_9 → 10 倍寫入吞吐
對應 Hot Partition 卡片在 SQL DB 的對應做法

2. Asynchronous batching：

不要每次點擊就 update counter、先進 in-memory buffer、定期 flush
應用層 Redis INCR + 定期同步回 SQL

3. Optimistic concurrency control：

用 WHERE version = ? 樂觀鎖、避免 SELECT FOR UPDATE
衝突時應用層 retry

4. 換 KV / cache：

counter workload 本來就不適合 SQL transaction
用 Redis INCR、DynamoDB 的 atomic counter

5. Queue + worker 序列化：

把搶資源的 request 排隊、worker 序列化處理
對應 9.C15 Tixcraft 案例 — 售票把 inventory 搶購塞進 DynamoDB queue、legacy server 慢慢消費、避免 SQL hot row

Read Replica Scaling

當 read traffic 超過 primary 吞吐、用 read replica 擴 read。

Read replica 機制：

PostgreSQL：streaming replication（async / sync）
MySQL：async replication（binlog）
Aurora：storage-level replication（lag 10-30ms）

Routing 策略：

1. Read / write split（application-level）：

應用層判斷 query 類型、寫走 primary、讀走 replica
工具：ProxySQL（MySQL）、application 自管

2. Routing 自動化（middleware）：

pgBouncer + 路由規則
HAProxy + health check

3. Stale read 容忍策略：

「能容忍秒級 stale」的 read → replica（用戶 profile、報表）
「不能 stale」的 read → primary（剛寫入後的查詢、餘額確認）
read-after-write consistency：用 session token 標記「剛寫過」、N 秒內讀走 primary

Replication lag 監控：

PostgreSQL：pg_stat_replication.replay_lag
MySQL：SHOW SLAVE STATUS\G 的 Seconds_Behind_Master
Aurora：CloudWatch AuroraReplicaLag
對應案例：9.C4 DraftKings Aurora — replication lag 從 30 秒降到 10-30ms、是切換到 Aurora 的關鍵改善

注意事項：

replica 數量不是無限、Aurora 最多 15 個、PostgreSQL 通常 3-5 個（chain replication 更多但複雜）
跨 region replica 通常 async、不能保證 read-after-write
對應 9.C28 FanDuel Super Bowl 5-10x peak、需要動態加 replica

儲存層 replication vs compute 層 replication

Aurora / Cosmos DB / Spanner 的 replication 跟傳統 PostgreSQL streaming replication 是兩種本質不同的設計、決定 read replica 怎麼擴、replication lag 落在什麼量級、容量規劃要顧哪些瓶頸。

傳統 RDB（compute 層 replication）：

primary 寫入後、把 WAL / binlog 流到 replica
replica 自己 replay log、消耗 CPU 跟 disk
primary 寫入量大、replica 跟不上、replication lag 飆
加 replica 增加 primary 的 replication 負擔、不能無限加

Aurora / Cosmos DB（storage 層 replication）：

compute 跟 storage 分離、storage 是分散式 log-based
replication 在 storage 層 處理、不經過 compute
replica 不用自己 replay、直接讀同一份 storage
加 read replica 不增加 primary 寫入負擔
replication lag 從 30 秒級降到 10-30ms（Aurora）

為什麼這層差異反映在應用層設計：compute 層 replication 的 replication lag 通常在秒級、應用層必須處理「剛寫的資料 N 秒內讀不到」的情境 — 常見補丁是 read-after-write consistency（session token 標記「剛寫過」、N 秒內走 primary）、cache invalidation 延遲、或刻意走 primary 的關鍵查詢路徑。Storage 層 replication 的 lag 在毫秒級、這些補丁多半不需要、read 可以幾乎無條件走 replica。對應 9.C4 DraftKings — 從 30 秒到 10-30ms 不只是「快」、是讓整個應用層 cache invalidation 跟 session routing 邏輯大幅簡化。對應 9.C23 Netflix Aurora consolidation — Aurora 75% performance improvement 主要來自 storage layer 設計、不是 CPU 改善。

選型含義：如果應用層 依賴 read-after-write（餘額確認、剛寫的查詢、session 狀態）、storage 層 replication 比 compute 層 replication 大幅簡化設計。代價是 vendor lock-in 加深、應用層綁定特定雲商。

對應 9.C32 Clearent Azure SQL Hyperscale 跟 Aurora 是同類設計（log-structured 分散式 storage）、選哪家看 application 已在哪個 cloud、技術哲學一致。Sharding 觸發點（managed DB 容量上限）跟業務一致性需求決定 sharding 粒度的討論、見 1.11 Sharding 粒度跟業務一致性需求。

【執行】查詢與 rows 的生命週期要收乾淨

查詢回傳 rows 後、呼叫端要負責把它關掉、並檢查迭代錯誤。這不只是記憶體管理問題、也會影響連線何時能回到池子裡。

典型模式是：

 1rows, err := db.QueryContext(ctx, "SELECT id, name FROM users WHERE status = ?", status)
 2if err != nil {
 3    return err
 4}
 5defer rows.Close()
 6
 7for rows.Next() {
 8    var id int64
 9    var name string
10    if err := rows.Scan(&id, &name); err != nil {
11        return err
12    }
13}
14if err := rows.Err(); err != nil {
15    return err
16}

【策略】慢查詢要靠 timeout 與上層限流處理

在高併發服務裡、database timeout 應由 request timeout、client timeout 與資料庫 timeout 共同定義。語言端需要能把取消、deadline 或 timeout 往資料庫 client 傳遞、讓慢查詢在合理時間內釋放資源。

如果下游開始變慢、通常要搭配：

request-level timeout
worker pool 或 semaphore
queue 長度限制
降級或拒絕策略

這樣做的目標是避免應用自己堆出大量等待中的工作、最後把問題放大成整個服務卡死。

什麼時候該換 KV / 緩衝模式而非繼續硬擴 SQL

SQL 的 transactional 模型有結構性限制、超過某個規模硬擴 SQL 不如換工具。

換工具的訊號：

Connection saturate 但 CPU / RAM 還閒：connection 是 SQL 的早期 bottleneck。對應 9.C29 Lemino — RDB connection limit 是 surge 場景的瓶頸、換 DynamoDB（HTTP-based、無 connection 概念）解決。
Hot row contention 無法分散：應用層改不了 schema、無法把 counter shard、SQL 就是 contention 源頭。換 Redis atomic counter / DynamoDB atomic update。
Write throughput > 50K WPS 單機：sharding 工程成本變高、不如換 KV 或分散式 SQL。詳見 1.10 KV / Document DB 容量規劃或 1.11 全球分散式 OLTP。
Flash-sale spiky workload：用 SQL 接搶購、connection 跟 lock 都會爆。對應 9.C15 Tixcraft 用 DynamoDB 當 durable queue、legacy SQL 慢慢消費。
跨 region 強一致 OLTP：傳統 PostgreSQL / MySQL 跨 region 是 async、滿足不了強一致。換 Spanner / Aurora DSQL / CockroachDB（1.11）。

不要因為「現在 SQL 慢」就跳結論換 NoSQL — 先確認問題是 結構性的（connection、contention、跨 region）、不只是 調校問題（index、query、cache）。

【延伸】語言端的責任是邊界

這一章不討論 PostgreSQL、MySQL、SQLite 的語法差異、也不討論 migration 工具本身。語言端需要掌握的是：怎麼共用 database client、怎麼控制並發、怎麼縮小 transaction、怎麼把 timeout 和取消傳下去。

具體 schema、index、isolation level 與 migration 寫法、會放在這個模組的其他資料庫教材中。

案例對照

案例	高併發場景重點
9.C1 AWS Prime Day 2025	DynamoDB 1.51 億 RPS + Aurora 5000 億 txn、可預期峰值的 dogfood baseline（vendor 自家 production-critical workload 是 selection signal）
9.C4 DraftKings Aurora	1M ops/min、200 個獨立 cluster、replication lag 30s → 10-30ms
9.C14 Standard Chartered Aurora	4000 TPS、7 個受監管市場、各自獨立 cluster
9.C23 Netflix Aurora	DB 統一後 +75% 效能、storage / compute 分離釋放 read replica
9.C28 FanDuel	Super Bowl 5-10x peak、Aurora MySQL + read replica scaling
9.C29 Lemino	RDB connection limit 是 surge 瓶頸、改用 DynamoDB
9.C32 Clearent Azure SQL Hyperscale	5 億 txn/年、storage / compute 分離跟 Aurora 同類設計

9.C1 Prime Day 是高併發章節的 上限參考點：Amazon 自家 Prime Day 在 24 小時內、DynamoDB 服務 1.51 億 RPS 毫秒級回應、Aurora 處理 5000 億次 transaction。這份數字的意義不是「要達到這個量級」、而是給定 可預期峰值 跟 無限預算 時、AWS 自家服務的設計上限長這樣。讀本章其他內部 baseline（connection pool、replica lag、isolation level）時、要記得最終物理上限遠高於大部分服務日常會碰到的水位。

跨語言適配評估

資料庫高併發邊界會受語言 runtime 影響。Thread-based runtime 要管理 thread pool 與 connection pool 的比例；async runtime 要確認 database driver 是否真正非阻塞（很多老 driver 只是包了 sync 在 thread pool 上、會吃 thread limit）；輕量 task runtime（Go、Erlang）要限制同時查詢數量、避免把大量 task 轉成下游連線壓力。強型別語言可以用型別保護 row mapping 與錯誤分類；動態語言則需要用 migration、runtime validation、contract test 與 fixture 保護 schema 邊界。

小結

高併發下處理 SQL 的核心原則：

database client 共用、不要每 request 新建
連線池可控 — 三層架構（app pool + middleware + DB max_connections）
transaction 要短 — 詳見 1.3
rows 要關、避免連線被占住
timeout 要傳遞 — 從 request 一路到 DB
Hot row 要識別 — counter shard、optimistic concurrency、async batching、或換 KV
Read replica 要會用 — 但注意 lag、stale read 容忍度
下游壓力要限流 — request timeout、worker pool、queue 長度、降級拒絕
知道什麼時候換工具 — connection saturation、hot contention、flash-sale、跨 region 強一致都是 SQL 結構性限制的訊號

應用端並發可以很多、但資料庫連線必須受控、這兩者的邊界要分開管理。

讀「峰值」數字的工程細節

容量規劃時看到「100 萬 ops/分鐘」、「150 萬 RPS」這類數字、要拆三個維度看、否則容量規劃會錯位。

容量數字的三個口徑

口徑	含義	用於規劃
最大瞬時	某一秒的最高峰（單秒）	不能拿這個訂 baseline、是 outlier
99 百分位平均	99% 時間在這個水位以下	訂 capacity 上限的依據
常態流量	平均的日常水位	訂 cost baseline、auto-scaling 起點

最大瞬時 是觀測得到的最高峰值、通常是年度某秒、不能拿來訂 baseline。在 Grafana / CloudWatch / Datadog 上看 max 指標就是這個數字 — 用來知道系統曾經撐過多少、不是日常要撐多少。

99 百分位平均 是 capacity 規劃的主要依據。在監控工具看的是 p99 隨時間的平均值（rolling 30 天或 90 天）— 代表 99% 的時間流量低於這個水位。Auto-scaling 上限通常訂在這個值的 1.5-2 倍、確保 99% 時間有足夠 headroom。

常態流量 是 average / median、訂 cost baseline 跟 auto-scaling 的下限。在 PaaS（Aurora Serverless、Cosmos DB serverless）這是「最低保留容量」的依據；在 IaaS 是「永遠開著的 instance 數量」。

9.C5 Amazon Ads 揭露這個議題：「9000 萬 reads / 秒」通常是年度峰值最高一秒、不是平均。讀案例時要區分這三個口徑、否則容量規劃會錯位。

對應 9.C4 DraftKings — 「100 萬 ops/分鐘」≈ 17K ops/秒、跨 200 個獨立 cluster 平均下來每 DB 約 80 ops/秒。讀峰值要看 分散到多少 shard、不只看總數。

延遲改善要看 percentile、不是平均

「延遲降 90%」這類敘述要追問：是 p50 還是 p99？兩者改善幅度通常差很多、平均值會掩蓋尾巴問題。

對應 9.C20 Zomato — 「90% 延遲降」實際可能是 p50、p99 / p999 改善幅度通常較小。判讀重點：用戶體驗主要受 p99 / p999 影響、不是 p50。看到「平均 50ms 降到 5ms」要追問「p99 從多少降到多少」、否則可能用戶感受沒改善。

延遲監控的必要 percentile：p50、p95、p99、p99.9。p99.9 對 1000 個 request 才偵測一次、但通常代表系統最差表現、是 SLO breach 的早期訊號。

Headroom budget：事件型 vs 突發型峰值

Headroom budget 是 提前預留的容量空間、給可預期或不可預期的峰值用。讀「Super Bowl +50% no sweat」這種敘述、工程意義是團隊事前預留了 headroom、不是 vendor 神奇。

對應 9.C4 DraftKings — Super Bowl 是已知事件、+50% 是歷史經驗、所以可以提前 pre-scale。整個 system headroom 預留至少 50%、加上 read replica 動態加減、才能讓 50% 增幅變成「不流汗」。

兩種峰值的 headroom budget 規劃完全不同：

事件型峰值（已知時間 + 已知幅度）：

例：Super Bowl、Black Friday、票券開賣、財報日
規劃做法：歷史 peak × 預期成長 × headroom（通常 1.5-2x）= baseline、事件前 scheduled scale-up
headroom 預算可以較低（20-30%）、因為峰值可預測、可在事件前測試
對應 9.11 高峰事件準備

突發型峰值（未知時間或未知幅度）：

例：突發新聞、KOL 推廣、競爭對手出包導致流量湧入、病毒式擴散
規劃做法：常態 baseline 預留高 headroom（50-100%）、加 auto-scaling 跟動態 capacity
headroom 預算要高、因為事故發生前沒時間 scale
對應 9.C2 GR8 Tech AI 預測式擴容

判讀重點：事件型 headroom 適合可預測峰值、突發型 headroom 適合不可預測峰值；兩者預算邏輯不同。把事件型 headroom 套用在突發型場景、突發事件發生時容量會不足；把突發型的高 headroom 套用在事件型、會付大量浪費成本。

讀寫峰值錯位：dual peak workload

部分業務有 讀峰值跟寫峰值不同時段 的特性、容量規劃要按 peak 之和 而非 單一 peak。

對應 9.C4 DraftKings — 「write workloads spike up significantly around payout events, but opening the app during the game also activates a lot of balance queries」。比賽進行時讀爆量（用戶看餘額、看下注狀態）、比賽結束 payout 時寫爆量（賠付寫進帳本）、兩個 peak 錯位。

容量規劃含義：

不能只規劃「讀 peak + 寫常態」或「寫 peak + 讀常態」
要規劃「讀 peak 跟寫 peak 各自的容量」、即使不同時發生、底層 DB 都要撐
read replica 動態增減可以平滑讀 peak、但寫 peak 要靠 primary capacity 撐住

類似 dual peak 業務：

體育博彩：比賽中讀、payout 時寫（DraftKings）
票券：開賣前 30 分鐘讀爆量（用戶看座位）、開賣瞬間寫爆量（搶票）
電商促銷：促銷前讀爆量（用戶看價格）、促銷瞬間寫爆量（下單）
股票交易：開盤前讀爆量（看開盤價）、開盤瞬間寫爆量（送單）

判讀重點：dual peak workload 是業務天然特性、不是異常。容量規劃要識別這層、否則尖峰時段會踩到沒預期的瓶頸。

關鍵路徑切分：低頻流量保護

當系統有「高頻流量（如選位、瀏覽）」跟「低頻但關鍵流量（如付款、結算）」共存時、必須切分、否則高頻流量會塞爆低頻路徑、讓低頻關鍵業務無法完成。

對應 9.C15 Tixcraft — 拓元把 Payment EC2 拉出來、直連傳統金流 server、不放在搶票流量會打到的 ELB / DB 後面。讓「選位 + 下單」的高頻流量塞爆時、「付款」的低頻流量仍能跑。

切分策略：

資料路徑切分：高頻 query 走 DynamoDB / read replica、低頻關鍵 query 走 primary
連線池切分：高頻 service 跟低頻 service 用不同 connection pool、避免高頻吃光連線
runtime 切分：低頻關鍵 service 部署到獨立 instance、不跟高頻共用 CPU / memory
限流切分：高頻 endpoint 設高限流、低頻關鍵 endpoint 設保護性低限流（避免 cascading failure）

判讀重點：切分前要先盤「哪些流量是業務關鍵但量小」、這些路徑要事先保護、不能等爆了再分開。

下一步路由

上游：Connection Pool 卡片
上游：1.13 應用層查詢反模式與 Query 預算（connection saturation 常因 N+1 / long transaction 放大、先檢查 query 寫法）
平行：1.2 Schema Design、1.3 Transaction Boundary
下游：1.10 KV / Document DB 容量規劃（SQL 不夠用時的替代）/ 1.11 全球分散式 OLTP / 1.12 大規模 DB 遷移實戰（換 DB engine 的決策跟流程）
跨模組：9.4 Saturation Discovery、9.5 瓶頸定位流程、9.6 容量規劃模型、9.13 擴展軸（hot row 是不可分散瓶頸的 application 層表現）
Vendor：PostgreSQL、MySQL、Aurora
規模成長路線下一站 → 2.2 cache aside 與失效策略（連線池 / replica 擴完後、進入應用層快取設計）
MongoDB connection storm 深入：MongoDB connection 管理與 cache 層 / replica set read preference
Aurora read replica 擴展：Aurora read replica scaling（reader endpoint / lag 治理）
Freshness token 卡片：Freshness Token（read-after-write 保證選項）

PostgreSQL

Wed, 13 May 2026 00:00:00 +0000

PostgreSQL 是 backend 預設關聯式資料庫的安全選擇。生態完整、SQL 功能豐富、MVCC 跟 transaction 模型穩定、新版本仍積極演進（pg17 加入 JSON_TABLE、平行 vacuum；pg18 加入 io_uring async）。Aurora（AWS managed）、CockroachDB、Aurora DSQL（2024-12 preview / 2025-05 GA）、Spanner（2024 PostgreSQL dialect）都把 PostgreSQL wire protocol 當作相容標的 — 它是 SQL DB 世界的 lingua franca。

教學路線：SQL baseline 與交易演進

PostgreSQL 服務頁的教學目標是建立 SQL baseline。讀者讀完後要能用 PostgreSQL 理解 transaction、schema evolution、query boundary、connection pressure 與 managed / distributed SQL 的比較基準。

學習段	核心問題	對應段落
SQL baseline	PostgreSQL 為什麼常作為 OLTP 預設比較基準	定位、適用場景
容量邊界	connection、write throughput、replica、storage 如何限制服務	容量特性、容量規劃要點
交易與查詢	複雜 SQL、JSONB、GIS、全文檢索如何影響資料模型	適用場景、跟其他 vendor 的取捨
演進與維護	vacuum、partition、index、replication 如何成為長期責任	容量規劃要點、常見陷阱
替代路由	何時轉 Aurora、CockroachDB、Spanner、DynamoDB 或 OLAP	不適用場景、跟其他 vendor 的取捨

定位：OLTP 預設、SQL 工程深度

PostgreSQL 跟 MySQL 是兩大 SQL OLTP 主流、但設計取捨明顯不同：

PostgreSQL 偏 特性深度 — JSON、GIS、full-text search、partial index、CTE、window function 都成熟
MySQL 偏 簡單 query 效能 + 分片生態 — Vitess / PlanetScale 提供超大規模 database sharding

選 PostgreSQL 的核心訴求：需要進階 SQL 特性、需要長期 schema evolution 彈性、信任 community-driven 演進、想避免單一 vendor lock-in（PostgreSQL 是 open source、可跨雲 / on-prem）。

容量特性

PostgreSQL 沒有「vendor 給的容量數字」、要靠 instance 配置 + tuning 推估。但有幾個工程上限要知道：

單一 primary 寫吞吐：

一般 m5.4xlarge 級 instance：5K-10K WPS（依 schema、index、commit fsync）
高階 r6i.16xlarge + io2 storage：30K-50K WPS
超過這個級別 → 應用層 database sharding 或換 Aurora / Spanner

Connection 上限：

預設 100 connection、每個 connection ~10MB RAM
1000+ connection 必須 pgBouncer / PgCat 共享 pool
對應 9.C29 Lemino case — RDB connection limit 是 surge 場景的隱性 bottleneck

Read replica：

streaming replication：1 個 primary + 多個 standby（async / sync）
跨 AZ replication lag 通常 < 100ms、跨 region 可能秒級
跟 Aurora 比、自管 PostgreSQL replication lag 較大

Storage 上限：

單一 table 32 TB（PostgreSQL 設計上限）
實務上單表超過 1 TB 開始有 vacuum / index 問題、建議 partition

適用場景

1. 多用途 OLTP、複雜查詢：

複雜 JOIN、CTE、window function、subquery
訂單系統、會員系統、訂閱方案、權限 RBAC
需要 strong consistency + ACID transaction

2. JSON / 半結構化資料：

JSONB column 支援 indexing、partial query
比 MongoDB 適合 主要結構化 + 部分 JSON workload
不適合主要 document workload（用 MongoDB / Cosmos DB）

3. 地理 / 全文檢索：

PostGIS 是業界標準 GIS extension
全文檢索（ts_vector）對中等規模夠用、超大規模用 Elasticsearch

4. 進階特性需求：

partial index（WHERE 條件下才建 index）
exclusion constraints（避免 booking 重疊）
range types（時間 / 數字範圍）
logical decoding / CDC（Debezium、pgcapture）
foreign data wrapper（query 跨 DB）

5. 跨雲 / on-prem 部署：

不想 vendor lock-in
可用 Patroni / Stolon / pg_auto_failover 做 HA
對應 1.11 全球分散式 OLTP 的 CockroachDB / Aurora DSQL 比較段

6. 中小規模高峰場景：

流量 < 10K WPS 級別、PostgreSQL 自管或 RDS 通常夠
流量更高、考慮 Aurora（同 wire protocol、storage 升級）

不適用場景

1. 極高寫入吞吐（單機 > 50K WPS）：

必須進入 database sharding 或分散式 SQL
替代：CockroachDB、TiDB、Spanner、應用層 sharding

2. 全球 multi-region active-active write：

PostgreSQL 是 single primary、不支援 multi-region active-active
替代：Aurora DSQL、Spanner、CockroachDB multi-region

3. KV 簡單查詢 + sub-10ms p99：

PostgreSQL connection 開銷 + parsing + planning 已經 1-3ms
KV-pattern workload 用 DynamoDB / Redis / Cosmos DB 更便宜更快

4. 大規模 OLAP：

PostgreSQL 定位在 OLTP，analytics workload 交給 OLAP 系統
大數據分析用 ClickHouse / BigQuery / Snowflake / Redshift / Synapse

5. 連線量極大 SaaS（每個用戶一個 connection）：

即使有 pgBouncer、超大連線量仍是 PostgreSQL 結構性限制
對應 9.C29 Lemino 案例 — 流量上升 connection 爆是換 DynamoDB 的主因

跟其他 vendor 的取捨

vs MySQL：

PostgreSQL：SQL 特性深、JSON / GIS / window 完整、replication 較簡單但 lag 較大
MySQL：簡單 query 效能好、replication 機制成熟、Vitess 分片生態強
選 PostgreSQL：需要進階 SQL、複雜 query、JSON workload
選 MySQL：高併發簡單 query、需要 sharding、已用 MySQL 生態

vs Aurora（同 PostgreSQL wire protocol）：

PostgreSQL：自管 / RDS、特性接近 upstream、跨雲可用
Aurora：AWS managed、storage / compute 分離、更多 read replica
選 PostgreSQL：跨雲、想最新特性、預算敏感
選 Aurora：AWS 生態、需要更快 failover + 更多 read replica
詳見 Aurora vendor page

vs CockroachDB（PostgreSQL wire protocol 相容）：

PostgreSQL：single-primary OLTP、SQL 特性完整
CockroachDB：multi-region 強一致 SQL、PostgreSQL wire 相容但部分特性缺
選 PostgreSQL：single-region 或 read replica 跨 region 夠
選 CockroachDB：必須 multi-region active-active write
詳見 1.11 全球分散式 OLTP

vs Spanner / Aurora DSQL（全球分散式 SQL）：

PostgreSQL：傳統設計、跨 region 是 async replication
Spanner / Aurora DSQL：全球線性化、跨 region 強一致
選 PostgreSQL：90% 場景夠用、便宜、容易
選 Spanner / Aurora DSQL：金融交易、ticketing inventory、必須全球強一致

vs DynamoDB：

詳見 1.10 KV / Document DB 容量規劃的 connection model 對比段

vs Neon（PostgreSQL serverless）：

PostgreSQL：standard、自管或 RDS
Neon：branch-based、scale-to-zero、適合 dev / preview environment
選 Neon：dev / preview、稀疏 workload、CI 用
選 PostgreSQL：production sustained workload

容量規劃要點

1. Connection pool 必須有：

直接連 1000+ connection 會壓垮 PostgreSQL
pgBouncer（最簡單、transaction pooling）
PgCat（rust 寫的進階替代、支援 sharding）
application 層 pool（HikariCP、SQLAlchemy pool）
通常組合使用：application pool 30-50 connection × 多 instance → pgBouncer 共享 → PostgreSQL 200 connection
對應 Connection Pool 卡片

2. Replication 配置：

streaming replication：async / sync / quorum
跨 AZ async：lag 通常 < 100ms、failover 1-2 分鐘
跨 AZ sync：lag 接近 0、但寫入要等 standby ack、會降寫吞吐
跨 region 通常 async
HA 工具：Patroni（最常見）、pg_auto_failover、Stolon

3. Vacuum 跟 bloat 治理：

PostgreSQL MVCC 會留下 dead tuples、必須 vacuum
autovacuum 配置：throttle 大表、避免在 peak 跑
bloat 監控：pg_stat_user_tables 看 dead_tup ratio
大表 vacuum 可能要 hours、影響 maintenance window

4. 大表 partitioning：

單表 > 1 TB 建議 partition（按時間、按 tenant）
partition pruning 讓 query 只掃需要的 partition
partition 限制：cross-partition unique constraint、跨 partition join 較慢

5. Index 策略：

預設 B-tree、適合大多數 query
partial index 對 boolean / status column 特別有用
GIN / GiST 對 JSON / full-text / GIS
index 太多會拖累寫入、定期 review 未用 index（pg_stat_user_indexes）

安全、DR 與角色分工

PostgreSQL 的 production 完整性不只來自 SQL 特性，也來自資料存取、備份復原、升級責任與事故證據的分工。這一段補上 PG baseline 原本留在 limitation 的三個缺口：Security / RLS / audit logging、cross-region DR、application developer vs DBA / SRE 視角。

責任面	PostgreSQL 要回答的問題	主要引用路徑
Access control / RLS	table、row、function、extension 與 service account 權限如何切	Security / RLS / Audit Logging、7.4 Data Protection、Audit Log
TLS / credential	application 連線、DB user、憑證與 secret rotation 如何治理	TLS / mTLS、Credential、Secret Management
Cross-region DR	region 失效時要 async replica、PITR、Aurora Global Database 還是 distributed SQL	Cross-region DR、RPO、RTO、Failover、PITR + WAL Archiving
Developer / DBA split	application schema、migration、query、index 與 rollback 誰負責	Developer / DBA Responsibility Split、1.2 Schema Design、1.6 Migration Playbook
Incident evidence	資料事故中要留下哪些 query、timeline、restore 與 decision evidence	4.20 Observability Evidence Package、8.19 Incident Decision Log

Access control / RLS 的判讀重點是把資料責任放在資料層與 application 層之間分工。PostgreSQL 支援 role、grant、schema、function security 與 row-level security；但 RLS 會把授權邏輯拉進 database，適合 multi-tenant row isolation、資料平台或共享 reporting schema，日常 OLTP 仍要保留 application authorization 與 audit trail。

TLS / credential 的判讀重點是連線安全與憑證生命週期。Self-managed PostgreSQL 要處理 server cert、client cert、DB user rotation 與 connection pool 重連；managed PostgreSQL 常把 certificate、IAM auth 或 secret integration 交給平台，但 application pool、migration tool 與 read replica 仍要一起更新。

Cross-region DR 的判讀重點是 RPO / RTO 與資料一致性。自管 PostgreSQL 可用 streaming replication、WAL archiving、PITR 與 Patroni 做 region failover；Aurora 把 backup、PITR 與 Global Database 交給 AWS；真正 active-active 或 global strong consistency 需求要回到 CockroachDB、Spanner 或 Aurora DSQL，single-primary PostgreSQL 保留為 region failover 與 async DR 路線。

Developer / DBA split 的判讀重點是把日常責任寫進流程。Application developer 擁有 query shape、transaction boundary、repository adapter 與 migration contract；DBA / SRE 擁有 backup、replication、pooler、extension、vacuum、index maintenance 與 DR drill；release gate 需要把兩邊 evidence 合在同一份 decision log。

Managed PG 與相容變體路由

PostgreSQL wire protocol 已成為 managed SQL 與 distributed SQL 的相容目標。選型時要區分「PostgreSQL 本體」、「managed PostgreSQL」、「PostgreSQL-compatible distributed SQL」與「PostgreSQL extension ecosystem」四種不同責任。

變體	適合情境	主要代價 / 檢查點	下一步路由
RDS / self-managed PG	想接近 upstream、保留跨雲與 extension 彈性	團隊承擔 HA、backup、upgrade、vacuum 與 pooler	Patroni HA、PITR + WAL Archiving
Aurora PostgreSQL	AWS 內 production OLTP、想轉移 HA / storage ops	extension whitelist、cost model、cluster endpoint	→ Aurora、Aurora vendor
Cloud SQL / AlloyDB	GCP 內 managed PostgreSQL 與 Google operation model	extension / version matrix、IAM / backup / cost model	Managed PG Comparison
Azure Cosmos DB for PostgreSQL	Citus-based distributed PostgreSQL、tenant / shard workload	coordinator / worker topology、Citus 語意	Citus distributed、Database Sharding、Cosmos DB vendor
Neon / serverless PG	preview、branch、稀疏 workload、dev environment	cold start、connection、production sustained workload	本頁 vs Neon 段、後續 serverless PG comparison
Aurora DSQL / CockroachDB	global write、distributed SQL、region resiliency	transaction retry、extension gap、latency / cost	→ Aurora DSQL、→ CockroachDB

Managed PG 變體的引用規則是先查 compatibility，再談 migration。Extension whitelist、backup / restore API、logical replication 支援、connection endpoint 行為與 pricing 都是時間敏感 claim；實作前要回到官方文件確認版本，並把確認日期留在 migration plan 或 decision log。

Deep article + Migration playbook（已完成）

主題	文章	類型
Streaming replication topology + LSN + slot	replication-topology	Deep article
pg_repack / pg-osc 跟 PG 內建 ALTER 行為	online-schema-change	Deep article
Process-per-connection model + pooler 必要性	connection-scaling	Deep article
pgBouncer + PgCat connection pool	pgbouncer-config	Deep article
Patroni HA + DCS-based failover	patroni-ha	Deep article
Autovacuum tuning + bloat 治理	autovacuum-tuning	Deep article
Logical replication + Debezium CDC	logical-replication-debezium	Deep article
Citus distributed extension	citus-distributed	Deep article
BDR / pgEdge / Bucardo multi-master	bdr-multi-master	Deep article
MVCC + lock model（PG 並行控制核心）	mvcc-lock-model	Deep article
EXPLAIN / auto_explain / pg_hint_plan	query-optimization	Deep article
Index method 選型決策樹（B-tree / GIN / GiST / BRIN）	index-selection	Deep article
Declarative partitioning + pg_partman	declarative-partitioning	Deep article
JSONB binary storage + GIN index	jsonb-deep-dive	Deep article
Full-text search（tsvector + pg_trgm）	full-text-search	Deep article
Extension ecosystem（pgvector / TimescaleDB 等）	extension-ecosystem	Deep article
TimescaleDB hypertable + CAGG + compression	timescaledb-deep-dive	Deep article
pgvector HNSW / IVFFlat ANN search	pgvector-deep-dive	Deep article
PostGIS geometry / geography + GiST	postgis-deep-dive	Deep article
PITR + WAL archiving	pitr-wal-archiving	Deep article
Replication slot management（含 PG 17 failover slot）	replication-slot-management	Deep article
SQL features baseline + MySQL 對比	sql-features-baseline	Deep article
Hands-on 操作路線	hands-on	操作型章節群
Major version upgrade（N → N+1 pg_upgrade）	major-version-upgrade	Migration playbook（5-type 漏類 / 接近 Type B 但需 upgrade-specific audit）
→ Aurora PostgreSQL	migrate-to-aurora	Migration playbook（Type C）
→ Aurora DSQL（PG wire-compat distributed）	migrate-to-aurora-dsql	Migration playbook（Type E）
→ CockroachDB	migrate-to-cockroachdb	Migration playbook（Type E）
Multi-region + GDPR rollout	multi-region-gdpr-rollout	Migration playbook（Type F）
Partition redesign	partition-redesign	Migration playbook（Type F）

補充正文路由

當前 deep article、migration playbook、補充正文與 hands-on 已 cover replication / HA / OSC / connection / CDC / sharding / multi-master / MVCC / query opt / index / partitioning / JSONB / FTS / extension（含 TimescaleDB / pgvector / PostGIS）/ backup / slot / SQL features / upgrade / migration / security / DR / managed variant 等維度。下列補充正文用來承接 overview 中提到的延伸議題：

Logical decoding plugins deep dive：wal2json / pgoutput / decoderbufs 對位、CDC pipeline 整合
pg_partman advanced：retention 跟 child partition 自動 management
Connection pooler comparison：PgBouncer vs Pgcat vs Odyssey 細部對比
Aurora I/O-Optimized vs standard：cost model 取捨
AlloyDB / Cloud SQL 比較：GCP managed PG 選型

上述補充篇已完成正文，並保留既有引用路徑。Logical decoding 接 Logical Replication + Debezium 與 Replication Slot Management；pg_partman advanced 接 Declarative Partitioning；pooler comparison 接 Connection Scaling 與 pgBouncer Config；Aurora cost 接 → Aurora；AlloyDB / Cloud SQL 接 Managed PG Comparison。

案例對照

PostgreSQL 沒有直接的 09 case（多數 09 case 用 managed vendor）、但作為 baseline 跟遷移源頭 在許多 case 出現：

案例	跟 PostgreSQL 的關係
9.C23 Netflix Aurora consolidation	從多套 RDBMS（含 PostgreSQL）統一到 Aurora
9.C32 Clearent Azure SQL Hyperscale	Azure 生態替代 PostgreSQL 的選擇
9.C29 Lemino RDB connection limit	PostgreSQL/MySQL 都有的 connection 限制

已知 Limitation 與 Audit 紀錄

本 vendor 頁的 22 篇 deep article + 6 篇 migration playbook 經過 4-reviewer audit（A 寫作規範 / B 跨檔一致性 / C 技術準確性 / D 框架偏誤）、Phase 1-3 修法完成。承認以下 limitation：

PG narrative bias：pgvector / TimescaleDB / extension-ecosystem / Citus 四篇對「PG 取代專業 DB」描述偏 PG-favoring；對手 vendor（Pinecone / InfluxDB / Vitess）的優勢段相對簡短。讀者選型時、請以 cost / ops / scale 三軸綜合判斷、不依本 vendor 頁單一視角。
Anti-recommendation 深度不一：bdr-multi-master / extension-ecosystem 有「99% 不需要」明確邊界、其他篇章邊界較柔（如「Vector 量 > 5-20M」是粗略門檻）。實際 production 決策請參考多 vendor 對照 + 自家 workload 量測。
Sibling cross-link 狀態：MySQL ↔ PG sibling、PG 既有 ↔ 新章節 cross-link 已補（refer #136 卡）；本輪同步補 Aurora / CockroachDB / Spanner / Cosmos DB / DynamoDB vendor 頁的反向 sibling 路由，剩餘精修可在各 migration playbook 補更細的 step-by-step 對照。
時間敏感 vendor claim：Aurora DSQL（2024-12 preview / 2025-05 GA）/ pgvector（0.8 iterative scan）/ TimescaleDB version matrix / DSQL extension 支援範圍持續演進、本 vendor 頁以 2025-2026 公開狀態為準、實作前請以 vendor 官方 docs 為準（refer #137 卡）。
補充維度已正文化：Security / RLS / audit logging、cross-region DR、application developer vs DBA 視角分工、YugabyteDB / TiDB migration playbook、specialized PG variants 已補成正文。本輪也補上跨 vendor 反向連結與時間敏感 claim 路由；下一輪可集中在 migration playbook 的操作步驟與 lab 化。

詳細 audit findings 跟修法見 #136 Sibling Vendor Cross-Link Bidirectionality / #137 Vendor Feature 時間敏感性 / #138 Cross-Reviewer Convergence。

常見陷阱

connection 沒 pool 直接連：1000 application instance × 30 connection = 30K connection、PostgreSQL 撐不住
沒 vacuum 治理：dead tuple 累積、table bloat、query 變慢
大表沒 partition：> 1 TB 單表的 vacuum / index rebuild 變成事故
index 不 review：寫吞吐被舊 index 拖垮
跨 AZ sync replication 給寫入吞吐高的 workload：每次 commit 等 standby ack、寫吞吐減半
logical replication 拖太多 publication：可能造成 primary WAL 堆積、disk 爆

下一步路由

完整 T1 對照：01-database vendors index
平行：MySQL vendor、Aurora vendor（managed PostgreSQL）
操作：PostgreSQL Hands-on（local lab、pool、PITR、migration evidence、HA drill）
上游：1.1 高併發資料存取、1.3 Transaction Boundary
下游：1.10 KV / Document DB 容量規劃（PostgreSQL 不適用時的替代）/ 1.11 全球分散式 OLTP（PostgreSQL 不夠用時的升級路徑）
跨模組：9.5 瓶頸定位流程 — connection / replication lag / vacuum 都是 PostgreSQL 常見 bottleneck 源
官方：PostgreSQL Documentation

模組一：資料庫與持久化

Wed, 22 Apr 2026 00:00:00 +0000

資料庫模組的核心目標是說明 application 狀態進入持久化層後，如何維持一致性、可演進性與可測性。語言教材會先定義 repository port、protocol 或 interface；本模組負責說明具體資料庫 Repository Adapter 如何實作這些邊界。閱讀本模組前，可先建立 source of truth、transaction boundary、schema migration、isolation level 與 connection pool 的共同語意。

Vendor / Platform 清單

實作時的常用選擇見 vendors — T1 收錄 PostgreSQL / MySQL / SQLite / MongoDB / DynamoDB / CockroachDB / Aurora，每個服務頁提供定位、適用場景、取捨、容量判準、案例對照與下一步路由。

Deep article（vendor 自身的配置、故障、容量）跟 migration playbook（跨 vendor 遷移流程）的撰寫進度見 vendors/ 的「內容覆蓋進度」段。

暫定分類

分類	內容方向
SQLite	embedded database、單機服務、migration、測試資料庫
PostgreSQL	schema design、index、transaction、isolation level、connection pool
Migration	versioned schema、rollback、Expand / Contract migration
Transaction	unit of work、transaction boundary、deadlock、retry
Repository adapter	SQL row mapping、contract test、錯誤轉換

選型入口

資料庫選型的核心判斷是資料是否承擔正式狀態與一致性。當資料需要長期保存、支援查詢、被多個流程共同讀寫，並且需要交易保護時，應先評估 relational database 或 document database。

SQLite 適合單機服務、embedded app、測試資料庫與低操作成本場景；PostgreSQL 適合多使用者後端、複雜查詢、transaction、index 與長期 schema evolution。Migration 工具解決 schema 隨版本演進的問題；transaction boundary 解決多筆資料一起成功或失敗的問題；repository adapter 解決 application port 到具體 SQL 實作的轉換。

接近真實網路服務的例子包括訂單系統、會員系統、訂閱方案、付款紀錄與權限資料。這些資料都需要明確 source of truth，因此本模組會從資料模型、一致性、migration 與 repository adapter 邊界開始說明。

與語言教材的分工

語言教材處理 repository interface / protocol、取消與逾時、error wrapping、memory fake 與 contract test。Backend database 模組處理 SQL schema、migration tool、transaction isolation、connection pool 與資料庫錯誤語意。

跨模組端到端串聯（DB → cache → event → observability）見 0.15 跨模組 Checkout Episode。

章節列表

章節	主題	關鍵收穫
1.1	高併發下的 SQL 讀寫邊界	共用 `sql.DB`、控制連線池、縮小 transaction 範圍
1.2	schema design 與資料建模	規劃 table、index、key 與命名規則
1.3	transaction 與一致性邊界	判斷何時使用 transaction、retry 與 isolation
1.4	repository adapter 實作	把 SQL row mapping 與錯誤轉換封裝成 adapter
1.5	攻擊者視角（紅隊）：資料層弱點判讀	用越權查詢、資料外洩路徑與恢復成本檢查資料層設計
1.6	資料庫轉換實作	把雙寫、回填、切流與回滾做成可分段驗證流程
1.7	Schema Migration Rollout 證據實作示範	以訂單付款狀態欄位演進示範 evidence、gate 與 decision log
1.8	State Ownership 與 Query Boundary	分辨正式狀態、派生狀態與不同查詢責任
1.9	Reconciliation 與 Data Repair	把資料錯誤轉成可驗證、可修復、可稽核流程
1.10	KV / Document DB 容量規劃	partition key 設計、capacity mode、multi-model 取捨
1.11	全球分散式 OLTP	Spanner / Aurora DSQL / Cosmos DB multi-region 跟 CAP 取捨
1.12	大規模 DB 遷移實戰	dual-write / shadow read / cutover / rollback window
1.13	應用層查詢反模式與 Query 預算	N+1、select *、缺索引、ORM lazy load、long transaction 與每請求 query 預算
1.14	Production Slow Log Closed Loop	採集 / Normalize / PR review 整合 / Regression 偵測 — 把 slow log 從事故工具變成定期審視訊號
Vendor 文章撰寫規格	Vendor overview / deep article / migration playbook 分工	把 PostgreSQL / MySQL batch 經驗整理成後續資料庫服務頁的撰寫規格

觀念網路補完方向

資料庫章節下一輪的核心責任是把正式狀態的演進路徑講完整。現有章節已經涵蓋 schema、transaction、repository adapter 與 migration playbook，但還需要補上 state ownership、query boundary、migration safety 與 reconciliation 之間的引用關係，讓讀者知道資料庫變更如何從設計、發布、觀測一路接到事故決策。

補完方向	需要回答的問題	主要路由
State ownership	哪些資料是正式狀態，哪些只是 cache、index 或事件副本	source of truth、0.2
Query boundary	交易查詢、列表查詢、報表查詢與對帳查詢是否混在一起	4.20、4.17
Migration safety	schema 變更是否能分批、驗證、暫停與回退	6.11、6.8
Reconciliation	資料錯誤發生後如何驗證、修復、對帳與留下證據	8.19、8.22
Data protection	正式資料在查詢、匯出、修復與刪除時如何保留責任邊界	7.4、7.7

這些方向要寫成資料庫自己的敘事，避免把 04/06/08 的欄位直接搬進來。資料庫關心的是狀態能否正確演進；觀測、驗證與事故流程接收這個演進結果作為下游證據。

知識卡補強方向

資料庫模組的 knowledge card 缺口集中在「變更如何被驗證」與「資料如何被修復」。已有 schema migration、Expand / Contract、backfill 與 dual write 可作為第一批錨點。

下一批候選卡片包括 migration validation、read compatibility、cutover window、reconciliation、data repair runbook 與 fail-forward migration。這些卡片要先定義服務責任與使用時機，再讓 1.6 migration playbook 與後續實作文章引用。

Vendor 文章規格入口

資料庫 vendor 文章的下一輪重點是把 PostgreSQL / MySQL batch 經驗變成可重複使用的撰寫規格。後續寫 SQLite、MongoDB、DynamoDB、Aurora、Spanner、Cosmos DB 與 CockroachDB 前，先讀資料庫 Vendor 文章撰寫規格；該文分清 vendor overview、deep article 與 migration playbook 的責任，並列出 PG / MySQL 回收出的橫向調整項。

實作探討入口

資料庫的第一條實作路徑已完成： 1.7 Schema Migration Rollout 證據實作示範。這篇以訂單資料表付款狀態欄位演進為例，說明 migration plan、validation query、rollback condition 與 incident decision route 如何一起成立。

這條路徑的前置引用是 1.2 schema design、1.3 transaction boundary、1.6 migration playbook、6.11 Migration Safety 與 4.20 Observability Evidence Package。完成後可依 Backend 學習路線進入 02 cache migration。

資料庫路徑的 artifact 對齊重點是「先證明資料演進正確，再討論是否放行」。對 4.20 要交 Source/Time range/Query link/Owner/Data quality，並在 query 內容覆蓋 validation query、row count 差異與 replication lag；對 6.11 / 6.8 要交 Gate decision/Checks/Stop condition/Rollback window/Owner，呈現 expand/contract 分段結果；對 8.19 要交 Timestamp/Decision/Context/Evidence/Owner/Expected effect/Rollback condition，記錄 pause / rollback / fail-forward 的判斷與依據。

跨分類引用

→ infra 模組五：資料庫上 IaC：RDS 的 IaC 描述（subnet group、parameter group、連線管理、read replica）與部署順序
→ infra 模組五：Stateful 資源保護：multi-AZ、backup retention、deletion protection、PITR 的 IaC 設定

跨語言適配評估

資料庫使用方式會受語言的 connection pool、transaction scope、ORM 行為、錯誤處理與 migration 生態影響。同步 thread-based runtime 要控制 blocking query 與 pool 大小；async runtime 要確認 database client 是否真正非阻塞；輕量並發 runtime 要限制同時查詢數量，避免把大量 task 轉成資料庫連線壓力。強型別語言適合把 row mapping、schema 與錯誤分類型別化；動態語言則需要靠 migration、runtime validation、fixture 與 contract test 保護資料邊界。

1.2 Schema Design 與資料建模

Wed, 13 May 2026 00:00:00 +0000

資料綱要設計（schema design）的核心責任是把業務狀態轉成可維護、可查詢、可演進的資料結構。資料建模做得好、交易邊界、查詢效率、migration 成本與事故修復路徑都會更穩定。

本章是 01 模組的基礎章節之一、結合 1.3 transaction boundary（交易範圍）、1.7 schema migration rollout evidence（演進證據）與 1.10 KV / Document 容量規劃（partition key 設計）一起讀。讀完後能回答：table 怎麼切、index 怎麼選、什麼時候 denormalize、partition 怎麼設、命名怎麼治理。

先定義狀態責任

資料模型第一步是定義狀態責任：哪些欄位代表正式狀態、哪些欄位是派生值、哪些欄位只為追蹤與審計。這個分層會直接決定 table 邊界與 relation 方向。

在訂單服務中、訂單主檔、付款狀態、庫存扣減屬於正式狀態；展示排序欄位、快取摘要屬於派生值；版本號、更新時間與來源欄位屬於可追蹤證據。把三類混在同一模型裡、後續查詢與演進成本會持續上升。

詳見 1.8 State Ownership 與 Query Boundary。

Table 與 Relation

table 切分要對齊業務聚合邊界。聚合內需要交易一致性的欄位、放在同一交易可控範圍；跨聚合流程透過事件或引用關係接續。relation 的責任是表達資料約束、不是替代流程編排。

主鍵策略要先回答「如何穩定識別」與「如何支援查詢」。自然鍵可讀性高但變動風險高；代理鍵穩定且易擴展、常搭配業務唯一鍵一起使用。外鍵策略則要平衡完整性與演進自由度：正式核心域可強約束、跨域整合可由應用層保護並保留遷移彈性。

主鍵選擇實務：

ID 設計不只是「選個格式」，而是在五個維度做取捨。先理解取捨、再按場景選型。

ID 設計的五個取捨維度

維度	說明	範例
唯一性	跨機器、跨時間不碰撞	分散式系統的核心需求
有序性	是否可按生成順序排序	B-tree 插入效能、時間軸查詢
隱私性	是否洩漏業務資訊（量級、時間、機器）	外部可見的 ID 不應洩漏用戶數量
儲存成本	佔多少 byte、index 體積	高 TPS 場景每 byte 都乘以百萬筆
產生效能	需要鎖？需要 crypto/rand？需要 network call？	熱路徑上的 ID 產生 ns 級差異有影響

ID 類型選型矩陣

ID 類型	大小	唯一性	有序性	隱私性	產生效能	適合場景
Bigint sequence	8 byte	單機唯一	嚴格有序	低（可猜量級）	最快（DB 自增）	單機、內部 ID
UUID v4	16 byte	全域唯一	無序	高（不可預測）	中（crypto/rand）	外部可見 ID、隱私敏感
UUID v7	16 byte	全域唯一	時間有序	中（時間可推）	中（timestamp + crypto/rand）	內部 ID、事件追蹤、DB 主鍵
ULID	16 byte	全域唯一	時間有序	中	中	類 UUID v7（先於 v7 標準化）
Snowflake	8 byte	需要 machine_id 協調	時間有序	低（含 machine_id）	快（無 crypto）	高 TPS + 分散式 + 空間敏感
NanoID	可變（預設 21 字元）	依長度	無序	高	快（PRNG 即可）	URL-safe 短 ID（用於外部可見的短連結、邀請碼）

選型決策流程

1需要跨機器唯一？
2  └─ 否 → Bigint sequence（最簡單、效能最好）
3  └─ 是 → ID 對外部可見？
4           └─ 是 → 隱私敏感？
5                    └─ 是 → UUID v4（不可預測）
6                    └─ 否 → UUID v7（有序、DB 友好）
7           └─ 否 → 空間敏感（8 byte vs 16 byte）？
8                    └─ 是 → Snowflake（需要 machine_id 協調）
9                    └─ 否 → UUID v7（簡單、標準）

有序 ID 的 DB 效能影響

B-tree 索引的插入效能和 key 的分布有直接關係。UUID v4 的隨機分布導致每次插入都可能落在 B-tree 的不同 leaf page，造成大量隨機 I/O（page split、cache miss）。UUID v7 的時間戳前綴讓插入集中在 B-tree 的尾端，接近 sequential insert。

測試場景（PostgreSQL、1000 萬筆）	UUID v4	UUID v7	Bigint
INSERT 吞吐	~5,000/sec	~15,000/sec	~20,000/sec
Index 大小	~400 MB	~350 MB	~200 MB
範圍查詢延遲	要額外建 timestamp index	UUID 本身有序	天然有序

上表數字是基於 NVMe SSD 環境的量級估算（源自 UUID v4 的 random page split 成本約為 sequential 的 1/3-1/4 這個 B-tree 特性推導），實際效能依硬體和 workload 而定。核心結論：UUID v7 的插入效能約為 v4 的 3 倍，接近 bigint sequential。

隱私考量：v4 vs v7

UUID v7 的前 48 bit 是 Unix 時間戳（毫秒精度）。攻擊者拿到 UUID v7 可以推算「這個 ID 在幾點幾分產生」。這在不同場景有不同風險：

場景	v7 洩漏的資訊	風險等級	建議
內部事件追蹤 ID	事件產生時間	無風險（log 本身有 timestamp）	v7
DB 主鍵（內部）	資料建立時間	低風險	v7
Session ID（自用工具）	Session 開始時間	低風險	v7
Session ID（商業產品、有外部使用者）	使用者活動時間	中風險（可交叉比對身份）	v4
API key / token	簽發時間	高風險（可推斷 key 輪換週期）	v4 或加密
訂單 ID（外部可見）	下單時間 + 量級趨勢	中風險	v4 或 NanoID

經驗法則：對外暴露給不可信第三方的 ID 用 v4（不可預測），內部 ID 用 v7（有序、效能好）。

各語言的標準庫支援

語言	UUID v4	UUID v7	套件
Python 3.14+	`uuid.uuid4()`	`uuid.uuid7()`	標準庫
Python < 3.14	`uuid.uuid4()`	`uuid_utils.uuid7()`	第三方
Go	`google/uuid` v4	`google/uuid` v7（1.6+）	事實標準
TypeScript	`crypto.randomUUID()`	標準庫無（`uuidv7` npm）	第三方
Dart	`uuid` package	`uuid` package v4+（支援 v7）	pub.dev
PostgreSQL	`gen_random_uuid()`	`uuidv7()`（pg_uuidv7 extension）	擴展

Go 的 google/uuid v1.6+ 內建 uuid.NewV7()，效能約 350ns/op（含 crypto/rand），和 JSON 解析（5-10μs）、DB 寫入（200μs）相比不是瓶頸。

對應 KV 案例：9.C5 Amazon Ads partition key、9.C15 Tixcraft composite key 都是主鍵策略的延伸。

Index 設計

index 設計要從查詢路徑反推、不是從欄位列表前推。每個高頻查詢至少要回答三件事：過濾條件是什麼、排序規則是什麼、回傳範圍有多大。這三件事能否由索引覆蓋、決定了 latency 與成本。

Index 類型對照：

Index 類型	適用 query	例子
B-tree（預設）	`WHERE col = ?` / `WHERE col > ?` / `ORDER BY col`	多數查詢
Hash	`WHERE col = ?`（不支援 range）	PostgreSQL 限定、少用
GIN	JSONB / array / full-text search	`WHERE jsonb_data @> ?`
GiST	範圍 / 地理 / 自訂型別	PostGIS、range type
BRIN	大表時序資料、欄位跟物理順序相關	log table by timestamp
Partial index	`WHERE` 條件下才建 index	`WHERE status = 'pending'`
Covering index	包含所有查詢欄位、避免 heap lookup	`INDEX (a) INCLUDE (b, c)`
Compound index	多欄位、順序敏感	`INDEX (a, b)` 對 `WHERE a=? AND b=?`

常見設計原則：

先保護交易關鍵查詢、再處理報表與後台查詢
複合索引依查詢過濾與排序順序排列、避免僅憑欄位熱門度排列
大表變更前先評估索引建立成本與回退方案、避免在高峰時段同步放大風險
定期 review 未用 index（PostgreSQL pg_stat_user_indexes、MySQL sys.schema_unused_indexes）— 寫入吞吐被舊 index 拖垮
partial index 對 boolean / status column 特別有用 — 只 index 「pending」「failed」等小集合

Index 反模式：

每個欄位都建 index：寫入吞吐被拖垮
不看 EXPLAIN 就建 index：可能跟 query planner 不對齊
用 OR 條件依賴單一 index：query planner 不一定能用
大表 ALTER INDEX 不分批：lock 整個表

Denormalization 模式

normalize 是 SQL 的預設、但 denormalize 有時是更好的工程選擇。

Precomputed aggregate：

把 COUNT / SUM 結果存在 parent row 而非每次 query 算
例：posts.comment_count 存實際值、不每次 SELECT COUNT
風險：consistency（comment 寫入後 count 沒更新）
對策：用 trigger 或應用層 transaction 確保同步、或定期 reconcile

Embedded one-to-many：

小量 1-many 關係可以 embed 成 JSONB / nested column
例：order.line_items JSON column、不另建 line_items table
風險：個別 line item 查詢不便
適合：line items 通常一起讀寫（同 transaction boundary）

Materialized view：

預計算 query 結果、定期 refresh
適合：複雜 JOIN / aggregation 重複跑
風險：refresh window 內看到舊資料

Read model（CQRS）：

寫入路徑跟讀取路徑用不同 schema
寫入 normalize、讀取 denormalize 成不同 read model
詳見 1.8 State Ownership

對應案例：

9.C27 Disney+ watch list — denormalize 用戶 metadata、跨裝置查詢方便
9.C5 Amazon Ads — DynamoDB single-table design 是極端 denormalization

Partition 策略

單表 > 1 TB 時、partition 是必要的維運手段。partition 不是「擴 storage」、是「讓 vacuum / index / DROP 可分批跑」。

Partition 類型：

Range partition：按 timestamp / id 範圍切。orders_2024_q1, orders_2024_q2…
List partition：按枚舉值切。orders_us, orders_eu…
Hash partition：按 hash 均勻切。適合無自然切分維度的大表

Partition 設計要點：

partition key 必須出現在 多數 query 的 WHERE clause（partition pruning 才能生效）
partition 數量適中（10-100）— 太少 partition 太大、太多 partition metadata 開銷大
老 partition 可以 DROP 或 archive、儲存成本可控
cross-partition unique constraint 限制 — 唯一鍵必須含 partition key

對應案例：

9.C4 DraftKings — 200 個獨立 Aurora cluster 是極端 partition by business
9.C5 Amazon Ads — DynamoDB 透明 partition、應用層不必管

Schema Evolution 友好設計

schema 從 day 1 就要為演進設計、不能假設「以後不會改」。

避免 breaking changes：

加欄位：safe（nullable 或 default）
刪欄位：unsafe（先讓所有 code 不再讀 → 部署 → 再刪）
改欄位類型：unsafe（先加新欄位、雙寫、backfill、移除舊欄位）
改欄位名：unsafe（同上）
加 NOT NULL constraint：unsafe（先 backfill default、再加 constraint）

Evolution-friendly schema 原則：

欄位 nullable by default：除非業務不允許 null、否則先 nullable、之後再 tighten
避免大表 ALTER TABLE：用 Expand / Contract 模式
predict breaking changes：訂版本、跟 application code 同步演進
schema version column：每 row 帶 version、應用層按版本處理
migration 工具版本控：Flyway / Liquibase / Atlas / golang-migrate 必須有

詳見 1.6 Database Migration Playbook 跟 1.7 Schema Migration Rollout Evidence。

Naming 與一致性

命名規則的責任是維持跨版本可讀性。table、column、index 的命名若沒有一致語意、migration 與故障排查會持續變慢。穩定做法是把命名和業務語意對齊、並保留可辨識版本與作用域。

Naming 慣例：

Table：複數名詞、snake_case（orders, payment_methods）
Column：snake_case、明確語意（created_at 不是 ts）
Foreign key：{referenced_table}_id（user_id 指 users.id）
Boolean：is_* / has_* / can_*（is_active, has_subscription）
Timestamp：*_at for events（created_at, paid_at）、*_on for dates（born_on）
Index：idx_{table}_{cols}（idx_orders_user_id_created_at）
Unique constraint：uq_{table}_{cols}
Foreign key constraint：fk_{table}_{ref}

避免的反模式：

縮寫不一致（u_id vs user_id）
隱性意義（status 是 enum、值在哪裡？）
跨表同義不同名（user.name vs customer.full_name）
反向命名（name_first vs 業界 first_name）

schema 演進時、命名與結構要一起考慮。欄位重命名、拆欄位、合併欄位都應配合 Expand / Contract 與 schema migration 策略、讓新舊版本在過渡期可共存。

判讀訊號

訊號	判讀重點	對應動作
同一查詢在資料量成長後延遲快速上升	索引與查詢模型不對齊	補複合索引、重寫查詢條件
migration 後查詢計畫顯著變化	統計資訊或索引選擇偏移	重建統計、校正索引與查詢
交易流程需跨多表同步更新	table 邊界與業務聚合邊界不一致	重切聚合邊界、減少跨聚合同步更新
同義欄位在多表重複存在且語意漂移	命名與責任邊界失控	收斂欄位責任、補資料字典與遷移計畫
修復事故時需要多次手動比對資料	可追蹤欄位與關聯鍵不足	補追蹤欄位、設計對帳查詢與修復流程
單表 > 1 TB 且 vacuum 變慢	沒 partition、後續維運成本爆	規劃 partition by range / hash
大量 unused index	寫入吞吐被舊 index 拖垮	review pg_stat_user_indexes、定期 drop

常見誤區

把 schema 設計等同於「先能寫入就好」、會把結構債延後到流量成長與事故時一次爆發。資料模型的工程價值在於可演進性、不在於初版欄位數量最少。

把索引當成效能補丁、忽略查詢模型與資料責任、也會讓後續維護成本持續疊加。索引與查詢要一起設計、才能在演進中保持穩定。

把 normalize 當成 絕對守則、忽略 denormalize 的工程效益。1NF / 2NF / 3NF 是理論起點、不是 production 必須。

案例對照

案例	Schema 設計重點
9.C5 Amazon Ads	DynamoDB single-table design、極端 denormalize
9.C15 Tixcraft	Composite partition key、event_id × user_id_hash
9.C4 DraftKings	200 個獨立 cluster、按業務切 partition
9.C27 Disney+	watch list embedded design、跨裝置同步
9.C11 Minecraft Earth	Cosmos DB synthetic partition key 強制分散

案例回寫

資料建模議題可以用 GitHub 2018 Oct21 MySQL Topology Incident 做回寫練習。讀這個事件時、先看跨區拓樸切換如何影響資料一致性、再回到本章檢查三件事：聚合邊界是否清晰、交易查詢與對帳查詢是否分層、修復時是否有可追蹤欄位與對帳鍵。

這個案例主要支撐的是「查詢與資料模型邊界」判讀、不直接支撐 transaction retry 或 queue replay 調校；若問題是重試放大、應轉到 1.3 或 3.x 章節處理。

當事件呈現長時間人工比對或查詢語意漂移時、先修正本章的 query boundary 與 naming 一致性、再補 1.6 資料庫轉換實作的驗證與回退路徑。

跨模組路由

schema 設計會直接影響後續可靠性與事故處理。

與 1.3 的交接：交易一致性邊界落在 transaction boundary。
與 1.6 的交接：演進策略落在資料庫轉換實作。
與 1.7 的交接：欄位責任進入 production rollout 時、讀 Schema Migration Rollout 證據實作示範。
與 1.8 的交接：state ownership 跟 query boundary 設計落在 State Ownership。
與 1.10 的交接：KV / Document 的 partition key 設計落在 KV / Document 容量規劃。
與 4.20 的交接：查詢與資料驗證證據進入 Observability Evidence Package。
與 6.11 的交接：高風險 schema 變更進入 Migration Safety。
與 8.19 的交接：資料修復與回退決策記錄進入 Incident Decision Log。

下一步路由

平行：1.3 Transaction Boundary、1.8 State Ownership
下游：1.6 Database Migration Playbook / 1.7 Schema Migration Rollout Evidence / 1.10 KV / Document 容量規劃
Vendor：PostgreSQL index 設計、MySQL InnoDB clustered index、DynamoDB single-table design
DynamoDB schema 深入：single-table design / partition key 反模式 / GSI / LSI 設計
MongoDB schema 深入：schema design pattern / shard key 選型
Cosmos DB schema 深入：partition key 設計

MySQL

Wed, 13 May 2026 00:00:00 +0000

MySQL 是大型網路服務的常見選擇、簡單 query 效能跟 database sharding 生態（Vitess / PlanetScale）成熟。GitHub、Shopify、Slack、Facebook（YouTube 從 MySQL 起家）等大規模服務的核心 OLTP 多採 MySQL。InnoDB engine 的 row-level lock、clustered index、buffer pool tuning 都被深度驗證。

教學路線：高併發 OLTP 與分片生態

MySQL 服務頁的教學目標是把「簡單 SQL 查詢」推進到高併發 OLTP、replication、online schema change 與 sharding governance。讀者讀完後要能判斷 MySQL 何時是成熟預設、何時已經進入 Vitess / PlanetScale 或 application sharding 的討論。

學習段	核心問題	對應段落
OLTP 基線	MySQL 適合哪種大量簡單查詢與交易路徑	定位、適用場景
Replication	replica、failover、lag 與 read scaling 如何影響服務	容量特性、容量規劃要點
Schema change	online schema change 與 migration 如何保護高流量服務	容量規劃要點、預計實作話題
Sharding	Vitess、PlanetScale 與 application sharding 何時變成主線	跟其他 vendor 的取捨
替代路由	何時轉 PostgreSQL、Aurora、DynamoDB 或 distributed SQL	不適用場景、下一步路由

定位：高併發簡單 SQL + 強分片生態

MySQL 跟 PostgreSQL 是 SQL OLTP 兩大主流、但設計取捨明顯不同：

MySQL 偏 簡單 query 效能 + 分片生態 — InnoDB clustered index 對 primary key range query 特別快、Vitess 提供超大規模透明 database sharding
PostgreSQL 偏 特性深度 — 詳見 PostgreSQL vendor page

選 MySQL 的核心訴求：需要超大規模分片（> 100 TB、> 100K WPS）、簡單 query 為主、已用 MySQL 生態工具鏈（gh-ost、pt-online-schema-change）。

容量特性

單一 primary 寫吞吐：

標準 InnoDB：10K-30K WPS（依 row size、commit sync、index 數量）
高階 instance + 優化 schema：50K-100K WPS
超過此級別 → Vitess sharding 或 PlanetScale

Connection 上限：

預設 max_connections = 151、實務常設 1000-5000
每個 connection thread stack ~3 MB + session buffer 累積、active 高峰時 ~8-10 MB（thread + sort/join buffer）
仍建議 ProxySQL / connection pool 限制 backend connection 數

Replication：

async / semi-sync / GTID-based
跨 AZ async lag 通常 < 100ms
跨 region 通常用 chain replication 或 binlog 同步

Storage 上限：

單一 table 64 TB（InnoDB 設計上限）
實務超過 1 TB 表建議分片

適用場景

1. 大規模 OLTP + 分片需求：

流量 > 50K WPS、必須進入 database sharding 設計
用 Vitess / PlanetScale 透明 sharding、應用層幾乎不必改
對應產業：超大網路服務（GitHub、Shopify、Slack）

2. 簡單 query 為主：

primary key lookup、簡單 range query
不太用 CTE、window function、複雜 JOIN
InnoDB clustered index 對這類 workload 特別快

3. 既有 MySQL 生態工具：

gh-ost / pt-online-schema-change（online schema migration）
Orchestrator（HA topology 管理）
ProxySQL（query routing + connection pool）
Maxwell / Debezium MySQL（CDC）

4. 強一致 transaction 但容忍部分 SQL 功能缺失：

不需 partial index、不需 JSONB indexing
不需 PostGIS、用 spatial extension 夠

5. Aurora MySQL（managed 路徑）：

從自管 MySQL 上 AWS、保留 wire protocol
詳見 Aurora vendor page

不適用場景

1. 需要 PostgreSQL 等級的 SQL / JSON 特性：

複雜 CTE、recursive query、window function
JSON Schema validation、JSONB GIN indexing
PostGIS 等深度 extension

2. 全球 multi-region active-active write：

MySQL 設計是 single primary、跨 region 是 async
替代：Aurora DSQL、Spanner、Vitess multi-cluster

3. 大規模 OLAP：

MySQL 定位在 OLTP，analytics workload 交給 OLAP 系統
替代：ClickHouse、BigQuery、Snowflake

4. KV 簡單查詢 + sub-10ms p99：

跟 PostgreSQL 一樣有 parsing / planning 開銷
替代：DynamoDB、Redis

跟其他 vendor 的取捨

vs PostgreSQL：

詳見 PostgreSQL vendor page 對比段
摘要：MySQL 適合超大規模分片、PostgreSQL 適合進階 SQL 特性

vs Aurora MySQL（同 wire protocol）：

MySQL（自管 / RDS）：可跨雲、彈性高
Aurora MySQL：AWS managed、storage / compute 分離、更多 read replica
選自管 MySQL：跨雲需求、預算敏感
選 Aurora MySQL：AWS 生態深、需要 storage scaling

vs PlanetScale（Vitess managed）：

MySQL（自管 + Vitess）：完全控制、可自管分片
PlanetScale：managed Vitess、branch-based schema migration
選 MySQL + Vitess：team 有能力管 Vitess、預算敏感
選 PlanetScale：想 zero ops、branch-based workflow

vs TiDB：

MySQL：single-primary、傳統分片靠 Vitess
TiDB：MySQL wire protocol 相容、HTAP（OLTP + OLAP 同庫）、跨 region 強一致
選 MySQL：已有 MySQL 投資、不想換引擎
選 TiDB：需要跨 region 強一致 + OLAP 同庫

vs Vitess（self-managed sharding layer）：

Vitess 本質是 MySQL 上層的 sharding layer
由 YouTube 設計、捐贈 CNCF
適合超大規模 MySQL 集群、需要透明 sharding

vs DynamoDB（document/KV 替代）：

MySQL：SQL、有 transaction、ad-hoc query、connection-based
DynamoDB：KV、partition 透明、無 connection 限制、5 個 9 SLA
選 MySQL：需要 ad-hoc query、複雜 JOIN、SQL transaction
選 DynamoDB：access pattern 固定、AWS-only、想避免 connection limit 問題
詳見 1.10 KV / Document DB 容量規劃的 connection model 對比

vs Spanner / CockroachDB / Aurora DSQL（distributed SQL）：

MySQL + Vitess：自管 sharding、operational 重、跨雲可用
Spanner / CockroachDB / Aurora DSQL：分散式 SQL、跨 region 強一致、transparent sharding
選 MySQL + Vitess：已有 MySQL 投資、有能力管 Vitess、預算敏感
選 distributed SQL：需要 multi-region 強一致、不想自管 sharding
詳見 1.11 全球分散式 OLTP

vs MongoDB（document 替代）：

MySQL：SQL + JSON column 補充
MongoDB：document 為主、aggregation pipeline 強、schema-flexible
選 MySQL：主要結構化、少量半結構化
選 MongoDB：document 占主要 schema、aggregation 工作負載

容量規劃要點

1. Sharding 是 MySQL 大規模的核心：

單一 MySQL primary 寫吞吐有上限
Vitess / PlanetScale 用 keyspace + shard 切分
shard key 設計類似 DynamoDB partition key — 必須均勻
大規模案例：Shopify（多 shard 分散）、Slack（per-team sharding）

2. Online schema change 是必備：

ALTER TABLE 直接跑會 lock 整個 table
gh-ost（GitHub）/ pt-online-schema-change（Percona）/ Vitess online DDL 用 ghost table 漸進 migrate
大表 schema change 可能跑 hours / days、要排程

3. Replication 跟 GTID：

GTID-based replication 比 binlog position 容易管 topology
semi-sync replication 保證至少一個 standby ack 才 commit
async replication 高吞吐但 lag 較大

4. Connection management：

ProxySQL 是 MySQL 生態的 connection pool 標準
提供 query routing（讀 → replica、寫 → primary）
對應 9.C29 Lemino case — RDB connection limit 議題對 MySQL 同樣適用

5. InnoDB tuning：

innodb_buffer_pool_size：dedicated server 70-75%、shared server 30-50%（詳見 InnoDB Tuning）
innodb_flush_log_at_trx_commit：1（durable）vs 2（faster）vs 0（fastest, 不安全）
innodb_io_capacity：依 storage 類型調整

Anti-recommendation 與升級路由

MySQL 的成熟生態容易讓讀者過早引入重工具。這一段補上 deep article audit 提到的 anti-recommendation 缺口：先說何時維持簡單 MySQL 路徑，再說何時升級到 ProxySQL、Orchestrator、gh-ost、Vitess、PlanetScale 或 distributed SQL。

機制	維持簡單設計的條件	升級訊號	主要引用路徑
Replication	單 primary + 1-2 replica，lag 可被 read routing 容忍	failover 反覆手動、GTID gap、semi-sync fallback	Replication Topology、Orchestrator Failover
Online schema change	小表、maintenance window 足夠、MySQL 8.0 instant DDL 可 cover	大表 ALTER 需 hours、metadata lock 影響 production	Online Schema Change Tools、6.11 Migration Safety
ProxySQL	application pool + primary endpoint 已能控制連線	read/write routing、lag-aware routing、connection storm	ProxySQL Config、Connection Pool
Vitess / sharding	單 primary 寫入與資料量仍在可維護範圍	> 50K WPS、> 100 TB、shard key 已明確、跨 shard query 可接受	Vitess Sharding、Database Sharding
PlanetScale	團隊已有 DBA / SRE 能力管理 Vitess 或自管 MySQL	想把 Vitess ops、schema branch workflow 與 failover 交給平台	→ PlanetScale、Vitess → PlanetScale
Distributed SQL	workload 仍是 single-region OLTP 或 Vitess 可解	multi-region 強一致、cross-shard transaction 是核心需求	1.11 全球分散式 OLTP

Replication 的簡單路徑是 GTID + async replica + 明確 read routing。當 failover 仍靠人工判斷、replica re-pointing 反覆出錯、或 semi-sync fallback 沒有被監控時，才需要把 Orchestrator、ProxySQL 與 incident runbook 放進同一條 HA 路徑。

Online schema change 的簡單路徑是先判斷 MySQL 8.0 instant / inplace DDL 能否 cover。只有大表 rewrite、長時間 metadata lock、FK / trigger 複雜互動或 maintenance window 不足時，才讓 gh-ost / pt-online-schema-change 成為主線工具。

Sharding 的簡單路徑是延後到資料形狀穩定後再做。Vitess 能把 MySQL 推到超大規模，但它也引入 VTGate、VTTablet、VReplication、VSchema、resharding workflow 與跨 shard transaction 邊界；shard key 還沒穩定時，應先用 schema、index、read replica、partition 與容量治理延長單 primary 壽命。

Managed sharding 的簡單路徑是先確認團隊想轉移哪一層責任。PlanetScale 解的是 Vitess operation、branch-based schema workflow 與 managed failover；FK、cross-shard query、connection pool 與 cost model 仍要在 migration playbook 中驗證。

Deep article + Migration playbook（已完成）

主題	文章	類型
Replication topology（async / semi-sync / GTID）配置	replication-topology	Deep article
gh-ost / pt-online-schema-change 對比	online-schema-change-tools	Deep article
ProxySQL 配置跟 query routing	proxysql-config	Deep article
Orchestrator failover 設計	orchestrator-failover	Deep article
InnoDB tuning（buffer pool / log / IO）	innodb-tuning	Deep article
Binary log + Maxwell / Debezium CDC	binlog-cdc	Deep article
Vitess sharding 設計	vitess-sharding	Deep article
8.0 modern SQL（CTE / window / JSON_TABLE）	modern-sql-features	Deep article
Group Replication / InnoDB Cluster 部署	group-replication	Deep article
Query optimization deep dive	query-optimization	Deep article
Partitioning（range / list / hash / sub-partition）	partitioning	Deep article
PITR + Backup strategy	pitr-backup	Deep article
Lock contention（gap / next-key / deadlock）	lock-contention	Deep article
Hands-on 操作路線	hands-on	操作型章節群
5.7 → 8.0 major version upgrade	major-version-upgrade	Migration playbook（Type E）
從自管 MySQL 遷到 Aurora MySQL	migrate-to-aurora	Migration playbook（Type C）
從自管 MySQL 遷到 PlanetScale	migrate-to-planetscale	Migration playbook（Type E）
自管 Vitess 遷到 PlanetScale	migrate-vitess-to-planetscale	Migration playbook（Type C）
從 MySQL 遷到 PostgreSQL	migrate-to-postgresql	Migration playbook

補充正文路由

當前 deep article、migration playbook、補充正文與 hands-on 已 cover ops / schema / failover / tuning / SQL features / sharding / backup / migration / security / audit / document / OLAP / memory / metadata lock 等維度。下列補充正文用來承接 overview 中提到的延伸議題：

Encryption at rest + TLS in transit + key management：對應 PG TLS-mTLS 議題
Audit log + SIEM 整合：MySQL Enterprise Audit Plugin 跟 Splunk / Elastic Security 整合
MySQL Document Store（X-Protocol）：少用但對特定 use case 有興趣
Multi-source replication topology：1 個 replica 從 N 個 primary 拉、用於 sharded environment 整合
HeatWave（MySQL OLAP add-on）：Oracle 推的 HTAP solution、跟 ClickHouse / Snowflake 對比
Cross-buffer memory contention deep dive：buffer pool / connection thread / temp table / sort buffer 之間的 RAM 競爭、跟 OS swap 互動
Metadata lock deep dive：DDL / long-running SELECT / FK 互動造成的 stalls

上述補充篇已完成正文，並保留既有路由。Encryption / TLS / key management 接 TLS / mTLS 與 Secret Management；audit log 接 Audit Log 與 07 資安資料保護；Document Store 接 MongoDB vendor 與 1.10 KV / Document DB 容量規劃；multi-source replication 接 Replication Topology；HeatWave 接 OLAP 替代路由；memory contention 接 InnoDB Tuning；metadata lock 接 Lock Contention 與 Online Schema Change Tools。

已知 limitation（多輪 audit 結論）

17 篇 batch 跑過 4-reviewer audit（寫作規範 / 跨檔一致性 / 技術準確性 / 結構性質疑）後留下的 limitation：

Framework bias：5 篇 migration playbook 全落在 Type A / C / E、沒一篇 Type B / D / F。這反映 MySQL 領域 migration 的本質（多數情境是 schema 差 / operational 轉手 / paradigm shift）、也可能反映 6 type framework 的覆蓋限制
Anti-recommendation 已補 overview 路由：本頁新增「Anti-recommendation 與升級路由」作為總入口；各 deep article 之後仍可逐篇補「何時維持簡單設計」段。
Real case anchor 已下沉：本頁「真實案例 anchor」把 Shopify、Slack、GitHub gh-ost、YouTube / Vitess 與既有 09 case 串回 deep article；Shopify CDC、gh-ost workflow、YouTube / Vitess 與 Netflix Aurora consolidation 已補到對應 deep article 的 production case 段。
PG 對比 narrative：對比段公允度尚可、但 PG 弱點（vacuum ops 開銷 / connection-per-process model / replication slot 治理）較少在 MySQL 視角展開、單方面對比偶有偏 MySQL 不利

案例對照

MySQL 沒有直接的 09 case（大規模 MySQL 多在 engineering blog、不在 vendor case study）、但作為 baseline / 遷移源在多處出現：

案例	跟 MySQL 的關係
9.C23 Netflix Aurora consolidation	從多套 RDBMS（含 MySQL）統一到 Aurora MySQL
9.C20 Zomato TiDB → DynamoDB	TiDB（MySQL 相容）→ DynamoDB 對比
9.C29 Lemino RDB connection limit	MySQL connection 限制問題（同 PostgreSQL）

真實案例 anchor

MySQL 真實案例的責任是把大規模 OLTP 的機制壓力放回正文。案例不只證明「某公司使用 MySQL」，而是提供 schema change、CDC、sharding、connection、queue 整合或 managed migration 的壓力來源。

案例 / 來源	回收的工程訊號	對應正文路由
Shopify Debezium CDC over sharded MySQL	100+ shard、~150 Debezium connector、BFCM 100K records/sec、snapshot lock 與 oversized payload	Binary Log + CDC、Database Sharding、Kafka vendor
Slack Job Queue 演進到 Kafka + Redis	成長期把背景工作拆成多條傳遞路徑，揭露單一資料路徑與 queue 路徑分工	MySQL 只承擔 OLTP source of truth；queue / cache 路徑回 03 Message Queue
gh-ost / GitHub operation workflow	大表 schema change 需要 throttle、pause / resume、cutover 控制	Online Schema Change Tools
YouTube / Vitess	MySQL sharding layer 需要 VTGate、VTTablet、VReplication、VSchema	Vitess Sharding、Database Sharding、→ PlanetScale
9.C23 Netflix Aurora consolidation	多套 RDBMS 整併到 managed Aurora，揭露 operation transfer driver	→ Aurora、Aurora vendor
9.C29 Lemino RDB connection limit	surge 場景 connection limit 讓 RDB 退到 DynamoDB 類 access pattern	ProxySQL Config、1.10 KV / Document DB 容量規劃

案例下沉規則是先放 overview，再進 deep article。當某個案例只支撐服務定位，留在本頁；當案例提供具體操作訊號，例如 Shopify 的 Debezium connector scaling、GitHub 的 gh-ost workflow 或 YouTube 的 Vitess topology，對應 deep article 要保留 production case 段、讓讀者能從機制直接跳到案例。

常見陷阱

直接 ALTER TABLE 大表：lock 表 hours、production 停擺、必須用 online schema change
不用 GTID：replication topology 變更困難、recover from failure 容易出錯
buffer pool 太小：cache miss 高、IOPS 飆升
shard key 選錯：hot shard 出現、整體吞吐達不到名義
connection 沒 pool：跟 PostgreSQL 同樣問題、用 ProxySQL
semi-sync 對高吞吐 workload：每次 commit 等 ack、寫吞吐降一半

下一步路由

完整 T1 對照：01-database vendors index
平行：PostgreSQL vendor、Aurora vendor（managed MySQL）
操作：MySQL Hands-on（local lab、ProxySQL、OSC、replication failover、backup restore、Vitess sandbox）
上游：1.1 高併發資料存取、1.3 Transaction Boundary
下游：1.10 KV / Document DB 容量規劃（MySQL 不適用時的替代）
跨模組：9.5 瓶頸定位流程 — connection / replication / lock contention 常見 MySQL bottleneck
官方：MySQL Documentation、Vitess、PlanetScale

1.3 Transaction 與一致性邊界

Wed, 13 May 2026 00:00:00 +0000

交易邊界（transaction boundary）的核心責任是定義哪些資料變更必須一起成立。資料庫交易的價值在於讓同一個業務動作可以被明確提交、明確回退、明確重試。

本章從業務邊界切分開始、進入 isolation level 工程細節、再到 retry 策略、最後處理跨服務 / 跨 region 的 distributed transaction。讀完後讀者能回答：transaction 範圍該多大、isolation 該訂多嚴、deadlock 怎麼處理、跨服務一致性怎麼設計、什麼時候該換 Saga 模式。

邊界先於語法

交易邊界先從業務動作切分、再回到 SQL。建立訂單、扣庫存、寫付款狀態是一個動作；更新推薦分數、寫審計摘要、送通知事件屬於不同節奏、適合拆成後續流程。

當同一個動作內同時包含高延遲外部呼叫、交易範圍會直接放大鎖持有時間。穩定做法是把交易內責任收斂在「需要同時成功」的資料集合、讓外部呼叫或延伸副作用透過 queue / outbox 交給後續流程。

Isolation Level 五級深度

SQL 標準定義四個 isolation level、實務上 PostgreSQL / MySQL / Spanner 等實作有微妙差異。理解各級的具體行為、才能在 正確性 vs 性能 之間做取捨。

0. Read Uncommitted（dirty read 可能）：

可讀到別的 transaction 還沒 commit 的資料
多數 DB 不真的支援這級（會 fallback 到 Read Committed）
實務不要用

1. Read Committed（PostgreSQL / Oracle 預設）：

只讀到 commit 的資料
同一個 transaction 內、多次 SELECT 同一筆資料可能讀到不同值（non-repeatable read）
適合：read-heavy workload、不要求同 transaction 內 read consistency

2. Repeatable Read（MySQL InnoDB 預設）：

同 transaction 內 read 一致（snapshot at transaction start）
不防 phantom read（標準定義）、但 InnoDB 的 RR 加 gap lock 實際上防住了
適合：報表類 transaction、需要 snapshot 一致性

3. Serializable（最強）：

看起來像所有 transaction 序列執行
兩種實作：strict 2PL（lock-based、MySQL）vs SSI（snapshot isolation + 衝突檢測、PostgreSQL）
衝突時會 serialization failure、應用層必須 retry
適合：金融交易、ticketing inventory、需要絕對正確

4. External Consistency / Linearizable（Spanner、Aurora DSQL）：

比 Serializable 更強：跨 transaction 的順序跟 wall clock 一致
全球分散式系統的特殊取捨
詳見 1.11 全球分散式 OLTP 的 Spanner TrueTime 段
詳見 9.C10 Spanner case

選擇原則：

90% 業務用 Read Committed 夠
報表 / 對帳用 Repeatable Read
金融交易 / inventory 用 Serializable
全球強一致用 Spanner / Aurora DSQL 等 linearizable 系統

Isolation 跟 Retry 的關係

isolation level 的責任是定義交易彼此可見性。Read Committed 在高併發寫入下可維持一般業務一致性；Repeatable Read 與 Serializable 提供更強約束、同時提高鎖競爭與重試頻率。

併發交易的常見結果是 deadlock 或 serialization failure。這些結果代表資料庫在保護一致性、應用層需要把它視為可重試路徑：

重試次數有上限（通常 3-5 次）— 避免 retry storm
重試間隔有抖動（exponential backoff + jitter）— 避免同步衝突
重試前提是動作可重入（idempotent）— 不會放大副作用

對應 Exponential Backoff 跟 Idempotency 卡片。

Optimistic vs Pessimistic Locking

當多個 transaction 同時操作同一筆資料、有兩種防衝突策略：

Pessimistic locking（悲觀鎖）：

SELECT ... FOR UPDATE、提前 lock 行
適合：衝突機率高、retry 成本高
缺點：lock 期間其他 transaction 等待、容易 deadlock

Optimistic locking（樂觀鎖）：

不 lock、用 version column 或 WHERE old_value = ?
commit 時若 version 不對、整個 transaction 失敗、應用層 retry
適合：衝突機率低、性能優先
缺點：高衝突場景 retry 多、整體吞吐反而低

選擇邏輯：

衝突 < 5% → optimistic（更高吞吐）
衝突 > 30% → pessimistic（避免 retry waste）
中間區 → 量測再決定

對應 hot row contention 處理（1.1）— 高衝突 hot row 通常該換 KV / cache、不該硬擴 SQL。

服務情境：Checkout 多層邊界

電商 checkout 是典型的 transaction boundary 設計題、可拆成兩層邊界。

第一層：交易層（即時一致）：

建立訂單主表
寫入訂單項目
扣減可售庫存
寫入付款待確認狀態

第二層：延伸層（最終可達）：

寄訂單確認 email
同步 CRM 系統
觸發 analytics event
更新推薦模型

這種切法讓交易控制面跟非同步控制面各自穩定：

交易層關注 鎖、隔離與回退
非同步層關注 投遞、重試與補償

對應案例：

9.C4 DraftKings Aurora — 體育博彩 ledger、200 個獨立 cluster 處理 transaction、後續 settlement 跑非同步
9.C14 Standard Chartered — 跨市場銀行 transaction、各市場獨立、跨市場結算非同步

Distributed Transaction：2PC vs Saga

當業務動作跨越 多個服務 / 資料庫、傳統 ACID transaction 不夠用、需要 distributed transaction 模式。

Two-Phase Commit (2PC)：

階段 1：coordinator 詢問所有 participant「你能 commit 嗎？」
階段 2：所有都說 yes → coordinator 廣播 commit；任一說 no → 廣播 abort
優點：強一致、ACID 保證
缺點：coordinator failure 會 block 所有 participant、性能差、跨服務複雜
適合：少數高一致性需求的場景（金融交易、跨多 DB 一致性）

Saga Pattern：

把長 transaction 拆成多個 local transaction + compensating transaction
每個 step 成功 → 進下個；任一失敗 → 倒回去跑 compensation
例：訂單 step1 扣庫存、step2 收款、step3 送貨。step2 失敗 → 跑 step1 的 compensation（補庫存）
優點：高可用、性能好、容易擴展
缺點：不是強一致、中間狀態可見、compensation 必須設計
適合：multi-service 業務流程、可接受 eventual consistency

Choreography vs Orchestration：

Choreography：每個 service 自己決定下一步（event-driven）
Orchestration：中央 orchestrator 控制流程（state machine）
大規模傾向 orchestration（容易追蹤、debug）、小規模 choreography 足夠

對應案例：

9.C15 Tixcraft — 售票 + 付款分開：DynamoDB 接搶單（local transaction）、legacy server 跑付款（compensation 處理庫存回退）
9.C28 FanDuel — 投注 → 結算的 saga 流程

詳見 Outbox Pattern 卡片跟 3.3 Outbox Pattern。

跨 Region Transaction：CAP 取捨

當 transaction 必須跨 region 同時成立、CAP 定理開始作用。

Single-region transaction（PostgreSQL / MySQL / Aurora）：

ACID within region
跨 region 用 async replication、不是 transaction

Multi-region eventual consistency（DynamoDB Global Tables、Cosmos DB session/eventual）：

各 region 都能寫
LWW 或 application-level conflict resolution
不是 ACID、是 BASE

Multi-region strong consistency（Spanner、Aurora DSQL、CockroachDB）：

跨 region linearizable transaction
代價是 latency（跨洲 100-200ms quorum）
對應 1.11 全球分散式 OLTP

決策邏輯：

業務不需要跨 region 強一致 → single-region OLTP + eventual replication
需要跨 region 強一致 + 接受 latency → Spanner / Aurora DSQL
需要跨 region 寫但接受最終一致 → Cosmos DB session / DynamoDB Global Tables

判讀訊號

訊號	判讀重點	對應動作
deadlock rate 升高	交易範圍過大或鎖順序不一致	統一更新順序、縮小 transaction 範圍
transaction duration 在尖峰時段上升	交易內含慢查詢或外部依賴	將外部呼叫移出交易、補索引與查詢計畫
retry 成功率下降	重試條件與業務冪等假設不一致	補 idempotency key、調整 retry 邏輯
rollback 後仍出現業務狀態殘留	邊界切分和副作用落點未對齊	將副作用統一移到 outbox / consumer 路徑
交易內讀寫跨多資料域導致 contention 爆發	業務聚合邊界與資料模型邊界衝突	重新切 aggregate 與拆分熱點資料結構
Serializable retry 率 > 10%	isolation 太嚴或業務衝突高	降到 Repeatable Read 或拆 hot row
跨服務 transaction 用 2PC 卡住	coordinator failure 阻塞	改 Saga + compensation

常見誤區

交易保護的是一致性、不是吞吐量最大化。把過多步驟包進單一交易、會同時放大鎖競爭與回退成本。把交易切成可驗證的業務單位、能讓高併發下的可預期性更高。

重試保護的是暫時性失敗、不是所有失敗。沒有冪等保護的重試會放大副作用、特別是金流、庫存、配額這類正式狀態。

isolation level 不是「越強越好」。Serializable 比 Read Committed 慢數倍、且 retry rate 上升。只在必要場景用最強 isolation、其他場景用最低可接受 isolation。

distributed transaction 不是「跨服務就要 2PC」。多數 multi-service 業務用 Saga 更可靠、2PC 是少數場景的特殊工具。

案例對照

案例	Transaction 相關重點
9.C4 DraftKings Aurora	Aurora MySQL ACID transaction、200 個獨立 cluster 隔離 transaction scope
9.C10 Spanner	External consistency（linearizable）跨 region transaction、TrueTime
9.C14 Standard Chartered	跨市場 transaction 各市場獨立 cluster、合規限制
9.C15 Tixcraft	搶票 + 付款 saga 模式、DynamoDB queue + legacy SQL

案例回寫

交易邊界可用 GitHub 2018 Oct21 MySQL Topology Incident 做回寫。先看事件中的主從切換與恢復順序、再回到本章判讀三件事：哪些變更必須同交易成功、哪些副作用應拆到 outbox、哪些錯誤屬於可重試而非立即回退。

這個案例主要支撐的是「提交與副作用切分」判讀、不直接支撐 schema naming 或 cache freshness；若問題落在資料命名或快取新鮮度、應回到 1.2 或 2.x。

若事件出現資料已寫入但外部流程落後、或重試後副作用重複、先收斂本章的邊界切分與重試前提、再同步更新 3.3 outbox pattern 與 3.4 consumer 設計。

跨模組路由

交易邊界設計會直接影響後續模組的可操作性。

與 03 的交接：交易外副作用透過 outbox pattern 與 consumer 落地。
與 1.7 的交接：付款狀態拆欄位、雙寫與回呼更新要進入 Schema Migration Rollout 證據的驗證流程。
與 1.10 / 1.11 的交接：KV 跟全球分散式 OLTP 的 transaction model 不同、選型時要回到本章邊界判讀。
與 04 的交接：交易失敗需要對齊 Observability Evidence Package 的查詢與證據欄位。
與 06 的交接：高風險交易變更納入 Release Gate 與 Migration Safety。
與 08 的交接：交易層回退或 fail-forward 判斷記錄到 Incident Decision Log。

下一步路由

平行：1.1 高併發資料存取（connection pool / hot row）
下游：1.6 資料庫轉換實作 / 1.7 Schema Migration Rollout 證據 / 1.10 KV / Document DB 容量規劃 / 1.11 全球分散式 OLTP
跨模組：3.3 outbox pattern / 6.11 Migration Safety / 9.5 瓶頸定位流程
卡片：Isolation Level / Transaction Boundary / Idempotency / Outbox Pattern / Exponential Backoff
Spanner 一致性深入：TrueTime API 深入 / Spanner 一致性模型對照
CockroachDB retry / 隔離深入：CockroachDB transaction retry pattern / Aurora DSQL / Spanner / CockroachDB 決策樹
Aurora 寫入語意深入：Aurora 儲存層架構（6 寫 / 4 讀 quorum 對 transaction 的影響）

MongoDB

Wed, 13 May 2026 00:00:00 +0000

MongoDB 是 document database 的事實標準。schema flexibility、aggregation pipeline、跨雲 managed（Atlas）讓它成為許多 startup 的 default 選擇。Microsoft 365、Disney+ 早期、Uber 等大規模平台都從 MongoDB 起家，後來依 workload 壓力把部分路徑遷移到 KV / 雲商專屬服務（Cosmos DB、DynamoDB）。

教學路線：Document shape 與 schema governance

MongoDB 服務頁的教學目標是把 document model、schema flexibility、index、aggregation pipeline 與 sharding 放回資料形狀治理。讀者讀完後要能判斷資料是否適合 aggregate root，並知道 schema governance 如何影響長期維護成本。

學習段	核心問題	對應段落
Document shape	哪些資料適合 aggregate root 與 nested document	定位、適用場景
Schema governance	schema flexibility 如何搭配 validation、版本與 migration	容量規劃要點、預計實作話題
Query / index	index、aggregation pipeline、ad-hoc query 如何影響成本	容量特性、常見陷阱
Sharding	shard key、chunk、balancer 如何把資料形狀變容量問題	容量規劃要點、Database Sharding
替代路由	何時轉 PostgreSQL、DynamoDB、Cosmos DB 或 search	不適用場景、跟其他 vendor 的取捨

定位：JSON document + 跨雲彈性

MongoDB 是以 document model 為主體的 DB。PostgreSQL JSONB 適合「SQL 為主、少量半結構化欄位」；MongoDB 則把 BSON document、aggregation pipeline、database sharding 與 schema governance 放在核心設計裡。近年版本加入 time series、change streams、queryable encryption、CSFLE 等能力。

選 MongoDB 的核心訴求：document model 是主要 use case、需要跨雲 managed（Atlas）、想避免 vendor lock-in（也可自管）。

容量特性

單一 instance 吞吐：

一般 m5.4xlarge：5K-15K WPS（依 doc size、index）
高階 instance + tuning：30K-50K WPS
超過此級別 → sharding

Sharding：

MongoDB 原生支援 sharded cluster
mongos router + config servers + shard
MongoDB sharding 要主動設計 shard key，並和 Hot Partition 風險一起看

Replication：

Replica set（primary + secondary、async）
跨 region 通常 async
自動 failover < 30 秒（mongod 內建）

Storage：

單一 collection 沒有官方上限、但 shard key resharding 過去版本是大手術（4.4+ 支援 reshardCollection）

適用場景

1. Document model 主要 workload：

schema 變化頻繁的早期產品
nested document 自然表達領域模型（訂單含多個 item、用戶含多個 preference）
對應案例：9.C30 Microsoft 365 — 從 MongoDB 遷移到 Cosmos DB MongoDB API、保留 document model

2. Aggregation pipeline 重 workload：

複雜的 $group / $match / $project chain
報表、analytics、ETL prep
比 RDBMS 寫複雜 query 更直觀（對某些 team）

3. 跨雲 managed（Atlas）：

MongoDB Atlas 跨 AWS / GCP / Azure
跟 DynamoDB（AWS only）、Cosmos DB（Azure only）、Spanner（GCP only）相反
適合多雲策略、避免單一 vendor lock-in

4. Time series workload（6.0+）：

time series collection 專屬優化
不過 InfluxDB / TimescaleDB 仍是更專業選擇

5. 已有 MongoDB 生態 + 想轉移操作責任：

Atlas 提供 backup、failover、monitoring、auto-scale
想把 MongoDB DBA / SRE 操作責任交給 Atlas

不適用場景

1. 強 ACID multi-document transaction：

MongoDB Transaction 支援多 document、但跨 shard 有性能影響
高頻金融交易仍建議 SQL 系統
替代：PostgreSQL、Aurora、Spanner

2. 複雜 JOIN：

MongoDB $lookup 適合少量相鄰資料，JOIN-heavy workload 應回 SQL 系統
schema design 階段要把常用讀取路徑 denormalize 成 document shape
替代：SQL 系統做 JOIN-heavy workload

3. 純 KV + sub-ms latency：

MongoDB document model 比 KV 多一層 BSON parsing
替代：Redis、DynamoDB、Bigtable

4. 大規模 OLAP：

aggregation 對中等資料量還行、TB 級不適合
替代：ClickHouse、BigQuery、Spark on Delta Lake

5. 嚴格資料模型 + schema enforcement：

MongoDB schema flexibility 可能導致 production data inconsistency
替代：SQL DB（schema 強制）+ JSONB column 處理半結構化

跟其他 vendor 的取捨

vs Cosmos DB MongoDB API：

MongoDB Atlas：跨雲、原生 MongoDB 行為
Cosmos DB MongoDB API：Azure-only、global distribution + 5 consistency levels
選 MongoDB Atlas：跨雲、需要原生 MongoDB features
選 Cosmos DB：Azure 生態、需要更好 global distribution
對應案例：9.C30 Microsoft 365 — 從 MongoDB 遷到 Cosmos DB MongoDB API，主要保留 document model

vs DynamoDB：

MongoDB：document model、aggregation 強、跨雲
DynamoDB：KV / single-table design、AWS 整合、5 個 9 SLA
選 MongoDB：document 為主、跨雲
選 DynamoDB：KV 為主、AWS 生態
詳見 DynamoDB vendor page 對比段

vs PostgreSQL JSONB：

MongoDB：document 為主、schema-less
PostgreSQL：SQL 為主、JSONB 補充
選 MongoDB：document 占主要 schema
選 PostgreSQL JSONB：主要結構化、少量半結構化欄位

vs Couchbase / Couchdb / Firestore：

Couchbase：MongoDB 替代、有 N1QL（SQL-like）
CouchDB：偏小規模、master-master replication
Firestore：GCP-only、realtime updates
MongoDB 在這群裡是生態最廣的

vs Elasticsearch 作為 search 替代：

兩者分屬不同類別：MongoDB 是 OLTP / document、Elasticsearch 是 search + analytics
通常搭配用：MongoDB 主、Elasticsearch 處理 full-text search

容量規劃要點

1. Shard key 設計是命脈：

跟 DynamoDB partition key 同樣關鍵
不均勻 → hot shard、實際容量達不到名義
4.4+ 可以 reshard、但仍是大手術

2. Replica set 是 HA 基礎：

至少 3 個 member（1 primary + 2 secondary）
secondary 可 read（read preference）但要注意 lag
failover 通常 < 30 秒

3. Atlas managed 服務：

提供 auto-scaling、auto-backup、跨雲部署
Tier 從 M0（free）到 M700（高階）
Atlas Online Archive 自動把舊資料移到便宜 storage

4. Index 限制：

單 collection 最多 64 個 index
compound index 有順序敏感（{a:1, b:1} 跟 {b:1, a:1} 不同）
TTL index 自動 expire 過期 document

5. Change streams（CDC）：

4.0+ 提供原生 change streams
對接 Kafka / event bus 做 event sourcing

Anti-recommendation 與升級路由

MongoDB 的 schema flexibility 會降低早期建模成本，也會把 schema governance 延後到 production。這一段先說何時維持 document model，再說何時升級 Atlas、sharding、Cosmos DB、DynamoDB 或 SQL。

機制 / 路線	維持簡單設計的條件	升級訊號	主要引用路徑
單一 replica set	document size 穩定、working set 可控、primary 寫入足夠	storage / write / working set 接近上限、failover 演練不足	Replication Lag、RPO
Atlas managed	團隊仍能管理 backup、upgrade、monitoring 與 scaling	DBA / SRE 責任想轉交平台、跨雲部署與 backup 成為主要壓力	Audit Log、Secret Management
Sharded cluster	single replica set 還能承擔容量與維護窗口	shard key 穩定、tenant / user / region 可分、hot shard 可觀測	Database Sharding、Hot Partition
Cosmos DB MongoDB API	Azure 只是部署選項，原生 MongoDB 行為仍重要	Azure global distribution、multi-region write 或 RU governance 成主題	Cosmos DB vendor
DynamoDB / KV	query 仍需要 document traversal 與 aggregation	access pattern 固定、sub-10ms p99、connection-free scaling 成主題	DynamoDB vendor
PostgreSQL	document 是主要資料形狀	JOIN-heavy、transaction-heavy、schema 約束是主要價值	PostgreSQL vendor

MongoDB 的簡單路徑是先把 document boundary 寫清楚。資料可以彈性演進，但 application 仍要知道哪些欄位是正式契約、哪些欄位只是相容期，並用 validation、migration 與 data quality check 管住版本漂移。

Sharding 的升級路徑要等 shard key 與 query shape 足夠穩定。過早切 shard 會把 aggregation、transaction 與 index 成本提前放大；過晚切 shard 則會讓 resharding、chunk migration 與 balancer 壓力進入 production 高峰期。

Deep article（已完成）

本批 6 篇 deep article 已完成、覆蓋 MongoDB 從 schema 設計到 production 跨層架構的核心 production 議題：

主題	文章	對應 production 議題
Schema contract 該放 DB 層 validator 還是 app 層 abstraction	schema-design-pattern	Toyota polymorphic governance、Forbes abstraction layer
Shard key 選型 + 單 cluster vs 多 cluster blast radius	shard-key-selection	Toyota 20 DB blast radius、跟 DynamoDB 可逆性對比
Read preference + causal session 跟 cache 層 freshness token	replica-set-read-preference	DB 層 + cache 層讀後一致性兩層合用
Aggregation pipeline 順序 / index / memory boundary	aggregation-pipeline-optimization	report dashboard 跑爆 primary 的 anti-pattern 治理
Change streams resume token + Kafka connector 治理	change-streams-kafka	at-least-once 語義 + idempotency + resume token 過期防護
Driver × deployment × cache × predictive scaling 三層協作	connection-management-and-cache-layer	Coinbase mongobetween + freshness token + ML 預測擴容三件套

跨 vendor entry：先看 DB3 vendor selection（MongoDB / DynamoDB / Cosmos DB 三方選型 + workload shape 前置判讀），再進本 vendor 的 deep article。

後續擴充（仍待補）

Index 設計跟覆蓋
從自管 MongoDB 遷到 Atlas
從 MongoDB 遷到 Cosmos DB MongoDB API（保留 document model）
從 MongoDB 遷到 DynamoDB（access pattern 需要重設計）
Queryable encryption（CSFLE）

案例對照

案例	跟 MongoDB 的關係
9.C30 Microsoft 365	從 MongoDB 遷到 Cosmos DB MongoDB API、planet-scale analytics
9.C36 Coinbase	MongoDB 為主資料層、自建 mongobetween 解決 Ruby 連線爆炸、users 服務 1.5M reads/sec
9.C37 Forbes	自管 MongoDB → Atlas on GCP、6 個月遷完、build 25→9 分鐘、120M MAU
9.C38 Toyota Connected	Atlas 撐 900 萬車 telematics、月 180 億 transaction、緊急訊號 3 秒內到 agent

MongoDB case 的讀法分三組：

作為 production 主角持續演進（Coinbase、Toyota Connected）：document model 撐住核心 OLTP / IoT、配 connection proxy / cache / event-driven 處理擴展周邊。
自管 → managed 遷移（Forbes）：同 document model、換託管模式、ROI 集中在 DBA 責任轉移跟跨雲彈性、不是性能改善。
遷出 MongoDB 保留 API（Microsoft 365）：document model 保留、底層換到 Cosmos DB MongoDB API、換取 Azure global distribution。

讀 case 時要區分 MongoDB 在「主角 / 遷入 / 遷出」三種位置的差異，三種位置揭露的工程議題完全不同。

常見陷阱

schema 長期 schema-less：production 出現 data inconsistency、難 query
shard key 用 _id（自增）：寫入全集中在最後一個 shard
$lookup 過度使用：跨 collection JOIN-heavy workload 應在 schema design 時 denormalize 或回 SQL
index 太多：寫吞吐被拖垮、定期 review 未用 index
secondary read 不檢查 lag：用戶讀到 stale data
不規劃 Atlas tier upgrade 路徑：流量上來才發現 tier 跟不上、緊急升級費用高

下一步路由

完整 T1 對照：01-database vendors index
平行：Cosmos DB vendor（MongoDB API replacement）、DynamoDB vendor（KV alternative）
上游：1.2 schema design、1.10 KV / Document DB 容量規劃
下游：1.12 大規模 DB 遷移實戰（MongoDB 遷出範例）
跨模組：9.6 容量規劃模型、9.4 Saturation Discovery（shard key 跟 hot shard）
官方：MongoDB Manual、MongoDB Atlas

資料庫大版本升級

Fri, 26 Jun 2026 00:00:00 +0000

資料庫大版本升級是所有升級類型中風險最高的一種，因為資料庫承載的是不可重建的狀態。Runtime 升級（PHP 5.6→8.x）改壞了可以切回舊版本重新部署（切換 PHP 版本即可回退）；平台遷移（共享主機→雲端）改壞了可以把 DNS 切回去（TTL 期間內生效）。資料庫升級改壞了，回退手段是從備份還原——而還原需要時間，還原期間服務不可用，且還原點之後的寫入會遺失。這個不對稱決定了資料庫升級的操作模式：每一步都需要驗證通過才進下一步，且每一步都有明確的回退路徑。

升級前的相容性評估

大版本升級不只是換一個二進位檔——新版本可能改變 SQL 行為、儲存格式、認證方式與預設值。在動任何生產資源之前，先在本地或測試環境把相容性問題找出來。

MySQL 5.7 → 8.0 的常見破壞性變更

變更項	影響	檢查方式
`GROUP BY` 隱式排序移除	依賴 `GROUP BY` 順序的查詢結果可能改變	搜尋沒有 `ORDER BY` 的 `GROUP BY` 查詢
預設字元集 utf8 → utf8mb4	欄位長度與索引大小計算改變，索引可能超過限制	檢查 `VARCHAR(255)` + 唯一索引的欄位
認證方式改為 caching_sha2	舊版 client / driver 可能無法連線	確認應用程式的 MySQL driver 版本支援 caching_sha2_password
保留字新增（RANK、ROW_NUMBER）	用這些字當欄位名或別名的查詢會報語法錯	`grep -rn "RANK\|ROW_NUMBER\|GROUPS\|CUME_DIST" --include="*.sql"`
JSON 函式行為變更	`JSON_MERGE` 改名為 `JSON_MERGE_PRESERVE`、行為語意不同	搜尋 `JSON_MERGE` 呼叫

PostgreSQL 大版本升級的檢查點

PostgreSQL 的大版本升級相對穩定，但仍有需要確認的項目：extension 版本是否跟新 PostgreSQL 版本相容（特別是 PostGIS、pg_partman、timescaledb 這類複雜 extension）、pg_upgrade 的 --check 模式可以在不實際升級的前提下驗證相容性。

1# PostgreSQL: 升級前 dry-run 檢查
2pg_upgrade --old-datadir /var/lib/postgresql/13/main \
3           --new-datadir /var/lib/postgresql/16/main \
4           --old-bindir /usr/lib/postgresql/13/bin \
5           --new-bindir /usr/lib/postgresql/16/bin \
6           --check

應用程式層的查詢相容性

把應用程式的所有 SQL 查詢（ORM 產生的也算）對新版本跑一遍。重點是行為變更而非語法錯誤——語法錯誤會立刻報錯、容易抓；行為變更（排序結果不同、型別轉換規則不同）不會報錯、但結果錯誤。

1# MySQL 升級前檢查工具
2mysqlcheck --all-databases --check-upgrade
3mysql_upgrade --upgrade-system-tables --dry-run

ORM 和 database driver 也要確認版本支援。PHP 的 mysqli 在 PHP 7.4+ 預設支援 caching_sha2_password、但舊版不支援。Node.js 的 mysql2 原生支援、但 mysql（舊套件）不支援。Python 的 mysqlclient 1.4+ 支援。

備份：升級前的保險

升級前的備份不是日常備份——它是一份明確的、經過驗證的、標記為「升級前保險點」的快照。

備份操作

1# MySQL: 完整 dump（InnoDB 用 --single-transaction 避免鎖表）
2mysqldump --all-databases --single-transaction --routines --triggers \
3  --set-gtid-purged=OFF > pre-upgrade-$(date +%Y%m%d-%H%M).sql
4
5# PostgreSQL: 完整 dump
6pg_dumpall > pre-upgrade-$(date +%Y%m%d-%H%M).sql

RDS 環境：在升級操作前手動建立 snapshot，而非依賴自動備份。自動備份在升級過程中可能被新的快照覆蓋，手動 snapshot 不會被自動清除。

1aws rds create-db-snapshot \
2  --db-instance-identifier mydb-prod \
3  --db-snapshot-identifier pre-upgrade-$(date +%Y%m%d)

備份驗證

備份存在不等於備份可用。驗證方式是把備份還原到一台獨立的測試實例、確認資料完整：

1# 還原到測試實例
2mysql -h test-instance -u admin -p < pre-upgrade-20260626-1400.sql
3
4# 驗證關鍵表的 row count
5mysql -h test-instance -e "SELECT COUNT(*) FROM orders; SELECT COUNT(*) FROM users;"

記錄還原時間：「從這份備份還原到可服務狀態需要 N 分鐘/小時」。這個數字是升級失敗時的停機時間下限——管理層需要這個數字來評估升級的風險。

平行驗證策略

在生產環境切換之前，先在新版本的平行環境上跑完所有驗證。平行驗證的目標是讓切換那一刻的風險降到最低——切換時已經知道新版本在相同資料和相同負載下的行為。

建立平行環境

方式	適用情境	資料同步方式
Read replica + 版本升級	RDS 環境、支援跨版本 replica	RDS 原生複寫
Logical replication	需要跨大版本	pg_logical / binlog → 新實例
Dump / restore	任何環境、資料量可控	一次性 dump + 增量 binlog 回放

驗證項目

項目	方法	通過標準
應用程式測試套件	對新版本實例跑完整測試	0 failure
查詢效能	對比兩個版本的 slow query log	p99 延遲無顯著退化（<10% 差異）
資料一致性	關鍵表 row count + checksum	完全一致
連線行為	應用程式連新版本、觀察連線池	無 authentication failure
備份還原	從新版本做一次 dump + restore	還原成功、資料完整

平行驗證至少跑一週。時間越長、覆蓋到的邊界情境越多——月結批次、週期性報表、低頻排程任務都可能觸發只在特定條件下才出現的相容性問題。

切換策略

切換策略的選擇取決於三個變數的取捨：操作複雜度、停機時間、回退速度。

In-place 升級

直接在原實例上升級版本。RDS 的操作是修改 engine version、等待升級完成。

停機：升級期間實例不可用（MySQL 5.7→8.0 在 RDS 上約 10-30 分鐘，視資料量而定）
回退：從 pre-upgrade snapshot 還原，需要 snapshot restore 時間（分鐘到小時級）
適用：可接受計畫性停機的環境、資料量不大

Blue-green 切換

在新版本上建立獨立實例、透過 replication 同步資料、切換應用程式的連線端點。

停機：接近零（DNS TTL 或 endpoint 切換的傳播時間）
回退：把連線端點切回舊實例，舊實例持續運行
複雜度：需要維護兩個實例的同步、切換時要處理複寫延遲
適用：不能接受停機的 production 環境

RDS 從 2022 年開始提供原生的 Blue/Green Deployments 功能，簡化了同步與切換的操作：

1aws rds create-blue-green-deployment \
2  --blue-green-deployment-name mydb-upgrade \
3  --source arn:aws:rds:ap-northeast-1:123456789012:db:mydb-prod \
4  --target-engine-version 8.0.35

Read replica 升級後提升

建立指定新版本的 read replica，replica 同步完成後提升為獨立實例，應用程式切換連線。

停機：提升 replica 的幾秒 + 連線切換
回退：舊 primary 仍在，切回即可
限制：不是所有版本組合都支援跨版本 replica

選型判準

考量	In-place	Blue-green	Replica 提升
操作複雜度	低	中	中
停機時間	10-30 分鐘	接近零	幾秒
回退速度	慢（snapshot restore）	快（切回舊端點）	快（切回舊 primary）
成本	最低	升級期間雙倍	升級期間雙倍

升級後的驗證與監控

切換完成後的 48-72 小時是觀察期。這段時間舊實例保持可用狀態，直到確認新版本穩定才退役。

切換後立即驗證

應用程式的所有關鍵路徑可正常操作（登入、查詢、寫入、交易）
連線池行為正常（沒有持續的 authentication failure 或 connection reset）
排程任務（cron job、背景 worker）正常連線並執行

效能監控

比較升級前後的關鍵指標：

1# 觀察升級後的 slow query 數量
2mysql -e "SHOW GLOBAL STATUS LIKE 'Slow_queries';"
3
4# 比較 p99 延遲（需要 application-level metrics）
5# CloudWatch: DBInstanceIdentifier → ReadLatency, WriteLatency

升級後效能退化的常見原因：optimizer 行為改變（新版本選了不同的執行計畫）、buffer pool 冷啟動（升級後快取是空的、前幾小時延遲偏高是正常的）。如果 48 小時後延遲仍未回到基線，檢查 slow query log 找出退化的具體查詢。

舊實例退役

觀察期結束、新版本確認穩定後：

停止舊實例的 replication（如果仍在同步）
保留舊實例的 final snapshot
刪除舊實例（先確認 deletion protection 關閉是刻意的、不是誤操作）
更新文件：記錄升級日期、版本號、升級過程中遇到的問題

時程與管理層溝通

升級類型	典型時程	停機窗口
Minor version（5.7.x → 5.7.y）	2-4 小時計畫維護	10-15 分鐘
Major version（5.7 → 8.0）in-place	1-2 週（評估 + 驗證 + 切換 + 監控）	10-30 分鐘
Major version blue-green	2-3 週（含平行運行期）	接近零

向管理層說明時的關鍵框架：資料是不可重建的，升級策略是「在旁邊建一個新版本的資料庫、驗證它在相同資料和相同負載下行為正確、然後切過去」。多出來的時間買的是「切換那一刻的信心」和「出問題時能快速回退」——兩者對生產服務都是必要的保險。

跨分類引用

→ 升級的共通操作框架：四階段模型的通用說明
→ Stateful 資源保護與依賴表達：multi-AZ、備份、deletion protection 的 IaC 描述
→ 無 SSH 環境的資料庫備份與變更管理：接手環境的資料庫備份策略

1.4 Repository Adapter 實作

Wed, 13 May 2026 00:00:00 +0000

資料庫倉儲轉接層（repository adapter）的核心責任是把應用層語意轉成資料庫可執行操作、並把資料庫錯誤回譯成業務可判讀結果。它是 domain model 和 SQL model 之間的邊界層、不承擔業務流程編排。

本章從 hexagonal architecture 的 port / adapter 模式出發、處理 mapping、error translation、testing 跟跨服務 transaction 等實作議題。讀完後讀者能設計一個可演進、可測試、可換 DB 的 repository 層。

Port / Adapter 邊界

Repository 在 hexagonal architecture（也叫 ports & adapters）中是 outbound port 的實作。

Port（domain layer 定義）：

抽象 interface / protocol、描述 領域語意
不暴露 SQL、不暴露 DB 細節
例：type OrderRepository interface { Find(id) Order; Save(order); ... }

Adapter（infrastructure layer 實作）：

實作 port、負責跟具體 DB 對話
翻譯 domain entity ↔ DB row
翻譯 DB error → domain error
例：type SQLOrderRepository struct { db *sql.DB }

為什麼這層抽象有價值：

可替換性：DB 換 vendor 時、domain layer 不必改
可測試性：在 domain layer test 時可注入 memory fake、不必起 DB
語意清楚：domain 不被 SQL 細節污染、business rule 集中
演進可控：schema 改動時、只在 adapter 改 mapping、不擴散到全程式

詳見 Repository Adapter 卡片。

Adapter 三個核心責任

adapter 接收應用層輸入、負責三件事：查詢與命令組裝、row mapping、錯誤翻譯。業務規則判斷留在 service / usecase 層、adapter 聚焦在資料持久化語意與資料庫行為。

邊界清楚的好處是演進可控。schema 調整時、只需要在 adapter 收斂欄位映射與查詢變更、不用把 SQL 細節滲透回 domain 層。

1. 查詢與命令組裝

把 domain 操作翻成具體 SQL / NoSQL query。實作層級有取捨：

Raw SQL：完全控制、易追 query plan、但容易拼錯字、易 SQL injection
Query builder（GORM Build、Knex、SQLAlchemy Core）：型別安全、不寫字串、但學 DSL
ORM（GORM、SQLAlchemy ORM、Active Record）：高抽象、自動 mapping、但隱藏細節、容易產生 N+1

詳見下方「ORM vs Query Builder vs Raw SQL」段。

2. Row Mapping 與 Nullable Handling

row mapping 的責任是把資料庫欄位轉成穩定模型。欄位型別、時間格式、枚舉值、可空欄位都要有明確轉換規則。可空欄位需要顯式處理、避免把「缺值」誤當有效預設值。

Nullable handling 模式：

Optional type：Go sql.NullString、Java Optional、Rust Option、Python Optional[T]
Sentinel value：用特殊值代表 null（不推薦、易混淆）
Default fallback：null → 預設值（要明確、不要悄悄轉換）

資料模型演進時、新舊欄位可能共存。adapter 要支援過渡期讀寫相容、讓版本切換能分批進行。詳見 1.7 Schema Migration Rollout Evidence。

3. Error Translation

error translation 的責任是把底層錯誤分類成應用層可決策訊號。唯一鍵衝突、外鍵限制、交易衝突、連線逾時、都需要翻譯成可行動錯誤類型、而不是將原生錯誤字串直接外漏。

常見錯誤分類：

Domain error	SQL error 對應	應用層動作
`ErrAlreadyExists`	`unique_violation`（PostgreSQL 23505）	409 Conflict / 業務 retry
`ErrNotFound`	empty result set	404
`ErrConstraintFailed`	`foreign_key_violation`（23503）	400 Bad Request
`ErrConflict`	`serialization_failure`（40001）	retry with backoff
`ErrTimeout`	`query_canceled`（57014）/ context deadline	retry / circuit break
`ErrUnavailable`	connection refused / pool exhausted	circuit break / fallback

這層翻譯會直接影響重試、回退與事故判讀。分類越穩定、越能在 06/08 模組形成一致決策語言。

ORM vs Query Builder vs Raw SQL

選 mapping 工具是 repository adapter 的核心取捨。

Raw SQL

優勢：完全控制 query plan、易 tune
優勢：大規模 query 性能最好
限制：易拼錯字、IDE 支援差
風險：一不小心就 SQL injection（用 prepared statement / parameterized query）
適合：性能極限關鍵 / 複雜 query / 已有 SQL 專家團隊

Query Builder

主流工具：Knex（Node）、SQLAlchemy Core（Python）、jOOQ（Java）、sqlc（Go）、Diesel（Rust）。

優勢：型別安全、IDE 自動完成
優勢：不需要 ORM 的複雜度
優勢：仍可看到生成的 SQL
限制：學 DSL 成本
適合：中等複雜度 + 想要安全性 + 想看 SQL

ORM

主流工具：GORM（Go）、SQLAlchemy ORM（Python）、Active Record（Rails）、JPA / Hibernate（Java）、Entity Framework（.NET）、Prisma（TypeScript）。

優勢：CRUD 操作快速、boilerplate 少
優勢：自動 mapping、自動 transaction
優勢：migration 工具通常整合
限制：隱藏 SQL 細節、易產生 N+1 query
限制：複雜 query 反而比 raw SQL 難寫
風險：lazy loading 容易意外性能問題
適合：CRUD 為主的應用、團隊偏業務開發

選型決策

小團隊 + CRUD-heavy：ORM（快速 prototype、boilerplate 少）
中型 + 混合需求：Query Builder（安全 + 仍能寫複雜 query）
大型 + 性能極限：Raw SQL + Query Builder（複雜 query 用 raw、簡單用 builder）
microservice 私有 store：通常 Query Builder 為主（見 9.C23 Netflix 模式）

ORM 反模式

find() 隨手呼叫導致 N+1 query
lazy loading 在 view 層觸發 query
用 ORM 寫複雜 aggregation（應該 raw SQL）
不 eager load 關聯資料

Testing 策略

repository 是 infrastructure 層、test 策略不同於 domain layer。

Memory Fake（unit test 友善）

用 in-memory implementation 滿足 port interface
不必起 DB、快、可隔離
適合：domain layer test、test repository 的 呼叫者
反模式：用 memory fake test repository 本身（測不到實際 SQL 行為）

Integration Test（驗證真實 DB 行為）

用 testcontainers / Docker 起真實 DB（PostgreSQL / MySQL）
跑真實 SQL、抓真實 error
用 transaction rollback 隔離各 test
適合：test repository adapter 本身

Contract Test

驗證 adapter 對外語意穩定：同一輸入是否得到一致輸出、同一錯誤是否被穩定分類、同一查詢語意在 schema 演進後是否保持相容
測試重點是邊界語意覆蓋、資料庫產品特性覆蓋是另一件事
例：「unique 衝突必須回 ErrAlreadyExists」這條 contract、不管底層是 PostgreSQL / MySQL / SQLite 都成立

詳見 Contract 卡片跟 6.10 Contract Testing。

SQLite 作為 test DB

起 quick、無 external dependency
但 SQL dialect 跟 PostgreSQL / MySQL 有差異
適合：簡單 query 的 test、不適合 production-fidelity test
對應 SQLite vendor page

Transaction 傳遞

repository 操作通常要支援「我自己起 transaction」跟「在已有 transaction 內操作」兩種模式。

Pattern 1：repository 自己起 transaction：

1func (r *OrderRepo) PlaceOrder(ctx context.Context, order Order) error {
2    tx, _ := r.db.BeginTx(ctx, nil)
3    defer tx.Rollback()
4    // ... 操作 ...
5    return tx.Commit()
6}

問題：跨多個 repository 時無法共用 transaction。

Pattern 2：unit of work pattern：

1func (s *Service) PlaceOrder(ctx context.Context, order Order) error {
2    return s.uow.Do(ctx, func(tx Transaction) error {
3        s.orderRepo.Save(tx, order)
4        s.inventoryRepo.Decrease(tx, order.Items)
5        s.paymentRepo.Create(tx, order.Payment)
6        return nil
7    })
8}

把 transaction 從 repository 抽到 unit-of-work、跨 repository 共用。

Pattern 3：context-based transaction：

把 transaction 塞進 context
repository 從 context 拿 transaction（有 → 用、沒有 → 自己起）
Go 常用 pattern、但有「context 不該裝這種東西」的爭議

選擇邏輯：

簡單應用：pattern 1 夠用
跨 repository transaction：pattern 2 或 3
大型 application：pattern 2（最清楚）

詳見 1.3 Transaction Boundary。

Microservice 私有 Store 對應

現代 microservice 設計強調「每個 service 私有 DB」、不跟其他 service 共用。

對 repository adapter 的影響：

每個 service 自己的 schema、自己的 adapter
跨 service 不直接 DB query、要透過 API
transaction 不跨 service（用 Saga 或 outbox）
對應 9.C23 Netflix、9.C7 Lyft 100+ microservice

反模式：

共用 DB schema、不同 service 都 query 同一張表 → 強耦合、schema 改一個影響全部
跨 service 用 DB foreign key → 不能 enforce、會壞掉

Repository Adapter 五個常見變體

實務上 repository 不止「CRUD」這個樣態：

Pure CRUD repository：Find / Save / Delete、最簡單
Aggregate repository：操作 aggregate root、含 nested entities
Read model repository（CQRS）：專門 read、不 write
Event-sourced repository：存 events、不存 state
Cached repository：包一層 cache（pass-through、refresh-ahead）

實作時要明確選哪種、不要讓一個 repository 跨多種 pattern。

判讀訊號

訊號	判讀重點	對應動作
同一業務錯誤在不同路徑返回不同型別	error translation 分類漂移	收斂錯誤分類介面與 mapping
schema 變更後應用層出現大量 null 問題	nullable handling 規則不足	補顯式轉換與 fallback 規則
SQL 細節在 service 層大量出現	adapter 邊界被繞過	收斂資料操作入口到 repository
同一查詢在不同環境結果不一致	contract test 覆蓋不足	補跨環境合約測試與 fixture
事故排查時難以判斷重試與回退條件	錯誤分類無法對應決策	建立錯誤分類到 gate/incident 的映射表
N+1 query 在 ORM 環境下出現	lazy loading 反模式	改 eager loading 或換 query builder
跨 repository 的 transaction 不一致	transaction 沒共用機制	引入 unit-of-work pattern
Test 跑很慢、需要起 DB	test 沒分層	unit test 用 memory fake、integration 才用 DB

常見誤區

把 repository adapter 寫成「直接包 SQL 的工具函式」、容易讓業務規則與資料邏輯混雜。邊界失焦後、schema 演進與事故修復都會擴大影響面。

把資料庫錯誤原樣往上拋、也會讓上層決策不穩定。錯誤翻譯是可靠性控制面的必要前置。

把 ORM 當銀彈、忘了 SQL 還在背後。N+1 query、lazy loading 災難、複雜 aggregation 反而難寫 — 這些都是「過度信任 ORM 抽象」的後果。

把 memory fake 拿來 test repository 本身、不會抓到實際 DB bug。memory fake 是給 呼叫者 test 用的、不是給 repository test 用的。

案例對照

案例	repository / adapter 設計重點
9.C23 Netflix Aurora consolidation	microservice 私有 store、每個 service 自己 repository
9.C7 Lyft 100+ microservice	微服務私有 DB、跨 service 不直接 DB query
9.C20 Zomato	TiDB → DynamoDB、repository adapter 是換 DB 的關鍵抽象

案例回寫

adapter 邊界可用 3.C9 反例的資料一致性段落回寫。若事件中出現同一錯誤在不同路徑被不同方式處理、通常代表 adapter 的錯誤翻譯與契約分層不足。

這個案例主要支撐的是「錯誤分類與契約映射」判讀、不直接支撐 broker delivery 參數調整；若根因在 ack/retry 節奏、應回到 3.1/3.2。

回寫步驟是先盤點錯誤分類、再對齊重試與回退決策、最後把分類結果映射到 6.10 Contract Testing 與 Schema 演進的驗證欄位、讓發版前可先發現漂移。

跨模組路由

與 1.2 的交接：欄位與索引語意回到 schema design 與資料建模。
與 1.3 的交接：交易錯誤與重試語意回到 transaction 與一致性邊界。
與 1.12 的交接：cross-DB migration 時、repository 是 關鍵抽象 — 詳見大規模 DB 遷移實戰。
與 6.10 的交接：跨服務契約一致性回到 Contract Testing 與 Schema 演進。
與 8.19 的交接：資料層錯誤判斷與回退決策回到 Incident Decision Log。

下一步路由

平行：1.2 Schema Design、1.3 Transaction Boundary
下游：1.6 Database Migration Playbook / 1.12 大規模 DB 遷移實戰
跨模組：6.10 Contract Testing 與 Schema 演進 / 9.5 瓶頸定位流程
跨 vendor adapter 深入：DynamoDB single-table design（document KV adapter 邊界）、MongoDB schema design pattern（document adapter 的 ODM 取捨）、Cosmos DB MongoDB API vs SQL API（multi-API adapter 取捨）

CockroachDB

Wed, 13 May 2026 00:00:00 +0000

CockroachDB 是分散式 SQL、PostgreSQL wire protocol 相容、跨 region 強一致。設計理念接近 Spanner（線性化、跨 region quorum），但採 HLC + Raft 而非 TrueTime hardware，是 open source + 跨雲可用的全球 OLTP 選擇。

教學路線：Distributed SQL 與跨雲一致性

CockroachDB 服務頁的教學目標是把 PostgreSQL-like 介面背後的 range sharding、Raft replication、serializable transaction、leaseholder 與 region placement 說清楚。讀者讀完後要能判斷 distributed SQL 何時能取代自管 sharding，何時會把 latency 與 retry 壓力推回應用層。

學習段	核心問題	對應段落
Distributed SQL	SQL 介面如何藏住 range sharding 與 Raft replication	定位、容量特性
Serializable default	transaction retry、contention、latency 如何影響應用設計	容量規劃要點、Isolation Level
Region placement	multi-region table、leaseholder、survival goal 如何服務產品需求	適用場景、跟其他 vendor 的取捨
Migration pressure	從 PostgreSQL / MySQL 或自管 sharding 過來時要檢查哪些差異	預計實作話題、案例對照
替代路由	何時留 PostgreSQL、用 Spanner、Aurora DSQL 或 application sharding	不適用場景、下一步路由

定位：Spanner 的開源 / 跨雲替代

CockroachDB 跟 Spanner 解決同一個問題（跨 region 強一致 SQL）、但定位不同：

Spanner：GCP managed service、用 TrueTime hardware
CockroachDB：開源（雙授權）、可自管 + Cockroach Cloud、跨 AWS / GCP / Azure / on-prem、用 HLC + Raft

選 CockroachDB 的核心訴求：需要跨 region 強一致 SQL + 想避免雲商 lock-in、想自管或跨雲部署。

詳見 1.11 全球分散式 OLTP 的 CockroachDB 段。

容量特性

節點即容量單位：

跟 Spanner 同樣設計、節點數量決定容量
每節點承擔 query + storage + replication
線性擴展（理論）、實際依 query pattern

跨 region 配置：

multi-region survival goal（zone-level / region-level）
跨 region quorum 必要、決定 latency
跟 Spanner 同樣的物理限制（跨洲 100ms+）

Replication：

Raft consensus per range
預設 3-replica
可配置每個 region 不同 replica count（Survival Goals）

適用場景

1. 需要跨 region 強一致 SQL + 跨雲：

multi-region active-active write
GCP-only（Spanner）或 AWS-only（Aurora DSQL）和部署策略不合
對應 1.11 全球分散式 OLTP 的選型決策

2. PostgreSQL wire protocol 相容路徑：

既有 PostgreSQL 應用想升級到分散式
應用層改動小（保留 PostgreSQL driver / ORM）
注意：PostgreSQL 相容要以實際 query、extension 與 migration test 驗證

3. 自管 on-prem / hybrid：

金融 / 受監管產業需要 on-prem
Spanner / Aurora DSQL 以 cloud service 為主
CockroachDB 可自管

4. 想避免單一 vendor 全球分散式 lock-in：

開源 + 跨雲、可遷移性高
但企業版功能要付費（CockroachDB Cloud 或 Enterprise license）

不適用場景

1. single-region OLTP 夠用：

90% 場景 PostgreSQL / Aurora 已夠
CockroachDB 有分散式 overhead（每個寫經 Raft）
替代：PostgreSQL、Aurora、MySQL

2. 極端高吞吐 single-query：

CockroachDB 寫入有 Raft 開銷、單機吞吐 < PostgreSQL
整體吞吐靠 scale-out 達成、單一 query latency 較高

3. 跨洲低延遲（< 50ms）：

跟 Spanner 同樣物理限制
跨洲 quorum 100ms+ 是物理成本

4. 預算極敏感的小 workload：

CockroachDB 至少 3 個節點（Raft quorum）
跟 single-instance PostgreSQL 比較貴

5. 需要 PostgreSQL 進階特性：

部分 PostgreSQL extension 或行為需要替代方案
partial index、exclusion constraint 等可能缺

跟其他 vendor 的取捨

vs Spanner（GCP）：

CockroachDB：開源、跨雲、可自管
Spanner：GCP-only、TrueTime hardware、Google 規模驗證
選 CockroachDB：跨雲 / on-prem 需求
選 Spanner：GCP 生態 + managed operation + Google 規模驗證的成熟度

vs Aurora DSQL（AWS 2024）：

CockroachDB：跨雲、生產驗證較久
Aurora DSQL：AWS-only、serverless、新（2024）
選 CockroachDB：跨雲、想避免 AWS lock-in
選 Aurora DSQL：AWS 生態 + 已用 PostgreSQL + serverless 訴求

vs TiDB：

CockroachDB：PostgreSQL wire、英語 / 歐美生態深
TiDB：MySQL wire、亞洲生態深、HTAP（OLTP + OLAP 同庫）
選 CockroachDB：PostgreSQL 應用、跨雲
選 TiDB：MySQL 應用、需要 OLAP 整合、亞洲市場

vs PostgreSQL（傳統）：

CockroachDB：分散式、跨 region 強一致
PostgreSQL：single-primary、跨 region 是 async replication
選 CockroachDB：需要跨 region 強一致
選 PostgreSQL：single-region 夠用（90% 場景）

vs Aurora（single-region scaling）：

CockroachDB：multi-region 強一致
Aurora：single-region scaling、跨 region 是 async Global Database
選 CockroachDB：需要 multi-region write
選 Aurora：single-region scaling + AWS 生態

vs MySQL + Vitess（self-managed distributed MySQL）：

CockroachDB：PostgreSQL wire、transparent sharding（range-based）、跨 region 強一致內建
MySQL + Vitess：MySQL wire、application 層配 keyspace + shard key、跨 region 靠 application + async replication
選 CockroachDB：PostgreSQL 應用 + transparent multi-region + 想避開 Vitess operation burden
選 MySQL + Vitess：MySQL 應用 + 有 DBA 養 Vitess + 已是 YouTube / Slack 規模

容量規劃要點

1. Node count + zone / region 配置：

至少 3 個節點（Raft quorum）
multi-region 通常 9+ 節點（3 region × 3 replica）
Survival Goals 配置決定每 region 復原能力

2. Range（CockroachDB 的 partition）：

跟 DynamoDB partition、Spanner split 同類
CockroachDB 自動 split 大 range
application 主要管理 query locality、transaction retry 與 region placement

3. Locality 配置：

跟 Spanner 一樣可以指定 voting region
寫入 locality 影響跨 region latency

4. Backup / restore：

CockroachDB 原生 backup 支援 cluster-level snapshot
增量 backup 支援
注意：incremental backup chain 可能很長、定期 full backup

5. Self-managed vs Cockroach Cloud：

Self-managed：需要 ops team、可跨雲 / on-prem
Cockroach Cloud：managed、跨 cloud（AWS / GCP / Azure）、可考慮 serverless tier

Deep article（已完成）

本批 deep article 覆蓋 CockroachDB 從 consensus 機制、multi-region 配置到 managed 形態選型的核心 production 議題：

主題	文章	對應 production 議題
HLC + per-range Raft、leaseholder、寫入 latency 結構	hlc-raft-consensus	DoorDash Aurora 撞牆訊號（1.636 M QPS）、Netflix 380+ artery of small DBs 容量規劃顆粒
SURVIVE ZONE / REGION FAILURE 倒推、業務 SLO 決定副本拓樸	survival-goals	Hard Rock RPO=0 倒推、Netflix Gaming 48-node 跨 4 region「為求 survival 而非 latency」反直覺
Serializable default、application 必須包 retry loop、SAVEPOINT 語法	transaction-retry-pattern	PG → CockroachDB application contract 重塑、5 種 retry failure mode（跨 case 合成 frame）
REGIONAL BY ROW / TABLE / GLOBAL、跨州合規 + 邏輯一個 cluster	locality-aware-schema	Hard Rock 跨 8 州 sportsbook + AWS Outposts、Outposts 是合規工具不是 latency 工具反直覺判讀
三種 table locality 的選擇與 latency / 一致性取捨、選錯重配代價	multi-region-table-config	Netflix multi-region 動機為 survival 非 latency、Hard Rock row-level 歸屬 + 單一邏輯 cluster
Cockroach Cloud serverless vs dedicated、RU 計費、冷啟動 / scale	cloud-serverless	Netflix 需 Platform Team 反向 = managed 入口、Hard Rock 可預測賽季擴縮 vs serverless 突發甜蜜區
Distributed SQL 三選一決策樹：撞牆訊號分型 + 七問題	aurora-dsql-spanner-decision-tree	DB4 cross-vendor entry：DoorDash / Netflix / Hard Rock driver path 識別 + sizing barrier

DB4 cross-vendor entry：先看 aurora-dsql-spanner-decision-tree 識別 driver path、再進個別 vendor 深度。

multi-region-table-config 與 locality-aware-schema 切分：前者主寫「三種 table locality 怎麼選 + 選錯重配代價」、後者主寫「schema 怎麼配合 locality 設計（合規 boundary、跨州業務邏輯、Outposts 拓樸）」、兩者互補、survival goal 機制以 survival-goals 為 SSoT。

後續擴充（仍待補）

PostgreSQL 相容性 audit（partial index / extension / SQL 行為 gap 清單）
Backup / restore 與 PITR 操作（incremental chain 管理、restore 演練）
Changefeed / CDC 配置（CockroachDB 原生 CDC 到 Kafka / sink）

「從 PostgreSQL 遷到 CockroachDB（playbook）」已由 PostgreSQL → CockroachDB migration 涵蓋、不再列為待補。

Anti-recommendation 與升級路由

CockroachDB 的 PostgreSQL-like 介面會降低導入門檻，但 distributed SQL 的成本會出現在 transaction retry、range lease、multi-region latency 與操作拓樸。這一段先說何時維持 PostgreSQL / Aurora，再說何時升級 CockroachDB、Cockroach Cloud、Spanner、Aurora DSQL 或 Vitess。

機制 / 路線	維持簡單設計的條件	升級訊號	主要引用路徑
PostgreSQL / Aurora	single-region primary、async DR、read replica 已滿足需求	multi-region write、region failure survival、跨雲部署是硬需求	PostgreSQL vendor、Aurora vendor
CockroachDB single-region	需要水平擴容或 future multi-region，但目前在單區運作	Raft overhead 讓成本高於 PostgreSQL，且沒有 region requirement	Distributed SQL
CockroachDB multi-region	跨雲 / on-prem、PostgreSQL wire、strong consistency 是主需求	跨洲 p99 目標過低、transaction retry 影響 user flow	Quorum、Latency Budget
Cockroach Cloud	團隊仍能自管 Raft、backup、upgrade、node failure	想把 operation transfer 給 vendor	RTO、RPO
Spanner	跨雲或自管是硬需求	GCP managed、TrueTime 成熟度、Google scale evidence 是主訴求	Spanner vendor
Aurora DSQL	跨雲 / on-prem 是硬需求	AWS-only、serverless、PostgreSQL 相容與 AWS operation model 是主訴求	PG → Aurora DSQL Migration
MySQL + Vitess	PostgreSQL-like SQL 與 strong consistency 是主需求	MySQL ecosystem、application sharding 與 Vitess ops 已成熟	MySQL Vitess Sharding、Database Sharding

CockroachDB 的簡單路徑是先證明 distributed SQL 的價值大於 retry 與 latency 成本。若 workload 仍是 single-region OLTP，PostgreSQL / Aurora 通常提供更低成本；若跨 region 寫入與一致性是產品承諾，CockroachDB 才成為主要候選。

Transaction retry 的升級路徑要進入 application contract。Serializable default 能保護一致性，但 retry 會把 idempotency、timeout、user-visible latency 與 workflow compensation 帶回應用層；這些條件要在 migration playbook 前先盤點。

已知 limitation 與後續路由

CockroachDB overview 目前完成 distributed SQL 判斷。下一輪 deep article / playbook 應補 HLC + Raft、range / leaseholder、multi-region table locality、transaction retry pattern、PostgreSQL compatibility audit、Cockroach Cloud operation 與 PostgreSQL → CockroachDB migration。

案例對照

CockroachDB 在 09 案例庫已有三條直接 case 軸線（OLTP 寫入擴展、polyglot 補位、合規邊界），另外兩條對比參考軸線（Spanner 設計理念、受監管金融）一併保留。

Direct case（CockroachDB 為主角）

案例	主要工程議題
9.C39 DoorDash	Aurora Postgres single-primary 1.6 M QPS 撞牆 → multi-primary 解寫入
9.C40 Netflix	380+ cluster 艦隊、Cassandra 不夠用的 transactional workload 補位
9.C41 Hard Rock Digital	AWS Outposts + 跨州單一邏輯 DB、Wire Act 合規 + 賽季型擴縮容

對比參考案例

案例（對比參考）	跟 CockroachDB 的關係
9.C10 Spanner	設計理念對標、CockroachDB 是開源版本
9.C14 Standard Chartered	受監管金融、CockroachDB 可作為 on-prem 替代候選

CockroachDB direct case 的讀法是「寫入擴展（DoorDash）→ polyglot 補位（Netflix）→ 合規邊界（Hard Rock Digital）」三條軸線；對比案例則提醒讀者：Spanner 提供 global consistency 的成熟對照，受監管金融類案例提醒部署位置、合規邊界與自管能力常和一致性需求同時決定 vendor。

反向 sibling 路由

CockroachDB 的反向 sibling 路由用來把 PostgreSQL 相容性和 distributed SQL 責任拆開。若讀者從 PostgreSQL 章節過來，先讀 PostgreSQL → CockroachDB migration；若只是要 managed SQL 與 storage autoscale，先回 Aurora vendor；若要 Google Cloud 原生 external consistency 與 fully managed control plane，再對照 Spanner vendor。

這條路由的判準是「應用是否能承擔 distributed transaction 的語意差異」。SQL dialect 相近只降低 migration entry cost，真正的交付風險在 transaction retry、hot range、survival goal、backup restore 與 locality design。

常見陷阱

single-region 用 CockroachDB：浪費分散式開銷、PostgreSQL 便宜很多
跨洲 active-active 期待低延遲：物理限制、跨洲 quorum 100ms+
PostgreSQL extension 假設：部分 extension 或 SQL 行為需要替代方案，應用要驗證
不規劃 Survival Goals：default 配置可能不符合 RTO / RPO 需求
backup chain 過長：incremental 不 full、recovery time 變長

下一步路由

完整 T1 對照：01-database vendors index
平行：Spanner vendor、Aurora vendor、PostgreSQL vendor
上游：1.11 全球分散式 OLTP — 完整選型對比
跨模組：9.6 容量規劃模型、9.12 SLO 與 Performance Budget
Last reviewed：2026-05-22（PostgreSQL compatibility / survival goal / managed offering 屬時間敏感 claim）
官方：CockroachDB Documentation

1.5 攻擊者視角（紅隊）：資料層弱點判讀

Wed, 13 May 2026 00:00:00 +0000

資料層紅隊判讀的核心目標是確認「誰能讀到什麼資料、資料會從哪裡流出、錯誤狀態如何回復」。這裡的紅隊指攻擊者視角的風險檢查：從可被濫用的路徑反向檢查資料邊界。database 一旦承擔 source of truth、弱點就同時影響正確性、隱私與可恢復性。

本章聚焦在 資料層（DB 自身）的攻擊面、跟 7 資安與資料保護模組的網路 / 身份 / 加密層形成互補。讀完後讀者能盤點：DB 上有哪些 攻擊路徑、哪些 外洩管道、哪些 偵測訊號。

資料層弱點的主要軸線

資料層弱點可分成三條軸線：存取邊界、狀態邊界、資料流邊界。

存取邊界：看 authorization 與 tenant boundary。哪些 user / role / tenant 可以 read / write 哪些資料。 狀態邊界：看 transaction 與 isolation level。同時讀寫時的 race condition、TOCTOU。 資料流邊界：看查詢結果、匯出、備份、觀測與支援工具的資料暴露路徑。

三條軸線各有典型攻擊模式、要分別檢查。

DB 攻擊面的外圍層次

DB 攻擊面分三層、每層有典型攻擊向量跟防禦邊界、紅隊盤點要逐層檢查。傳統做法常把 90% 精力放在最內層 DB、外圍兩層的失守會讓內層防禦變成無效投資。

Layer 1：DB 本身（最直接、防禦最成熟）— SQL injection、authentication、authorization、RLS 都在這層。

Layer 2：DB 周邊產品（最常被忽略）— file transfer service（MFT）、API gateway、search proxy、admin console 都「接 DB」、且通常 perimeter 設定比 DB 鬆。對應 MOVEit 2023 — MOVEit Transfer 是 file transfer 產品、漏洞讓攻擊者直接存取後端資料、屬於 edge-exposure 類別的批量利用事件。判讀重點：任何「接 DB」的產品都屬於 DB 攻擊面、要盤 所有上游 caller 產品。類似結構還有 GoAnywhere MFT 2023、Progress WS_FTP 2023。

Layer 3：認證信任根（最致命、最少人想到）— signing key、token issuer、IAM federation 都決定「誰能宣稱是哪個 user」。對應 Microsoft Storm-0558 — 簽章金鑰外洩後、攻擊者偽造可被驗證的身分權杖、application 層的 BOLA / BOPLA / RLS 都會在底層 trust 失守時被繞過。判讀重點：DB authorization 接受上游認證結果、上游 trust 失守時、DB 層的精緻設計就被旁路掉。

設計含義：紅隊盤點順序是由外向內。先盤「誰能通過認證」（trust root）、再盤「通過認證後能打到哪些產品」（caller surface）、最後盤「打到 DB 後能做什麼」（DB authorization）。三層任一失守、後續層的防禦投資都會被旁路。

攻擊模式 1：注入類

SQL Injection：

經典攻擊、把 user input 拼進 SQL 字串
防禦：parameterized query / prepared statement、絕不字串拼接
二階注入：input 已存進 DB、後續 query 時才觸發 — 比一階更難偵測

NoSQL Injection：

MongoDB / DynamoDB 也可能被注入（不同形式）
MongoDB：{$where: ...} operator injection、{$ne: null} 跳過 auth
DynamoDB：FilterExpression 注入（少見、需要特定 application 結構）
防禦：白名單 user input、不直接組 query operator

ORM Injection：

即使用 ORM、Raw() / Exec() 等 escape hatch 仍能注入
用 where clause 接 user input 不過濾、ORM 不會自動防
防禦：永遠 parameterized、Raw() 必須 review

Second-order Injection：

第一次寫入時看起來安全、第二次讀出來時觸發
例：username 帶 SQL fragment、寫入時 escape、後續 admin 查詢時不 escape
防禦：所有 DB output 都當 untrusted、不能依賴「寫入時的 escape」

真實事件對照：MOVEit 2023 mass exfiltration 是 SQL injection 升級成 mass data exfil 的代表性事件。Progress Software 的 MOVEit Transfer 是 file transfer 產品、漏洞讓未認證攻擊者直接打到後端 DB、跨上百家客戶持續外洩。判讀重點：file transfer 這類「次要產品」也接 DB、且因為通常 perimeter 設定鬆、變成最先被打的點。

對應 Attack Surface 卡片跟 7.3 entrypoint security。

攻擊模式 2：授權繞過類

BOLA（Broken Object Level Authorization）：

用戶 A 改 user_id 為 B 的請求、後端不檢查就回 B 的資料
最常見的 web app 漏洞（OWASP API Top 10 第 1 名）
防禦：每個 DB query 都帶 WHERE owner_id = current_user_id、不只信 URL parameter
對應 BOLA / IDOR 卡片

BOPLA（Broken Object Property Level Authorization）：

物件級檢查過了、但物件內 某些屬性 不該被存取 / 修改
例：用戶能更新自己 profile、但不該改 is_admin flag
防禦：應用層 allowlist 屬性、不是 deny-list
對應 BOPLA 卡片

Mass Assignment：

應用層直接把 request body bind 到 DB row、含未檢查欄位
例：Order.fromJSON(request.body) 自動 set is_admin_override 為 true
防禦：明確 allowlist 哪些 field 可從 request 來
對應 Mass Assignment 卡片

Multi-tenant Boundary Leak：

multi-tenant SaaS：tenant A 的 query 不該看到 tenant B 的資料
常見錯誤：忘了 WHERE tenant_id = ?、用 application 層而非 DB 層強制
進階防禦：Row-Level Security（PostgreSQL RLS）、由 DB 強制 tenant boundary

真實事件對照：Snowflake 2024 credential abuse 揭露 資料平台帳號沒強制 MFA 的代價、攻擊者拿到外洩 credential 後直接 query 多家客戶的 Snowflake account、大量外送資料。判讀重點：DB 認證 = 資料邊界、但雲端資料平台預設未必開 MFA、要主動 enforce。對應 Microsoft Storm-0558 紅隊版 — signing key 洩漏後攻擊者直接以任意 user 身份查任意 mailbox、application 層 BOLA / BOPLA 全部失效、因為攻擊者通過了底層 trust boundary。

攻擊模式 3：資料外洩類

Excessive Data Exposure：

API 回應比需要的多（內部欄位、PII、信用卡末四碼）
「前端會 filter」是反模式 — 攻擊者直接看 raw response
防禦：DTO / response schema 明確列哪些欄位可回、不要 SELECT *
對應 Excessive Data Exposure 卡片

Log / Trace 洩漏：

把 query 含 PII 直接寫進 log、log 進 SIEM、SIEM 給多人看
distributed tracing 把 query 跟 user_id 都記下來
防禦：log 前 redact、敏感欄位 mask、distributed tracing 的 attribute allowlist

Backup / Export 洩漏：

DB backup 沒加密、放公開 S3 bucket
客服 / BI 工具導出 CSV、檔案被搬到不該的地方
防禦：backup encryption、export audit、emit-once endpoint
真實事件對照：LastPass 2022 backup chain — 開發環境被入侵後、攻擊者沿著 備份路徑 拿到 production vault backup、雖然 vault 內容是加密的、但 master password 弱的客戶可被離線爆破。判讀重點：備份檔案的 存放位置 跟 加密狀態 是攻擊面、不只 production DB。

Support Tool Path：

客服 admin 工具可以 query 任何用戶資料
內部工具沒有 audit log、不知道誰看了什麼
防禦：客服 tool 必須 audit log、敏感欄位 mask、access 按 ticket 限制
真實事件對照：Okta Support System 事件 — 攻擊者拿到 Okta support 系統存取後、能看到客戶上傳的 HAR 檔（含 session token）、再用 token 進客戶 tenant。Support tool 的 查詢能力 跟 資料分級 不對等就會放大事故面。

對應 7.4 data protection and masking 跟 7.7 audit trail。

攻擊模式 4：競態 / TOCTOU 類

TOCTOU（Time of Check Time of Use）：

檢查時是 A 狀態、用的時候是 B 狀態
例：先 SELECT 確認 user 有 100 credit、再 UPDATE 扣 100、中間有別的 transaction 改了 credit
防禦：用 SELECT ... FOR UPDATE 鎖、或用 atomic operation（UPDATE ... WHERE credit >= 100）

Double-spend 攻擊：

多個 request 同時花同一筆錢
防禦：optimistic locking with version、unique constraint、或交易層 serializable
詳見 1.3 Transaction Boundary 的 isolation level 段

Race condition in business logic：

註冊：兩個 request 同時用同一個 email、可能都成功
防禦：unique constraint 在 DB 層、不只 application 層 check

攻擊模式 5：DoS / 資源耗盡類

Unrestricted Resource Consumption：

沒分頁的 SELECT *、用戶傳 ?limit=999999
沒 timeout 的長 query
防禦：query timeout、pagination 強制上限、rate limit

Connection 耗盡：

攻擊者開大量 connection、佔光 DB connection pool
防禦：connection pool 限制、application 層 connection limit、PgBouncer 共享

Storage 灌爆：

API 允許大量 insert、storage 被填滿
防禦：rate limit、quota per tenant、auto-archive

對應 Unrestricted Resource Consumption 卡片。

何時要提高紅隊檢查優先級

下列訊號出現時、資料層弱點通常會放大成系統風險：

角色與租戶模型快速增加、且查詢條件跨多個權限層
migration 頻率提高、且 schema 與讀寫流程同時變更
匯出、對帳、客服查詢與搜尋索引共用同一批敏感欄位
事故修復高度依賴人工 SQL 與臨時腳本
新引入的 ORM / query builder / cache layer 改變了 query 路徑

失敗代價

資料層弱點會把單點錯誤轉成長尾影響。

越權查詢：直接資料洩漏 → 通知監管 + 客戶 + 媒體
交易邊界混亂：部分寫入與狀態偏移 → 對帳成本 + 退款處理
資料外洩進 log / backup：拉長處理週期 → 跨 team 清理
support tool 濫用：無 audit log → 無法追究、信任成本上升
業務全面中斷：資料事件升級成 availability 事件、整條業務鏈停擺

這些問題的共同代價是：修復路徑長、稽核負擔高、信任成本上升。

真實事件對照：Change Healthcare 2024 ops impact 是「資料事件變成業務連續性事件」的代表。攻擊者進入 DB 後、不只外洩資料、還破壞處理能力、讓整個美國醫療支付網路停擺數週。判讀重點：DB 失守不只代表 資料外洩 一種損失、還可能直接停掉 上游業務流程、評估代價時要把這層算進去。MGM 2023 identity lateral impact 是另一個對照：vishing 拿到 identity 後橫向到核心系統、酒店訂房 / 自助 check-in / 老虎機全停。資料層的攻擊代價要跨業務流量去評估、不只看 DB 本身。

Incident 三角：DB 事故的同步處置

DB 事故的處置三角是同步執行三件事、共同消除攻擊者在處置間隙繼續入侵的時間窗：

漏洞修補：補上被利用的具體漏洞或 misconfiguration
Session / 憑證失效：撤銷所有可能被攻擊者拿到的 session、token、credential
異常痕跡清查：盤點攻擊者已經做了什麼、哪些資料動過、哪些 backdoor 留下

同步執行的理由是 攻擊者擁有平行能力：用已拿到的 credential 在 patch 完成前重新進入、或用清查前還沒被發現的 backdoor 繞過修補。線性執行「先修漏洞、再失效憑證、再清查」會留下兩個時間窗、攻擊代價被放大。

對應 MOVEit 2023 — 公告漏洞到攻擊者大規模利用之間只有數小時、單純等 vendor 修補來不及。實務做法是：

發布前：對外服務建立 即時隔離開關、不等 vendor patch
事故中：先把入口下線（DNS 切走 / WAF rule 全擋）、同步進行 patch + token revoke + audit log review
前提：事先有 inventory（知道哪些產品接 DB）+ 自動化失效能力（不是手動逐個 revoke）

這個三角是 能力前提、不是 當下決策。事故當下發現缺哪一角、就只能線性執行、攻擊代價會被放大。

偵測與審計

紅隊檢查不只「找漏洞」、也要設計 持續偵測：

1. Query audit

DB query 寫進 audit log（誰、什麼時候、查了什麼）
不只 admin tool、application 也要 audit
對應 Audit Log 卡片

2. Anomaly detection

異常 query pattern（突然 SELECT 全表、跨 tenant 範圍）
異常 export volume
Cross-tenant token 異常（同一 issuer 出現本不應跨域的軌跡）
對應 7.13 detection coverage

Cross-tenant token 偵測是觀測單一 issuer 發出的 token 在不應跨域的 tenant 出現的能力。對應 Microsoft Storm-0558 — 偽造 token 形式上完全合法、單看 token validation 找不到異常、要看軌跡（哪個 issuer 的 token 跨了哪些 tenant、跟歷史 baseline 比對）。這層偵測需要 application 跟 DB layer 都記下「token 來源 → tenant 目的」的對應、才能事後比對。

對應 Snowflake 2024 揭露的異常查詢偵測維度：

query 體積異常（單一 user 短時間內查詢量遠超日常）
來源 IP 異常（從合法網段突然變成未知 endpoint）
跨 schema scan 模式（單一 user 突然查多個 tenant 的表）
匯出頻率異常（單位時間匯出次數遠超基線）

這些維度都需要足夠歷史 telemetry 建立基線、新部署的 DB 在累積基線前處於偵測盲區、要靠 絕對閾值 補（例如「任何 user 單次查詢 > 1GB 都告警」、不等基線）。

3. DB-level monitoring

slow query log（可能是 attacker 在 enumerate）
failed login（DB 層 connection attempt）
privilege escalation event

4. Periodic review

每季 review role / permission
每年 audit support tool access pattern
migration 後重新檢查 access boundary

認證 + 網路雙重防護

DB 認證 = 資料邊界、但雲端資料平台（Snowflake、BigQuery、Cosmos DB）預設未必開 MFA、且 網路層通常 open（任何 IP 都能嘗試連線）。任一層失守、攻擊者就進來。

對應 Snowflake 2024 — 外洩 credential + 未強制 MFA + 沒設 network policy → 攻擊者直接從任意 IP 用 leaked credential 登入、查多家 tenant 的資料。

雙重防護設計：

網路層：network rule allowlist（只允許公司 IP / VPN / 雲端 NAT 連線）— leaked credential 即使有效、也碰不到 DB
認證層：強制 MFA + 條件式存取（context-aware：時間 / 地點 / 裝置）— 即使網路層失守、credential 還要過 MFA
應用層：API key / service account 跟 user credential 分開、各有 lifecycle

兩層獨立、單層失守仍能阻擋資料外送。資料平台預設應強制 MFA + network policy、把「credential 外洩 = 資料外送」這條捷徑切斷。

批量憑證撤銷的工程能力

批量憑證撤銷能力是事故當下「攔停攻擊者」的核心動作、要 快速、大量、選擇性 執行可疑憑證撤銷。這個能力屬於 事先準備、事故當下臨時建來不及。

最小能力清單：

Credential inventory：列出所有 active credential（user password、API key、service account token、session）。事故當下若靠工程師記憶查、會漏掉長期沒人動的 service account 或 OAuth integration、變成攻擊者 persist 的後門。Inventory 要 自動產生、不是人工維護的 spreadsheet。
分批撤銷 API：能按 user group / service / scope 批次撤銷、不是逐個 revoke。批次需要 idempotency key、避免重複撤銷產生競爭。受影響範圍大時、逐個撤銷可能需要數小時、攻擊者持續外送資料。
撤銷後 audit：撤銷紀錄要存（誰被撤、什麼時間、什麼原因、誰執行）、避免事後爭議。
重新發放流程：撤銷後使用者要重新登入、SSO + MFA 流程在事故當下要能撐住瞬間湧入的重新驗證請求。若流程卡住、會在「沒攻擊但用戶進不來」狀態下被迫降回安全等級較低的應急 fallback、形成新攻擊面。

對應 Snowflake 2024 的事故處置 — 平台級事故影響數百家客戶、撤銷必須跨 tenant 同步進行、單一客戶手動撤銷來不及。

長期可重複匯出工件

Long-lived repeatable export artifact 是事故後仍能持續產出資料的工件、屬於跨事故時間軸的 attack surface。攻擊者拿到一次、就能長期外送、不需要每次重新進入系統。常見類型：

預先生成的報表 URL（內部 BI tool 給 download link、URL 通常長期有效）
API key 綁定的 export endpoint（key 沒過期、endpoint 一直能匯出最新資料）
資料平台的 scheduled / saved query（以合法 user 身份定期執行匯出）
Database backup 的 share link（雲端儲存的 signed URL、有效期可達數年）

防禦設計：

預設短 TTL：所有匯出 URL / signed link 預設 1-24 小時失效
單次性匯出：sensitive export 限定 emit-once、用過就失效
匯出記錄審計：每次匯出寫進 audit log、定期審查哪些 endpoint 異常高頻使用

對應 Snowflake 2024 連結的紅隊 problem-card「Long-lived repeatable export artifact」— 這類工件的核心風險是 憑證撤銷後仍可運作、修復不只要撤 credential、還要盤所有由該 credential 建立的長效工件。

備份 vs 正式環境的權限獨立性

備份系統是獨立的攻擊面、跟正式環境要 不同權限域。常見錯誤是「備份用同一組 IAM principal 跟同一把 KMS key」、結果正式環境被打、攻擊者沿著 備份路徑 拿到所有歷史資料。

對應 LastPass 2022 backup chain — 開發環境被入侵後、攻擊者沿著備份路徑拿到雲端備份的加密保管庫資料、形成長尾資料保護壓力。判讀重點：備份的 存放位置、金鑰管理、存取權限 都是攻擊面、不只 production DB；備份檔加密本身不足以擋下取走後的離線分析。

權限獨立性設計：

不同 IAM principal：production 跟 backup 用不同 service account、production 帳號沒有 backup 讀權限
不同 KMS key audience：production 用 production key、backup 用 backup key、兩者 lifecycle 分離
不同 audit log：production read / write 跟 backup read 在不同 audit stream、後續調查能區分「正常運作」vs「備份被讀」
不同 access pattern review：定期審查哪些 principal 在哪些時段讀 backup（正常情況很少有人讀 backup、頻繁讀取是異常訊號）

「正式環境的接管不直接通到備份」是設計準則、不是 best practice 加分項。對應 1.9 reconciliation 的備份 / PITR 段討論。

最低控制面

資料層在討論具體服務前、先定義四個控制面最穩定：

權限模型：資料存取與角色、租戶、操作情境的對應關係
交易與一致性模型：哪些操作必須同成敗、哪些可以延遲一致
資料分級與遮罩模型：哪些欄位可回傳、可觀測、可匯出
恢復模型：錯誤資料如何比對、回復、追蹤與稽核

案例對照

07 主案例（產品 / 平台事故）

07 案例	跟資料層的關係
7.C1 Cloudflare Route Leak	控制面變更可能影響資料層存取
7.C2 Cloudflare Token 事件	Token 洩漏 → DB 存取被濫用
7.C3 Azure AD 2021	identity failure → 應用 fallback、可能讓 DB 存取錯誤路徑
7.C4 Microsoft Storm-0558	signing key 洩漏 → 任意 user 身份、可 query 任何資料
7.C5 Okta Support System	support tool 洩漏 → 客戶資料被存取
7.C6 Okta Cross-Tenant	tenant boundary 失守 → DB-level RLS 也擋不住

07 紅隊案例（攻擊鏈 / 入侵路徑）

紅隊案例	攻擊鏈到資料層的路徑
Snowflake 2024 憑證濫用	外洩 credential + 未強制 MFA → 直接 query 多家 tenant 資料
LastPass 2022 備份鏈	開發環境 → production backup 路徑 → 客戶加密 vault 外送
MOVEit 2023 mass exfiltration	file transfer 產品零時差 → 後端資料批量外送
Change Healthcare 2024 ops impact	DB 入侵 → 醫療支付網路全面停擺、資料事件升級成業務中斷
Microsoft Storm-0558 signing key chain	signing key 洩漏 → 任意身份 token forge → application BOLA / BOPLA 全部失效
MGM 2023 identity lateral impact	社交工程 → identity lateral → 業務系統全停、資料層攻擊代價跨業務流量

紅隊案例庫的完整入口看紅隊案例參考地圖 — 那邊有按攻擊階段（exposure / exfiltration / identity / supply-chain）的完整索引。

跨模組路由

與 1.3 的交接：race condition / TOCTOU 用 transaction boundary 的 isolation level 處理
與 1.4 的交接：repository adapter 應用 allowlist / parameterized query — repository adapter
與 1.8 的交接：state ownership 決定哪些資料需要嚴格存取控制 — State Ownership
與 7.2 的交接：identity / authorization 邊界 — Identity & Access Boundary
與 7.4 的交接：資料保護與遮罩 — Data Protection and Masking
與 7.7 的交接：audit trail — Audit Trail and Accountability Boundary
與 7.13 的交接：detection coverage — Detection Coverage and Signal Governance
與 8.19 的交接：事故時的資料層判讀 — Incident Decision Log
合規驅動的多 region 部署選型：Aurora global database 多 region、Aurora 跨 AZ failover RTO、Data Residency 知識卡

關聯卡片

DynamoDB

Wed, 13 May 2026 00:00:00 +0000

DynamoDB 是 AWS managed key-value store、用 partition-based scaling 提供 可預測 P99 latency 跟 elastic capacity。Amazon 自家 Ads（9000 萬 RPS）、Disney+、Zoom（COVID 30x surge）、Capcom（billions of requests / single-digit ms）都用 DynamoDB 撐核心 workload — 它是目前公開 case 最多、最被驗證的 managed KV 服務。

教學路線：Access pattern 與 partition capacity

DynamoDB 服務頁的教學目標是把 access pattern 轉成 partition key、sort key、GSI、capacity mode 與 global tables 的設計判斷。讀者讀完後要能從查詢路徑反推資料模型，並估算 hot partition、成本與 consistency trade-off。

學習段	核心問題	對應段落
Access pattern	查詢形狀如何先於資料表設計	定位、適用場景
Partition key	hot partition、single-digit latency、GSI 如何成為設計核心	容量規劃要點、常見陷阱
Capacity mode	on-demand、provisioned、auto scaling 如何對應高峰與成本	容量特性、案例對照
Global tables	multi-region availability 與 consistency 會付出哪些代價	適用場景、跟其他 vendor 的取捨
替代路由	何時回 SQL、MongoDB、Cosmos DB 或 cache / queue	不適用場景、下一步路由

定位：partition-based KV scale

DynamoDB 的核心設計是「partition 透明、capacity 抽象化」。不像 MongoDB 要主動 shard、不像 Cassandra 要管 ring topology、不像 PostgreSQL 要選 instance type — DynamoDB 把所有底層 scaling 隱藏在 RCU / WCU 抽象層後。

容量單位：

1 RCU（Read Capacity Unit）= 1 strongly consistent read of 4KB / sec、2 eventually consistent reads
1 WCU（Write Capacity Unit）= 1 write of 1KB / sec
每個 partition 上限：3000 RCU / 1000 WCU
總容量 = partition 數量 × 每 partition 上限（partition 數量透明、vendor 自動管理）

延遲特性：

single-digit millisecond p99 latency（read / write）
同 region 跨 AZ replication 內建、預設 eventually consistent reads
strongly consistent reads 依 region 內 quorum 成立，跨 region 讀寫要看 Global Tables 語意

詳見 1.10 KV / Document DB 容量規劃跟 9.4 Saturation Discovery 的 partition 設計章節。

適用場景

按公開 case 提煉的典型適用場景：

1. KV / single-table design 為主的查詢：

用 partition key + sort key 設計、單筆 / 範圍查詢
查詢路徑固定，JOIN / ad-hoc query 需求低
對應案例：9.C5 Amazon Ads — 9000 萬 reads/sec + 500 萬 writes/sec、99.999% 可用

2. 可預測 sub-10ms p99 latency 需求：

遊戲後端（玩家狀態、戰績）
內容平台 metadata（watchlist、播放進度）
對應案例：9.C19 Capcom（billions of requests / single-digit ms）、9.C27 Disney+（每日數十億 actions）

3. 流量 spiky 或 surge 場景：

on-demand capacity 自動吸收 burst
不需 connection pool（HTTP API、無 stateful connection）
對應案例：9.C18 Zoom（COVID 1000 萬 → 3 億 DAU）、9.C15 Tixcraft（IOPS 20 → 135K、售票搶購）、9.C29 Lemino（RDB connection limit → 改 DynamoDB）

4. 大規模通知 / 訊息系統：

TTL 自動清理過期 records
partition key 用 user_id / message_id 天然均勻
對應案例：9.C26 PayPay（行動支付每日 3 億訊息）

5. 5 個 9 可用性 B2B SaaS：

multi-region Global Tables active-active
對應案例：9.C24 Genesys（99.999% 跨 15 region）

6. 高吞吐 budget 敏感：

on-demand 適合突發、provisioned 適合 sustained
對應案例：9.C20 Zomato — TiDB over-provision 壓力轉成 DynamoDB on-demand pay-per-use，成本下降 50%

不適用場景

1. 複雜 ad-hoc query / JOIN：

DynamoDB query 以 partition key + sort key 為主，JOIN-heavy workload 交給 SQL 系統
PartiQL 提供 SQL-like 語法但底層還是 KV、複雜 query 會 scan 全表
替代：用 Aurora / PostgreSQL / Spanner

2. 強一致 multi-row transaction：

DynamoDB Transaction 支援 25 個 item 的 ACID
超過 25 個 item 或跨 region 的 transaction 要改用 workflow / SQL / distributed SQL 設計
替代：Spanner / Aurora DSQL / CockroachDB

3. 跨雲需求：

DynamoDB only on AWS、vendor lock-in
替代：Cosmos DB（Azure global NoSQL）、自管 ScyllaDB

4. 大物件 / 文件儲存：

單一 item 最大 400KB
大物件用 S3、metadata 用 DynamoDB

5. 預算極度敏感 + 流量穩定：

流量高度 predictable 的 sustained workload，自管 PostgreSQL / MySQL 可能更便宜
DynamoDB 的 managed 跟 elastic 是有溢價的

跟其他 vendor 的取捨

vs MongoDB（自管或 Atlas）：

DynamoDB：managed、partition 透明、application 主要管理 partition key，有 5 個 9 SLA
MongoDB：彈性高、可自管、aggregation pipeline 強、跨雲可用
選 DynamoDB：AWS-only、想轉移 operation、partition 設計簡單可預測
選 MongoDB：跨雲、複雜 query、ad-hoc analysis

vs Aurora（同 AWS）：

DynamoDB：KV、partition 擴展、無 connection pool 限制
Aurora：SQL（PostgreSQL / MySQL）、有 transaction、ad-hoc query
詳見 1.10 KV / Document DB 容量規劃跟 9.C29 Lemino case — connection limit 是 RDB vs DynamoDB 的關鍵差異

vs Redis（含 ElastiCache）作為 KV 替代：

DynamoDB：持久化、單 item 持久查得到、有 TTL 但物件不會自動失蹤
Redis：純記憶體、預設不持久（MemoryDB 例外）、快但易失
選 DynamoDB：data 是 source of truth，需要持久保存
選 Redis：data 是 cache、丟了能 recompute

vs Cosmos DB（cross-cloud）：

DynamoDB：AWS-only、KV 為主、無 multi-model
Cosmos DB：Azure-only、multi-model（SQL / Mongo / Cassandra / Gremlin / Table）、5 個 consistency levels
選 DynamoDB：AWS 生態、KV 純粹
選 Cosmos DB：Azure 生態、需要 multi-model、需要 multi-region active-active write

vs Cassandra / ScyllaDB（self-managed）：

DynamoDB：managed、5 個 9 SLA、無 ops 負擔
Cassandra / ScyllaDB：可自管、更深 tuning、跨雲可用
選 DynamoDB：團隊想把 DBA / SRE 操作責任交給 AWS
選 Cassandra / ScyllaDB：有 DBA、想 lock-in 風險低、需要極限 throughput tuning

vs PostgreSQL（SQL baseline）：

詳見 PostgreSQL vendor page 取捨段、跟 1.10 KV / Document DB 容量規劃的 connection model 對比
摘要：DynamoDB 是 access pattern 固定 + 需要避免 connection-bound 的選項；ad-hoc query / 複雜 transaction 留 PostgreSQL

容量規劃要點

從 09 案例庫提煉的 DynamoDB 容量規劃實踐：

1. partition key 設計是命脈：

partition key 不均 → hot partition → 名義容量達不到
composite key（event_id + user_id_hash）強制分散
對應 9.C5 Amazon Ads 9000 萬 RPS 靠 partition 均勻、9.C15 Tixcraft 用 composite key 分散售票流量
詳見 Hot Partition 卡片

2. on-demand vs provisioned 選型：

流量 peak/avg > 5x → on-demand
sustained predictable → provisioned + auto-scaling
知名大事件（Black Friday）→ provisioned baseline + scheduled scale-up
對應 9.C20 Zomato — on-demand 解放 over-provisioning

3. Global Tables（multi-region active-active）：

每個 region 都能寫、conflict resolution 用 LWW
容量在每個 region 獨立配置，全球總和要按 region 分別估算
對應 9.C24 Genesys — 15 region 達 5 個 9 可用

4. DAX（DynamoDB Accelerator）：

DynamoDB 前置 in-memory cache
從 single-digit ms 降到 microsecond
適合超高 read 重複的 workload（同樣 key 大量讀）
對應 9.C29 Lemino 用 DAX 加速

5. Streams + Lambda：

DynamoDB 寫入 → Stream event → Lambda 處理
適合 CDC、event-driven 工作流
對應 9.C15 Tixcraft 用 Stream 把 DynamoDB 當 durable queue 給 legacy server 消費

Anti-recommendation 與升級路由

DynamoDB 的 managed elasticity 會讓團隊忽略 access pattern 的前置成本。這一段先說何時維持單純 table / index，再說何時升級到 Global Tables、DAX、Streams、或改回 SQL / document DB。

機制 / 路線	維持簡單設計的條件	升級訊號	主要引用路徑
單 table / 少量 GSI	access pattern 穩定、partition key 均勻、query 成本可預測	新查詢路徑大量增加、GSI 成本壓過主表、hot partition 出現	Hot Partition、Workload Model
On-demand capacity	peak/avg 差距大、流量有事件性 surge	sustained traffic 穩定、成本曲線可預測	Peak Forecast、Cost Per Request
Provisioned + autoscaling	baseline 穩定、團隊能預測高峰	黑五、售票、直播等已知大事件需要預先升配	Scheduled Scaling
DAX	read 重複率低、single-digit ms 已足夠	同 key 超高讀取、需要 microsecond read	Cache Aside、Stale Data
Global Tables	single-region availability 已足夠	RTO/RPO、region residency 或 active-active write 是產品需求	RTO、RPO、Consistency Level
SQL / document DB	access pattern 可提前列舉	ad-hoc query、JOIN、multi-row transaction 或 document traversal 成主題	Aurora vendor、MongoDB vendor

DynamoDB 的簡單路徑是先把每個 query path 寫成契約。table、partition key、sort key、GSI 與 TTL 都應從 access pattern 反推；如果需求仍在探索期，PostgreSQL 或 MongoDB 可能提供更低的變更成本。

Global Tables 的升級路徑要先處理 conflict 與讀寫語意。它提供 multi-region availability，但 LWW conflict resolution、region-local capacity 與跨 region reconciliation 仍要由 application contract 承擔。

Deep article（已完成）

本 vendor 現有 deep article 覆蓋 DynamoDB 從 access pattern 反推到寫一致性、讀加速、事件驅動與資料生命週期的核心 production 議題：

主題	文章	對應 production 議題
適用度 4 軸前置判讀 + access pattern 反推 PK/SK + durable queue	single-table-design-pattern	適用度判讀 + control plane vs data plane + 9.C15 Tixcraft Stream durable queue
1000 WCU partition 上限 + composite key / calculated shard 修法	partition-key-antipatterns	9.C15 Tixcraft 6750x 擴展、mode × partition 在 provisioned / on-demand 表現
GSI / LSI projection 三型、sparse、DAX 補位	gsi-lsi-design	GSI 自己會 hot partition、Capcom derive vs Lemino case fact 分層
6 軸 capacity mode 決策 + auto-scaling 邊界 + cost crossover	on-demand-vs-provisioned	Zomato 50% 成本下降、Zoom 30x permanent surge、Amazon Ads sustained workload
Multi-region active-active + LWW conflict + cross-device sync	global-tables-conflict	Genesys 99.999% / 15 region、Disney+ 跨裝置同步
Strongly / eventually consistent read 取捨	consistency-model-optimization	read consistency 成本選擇
跨 item 原子性 + conditional write + optimistic lock + idempotency	transactions-conditional-writes	雙寫不一致、超賣 race、transaction 2x 成本邊界
DAX cluster + item/query cache + write-through + invalidation 邊界	dax-caching-strategy	讀峰值 p99 尖刺、query cache 只靠 TTL 失效、strong read 繞過 cache
Streams CDC + shard 順序 + Lambda 消費 + 失敗處理	streams-lambda-event-driven	下游即時反應、at-least-once 冪等、毒丸 record 隔離
TTL 自動過期 + 48h 刪除延遲 + 過期仍可讀 + storage 成本	ttl-data-lifecycle	9.C26 PayPay 每日上億訊息 storage 清理、過期未刪 item 讀取陷阱

Migration playbook：從 RDS / MongoDB 遷移到 DynamoDB（Type E paradigm shift、access-pattern-first 重建模 + 混合架構 + Zomato cost crossover）。

跨 vendor entry：先看 DB3 vendor selection（MongoDB / DynamoDB / Cosmos DB 三方選型 + workload shape 前置判讀），再進本 vendor 的 deep article。

後續擴充（仍待補）

DynamoDB Streams 進階 lab：Kinesis Data Streams for DynamoDB 多消費者 fan-out 與長 retention 重播（Lambda vs Kinesis 比較層已在 streams-lambda-event-driven 覆蓋、此處指可操作的深度 hands-on lab）
Export to S3 / point-in-time export 做離線分析
DynamoDB → SQL / search / analytics split（遷出方向 playbook）
Backup / PITR restore drill（hands-on lab）

案例對照

案例	規模	教學重點
9.C5 Amazon Ads	9000 萬 RPS + 500 萬 WPS	partition 均勻設計典範
9.C15 Tixcraft	IOPS 20 → 135K（6750x 擴展）	flash-sale 緩衝模式
9.C18 Zoom	30x DAU surge（1000 萬 → 3 億）	SaaS surge baseline 重新校準
9.C19 Capcom	billions of requests / single-digit ms	遊戲後端 KV、跨遊戲共用平台
9.C20 Zomato	4x 吞吐、90% latency 降、50% 成本降	TiDB → DynamoDB cross-DB 遷移
9.C24 Genesys	99.999% / 15 region / 8000+ orgs	B2B SaaS 5 個 9 可用性
9.C26 PayPay	3 億訊息 / 天	行動支付通知系統、TTL 自動清理
9.C27 Disney+	每日數十億 actions	串流 metadata 層 + cross-device 同步
9.C29 Lemino	tens of thousands req/sec、5M MAU / 3 月	RDB connection limit → DynamoDB

DynamoDB case 的讀法是先分類 access pattern，再看容量模式。Amazon Ads / Capcom / Disney+ 說明高吞吐 KV，Zoom / Tixcraft / Lemino 說明 surge 與 connection-free scaling，Zomato 則說明 on-demand cost model 如何改變 over-provision 壓力。

反向 sibling 路由

DynamoDB 的反向 sibling 路由用來把 RDBMS 退場條件寫清楚。若讀者從 PostgreSQL / MySQL 的 connection bottleneck 過來，先讀 Lemino case 與 1.10 KV / Document DB 容量規劃；若需求仍需要 ad hoc SQL、join 與 transaction report，回 Aurora vendor 或 PostgreSQL vendor；若需求是 global document model 與 Azure 生態，再對照 Cosmos DB vendor。

這條路由的判準是 access pattern 是否穩定到可以先設計 key。DynamoDB 擅長固定 lookup、寫入尖峰、connection-free scaling 與 TTL 類生命週期；資料探索、報表 join 與多條件查詢仍應留在 SQL / search / analytics service。

常見陷阱

從公開 incident 跟 case 提煉：

partition key 集中：event_id 一個演唱會、bot user 大量同 user_id 寫入 → 用 composite key 或 write sharding
單一 partition 達 3000 RCU / 1000 WCU 上限：throttling event 出現、即使整體 capacity 還沒滿
Scan 全表：scan 會吃光 capacity，正式讀取路徑應回到 query / index design
DAX 跟 DynamoDB 直連混用：寫入直連 DynamoDB、讀經過 DAX → cache 一致性問題
Global Tables conflict：跨 region 同 key 同時被寫、LWW 可能丟失寫入、要設計 idempotency

下一步路由

完整 T1 對照：01-database vendors index
平行：Aurora vendor page（SQL 對比）
上游：1.10 KV / Document DB 容量規劃
下游：1.12 大規模 DB 遷移實戰（從 RDBMS 遷 DynamoDB 案例）
跨模組：9.4 Saturation Discovery、9.6 容量規劃模型
Last reviewed：2026-05-22（capacity mode / Global Tables / best practices 屬時間敏感 claim）
官方：Amazon DynamoDB Customers、DynamoDB 設計 best practices

1.6 資料庫轉換實作：雙寫、回填、切流與回滾

Wed, 13 May 2026 00:00:00 +0000

資料庫轉換實作的核心責任是讓 schema、資料與流量切換都可分段驗證、並在任一階段可安全回退。這一頁不討論要不要轉換、專注回答「決定要換之後怎麼做」。

本章跟 1.12 大規模 DB 遷移實戰分工：

1.6 同 DB 內：schema 演進、資料變更、新舊欄位共存、雙寫驗證、切流。例：加欄位、改欄位、拆表、合表、加 partition。
1.12 跨 DB 引擎：換 vendor（PostgreSQL → Aurora、MongoDB → Cosmos DB、TiDB → DynamoDB）。例：9.C20 Zomato、9.C30 Microsoft 365。

兩者用同樣的工程方法論（dual-write、shadow、cutover、rollback）、但 stakes 跟 跨越的邊界 不同。本章先處理 1.6 的同 DB schema 轉換、1.12 處理更大規模的 cross-engine。若來源是託管平台（Shopify / Firebase / WordPress）的匯出而非自建資料庫、整場遷出的資產線盤點與並行期設計見 10.3 託管形態遷出；資料落地自建後的 schema 演進回到本章、跨引擎搬遷走 1.12。

實作流程

階段	核心動作	交付成果
1. 邊界定義	定義 source of truth、切換範圍、不可中斷路徑	migration scope 與 rollback 邊界
2. Expand	新欄位 / 新表先上線、應用可同時讀舊寫新或雙寫	新舊版本相容窗口
3. Backfill	批次回填歷史資料、保留節流與 checkpoint	可追蹤的回填進度與失敗重試
4. 驗證	shadow read、checksum、業務指標對帳	一致性證據包
5. Cutover	逐步切讀、再切寫、保留快速回切策略	切流完成且可回退
6. Contract	移除舊欄位與舊路徑、收斂技術債	單一資料語意落地

Expand-Contract 模式

Expand / Contract（也叫 parallel change）是同 DB schema 演進的核心模式。

為什麼需要這個模式：

應用 deploy 跟 DB migration 不能原子完成
在 deploy window 內、有些 instance 跑舊 code、有些跑新 code
DB 必須同時容納舊 code 跟新 code 的 schema

Expand 階段（加新欄位、不刪舊）：

加 new_column、允許 nullable
應用層 dual-write：同時寫 old_column 跟 new_column
應用層 read 仍走 old_column

Backfill 階段（資料同步）：

把歷史 row 的 new_column 補上值（從 old_column 算出來）
分批跑、用 checkpoint 追進度、避開 peak
監控：rate、error、progress、unaffected rows count

Migrate Reads 階段（切讀）：

應用層 read 改走 new_column
仍 dual-write、可以快速 fallback 回 old_column
持續 shadow read 驗證一致性

Contract 階段（刪舊）：

確認所有 application instance 都跑新 code 後
刪 old_column、停止 dual-write
移除應用層的 fallback 邏輯

每個階段都是 可獨立 rollback 的、不像 big-bang 一次切完。

同 DB 內常見 migration 類型

Type A：加欄位（最簡單）

直接 ALTER TABLE ADD COLUMN（nullable 或 default）
應用層後續加寫入、讀取
風險：低
注意：大表 ADD COLUMN with DEFAULT 在 PostgreSQL 11+ 是 instant、之前要 rewrite

Type B：刪欄位

先讓所有 application 不再讀寫該欄位
部署完成、確認後再 DROP COLUMN
風險：中
注意：DROP COLUMN 是 instant、但無法 rollback、必須 backup

Type C：改欄位型別

用 expand-contract：加新欄位、dual-write、backfill、切讀、刪舊
風險：高（特別是大表）
注意：直接 ALTER COLUMN TYPE 可能 rewrite 整表、lock 時間長

Type D：改欄位名 / 表名

同型別改名：用 expand-contract、加新名 + dual-write、切讀、刪舊
DB 端 native rename 是 instant 但 application 需要同步 update — 不適合大規模 deploy

Type E：拆表 / 合表

拆：先 dual-write 到新舊表、backfill、切讀、刪舊
合：先 dual-write 到新表、backfill、切讀、刪舊
風險：高 — 影響面廣

Type F：加 index

PostgreSQL：CREATE INDEX CONCURRENTLY（不 lock 表、可能 slow）
MySQL：gh-ost / pt-online-schema-change（ghost table）
風險：低-中（看 index 大小）

Type G：加 NOT NULL constraint

先確保 application 所有 instance 都不寫 null
backfill null 為 default
加 NOT NULL constraint
風險：中

Type H：加 partition

先把現有表變成 partition 0
加新 partition 接新資料
漸進把舊資料 move 到對應 partition
風險：高（schema 大變）

Online Schema Change 工具

大表 ALTER TABLE 直接跑會 lock。生產級 migration 用 online schema change 工具：

PostgreSQL：

CREATE INDEX CONCURRENTLY（內建）
pg_repack（vacuum + reindex without lock）
pgroll（zero-downtime migration）
Atlas（schema-as-code）

MySQL：

gh-ost（GitHub 開源、無觸發器、推薦）
pt-online-schema-change（Percona、用觸發器）
Vitess online DDL（managed via Vitess）

機制概要：

建 ghost table（新 schema）
copy 資料到 ghost table（漸進、avoid peak）
用 trigger 或 binlog 同步 ongoing changes
切換：原 table → ghost table（atomic rename）

對應 MySQL vendor page 跟 PostgreSQL vendor page 的相關段落。

Validation Query 設計

migration 過程中必須有 validation query 確認資料一致性。

Checksum 對比：

跑 MD5(new_column) = MD5(derived_from_old)
抽樣 10% 跑、不打全表
不一致 → 修轉換函式、不直接修資料

Row count 對比：

新欄位 NULL count 跟預期 backfill 進度比對
過慢 → 增加 backfill worker
不一致 → 找出 backfill 漏跑的 batch

業務指標對比：

跟業務 metric 對齊（訂單金額總和、用戶數）
比 row-level checksum 更貼近 business correctness

詳見 Validation Query 卡片跟 1.7 Schema Migration Rollout Evidence。

Backfill 設計

backfill 是 migration 中最 容易出錯 的環節 — 大量寫、影響 production。

設計要點：

節流（throttle）：每秒寫入限制、跟 production peak 錯開
Checkpoint：紀錄進度、可 resume
錯誤分類：可 retry 的錯誤 vs 必須人工處理
dry-run mode：先看會修改多少、不實際寫
monitoring：rate、error、progress、replica lag

backfill 反模式：

一個大 transaction 跑全表 → lock 太久、可能 OOM
沒 checkpoint → 中途失敗從頭開始
沒 throttle → 影響 production read

對應 Backfill 卡片。

各階段監控訊號

每階段都要監控、不只是「最後驗證」：

階段	主要訊號
Expand	DDL 執行時間、replication lag
Backfill	rate、error rate、checkpoint progress、production load 影響
驗證	shadow read 不一致率、checksum 結果、業務 metric 差異
Cutover	error rate、p99 latency、rollback trigger 是否就緒
Contract	DDL 執行時間、無 application 還在用舊 column 的證據

判讀訊號

訊號	判讀重點	對應動作
回填速度不穩、延遲飆高	可能與線上流量競爭 IOPS	降低批次大小、加節流、避開 peak
雙寫成功率高但 shadow read 漂移	業務語意映射不一致	先修轉換函式、再重跑對帳
切流後 error rate 升高	新庫讀寫路徑與索引未對齊	回切舊讀路徑、補索引後再灰度
rollback 時間超出 RTO	回退流程過度人工	把回退腳本化並演練
大表 ALTER TABLE 卡住	online 工具沒用對 / lock	用 gh-ost / pgroll、或分批執行
Backfill 後 NULL count 不歸零	有漏跑的 batch、或新寫入沒走 dual-write	補檢查 dual-write 邏輯、re-run backfill

常見誤區

把資料庫轉換當成單次 DDL 任務、會讓風險集中在 cutover 當下。穩定做法是把每一階段都做成可驗證、可回退的獨立里程碑。

把 dual-write 當成最終保障也常出錯。雙寫只能保證「兩邊都有寫」、不保證「語意一致」、仍要配 shadow read 與業務對帳。

把 online schema change 工具當「萬能」也是錯。gh-ost / pgroll 仍有限制（例如 trigger 限制、IO 影響）、要按工具規格操作。

案例回寫

選型層案例： 0.C4 營運後技術轉換
可靠性治理： 6.11 Migration Safety
事故反饋： GitHub 2018 Oct21 MySQL Topology Incident
大規模跨 DB 遷移： 1.12 大規模 DB 遷移實戰（Zomato、Netflix、Microsoft 365 等 case）

這組案例主要支撐的是「分段切換與可回退驗證」判讀、不直接支撐快取 TTL 或 broker delivery 參數；若問題核心在快取新鮮度或投遞語意、應轉到 2.x 或 3.x。

跨模組路由

與 1.2 的交接：欄位演進與命名語意回到 schema design。
與 1.3 的交接：交易邊界與副作用切分回到 transaction boundary。
與 1.7 的交接：production rollout 證據實作 — Schema Migration Rollout Evidence。
與 1.12 的交接：跨 DB 引擎遷移 — 大規模 DB 遷移實戰。
與 4.20 的交接：validation query 與一致性證據進入 Observability Evidence Package。
與 6.11 / 6.8 的交接：放行與停損條件進入 Migration Safety 與 Release Gate。
與 8.19 的交接：pause、rollback、fail-forward 決策記錄到 Incident Decision Log。

下一步路由

若你還在判斷是否該轉換、先回 0.C4 看決策訊號。若你要把這套流程寫成 production rollout evidence、接著讀 1.7 Schema Migration Rollout 證據實作示範。若你在設計放行與演練、接著看 6.11 與 6.8。若你在事故回溯、接著看 8.23 Post-incident Review。若你要做 跨 DB 引擎遷移、看 1.12。

SQLite

Wed, 13 May 2026 00:00:00 +0000

SQLite 是世界上部署最多的 DB（手機、瀏覽器、car、IoT 都有）。傳統定位是 embedded、單檔案與低操作成本資料庫；multi-tenant 網路服務通常會先看 PostgreSQL、MySQL 或 managed SQL。但近年因 Cloudflare D1（serverless SQLite）、Turso（distributed SQLite）、Litestream（SQLite replication）等服務興起，出現「SQLite as production DB」的新場景。

教學路線：單檔正式狀態與 local-first

SQLite 服務頁的教學目標是把單機、單檔案、edge、desktop、test fixture 的正式狀態責任說清楚。讀者讀完後要能判斷 SQLite 何時是 production state，何時要轉向 server database、edge KV 或分散式 SQLite 變體。

學習段	核心問題	對應段落
Embedded state	單檔案資料庫如何成為 source of truth	定位、適用場景
Local-first	device、edge、desktop、test fixture 的責任形狀	適用場景、案例對照
Writer boundary	single writer、file lock、WAL 如何決定服務上限	容量特性、容量規劃要點
Distributed variants	Turso、LiteFS、rqlite、D1 解決哪類同步或 edge 問題	跟其他 vendor 的取捨、章節群結構
替代路由	何時升級 PostgreSQL、MySQL、DynamoDB 或 edge KV	不適用場景、下一步路由

定位：單檔案 embedded + 新興分散式 SQLite 生態

SQLite 跟 PostgreSQL / MySQL 承擔不同層級的資料責任：

以 function-call API 使用，省掉 server process
單一檔案（含 schema、data、index、metadata）
無 user / role / connection 概念
同 process 同時 read / write 受 file lock 限制

傳統定位：test fixture、CLI tool data store、mobile app（iOS / Android 內建）、edge device。

新興定位：edge serverless（Cloudflare D1）、distributed SQLite（Turso、rqlite）、replicated SQLite（Litestream）。

容量特性

單檔案上限：

DB 最大 281 TB（理論）
實務上單表 > 100 GB 開始有 vacuum / index 問題

並發寫：

WAL mode：可同時多 reader + 1 writer
寫入仍由 single writer boundary 控制
寫吞吐受 disk fsync 限制（通常 < 1K WPS）

並發讀：

WAL mode 多 reader 可同時跑
read-only workload 可以撐高吞吐

Cross-process / cross-instance：

多個 process / instance 同時寫同一檔案會破壞 single writer boundary
需要分散時用 Litestream（replication）或 Turso（distributed）

適用場景

1. Test fixture / CI 用 DB：

整合測試需要的 fixed DB
比 spin up PostgreSQL container 快
對應 1.4 Repository Adapter 的 contract test 模式

2. CLI tool / desktop app 內建 store：

Chrome / Firefox（cookies、history、bookmark）、Fossil SCM、iOS app
省掉 server、單檔案攜帶

3. Mobile app（iOS / Android）：

iOS Core Data 底層用 SQLite
Android 自帶 SQLite API
offline-first app 的標準

4. Single-instance backend（特殊場景）：

流量小 + HA 由備份 / restore / redeploy 流程承擔
例：Sidekick / 個人 SaaS / family-scale app
配合 Litestream 做 backup / DR

5. Edge / serverless（新興）：

Cloudflare D1：edge SQLite、跟 Workers 整合
Turso：distributed SQLite、跨 region replication
跟傳統 SQLite 不同等級、是 新的 product

6. Embedded device / IoT：

沒網路或要降低 server 依賴
SQLite 內建、無 external dependency

不適用場景

1. 多 instance / 多 region web service：

SQLite 的單檔模型以單 instance writer 為主要邊界
替代：PostgreSQL、Aurora、Spanner、CockroachDB

2. 高寫入吞吐（> 1K WPS）：

fsync 限制
替代：任何 server-based RDBMS

3. Multi-user 權限管理：

無 user / role 概念
替代：PostgreSQL / MySQL

4. 跨機器 transaction：

SQLite 是 single-machine
替代：分散式 SQL

5. 大規模 production OLTP：

大規模 production OLTP 需要 server database 的 HA、replica、權限與操作邊界
替代：MySQL / PostgreSQL / Aurora

跟其他 vendor 的取捨

vs PostgreSQL（作為 test DB）：

SQLite：快 spin up、SQL dialect 接近但有差異
PostgreSQL：跟 production 一致、發現的 bug 真實
選 SQLite：speed of iteration、簡單 query
選 PostgreSQL：catch production-like bug、PostgreSQL-specific 特性測試

vs Cloudflare D1：

SQLite（local）：單機、自管
D1：edge serverless、跟 Workers 整合
選 SQLite：embedded / CLI / app 場景
選 D1：edge web service、跟 Cloudflare 生態整合

vs Turso（distributed SQLite）：

SQLite：單機、單檔案
Turso：distributed、跨 region replication、SQLite-compatible
選 SQLite：simple use case
選 Turso：需要 SQLite simplicity + 全球分散

vs Litestream（replicated SQLite）：

SQLite：單檔案
Litestream：把 SQLite 變成 streaming replicated 到 S3
選 Litestream：想要 SQLite simplicity + DR

vs Firebase / Firestore（mobile app）：

SQLite：embedded、offline-first、無 sync
Firestore：realtime、自動 sync、雲端 store
選 SQLite：offline-first、單機
選 Firestore：multi-device sync、realtime

容量規劃要點

1. WAL mode 是 production baseline：

default journal mode 是 rollback journal（每寫都 lock）
WAL（Write-Ahead Log）讓多 reader 可同時跑
PRAGMA journal_mode = WAL

2. fsync 配置：

PRAGMA synchronous = FULL（durable、慢）
PRAGMA synchronous = NORMAL（faster、少數情況可能掉資料）
PRAGMA synchronous = OFF（最快、不安全）

3. mmap 加速 read：

PRAGMA mmap_size = 268435456（256 MB）
把 DB 部分內容 mmap 進 RAM、加速 read

4. Cache size：

PRAGMA cache_size = -64000（64 MB cache）
大 cache 對 read-heavy workload 有幫助

5. Auto-vacuum：

預設 off、delete 後檔案不縮小
PRAGMA auto_vacuum = INCREMENTAL + 定期 PRAGMA incremental_vacuum

章節群結構

SQLite 章節群的責任是把單檔正式狀態、embedded process、writer boundary、backup / restore、test fixture、local-first 與 edge SQLite 變體拆成可教學路線。完整結構見 SQLite Teaching Structure；下表列出目前已建立的 deep article、hands-on 與 migration route。

層級	文件	狀態	教學責任
結構總覽	Teaching Structure	已有正文	對齊 PG / MySQL 與 LLM 架構，固定 SQLite 後續讀法
Core deep	File lifecycle / backup boundary	已有正文	WAL sidecar、backup API、restore drill、corruption route
Hands-on	Hands-on 操作路線	已有正文	local file、backup restore、WAL busy、migration fixture
Concurrency	WAL concurrency / locking	已有正文	single writer、file lock、`SQLITE_BUSY`、checkpoint
Performance	PRAGMA tuning / performance	已有正文	journal、sync、cache、mmap、vacuum 的取捨
Migration	Schema migration / versioning	已有正文	app release、schema version、rollback、migration evidence
Testing	Test fixture best practice	已有正文	SQLite 測試便利性與 production dialect gap
Embedded app	Mobile / desktop embedded store	已有正文	device local state、privacy、backup、app version
Sync	Local-first sync boundary	已有正文	多裝置同步、conflict、server authority
Edge variant	D1 / Turso / libSQL comparison	已有正文	edge SQLite 產品與 local SQLite 的責任差異
Replication	Litestream / LiteFS replication	已有正文	continuous backup、read replica、failover boundary
SQL compatibility	SQL dialect and index limits	已有正文	type affinity、index、constraint、PostgreSQL / MySQL gap
Operations	Observability / runbook	已有正文	busy errors、WAL growth、backup evidence、incident route
Migration route	SQLite to PostgreSQL	已有正文	多 tenant、權限、HA、audit 出現時的升級路線
Migration route	SQLite to D1 / Turso	已有正文	edge / serverless 化路線
Migration route	PostgreSQL to SQLite simplification	已有正文	single-user / embedded 工具的反向簡化路線

章節群的讀法是先讀 file lifecycle，再按壓力選 deep article。若問題是 write contention，讀 WAL locking；若問題是測試，讀 test fixture；若問題是 edge / serverless，讀 D1 / Turso comparison；若問題是服務長大，讀 SQLite to PostgreSQL migration。

Anti-recommendation 與升級路由

SQLite 的低操作成本容易讓團隊忽略它的 writer boundary。這一段先說何時維持 SQLite，再說何時升級到 server SQL、edge SQLite 變體或 managed KV。

機制 / 路線	維持簡單設計的條件	升級訊號	主要引用路徑
Local SQLite	單 process、單 writer、資料可用檔案備份保護	多 instance 寫入、需要 HA、需要資料層權限	Database、Source of Truth
WAL + file backup	read-heavy、寫入量低、RPO 可接受定期 snapshot	restore 演練失敗、WAL growth 失控、RPO / RTO 變嚴格	RPO、RTO
Litestream / LiteFS	單 primary 寫入清楚、主要需求是 backup 或 read replica	需要多地 active write、跨 region transaction	Replication Lag、Stale Read
Cloudflare D1 / Turso	edge / serverless 生態已是主平台	SQL 特性、migration、observability 或 vendor 限制卡住	1.11 全球分散式 OLTP
PostgreSQL / MySQL	application 已進入多服務、多 tenant、權限與備份治理需求	schema migration、connection、audit 與 failover 成主題	PostgreSQL vendor、MySQL vendor

SQLite 的簡單路徑是讓檔案生命週期成為正式操作流程。只要單一 writer、備份、restore、migration 與 file ownership 都能被 runbook 控制，SQLite 可以是正式狀態，而非臨時 cache。

升級到 server SQL 的訊號是操作責任超過檔案邊界。當團隊需要資料庫帳號、權限分層、read replica、線上 schema migration、集中 audit 或跨 instance failover 時，PostgreSQL / MySQL / Aurora 會比繼續包裝 SQLite 更清楚。

已知 limitation 與後續路由

SQLite overview 目前已完成服務判斷與章節群正文路由。File lifecycle、WAL locking、PRAGMA tuning、schema migration、test fixture、local-first sync、edge product 差異、observability、hands-on 與 migration route 都已有對應正文；下一輪審查可集中在案例補強、引用精度與跨章重複整理。

案例對照

SQLite 不在 09 case 庫的「規模化 vendor」類別、但作為 embedded 跟 test 廣泛使用：

iOS Core Data：所有 iOS app 的 default DB
Chrome / Firefox：cookie、history、bookmark
Fossil SCM：repository metadata 與 application-file use case
Cloudflare D1：edge serverless（新興 production 場景）
Turso：distributed SQLite（新興 production 場景）

常見陷阱

default journal mode 不改 WAL：read 跟 write 互相 block、performance 差
多 process / instance 同時寫同檔：corruption
delete 後檔案沒縮小：忘了 vacuum
synchronous=OFF 給 production：power loss 可能掉資料
SQLite 跟 PostgreSQL 行為差異測試不足：SQLite test 過、PostgreSQL production 出 bug（特別是 date / time、NULL 處理、type coercion）

下一步路由

完整 T1 對照：01-database vendors index
平行：PostgreSQL vendor / MySQL vendor（production server-based RDBMS）
上游：1.4 Repository Adapter（test fixture 模式）
結構：SQLite Teaching Structure（完整章節群與寫作順序）
操作：SQLite Hands-on（local file、backup restore、WAL busy reproduction、migration fixture、D1 / Turso preview）
深入：SQLite file lifecycle 與 backup boundary（WAL、backup、restore、file ownership）
官方：SQLite Documentation、Litestream、Turso、Cloudflare D1

AWS Aurora

Wed, 13 May 2026 00:00:00 +0000

Aurora 是 AWS managed PostgreSQL / MySQL、把 storage layer 重寫成跨 AZ 分散式 log service、保留 wire protocol 相容。Netflix 把多套 RDBMS 統一到 Aurora（+75% 效能、-28% 成本）、DraftKings 撐每分鐘 100 萬 ops 體育博彩、Standard Chartered 跨 7 個受監管市場、FanDuel 處理 Super Bowl 5-10 倍峰值 — 是 SQL OLTP managed 服務的代表。

教學路線：Managed SQL 與平台責任轉移

Aurora 服務頁的教學目標是把 PostgreSQL / MySQL 語意延伸到 AWS managed storage / compute 分離模型。讀者讀完後要能判斷哪些責任交給 Aurora，哪些責任仍留在 schema、query、maintenance window、region 與成本治理。

學習段	核心問題	對應段落
Managed SQL	Aurora 如何保留 PostgreSQL / MySQL 語意並改變操作責任	定位、適用場景
Storage / compute	分離 storage layer 如何影響 replica、failover、backup	容量規劃要點、案例對照
AWS operation model	parameter group、maintenance、region、cost 如何成為平台責任	跟其他 vendor 的取捨、RTO / RPO
Peak workload	金融、串流、Super Bowl、banking case 如何提供容量判準	適用場景、案例對照
替代路由	何時留 RDS、自管 PostgreSQL / MySQL、轉 Spanner 或 DynamoDB	不適用場景、下一步路由

定位：storage / compute 分離的 SQL

Aurora 跟傳統 PostgreSQL / MySQL primary 最大差異是 storage layer 重寫。傳統 SQL primary 把 storage 跟 CPU / RAM 綁定、storage 擴容要換 instance、replication lag 受 compute 影響。Aurora 把 storage 拉到分散式 log service、跨 6 個 storage node（3 AZ × 2 node）、storage 跟 compute 獨立擴。

容量特性：

單一 cluster 最高 storage：128 TB
最多 15 個 read replica（單 region 內）
read replica replication lag：10-30ms（vs 傳統 PostgreSQL 跨 AZ 可能秒級）
跨 AZ failover：< 30 秒（promote read replica）
Aurora Global Database 跨 region replication：< 1 秒典型 lag

為什麼這個分離很重要：

傳統 PostgreSQL primary 上的 read replica 都靠 logical replication、會跟著 primary write load 走慢
Aurora storage 直接複製到 6 個 storage node、read replica 從 storage 讀、不靠 primary
→ read replica 大幅減少 lag、可以撐更多 OLTP read traffic
對應 9.C23 Netflix +75% 效能改善的關鍵原因

適用場景

按公開 case 提煉的典型適用場景：

1. 既有 PostgreSQL / MySQL 應用想要 managed：

wire protocol 相容，應用層改動通常集中在連線、參數與操作流程
ORM / driver / SQL 多數可保留，但 migration plan 仍要驗證 dialect 與 extension
對應案例：9.C23 Netflix — 多套 RDBMS（PostgreSQL、MySQL、Oracle）統一到 Aurora、+75% 效能、-28% 成本

2. 金融交易 / 體育博彩 OLTP：

強 ACID transaction
多 read replica 處理 query traffic、不影響寫
對應案例：9.C4 DraftKings — 每分鐘 100 萬 ops、200 個獨立資料庫、Super Bowl 流量 +50% 無影響

3. 受監管產業跨市場部署：

每個市場一個獨立 cluster、合規分割
對應案例：9.C14 Standard Chartered — 7 個受監管市場、各自獨立 Aurora、總吞吐 4000 TPS、10x 提升

4. 高峰流量 + 多 read replica 擴容：

read 高峰用 read replica 接、write 走 primary
對應案例：9.C28 FanDuel — 5-10x Super Bowl 峰值、直播 + 投注雙工作負載

5. Aurora Serverless v2 適用場景：

流量 unpredictable + sustained workload
自動 scale CPU / RAM，降低 instance class 管理負擔
適合：dev / test 環境、流量稀疏的多 tenant SaaS

6. Aurora Global Database：

跨 region async replication（< 1 秒 typical）
DR + 跨地理 read（write 在 primary region、read 可從 secondary region）
Global Database 是跨 region DR / read route，multi-region active-active write 要改看 Aurora DSQL

不適用場景

1. 跨雲需求：

Aurora 是 AWS-only、wire protocol 相容但 storage 是 AWS 專屬
替代：自管 PostgreSQL / MySQL on Kubernetes

2. 需要最新 upstream PostgreSQL / MySQL 特性：

Aurora 通常落後 upstream 1-2 個 major version
替代：RDS PostgreSQL（更接近 upstream）

3. 極端寫入吞吐：

單一 primary 寫入受 storage 設計限制（雖然比 PostgreSQL 快）
100K WPS 級別、考慮 sharding、CockroachDB、或 DynamoDB
對應 9.C29 Lemino — RDB connection limit 是 bottleneck、改 DynamoDB

4. 全球 multi-region active-active write：

Aurora Global Database 是 async、有 lag，write 仍集中在 primary region
替代：Aurora DSQL（2024 推出）、Spanner、Cosmos DB

5. 預算敏感的小 workload：

Aurora 比 self-managed PostgreSQL 貴 20-30%
小流量場景、自管 PostgreSQL on EC2 或 RDS 更便宜

跟其他 vendor 的取捨

vs RDS PostgreSQL / MySQL（同 AWS）：

Aurora：storage / compute 分離、更多 read replica、更快 failover、跨 AZ 自動 replication
RDS：純 managed PostgreSQL / MySQL、不重寫 storage、更接近 upstream
選 Aurora：需要 scale read replica 或 cross-AZ failover < 30 秒
選 RDS：需要最新 upstream 特性、預算更敏感

vs 自管 PostgreSQL / MySQL：

Aurora：託管、自動 backup / failover，降低日常 database operation
自管：彈性高、可自己 tuning、跨雲可用、預算可控
選 Aurora：團隊想把 DBA / SRE 操作責任轉交 AWS、AWS 生態深
選自管：跨雲需求、需要客製化、預算極敏感

vs CockroachDB：

Aurora：single-region scaling（一個 region 內擴）、AWS-only
CockroachDB：multi-region 強一致、跨雲可用、PostgreSQL wire protocol
選 Aurora：AWS-only + single-region OLTP
選 CockroachDB：需要 multi-region 強一致 + 跨雲 / on-prem 彈性

vs Aurora DSQL（2024-12 preview / 2025-05 GA）：

Aurora：single-region scaling、傳統 OLTP
Aurora DSQL：multi-region active-active write、serverless、強一致
選 Aurora：流量集中在一個 region
選 Aurora DSQL：需要全球 active-active
從 PG / Aurora PG 遷 DSQL 的完整 playbook 見 PG → Aurora DSQL Migration

vs DynamoDB：

詳見 DynamoDB vendor page 對比段。Aurora 是 SQL、DynamoDB 是 KV、適用場景不同。

vs Azure SQL Hyperscale：

設計理念類似（storage / compute 分離）
Aurora 在 AWS、Hyperscale 在 Azure
對應案例：9.C32 Clearent — Azure 生態的同類設計、5 億 payment txn / 年

容量規劃要點

從 09 案例庫提煉的 Aurora 容量規劃實踐：

1. read replica 是擴 read traffic 的主要工具：

最多 15 個 read replica、replication lag 10-30ms
read replica autoscaler 按 CPU / connection 自動加減
對應 9.C4 DraftKings 用多個 read replica 處理「比賽期間用戶查 balance」流量

2. 200 個獨立 cluster 模式：

Aurora 的實務設計通常用多個 bounded cluster 控制 blast radius
按業務切多個小 cluster（9.C4 DraftKings 200 個）、降低 blast radius
對應 microservice 私有 store（9.C23 Netflix 同樣思維）

3. Aurora I/O-Optimized：

2023-05 推出的 storage 配置
適合 I/O-heavy workload（write 多、scan 多）
比 standard storage 貴、但少 I/O 收費
對應 9.C4 DraftKings 用 I/O-Optimized 加速

4. Aurora Serverless v2：

ACU（Aurora Capacity Unit）為單位、自動 scale 0.5-128 ACU
適合 dev / test、稀疏 workload、unpredictable burst
不適合：sustained predictable high workload（provisioned 便宜）

5. Cross-region Global Database：

< 1 秒 typical replication lag、但是 async
secondary region 可 read，write 仍回 primary region
DR 切換通常 1-2 分鐘
對應 9.C14 Standard Chartered — 跨市場各自獨立 Aurora，合規邊界優先於 Global Database

6. Connection pool 仍是隱性限制：

Aurora 跟傳統 PostgreSQL 一樣有 connection pool 上限
應用層 + Aurora 之間建議用 RDS Proxy 做 pool 共享
對應 9.C29 Lemino — RDB connection limit 是 surge 場景的 bottleneck；Lemino 案例發生在 RDS，但 connection-bound 機制同樣適用 Aurora

Deep article（已完成）

本 vendor 現有 deep article 覆蓋 Aurora 從 storage architecture、fleet 治理到容量彈性、連線管理與 distributed 升級門檻的核心 production 議題：

主題	文章	對應 production 議題
quorum-based 分散式 log、韌性即性能、6-way replication	storage-architecture	4-of-6 write / 3-of-6 read、DraftKings 6ms 寫 / <1ms 讀 production reference
Cross-AZ failover lifecycle、< 30 秒 RTO、endpoint routing	cross-az-failover-rto	application DNS cache + connection pool 對齊、Standard Chartered 受監管獨立 cluster 而非 Global Database failover
15 replica 上限、lag profile、headroom 預留、fleet 治理 3 條 driver	read-replica-scaling	Aurora fleet 治理 SSoT、DraftKings headroom 預留、FanDuel 雙 SLO 並行
跨 region async replication、< 1 秒 lag、合規 anti-recommendation	global-database-multi-region	planned vs unplanned failover RTO、Standard Chartered 合規禁止跨境複製反指標
從自管 PostgreSQL / MySQL 遷到 Aurora（Type C operational redesign）	migrate-from-self-managed-pg-mysql	Standard Chartered 合規 lead time、Netflix 非 all-purpose store 邊界
ACU 自動擴縮、min/max 設定、混合 cluster、成本 crossover	serverless-v2-scaling	離峰浪費 vs 尖峰不足、穩定高負載 serverless 反而更貴
多 cluster 業務切分、blast radius 隔離、fleet 治理	multi-cluster-business-split	Netflix 微服務私有 store + DB 種類 consolidation 雙重成立
RDS Proxy connection multiplexing、pinning 陷阱、failover 加速	rds-proxy-connection-pooling	Lambda 連線風暴、pinning 讓 multiplexing 失效
standard Aurora vs Aurora DSQL 升級門檻取捨	aurora-vs-dsql-tradeoff	single-writer 上限 vs active-active distributed、何時跨 paradigm

I/O-Optimized vs Standard 成本對比由 Aurora PostgreSQL I/O-Optimized Cost 主寫（storage I/O 成本模型 SSoT），本 vendor 各篇提到 storage 成本時 cross-link 它、不重複展開。

跨 vendor entry：先看 CockroachDB vs Aurora DSQL vs Spanner 決策樹（distributed SQL 三選一 + 撞牆訊號分型），再決定是否進 Aurora overview。

後續擴充（仍待補）

Aurora Global Database write forwarding 深入
Babelfish（SQL Server 相容層）適用判斷
Blue/Green deployment 做 major version 升級
Backup / PITR restore drill（hands-on lab）

Anti-recommendation 與升級路由

Aurora 的 managed SQL 能把大量操作責任交給 AWS，但它仍保留 single-primary SQL 的資料模型與交易邊界。這一段先說何時維持 RDS / Aurora，再說何時升級 Global Database、Serverless v2、RDS Proxy、Aurora DSQL 或 DynamoDB。

機制 / 路線	維持簡單設計的條件	升級訊號	主要引用路徑
RDS PostgreSQL / MySQL	upstream 相容、成本、版本節奏比 storage 分離更重要	read replica lag、backup / failover、storage growth 成主題	PostgreSQL vendor、MySQL vendor
Aurora provisioned	workload sustained、容量可預測、團隊能管理 instance class	read replica、fast failover、storage autoscale 是主要需求	Replication Lag、Failover
Aurora Serverless v2	sustained workload 已穩定且 provisioned 成本較低	稀疏 tenant、dev/test、不可預測 burst	Cost Per Request、Scheduled Scaling
RDS Proxy	application pool 已能控制 backend connection	Lambda / surge / connection storm 造成 pool 壓力	Connection Pool
Global Database	single-region DR 已符合 RTO/RPO	跨 region read、regional DR、低 RPO 是產品需求	RTO、RPO、Stale Read
Aurora DSQL / Spanner / CockroachDB	single-primary write 仍足夠	multi-region active-active write、global strong consistency	1.11 全球分散式 OLTP
DynamoDB	SQL query 與 transaction 仍是主要價值	access pattern 固定、connection-free surge、KV latency 成主題	DynamoDB vendor

Aurora 的簡單路徑是先把 operation transfer 寫清楚。Backup、minor upgrade、storage growth、failover 與 read replica lag 交給平台後，schema design、query shape、transaction boundary、connection pool 與 cost guardrail 仍由 application / SRE 共同承擔。

Global Database 的升級路徑要先定義讀寫方向。它適合 DR 與跨地理 read，若業務需要多 region 同時寫入並保持強一致，應直接進入 Aurora DSQL、Spanner 或 CockroachDB 的 distributed SQL 比較。

已知 limitation 與後續路由

Aurora overview 目前完成 managed SQL 判斷。下一輪 deep article / playbook 應補 storage architecture、RDS Proxy、Global Database、Serverless v2、I/O-Optimized cost、PostgreSQL / MySQL → Aurora migration 與 Aurora → Aurora DSQL 的分歧路徑。

案例對照

案例	規模	教學重點
9.C4 DraftKings	1M ops/min、<1ms reads、6ms writes、200 個 DB	體育博彩金融帳本、按業務切 cluster
9.C14 Standard Chartered	4000 TPS、7 個受監管市場、10x 提升	受監管金融跨市場部署
9.C23 Netflix	+75% 效能、-28% 成本	多套 RDBMS 統一到 Aurora
9.C28 FanDuel	Super Bowl 5-10x peak	直播 + 投注雙工作負載

Aurora case 的讀法是看 operation transfer 如何變成容量與成本結果。DraftKings 與 FanDuel 提供 peak OLTP 訊號，Standard Chartered 提供合規分區訊號，Netflix 則提供多套 RDBMS 整併到 managed SQL 的組織與成本訊號。

反向 sibling 路由

Aurora 的反向 sibling 路由用來避免把 managed SQL 誤讀成唯一升級方向。若讀者從 PostgreSQL / MySQL 章節過來，先對照 PostgreSQL → Aurora 與 MySQL → Aurora；若核心需求是 connection surge，補讀 DynamoDB vendor 與 Lemino case；若核心需求是 multi-region active-active write，轉到 Spanner vendor 或 CockroachDB vendor。

這條路由的判準是先問「保留 SQL + 轉移 operation」是否足夠。答案成立時，Aurora 是 RDS / 自管 MySQL / 自管 PostgreSQL 的 managed endpoint；答案需要改成 global quorum、partition-key access pattern 或 document API 時，Aurora 應退到對照組，而非成為最後選項。

常見陷阱

誤以為 Aurora 等於無限擴：寫吞吐仍受 primary 限制，容量曲線和 distributed SQL 不同
忽略 read replica：把所有 query 打 primary，會浪費 read replica scaling 能力
跨 region 強一致誤解：Global Database 是 async 複製，multi-region active-active 要看 Aurora DSQL / Spanner / CockroachDB
connection pool 忽略：Aurora 仍是 PostgreSQL / MySQL、connection 上限有效
單一巨大 cluster：把所有業務塞進一個 cluster 會放大 blast radius，通常要按業務切

下一步路由

完整 T1 對照：01-database vendors index
平行：DynamoDB vendor page（NoSQL 對比）
上游：1.3 Transaction Boundary / 1.11 全球分散式 OLTP
下游：1.12 大規模 DB 遷移實戰（從 RDS / 自管遷到 Aurora）
跨模組：9.5 瓶頸定位流程、9.6 容量規劃模型
Last reviewed：2026-05-22（Aurora storage / Serverless / Global Database / I/O-Optimized 屬時間敏感 claim）
官方：Amazon Aurora、Aurora storage architecture

1.7 Schema Migration Rollout 證據（Schema Migration Rollout Evidence）實作示範

Mon, 11 May 2026 00:00:00 +0000

Schema migration rollout 證據（Schema Migration Rollout Evidence）的核心責任是把正式狀態的演進拆成可觀測、可放行、可停止與可回寫的服務路徑。這篇以訂單資料表的付款狀態欄位演進為例，示範資料庫變更如何從 schema design、backfill、cutover 交接到 evidence package、release gate 與 incident decision log。

服務路徑與狀態責任

這條服務路徑是 checkout-api -> order-db -> payment-callback -> reconciliation-job。Checkout 建立訂單時先寫入訂單主檔與付款待確認狀態；payment callback 會更新付款結果；客服後台與對帳 job 會讀取同一筆訂單狀態來判斷是否需要補償、退款或人工處理。

本篇示範的變更是把原本單一 status 欄位中的付款語意拆到 payment_state。這個欄位屬於正式狀態，會影響使用者看到的訂單結果、付款回呼的冪等更新、客服查詢與對帳流程，因此 rollout 的核心是讓新舊狀態語意在過渡期同時成立；DDL 只是其中一個執行動作。

這條路徑的前置概念來自 1.2 schema design 與資料建模、1.3 transaction 與一致性邊界與 1.6 資料庫轉換實作。1.2 定義欄位責任，1.3 定義哪些更新要在同一個交易邊界內成立，1.6 定義 expand、backfill、cutover 與 contract 的執行節奏。

Rollout 階段

Migration rollout 的責任是把一次高風險資料變更切成多個可驗證階段。每個階段都要有輸入條件、完成訊號與停止條件，讓團隊能在資料漂移擴大前停下來。

階段	服務責任	完成訊號
Expand	新欄位與新程式碼能和舊版本共存	新舊程式可同時讀寫，舊欄位仍可支撐服務
Backfill	歷史訂單補齊 `payment_state`	checkpoint 穩定前進，mismatch 維持在門檻內
Cutover	讀取路徑改以新欄位為主	新欄位讀取成功率與對帳結果達到放行條件
Contract	移除舊語意與舊寫入路徑	舊欄位已無服務依賴，回寫與監控已更新

這張表的重點是責任轉移。Expand 保護相容性，backfill 保護歷史資料，cutover 保護線上讀取，contract 保護長期維護成本；四者對應不同 evidence，也需要不同 release gate 判讀。

實作基準：先寫出狀態契約

狀態契約的責任是讓 migration 先有可驗證的語意邊界。這篇的範例把 orders.status 裡混合的訂單生命週期與付款語意拆開：訂單仍用 status 表示 created、fulfilled、cancelled 這類流程狀態，付款結果則交給 payment_state 表示 pending、authorized、captured、failed 與 refunded。

舊狀態	新欄位 `payment_state`	判讀理由
`pending_payment`	`pending`	訂單已建立，付款結果仍未確認
`paid`	`captured`	付款已完成，可進入出貨或履約流程
`payment_failed`	`failed`	付款失敗，需要重試或取消路由
`refunded`	`refunded`	付款已逆向處理，客服與對帳要可查
`cancelled_before_pay`	`pending`	沒有付款成功事實，只保留流程取消
`manual_review_required`	`pending`	付款狀態未完成，等待人工判讀

這張 mapping table 是 validation query、backfill job 與 incident decision log 的共同語意來源。Mapping table 留在工程師腦中時，後續 mismatch 會變成「資料看起來怪」；mapping table 進入 artifact 後，gate 就能判斷錯誤集中在哪個付款語意，而不是停在總筆數。

Expand：先建立相容窗口

Expand phase 的核心責任是讓新資料結構先進入 production，同時保留舊程式的可運作性。以 payment_state 為例，常見起點是新增 nullable 欄位、補上必要索引，並讓寫入路徑可以在新欄位缺值時仍使用舊 status 判讀付款狀態。

1ALTER TABLE orders
2  ADD COLUMN payment_state text NULL;
3
4CREATE INDEX CONCURRENTLY idx_orders_payment_state
5  ON orders (payment_state)
6  WHERE payment_state IS NOT NULL;

這段 SQL 的用途是示範 artifact 形狀。Nullable 欄位保留舊資料的相容窗口；partial index 讓新讀取路徑能先被驗證，同時避免把尚未 backfill 的歷史資料全部推進新查詢模型。不同資料庫會有不同線上 DDL 能力，release gate 要把 lock 行為、index build 進度與 replication lag 納入 checks。

應用程式在 expand 階段要支援 read compatibility。相容性較高的寫法是讀取時優先使用 payment_state，缺值時 fallback 到舊 status 的付款語意；寫入時則依交易邊界同步更新舊欄位與新欄位，直到 cutover 前都保留一致性檢查。

 1readPaymentState(order):
 2  if order.payment_state is not null:
 3    return order.payment_state
 4  return mapLegacyStatusToPaymentState(order.status)
 5
 6applyPaymentCallback(order, callback):
 7  nextPaymentState = mapCallbackToPaymentState(callback)
 8  update orders
 9    set status = mapPaymentStateToLegacyStatus(nextPaymentState),
10        payment_state = nextPaymentState
11    where id = order.id

這段相容讀寫的重點是「同一個 callback 只產生一個付款判讀」。舊欄位與新欄位可以同時存在，但它們要由同一份 mapping function 產生，否則 payment callback、客服修復與 reconciliation job 會各自形成一套隱性規則。

這裡要特別看 dual write 的風險。雙寫只表示兩個欄位都有被寫入，仍要用 validation query 驗證兩者語意是否一致。若付款回呼、手動退款與對帳修復走不同程式路徑，雙寫函式也要被這些路徑共同使用。

Dual-write divergence schema

Dual-write 的責任不只是「兩邊都寫」、是「兩邊寫的結果一致」。要證明這件事、需要明確的 divergence schema、否則事故當下無法區分 mapping bug 跟 race condition。

最小 divergence 紀錄欄位：

欄位	用途
`order_id`	哪一筆訂單
`legacy_value`	舊欄位寫入後的值
`new_value`	新欄位寫入後的值
`expected_new`	用 mapping function 從 `legacy_value` 推算的預期新值
`divergence_type`	`mapping-mismatch` / `race-condition` / `manual-override`
`write_path`	哪個程式路徑寫的（callback / refund / manual / reconciliation）
`detected_at`	偵測時間

expected_new 跟 new_value 對不上、表示 mapping function 在某些 path 沒被使用、是 mapping bug。legacy_value 跟 new_value 對不上、且 expected_new == legacy_value 對得上、是 dual-write 本身少寫一筆、可能是 race condition 或部分失敗。兩種情況的修法完全不同、不分類會在事故當下亂修。

Dual-write 失敗回退策略：寫舊欄位成功、寫新欄位失敗時、不能直接 retry 新欄位（會跟主寫入競爭）。實務做法是把 divergence 寫進 outbox / repair queue、由 backfill 同類流程補。對應 9.C16 SeatGeek 的 outbox-style 設計。

線上 DDL 的 vendor 差異

Expand 階段加欄位 / 加索引、不同資料庫的 阻塞行為 差異極大、選錯時機會直接讓 production 鎖表。

PostgreSQL：ALTER TABLE ADD COLUMN ... NULL 是 metadata-only、不重寫 table。ADD COLUMN ... NOT NULL DEFAULT ... 在 PG 11+ 才是 metadata-only。CREATE INDEX CONCURRENTLY 不阻塞寫入、但更慢、且 transaction 中不能用。ALTER TABLE ALTER COLUMN TYPE 通常會重寫整張表、要先評估規模。
MySQL / Aurora MySQL：ALTER TABLE ... ALGORITHM=INSTANT 是 8.0+ 的 metadata-only、5.7 則靠 ALGORITHM=INPLACE / LOCK=NONE。Aurora MySQL 還有 fast DDL（部分變更秒級完成、不重寫）。判讀重點是 explicitly 指定 ALGORITHM、不要讓 MySQL 自己選（可能掉回 COPY 算法、整張表複製）。
Spanner：schema change 預設非阻塞、後端 async 補欄位。新欄位 read 在 schema change 完成前可能讀不到、應用層要容忍。
DynamoDB：表本身沒 schema、但 GSI（Global Secondary Index）創建是 async、可能跑數小時、且新 GSI 在 backfill 完成前查不到完整資料。判讀重點：cutover 不能假設新 GSI 立即可用、要等 IndexStatus = ACTIVE。
Cosmos DB：document 級別無 schema、新 indexed path 加進 indexing policy 後、後端 re-index 整個 partition、期間 RU consumption 飆升。

各 vendor 的線上 DDL evidence 都要包含：操作開始時間、預估完成時間、是否阻塞讀寫、實際 lock duration。expand gate 通過條件不能只看 DDL 跑完、要看 所有副效應收斂（index status active、re-indexing 完成、replica 同步）。

對應 vendor pages：PostgreSQL、MySQL、Aurora、Spanner、DynamoDB、Cosmos DB 的線上 DDL 段。

Backfill：把歷史資料變成可驗證進度

Backfill phase 的核心責任是把歷史資料補齊成可追蹤、可暫停、可重試的進度。訂單表通常會同時承擔交易查詢、客服查詢與對帳查詢；backfill 若只追求速度，容易和線上流量競爭 I/O、放大 replication lag 或改變查詢計畫。

Backfill job 應以 checkpoint 管理進度。每批選取固定範圍的訂單，轉換 status 到 payment_state，寫入後立刻產生該批 validation query 結果。批次大小要能依延遲、鎖等待、replication lag 與線上錯誤率調整。

1checkpoint:
2  migration_id: orders-payment-state-2026-05
3  last_order_id: 18420000
4  batch_size: 5000
5  started_at: 2026-05-11T02:10:00Z
6  completed_at: 2026-05-11T02:12:40Z
7  rows_scanned: 5000
8  rows_updated: 4921
9  mismatch_count: 3

Checkpoint 的角色是把 backfill 變成可恢復流程。last_order_id 告訴下一批從哪裡繼續，rows_updated 與 mismatch_count 告訴 gate 這批是否可以被納入放行證據，時間欄位則讓 replication lag、slow query 與錯誤率能回到同一個觀察窗口。

Validation query 的責任是證明語意一致。最小集合包含總筆數、已補筆數、缺值筆數、新舊語意不一致樣本、每批耗時、慢查詢與 replication lag。這些查詢要保留 query link 與 time range，後續才能進入 4.20 Observability Evidence Package。

1SELECT
2  count(*) AS total_rows,
3  count(*) FILTER (WHERE payment_state IS NULL) AS missing_payment_state,
4  count(*) FILTER (
5    WHERE payment_state IS NOT NULL
6      AND payment_state <> map_legacy_status_to_payment_state(status)
7  ) AS mismatch_rows
8FROM orders
9WHERE id BETWEEN 18415001 AND 18420000;

Validation query 要和 mapping table 共用同一個語意。資料庫端缺少同一份 mapping function 時，查詢至少要把 mapping 規則展開成明確 CASE expression，並把 query version 保存在 evidence package；這樣事後才能知道 mismatch 是資料錯誤、mapping 規則改變，還是查詢本身落後。

Cutover：先切讀取，再收斂寫入

Cutover phase 的核心責任是把服務判讀權交給新欄位，同時保留可回退窗口。對訂單付款狀態來說，切換順序通常先從低風險讀取路徑開始，例如客服後台與內部對帳，再進入 checkout 查詢與使用者可見狀態；每一批切換都要有自己的 cutover window。

讀取 cutover 的 stop condition 要比寫入 cutover 更早觸發。新欄位讀取後出現 mismatch、客服查詢結果漂移、對帳 job 補償量異常時，先回到 fallback read，讓錯誤限制在判讀層，再重新驗證寫入收斂條件。

寫入 cutover 要確認所有更新來源都已對齊。付款回呼、手動修復、退款、訂單取消與 reconciliation job 都可能更新付款狀態；只切主 checkout 寫入路徑會留下長尾漂移。完成 cutover 前，要用 audit query 確認仍在寫舊欄位的程式路徑已經歸零或被納入例外清單。

Shadow read pattern：cutover 前的讀取驗證

Shadow read 的責任是讓新讀取路徑在 真實流量 下被驗證、但 不影響使用者結果。這跟 dual-write 是對偶機制：dual-write 證寫入收斂、shadow read 證讀取分歧。

實作模式：

每一筆讀取請求、同時用 舊邏輯 跟 新邏輯 查一次。
回給用戶的仍是舊邏輯結果（用戶體驗不變）。
在背景把兩個結果差異寫進 divergence log。
收集足夠樣本後、再決定切換 cutover。

 1readPaymentStateWithShadow(order):
 2  legacy = mapLegacyStatusToPaymentState(order.status)
 3  new_result = order.payment_state ?? legacy
 4  if legacy != new_result:
 5    asyncLogDivergence({
 6      order_id: order.id,
 7      legacy: legacy,
 8      new: new_result,
 9      sample_at: now(),
10      caller: requestContext.caller,
11    })
12  return legacy  // 用戶仍拿舊邏輯結果

Shadow read 的判讀重點：

抽樣率：1% / 10% / 100% — 高流量場景全量 shadow 會雙倍 DB 讀取、要先評估容量。Cosmos DB / DynamoDB 的 RU 成本要乘 2。
分歧分類：跟 dual-write 一樣、divergence 要分類（mapping bug / race condition / stale read）、不分類無法定位修法。
覆蓋條件：要驗證所有 caller path（checkout / support / reconciliation / external API）都跑過 shadow、否則 cutover 後可能踩到沒測試過的 path。
退場條件：shadow read 不該長期跑、會增加負載。設明確 sunset deadline、cutover 完成後一週內移除。

對應 9.C20 Zomato TiDB → DynamoDB migration — migration 期間用 shadow read 持續驗證 mapping 規則、抓到 mapping drift。

Dual-write 跟 shadow read 的選擇不是互斥、是依風險組合：

風險場景	建議組合
新邏輯只影響讀取（cache、index）	shadow read 即可、不需要 dual-write
新欄位是 source of truth	dual-write 必要、cutover 前加 shadow read 驗證
跨 service 共用欄位	dual-write + shadow read + cross-service contract test
跨 region migration	dual-write + shadow read + 跨 region replication evidence

Multi-region 與跨服務協調

Migration 跨越 region 或多個 service 時、rollout 順序錯誤是最常見的失敗模式。Service A 切到新欄位、service B 還在讀舊欄位、結果整條業務流量看到不一致。

Multi-region rollout 順序

跨 region 的 schema migration 要從 最後寫入點 開始 expand、從 最後讀取點 開始 cutover。先 expand 寫端、再 expand 讀端；先 cutover 讀端、再 cutover 寫端。順序反了會在過渡期讀到沒被寫的新欄位、或寫了沒被讀的新欄位。

實務步驟：

Schema expand：所有 region 同步加新欄位（先寫端再讀端、不能跳）。確認跨 region replication lag 在新欄位上收斂、再進下一步。
Backfill：可以平行跑、但每 region 各自 checkpoint、不共用。某 region backfill stuck 不應該卡住其他 region。
Cutover read：region by region 切讀、用 canary region 先試 24-48 小時、再擴散。
Cutover write：所有 region 都切完讀、再統一切寫。寫端切換比讀端更敏感、跨 region 寫差異會放大成跨 region inconsistency。

對應 1.11 全球分散式 OLTP 的跨 region consistency 段。

Cross-service migration 協調

當 schema 變更影響多個 service 時、API contract 是 鬆耦合 介面、不該讓所有 service 同步切換。

協調機制：

新欄位先在 API 是 optional：API contract 加新欄位、預設 nullable / optional。下游 service 可選擇何時讀。
舊欄位保留至少一個版本週期：API 不能跟 DB schema 同步 contract、否則下游沒時間切。實務上保留 1-2 季、給下游充足 cutover 窗口。
owner-by-owner cutover roster：明確列出每個下游 service 的 owner、預計 cutover 時間、目前狀態。常用工具是共享 dashboard、不是散落的 ticket。
Contract test：每個下游 service 對新欄位都要有 contract test、在 CI gate 跑過。避免上游 cutover 後下游才發現沒讀對。

對應案例：9.C20 Zomato TiDB → DynamoDB — 跨多個 service 的 access pattern 變更、必須每個 service 各自驗證、不能假設「DB 切了就好」。

Evidence Package

資料庫 migration 的 evidence package 負責證明資料演進是否可判讀。這份 package 要把 validation query、時間窗、資料限制與 owner 包成後續放行與事故判斷可引用的證據，dashboard 只作為摘要入口。

欄位	訂單欄位演進中的內容
Source	validation query、DB metric、migration job log、audit log
Time range	expand、backfill、cutover 各階段的查詢窗口
Query link	row count、mismatch sample、replication lag、slow query
Owner	database owner、checkout owner、reconciliation owner
Data quality	query 延遲、replica freshness、sample completeness
Confidence	confirmed / suspected / needs follow-up
Known gap	未覆蓋的手動修復路徑、低流量 tenant、延遲回呼

Source 欄位要保留資料來源的能力邊界。Validation query 能證明欄位語意一致，DB metric 能看出 latency 與 lag，job log 能追進度，audit log 能判斷是否有高權限修復行為。把這些來源混在一起會讓下游誤判證據的用途。

Data quality 欄位要直接寫出限制。若查詢只跑 primary、replica lag 還在回復、某些 tenant 因資料遮罩未被抽樣，這些限制要跟 evidence 一起交給 release gate，讓 gate 能以證據完整度決定是否放行。

 1evidence_package:
 2  name: orders-payment-state-cutover-batch-37
 3  source:
 4    - validation_query: q_orders_payment_state_batch_37
 5    - db_metric: replication_lag_orders_primary
 6    - job_log: backfill_orders_payment_state_2026_05
 7  time_range: 2026-05-11T02:10:00Z/2026-05-11T02:20:00Z
 8  owner:
 9    database: data-platform-oncall
10    service: checkout-oncall
11    reconciliation: finance-ops-owner
12  data_quality:
13    replica_freshness: "primary only; replica lag still recovering"
14    sample_completeness: "tenant tier enterprise covered; sandbox tenants excluded"
15  confidence: suspected
16  known_gap:
17    - "manual refund repair path not yet sampled"

這份 package 故意把 confidence 標成 suspected。原因是 evidence 已能支持 backfill 繼續前進，但還不足以支持使用者可見讀取 cutover；這種中間狀態要被明確寫出，gate 才能做分階段決策。

Release Gate

Schema migration 的 release gate 負責判斷下一階段是否可以放行。它接收 evidence package，但決策語言要回到 6.8 Release Gate 與變更節奏：Gate decision、Checks、Stop condition、Rollback window、Owner。

Gate 欄位	這條路徑的最小內容
Gate decision	放行下一批 backfill、暫停 cutover、回到 fallback read 或 fail-forward
Checks	compatibility result、mismatch rate、replication lag、slow query
Stop condition	mismatch 超門檻、交易錯誤率上升、lag 超窗口、客服查詢漂移
Rollback window	讀取 fallback 可用時間、舊欄位可支撐多久、contract 前最後回退點
Owner	migration owner、service owner、on-call owner

Gate decision 要用服務語言書寫。migration pass 這種結論對下游不夠具體；放行 10% 訂單 backfill、暫停使用者可見讀取 cutover、維持 fallback read 24 小時 才能讓執行團隊知道下一步。

Rollback window 是資料庫 migration 的關鍵欄位。Expand 與 backfill 階段通常能回到舊讀取；cutover 後仍可 fallback；contract 後舊語意被移除，回退會變成資料修復或 fail-forward。gate 要在每階段說清楚目前還剩哪種退路。

 1release_gate:
 2  gate_decision: "allow next 10% backfill; block customer-visible read cutover"
 3  checks:
 4    mismatch_rate: "0.04%, below 0.1% batch threshold"
 5    replication_lag: "p95 12s, below 30s stop condition"
 6    slow_query: "no new support-admin slow query above 500ms"
 7  stop_condition:
 8    - "mismatch_rate >= 0.1% for two consecutive batches"
 9    - "replication_lag >= 30s for 10 minutes"
10    - "support-admin query drift confirmed by reconciliation owner"
11  rollback_window: "fallback read available until contract phase starts"
12  owner: checkout-oncall

這份 gate record 把「繼續 backfill」和「暫緩讀取 cutover」拆成兩個決策。資料庫 migration 常見的判讀問題是 evidence 只支撐下一批資料修補，還支撐不了使用者可見行為切換。

Incident Decision Log

Migration 進入 production 後，pause、rollback 與 fail-forward 都是事故決策。這些決策要同步寫入 8.19 Incident Decision Log，讓事中交班與事後復盤能回放當時的證據與限制。

常見決策包括暫停 backfill、降低 batch size、回到舊讀取、停止 contract、手動修補 mismatch、選擇 fail-forward。每筆都要保留 Timestamp、Decision、Context、Evidence、Owner、Expected effect 與 rollback condition。

例如 cutover 後發現客服查詢 mismatch 升高，decision log 可以寫成：

 1incident_decision:
 2  timestamp: 2026-05-11T03:05:00Z
 3  decision: "rollback support-admin read path to legacy status fallback"
 4  context: "support-admin mismatch increased after internal read cutover"
 5  evidence:
 6    - query: q_orders_payment_state_support_mismatch
 7    - window: 2026-05-11T02:35:00Z/2026-05-11T03:05:00Z
 8    - interpretation: "suspected callback mapping drift"
 9  owner: checkout-incident-commander
10  expected_effect: "support ticket misclassification returns to baseline"
11  rollback_condition: "mismatch remains above threshold after 15 minutes"

這種記錄能避免事後只剩「當時有回退」的模糊敘事。後續 8.23 Control Plane Decision Log and Write-back 實作示範可承接同一組決策紀錄，把缺少 validation、owner 或 runbook 的地方回寫成改善項。

判讀訊號

判讀訊號的責任是讓讀者知道何時該繼續、何時該停、何時該改路線。Migration 訊號要同時看資料正確性、線上健康度與回退窗口。

訊號	判讀重點	對應動作
mismatch rate 持續低於門檻	新舊欄位語意大致一致	放行下一批 backfill 或低風險讀取 cutover
mismatch 樣本集中在特定 callback	轉換函式或特定付款路徑語意不一致	暫停 cutover，修 mapping 後重跑該批
dual-write divergence 分布偏向 mapping	mapping function 在某 path 沒被使用	找出該 path、強制走共用 mapping function
dual-write divergence 偏向 race	部分寫入失敗、寫順序問題	切到 outbox-based dual-write、別直連
shadow read 抽樣 RU 飆升	shadow 讀取沒設抽樣率、雙倍負載	降低抽樣率、或改成 off-peak shadow
replication lag 在 backfill 升高	migration 與線上查詢競爭資源	降低 batch size，避開 peak，延長觀察窗口
slow query 出現在客服查詢	新欄位索引或查詢模型未對齊	回到 fallback read，補 index 或改查詢條件
DynamoDB GSI 仍在 building	cutover 前依賴未 ACTIVE 的 GSI	等 GSI ACTIVE 再切讀、別假設立即可用
跨 region replica lag 在新欄位上漂移	expand 階段沒等所有 region 收斂	暫停 backfill、等 region 同步
某下游 service 沒 cutover	cross-service 協調沒做 contract test	補 contract test、推遲 contract 階段
contract 前仍有舊欄位寫入	更新來源尚未完全收斂	延後 contract，盤點寫入來源與 owner

這些訊號要放回服務路徑判讀。Mismatch 要看集中在哪個業務入口；若 mismatch 只出現在延遲付款 callback，它代表外部 provider 回呼語意未對齊。Replication lag 要看是否和 backfill 批次對位；若它只在 backfill 批次出現，gate 應調整 migration 節奏，再判斷 schema 設計是否需要修正。

Dual-write 跟 shadow read 的 divergence 要分開看 — 兩者偵測不同層的問題。Dual-write divergence 偏向 mapping bug 或 race condition；shadow read divergence 偏向讀取邏輯漂移或 stale read。混在同一個 dashboard 會讓 reviewer 看不出問題真正在哪一層。

常見誤區

把 schema migration 寫成 DDL 任務，會讓風險集中在切換當下。穩定做法是先建立相容窗口，再用 evidence 證明資料語意已經跟上，最後才收斂舊路徑。

把 validation query 當成事後對帳，也會削弱 rollout 控制。Validation query 適合在 expand、backfill、cutover 每一階段都產生證據，讓 release gate 能在風險擴大前停下來。

把 rollback 寫成單一動作容易誤導團隊。資料庫 migration 的 rollback 會隨階段改變：expand 可回退 schema 使用，backfill 可暫停與重跑，cutover 可回到 fallback read，contract 後多半只能做資料修復或 fail-forward。

把 dual-write 跟 shadow read 當成同一個工具。兩者偵測不同層、結合使用可以互補、互相替代會留下盲點。Dual-write 不跑 shadow read、cutover 後可能踩到沒驗過的讀取 path；shadow read 不跑 dual-write、新欄位可能在某些寫路徑根本沒被寫進去。

把線上 DDL 當「一個 SQL 跑完就好」。各 vendor 的 DDL 語意差異大、PostgreSQL 的 ADD COLUMN NOT NULL DEFAULT 在 PG 10 重寫整張表、PG 11+ 是 metadata-only；MySQL 不指定 ALGORITHM=INSTANT 可能掉回 COPY。Expand evidence 要包含 實際 lock duration、不是只看 DDL 是否回傳成功。

只在主寫入路徑切 cutover、忘記補償流程跟 reconciliation job 也會寫舊欄位。這些長尾寫入會在 contract 階段才暴露、那時候已經沒有 fallback 可走。Cutover 前要 audit 所有寫舊欄位的程式路徑、不只看主流程。

案例回寫

0.C4 營運後技術轉換可以回寫這篇的決策層。當服務營運後需要拆欄位、拆庫、分片或升級儲存引擎，先用 0.C4 判斷「為什麼要換」，再用本篇判斷「進入 production 後如何證明每一步成立」。

GitHub 2018 Oct21 MySQL Topology Incident 可以回寫這篇的事故層。該事件顯示資料一致性優先時，團隊需要可回放的 fail-forward / fail-back 判準；本篇則把這個需求落到 migration rollout 的 evidence、gate 與 decision log。

這兩個案例共同支撐的是「資料狀態演進需要證據閉環」。0.C4 提供轉換動機與選型壓力，GitHub 事故提供資料一致性與恢復決策的代價；兩者都不直接替代 validation query、release gate 與 decision log 的實作細節。

跨模組路由

與 1.2 的交接：欄位責任、命名與查詢模型回到 schema design。
與 1.3 的交接：付款回呼、手動修復與對帳更新的交易邊界回到 transaction boundary。
與 1.6 的交接：expand、backfill、cutover 與 contract 的執行流程回到資料庫轉換實作。
與 4.20 / 4.22 的交接：validation query、row count、lag 與 slow query 進入 Observability Evidence Package 與 Checkout API Evidence Package。
與 6.11 / 6.8 / 6.25 的交接：migration 可逆性與放行條件進入 Migration Safety、Release Gate 與 Provider Dependency Release Gate。
與 8.19 / 8.23 的交接：pause、rollback、fail-forward 與 write-back 進入 Incident Decision Log 與 Control Plane Decision Log and Write-back。

下一步路由

要把資料庫 migration 的 evidence 交給 release gate，接著讀 6.25 Provider Dependency Release Gate 實作示範，並把 provider 依賴示範中的 gate 欄位改寫成 migration gate 欄位。要看下一條分類服務路徑，接著進 02 Cache / Redis 模組的 Cache migration and stampede rollback 服務路徑。

跨 vendor schema migration 深入：

Spanner interleaved table 的 schema migration — 全球分散式表結構變更的 evidence shape
Aurora 從自管 PostgreSQL / MySQL 遷入 — schema 比對與 dual-write 證據鏈
Cosmos DB MongoDB API vs SQL API — multi-API document 在 rollout 階段的相容性 evidence

1.8 State Ownership 與 Query Boundary

Wed, 13 May 2026 00:00:00 +0000

State ownership 與 query boundary 的核心責任是先定義資料由誰承擔正式判斷、再定義不同查詢路徑能回答什麼問題。進入 MySQL、PostgreSQL、MSSQL 或其他資料庫前、讀者需要先知道資料庫同時是儲存工具與服務狀態的責任邊界。

本章從 source of truth 的責任分層開始、引入 CQRS / event sourcing / materialized view 等模式、最後處理四種 query 邊界的設計。讀完後讀者能回答：哪些資料是正式狀態、什麼時候該分讀寫 model、materialized view 怎麼用、replica lag 怎麼影響 query。

State Ownership

State ownership 的責任是判斷哪些資料是 source of truth、哪些資料屬於 cache、search index、event log 或報表副本。正式狀態會影響交易結果、權限判斷、對帳與客服修復、因此需要清楚的 owner、schema、驗證方式與變更流程。

訂單狀態、付款狀態、會員方案、權限授權與發票紀錄通常屬於正式狀態。商品搜尋索引、快取值、統計摘要與推薦結果通常是派生狀態；派生狀態可以錯過短暫更新、但正式狀態需要能被追溯、修復與稽核。

Canonical State vs Derived State

維度	Canonical state	Derived state
角色	source of truth	從 canonical 計算 / 同步
寫入	用戶 / 業務操作	從 canonical 推
一致性	strong / serializable	eventual 通常夠用
修復	必須能精確修復	可以「砍掉重建」
範例	訂單、付款、餘額	搜尋 index、recommendation、daily summary

Canonical state 的特徵：

業務決策依據（付款、權限）
不能從其他地方重建（一旦丟、無法找回）
需要 audit log、point-in-time recovery、backup
通常在 OLTP DB（PostgreSQL / Aurora / Spanner）

Derived state 的特徵：

從 canonical 推算出來
可以「rebuild」（lazy 或 eager）
失效可接受（用戶可能看到舊的）
通常在 cache / search / analytics store
對應案例：9.C6 Tinder ElastiCache 配對快取、9.C25 Tubi ML feature store feature

設計原則：

同一資料不能同時是兩個地方的 canonical → 衝突時不知道信誰
寫入永遠先寫 canonical、再 propagate 到 derived
derived 出錯只能 rebuild、不能拿來「修正 canonical」

CQRS 在資料庫情境的應用

CQRS 的概念定義、設計判準與代價見知識卡。本段聚焦在資料庫層面：state ownership 的決策如何影響你要不要分離讀寫模型。

State ownership 跟 CQRS 的交叉點是：當 canonical state 的 schema 為寫入正確性最佳化（normalize、強一致、transaction boundary 清楚），但讀取面的多種消費者各自需要不同的反正規化形狀（列表頁要扁平 summary、報表要聚合、搜尋要全文索引），canonical schema 無法同時服務這些讀取需求。這時候分離 write model 跟 read model 是解決形狀不對稱的方式。

資料庫情境的 CQRS 有不同的實作強度：

最輕量 — 同 DB 不同 query path：寫入走 canonical table，讀取走 materialized view 或反正規化 view。同一個 PostgreSQL 裡用 materialized view 就能實現最基本的讀寫分離，不需要兩個 DB、不需要事件同步。適合讀寫形狀不同但流量規模還不需要獨立擴展的階段。

中度 — 同 DB 加 read replica：寫入走 primary，列表跟報表走 read replica。Replica lag 決定哪些 query 能走 replica（見下方 Replica Lag 段）。適合讀取流量開始壓迫寫入的階段。

完整 — 獨立 read store：寫入走 OLTP DB，讀取走獨立的 analytics store（BigQuery、Athena）或搜尋引擎（Elasticsearch）。透過 CDC 或事件同步維護 read store。適合讀取形狀、流量、SLA 都跟寫入完全不同的階段。

對應案例：9.C17 BookMyShow — 交易層（OLTP）跟資料層（BigQuery / Athena）分開。9.C22 Wayfair — on-prem OLTP + GCP BigQuery analytics。

Event Sourcing 與 State Ownership

Event sourcing 的概念定義、設計判準與代價見知識卡。本段聚焦在資料庫層面：event sourcing 怎麼改變 state ownership 跟 query boundary。

Event sourcing 把 state ownership 的正式紀錄從 mutable row 改成 append-only event log。這個改變影響本章的每一個面向：

對 canonical / derived 分類的影響：採用 event sourcing 後，event log 是 canonical state，current state 變成 derived state。這跟傳統 CRUD 架構相反 — 傳統架構中 current state（mutable row）是 canonical，歷史紀錄（audit log）是 derived。

對 query boundary 的影響：event log 不適合直接服務交易查詢跟列表查詢（每次 replay 整條事件流太慢）。Event sourcing 幾乎必然搭配 projection 維護 read model — projection 持續消費事件流、更新反正規化的查詢 view。交易查詢讀 projection 的輸出而非直接讀 event log。

對修復流程的影響：傳統架構的資料修復是「直接改 row」；event sourcing 的修復是「發一筆補償事件（compensating event）」。修復本身也是事件、會被記錄在 event log 裡、提供完整的修復 audit trail。

Event sourcing 的設計門檻在於 projection 的維護跟 event schema evolution。Projection 數量增長後，每次 event schema 改版都需要同步更新所有 projection；projection 的 replay 跟 reconciliation 是長期運維的主要成本。這些代價決定了 event sourcing 適合「需要完整變更歷史」的業務場景（金融帳務、訂單流程、法規合規），而非所有資料存取場景。

Materialized View 在資料庫的應用

Materialized view 的概念定義見知識卡。本段聚焦在 OLTP 資料庫裡 materialized view 作為最輕量 read model 的具體實作。

Materialized view 是「同 DB 內最簡單的讀寫分離」。不需要事件同步、不需要獨立 read store、不需要 projection consumer — 資料庫自己定期執行查詢、存放結果。

跟 regular view 的差別：regular view 是 SQL 別名，每次 query 重跑底層查詢；materialized view 有實體儲存，query 時直接讀預計算結果。差別在 query-time cost — 複雜 JOIN / aggregation 重複跑時，materialized view 把計算推到 refresh 時、query 時接近零成本。

Refresh 策略：

全量 refresh：PostgreSQL 的 REFRESH MATERIALIZED VIEW，refresh 期間 view 預設 unavailable。
Concurrent refresh：PostgreSQL 的 CONCURRENTLY 模式，refresh 期間 view 仍可讀但資料可能 stale。
增量 refresh：PostgreSQL 的 pg_ivm、Oracle 的 fast refresh — 只更新變更的部分，成本低但配置複雜。
Trigger-based：特定 event 觸發 refresh，適合低頻變更的資料。

在 state ownership 的定位：materialized view 是 derived state，修復方式是 refresh（重建）而非直接修改。大量 materialized view 會拖累寫入吞吐 — 每次 base table 變更都可能觸發 refresh 計算。設計時要平衡 refresh 頻率跟 query freshness 需求。

跟觀測領域的對照：觀測領域的 recording rule 在概念上等同於 TSDB 層的 materialized view — 定期執行 query expression、把結果寫成新 series。兩者面對同樣的設計問題：refresh 頻率、freshness lag、維護成本與儲存增長。觀測領域的 CQRS 特化應用見 4.23 觀測查詢設計。

Query Boundary 四種

Query boundary 的責任是讓不同查詢路徑承擔不同服務問題。交易查詢、列表查詢、報表查詢與對帳查詢都可能讀同一張表、但它們的正確性、延遲與資料新鮮度要求不同。

查詢類型	服務責任	典型 latency	容忍 stale	風險
交易查詢	支援使用者當下動作、例如付款、下單、授權	< 100ms	不容忍	延遲或錯誤會直接影響交易結果
列表查詢	支援使用者瀏覽與管理、例如訂單列表、會員清單	< 500ms	可容忍秒級	可能放大 index、pagination 與排序成本
報表查詢	支援營運分析、財務統計與趨勢判讀	秒到分鐘級	可容忍 hour 級	容易壓迫線上資料庫與混淆資料時效
對帳查詢	驗證正式狀態與外部事實是否一致	分鐘到小時級	視業務	查詢定義錯誤會造成錯修或漏修

這四種查詢混在一起時、資料庫會同時承擔低延遲交易與高成本分析、最後讓任何一種資料庫選型都變得模糊。

交易路徑的邊界

交易路徑的責任是維持使用者動作的即時正確性。它需要短查詢、明確 index、可控 transaction boundary 與清楚 timeout。

交易路徑的設計要把報表聚合或長時間掃描移到其他查詢路徑。若下單 API 同時查歷史報表、計算大範圍統計或同步重建派生狀態、交易延遲會被非交易責任拖慢。

對應 9.C4 DraftKings — 200 個獨立 Aurora cluster 把不同業務 transaction 分開、避免互相影響。

列表與報表的邊界

列表查詢的責任是支援產品體驗中的瀏覽與定位。列表查詢需要穩定排序、分頁策略、篩選條件與查詢成本界線；它應建立自己的讀取模型或索引策略、避免直接借用交易查詢的資料模型造成 slow query、排序漂移與 pagination 重複。

報表查詢的責任是支援分析與決策。報表通常可以接受資料延遲、因此更適合使用 read replica、materialized view、ETL 或 analytics store。把報表直接壓在線上 primary 上、會讓交易服務承擔不必要的容量風險。

對應 9.C22 Wayfair hybrid burst、9.C17 BookMyShow — 交易層跟資料層分開部署。

對帳查詢的邊界

對帳查詢的責任是驗證正式狀態是否與外部事實一致。付款、發票、庫存與訂閱方案都需要對帳查詢、但對帳查詢要保留時間窗、資料來源、差異定義與人工修復入口。

對帳查詢承擔比報表更直接的修復責任。報表回答「現在看起來如何」、對帳回答「哪一筆正式狀態需要修復」。因此對帳查詢結果要能進入 Observability Evidence Package 與 Incident Decision Log。

詳見 1.9 Reconciliation 與 Data Repair。

Replica Lag 對 Query Boundary 的影響

當應用使用 read replica 擴 read traffic 時、replica lag 會直接影響 query boundary 設計。

典型 lag：

PostgreSQL streaming：< 100ms（同 AZ）
Aurora：10-30ms（同 region）
跨 region replica：秒級到分鐘級

不同 query 對 lag 的容忍：

交易查詢：不可容忍 lag、必須走 primary
read-after-write（剛寫完查自己）：必須 primary、或 session sticky
列表查詢：通常容忍 lag < 1 秒
報表查詢：lag 分鐘級可接受
對帳查詢：通常用 batch、lag 不關鍵

Stale read 容忍策略：

「能容忍秒級 stale」的 read → replica（用戶 profile、報表）
「不能 stale」的 read → primary（剛寫入後的查詢、餘額確認）
read-after-write：用 session token 標記「剛寫過」、N 秒內讀走 primary

對應 1.1 高併發資料存取的「Read Replica Scaling」段。

選型前判準

資料庫選型前要先回答四個問題：

哪些資料是正式狀態、哪些是派生狀態
哪些查詢屬於交易路徑、哪些可以延遲或離線化
哪些查詢結果會觸發修復、退款、補償或人工決策
哪些資料需要 audit、masking、retention 或刪除責任

這些問題決定後續該比較 relational database、document database、search index、analytics store 還是 cache。工具差異要放在責任邊界之後討論。

實體服務討論承接點

實體資料庫文章要承接本篇的 state ownership 與 query boundary。PostgreSQL、MySQL、MSSQL 或其他 relational database 的比較、應先問它們如何支援正式狀態、交易查詢、列表查詢、報表查詢與對帳查詢、再進入索引、隔離層級、replica 或工具語法。

若主問題是正式狀態與交易一致性、後續文章要優先比較 transaction、isolation、index 與 migration 能力。若主問題是報表與搜尋、後續文章要評估 read replica、materialized view、search index 或 analytics store。若主問題是對帳與修復、後續文章要比較 validation query、audit log、backup/restore 與資料修復流程。

案例對照

案例	state / query 設計重點
9.C4 DraftKings Aurora	200 個獨立 cluster 隔離 transaction scope
9.C17 BookMyShow	OLTP 交易層 + BigQuery / Athena 分析層
9.C22 Wayfair	on-prem OLTP + GCP BigQuery 分析、典型 CQRS 配置
9.C25 Tubi	feature store（derived state）、跟 source 分離
9.C27 Disney+	watch list（user state）跟 content metadata 分層

跨模組路由

與 1.2 的交接：欄位與索引語意回到 schema design
與 1.3 的交接：transaction boundary 設計影響哪些 query 走 primary、哪些可走 replica
與 1.7 的交接：正式狀態變更要進入 production rollout — Schema Migration Rollout Evidence
與 1.9 的交接：對帳查詢的下游修復 — Reconciliation and Data Repair
與 2 的交接：cache layer 是 derived state 最常見的形式 — 02 快取模組
與 4.20 的交接：query evidence 跟 reconciliation evidence — Observability Evidence Package

下一步路由

要進一步處理 schema 與資料模型、接著讀 1.2 schema design 與資料建模。要處理 schema 演進與正式狀態變更、接著讀 1.6 Database Migration Playbook 跟 1.7 Schema Migration Rollout 證據。要處理對帳跟資料修復、接著讀 1.9 Reconciliation。要設計 KV / Document 的 state ownership、接著讀 1.10 KV / Document 容量規劃。

Google Cloud Spanner

Wed, 13 May 2026 00:00:00 +0000

Cloud Spanner 是 Google 內部 2007 年起跑、2017 年開放為 GCP 服務的 全球分散式 SQL OLTP。內部撐 Google Ads / Play / Search 計費、外部支援 Blockchain.com、Sharechat、ZEE5 等。它的公開案例重點是每秒 10 億請求等級、線性擴展、強一致與 global distribution 可以同時成為 OLTP 設計目標。

教學路線：全球強一致與 TrueTime 成本

Spanner 服務頁的教學目標是把 global strong consistency、TrueTime、Paxos、region layout 與 processing unit 連成一條產品決策線。讀者讀完後要能判斷何時需要全球一致 SQL，並理解這種能力的 latency、成本與雲平台邊界。

學習段	核心問題	對應段落
Global consistency	強一致 SQL 為什麼需要時間邊界與 consensus	定位、適用場景、Linearizability
Region layout	instance config、leader region、replica 如何影響 latency	容量規劃要點、常見陷阱
Capacity unit	node / processing unit 如何取代傳統 shard 心智模型	容量特性、案例對照
Use-case pressure	billing、subscription、ticketing、金融交易何時需要 Spanner	適用場景、案例對照
替代路由	何時用 PostgreSQL、CockroachDB、Aurora DSQL、DynamoDB	不適用場景、跟其他 vendor 的取捨

定位：TrueTime + Paxos 的全球線性 SQL

Spanner 解決的是跨地理位置同時追求 strong consistency、linear scalability 與 global availability 的 OLTP 問題。

關鍵設計：

TrueTime API：用 GPS + 原子鐘提供「全球 unambiguous 時間戳」、誤差 < 7ms
External consistency（線性化）：跨節點交易順序跟 wall clock 一致
Paxos-based replication：跨 zone / region quorum
線性擴展：2 nodes → 45K reads/sec、4 nodes → 90K reads/sec、依此類推

容量特性（引自 9.C10 Spanner 案例）：

內部峰值：> 10 億 requests / sec
線性擴展（不像 USL 系統會在某點 plateau）
跨 region quorum 延遲：50-200ms（視 region 距離）
最小容量單位：100 processing units（PU）≈ 1/10 node、適合小負載

適用場景

1. 金融交易、ticketing inventory、payment ledger：

需要強一致，避免 double-spend、oversell 或帳務順序錯亂
全球用戶但需要原子性
對應案例：9.C10 Spanner — Google Ads 計費與 Google Play 訂閱都需要把每次計費事件放進可驗證順序

2. 全球用戶的 OLTP（不只 read replica）：

跨 region 寫入、各地用戶寫入本地 region 仍維持全球強一致
它承擔的是 multi-region write path，而非 single primary + 跨 region read replica
對應案例：Blockchain.com（高頻 crypto 交易、強一致）

3. 想擺脫 sharding 複雜度：

傳統大規模 SQL 常走應用層 sharding（管 shard key、跨 shard query、resharding）
Spanner 自動 partition，application 主要管理 schema、query shape 與 region layout
對應案例：9.C10 Spanner 案例 — 「節點數量是容量單位」，shard placement 由 Spanner 管理

4. PostgreSQL 相容路徑：

2024 後 Spanner 提供 PostgreSQL dialect interface
從 PostgreSQL 應用遷入 Spanner 變得容易
跟 CockroachDB / Aurora DSQL 類似的策略

不適用場景

1. 跨洲低延遲（< 50ms）需求：

跨洲 quorum 物理上 100ms+ 不可壓縮
替代：single-region OLTP（Aurora、Cloud SQL）+ eventual consistency 跨 region 同步

2. 高 throughput 但容忍 eventual consistency：

Spanner 強一致有溢價，eventual consistency workload 通常有更低成本選項
替代：Bigtable（wide-column、eventual）、DynamoDB Global Tables（KV、eventual）

3. 小規模 OLTP：

100 PU 起跳、月費約 $65 起、比 Cloud SQL 貴
流量 < 1000 RPS 的場景、Cloud SQL 更划算
Spanner 主要對 中大規模 + 全球 workload

4. 跨雲需求：

Spanner 是 GCP managed service，cross-cloud / on-prem 需求要看 CockroachDB、TiDB 或其他自管路線
替代：CockroachDB、TiDB（自管、可跨雲）

5. 需要 OLAP 分析能力：

Spanner 定位在 OLTP，analytics workload 交給 BigQuery 或其他 OLAP 系統
替代：跟 BigQuery 整合做 ETL、或用 Spanner Graph（2024 推出）

跟其他 vendor 的取捨

vs Aurora DSQL（AWS 2024 推出、概念對標 Spanner）：

Spanner：用 TrueTime hardware、生產驗證 17 年（Google 內部）+ 7 年（公開）
Aurora DSQL：新（2024）、PostgreSQL 相容、serverless
選 Spanner：GCP 生態、需要極致成熟度
選 Aurora DSQL：AWS 生態、需要 PostgreSQL ORM 相容

vs CockroachDB：

Spanner：managed、TrueTime hardware、GCP 限定
CockroachDB：自管、HLC + Raft（不靠 TrueTime）、跨雲
選 Spanner：想把 operation 交給 GCP managed service，並需要 Google 規模驗證
選 CockroachDB：跨雲 / on-prem、PostgreSQL 相容、自管彈性

vs TiDB：

Spanner：GCP-only、PostgreSQL-like
TiDB：可自管 + Cloud、MySQL 相容、中國 / 亞洲生態深
選 Spanner：英語 / 歐美生態
選 TiDB：MySQL 應用、亞洲市場

vs Aurora（traditional single-region scaling）：

Spanner：全球分散式
Aurora：single-region scaling
選 Spanner：流量明確跨 region + 需要強一致
選 Aurora：流量集中一個 region（多數情況）

vs Cosmos DB（multi-region write）：

Spanner：strong consistency 跨 region
Cosmos DB：5 個 consistency levels、AP 系統（含 strong 但語義不同）
選 Spanner：需要 linearizable（金融、ticketing）
選 Cosmos DB：可接受 session / eventual、Azure 生態、需要 multi-model

vs Bigtable：

Spanner：SQL、強一致、OLTP
Bigtable：wide-column、eventual replication、時序 / IoT / 大資料
兩者互補：Bigtable 承擔大資料 / wide-column，Spanner 承擔強一致 OLTP

vs PostgreSQL（baseline）：

PostgreSQL：single-primary、跨 region async replication、90% 場景夠用
Spanner：全球線性化、強一致跨 region、需要 GCP + 接受 latency / 成本
從 PostgreSQL 升級 Spanner 的判準：流量明確跨 region，且跨 region 一致性是 product requirement
詳見 PostgreSQL vendor page 取捨段 + 1.11 全球分散式 OLTP

容量規劃要點

從 09 案例庫 + Spanner 文件提煉：

1. 節點數量 = 容量單位：

節點配置通常用較長週期 review，並在事件高峰前預先調整
線性擴展讓 forecast 簡單（2x 流量 → 2x 節點）
對應 9.6 容量規劃模型的「不可水平擴容服務」反向 — Spanner 是 可水平擴容 但需要 提前 provision

2. 跨 region quorum 配置：

multi-region instance 可選擇哪些 region 是 voting member
voting region 數量決定 failure domain
跨大洲 voting 延遲高、跨大陸內可接受

3. 100 PU 起跳的 granular sizing：

早期 Spanner 最小單位 1 node（約 $1000+/month）、中小負載難用
後來推出 100 PU（1/10 node、約 $65/month）、讓小負載也能 evaluate

4. 跨環境與新產品能力要查官方文件：

Spanner 的跨環境、graph、PostgreSQL dialect 與 change streams 能力持續演進
實作前要用官方文件確認可用 region、版本、限制與 pricing

5. TrueTime 是 Spanner 價值之一：

Spanner 還有 schema migration without downtime、change streams、interleaved tables
評估 Spanner 要同時看跨 region 強一致與整體 SQL 工程能力

Deep article（已完成）

本批 4 篇 deep article 已完成、覆蓋 Spanner 從 TrueTime 到 Cloud SQL 遷移的核心 production 議題：

主題	文章	對應 production 議題
TrueTime 是手段、line-rate scaling 才是設計目的、commit wait 數學	truetime-api-depth	9.C10 Google internal dogfood 線性擴展模式、ε 暴衝失敗模式、cross-region voting latency 影響
external consistency / serializability / linearizability 精確定義差異	consistency-models-comparison	PG SSI / CockroachDB / Spanner / Aurora DSQL line-rate scaling 對照、9.C10 cross-region quorum 100-200ms
Schema migration without downtime + interleaved tables 物理 layout	schema-migration-interleaved-tables	TrueTime version timestamp、5 production 踩雷、跟 PostgreSQL online schema change 對照
Cloud SQL for PostgreSQL → Spanner（Type E paradigm shift）playbook	migrate-from-cloud-sql-pg	sizing barrier（100 pu 起跳）+ < 50ms write latency no-go、cost crossover 報告、9.C10 dogfood 邊界
Change Streams (CDC)：data change record、watch partition、下游整合	change-streams-cdc	OLTP 變更餵搜尋 / 快取 / 分析、child partition 接力、retention 失敗、跟 DynamoDB Streams 對照
PostgreSQL dialect vs GoogleSQL、相容子集邊界、dialect 不可逆	postgresql-dialect	PostgreSQL 生態遷入、相容性 audit、dialect 鎖定的高代價回退、何時選 PG dialect
Spanner Graph (2024)：property graph、跟 relational 共存、GQL	spanner-graph	多跳關係查詢、edge table layout 不可逆設計代價、super node 扇出、何時用專用 graph DB
Spanner ↔ BigQuery federation：OLTP/OLAP 分工、Data Boost	bigquery-federation	分析查詢拖垮 OLTP、Data Boost workload 隔離、federation vs change-stream 落地、何時分出去

DB4 cross-vendor entry：先看 CockroachDB / Aurora DSQL / Spanner 決策樹識別 driver path、再進本 vendor 深度。

後續擴充（仍待補）

Spanner Graph 進階查詢 lab（GQL pattern、super node 處理、遍歷效能調校）
Data Boost 容量規劃與成本模型 deep dive
Change Streams → Dataflow hands-on lab（建 stream、部署 pipeline、驗證 end-to-end）
Spanner regional → multi-region topology 升級 playbook

Anti-recommendation 與升級路由

Spanner 的 global strong consistency 是高價值能力，也會把 latency、region layout 與 GCP lock-in 帶進核心架構。這一段先說何時維持 Cloud SQL / Aurora，再說何時升級 Spanner、CockroachDB、Aurora DSQL 或 Bigtable / DynamoDB。

機制 / 路線	維持簡單設計的條件	升級訊號	主要引用路徑
Cloud SQL / Aurora	single-region primary 足夠、跨 region 只需 async DR / read	跨 region 寫入順序是產品契約、double-spend / oversell 代價高	Aurora vendor、RPO
Spanner regional	單 region 強一致與水平擴容已足夠	需要 multi-region availability、regional failure survival	Quorum、External Consistency
Spanner multi-region	GCP 生態、SQL workload、global consistency 是核心需求	跨洲 p99 目標過低、成本或 GCP lock-in 成為主要風險	Latency Budget、Global OLTP
CockroachDB	GCP-only managed 服務可接受	跨雲、on-prem、自管或 PostgreSQL wire 相容是硬需求	CockroachDB vendor
Aurora DSQL	團隊已在 GCP 或需要 Spanner 成熟度	AWS 生態、serverless distributed SQL、PostgreSQL 相容是主訴求	PG → Aurora DSQL Migration
Bigtable / DynamoDB	workload 可接受 eventual consistency 或 KV / wide-column	強一致 SQL 的協調成本高於產品收益	DynamoDB vendor

Spanner 的簡單路徑是先證明跨 region 一致性是產品需求。若只是想要全球 read latency，read replica、cache、edge KV 或 eventual consistency pipeline 可能更划算；Spanner 適合把「全球寫入順序正確」視為產品承諾的資料。

Region layout 的升級路徑要先定義 leader、voting replica 與使用者地理分布。跨洲 quorum 會把物理延遲放進 transaction path，因此 latency budget、降級策略與 read staleness policy 要一起寫進設計。

已知 limitation 與後續路由

Spanner overview 目前完成 global SQL 判斷。下一輪 deep article / playbook 應補 TrueTime、external consistency、PostgreSQL dialect、interleaved tables、change streams、Cloud SQL / PostgreSQL → Spanner migration 與 Spanner / BigQuery federation。

案例對照

案例	規模	教學重點
9.C10 Cloud Spanner	> 10 億 req/sec、線性擴展	全球強一致 OLTP 標竿

Spanner case 的讀法是先看一致性需求，再看容量數字。10 億 req/sec 證明它能水平擴展，但讀者真正要回收的是「計費、訂閱、庫存、交易順序」這類需要 global external consistency 的產品壓力。

反向 sibling 路由

Spanner 的反向 sibling 路由用來把 global strong consistency 和雲端代管責任一起判讀。若讀者從 PostgreSQL / MySQL 過來，先確認是否具產品契約等級的 external consistency 需求；若只是 managed SQL 與 replica scaling，回 Aurora vendor；若要 PostgreSQL-like distributed SQL 且需要自管或多雲彈性，對照 CockroachDB vendor；若 access pattern 是固定 KV / document，先看 DynamoDB vendor 或 Cosmos DB vendor。

這條路由的判準是交易順序是否跨 region 影響產品正確性。Spanner 的價值在 external consistency、schema 與 SQL 能力、全球 deployment 與 Google Cloud operation model 的組合；若產品只需要 eventual / session consistency，較輕的 NoSQL 或 managed SQL 常有更低成本。

常見陷阱

誤以為跨 region 強一致沒有延遲代價：跨洲 quorum 100-200ms 是物理成本
設計 schema 像傳統 PostgreSQL：Spanner 有 interleaved tables、適當用能加速查詢
所有讀取都用強一致：read-only transaction 可選 bounded staleness，reporting 類路徑常能用 stale read 換較低成本
單 region 用 Spanner：浪費、Cloud SQL / Aurora 更便宜
不評估 100 PU 起跳：早年 1 node minimum、現在 100 PU 起、small workload 也可以 POC

下一步路由

完整 T1 對照：01-database vendors index
平行：Aurora vendor、DynamoDB vendor、CockroachDB vendor
上游：1.11 全球分散式 OLTP
跨模組：9.6 容量規劃模型 — 全球 OLTP 的容量規劃特殊性
Last reviewed：2026-05-22（processing units / PostgreSQL interface / TrueTime 文件屬時間敏感 claim）
官方：Cloud Spanner、TrueTime: Time Distributed in Spanner

1.9 Reconciliation 與 Data Repair

Wed, 13 May 2026 00:00:00 +0000

Reconciliation 與 data repair 的核心責任是把資料錯誤從模糊異常轉成可驗證、可修復、可稽核的流程。進入特定資料庫或 ORM 前、讀者需要先理解資料修復屬於正式狀態責任的一部分。

本章從不一致分類開始、進入偵測模式（連續 vs scheduled）、處理修復策略（auto vs manual）、最後對接 audit trail 跟 backup recovery。讀完後讀者能設計：對帳機制、修復 runbook、evidence handoff、audit chain。

Reconciliation

Reconciliation 的責任是比較兩個或多個資料來源、確認正式狀態是否與外部事實一致。付款狀態要和金流 provider 對齊、發票狀態要和開票系統對齊、庫存狀態要和出貨或倉儲系統對齊。

對帳需要明確定義資料來源、時間窗、比對鍵、差異分類與 owner。這些欄位能把「資料看起來不一致」轉成可分派、可修復、可驗證的決策材料。

對帳系統的設計欄位

設計對帳作業時、要先把這幾件事談清楚、再寫 query。少談任何一項、對帳結果都會在事故當下被質疑可信度。

來源 A 與來源 B：明確指出哪個是內部 source of truth、哪個是外部事實。金流對帳的 A 是訂單表、B 是 provider 結算檔；庫存對帳的 A 是訂單庫存表、B 是倉儲 WMS 報表。兩邊都要有明確 owner、否則差異發生時沒人能解釋為何資料長那樣。

比對鍵（comparison key）：A 跟 B 要用什麼欄位對齊。最理想是雙方共用的業務 ID（例如金流交易序號）；次優是 timestamp + 業務外鍵組合；最差是用 fuzzy matching（金額 + 時間範圍）、這時對帳結果天然帶有噪音、要在 output schema 標示信心度。

時間窗（time window）：對帳要對哪段時間的資料、什麼時候做。每日對帳通常設定 T-1 整天、跳過今天（避免 in-flight 資料）；分鐘級對帳要明確處理 in-flight：是排除最近 N 分鐘、還是允許重複跑直到收斂。在跨時區業務裡、時間窗要對齊雙方 timezone、不然每天差異會穩定出現在 0:00 前後。

差異分類規則：mismatch 不是只有「不一致」一種。常見要再切：「A 有 B 沒有」（missing in B）、「B 有 A 沒有」（missing in A）、「兩邊都有但欄位不同」（value mismatch）、「同一個 key 在 A 有多筆」（duplicate）。每類差異的處理路徑跟 owner 都不同、不分類會讓修復決策無法分派。

Output schema：對帳產出的不是「對 / 不對」、而是一份結構化報告。最少要有：mismatch 樣本（不是全部）、總筆數與金額影響、覆蓋率（總共比對了多少筆）、未覆蓋資料（哪些 A 或 B 沒涵蓋）、結果時間戳。這份報告會被 4.20 Observability Evidence Package 收進釋出證據鏈、結構不穩定會讓上游 release gate 拒絕採信。

對帳跟 anomaly detection 的差異

兩件事都是「找資料異常」、但本質不同、不能互相替代。

對帳是 deterministic：給定兩個來源、結果是確定的差異集合、可以被任何工程師重跑驗證。anomaly detection 是 statistical：用模型或閾值判斷一筆資料是否「看起來不對」、結果帶機率、不同模型跑出來不一樣。

在金流、庫存、付款這類正式狀態場景、對帳是必須、anomaly detection 是補充。anomaly detection 適合抓「對帳沒設計到的維度」（突然某 tenant 訂單量爆增）、但不能用它當 source of truth、因為事故時無法回答「為何這筆被判定為異常」。

兩者輸出格式也不同：對帳輸出 mismatch list、anomaly detection 輸出 confidence score。把兩者混在同一份報告會讓 incident reviewer 無法判斷哪些是必修、哪些是可疑。

不一致的三種分類

不是所有「資料不一致」都一樣。按成因分三類、各有不同處理策略。

Temporal Inconsistency（時間性不一致）

來源：replication lag、async event delivery、eventual consistency
特徵：兩邊都是「對的」、只是 時間點 不同
例：cache 跟 DB 看到不同 value（cache 還沒 invalidate）、replica 跟 primary 不同步
處理：等待收斂或主動觸發 sync、不必修資料
持續時間：通常 < 1 秒到分鐘級

Structural Inconsistency（結構性不一致）

來源：schema migration 期間、dual-write 失敗、partial write
特徵：兩邊應該一致但實際不一致、其中一邊是錯的
例：訂單寫進主表但 line items 沒寫、外鍵 reference 一個不存在的 row
處理：必須修復、不能等
持續時間：永久（直到修復）

Semantic Inconsistency（語意不一致）

來源：業務邏輯 bug、應用層 race condition、人工誤操作
特徵：資料結構 OK、但 業務語意 錯
例：訂單付款狀態是 paid 但金流端是 refunded、帳戶餘額跟交易紀錄 sum 不符
處理：複雜、需要業務判斷哪邊是 source of truth
持續時間：永久（且容易擴大）

處理優先序：Semantic > Structural > Temporal。Semantic 影響業務最深、Temporal 通常自動收斂。

偵測模式

不同類型的不一致需要不同偵測模式。

Continuous Detection（持續偵測）

每筆寫入跑 sanity check（trigger、constraint）
應用層 invariant check
適合：structural inconsistency（讓 DB 自己擋）
成本：每筆寫入有 overhead

Scheduled Detection（定期對帳）

每 N 分鐘 / 每天跑對帳 query
跟外部 provider 比對
適合：semantic inconsistency（業務級對齊）
成本：對帳 query 本身耗資源

Sampling Detection（抽樣偵測）

不跑全表、抽樣 10% / 1% 跑 checksum
適合：大表（全表對帳成本高）
成本：可能漏掉低頻 inconsistency

Reactive Detection（反應式偵測）

用戶 / 客服回報後才查
適合：尾長 inconsistency（找不到通用 pattern）
成本：用戶體驗已受影響

對應 9.C20 Zomato — migration 期間 shadow read 持續對帳、抓 mapping 規則漂移。

Data Repair

Data repair 的責任是把已確認的資料差異修回正式狀態、並保留修復原因、範圍、證據與回退條件。修復可以是 SQL update、補事件、補發 webhook、重建 projection 或人工客服流程、但每種修復都要有範圍控制。

資料修復要先分成三種：

類型	說明	常見風險
欄位修復	修正單筆或小批正式欄位	mapping 規則錯誤會造成二次污染
派生狀態重建	重建 index、cache、read model	可能掩蓋正式狀態尚未修復
補償動作	補退款、補發票、補通知	可能產生重複副作用

修復前要先確認問題落在哪一層。正式欄位錯誤要修 source of truth；派生狀態錯誤要重建副本；外部副作用漏做要走補償流程。

欄位修復的判讀重點是 mapping 規則是否正確、因為錯誤規則會把單點差異擴成批次污染。派生狀態重建的判讀重點是 source of truth 是否已經正確、否則重建會複製錯誤。補償動作的判讀重點是副作用是否可逆、因為退款、通知或外部 webhook 可能已經被使用者或第三方看見。

Repair 原則

不管哪種修復、都遵守三個原則：

1. Idempotency（冪等）

同樣的修復跑兩次、結果跟跑一次一樣
用 WHERE current_value != target_value 而不是無條件 update
補通知 / webhook 帶 idempotency key、第三方可去重
對應 Idempotency 卡片

2. Auditable（可稽核）

每次修復都有 record：誰、什麼時候、改了什麼、為什麼
修復前 + 修復後的 snapshot 都要存
對應 Audit Log 卡片、1.5 Red Team 的 audit 段

3. Reversible（可逆）

萬一修復是錯的、能回退到 before state
不可逆操作（DELETE）必須有 dry-run、必須備份
對應 Rollback Window 卡片

修復前的 dry-run 與 impact assessment

修復前要先回答「這次修復會碰多少筆、影響多少業務、最壞情況是什麼」、才能進入執行。直接跑 update 是 production-grade 流程的反例、即使在 incident 壓力下也不能跳過這步。

Dry-run 的責任：把 update 改成 select、用同樣的 WHERE 條件、產出將被修改的資料樣本。Dry-run 結果要包含：影響筆數總計、影響金額或業務值（如果有）、affected tenant / user list 的抽樣、未涵蓋的邊界 case。Dry-run 跟正式修復必須共用 mapping 規則、否則 dry-run 結果無法當審核依據。

規模分級的執行策略：影響筆數會決定執行方式。

單筆到十筆：客服等級的修復、一名工程師執行 + 一名同儕審核 + audit log 即可。
百筆到千筆：要在低流量時段執行、分批跑、每批跑完比對 invariant、發現意外停下。
萬筆以上：當成 production deploy 處理、要有 deploy review、staged rollout（先 1% tenant、再 10%、再全量）、跟 oncall 同步。
跨表 / 跨 service：必須先做跨團隊 review、確認下游依賴（cache、search index、外部 webhook）的處理計畫、不能單一團隊獨自決定。

Impact assessment 的必看欄位：除了筆數、還要看 連帶影響。修復 orders 表會不會觸發 audit trigger 把每筆寫進 audit log 表？會不會觸發 outbox event 把每筆當成新事件對外發布？會不會讓某 tenant 的 metric 一次性異常、誤觸 alert？這些 second-order effect 在 dry-run 階段就要識別、否則修復本身會變成新事故。

Sandbox / staging 驗證：不可逆或大規模修復、先在 staging 跑一次、確認 query plan、執行時間、lock 行為。Production 規模沒辦法在 staging 重現的話、至少要在 production 的某個低風險 tenant / region 先試跑、再擴大。

Approval gate（4-eyes process）：超出單筆規模或修復金錢、權限、個資的場合、必須 兩位以上人員 各自看過 dry-run 結果再簽核。常見實作是：執行者提 PR / ticket 帶 dry-run output、reviewer 簽核後才能執行、執行後產出 audit log 帶兩人簽核紀錄。Reviewer 的責任不是橡皮圖章、是獨立驗證 dry-run 結果跟 incident 描述一致。

Repair Patterns

實務上常見的 repair pattern：

Pattern 1：條件式 UPDATE

最簡單也最安全的修復。

1UPDATE orders
2SET status = 'paid'
3WHERE id = 12345
4  AND status = 'pending'
5  AND payment_id = 'abc';

AND 條件確保只在 當前狀態符合預期 時才改、避免 race condition。

Pattern 2：批次修復 + 節流

大量資料修復、必須節流避免影響 production。

1-- 每批 100 筆、間隔 1 秒
2UPDATE orders SET status = 'fixed'
3WHERE status = 'broken'
4  AND id IN (SELECT id FROM orders WHERE status = 'broken' LIMIT 100);

對應 Backfill 卡片 — backfill 跟 batch repair 是同類技術。

Pattern 3：補事件 / 補 webhook

外部副作用漏做時、補發事件。

必須帶 idempotency key（third-party 才能去重）
紀錄補發原因（incident report 連結）
注意：補發前確認 third-party 是否真的沒收到

Pattern 4：重建 derived state

cache 跟 search index 是 derived state、出錯通常 砍掉重建。

不是直接修 cache value、是 invalidate 讓下次 read 重算
大規模重建用 batch job 跑、避免 thundering herd
對應 9.C25 Tubi feature store 重建模式

Pattern 5：Point-in-time Recovery

當資料 損毀且無法重建 時、靠 backup recovery。

PostgreSQL：WAL + base backup → PITR
MySQL：binlog + snapshot → PITR
Aurora：cluster snapshot + continuous backup
注意：recovery 期間可能要 整個 DB restore、影響範圍大

Repair Runbook

Repair runbook 的責任是讓資料修復可重複執行、並降低對當下工程師記憶的依賴。最小 runbook 需要包含：

差異查詢與 query link
影響範圍與 tenant / region / time range
修復方式與 dry-run 結果
審核 owner 與執行 owner
rollback condition 與後續 validation query

runbook 要和 validation query 共用語意。若查詢與修復程式用不同 mapping 規則、修復結果就難以被同一份 evidence 驗證。

Audit 與權限邊界

Data repair 常常需要高權限、因此必須接到 audit 與資料保護邊界。修復個資、付款、權限或方案資料時、要保留操作者、審核者、查詢範圍、寫入範圍與修復前後樣本。

Audit log 必要欄位：

timestamp（操作時間）
actor（誰執行）
reviewer（誰審核、如果是 4-eyes process）
query（執行了什麼 SQL / API call）
before / after snapshot（值的變化）
reason（為什麼做這次修復、incident ID）
rollback path（如何回退）

這裡要接到 7.7 Audit Trail 與 Accountability Boundary。資料修復同時是可靠性、資安與合規問題。

權限分離與憑證時效

修復權限不該是常駐權限。日常開發 / SRE 帳號只該有 read-only、修復需要時才透過 break-glass 流程申請臨時 write 權限。

常見實作：

角色分離：reviewer 跟 executor 是不同帳號、reviewer 不能執行、executor 不能 self-approve。系統強制檢查兩個帳號不同、避免一人偽造另一身分。
時效性憑證：申請 write 權限時帶 expiry（30 分鐘 / 2 小時）、過期自動回收。不是「給了就一直有」、避免遺留高權限帳號變成攻擊面。
範圍限定：申請時要指定哪張表、哪個 tenant / region。粒度不細的話、一次申請就拿到全 production write、超出實際需求。
同步 alert：高權限被啟用要同步發 alert 到 security channel、給 security team reviewer 看見。事後若 audit log 跟 alert 對不上、表示權限被繞過。

對應 Identity Access Boundary 跟 Secrets and Machine Credential Governance。修復權限管理跟 incident-time 緊急存取是同一套機制、不該各做各的。

跨服務 / 跨組織的對帳責任

當對帳跨團隊、跨子系統、跨外部 provider 時、責任不清是首要失敗模式。對帳結果在組織邊界穿越時、要明確標記每段的 owner、否則 mismatch 出現後、所有相關方都會說「不是我們的問題」。

跨服務對帳的責任切分：

資料 owner：誰擁有那張表 / 那組欄位、誰負責解釋為何資料長那樣。資料 owner 通常是寫入該表的服務團隊。
對帳作業 owner：誰負責定義 reconciliation query、跑、看結果。可能跟資料 owner 是不同人（例如平台團隊跑對帳、業務團隊擁有資料）。
差異處理 owner：mismatch 出現後、誰負責決定修復策略。通常跟資料 owner 一致、但跨團隊 mismatch 要先約定誰主導。
修復執行 owner：實際下 SQL / call API 的人。可能跟差異處理 owner 不同（後者決策、前者執行）。

四個 owner 在簡單場景可以是同一人、在複雜跨團隊場景必須清楚分派。AGENTS.md 規範優先序段的「明確 owner」原則在這裡指的是 對每一段流程 都有人能簽收、不是只指對帳這件事整體有 owner。

跨組織對帳的特殊問題：跟外部 provider（金流、物流、SaaS supplier）對帳時、對方不見得會接受你的對帳結果、也不見得會給差異列表。常見處理：

自己跑兩份對帳：A vs provider report（每天）、A vs provider API（即時抽樣）、兩份結果不同代表 provider report 本身有問題。
約定差異仲裁流程：簽 SLA 時就寫清楚、mismatch 出現後雙方各保留多久的資料、誰先給對方檢視。
不能依賴 provider 修：金流 provider 通常只負責對帳、不負責修你的 DB。修復永遠是你方責任。

跟 Backup / PITR 整合

備份的 權限獨立性 跟 attack surface 屬於 1.5 Red Team 備份段 — 本段聚焦 recovery 角度的資料修復責任。兩者互補：1.5 解決「備份本身怎麼防被攻擊」、本段解決「事故後怎麼用備份回復」。

當修復必須跨越「point in time」時、需要 backup 配合。

Snapshot-based recovery

整個 cluster 從 N 小時前的 snapshot 還原
影響：所有其他資料也回到那個時間點
適合：catastrophic data corruption

PITR（Point-in-Time Recovery）

snapshot + WAL / binlog replay 到指定時間
影響：只在指定時間點 stop replay
適合：「3 小時前 admin 誤刪一張表」這類精準回放

Logical backup（mysqldump / pg_dump）

整個 schema + data 的 SQL script
適合：跨環境遷移、特定表回復、小規模修復

Continuous archive

WAL / binlog 持續備份到 S3 / GCS
一直可以回放到 任何時間點
對應 9.C24 Genesys 99.999% — 高可用需要快速 PITR

Recovery 時的對抗壓力

PITR / snapshot recovery 不是純技術問題、會在事故當下面對「為了快、要不要跳檢查」的取捨。對應 VMware ESXiArgs 2023 ransomware recovery pressure — 虛擬化平台勒索後、團隊在 營運壓力 跟 資料可信度 之間擺盪：snapshot 是否乾淨、回復後資料是否被污染、跳過 integrity check 換 RTO 是否可接受。判讀重點：recovery 流程要事前演練過、否則事故當下不知道要 verify 什麼、容易在壓力下接受被污染的 backup。對應 8.5 Incident Decision Log、事故當下的取捨要寫進 decision log。

RTO/RPO 跟業務可接受中斷的對照表

業務可接受中斷時間是 RTO/RPO 的判讀對照基準。RTO（Recovery Time Objective、多久能恢復）跟 RPO（Recovery Point Objective、最多丟多少資料）是技術指標、要對照業務側的可接受上限才能判斷夠不夠。常見錯誤是把 RTO/RPO 訂在「技術上能做到的最佳值」、忽略業務實際的容忍範圍。

對應 Change Healthcare 2024 — 「定義核心流程的 RTO / RPO、讓資料修復時間跟業務可接受中斷時間明示對照、不藏在直覺」。事故當下發現「DB 能 2 小時恢復、但業務只能容忍 30 分鐘中斷」、來不及補救。

對照表設計：

業務流程	RTO（技術）	業務可接受中斷	落差處理
用戶登入	30 分鐘	5 分鐘	加 standby region failover
訂單寫入	1 小時	30 分鐘	加 outbox + replay
報表查詢	4 小時	1 天	RTO 充裕、不需投資
對帳 batch	8 小時	3 天	RTO 充裕
付款	1 小時	0（不能停）	必須 active-active

關鍵情境延伸：

付款（必須 active-active）：業務可接受中斷為 0、單一 region failover 都不能用（failover 期間用戶看到失敗）、必須多 region 同時寫入、靠 Aurora DSQL / Spanner / Cosmos DB multi-region write 撐。設計權衡是 跨 region 寫入延遲 跟 對帳一致性的特殊處理（同一筆款項可能在兩個 region 各被處理一次、要靠 idempotency key 去重）。詳見 1.11 全球分散式 OLTP。
訂單寫入（outbox + replay）：30 分鐘容忍區間夠用 outbox pattern — 訂單寫進 DB 同步寫進 outbox table、async worker 把 outbox event 推下游。即使下游中斷、訂單本身已落地、event 可在恢復後 replay。設計權衡是 outbox table 的儲存成本跟 replay 邏輯的冪等性、跟 03 訊息佇列模組的 outbox pattern 整合。
用戶登入（standby region failover）：5 分鐘容忍意味 自動 failover 必須在這時間內完成、人類介入做不到、要靠 DNS health check + Route 53 / Cloudflare 自動切流。權衡是 standby region 平時付閒置成本、跟 active-active 比、便宜但 failover 時有 1-3 分鐘延遲跟 cache miss。

落差是 投資訊號、不是「忽略它」。RTO > 業務容忍時、要嘛降 RTO（加 HA / DR 投資）、要嘛跟業務協商提高容忍（通常不接受）。

判讀重點：對照表要每年 review。業務模式變了（例如從 B2C 變 B2B 客服 SaaS）、容忍時間會大幅縮短、RTO 必須跟著降。

事故角色預定義

DB 事故當下、資安處置 跟 業務連續性處置 要 分軌並行、不是線性執行。這要求事先有 dual-track IC（Incident Command）角色、不是事故當下臨時拉人。

對應 Change Healthcare 2024 — 「技術處置與業務處置分軌並行的前提是事先有 dual-track IC 角色」。沒事先定義、事故當下會出現「資安 team 在隔離系統、business team 在喊客戶等不及」、兩條軌道互相干擾。

Dual-track IC 角色定義（以下為通用 IC 模型、非案例直接揭露；具體角色細分視組織規模調整）：

軌道	角色	責任
技術軌道	Tech IC	漏洞修補、系統恢復、技術決策（rollback / restart 等）
業務軌道	Business IC	客戶溝通、降級流程啟動、合規通報、業務 fallback
協調軌道	Overall IC	兩條軌道協調、跨軌道決策、對外發言
資料軌道	Data IC	資料完整性驗證、修復決策、audit chain
Comms 軌道	Communications Lead	內部通報、外部公告、media 應對

Overall IC 跟一般技術 IC 的差異：一般 IC 主要在技術軌道內決策（要不要 rollback、要不要重啟）；Overall IC 額外承擔 跨軌道仲裁 責任 — 當 Tech IC 想停服務止血、Business IC 想保服務維持收入、兩者衝突時、由 Overall IC 拍板。這個角色需要對技術跟業務都有足夠理解、不能只懂一邊；通常由高階工程主管或 CTO/VP Eng 兼任、不是輪值的 oncall。

Data IC 的特殊角色：跟其他軌道相比、Data IC 的決策時間軸最長 — 技術修復可能 1 小時完成、但 資料是否被污染、要不要 PITR、PITR 到哪個時間點 可能要 24-72 小時驗證。Data IC 不能被 Tech IC 跟 Business IC 的「快快上線」壓力推動、必須有獨立判斷權。實務上常見的失誤是讓 Tech IC 兼任 Data IC、結果為了 RTO 跳過 integrity check、事後發現資料污染擴大。

事先準備：

Primary + backup 雙人配置：每個角色都要有 primary + backup、避免單人不可用（休假、生病、被另一事故占住）讓事故當下卡住。實務上要有 指定流程 而非「臨時找誰」、避免事故當下浪費 30 分鐘喬人。
責任寫進 runbook：runbook 要列出每個角色該做什麼決策、不該做什麼決策（避免越權）。事故當下查職位、會在最壓力大的時候做組織決策、出錯機會高。
定期 tabletop 演練：演練的重點不是「技術修復對不對」、是「角色交接是否流暢」。Overall IC 跟 Tech IC 之間的權限邊界、Data IC 何時介入、Comms Lead 何時對外發言、都要在演練中試出來。
跨時區 follow-the-sun 輪值：B2B SaaS 跟全球業務、事故不分時區、要有 24/7 覆蓋。單一時區團隊在事故發生在凌晨時、人力不足或反應慢、會放大事故代價。

判讀重點：DB 事故不只是技術事件、會成為 跨多軌道 的事件。角色預定義是組織能力、不是技術能力、但缺它會放大技術事故的代價。

對應 8.5 Incident Decision Log 跟 7.13 Security Routing — 角色預定義是這些跨模組工作的前置。

Evidence Handoff

資料修復的 evidence handoff 要能支援 release gate 與 incident review。

欄位	內容
Source	reconciliation query、provider report、audit log
Time range	差異發生窗口與修復窗口
Query link	mismatch sample、修復前後驗證
Owner	data owner、service owner、reviewer
Data quality	抽樣覆蓋率、延遲、未覆蓋資料
Known gap	尚未確認的 provider callback、低流量 tenant

這份 handoff 要進入 4.20 Observability Evidence Package 與 8.22 Incident Evidence Write-back。

判讀訊號

訊號	判讀重點	對應動作
對帳差異率持續上升	上游邏輯有 bug、或時間窗對齊問題	修上游 + 確認對帳時間窗
同筆資料對帳 run-to-run 結果不同	對帳 query 沒處理 in-flight 資料邊界	排除最近 N 分鐘、或允許收斂多跑幾次
修復後不一致再次出現	沒修根因、只修了 symptom	找根因、增加 invariant check
修復影響超出預期範圍	mapping 規則錯誤、二次污染	立即停止修復、回退
修復沒 dry-run 直接執行	流程違規、事後無法佐證影響範圍	事後 audit、把 dry-run 列入 gate
Recovery 後 derived state 仍錯	重建 derived 時 source 還沒修	先修 source、再重建 derived
Audit log 缺欄位	事故時無法追究、難 rollback	補 audit schema、加 reviewer 欄位
高權限帳號在非 incident 時段啟用	可能誤用或攻擊面、break-glass 沒回收	立刻檢查 audit log、回收憑證
跨服務 mismatch、各方都推卸	對帳 owner 沒分派、責任空白	補資料 owner / 對帳 owner / 執行 owner
anomaly alert 跟對帳 mismatch 混報	兩種訊號性質不同、reviewer 無法判讀	拆 dashboard、deterministic 跟 statistical 分開

常見誤區

把對帳當成「定期 batch job」、不關心 當下不一致。實時對帳跟 batch 對帳是 不同工具、不能互相替代。

把資料修復當成「一個工程師動手改」、沒 audit、沒 review、沒 rollback。資料修復本質是 production 操作、跟 deploy 同等嚴格。

把 PITR 當成 常規修復工具。PITR 影響大、適合 catastrophic event、不適合單筆資料修復。

把 derived state 不一致跟 canonical state 不一致 混在一起 處理。derived 是再生的、canonical 是永久的、處理流程完全不同。

把對帳結果跟 anomaly detection 結果放同一份報告。前者是 deterministic、後者是 statistical、混報會讓 incident reviewer 無法判斷必修跟可疑。對帳 mismatch 要有獨立追蹤面板、anomaly 走另一條路徑。

跳過 dry-run、直接 update。即使單筆修復、也要先 select 看到當前 row、確認 WHERE 條件命中預期。incident 壓力下尤其容易跳、結果反而把單點問題擴成批次污染。

把修復權限當常駐權限發放。長期 write 權限放在工程師帳號上、會在事故無關時段被誤用、且事後無法區分「正常工作」跟「非法修復」。修復權限要時效化、申請即用即收。

案例對照

案例	reconciliation 重點
9.C20 Zomato	migration 期間用 shadow read 持續對帳
9.C4 DraftKings	體育博彩 ledger、結算後對帳
9.C14 Standard Chartered	跨市場銀行、每市場獨立對帳

實體服務討論承接點

實體資料庫文章要承接本篇的 reconciliation 與 data repair 責任。PostgreSQL、MySQL、MSSQL 或其他資料庫的差異、應放在它們如何產生 validation query、保留 audit trail、支援 point-in-time recovery、處理 replica lag 與控制修復權限。

若服務需要高頻對帳、後續文章要比較查詢成本、索引策略與 replica 讀取延遲。若服務需要高風險資料修復、後續文章要比較 transaction log、backup/restore、row-level audit 與權限分離。若服務需要跨系統補償、後續文章要把資料庫能力接到 queue replay 與 incident decision log。

跨模組路由

與 1.3 的交接：transaction boundary 決定哪些不一致可避免 — Transaction Boundary
與 1.5 的交接：audit 跟 access control — Red Team Data Layer
與 1.7 的交接：migration 後驗證 — Schema Migration Rollout Evidence
與 1.8 的交接：canonical vs derived 是修復的前置 — State Ownership
與 3.8 的交接：消息重放與補事件 — Queue Consumer Retry / Replay
與 4.20 的交接：evidence handoff — Observability Evidence Package
與 7.7 的交接：audit trail — Audit Trail and Accountability Boundary
與 8.22 的交接：incident evidence write-back — Incident Evidence Write-back

下一步路由

要處理 migration 造成的資料差異、接著讀 1.7 Schema Migration Rollout 證據。要處理事件漏發造成的副作用修復、接著讀 3.8 Queue Consumer Retry 與 Replay Handoff。要設計跨服務 reconciliation 跟 saga compensation、接著讀 1.3 Transaction Boundary 的 Saga 段。

Azure Cosmos DB

Wed, 13 May 2026 00:00:00 +0000

Azure Cosmos DB 是 Microsoft 全球分散式 multi-model database、提供 SQL / MongoDB / Cassandra / Gremlin / Table 五種 API、五個 consistency levels、自動 multi-region write。Microsoft 自家 Microsoft 365 用它做 analytics、ASOS 在 Black Friday 撐 1.67 億請求 24 小時、Minecraft Earth 測試 1M RU/s — 是 Azure 上 NoSQL / Document 工作負載的旗艦。

教學路線：Multi-model API 與全球寫入

Cosmos DB 服務頁的教學目標是把 API model、consistency level、RU/s、logical partition 與 multi-region write 放在同一個 Azure 服務決策中。讀者讀完後要能判斷 Cosmos DB 是遷移相容層、全球 NoSQL 平台，還是特定 Azure workload 的容量抽象。

學習段	核心問題	對應段落
API model	SQL API、MongoDB API、Cassandra API 各自服務哪種遷移或資料形狀	定位、跟其他 vendor 的取捨
Consistency level	session、bounded staleness、strong consistency 如何改變產品語意	容量規劃要點、Consistency Level
RU/s capacity	request unit 如何把 query、index、payload 轉成成本與節流	容量特性、案例對照
Global write	multi-region write 何時值得承擔衝突與一致性成本	適用場景、案例對照
替代路由	何時用 MongoDB、DynamoDB、Spanner、PostgreSQL 或 analytics	不適用場景、下一步路由

定位：multi-model + multi-region write

Cosmos DB 跟其他 DB 最大差異是 multi-model。一個服務同時支援 5 種 API、每個 API 對應不同資料模型。應用層選擇用哪個 API、底層是同一個分散式 KV store。

5 個 API：

SQL API：document（JSON）+ SQL-like query、Cosmos DB native
MongoDB API：wire-protocol 相容 MongoDB
Cassandra API：wire-protocol 相容 Cassandra
Gremlin API：graph database
Table API：簡單 KV（Azure Table Storage 升級版）

5 個 consistency levels（從強到弱）：

Strong：在支援的 account / region 配置內提供最強一致性，通常帶來最高 latency
Bounded staleness：訂版本 / 時間差異上限
Session：同 session 內強一致（最常用）
Consistent prefix：保證寫入順序
Eventual：最便宜、最終一致

容量特性：

容量單位：RU/s（Request Unit per second）— 把 read / write / query 統一抽象
1 RU = strongly consistent read of 1KB document
配置擴容延遲：99 百分位 5 秒內生效
每個 logical partition 上限：10,000 RU/s
測試最高：1,000,000 RU/s（Minecraft Earth 案例）

適用場景

1. Azure 生態的 multi-model 需求：

同一服務多種 use case（document、graph、KV 共存）
想把多個 NoSQL 資料模型集中在 Azure 服務邊界內治理
對應案例：9.C30 Microsoft 365 — Microsoft 自家用 Cosmos DB 撐分析平台

2. 全球零售 + 季節性高峰：

multi-region write 讓全球用戶寫入本地 region
對應案例：9.C21 ASOS — Black Friday 24 小時 1.67 億請求、3500 RPS 峰值、48ms 平均延遲

3. 全球分散式遊戲後端：

AR / 即時遊戲跨地區同步
session consistency 對遊戲足夠、不需 strong
對應案例：9.C11 Minecraft Earth — AR 遊戲玩家位置、跨 region 寫入

4. MongoDB 應用想要 managed + 全球分散：

Cosmos DB MongoDB API wire protocol compatible
應用層主要驗證相容差異，底層改成分散式架構
對應案例：9.C30 Microsoft 365 — MongoDB → Cosmos DB MongoDB API、planet-scale 分析

5. 想用 multi-region active-active write：

不像 Spanner / Aurora DSQL 是 PC 系統、Cosmos DB 是 AP 系統
用 LWW（Last-Writer-Wins）或 stored procedure 處理 conflict
適合可接受 eventual / session consistency 的 multi-region write workload；需要 global SQL linearizability 時轉 Spanner / Aurora DSQL

不適用場景

1. 跨雲需求：

Cosmos DB only on Azure
替代：MongoDB Atlas（cross-cloud）、CockroachDB（自管）

2. Linearizable 全球 OLTP：

Cosmos DB Strong consistency 的適用範圍要按 account / region 配置判讀；全球 linearizable SQL 需求通常轉 Spanner / Aurora DSQL
替代：Spanner / Aurora DSQL（真正全球 linearizable）

3. 預算極敏感的小 workload：

最低 400 RU/s（約 $25/month）
小流量場景、Azure SQL Database 更便宜

4. 純 OLAP 分析：

Cosmos DB 定位在 OLTP / document，analytics workload 交給 Synapse、BigQuery 或 Snowflake
替代：Azure Synapse、BigQuery、Snowflake

5. 嚴格 ACID 跨 partition transaction：

Cosmos DB Transaction 限 same logical partition
跨 partition 的 multi-row transaction 要改用 workflow、stored procedure 邊界或 distributed SQL
替代：Spanner / Aurora DSQL

跟其他 vendor 的取捨

vs DynamoDB（AWS）：

Cosmos DB：multi-model（5 API）、5 consistency levels、multi-region write
DynamoDB：KV 為主、strong / eventual consistency、Global Tables 以 LWW 處理 multi-region conflict
選 Cosmos DB：Azure 生態、需要 multi-model、需要 consistency 細粒度控制
選 DynamoDB：AWS 生態、純 KV、AWS-native 整合（Lambda、Streams）

vs Spanner（GCP）：

Cosmos DB：AP 系統、5 consistency levels、multi-model
Spanner：CP 系統、external consistency、SQL only
選 Cosmos DB：可接受 eventual / session、需要 multi-model
選 Spanner：需要 linearizability 與 SQL workload

vs MongoDB Atlas：

Cosmos DB MongoDB API：Azure-only、managed、global 強
MongoDB Atlas：跨雲（AWS / GCP / Azure）、原生 MongoDB 行為
選 Cosmos DB：已在 Azure、想要更好 global distribution
選 MongoDB Atlas：跨雲、需要 MongoDB 完整功能（aggregation pipeline 等 native 行為）

vs Cassandra / ScyllaDB：

Cosmos DB Cassandra API：managed Azure
Cassandra / ScyllaDB：自管、跨雲
選 Cosmos DB：Azure 生態、想把 operation 交給 managed service
選 Cassandra：跨雲、自管、極限 throughput tuning

vs Azure SQL Hyperscale：

Cosmos DB：NoSQL / document、global 分散
Azure SQL Hyperscale：傳統 SQL OLTP、storage / compute 分離、AWS Aurora 對應
選 Cosmos DB：document model、global 分散
選 Azure SQL：SQL workload、應用已用 SQL Server
對應 9.C32 Clearent Azure SQL Hyperscale — SQL 工作負載選 Hyperscale，document / NoSQL workload 才進 Cosmos DB

vs PostgreSQL（SQL baseline）：

PostgreSQL：SQL、強一致、single-primary、跨雲可用
Cosmos DB：NoSQL / multi-model、AP 系統、Azure-only、global 分散
選 PostgreSQL：SQL workload、跨雲、需要進階 SQL 特性
選 Cosmos DB：Azure 生態、document / KV / multi-model、需要 global distribution

vs Aurora（AWS managed SQL）：

Aurora：AWS、SQL（PostgreSQL / MySQL）、single-region scaling
Cosmos DB：Azure、NoSQL / multi-model、global write
兩者分別站在 cloud provider 與 data model 兩個維度；同需求下通常先看既有雲平台（AWS → Aurora、Azure → Cosmos / Azure SQL）

vs CockroachDB（cross-cloud distributed SQL）：

CockroachDB：跨雲、PostgreSQL wire、distributed SQL、強一致
Cosmos DB：Azure-only、multi-model、5 consistency levels、AP 系統
選 CockroachDB：要 SQL + 跨雲 + 強一致
選 Cosmos DB：要 NoSQL + Azure 生態 + 細粒度 consistency 選擇

容量規劃要點

1. RU/s 抽象化把 read / write / query 統一：

不像 DynamoDB 拆 RCU / WCU、Cosmos DB 用單一 RU
簡化容量規劃、但要算「不同操作各吃多少 RU」
1 RU = 1 KB strong read、寫 ~5 RU、複雜 query 數百 RU

2. partition key 設計跟 DynamoDB 一樣關鍵：

每個 logical partition 上限 10,000 RU/s
partition key 不均 → hot partition
對應 9.C11 Minecraft Earth — synthetic partition key 強制分散
詳見 Hot Partition 卡片

3. multi-region 配置：

開啟跨 region 後、容量在每個 region 都 mirror、成本乘以 region 數
對應 9.C24 Genesys — 跟 DynamoDB Global Tables 同類思維、各 region 獨立容量

4. Consistency level 影響成本：

Strong consistency：跨 region quorum、單個 read 約 2x RU
Session：cost 跟 eventual 接近、但提供同 session 一致
Eventual：最便宜

5. Autoscale provisioned throughput：

訂 max RU/s、實際用多少算多少（10% min）
適合：流量 unpredictable、想降低 on-demand 成本治理負擔

6. Serverless mode：

按 request 計費，適合稀疏與小流量 workload
適合：dev / test、小流量、稀疏 workload

Deep article（已完成）

本批 5 篇 deep article 已完成、覆蓋 Cosmos DB 從 consistency level 選擇到 multi-region write conflict 的核心 production 議題：

主題	文章	對應 production 議題
Session 預設、Bounded staleness、Strong 邊界跟跨 collection 分流策略	consistency-levels-engineering	Session 為何是 production 預設、per-request override、Strong + multi-region 互斥 cross-link
Synthetic / composite / hierarchical partition key + 不可逆性硬約束	partition-key-design	10000 RU/s 上限、不可改、跟 DynamoDB / MongoDB 可逆性對比
RU/s 思維、payload、index、provisioned vs autoscale vs serverless	ru-cost-model-sizing	ASOS Black Friday + Minecraft Earth 1M RU/s 壓測、autoscale reactive 限制
MongoDB API vs SQL API：三型遷移、dogfood、multi-model、跨雲 hedging	mongodb-api-vs-sql-api	Microsoft 365 dogfood 邊界、document model 遷移三型 SSoT
Multi-region active-active + LWW / custom merge / Strong 互斥	multi-region-write-conflict	Strong + multi-region 互斥的 AP 取捨 SSoT、廣告 SLA vs 實測可用性鏈路

第二批 deep article 把 Cosmos DB 從核心容量 / 一致性議題推進到 server-side 邏輯、CDC、不同產品釐清與 OLTP / OLAP federation：

主題	文章	對應 production 議題
Change Feed (CDC)：persistent change log、Azure Functions trigger	change-feed-cdc	latest-version vs all-versions-and-deletes、lease container、DynamoDB Streams 對照
Stored procedure / trigger（JavaScript）：partition-scoped 交易	stored-procedure-trigger	single-partition atomicity、bounded execution、多數邏輯應在 application 層
Cosmos DB for PostgreSQL（Citus-based 分散式 PG、不同產品）	cosmos-for-postgresql	定位釐清、distribution column、何時選它而非核心 Cosmos / single-node PG
Cosmos DB ↔ Azure Synapse Link：OLTP / OLAP federation	synapse-link-federation	analytical store、HTAP、RU 隔離、何時 federate 到專用 OLAP

Migration playbook：

主題	文章	對應遷移議題
從 MongoDB / Cassandra 遷入 Cosmos DB	migrate-from-mongodb-cassandra	protocol-compat API drop-in（Type B）vs native API paradigm shift（Type E）、相容性邊界、dual-write cutover

跨 vendor entry：先看 DB3 vendor selection（MongoDB / DynamoDB / Cosmos DB 三方選型 + workload shape 前置判讀），再進本 vendor 的 deep article。

後續擴充（仍待補）

Hierarchical partition key 與 partition split / merge 運維
Autoscale vs serverless 的成本切換決策樹
Hands-on lab 入口（對齊 PostgreSQL / MySQL / SQLite hands-on 形態）
Backup / PITR 與 continuous backup tier 選擇
Gremlin / Table API 的適用邊界與遷入

Anti-recommendation 與升級路由

Cosmos DB 的 multi-model 能把遷移阻力降到很低，也會讓 API compatibility、RU/s、partition key 與 consistency level 同時變成設計責任。這一段先說何時維持單一 API model，再說何時升級 multi-region write、Synapse Link、MongoDB Atlas、Spanner 或 Azure SQL。

機制 / 路線	維持簡單設計的條件	升級訊號	主要引用路徑
單一 API model	document / MongoDB / Cassandra / Table 語意清楚分工	多 API 共用同一資料語意、相容層行為差異開始影響 production	MongoDB vendor、Database
Session consistency	user session 內讀寫一致已滿足產品需求	金融 / 庫存 / 票務需要更強順序承諾	Consistency Level、Linearizability
Provisioned RU/s	流量可預測、partition key 均勻	Black Friday、遊戲上線、全球事件帶來突發尖峰	Hot Partition、Peak Forecast
Multi-region write	single-region write + global read 已足夠	regional write latency、region residency、active-active 是產品需求	RPO、RTO、Stale Read
MongoDB Atlas	Azure global distribution 是主訴求	跨雲、原生 MongoDB 行為、Atlas ecosystem 是主訴求	MongoDB vendor
Spanner / CockroachDB	session / eventual consistency 可接受	global SQL、strong transaction、cross-partition ACID 是核心需求	Spanner vendor、CockroachDB vendor
Azure SQL Hyperscale	document / NoSQL 是主要資料形狀	JOIN-heavy、transaction-heavy、SQL Server 生態是主需求	Aurora vendor

Cosmos DB 的簡單路徑是先固定 API model 與 consistency level。每個 API 的相容範圍、index 行為與 query cost 都不同；單純因為「同一服務支援多模型」而混用 API，後續 migration、debug 與容量估算會變複雜。

RU/s 的升級路徑要把 partition key 與 query shape 放在同一張圖。單純提高 RU/s 只能提高名義容量；logical partition 熱點、跨 partition query、index policy 與 payload size 仍會決定真實成本。

已知 limitation 與後續路由

Cosmos DB overview 目前完成 Azure global NoSQL 判斷。下一輪 deep article / playbook 應補 consistency level 選擇、RU/s cost model、partition key design、multi-region conflict、Change Feed、MongoDB API migration、Cassandra API migration 與 Synapse Link。

案例對照

案例	規模	教學重點
9.C11 Minecraft Earth	1M RU/s 測試、turnkey global distribution	AR 遊戲全球分散
9.C21 ASOS	1.67 億 req / 24h、48ms p99	全球零售 Black Friday
9.C30 Microsoft 365	planet-scale analytics	MongoDB → Cosmos DB API-compatible 遷移、Microsoft 自家 dogfood

Cosmos DB case 的讀法是分開看三種壓力：Minecraft Earth 提供 global partition 與 RU/s 訊號，ASOS 提供季節性零售尖峰訊號，Microsoft 365 提供 MongoDB API 相容遷移與 Azure dogfood 訊號。

反向 sibling 路由

Cosmos DB 的反向 sibling 路由用來把 Azure global NoSQL、DynamoDB 與 document migration 分開。若讀者從 DynamoDB 過來，先比較 RU/s、partition key、multi-region conflict 與 API model；若讀者從 MongoDB 過來，先把 API compatibility 當 migration hypothesis，再用 aggregation、index、change stream / Change Feed 行為驗證；若需求其實是 SQL strong consistency，轉到 Spanner vendor 或 CockroachDB vendor。

這條路由的判準是 API model 是否已固定。Cosmos DB 的 multi-model 是產品入口，不代表同一套資料可以在多個 API 之間自由切換；partition key、index policy、RU/s 與 consistency level 一旦進 production，就會成為 migration 與成本邊界。

常見陷阱

Strong consistency 用太多：多數互動式業務用 session consistency 就能滿足讀寫體驗
partition key 只用 user_id：某些業務 user 集中（VIP、bot）會 hot
忽略 Change Feed：寫入後通知、投影與同步流程適合先評估 Change Feed
MongoDB API behavior 假設：API compat 仍要驗證 aggregation pipeline / index 行為
忽略 multi-region 成本乘數：開 3 region active-active = 3 倍 RU 成本

下一步路由

完整 T1 對照：01-database vendors index
平行：DynamoDB vendor、Spanner vendor、MongoDB vendor
上游：1.10 KV / Document DB 容量規劃 / 1.11 全球分散式 OLTP
下游：1.12 大規模 DB 遷移實戰（MongoDB → Cosmos 範例）
跨模組：9.6 容量規劃模型、9.4 Saturation Discovery
Last reviewed：2026-05-22（API compatibility / consistency / RU model 屬時間敏感 claim）
官方：Azure Cosmos DB、Cosmos DB consistency levels

無 SSH 環境的資料庫備份與變更管理

Fri, 26 Jun 2026 00:00:00 +0000

程式碼可以從 Git repo 重新上傳，資料庫裡的資料一旦遺失或損壞就回不來。在無 SSH 的環境裡，資料庫的備份與變更管理比程式碼更需要紀律，因為可用的工具受限（通常只有 phpMyAdmin）、沒有 point-in-time recovery（PITR）、也沒有自動化快照。本篇從工具限制出發，建立一套在這些約束條件下仍能可靠運作的備份與變更流程。

本篇是無 SSH 的 FTP / 面板管理環境接管的延伸，聚焦在資料庫層面。程式碼與部署紀律見主文。

phpMyAdmin 的限制與對策

phpMyAdmin 是多數無 SSH 環境預裝的資料庫管理介面，匯出功能涵蓋完整 SQL dump，但它跑在 PHP 執行環境裡，受限於 max_execution_time 和記憶體上限。資料庫超過 50MB 時，匯出經常在執行到一半就因 timeout 中斷，產出不完整的 SQL 檔案——而不完整的 dump 在還原時只會匯入前半段的表、後面的表靜靜消失。

大資料庫的匯出對策

第一個選項是分表匯出。phpMyAdmin 的匯出頁面允許選擇要匯出的資料表，把一次完整匯出拆成 3-5 批，每批在 timeout 之前完成。缺點是匯出不是原子操作——不同批次之間如果有寫入，表之間的參照關係可能不一致（例如訂單表引用的商品 ID 在商品表的那一批裡還沒匯出）。對多數讀取為主的站台，這個不一致窗口可接受；對交易密集的站台，需要在低流量時段操作。

第二個選項是調整 phpMyAdmin 的 timeout。部分主機允許在 phpMyAdmin 的設定目錄放自訂的 config.inc.php：

1$cfg['ExecTimeLimit'] = 600; // 從預設 300 秒增加到 600 秒

cPanel 主機通常在「軟體」區塊的 phpMyAdmin 設定裡有對應的 UI 選項。Plesk 的路徑是「資料庫」→「phpMyAdmin 設定」。能不能改取決於主機商的權限政策，改之前先確認。

第三個選項是繞過 phpMyAdmin。如果主機允許遠端 MySQL 連線（在 cPanel 的「遠端 MySQL」頁面加白名單 IP），就能用桌面工具直連資料庫匯出：

工具	平台	費用	匯出方式
DBeaver	跨平台	免費	右鍵資料庫 → 匯出 → SQL
TablePlus	macOS / Windows	付費	Cmd+Shift+E 匯出
HeidiSQL	Windows	免費	工具 → 匯出資料庫為 SQL
mysqldump	CLI（需本機安裝）	免費	見下方指令

桌面工具直連 MySQL 比 phpMyAdmin 穩定，因為匯出跑在本機、不受主機的 PHP timeout 限制。mysqldump 是最可靠的選項：

1mysqldump -h db-host.example.com -u dbuser -p \
2  --single-transaction --routines --triggers \
3  dbname > backup_$(date +%Y%m%d_%H%M).sql

--single-transaction 對 InnoDB 表做一致性快照，不需要鎖表。--routines 和 --triggers 確保 stored procedure 和觸發器也被包含在 dump 裡——phpMyAdmin 匯出預設也包含，但容易在手動選項時漏勾。

匯出後的驗證

匯出完成後檢查 SQL 檔案的結尾。完整的 mysqldump 結尾會有 -- Dump completed on YYYY-MM-DD HH:MM:SS。phpMyAdmin 匯出的結尾會有 -- phpMyAdmin SQL Dump 的對應結尾標記。如果檔案在某個 INSERT INTO 語句中間斷掉，這份 dump 就是不完整的，還原時會靜靜丟失後面的資料。

1tail -5 backup_20260626_1430.sql
2# 預期看到 "Dump completed" 或完整的結尾註解

備份策略：頻率與保留

備份頻率由資料的變更速率決定。一個每天只有幾筆訂單的小型電商，每週備份加上每次變更前備份就夠用。一個每天有數百筆交易的服務，需要每日備份。判斷依據是：如果最新的備份丟了、要用上一份還原，能接受丟失多少資料？這個時間差就是實際的 RPO（Recovery Point Objective）。

保留策略

備份類型	頻率	保留數量	用途
每日	每天	7 份	近期資料遺失的還原
每週	每週一	4 份	一到四週前的回溯
變更前	每次	長期保留	schema 變更的回退保險點

命名用時間戳避免覆蓋：dbname_20260626_1430.sql.gz。壓縮用 gzip（gzip backup.sql），50MB 的 SQL dump 通常壓到 5-10MB。

儲存位置

本機是第一份副本，但本機磁碟故障時備份也跟著消失。至少再推一份到雲端儲存：

1# rclone 同步到 Google Drive（事先用 rclone config 設定 remote）
2rclone copy /local/backups/db/ gdrive:project-backups/db/ --max-age 7d
3
4# 或推到 S3
5aws s3 sync /local/backups/db/ s3://my-project-backups/db/ --storage-class STANDARD_IA

備份驗證

備份存在不等於備份可用。每月至少做一次驗證：把最新的 dump 匯入本地 MySQL，檢查關鍵表的 row count 跟 prod 一致、應用程式能正常啟動。如果匯入報錯或 row count 差異超過預期，備份流程有問題要立刻排查。

1mysql -u root -p local_testdb < backup_20260626_1430.sql
2mysql -u root -p -e "SELECT COUNT(*) FROM orders;" local_testdb

自動化備份（無 SSH 環境的限制下）

無 SSH 環境的自動化受限程度取決於主機提供的能力。三個層級由好到差：

主機有 cron + mysqldump 路徑：部分主機在 cPanel 的「cron 工作」裡允許設定排程指令。mysqldump 通常安裝在 /usr/bin/mysqldump，可以直接用：

1# cPanel cron job（每天凌晨 3 點）
20 3 * * * /usr/bin/mysqldump -u dbuser -p'password' dbname | gzip > /home/user/backups/db_$(date +\%Y\%m\%d).sql.gz

密碼寫在 cron 指令裡不理想但在無 SSH 環境選擇有限。用 .my.cnf 檔案存密碼（chmod 600）較安全，但不是所有主機都支援。

主機有遠端 MySQL 但沒 cron：用本機排程（macOS launchd / Windows Task Scheduler / Linux cron）跑 mysqldump 遠端連線：

 1#!/bin/bash
 2# local-backup.sh — 本機排程每天跑
 3BACKUP_DIR="$HOME/backups/myproject/db"
 4mkdir -p "$BACKUP_DIR"
 5mysqldump -h db-host.example.com -u dbuser -p'password' \
 6  --single-transaction dbname \
 7  | gzip > "$BACKUP_DIR/db_$(date +%Y%m%d_%H%M).sql.gz"
 8
 9# 推到雲端
10rclone copy "$BACKUP_DIR" gdrive:project-backups/db/ --max-age 7d
11
12# 清理超過 30 天的本地備份
13find "$BACKUP_DIR" -name "*.sql.gz" -mtime +30 -delete

沒有 cron 也沒有遠端 MySQL：只能靠手動的 phpMyAdmin 匯出，加上 cPanel 的「備份精靈」（如果主機方案包含）。cPanel 備份精靈可以設定每日或每週的完整備份（含資料庫 + 檔案），但免費方案通常不支援排程。這是最受限的情境——如果連手動匯出都嫌麻煩，最高優先的升級路徑是開通遠端 MySQL 存取。

資料庫變更的 migration 紀律

Schema 變更（加欄位、改索引、拆表）在沒有 migration 工具的 legacy PHP 專案裡，全靠手動在 phpMyAdmin 執行 SQL。migration 紀律的目標是讓每一次 schema 變更有紀錄、可重播、可回退。

Migration 檔案格式

每次 schema 變更寫成一個獨立的 SQL 檔案，存在 repo 的 migrations/ 目錄：

 1-- migrations/2026-06-26-001-add-users-email-verified.sql
 2-- 目的：新增 email 驗證欄位，支援 email 驗證流程
 3-- 回退：ALTER TABLE users DROP COLUMN email_verified;
 4
 5-- UP
 6ALTER TABLE users ADD COLUMN email_verified TINYINT(1) NOT NULL DEFAULT 0 AFTER email;
 7CREATE INDEX idx_users_email_verified ON users (email_verified);
 8
 9-- DOWN（回退用，不自動執行）
10-- DROP INDEX idx_users_email_verified ON users;
11-- ALTER TABLE users DROP COLUMN email_verified;

檔名的結構是 日期-序號-描述，序號處理同一天多次變更的排序。UP 段是要執行的 SQL，DOWN 段是回退 SQL（註解掉，手動需要時才用）。

追蹤哪些 migration 已執行

在資料庫建一張追蹤表：

1CREATE TABLE IF NOT EXISTS migrations_log (
2    id INT AUTO_INCREMENT PRIMARY KEY,
3    filename VARCHAR(255) NOT NULL,
4    applied_at DATETIME NOT NULL DEFAULT CURRENT_TIMESTAMP,
5    applied_by VARCHAR(100)
6);

每次在 prod 執行完一個 migration，手動插入一筆紀錄：

1INSERT INTO migrations_log (filename, applied_by) VALUES ('2026-06-26-001-add-users-email-verified.sql', 'alice');

查哪些 migration 還沒跑：比對 migrations/ 目錄的檔案清單跟 migrations_log 表的 filename 欄。這不是自動化的 migration runner（像 Laravel 的 artisan migrate），但在沒有框架支援的 legacy 專案裡，一張表加一個目錄就能達到可追蹤的最低標準。

執行流程

步驟	動作	失敗時
1	在本地 DB 執行 migration、確認語法正確	修正 SQL 再試
2	備份 prod DB（完整 dump 或受影響的表）	如果備份失敗、不繼續
3	在 prod 的 phpMyAdmin 執行 UP 段	用 DOWN 段回退、還原備份
4	驗證：檢查表結構、跑應用程式確認正常	用 DOWN 段回退、還原備份
5	插入 migrations_log 紀錄	—

高風險的 migration（改大表結構、刪欄位、改資料類型）在步驟 2 要做完整的資料庫 dump 而非只備份受影響的表，因為外鍵和觸發器可能讓影響範圍超出目標表。

還原演練

備份的價值在還原成功的那一刻才被驗證。沒有演練過的備份等同於不存在——匯出可能不完整、SQL 版本可能不相容、匯入順序可能因為外鍵而失敗。

演練流程

在本地用最新的備份還原一次完整的資料庫：

1# 建一個測試用的空資料庫
2mysql -u root -p -e "CREATE DATABASE restore_test;"
3
4# 匯入備份
5mysql -u root -p restore_test < backup_20260626_1430.sql
6
7# 驗證
8mysql -u root -p -e "SHOW TABLES;" restore_test
9mysql -u root -p -e "SELECT COUNT(*) FROM orders;" restore_test

驗證三件事：表結構完整（SHOW TABLES 的表數量跟 prod 一致）、資料完整（關鍵表的 row count 一致）、應用程式能跑（把本地應用指向 restore_test 資料庫、打開首頁和幾個關鍵流程）。

還原時間的量測

記錄從開始匯入到驗證完成的時間。這個數字就是事故時的最快恢復時間。如果一個 500MB 的資料庫匯入需要 40 分鐘，加上排查原因和決策的時間，實際恢復可能超過一小時。知道這個數字，才能在事故時給管理層一個實際的時間預期。

無 SSH 環境沒有 PITR

無 SSH 的主機環境的 MySQL 通常不提供 binlog 層級的 point-in-time recovery。能還原到的最近時間點就是最新備份的時間點——備份是每天凌晨做的、下午三點出事，那就是丟失當天的所有寫入。這是備份頻率需要跟資料變更速率對齊的根本原因。交易密集的站台如果無法接受一天的資料丟失，升級到有 binlog / PITR 的環境（VPS 或 managed MySQL）是必要的投資。

大資料庫的特殊處理

資料庫超過 500MB 時，備份和還原的操作時間和失敗風險都會上升。需要針對大表做特殊處理。

超過 1GB 的單表通常是 log 表、歷史紀錄表、或含有二進位大物件（BLOB）的表。對這類表的備份策略跟業務表不同：

log / 歷史表：備份時可以加 --where="created_at > DATE_SUB(NOW(), INTERVAL 90 DAY)" 只匯出近期資料，歷史資料另做一次性歸檔
BLOB 欄位（圖片、PDF）：用 --no-data 單獨匯出 schema，BLOB 內容如果已經搬到檔案系統或 CDN，資料庫裡只需要保留路徑參考
InnoDB 大表：--single-transaction 避免鎖表，但匯出期間的記憶體消耗跟表大小成正比，本機如果記憶體不足可以加 --quick（逐行讀取、不緩衝整張表）

1# 大表匯出：逐行讀取 + 一致性快照 + 壓縮
2mysqldump -h db-host.example.com -u dbuser -p \
3  --single-transaction --quick \
4  dbname large_table | gzip > large_table_$(date +%Y%m%d).sql.gz

資料庫規模成長到備份時間超過維護視窗（例如匯出要兩小時但只有一小時的低流量時段），代表這類環境的備份能力已經到頂，需要評估升級到有 automated snapshot 的 managed MySQL 或 VPS。

跨分類引用

→ 無 SSH 的 FTP / 面板管理環境接管：主文，涵蓋程式碼備份、部署紀律與整體接管流程
→ 程式碼版控與 FTP 部署紀律：DB migration 跟 code deploy 要同步——schema 改了但 code 沒跟上會讓服務壞掉
→ Legacy PHP 的安全盤點：DB credential 的掃描與保護、SQL injection 風險評估
→ Stateful 資源保護與跨服務依賴：IaC 環境裡的備份、deletion protection 與 PITR 設計
→ 治理好習慣：tagging、secret 管理與成本可見性的長期治理

Firestore

Tue, 16 Jun 2026 00:00:00 +0000

Firestore 是 Google 的 serverless document database、承擔 mobile app 與 SPA 的正式狀態與多裝置即時同步責任。它的資料形狀是 collection 下的 document、存取模型是 client 端用 SDK 直連、授權靠 Security Rules，而不是經過自己寫的後端服務。Firestore 同時是 Firebase bundle 的資料層、也能在 Google Cloud 上單獨使用；本頁從資料層 vendor 視角說明它承擔什麼狀態責任、為哪種查詢付成本、何時撞牆該遷往自建。要不要採用 BaaS 這種交付形態本身、是更上層的決策，見 0.21 交付形態選型與 0.22 能力級買 vs 建。

官方文件路由：Firestore documentation、Firestore data model、Firestore pricing；本頁時間敏感的計費與限制 claim 以官方為準、最後檢查日 2026-06-16。

教學路線：client 直連的 document 正式狀態

Firestore 服務頁的教學目標是把「前端直接讀寫資料庫」這個存取模型的責任說清楚。讀者讀完後要能判斷 Firestore 何時是合適的正式狀態，何時因為查詢形狀、成本曲線或授權複雜度該轉向自建後端配 PostgreSQL 或留在 document model 換 MongoDB。

學習段	核心問題	對應段落
Client-direct state	前端用 SDK 直連、授權下沉到 Security Rules 後責任邊界在哪	定位、存取模型
Document shape	collection / document / subcollection 如何決定查詢能力	資料形狀、適用場景
Query boundary	為什麼跨 collection 報表查不出來、index 與查詢限制如何約束建模	不適用場景、常見陷阱
Realtime / offline	snapshot listener 與 offline persistence 解哪類多裝置同步問題	適用場景、跟其他 vendor 的取捨
替代路由	撞到報表、成本或授權牆時、遷往自建 relational 或換 document vendor	下一步路由、遷移 playbook

定位：serverless document store + BaaS 資料層

Firestore 跟 MongoDB、DynamoDB 同屬 NoSQL document / KV 家族，但承擔的責任層級不同：

資料組織成 collection 下的 document，document 可巢狀 subcollection，單 document 上限 1 MiB
沒有 server 端 JOIN，跨 collection 的關聯要靠 application 多次查詢自己組、或在寫入時反正規化
存取模型以 client SDK 直連為主，授權寫在 Security Rules（一套規則 DSL），而不是後端 API 的權限中介層
兩種營運模式：Firestore Native mode（行動 / web、含 realtime 與 offline）與 Datastore mode（server 端、相容舊 Datastore）

傳統定位：Firebase 行動 app 與 SPA 的後端資料層、MVP 快速驗證期、多裝置即時同步的產品。

資料層視角的定位：一塊 managed serverless document store，把 capacity、replication、failover、scaling 全部交給平台，代價是查詢能力與資料模型沿平台特性生長。

資料形狀與查詢邊界

Firestore 為「已知路徑的 document 讀寫」付成本，不為「任意欄位的 ad-hoc 查詢」付成本。這個取向決定了它的甜蜜區與牆：

單 document 與單 collection 內的 key-based / 條件查詢高效，且每筆查詢都要有對應 index（單欄 index 自動建立、複合查詢要建 composite index）
查詢結果集的計費與大小跟「讀了幾筆 document」成正比，不是跟「掃了多少」— 一次回 10,000 筆就計 10,000 次 read
缺少 server 端 aggregation pipeline 與 JOIN；跨集合報表（例如「本月各地區訂單金額」）在 Firestore 上要嘛預先把彙總寫成一份 document、要嘛把資料複製到分析系統
沒有原生全文搜尋，全文需求要接專門的 search index（Algolia、Elasticsearch / OpenSearch）

這條查詢邊界是 Firestore 最容易被低估的設計約束。它不是「功能還沒做」，而是 client 直連 + serverless 計費模型的必然結果：把任意 ad-hoc 查詢開放給前端，等於把不可預測的成本與掃描壓力暴露在公網。建模時要先窮舉 access pattern、再決定 document 結構，跟 DynamoDB single-table design 的 access-pattern-first 思路同源。

一致性、realtime 與容量特性

一致性：

單 document 讀寫與「查詢結果在同一 region 內」提供 strong consistency
多 region 部署靠平台複製、跨 region 讀取可能有延遲；一致性語意由平台決定、不可調到自管資料庫那種 isolation level 顆粒

Realtime 與 offline：

snapshot listener 讓 client 訂閱 query 結果、資料變更即時推送，是多裝置同步的核心能力
行動 / web SDK 內建 offline persistence，斷線時讀寫本地快取、回線後同步，這是自建 REST API 要額外工程才有的能力

容量與寫入熱點：

serverless 自動擴縮，無 connection 概念，前端裝置數不直接轉成資料庫連線壓力
單一 document 的高頻寫入會撞到 contention（官方建議單 document 的持續寫入維持在每秒個位數量級、高頻計數器要用 distributed counter 分片）
寫入吞吐與索引維護成本綁在一起：每多一個 index、寫入就多一份維護成本

容量特性的時間敏感數字（每秒寫入軟上限、單 document contention 門檻）以官方 best practices 為準，設計高頻寫入前先查當前限制。

適用場景

1. 行動 app / SPA 的 MVP 後端：

認證接 Firebase Auth、資料存 Firestore、推播接 Cloud Messaging，整個 MVP 沒有自己的後端服務
對應 0.21 BaaS 段的「把後端工程師這個角色延後」

2. 多裝置即時同步：

協作筆記、聊天、即時看板這類「一處改、多處即時更新」的產品
snapshot listener + offline persistence 是這類需求的天然形狀

3. access pattern 穩定的 document 工作負載：

user profile、設定、feed item、活動紀錄這類讀多寫少、查詢路徑固定的資料
跟 source of truth 對齊：Firestore 可以是這些資料的正式狀態

不適用場景

1. 跨實體報表與分析查詢：

跨 collection JOIN、ad-hoc 篩選、彙總統計在 Firestore 上要靠資料複製工程
替代：自建 relational（PostgreSQL）或把資料同步進分析系統

2. 成本對流量敏感的高讀取場景：

計費隨 document read / write / delete 線性成長，高流量下可能超過自建
替代：自管資料庫 + 應用層 cache，把熱讀取的單位成本壓下來

3. 複雜授權需要可測試的控制面：

client 直連模型把授權全塞進 Security Rules，規則長到難以 review / 測試時，控制面風險升高
替代：把授權拉回後端 API 中介層（自建後端 + 任意資料庫）

4. 強一致的多實體交易：

Firestore 有 transaction 與 batch write，但跨大量 document 的複雜交易不是它的主場
替代：relational database 的多表交易

跟其他 vendor 的取捨

vs MongoDB（document 對 document）：

Firestore：serverless、client 直連、realtime listener、GCP / Firebase 綁定、查詢能力受限
MongoDB：查詢與 aggregation 彈性高、跨雲、要自管或用 Atlas managed、走後端中介存取
選 Firestore：行動 / 即時同步 / 想省整層後端
選 MongoDB：document model 但要彈性查詢、aggregation、跨雲可攜，見 db3 vendor selection

vs DynamoDB（serverless NoSQL 對 serverless NoSQL）：

Firestore：GCP / Firebase 生態、內建 realtime 與 offline、client 直連為主
DynamoDB：AWS 生態、access-pattern-first KV、通常走後端整合、streams 接事件驅動
兩者的 access-pattern-first 建模思路相近，差別在生態與 client 直連的有無

vs SQLite（行動端的反向選擇）：

Firestore：雲端 store、自動多裝置 sync、realtime
SQLite：embedded、offline-first、無 sync（見 SQLite vendor）
選 Firestore：需要跨裝置同步與即時更新
選 SQLite：純單機 / offline、不需要雲端同步

vs Supabase（BaaS bundle 的另一條路）：

Firestore：document model、Google 的 BaaS bundle 資料層
Supabase：底層是 PostgreSQL（relational）、開源 BaaS bundle，遷出時資料是標準 SQL
兩者都是 client 直連 + 規則授權的 BaaS 形狀，差別在資料模型（document vs relational）與遷出時的資料可攜性；Supabase 的資料層判讀見 Managed PostgreSQL 比較，選型層錨點見 0.22

容量規劃要點

1. access pattern 先於 document 結構：

列出 application 對資料的所有讀寫路徑、再設計 collection / document 形狀
access pattern 沒想清楚就建模，後面報表查不出來要重做

2. 反正規化換查詢效率：

為了避免跨 collection 多次查詢，常把關聯資料冗餘寫進同一 document
代價是寫入時要維護多份副本的一致性，對應 1.9 Reconciliation

3. index 與寫入成本綁定：

複合查詢要先建 composite index、否則查詢直接失敗
每個 index 增加寫入維護成本，移除用不到的 index 是容量優化的一環

4. 高頻寫入用 distributed counter：

單一 document 撞到 contention 上限時，把計數拆成多個 shard document 再彙總

5. 成本以 document 數計，不以掃描量計：

容量估算要算「每個畫面 / API 觸發幾次 read」、乘上日活與頻率
把熱讀取移到應用層快取是壓低 read 計費的主要手段

常見陷阱

把 Firestore 當關聯式用：規劃了一堆需要 JOIN 的 collection、上線後跨集合查詢全靠 client 自己組、latency 與 read 成本爆炸
報表需求到了才發現查不出來：老闆要月報、Firestore 沒有 aggregation pipeline、被迫臨時搭資料複製管線
Security Rules 長到沒人敢改：授權全寫在規則 DSL、沒有版本控制與測試、變更時靠人工推敲
單 document 當高頻計數器：直播按讚 / 即時計數寫爆單一 document 的 contention 上限
忽略 read 計費規模：list 畫面一次回上千筆、每次重整都計上千次 read、帳單月底才浮現

Deep article 章節群

Firestore overview 負責第一輪服務判斷；vendor 特有機制的設定、踩坑與容量規劃拆成 deep article。下表是目前已建立的實作層教材，讀法是先讀 overview 判斷服務適配，再按撞到的壓力選 deep article。

機制	文件	教學責任
授權控制面	Security Rules 授權建模與可測試化	規則求值模型、可組合 function、emulator 單元測試、把規則當程式碼治理
高頻寫入	高頻寫入與 distributed counter	單 document contention 邊界、分片計數、shard 數與讀寫成本取捨
資料建模	document 反正規化與一致性維護	反正規化決策、fan-out write、副本同步、不一致修復
即時同步	realtime listener 扇出與成本	snapshot 推送模型、訂閱範圍設計、re-read 計費、連線規模

讀法路由：撞到資料外洩 / 越權，讀 Security Rules；撞到熱門事件寫爆計數，讀 distributed counter；改一筆要連動改一千筆，讀反正規化；即時功能帳單失控，讀 realtime listener。撞到報表 / 成本 / 授權整體性的牆，走遷往自建 relational。

Hands-on 操作演練

deep article 講機制判讀，Hands-on 操作路線把機制轉成可在本地 Firebase Emulator 跑的演練——零雲端成本、可重跑、產出可驗證 artifact。三個 lab：emulator quickstart（建立共用環境）、Security Rules test lab（規則自動化測試 + 接 release gate）、distributed counter lab（分片計數機制驗證）。lab 全程標明 emulator 驗得了什麼（功能行為、規則求值）、驗不了什麼（計費、寫入軟上限要回雲端）。

已知 limitation 與後續路由

Firestore overview 完成服務判斷、資料形狀、查詢邊界與替代路由；deep article 章節群覆蓋授權、高頻寫入、反正規化與即時同步四個機制；hands-on 章節群提供 emulator 演練。後續可補的方向：offline persistence 的衝突解決深入、realtime listener 在雲端的成本量測 lab（emulator 不計費、要在雲端 staging 跑）。

下一步路由

完整 T1 對照：01-database vendors index
同類對比：MongoDB vendor（彈性查詢 document）/ DynamoDB vendor（access-pattern-first KV）/ db3 vendor selection（document / KV / multi-model 三方選型）
遷出方向：Firestore → 自建 relational（撞到報表 / 成本 / 授權牆後的 Type E 重建模 playbook）
操作演練：Firestore Hands-on（emulator quickstart、Security Rules 測試、distributed counter lab）
容量背景：1.10 KV / Document DB 容量規劃
選型上層：0.21 交付形態選型 / 0.22 能力級買 vs 建 / BaaS 知識卡
從託管平台遷出的資產線盤點：10.3 託管形態遷出
官方：Firestore documentation、Firestore best practices、Firestore pricing

1.10 KV / Document DB 容量規劃

Wed, 13 May 2026 00:00:00 +0000

概念定位

KV / Document DB 的容量規劃跟傳統 OLTP 完全不同。OLTP 容量靠「instance type 升級 + read replica」、KV 靠「partition 切分 + capacity unit 配置」。兩者瓶頸不同、可擴範圍不同、設計取捨也不同。

本章針對 DynamoDB、Azure Cosmos DB、Google Cloud Bigtable、MongoDB Atlas 等主流 KV / Document DB、整理容量規劃的共通方法論。讀完後讀者能回答：partition key 怎麼設計才不會 hot partition、on-demand vs provisioned 怎麼選、什麼時候從 single-region 升到 multi-region。

跟 1.1 高併發資料存取的關係：1.1 處理 OLTP 高併發、本章處理 KV 高併發。兩者讀者群有重疊但解法不同。

跟 9.4 Saturation Discovery 跟 9.6 容量規劃模型的關係：本章從 DB 視角 看容量、9.4 / 9.6 從 workload 視角 看容量、兩者互補。

KV / Document DB 的容量模型

KV 容量模型可以簡化成一條公式：總容量 = partition 數量 × 每 partition 上限。

vendor 不同、細節不同，但都遵循這個邏輯。

HTTP API DB vs connection-based DB 的本質差異

KV DB 在 surge 場景比 OLTP 有結構性優勢的主因、不只是 partition 設計、是 連線模型 的本質差異。

Connection-based DB（PostgreSQL、MySQL、MongoDB、Cassandra）：

用戶端跟 DB 維持 TCP connection、connection 有 state（authenticated session）
每個 connection 在 DB server 端佔記憶體 + 一個 process/thread
connection 上限通常 1K-5K
application 想開更多 connection、DB 直接拒絕

HTTP API DB（DynamoDB、Cosmos DB、Bigtable、Firestore）：

用戶端每次 request 開新 HTTP connection（或用 keep-alive 池）
DB 端沒有「per-user connection state」、是 stateless API server
沒有 connection 上限概念、能力上限是 每 partition 的 RU / RCU
application 加多少 instance 都不影響 DB

對應 9.C29 Lemino — NTT DOCOMO 串流服務選 DynamoDB 而非 RDB 的關鍵原因是 RDB 的 connection limit 在 surge 場景變成 bottleneck、HTTP API 模型沒這個問題。

判讀含義：選 KV DB 不只是「擴容容易」、是 連線模型 適合無 state HTTP 服務的天然契合。微服務數量增加時、HTTP API DB 不需要每次都 review connection pool 設定。但若 application 仍以 SQL transaction 為主流程設計、改 KV 需要 改 application 架構、不是換 driver 而已。

Amazon DynamoDB：

容量單位是 RCU（Read Capacity Unit）跟 WCU（Write Capacity Unit）
1 RCU = 1 strongly consistent read of 4KB / sec、2 eventually consistent reads
1 WCU = 1 write of 1KB / sec
每個 partition 上限：3000 RCU / 1000 WCU、底層 partition 數量透明

Azure Cosmos DB：

容量單位是 RU（Request Unit）— 把 read / write / query 統一抽象
1 RU = strongly consistent read of 1KB document
寫成本約 5x read、複雜 query 可達數百 RU
每個 logical partition 上限：10,000 RU/s

Google Cloud Bigtable：

容量單位是 node（SSD / HDD）
每個 node 約 10,000 reads/sec、10,000 writes/sec（依 row size）
partition 透明、靠 tablet 自動分裂

MongoDB Atlas：

容量單位是 cluster tier（M10、M30、M60 等）+ shard
每個 shard 是獨立 mongod replica set、容量按 instance type 跟 storage
主動 sharding 設計、跟 DynamoDB 透明 partition 不同

共通點：容量上限不是「單一 number」、是「partition / shard 數量 × 每 partition 上限」。要擴容、要嘛加 partition、要嘛升級 partition、不能像 OLTP 一樣換更大 instance。

Partition key 設計：容量的命脈

partition key 設計不均勻、實際容量遠低於名義。這是 KV DB 最常見的 production issue。

Hot partition 的成因：

名義容量 = partition 數量 × 每 partition 上限
實際容量 = 最熱 partition 上限（如果分布不均）
100K RPS 名義能撐、若 80% 流量集中在 1 個 partition、實際 只能撐 3K RPS（DynamoDB partition 上限）

識別 hot partition 的訊號：

throughput 上不去、但 average resource utilization 低
某些 key 的 request latency 飆、其他 key 正常
DynamoDB throttling event 出現（即使 capacity 還沒滿）
Cosmos DB 顯示「per-partition RU consumption skew」

設計策略：

天然均勻 partition key：user_id、order_id、device_id 等天然分布廣的 ID。最簡單、最常用。
Composite partition key：把容易集中的維度（event_id）跟均勻的維度（user_id_hash）組合。例如 event_id#user_id_hash_mod_100、強制把同一 event 的流量分散到 100 個 sub-partition。
Write sharding：在 partition key 後加 random suffix。event_id#0 ~ event_id#9 讓同一個 event 變成 10 個 partition。讀的時候要 scatter-gather 從 10 個 partition 讀回來。
Time-bucket：對時序資料、加 minute / hour bucket。metric#2026-05-13-T12、每個時段一個 partition。

對應案例：

9.C5 Amazon Ads — 9000 萬 reads/sec 靠 partition 設計均勻、不是純擴 capacity
9.C15 Tixcraft — 售票 event_id 天然容易 hot、必須用 composite key 或 write sharding 分散
9.C11 Minecraft Earth — Cosmos DB synthetic partition key 強制分散

詳見 Hot Partition 卡片。

彈性來自 partition key 均勻分布

KV DB 的吞吐彈性等於 partition key 均勻分布的結果。partition key 均勻時、總容量 ≈ partition 數量 × 單 partition 上限；partition key 不均時、實際容量 = 最熱 partition 上限（DynamoDB 每 partition 3000 RCU / 1000 WCU）、跟 partition 總數無關。

對應 9.C15 Tixcraft — 售票 IOPS 從 20 衝到 135K 的 6,750 倍彈性、前提是 partition key 把流量分散到大量 partition（合理做法是 composite key event_id + user_id_hash 或 write sharding event_id + random_suffix）。若用裸 event_id 當 partition key、同一場演唱會所有訂單擠進同一個 partition、實際 IOPS 上限被鎖在 1000 WCU、跟 partition 總數無關。

判讀重點：讀「Amazon Ads 9000 萬 reads/sec」、「DynamoDB 1.51 億 RPS」這類數字、要追問「partition 設計是什麼」、再判斷自己的服務能否複製。換 DynamoDB 是必要前提、partition key 設計是充分前提；只換 DB 而沒解決 partition key、會出「換了 DB 但 hot partition 依舊」的事故。

Capacity mode：on-demand vs provisioned

DynamoDB / Cosmos DB 都提供兩種容量模式、各有適用場景。

On-demand（pay-per-use）：

不需事前配置 RCU / WCU / RU
自動 scale up / down、處理突發流量
單位成本高（約 7x provisioned）
適合：流量不可預測、burst 頻繁、開發 / 測試環境

Provisioned（預配置）：

預先訂購 RCU / WCU / RU
超過配額會 throttle（除非開 auto-scaling）
單位成本低
適合：流量可預測、sustained workload、生產環境

選型決策：

場景	建議 mode
流量 peak/avg 比 < 3x	provisioned + auto-scaling
流量 peak/avg 比 > 5x	on-demand
流量極端 bursty（flash-sale）	on-demand
sustained growth 穩定上升	provisioned + scheduled scaling
短期測試 / POC	on-demand
已知大事件（Black Friday）	provisioned baseline + scheduled scale-up

對應案例：

9.C20 Zomato — TiDB 必須長期 over-provision、換 DynamoDB on-demand 後 pay-per-use、50% 成本下降
9.C26 PayPay — sustained 3 億 msg/day 適合 provisioned + auto-scaling
9.C5 Amazon Ads — 9000 萬 RPS sustained workload 必然 provisioned + careful tuning

詳見 9.7 成本邊界與 efficiency 的成本曲線分析。

計費粒度 vs 工程顆粒

KV / Document DB 的計費單位（DynamoDB 的 RCU/WCU、Cosmos DB 的 RU、Spanner 的 processing unit）決定容量規劃可以從多小開始。計費粒度太大、中小規模負載付過多錢；計費粒度太小、大規模負載要管理很多細項。

對應 9.C10 Spanner — Spanner 早期最小單位是 100 processing units（pu）≈ 1 node、對中小負載門檻過高。後來推出 100 pu 起跳的 granular sizing、讓容量規劃可以從小開始、降低 onboarding 門檻。

選型含義：

新服務 / 中小規模：選計費粒度小的選項（Cosmos DB serverless、Spanner granular sizing、DynamoDB on-demand）、避免一開始就為了「未來會用到」過配。中小規模付過配成本、實際就是替「不確定的未來」付保險費、保險費過高代表選錯產品。
穩定大規模：計費粒度可大（DynamoDB provisioned with reserved capacity、Spanner full-node provisioning）、單價較低。Reserved capacity 通常綁 1-3 年合約、要看業務 未來 12-24 月需求是否穩定、若業務量可能下降或遷移、Reserved 反成沉沒成本；若業務量穩定上升、Reserved 是合理 hedging。
POC / 測試：選 on-demand 或 serverless、付實際用量、別為了未實際 production 的 workload 付 reserved 成本。

判讀重點：計費粒度同時是 vendor 商業策略 跟 工程顆粒、選 vendor 時要看 min sizing 跟 增量 granularity、不只看 max throughput。

業務邏輯變化 → 讀寫比跳量級

讀寫比變化是容量規劃的早期警訊、但常被忽略。原始容量規劃通常基於某個讀寫比（例如 1:1 或 5:1）、業務邏輯改變可能讓比例跳一個量級、原容量規劃失效。

對應 9.C5 Amazon Ads — 廣告事件量測讀寫比 18:1（曝光發生 1 次、後續查詢 18 次）。如果業務新增即時報表功能、讀次數從 18 跳到 50、容量規劃要重做、不是「再加一點 capacity」。

常見業務變化導致讀寫比跳量級：

新增即時 dashboard：每筆資料被查詢頻率從 1 次跳到 N 次
新增推薦演算法：每用戶 read profile 從每次登入 1 次變成每次推薦 1 次（× 推薦頻率）
新增 audit / compliance 查詢：每筆敏感資料額外被查 5-10 次
新增 cache：讀次數從 100 降到 5（cache hit rate 95%）— 跟其他變化方向相反、是 capacity 該縮容 的訊號、若沒同步 review 反而會繼續按舊容量付錢
新增 anti-fraud 檢測：每寫入觸發 N 次 read 驗證

判讀重點：容量規劃 review cadence 不只看流量、要 review 讀寫比 是否漂移。比例跳量級是設計需要重做的訊號、不是單純 capacity 增加（或減少）的訊號。

一致性模型：strong vs eventual vs session

KV / Document DB 通常提供多個 consistency level、不同 level 對應不同延遲跟可用性。

DynamoDB：

Eventually consistent reads（預設、便宜）：1 sec 內收斂、cost = 0.5 RCU
Strongly consistent reads：跨 AZ quorum、cost = 1 RCU、不可跨 region
沒有中間 level

Cosmos DB（最豐富）：

Strong：linearizable、跨 region quorum、最高 latency
Bounded staleness：訂上限（時間 / 版本差異）
Session：同一 session 內強一致（最常用）
Consistent prefix：保證寫入順序、不保證收斂時間
Eventual：最便宜、最終一致

Bigtable：

Single-region：strongly consistent
Replicated：eventually consistent

選 consistency level 的工程後果：

Strong consistency → 跨 region 延遲（quorum round-trip）
Eventual → 用戶可能看到舊資料、需要 application 容忍
Session → 大多數網路服務的 sweet spot（用戶看自己寫的東西要立即、別人寫的可以稍晚）

對應案例：

9.C10 Spanner — external consistency（線性化）跨地區、付出 quorum 延遲代價
9.C30 Microsoft 365 Cosmos DB — 分析平台用 weakest consistency 換最大 throughput

詳見 1.3 Transaction Boundary 的一致性取捨。

Multi-model 取捨

部分 KV / Document DB 支援多個 model interface、同一服務跑不同抽象。

Cosmos DB（最廣 multi-model）：

SQL API（document）
MongoDB API（document、wire-protocol compatible）
Cassandra API（wide-column）
Gremlin（graph）
Table（key-value）

DynamoDB（KV + document）：

原生 KV、但 attribute 可以是 nested map / list（document-like）
沒有 SQL interface（PartiQL 是 query language、不是 model）

Bigtable（wide-column）：

沒有 multi-model、純 wide-column
替代方案：用 Spanner + Bigtable 組合

Multi-model 的優缺：

優勢：同一團隊不必管多個 vendor、ops 簡化
優勢：不同 use case 用同一 datastore、減少 data sync
限制：vendor lock-in 加深、難換
限制：每個 API 都不是最好的（compromise）— MongoDB API 跟 native MongoDB 有 behavior 差異

選型建議：

已用 single model → 不必為 multi-model 而換
多種 use case 同時上 → 評估 Cosmos DB（特別是 MongoDB workload + 新需求）
純 KV 高吞吐 → DynamoDB / Bigtable 比 Cosmos DB 通常便宜

對應案例：

9.C30 Microsoft 365 — MongoDB → Cosmos DB MongoDB API、應用層幾乎不改、底層改用 Cosmos 分散式架構
9.C11 Minecraft Earth — 用 SQL API、不需要 MongoDB compat

KV DB 作為寫入緩衝的特殊用法

本節展開 KV 在 flash-sale 架構 的特殊角色、屬於資料層責任、但跟 9.11 高峰事件準備跟 03 訊息佇列模組互補（後者主寫 broker / queue 設計、本節聚焦把 KV 當 buffer 的取捨）。

9.C15 Tixcraft 揭露一個非傳統用法：DynamoDB 不當 OLTP、當 durable queue。

模式：前端把訂單塞進 DynamoDB（高吞吐、partition 均勻）、後端 legacy server 按自己能承受的速度從 DynamoDB 消費。

為什麼用 DynamoDB 而非 SQS / Kafka：

DynamoDB Stream 提供 change data capture、後端可以 stream 消費
寫入後立即可查（OLTP-like）、不是純 fire-and-forget
partition 設計讓單一事件可以分散到多個 partition
同樣 vendor、不必另起一個 broker 服務

適用場景：

突發流量遠超後端處理能力
後端是 legacy、不容易擴
需要寫入後立即可查（用戶看「我下單成功了」）

不適用場景：

純 fire-and-forget（用 SQS 更便宜）
高吞吐 stream processing（用 Kafka 更專業）
順序性嚴格要求（DynamoDB Streams 只在 partition 內保證順序）

詳見 9.C15 Tixcraft 案例的詳細分析。

連線管理：跟 OLTP 完全不同

KV / Document DB 通常是 HTTP / gRPC 介面、不是 connection pool。這是跟 OLTP 完全不同的設計、影響應用層架構。

OLTP（PostgreSQL / MySQL）：

每個 application instance 維護 connection pool（10-100 connections）
connection 是有狀態的（transaction、session variable）
pool size × instance 數量 ≤ DB 上限（PostgreSQL 預設 100、PgBouncer 可破百）
9.C29 Lemino 案例揭露 RDB connection 是隱性 bottleneck

KV（DynamoDB / Cosmos DB）：

純 HTTP / gRPC、無 stateful connection
每個 request 獨立、不必預先 establish connection
沒有 connection limit 概念
應用層擴容不會打爆 DB connection

這個差異是 KV DB 在 surge 場景 比 OLTP 有優勢的主因 — KV 不會 connection saturate。

隱性限流 vs 明確限流

flash-sale 或極端負載場景的限流可能分散在多層元件、不是單一「rate limiter」。同一架構可能同時包含隱性限流（用 DB / LB 上限自然攔截）跟明確限流（用排隊系統精確控速）。

對應 9.C15 Tixcraft — 售票架構圖上看不到明確「rate limiter」元件、但限流發生在多層：

DynamoDB 寫入排隊：DynamoDB 把訂單塞進 queue、傳統 server 按自己能力消費 — DynamoDB throughput 就是隱性限流
ELB max connection：load balancer 上限自動拒絕超量請求
Application 層 connection pool：超過 pool size 的 request 排隊或被拒
付款層獨立：搶票流量塞爆時、付款不受影響、低頻路徑「自然限流」

對比 9.C16 SeatGeek Virtual Waiting Room 的 明確限流：用 Counters table 精確控發 token 速率、用戶看得到排隊位置。

選擇取捨：

維度	隱性限流（Tixcraft）	明確限流（SeatGeek）
用戶體驗	用戶以為成功、實際排隊	用戶看得到等待時間
流量吸收能力	極高（DB 直接吸）	受限於 token 發放速度
開發複雜度	低（用 DB 自帶 throughput）	高（需要 token 系統）
失敗模式	DB 滿了用戶才被拒	排隊系統爆了用戶被拒
適合業務	流量瞬間到頂、要全收	流量持續高、要排序公平

失敗模式延伸：隱性限流的失敗特徵是「provisioned capacity / connection pool 飽和、用戶看到 5xx / timeout、沒人收到排隊位置」— 監控訊號是 DynamoDB throttling event 或 ELB queue length 飆。明確限流的失敗特徵是「排隊系統本身的 DB / counter 飽和、token 發不出來、所有用戶包含 VIP 都被擋」— 監控訊號是 token issuance success rate 掉。兩種失敗對應不同 runbook、混在同一 alert dashboard 會誤判。

適合業務延伸：隱性限流適合「流量瞬間到頂、業務願意接受用戶看不見排隊」的場景（演唱會搶票、Black Friday 開賣瞬間、限量商品）— 業務優先收住流量、用戶體驗可以事後解釋。明確限流適合「流量持續高、用戶等待時間長、需要顯示進度減少跳離」的場景（IPO 開盤、長期熱門商品上架、跨小時的搶購事件）— 用戶能看到「我還有 30 分鐘」會繼續等。

判讀重點：選哪種限流取決於業務願意接受什麼用戶體驗、不是工程偏好。隱性限流用透明度換流量吸收能力、明確限流用流量吸收能力換體驗可見度。兩者並存、沒有「best practice」。

案例對照

案例	教學重點
9.C1 AWS Prime Day 2025	DynamoDB 24 小時 1.51 億 RPS、毫秒級延遲、可預期峰值上限參考
9.C5 Amazon Ads	9000 萬 RPS + 99.999% 可用 — partition 均勻設計典範
9.C11 Minecraft Earth	Cosmos DB 1M RU/s + multi-model + global distribution
9.C15 Tixcraft	DynamoDB 當 durable queue、IOPS 20→135K
9.C16 SeatGeek	DynamoDB 4 表 + Lambda 實作 virtual waiting room、跟 Tixcraft 的隱性緩衝形成姊妹案
9.C18 Zoom	30x DAU surge、DynamoDB 撐 control plane
9.C19 Capcom	遊戲後端 KV、billions of requests + single-digit ms
9.C20 Zomato	TiDB → DynamoDB、50% 成本下降的取捨
9.C21 ASOS	Black Friday 1.67 億請求 / 24h、Cosmos DB 多 region
9.C24 Genesys	99.999% 跨 15 region、DynamoDB 為預設 DB
9.C26 PayPay	3 億訊息 / 天、TTL 自動清理
9.C27 Disney+	billions of actions daily、watchlist + 播放進度
9.C29 Lemino	connection limit 才是 RDB bottleneck、改用 DynamoDB

9.C16 SeatGeek 把 DynamoDB 當 排隊調度系統、不只當 queue buffer：用 Counters table 控發 token 的速率、Queue table 紀錄序號、Connection table 串 WebSocket。這個架構跟 9.C15 Tixcraft 的「全部塞進 DynamoDB 隱性緩衝」是兩種對立取捨 — Tixcraft 用透明度換流量吸收能力、SeatGeek 用流量吸收能力換體驗可見度。判讀重點：KV DB 不只能當 OLTP 替代品、4 張表組合就能變成業務級調度引擎、選表前要先確定業務需要哪一面。

下一步路由

上游：0.2 State Storage Selection — KV vs OLTP vs SearchIndex 選型
平行：1.1 高併發資料存取（OLTP 版本）/ 1.3 Transaction Boundary
下游：1.11 全球分散式 OLTP、1.12 大規模 DB 遷移實戰（含「預設 DB 治理 pattern」— KV 在大規模平台的選型治理）
跨模組：9.4 Saturation Discovery（hot partition 量測）、9.6 容量規劃模型、9.7 成本邊界
DynamoDB 深入：partition key 反模式、on-demand vs provisioned 切換、single-table design、GSI / LSI 設計
Cosmos DB 深入：partition key 設計、RU 成本模型、一致性層次工程
MongoDB 深入：shard key 選型、schema design pattern、connection 管理與 cache 層

既建知識卡片

從 Firestore 遷往自建 relational：撞牆驅動的 Type E 重建模、存取模型反轉與並行期

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Firestore overview 的 migration playbook。寫作參照 Migration Playbook 寫作方法論。BaaS 託管平台整場遷出的資產線盤點與並行期總覽見 10.3 託管形態遷出；本文聚焦資料層的跨 paradigm 重建模。

「我們把 Firestore 整包匯出，匯進 PostgreSQL 就好。」這句話低估了遷移的真正內容 — Firestore 遷往自建 relational 的難點是反轉整個存取模型，搬資料只是其中最容易的一條線。Firestore 是 client 用 SDK 直連資料庫、授權寫在 Security Rules；自建 relational 是 client 打自己的後端 API、授權在後端中介層。資料可以匯出，但反正規化的 document 形狀、沿查詢限制長出來的資料模型、realtime listener 與 offline 同步能力，都沒有 1:1 的對應物。字面意義的「匯出再匯入」只搬走了最容易的那部分。本文走 paradigm shift 結構：先講為何字面遷移不成立、再講哪些該遷哪些先留、最後才是階段化執行。

遷移的 driver：三面牆，不是「relational 比較好」

Firestore 遷往自建很少因為「relational 比較好」這種空泛動機，而是撞到 0.21 BaaS 段描述的三面具體的牆。先確認 driver 真的成立、再啟動遷移：

Driver	撞牆訊號	遷移要解的問題
報表 / 分析查詢	跨 collection 報表查不出來、已經在維護資料複製管線	把資料放回支援 JOIN / aggregation 的 relational
成本曲線轉折	read / write 計費隨流量線性成長、超過自建 + cache 的成本	用自管資料庫 + 應用層快取壓低單位成本
授權控制面失控	Security Rules 長到難以測試 / review、授權邏輯沒有版本治理	把授權拉回後端 API 中介層、可測試可審查

No-go condition：產品仍以多裝置 realtime 同步與 offline-first 為核心賣點、且查詢需求簡單、成本仍在舒適區 → 先不要遷。這些正是 Firestore 的主場，硬遷會把 realtime / offline 這層平台白送的能力變成自己要重建的工程。遷移前先問「撞的是哪面牆」，三面牆都沒撞到就是 0.22 講的偽自建。

逐能力遷出是常態而非整包搬離：0.22 的「成長期 SaaS」例子就是只把撞牆的資料層搬到自管 PostgreSQL、認證留在原平台。本文預設的也是這種逐能力遷出 — 遷的是資料層，不一定連認證、儲存一起搬。

6 維 diff audit：主導維度是 paradigm + application change

遷移前先盤點 source 跟 target 的差異落在哪幾維、決定 playbook 結構：

維度	Firestore → 自建 relational	程度
Schema / API	document / collection → 正規 table、SDK query → 後端 API + SQL	High
Operational model	serverless 全託管 → 自管 / managed 資料庫、自己擔 backup / failover	High
Paradigm	client 直連 + 規則授權 → API 中介 + 後端授權	High
Components 數量	單一平台 → 新增一層自建後端服務 + 資料庫	High
Application change	前端拔 SDK 改打 API、realtime / offline 要重建	High
Data topology	平台複製 → 自己設計 replica / 多 region / DR	Medium

主導維度是 paradigm 與 application change：六維裡五維落在 High。這定義了結構 — Type E paradigm shift（排除 schema 翻譯 Type A 和 drop-in Type B）：存取模型反轉、部分能力重建、可能長期混合（資料層自建、認證仍留平台）。

為什麼字面遷移不成立：存取模型反轉

Firestore 的存取模型是 前端即客戶端、資料庫直接面向公網、授權在規則層；自建 relational 是 前端打後端、後端面向資料庫、授權在服務層。這個反轉是遷移的核心難點，不在資料搬運。

反正規化 document → 正規 schema：

Firestore 為了繞開查詢限制，常把關聯資料冗餘寫進同一 document（一份資料複製多處）
遷往 relational 要把冗餘拆回正規化 table、重建外鍵關係，這是逆向工程：要先讀懂當初為什麼這樣存
反過來說，有些 document 的巢狀結構在 relational 用 JSONB 保留更省事（見 PostgreSQL jsonb）— 不是所有 document 都要拆成 table

Security Rules 授權 → 後端授權：

Firestore 的授權邏輯散在 Security Rules DSL 裡，遷移要把每一條規則翻譯成後端 API 的權限檢查
這層翻譯是安全敏感的：漏一條規則等於開一個越權查詢的洞，對應 1.5 資料層紅隊

SDK 直連 → API 中介：

前端原本用 Firestore SDK 直接讀寫，遷移後要拔掉 SDK、改打自建 API
這是 application 層的大改，不是資料庫換連線字串

realtime listener / offline persistence → 自己重建：

snapshot listener 的即時推送、offline 讀寫快取，是平台白送的能力
自建要用 WebSocket / SSE 重建即時層（見 03 訊息佇列與 presence 設計）、用前端本地儲存重建 offline — 這是遷移最容易被漏估的工作量

所以遷移的第一步不是匯資料，是盤點 application 對 Firestore 的所有依賴面：查詢路徑、授權規則、realtime 訂閱、offline 行為。這份清單決定哪些能直接遷、哪些要重建、哪些先留在平台。

哪些該遷、哪些先留（逐能力混合）

Type E 的本質是不收斂 — 不必把所有 Firebase 能力一次搬完。判讀標準：

Workload / 能力特徵	去向
需要報表 / JOIN / aggregation 的資料	遷自建 relational
讀取量大、成本敏感、access pattern 穩定的資料	遷自建 + 應用層快取
仍以 realtime 同步為核心、查詢簡單的資料	先留 Firestore / 或最後再遷
認證（Firebase Auth）	可留平台、逐能力決定（見 0.22）
檔案儲存（Firebase Storage）	可留平台、與資料層解耦後再評估

0.22 的成長期 SaaS 是這個判讀的 case anchor：撞牆的是資料層的 query 複雜度與成本，遷的就是資料層，認證留在原地。混合不是過渡失敗，是逐能力選型的穩態。

Phase plan：存取模型反轉的階段化

paradigm shift 的階段化把不可逆動作放到最後、每階段有獨立驗證門檻：

Phase 1：依賴面盤點

列出 application 對 Firestore 的所有讀寫路徑、Security Rules 授權條件、realtime 訂閱點、offline 行為。標每項的頻率、安全敏感度、是否可重建。這份清單不完整不進下一階段。

Phase 2：relational 重建模

把反正規化 document 設計回正規 schema、決定哪些巢狀結構用 JSONB 保留。同步設計後端 API 的端點與授權檢查、把 Security Rules 逐條翻譯成服務層權限。對應 1.2 schema design 與 1.5 資料層紅隊。

Phase 3：自建後端 + dual-write

立起自建後端 API 與資料庫，前端關鍵寫入路徑同時寫 Firestore 與新後端。Firestore 仍是 source of truth、新庫累積資料。dual-write 要處理一邊失敗的補償（對應 1.9 Reconciliation）。

Phase 4：backfill 歷史資料

把 Firestore 既有 document 按新 schema 轉換寫入新庫。backfill 與 dual-write 並行時要處理覆蓋順序，backfill 不能蓋掉 dual-write 的新值。轉換過程記 checksum / row count 對照。

Phase 5：shadow read 驗證

讀路徑同時打 Firestore 與新後端、比對結果、記錄差異但仍以 Firestore 回應用戶。差異率降到可接受才進 cutover。對應 1.7 Schema Migration Rollout 證據的 evidence 方法。

Phase 6：漸進 cutover + 重建即時層

前端逐步把讀寫從 Firestore SDK 切到自建 API（按比例 / 按功能模組），保留切回能力。若產品需要 realtime，這階段要把 snapshot listener 換成自建即時層（WebSocket / SSE）並驗證延遲與斷線重連。cutover 完成後資料層的 source of truth 轉到自建；未遷的能力（認證、儲存）仍在平台 — 混合架構成立。

Evidence：每階段的前進依據

每個階段用資料證明可前進、不靠感覺：

階段	Evidence
dual-write	雙寫成功率、寫入失敗補償紀錄、兩邊 document / row 數差異
backfill	已轉換比例、轉換錯誤數、checksum 對照、反正規化還原正確性抽查
shadow read	新舊結果差異率、差異分類（建模差異 vs 真錯誤）、授權翻譯漏洞掃描
cutover	切流比例、新 API latency p99、error rate、realtime 推送延遲、rollback 是否觸發

這些 evidence 對齊 4.20 Observability Evidence Package（Source / Time range / Query link / Owner / Data quality）與 6.8 release gate。授權翻譯這項要特別當成 gate 條件 — 它是安全邊界、不只是功能正確性。

Cutover 與 rollback 決策

資料庫切流失敗代價高、加上這裡牽涉授權正確性，決策權責要寫清楚：

cutover window：選低流量時段、明確切流比例階梯（如 1% → 10% → 50% → 100%），按功能模組切比按全站切安全
rollback condition：新 API error rate / latency 超閾值、shadow read 差異率異常、或發現授權翻譯漏洞 → 切回 Firestore
decision owner：誰有權喊停、依據什麼 evidence、記錄在 8.19 incident decision log
realtime 連續性：若即時層同步切換，要驗證切換期間訂閱不中斷、或明確告知短暫降級

對應 rollback window、rollback condition。

Cleanup 與長期混合

Type E 的 cleanup 通常不是「關掉整個 Firebase」— 多數情況認證、儲存仍留平台：

已遷資料路徑的 Firestore collection、Security Rules、dual-write code path 退役
shadow read 比對 code 移除
前端殘留的 Firestore SDK 依賴清掉（資料層已不走它）
但 Firebase Auth / Storage 若仍在用，保留；明確標示哪條資料路徑的 source of truth 是自建庫、哪條仍在平台
Firestore 的資料匯出備份保留到確認新庫穩定，對應 10.3 的並行期退役判準

混合架構不是遷移失敗、是逐能力選型的穩態 — 撞牆的資料層自建、沒撞牆的認證 / 儲存留在平台。

失敗模式

production 常見的 5 個踩雷：

Case 1：只匯資料、漏了存取模型反轉

把 Firestore 匯出匯進 PostgreSQL 就以為遷完、忘了前端還在打 SDK、授權還在 Security Rules。修法：依賴面盤點是 Phase 1、資料搬運只是其中一條線，存取模型反轉才是主體。

Case 2：Security Rules 翻譯漏洞

把規則翻成後端授權時漏一條、開了越權查詢的洞、上線後資料外洩。修法：授權翻譯要逐條對照 + 紅隊驗證（1.5）、當成 cutover gate 條件、不是功能 bug。

Case 3：反正規化還原錯誤

document 的冗餘副本拆回 table 時還原錯關係、新庫資料關聯接錯。修法：Phase 2 先讀懂當初為何反正規化、backfill 後抽查還原正確性、shadow read 比對抓出建模差異。

Case 4：低估 realtime / offline 重建工作量

以為遷資料庫就好、上線才發現 snapshot listener 與 offline 同步整層要自己重建、進度爆炸。修法：依賴面盤點就把 realtime 訂閱點與 offline 行為標出來、列入工作量、必要時這層最後遷或先保留。

Case 5：dual-write 一邊失敗沒補償

dual-write 時新庫寫成功 Firestore 失敗（或反之）、兩邊分歧、cutover 後資料不完整。修法：dual-write 要有失敗補償（記錄、重試、標記人工對帳），對應 1.9 Reconciliation。

Anti-recommendation：產品仍重度依賴 realtime / offline、或團隊還沒有自建後端與資料庫的營運能力（backup、failover、授權設計）→ 先不要遷。可先把一塊撞牆最明顯、realtime 需求最低的資料（例如報表來源資料）試點、累積自建營運經驗再擴大。

容量與成本：crossover 判讀

遷移的成本判讀關鍵是 遷移後的總帳、不是只看 Firestore 帳單：

遷移當下：高 read 流量下，自管資料庫 + 應用層快取的單位成本常低於 Firestore 的 per-read 計費
但要加回自建的隱性成本：後端服務的開發與維運、資料庫的 backup / failover / 擴容、realtime 層的重建與維護、團隊人力
判讀分層：撞到成本牆且已有後端團隊 → 自建總帳通常划算；仍是小團隊、realtime 是核心、流量不大 → Firestore 的「平台白送能力」可能仍比自建總帳便宜

Scope warning：crossover 隨流量形狀、region pricing、團隊成本結構變動、無通用閾值。遷移省下的 Firestore 帳單要扣掉自建後端 + 資料庫 + 即時層的維運成本後再比，不是直接拿兩邊資料庫帳單對照。

接回 0.6 成本、風險與選型取捨、1.10 KV / Document DB 容量規劃。

邊界與整合

跟其他遷移路徑的關係

保留 document model：若只是要逃離 Firestore 的查詢限制、但 document 形狀仍適合，遷 MongoDB 比遷 relational 的 paradigm 跨度小、不必反正規化還原
整包託管遷出：若連認證、儲存一起搬離 Firebase，整場資產線盤點與並行期走 10.3 託管形態遷出、本文是其中資料層那一條
反向視角：哪些資料當初就不該進 Firestore（報表來源、強一致交易），見 Firestore overview 的不適用場景

Sibling 與 cross-link

Firestore overview — 服務定位與查詢邊界
1.6 資料庫轉換實作 — 通用 dual-write / shadow read / cutover 框架
1.5 資料層紅隊 — Security Rules 授權翻譯的安全驗證
1.9 Reconciliation 與 Data Repair — dual-write 失敗補償與資料對帳
從 RDS / MongoDB 遷往 DynamoDB — 同為 Type E paradigm shift 的對照（方向相反：遷入 NoSQL vs 遷出 BaaS）
0.21 交付形態選型 / 0.22 能力級買 vs 建 — 遷移 driver 的選型層背景

DynamoDB Strongly Consistent → Eventually Consistent：same protocol, different contract

Tue, 19 May 2026 00:00:00 +0000

本文是 DynamoDB overview 的 implementation-layer deep article。同時是 #128 self-aware limitation 第 1 點「6 維仍可能漏類（identity / consistency / residency 三軸候選）」的 consistency 軸驗證。

Same protocol, different contract：consistency model 對照

DynamoDB 的 read 操作支援兩種 consistency：

屬性	Strongly Consistent Read	Eventually Consistent Read
Protocol	同（DynamoDB API）	同
API call	同 `GetItem` / `Query` / `Scan`	同（多 `ConsistentRead=false` flag）
結果	最新 commit 的值	可能 stale 0-100ms
Latency p99	5-15ms	1-5ms
Throughput cost (RCU)	1 RCU per 4KB read	0.5 RCU per 4KB read
Cross-AZ	跨 AZ 讀（quorum）	單 AZ 讀
故障行為	leader unavailable 時 read 失敗	secondary alive 時 read 仍 work

兩者 同 protocol, same API, same table — 唯一差異是 application contract：能否接受 0-100ms 的 staleness。

跑 6 維 diff dimension audit 對「strongly consistent → eventually consistent」遷移：

維度	評估	等級
Schema / API	同 API、只改 ConsistentRead flag	Low
Operational model	同 cluster、operational stack 不變	Low
Paradigm	同 NoSQL document store	Low
Components	同 1 個 table	Low
Application change	每個 read site 評估、可改	Medium
Data topology	同 partition / replication	Low
Consistency contract	strong → eventual、application semantic 完全改	High

6 維 audit 抓不到「Consistency contract = High」這軸。用既有 6 維歸類、會走 Type B drop-in + application change 中維獨立段；但這個歸類 漏掉真正的工作量：

Application code change（加 ConsistentRead flag）：~10%
Operational verification：~5%
Application contract review（每個 read site 評估 staleness 是否可接受）：~85%

工作量主軸在 contract semantic 重審、不在既有 6 維任一個。Consistency 是 候選的第 7 維（或 8 維、跟 identity 並列）。

Consistency axis 是否獨立：3 個論據

Yes、consistency 是獨立軸：

Schema / paradigm / operational 不變 → consistency 仍可變：同 DynamoDB table、同 application、同 IAM、只改 ConsistentRead flag、cost 砍半但 application contract 改；其他 6 維皆 Low、但工作量 80%+ 在 contract review
Paradigm 是 high-level、consistency 是 low-level：Kafka ↔ NATS 是 paradigm 差（log-based vs subject-based）；DynamoDB strong → eventual 是 同 paradigm 內的 consistency 子議題；歸 paradigm 維度太粗
可獨立發生：PostgreSQL READ COMMITTED → SERIALIZABLE migration 同 vendor 同 schema 同 operational、只改 isolation level；Cassandra LOCAL_QUORUM → EACH_QUORUM 同 vendor、只改 consistency level — 都是 consistency 獨立變動的 case

No、consistency 可塞 paradigm：

反論：consistency 是 paradigm 的子議題
拒絕：paradigm 涵蓋 核心抽象（OLTP / log / pub-sub / document）、consistency 是 正確性 contract 屬不同 axis

實證：本文 migration 工作量 85% 在 contract review、確認 consistency 是 獨立工作量主軸。

結構：類 Type B + consistency contract review 獨立段

跟既有 Type B Redis → DragonflyDB 對照、本文多出 consistency contract review 獨立段：

11. Same protocol, different contract（consistency axis 對照表開頭）
22. Consistency axis 是否獨立的論據
33. 結構 differentiator（類 Type B + contract review）
44. Read site audit (per-call site review)
55. Migration 流程（dual-read 觀察 + canary cutover）
66. Production 故障演練
77. Capacity / cost
88. 整合 / 下一步

8 章節、200-260 行。比標準 Type B 多 1 段（contract review）+ 1 段（axis 獨立論據）。

Read site audit：per-call site contract review

不是 table-level 決定 consistency、是 call site-level 決定。每個 GetItem / Query / Scan 必須單獨 audit：

 1# Pre-audit application code
 2# Find all DynamoDB read sites
 3$ grep -r "table.get_item\|table.query\|table.scan" src/
 4
 5# Per-site contract review template:
 6# - Site: src/order_service.py:123 - get_item by order_id
 7# - Context: 顯示 order detail page、user 剛點「我的訂單」
 8# - Contract: user 可接受 100ms 內 stale data?
 9# - Decision: YES → ConsistentRead=False, saves 50% RCU
10#             NO  → keep ConsistentRead=True

Audit 分類矩陣（典型 application）：

Read pattern	預設 consistency	Eventual 是否可接受	估佔比
User read 自己剛 commit 的 data	Strong（read-your-write）	通常 NO	5-10%
List query（顯示用 / search 結果）	Strong（過度保守）	YES	30-40%
Background job / analytics	Strong（過度保守）	YES	20-30%
Real-time dashboard refresh	Strong	depends（refresh 間隔）	10-15%
跟 strongly consistent write 同 transaction	Strong（必要）	NO	5-10%
Health check / monitoring	Strong（不必要）	YES	5-10%

audit 完後 application 端 60-80% read site 可改 eventual、剩餘 20-40% 保留 strong；整體 RCU cost 降 30-40%。

Migration 流程

Phase 0：Audit + classify

Grep application code 找所有 read site
per-site contract review、決定 strong / eventual
估計 RCU saving

Phase 1：低風險 site 切換

 1# Before
 2response = table.get_item(
 3    Key={'order_id': order_id},
 4    ConsistentRead=True  # 預設保守
 5)
 6
 7# After（顯式設）
 8response = table.get_item(
 9    Key={'order_id': order_id},
10    ConsistentRead=False  # 明示 eventual OK
11)

從 background job / search result 開始（低風險、staleness impact 低）、跑 1 週觀察 application metric。

Phase 2：中風險 site 切換

User-facing list query
Dashboard refresh
配 application-side 「last updated X seconds ago」hint 讓 user 知道是 cached/stale

Phase 3：審慎 site 保留 strong

Read-your-write pattern
Transactional read
Financial / payment-critical lookup

Decision document 寫進 ADR、之後新 read site 直接套規則。

Production 故障演練

Case 1：Read-your-write 失效、user 看到自己沒提交的舊資料

徵兆：user 在 settings page 改了 email、submit 後跳轉首頁、首頁 widget 顯示舊 email 5-30 秒；user feedback「我改了但沒生效」。

根因：首頁 widget 用 ConsistentRead=False 讀 user profile、剛 commit 的 write 還在 propagate；違反 read-your-write semantic。

修法：

Read-your-write 場景強制 strong read：user 自己 fetch 自己的 data、加 ConsistentRead=True
Application-side cache invalidation：write 後立刻 invalidate local cache、避免 stale read 餵 user
Routing：user-self-fetch 路由到 strong read、其他 user 看 user 用 eventual read（90% 流量仍便宜）

Case 2：跨 record consistency 假設失效

徵兆：application 寫 order + 寫 inventory（兩個 record）、之後 read order + read inventory；發現有時 order 已寫 inventory 沒寫、application 顯示「order created but inventory not updated」、business state inconsistent。

根因：DynamoDB 沒 transaction 跨多 record（除非用 TransactWriteItems API）；eventual read 加劇 inconsistency window；strong read 並不解決根因。

修法：

架構：跨 record 寫入用 TransactWriteItems、確保 atomic
read 端 saga pattern：accept eventual + application-level retry/reconcile
eventual consistency 不是 root cause：strong read 也會看到 inconsistency、修跨 record write 是根因解

Case 3：Background job retry 跑舊資料

徵兆：background job 每 5 分鐘掃 unprocessed orders、用 ConsistentRead=False；偶爾 job retry 2 次都 process 同 order、duplicate processing。

根因：job round 1 抓到 unprocessed order → mark as processed；job round 2 read 仍看到 未 mark 的舊狀態（eventual stale）、又 process 一次。

修法：

Idempotent processing：用 order ID + 自己 dedup 表、不依賴 DynamoDB consistency
Conditional write：UpdateItem 加 ConditionExpression: attribute_not_exists(processed_at)、duplicate 由 DynamoDB 拒絕
不切 strong：background job 切 strong 也只是減少 duplicate 機率、不解決；用 idempotent + conditional 才對

Case 4：Cost 沒降反升、application 改錯方向

徵兆：切換 6 個月後 RCU 成本反而上升 20%；audit 後發現 application 加了大量 background scan 用 ConsistentRead=False、scan 本身就比 query 貴、cost 飆。

根因：team 把「consistency 砍半 = cost 砍半」過度推廣、加了原本不存在的 read site；新 read 即使 eventual 也是 新 cost。

修法：

Migration scope 內 freeze new read：consistency 切換期間禁止加新 read 邏輯
Cost monitoring 在切換前 baseline：對齊原 RCU usage、新 read 出現必須單獨 review
Scan vs Query：跑 sample data、確認 application 用 Query 不是 Scan（Scan 對所有 partition 讀 / Query 對 partition key 讀）

Case 5：故障期間 eventual read 還能 work、應變流程沒覆蓋

徵兆：us-east-1 partial outage、strong read 開始 timeout、application 切到 fallback；但 fallback 邏輯只 cover「全 region fail」、沒 cover「strong fail / eventual ok」中間狀態；流量打到 fallback 路徑、出乎預期慢。

根因：DynamoDB 提供 partial consistency degradation — leader replica 不可用時 strong read 失敗、secondary 仍 alive、eventual read 仍可；application 沒設計這個中間狀態的處理。

修法：

明示 fallback strategy：strong read 失敗時 application 端 retry with eventual + warning user「showing potentially stale data due to system degradation」
Circuit breaker per-consistency-level：strong read circuit 跟 eventual read circuit 分開、避免一邊 fail 拖另一邊
DR drill 覆蓋此 case：故障演練不只「全失敗 vs 全 work」、要演 partial degradation

Capacity / cost

維度	All strongly consistent	Mixed（70% eventual + 30% strong）	All eventually consistent
RCU per read	1 RCU per 4KB	0.65 RCU per 4KB（avg）	0.5 RCU per 4KB
Read latency p99	10-15ms	5-10ms	1-5ms
Cost saving	baseline	~35%	~50%
Application complexity	Low	Medium（per-site decision）	Low
Audit / migration cost	-	2-3 FTE 月 × audit	同 mixed
Cross-AZ failure	Strong read fail	Strong fail, eventual work	All work

判讀：完全 strong 是 過度保守、完全 eventual 是 過度激進；mixed 是 sweet spot、但 audit 工作量大。

整合 / 下一步

跟 PostgreSQL READ COMMITTED → SERIALIZABLE 對照

PostgreSQL isolation level migration 也是 consistency axis 變動、但方向相反（弱 → 強）；同樣需要 per-call-site review、application 端可能撞 serialization failure 處理。

跟 Cassandra LOCAL_QUORUM → EACH_QUORUM 對照

Cassandra tunable consistency 是另一個 consistency 獨立軸 case；EACH_QUORUM 跨 DC 需所有 DC quorum、latency 增、availability 降。

跟 Aurora read replica 對照

Aurora read replica 也涉 eventual read decision；application 路由策略類似但 mechanism 不同（DNS-based vs API flag）。

下一步議題

Consistency axis 升級為第 7 維 audit dimension：累積 PostgreSQL isolation level / Cassandra tunable consistency / Aurora reader endpoint 3-5 個 case 後評估
Sub-dimension proposal：consistency axis 可拆 sub-dimension - read consistency / write consistency / replication lag tolerance / serialization level
跟 paradigm 軸的邊界釐清：CRDT / event sourcing 是 paradigm 還是 consistency model 選擇？

MongoDB → Atlas：Atlas 不是 MongoDB + managed、是另一個 product

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 MongoDB 跟 MongoDB Atlas。本文是 Migration playbook methodology Type C operational redesign hybrid 的標準形態實證。每階段切換用 migration gate 把關 — 4 phase 之間的驗證條件就是 gate。

Atlas 不是 MongoDB + managed、是另一個 product

「MongoDB Atlas 是 MongoDB 的 managed 版本」這個 framing 看似合理、實際誤導：

Protocol 相容：MongoDB wire protocol 一致、driver 不改、mongosh 連線跟 self-managed 一樣
Storage 一致：WiredTiger storage engine 一樣、document model 一樣
API 一致：Aggregation framework、indexing、change stream 都一樣

但 operational surface 完全不同：

Operational concept	Self-managed MongoDB	Atlas
Cluster bootstrap	mongod + replica set config + cfgsvr + shard 手動	UI / API 一鍵建集群、全自動
HA	Replica set 自管 + arbiter + priority	自動跨 AZ replica + automatic failover
Backup	mongodump + S3 archive 自管	內建 cloud backup + PITR（按 region 設）
Network access	VPC + security group + IP whitelist 自管	Atlas private endpoint / VPC peering / IP access list
Authentication	mongod 內部 user / x.509 自管	Atlas Database User + 整合 LDAP / SSO / AWS IAM
Monitoring	Self-deploy Prometheus + grafana	Atlas Performance Advisor + APM 內建
Sizing	Manual instance class + scale	Auto-tier scaling + tier-based pricing
Patching	Manual + outage window	Automatic（可配置 maintenance window）

Migration 主要工作不在 資料層 — protocol drop-in 已 cover；是 operational stack 全換：SRE runbook、monitoring dashboard、access control、IAM 整合、cost 預估全要重做。「Atlas 是 managed MongoDB」這個 framing 低估了 operational 工作量。

跑 diff dimension audit：

維度	評估	等級
Schema / API	MongoDB protocol / API 完全相容	Low
Operational model	HA / backup / monitoring / IAM / network 全換	High
Abstraction / paradigm	同 document DB	Low
Number of components	同 1 個 cluster	Low
Application change	Connection string / IAM 整合改、application logic 不改	Low/Medium

主導維度 Operational = High、Schema / Paradigm 都 Low — 對映 Type C operational redesign hybrid。

結構：4-phase operational + drop-in cutover

跟 PostgreSQL → Aurora 結構對齊（同 Type C）：

 1Phase 0：Pre-migration audit（1-2 週）
 2  - Workload sizing（IOPS / connection / storage）
 3  - Application connection pattern audit
 4  - Compliance requirement audit
 5
 6Phase 1：Operational infrastructure 準備（2-3 週）
 7  - Atlas cluster 建立
 8  - VPC peering / private endpoint
 9  - IAM role + Atlas Database User
10  - Monitoring + alert
11  - Backup retention 設定
12
13Phase 2：Data migration（取決於 dataset 大小）
14  - mongomirror / Atlas Live Migration tool
15  - 或 mongodump → mongorestore（小 DB）
16
17Phase 3：Cutover 跟 verification
18
19Phase 4：Cleanup（self-managed decommission）

整體 4-12 週、依 dataset 大小跟 organization 流程複雜度。

Phase 0：Pre-migration audit

Workload sizing → Atlas tier

 1Self-managed observations:
 2- Peak IOPS: 8000
 3- P99 read latency: 5ms
 4- Connection count peak: 1500
 5- Storage: 800GB
 6- Cross-region replication needed: yes
 7
 8Atlas tier mapping:
 9- M40 (8 vCPU, 16GB RAM): IOPS 3000、不夠
10- M60 (16 vCPU, 64GB RAM): IOPS 6000、邊界
11- M80 (32 vCPU, 128GB RAM): IOPS 9000、安全（選此）
12- Storage: 1TB tier（足夠 800GB + 25% buffer）
13- Cross-region replication add-on

Atlas 不是 自由 instance class、是 固定 tier；workload 跨 tier 邊界時要選 上一級 而不是 push 下一級。

Connection pattern audit

1// Application connection pool config
2const client = new MongoClient(uri, {
3  maxPoolSize: 100,     // ← Atlas 端 tier-specific connection limit
4  minPoolSize: 10,
5  maxIdleTimeMS: 60000,
6});

Atlas tier 對 single user connection 有限制（M40 ~1500、M80 ~3000）；多 application instance 跑同帳號連 Atlas 可能撞 limit。預先計算 total connection = pod_count × maxPoolSize、對照 tier limit。

Compliance audit

Data residency：Atlas 部署 region 是否符合 GDPR / 客戶合約
Encryption at rest：Atlas 預設 enable、但 encryption key 是 Atlas-managed — 合規嚴格要用 CMK / BYOK
Audit log：Atlas 提供 audit log、export 到 S3 / Splunk

Phase 1：Operational infrastructure 準備

Atlas cluster 配置

 1# 用 Terraform mongodbatlas provider
 2resource "mongodbatlas_cluster" "production" {
 3  project_id   = var.project_id
 4  name         = "production-cluster"
 5  cluster_type = "REPLICASET"
 6
 7  provider_name         = "AWS"
 8  provider_region_name  = "US_EAST_1"
 9  provider_instance_size_name = "M80"
10
11  backup_enabled         = true
12  pit_enabled            = true   # PITR
13  mongo_db_major_version = "7.0"
14
15  advanced_configuration {
16    javascript_enabled                   = false
17    minimum_enabled_tls_protocol         = "TLS1_2"
18    no_table_scan                        = false
19    oplog_size_mb                        = 51200
20  }
21}
22
23# Backup retention
24resource "mongodbatlas_cloud_backup_schedule" "production" {
25  project_id   = var.project_id
26  cluster_name = mongodbatlas_cluster.production.name
27
28  reference_hour_of_day    = 3
29  reference_minute_of_hour = 0
30  restore_window_days      = 7
31
32  policy_item_daily {
33    frequency_interval = 1
34    retention_unit     = "days"
35    retention_value    = 7
36  }
37}

VPC peering / private endpoint

 1Pattern A: VPC Peering
 2  AWS VPC <──peering──> Atlas project VPC
 3  - 跨 region 跑、routing table 對齊
 4  - 適合中型 / 大型 workload、stable network topology
 5
 6Pattern B: Private Endpoint (Atlas private link)
 7  AWS VPC ──private link──> Atlas
 8  - 不需要 routing table 改
 9  - 適合 multi-account / multi-region 複雜場景
10  - Cost 略高

production default 走 Private Endpoint、設定簡單跟 IAM 整合好。

Atlas Database User 跟 IAM 整合

1Pattern A: 傳統 username / password
2  - 設 Database User、application 用 SCRAM-SHA-256 連
3  - 適合 legacy application
4
5Pattern B: AWS IAM authentication（推薦）
6  - Atlas Database User type: "AWS IAM"
7  - Application 用 AWS IAM role + Atlas SDK
8  - Token 15 分鐘輪換、application 自管 refresh

cutover 時間表內加 IAM authentication migration、不要事後補。

Phase 2：Data migration

Atlas Live Migration tool（小到中型）

Atlas UI 內建 Live Migration tool：

Source cluster URI（self-managed MongoDB）
Atlas target cluster
tool 自動 full sync + oplog tailing
Cutover window 內 final cutover

支援 dataset < 100GB 簡單；100GB-1TB 需要分批 / collection 順序設計。

mongomirror（大型）

1# Mongomirror: source → atlas
2mongomirror \
3  --host source-replicaset/host1:27017,host2:27017 \
4  --destination atlas-cluster-host:27017 \
5  --destinationUsername admin \
6  --destinationPassword $ATLAS_PASSWORD \
7  --ssl

mongomirror 分兩段：

Initial sync（full dump + restore）
Oplog tailing（continuous CDC）

Cutover 期間 application 切 connection string、mongomirror 跟著 stream 收尾。

Phase 3：Cutover + verification

11. Application 端設 maintenance mode（block write）
22. Wait mongomirror catch up（oplog gap → 0）
33. 驗證 Atlas 端 collection count + sample query
44. Application connection string 切到 Atlas
55. 解除 maintenance、monitor 24-48 小時
66. Self-managed mongo read-only standby 1-2 週

Production 故障演練

Case 1：Atlas tier connection limit 撞牆

徵兆：cutover 後 application 流量高峰時大量 Connection refused、Atlas 端顯示 connection limit reached；self-managed 階段沒有這問題。

根因：M80 tier connection limit ~3000、application 100 個 pod × maxPoolSize=50 = 5000 connection；超出 limit。

修法：

Pre-migration 計算：total connection 對照 Atlas tier、超出選上一級 tier
降 maxPoolSize：100 pod × 30 = 3000、剛好 cap；但 burst 仍可能撞
加 connection proxy：在 application 跟 Atlas 之間放 connection pooler（如 mongos sharded 或 ProxySQL-style proxy）

Case 2：IP whitelist 漏 application VPC、cutover 後完全連不上

徵兆：cutover 後 application 直接報 connection timeout、Atlas dashboard 顯示 zero traffic；troubleshooting 1 小時才發現是 IP access list 漏掉某 application VPC CIDR。

根因：Atlas IP access list 預設 deny all、必須明示加 application VPC；Phase 1 設定漏看某個 VPC（如 multi-account organization 內的 staging account）。

修法：

Pre-cutover 連線測試：每個 application VPC 跑 sample MongoDB 連線、確認 ping 通
改 Private Endpoint：不靠 IP whitelist、用 PrivateLink 自動 routing
Backup access：保留 bastion host with whitelisted IP、incident 期間能直連

Case 3：Backup retention 設不夠、compliance audit 抓到

徵兆：cutover 3 個月後 SOX audit 發現 backup retention 設 7 天、合規要求 90 天；急忙改 Atlas config 設 90 天、但 過去 3 個月 backup 已不可恢復。

根因：Atlas backup retention 是 向前生效、不能回追加；Phase 1 預設配置漏對合規 review。

修法：

Pre-Phase 1 跑 compliance review：跟 legal / security team 確認 retention / data residency / audit log
預設 retention 設保守值（30 / 60 天）、之後可降不能升
PITR 跟 backup retention 分開設：PITR window 7-30 天、full backup 90-365 天

Case 4：IAM token 過期、application 端 reconnect storm

徵兆：production 切到 IAM authentication 後、每 15 分鐘出現一波 connection failure；Atlas log 顯示「auth token expired」。

根因：AWS IAM token 15 分鐘輪換、application 用舊 token 重連失敗；token refresh 邏輯沒寫對。

修法：

1// 用 Atlas SDK + AWS SDK 整合、自動 token refresh
2const { MongoClient } = require('mongodb');
3const { fromIni } = require('@aws-sdk/credential-providers');
4
5const credentials = fromIni({ profile: 'production' });
6const client = new MongoClient(uri, {
7  authMechanism: 'MONGODB-AWS',
8  // SDK 自動 refresh token
9});

不要自管 token rotation、用 vendor SDK 抽象掉。

Case 5：Billing 暴漲、IOPS 跟 backup storage 超預估

徵兆：第一個月 Atlas 帳單 $15K USD、預估 $8K；Atlas dashboard 顯示 backup storage 跟 IOPS 各超 1.5-2x 預估。

根因：

Atlas backup 預設 跨 region replicated、storage cost 2x
IOPS-heavy workload 在 M tier 內可能撞 burst credit、auto-tier-up 暫時觸發更貴 tier
Data transfer 跨 region / 跨 cloud 計費沒算

修法：

Pre-migration cost estimate：用 self-managed metrics 估 IOPS / bandwidth、套 Atlas pricing
Backup region 設單一：若不要跨 region DR、設 same-region backup 省 50%
Reserved Instance：穩定 workload 預付 1-3 年、省 30-40%
Performance Advisor 早用：第一週就跑、找 inefficient query 降 IOPS

Capacity / cost

維度	Self-managed MongoDB	Atlas
Cluster cost (M80)	EC2 r6g.4xlarge × 3 ≈ $1.5K / mo	M80 + storage + backup ≈ $3K / mo
Operational FTE	0.5-1.5 FTE	0.1-0.3 FTE
Backup cost	S3 + tooling 自管	內建 + tiered storage
Cross-region DR cost	Manual + 2x infrastructure	1-click + 1.5-2x billing
Time to value	1-3 個月（HA + ops setup）	1-2 週（cluster ready + IAM）
Migration cost	-	1-3 FTE × 2-3 個月

Break-even：~200GB / 中型 workload、Atlas operational savings 平攤 1-2 年後比 self-managed cheaper；TB+ 大型 workload self-managed 仍可能便宜、但需要 ops team。

整合 / 下一步

跟 PostgreSQL → Aurora migration 對照

兩篇都是 Type C operational redesign hybrid、模板共用、細節差：

Aurora 端 RDS Proxy 是推薦做法、Atlas 端 Private Endpoint 更標準
Aurora 端 IAM authentication 是 optional best practice、Atlas IAM 是 推薦預設
兩家 cost model 都複雜、I/O cost 是 surprise 主要來源

跟 Application 端 IAM token rotation 整合

Vault dynamic credential 可 issue Atlas Database User credential、lease lifecycle 對齊 application；對 high-stakes workload 是好做法、但 setup 複雜。

下一步議題

Atlas Data Federation：跨 Atlas 集群 query S3 / 跨 region；如果走 multi-region 評估這 feature
Atlas Online Archive：cold data 自動 archive 到 S3、查 query 透明；對 retention 重的 workload 省 storage cost
Atlas Serverless：burst workload 適合、steady 不划算

MySQL → PostgreSQL：從 SQL dialect diff 跑出來的 Type A 6-phase migration

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 MySQL 跟 PostgreSQL。本文是 Migration playbook methodology Type A 的標準形態實證。

三類 SQL dialect diff sample：先看具體差距

 1-- 1. Auto increment / sequence
 2-- MySQL
 3CREATE TABLE users (id INT AUTO_INCREMENT PRIMARY KEY);
 4-- PostgreSQL
 5CREATE TABLE users (id SERIAL PRIMARY KEY);
 6-- 或 PG 10+:
 7CREATE TABLE users (id INT GENERATED ALWAYS AS IDENTITY PRIMARY KEY);
 8
 9-- 2. String concatenation
10-- MySQL: CONCAT(a, b) 或 a || b 在 ANSI mode
11SELECT CONCAT(first_name, ' ', last_name) FROM users;
12-- PostgreSQL: a || b 或 CONCAT(a, b)
13SELECT first_name || ' ' || last_name FROM users;
14-- 注意: PostgreSQL 對 NULL || x = NULL、MySQL CONCAT 對 NULL 處理不同
15
16-- 3. UPSERT
17-- MySQL
18INSERT INTO users (id, name) VALUES (1, 'Alice')
19ON DUPLICATE KEY UPDATE name = VALUES(name);
20-- PostgreSQL (9.5+)
21INSERT INTO users (id, name) VALUES (1, 'Alice')
22ON CONFLICT (id) DO UPDATE SET name = EXCLUDED.name;
23
24-- 4. Index hint / FORCE INDEX
25-- MySQL
26SELECT * FROM orders FORCE INDEX (idx_created_at) WHERE created_at > '2025-01-01';
27-- PostgreSQL: 沒對應 syntax、依賴 planner + statistics
28-- 必要時用 enable_seqscan=off 或 pg_hint_plan extension
29
30-- 5. JSON path
31-- MySQL 5.7+
32SELECT data->'$.name' FROM events;
33-- PostgreSQL
34SELECT data->'name' FROM events;
35SELECT data->>'name' FROM events;  -- 取出 text

5 個 sample 看出 MySQL → PostgreSQL 主要工作是 SQL dialect translation；不是 5-10 個函數差、是 跨整個 application SQL surface 的 audit + 改寫。對應 diff dimension audit 結果：

維度	評估	等級
Schema / API	SQL dialect 差大、CREATE TABLE / INDEX / function 都差	High
Operational model	兩者都 OLTP RDBMS、replication 概念對等但語法不同	Medium
Abstraction / paradigm	同 SQL RDBMS	Low
Number of components	同 1 個	Low
Application change	ORM 多數能 cover、raw SQL 必改	Medium

主導維度 Schema = High、走 Type A 6-phase playbook 標準結構。

Phase 0：rule audit + SQL surface 盤點

 1-- 1. 列所有 stored procedure
 2SELECT routine_schema, routine_name, routine_type
 3FROM information_schema.routines
 4WHERE routine_schema NOT IN ('mysql', 'sys', 'information_schema', 'performance_schema');
 5
 6-- 2. 列所有 trigger
 7SELECT trigger_name, event_object_table, action_statement
 8FROM information_schema.triggers;
 9
10-- 3. 列所有 view
11SELECT table_name, view_definition
12FROM information_schema.views;
13
14-- 4. 列所有 index 含 prefix length
15SHOW INDEX FROM users;
16-- PostgreSQL 對 prefix index 處理不同、要逐個 audit

Audit 主要產出三類清單：

Direct port：標準 SQL feature、PG 直接接受
Translate：MySQL-specific syntax、需要改寫（UPSERT / CONCAT NULL 行為 / index hint）
Refactor：MySQL-specific behavior（auto_increment session-level / SELECT FOUND_ROWS / GROUP BY 寬鬆 / TEXT 隱性 cast）— 不能直接 port、application code 也要改

Phase 1：schema 對位

MySQL	PostgreSQL
`INT AUTO_INCREMENT`	`INT GENERATED ALWAYS AS IDENTITY` 或 `SERIAL`
`TINYINT(1)` (boolean usage)	`BOOLEAN`
`DATETIME`	`TIMESTAMP WITHOUT TIME ZONE`
`DATETIME(6)` (microsecond)	`TIMESTAMP(6)`
`VARCHAR(N)` with charset	`VARCHAR(N)` (UTF-8 always)
`TEXT`	`TEXT` (no length limit)
`LONGTEXT`	`TEXT`
`JSON`	`JSONB` (推薦、indexed) 或 `JSON`
`ENUM('a','b','c')`	自定 `TYPE foo AS ENUM('a','b','c')` 或 `VARCHAR + CHECK`
`SET('a','b')`	Array `TEXT[]` + CHECK
`BINARY(N)`	`BYTEA`
Index prefix `KEY (col(10))`	Functional index `CREATE INDEX ON t (LEFT(col, 10))`
`FULLTEXT INDEX`	`tsvector` + GIN index
Geographic types	PostGIS extension（必須先裝）

Schema 對位表存版控、application code refactor 時對照。

Phase 2：Translation pipeline（3-tier 跟 Splunk → Elastic 類似）

Tier 1：vendor / community tool

1# pgloader：成熟工具、cover ~70-80% schema + data
2pgloader mysql://user:pass@mysql-host/dbname \
3         postgresql://user:pass@pg-host/dbname
4
5# 或 AWS DMS（managed、適合 RDS / Aurora target）
6# DMS task: Full Load + CDC

Tier 2：自家 SQL refactor

對 ORM 不能 cover 的 raw SQL：

Manual grep application code 找 auto_increment / ON DUPLICATE KEY / FORCE INDEX / FOUND_ROWS() / CONCAT NULL
寫 codemod / lint rule、CI 強制 check（PG-incompatible SQL block PR）

Tier 3：tricky case manual

例：MySQL SELECT * FROM t1, t2 WHERE t1.id = t2.id GROUP BY t1.id（implicit GROUP BY 寬鬆）— PG 嚴格 GROUP BY 必須 list 所有 non-aggregate column；application code refactor 必要。

Phase 3：Parallel run

雙寫 + 雙讀比對 1-2 個月：

1Application ──→ MySQL (write + read primary)
2            └─→ PostgreSQL (write only + read shadow)
3                                    ↓
4                            Diff checker (latency / result diff)

pt-table-checksum (MySQL) + 自家 checksum scanner 對 sample table 跑 daily checksum、找 schema 對位錯。

Phase 4：Cutover

設 application maintenance window（30 分鐘）
Drain MySQL write、等 last LSN propagated to PG
Application switch connection string → PG
解除 maintenance、monitor 24-48 hours

Phase 5：Cleanup

MySQL read-only 1-2 週（fallback window）
之後 stop replication、decommission MySQL

Production 故障演練

Case 1：Auto_increment vs SERIAL 跨 transaction 行為差

徵兆：cutover 後某 batch job 跑得比 MySQL 慢 5-10x、PG log 顯示 sequence 競爭。

根因：MySQL AUTO_INCREMENT 取值受 innodb_autoinc_lock_mode 控制（8.0 預設 mode=2 interleaved 可並行、mode=0 才是 table-level lock；詳見 Lock contention）、PG SERIAL 是 sequence-level non-transactional；mode=0 場景跟 PG SERIAL 差異最大、mode=2 跟 PG SERIAL 行為較接近（皆可亂號、皆可並行）。

修法：

改 UUID v7 / bigserial：消除 sequence 競爭
bigserial + cache：CREATE SEQUENCE ... CACHE 100、batch 預取 100 個 ID 降 contention
批量 insert 改 COPY：COPY t FROM STDIN 是 PG 對 batch 最快路徑

Case 2：Charset / collation 跑出 unicode 異常

徵兆：cutover 後某些用戶名 / 中文文字 query 對不到結果、SELECT * WHERE name = '張三' 返回空。

根因：MySQL default utf8mb3（3-byte UTF-8、不能存 emoji / 部分 unicode）、PG default UTF8 全 unicode；資料遷移時 MySQL 端的 utf8mb3 column 帶到 PG 後 bytes 不變 但 collation rule 變；string comparison 結果差。

修法：

Pre-migration audit：MySQL 強制 utf8mb4、avoid utf8mb3 data
Collation 對位：MySQL utf8mb4_unicode_ci → PG LC_COLLATE = 'C.utf8' 或 ICU collation
Application encoding contract：明示 UTF-8 全範圍、不接受 utf8mb3-only client

Case 3：Case sensitivity 反轉

徵兆：cutover 後 application query SELECT * FROM users 報錯 relation does not exist；但 SELECT * FROM "Users" works。

根因：MySQL Linux default table name case-sensitive、Windows case-insensitive、配置 lower_case_table_names 影響；PG all identifier folded to lowercase unless quoted。MySQL on macOS 開發環境是 case-insensitive、PG 嚴格 case-sensitive、application code 端可能用 mixed case。

修法：

Schema migration 階段強制 lowercase：所有 table / column name 統一 lowercase
Application code refactor：grep raw SQL 找 mixed case identifier、改 lowercase
ORM 端設定 naming_strategy：JPA / Hibernate 等明示 lowercase mapping

Case 4：Replication 行為差、CDC pipeline 失效

徵兆：MySQL 端 binlog-based CDC（Debezium MySQL connector）跑得好好的、cutover 後 PG 端要重建 CDC pipeline、初期 1-2 週 message 模式異常。

根因：MySQL binlog row format vs PG logical replication slot 完全不同 protocol；Debezium 對兩家連接器是獨立 binary、message schema 部分對等但不直通。

修法：

Pre-cutover 建 PG 端 CDC：Debezium PG connector 提前部署、初期跟 MySQL CDC 並存比對
Schema registry 同步：Avro schema 從 MySQL 端 export、註冊 PG 端 connector 用同 schema
Consumer 端 idempotent：cutover 期間 dual-source、consumer 必須 idempotent 避免 duplicate

Case 5：FULLTEXT INDEX 對應 tsvector、application search broken

徵兆：cutover 後 application 全文搜尋功能失效、MATCH(name) AGAINST('xxx') 不被 PG 認；application 端 raw SQL 對 search 寫死。

根因：MySQL FULLTEXT INDEX + MATCH ... AGAINST syntax PG 不支援；PG 用 tsvector + ts_rank + to_tsquery、概念對等但 syntax 完全不同。

修法：

Pre-migration：列 application 用到的 fulltext search 場景、改寫成 tsvector pattern
大型 search 改 Elasticsearch / Meilisearch：fulltext 是專門 search engine 的本職、不該用 RDBMS 解
降級為 LIKE：簡單 case WHERE name ILIKE '%xxx%'、performance 較差但相容性好

Capacity / cost

維度	MySQL	PostgreSQL
Instance cost	對等（同 EC2 / RDS spec）	對等
Operational FTE	對等	對等
Connection pooling	proxysql / mysql-proxy	PgBouncer（更成熟）
Index performance	對等	對等
JSON performance	Improving	JSONB 領先
Replication	Async binlog	Async streaming + logical
Extension ecosystem	少	大（PostGIS / TimescaleDB / pgvector）
Migration cost (one-time)	-	2-6 FTE 月 × project length（含 application）

Migration 主要 cost 在 application code refactor + dual-write window operational、不是 DB itself。

整合 / 下一步

跟 PostgreSQL → Aurora migration 串接

部分組織走 MySQL → PostgreSQL → Aurora 兩段：

先 MySQL → self-managed PostgreSQL（schema 對位 + application 改）
穩定後 self-managed PostgreSQL → Aurora（operational simplification）

不要一次跑 MySQL → Aurora PostgreSQL compat、認知負擔太大、failure mode 互相干擾。

跟 Logical Replication + Debezium 對位

PG 端 CDC pipeline 在 cutover 完成後立刻可用；可作為 downstream CDC 重建 的契機、設計 outbox pattern 更穩。

下一步議題

MySQL 8 vs PostgreSQL 16 feature gap：MySQL 8 加了 CTE / window function / generated column；2025+ feature parity 漸高、migration ROI 評估會變
Reverse migration（PG → MySQL）：少見、通常是 application 端 dependency lock-in（用了 MySQL-specific stored procedure）
MariaDB → PostgreSQL：跟 MySQL → PG 類似、MariaDB 部分 syntax 略接近 PG（如 RETURNING）

PostgreSQL Patroni HA：從 leader 失聯到 client 重連的 5 段 failover lifecycle

Mon, 18 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PostgreSQL 在 OLTP 譜系的定位、本文聚焦 Patroni-based HA 的 lifecycle 設計 — 從正常運作到 failover 完成的 5 段、每段配置 + failure mode + recovery。

Failover lifecycle：5 段不是一條曲線

PostgreSQL 原生沒有 auto-failover；primary 掛了、application 卡死、SRE 手動 promote standby — 整個過程通常 5-30 分鐘。Patroni 把這條鏈拆成 自動化的 5 段 lifecycle、每段有自己的 trigger、配置、失敗模式：

段	觸發	動作	失敗模式
1. Detection	Leader heartbeat 在 DCS（etcd / Consul）失聯	Standby 們開始觀察、累積失聯時間到 TTL	DCS 本身分裂 → false detection 啟動失敗 failover
2. Election	TTL 過、DCS 開放 leader lock	Standby 競爭寫 leader key（DCS quorum-based）	Network partition → 兩邊都自認 leader（split-brain）
3. Promotion	新 leader 寫 DCS key 成功	跑 `pg_ctl promote`、停 streaming replication、開始接寫	Standby 落後太多 → 拒 promote 或承接時資料缺
4. Reconfiguration	Patroni REST API 通知 routing 層	HAProxy / PgBouncer 切流量到新 leader	Routing 層 health check 慢 → 流量持續打舊 leader
5. Recovery	舊 leader 恢復（手動 / 自動）	跑 `pg_rewind` + 重接 streaming replication 為 standby	WAL divergence 太大 → 必須重 base backup

每段都有獨立配置、不是「設一個 timeout 就好」。後面分段展開。

Stage 1：Detection — DCS heartbeat 跟 TTL

 1# patroni.yml 核心配置
 2scope: myapp-pg-cluster
 3namespace: /db/
 4name: pg-node-1                                # 跟 hostname 一致
 5
 6etcd:
 7  hosts: etcd1:2379,etcd2:2379,etcd3:2379       # DCS quorum
 8  protocol: https
 9
10bootstrap:
11  dcs:
12    ttl: 30                                     # leader lock TTL
13    loop_wait: 10                               # patroni 主循環間隔
14    retry_timeout: 10                           # DCS retry 上限
15    maximum_lag_on_failover: 1048576            # standby 落後 1MB 內才能 promote
16    synchronous_mode: false                     # async / sync 取捨

關鍵直覺：

TTL (30s) = leader 失聯多久才被視為 dead。設太短（< 15s）會把 transient network jitter 當 dead；設太長（> 60s）unavailability 拖長
loop_wait + retry_timeout < TTL：Patroni 必須在 TTL 內成功跟 DCS 互動 N 次、loop_wait=10 + retry_timeout=10 給每個循環 20s buffer
maximum_lag_on_failover：standby WAL 落後超過這個閾值就 不參與 election；防止「promote 一個落後 5 分鐘的 standby」資料丟失

Stage 2：Election — DCS quorum + watchdog 防 split-brain

1watchdog:
2  mode: required                                # required / automatic / off
3  device: /dev/watchdog
4  safety_margin: 5

Election 期間最大風險是 split-brain — network partition 下、舊 leader 還活著但跟 DCS 斷線；新 leader 從 standby 升上來、application 同時連兩個 PostgreSQL 寫。資料 divergence 後 無法自動 reconcile。

防護機制兩層：

DCS quorum：etcd / Consul 至少 3 node、過半 quorum 才能寫 leader key — 少數派 partition 無法 elect 新 leader
Watchdog (Linux kernel)：required mode 強制 — Patroni 必須定期 poke /dev/watchdog、若 Patroni 自己掛或被 OS 凍結、kernel 自動 reboot 整台機器、避免舊 leader 在 DCS 失聯後繼續接寫

Watchdog required 是 production-grade 的硬要求 — automatic / off 在 split-brain 場景下無法防護。

Stage 3：Promotion — pg_ctl + replication slot 切換

新 leader 寫 DCS key 成功後、Patroni 自動執行：

1# Patroni 內部、不要手動跑
2pg_ctl promote -D /var/lib/postgresql/data
3# postgresql.auto.conf 移除 primary_conninfo
4# postgresql.auto.conf 重新計算 timeline ID
5# 啟動接寫

Promotion 期間關鍵議題：

timeline divergence：新 leader 開新 timeline ID（從 leader 失聯時的 LSN 開始）；其他 standby 需要 pg_rewind 把自己的 WAL fork 點對齊新 timeline
replication slot 處理：舊 leader 上的 replication slot 在 DCS 中已 stale、新 leader 重建 slot；如果 logical replication consumer 沒 idempotent、會 replay 部分訊息
promotion latency：通常 3-10 秒（pg_ctl 本身 < 5s、加 DCS 寫確認）

Stage 4：Reconfiguration — client routing 切換

PostgreSQL 自己升 leader 還不夠、application 不知道；要靠前端 routing 層轉發。三種典型 pattern：

1[client] → [HAProxy / pgBouncer] → [pg-node-1 (leader)]
2                                 → [pg-node-2 (standby, read)]
3                                 → [pg-node-3 (standby, read)]

Patroni REST API 暴露 /leader / /replica / /health endpoint、HAProxy 用 health check 跑這些 endpoint：

1# haproxy.cfg
2backend pg-write
3  option httpchk OPTIONS /leader
4  http-check expect status 200
5  server pg-node-1 pg-node-1:5432 check port 8008
6  server pg-node-2 pg-node-2:5432 check port 8008 backup
7  server pg-node-3 pg-node-3:5432 check port 8008 backup

Reconfiguration 期間關鍵延遲：

HAProxy health check 間隔（預設 2s）+ failure threshold（預設 3 次）= ~6s 切換感應
PgBouncer 不主動 health check、要靠 application 端 retry 跟 connection drop 觸發重連
整個 reconfiguration 端到端通常 10-20s（含 PostgreSQL promotion 時間）

Stage 5：Recovery — pg_rewind 跟 base backup 取捨

舊 leader 恢復後變 standby，但 WAL 已 divergence — 必須選一條 recovery path：

pg_rewind：rewind 舊 leader WAL 到分歧點、重新接 streaming replication；條件 = 分歧 WAL 量小（< 幾 GB）且 timeline 可對齊
重 base backup：用 pg_basebackup 從新 leader 拉完整 base + WAL；條件 = 任何時候都可、但時間長（TB 級 1-4 小時）

Patroni 預設嘗試 pg_rewind、失敗才退 base backup。production 配置：

1postgresql:
2  use_pg_rewind: true
3  remove_data_directory_on_rewind_failure: true   # rewind 失敗自動清 data dir、再 base backup
4  remove_data_directory_on_diverged_timelines: true

Production 故障演練

Case 1：Split-brain due to DCS partition

徵兆：兩個 PostgreSQL node 都在接寫、application 大量寫入 conflict / unique constraint violation。

根因：DCS（etcd）partition — 兩個 etcd node 在 partition 兩側、都自認 quorum；其實是 split-vote、兩邊都不應該。Patroni 在兩邊各 elect 一個 leader。

修法：

DCS 必須奇數 node（3 / 5 / 7）、過半 quorum 嚴格 enforce
DCS 部署跨 AZ / region 時、quorum size 要考慮 partition 機率（3 AZ 各 1 node 是 production 最低標）
Watchdog required mode 是最後一道閘門 — DCS partition 加 quorum 失靈時、watchdog 強制 reboot 失聯 node

Case 2：Standby 落後太多、無法 failover

徵兆：primary 失聯後、Patroni log 顯示 Following members have lag greater than maximum_lag_on_failover、所有 standby 都被拒 promote、cluster unavailable。

根因：maximum_lag_on_failover 設 1MB、但 standby replication lag 累積到 50MB（write-heavy workload + slow disk on standby）。安全機制觸發、但代價是 無 standby 可升、需要人工降低門檻或等 standby catch up。

修法：

預防：standby 容量 / IO 對齊 primary、避免 lag 累積；prometheus alert pg_replication_lag_bytes > 10MB 觸發前 catch
臨時：手動 patronictl edit-config 把 maximum_lag_on_failover 暫時拉到 50MB、接受可能丟 50MB worth of writes、換 availability
長期：sync replication（一個 standby 強制同步）、保證至少一個 standby zero-lag

Case 3：Promotion 後 application connection storm

徵兆：failover 完成後 30-120 秒內、application log 大量 connection refused / password authentication failed、application 自己 retry storm。

根因：新 leader 剛 promote、PostgreSQL max_connections 容量還在 warm up（shared memory / cache 未 prime）、application 同時湧入大量 connection request；應用 retry 不夠 jitter、queue 堆積。

修法：

Application 用 exponential backoff with jitter、不要 immediate retry
PgBouncer / connection pool 限制每 application instance 對 PG 的 connection 上限、不直連 PG
預先在 standby 跑 pg_prewarm 把熱表 cache 預熱、promotion 後 cache miss 不爆

Case 4：pg_rewind 失敗、退到 base backup 沒做

徵兆：舊 leader 恢復後、Patroni log 顯示 pg_rewind failed、舊 leader 一直 STARTING、無法重接 cluster；SRE 手動跑 pg_basebackup 才恢復。

根因：remove_data_directory_on_rewind_failure: false（預設）— rewind 失敗時 Patroni 不主動清 data dir、需要 SRE 手動處理；運維沒 runbook、卡在這步幾小時。

修法：

Production 設 remove_data_directory_on_rewind_failure: true + remove_data_directory_on_diverged_timelines: true、讓 Patroni 自動 fallback
data dir 跑在獨立 PV / disk、清掉風險可控（不要跑 root disk）
容量規劃：base backup 時間預估納入 RTO（TB 級 base backup 1-4 小時、不是 RTO 30 分鐘所能承受）

Case 5：Watchdog 觸發整機 reboot、誤殺

徵兆：production server 在無故障時 unexpected reboot、dmesg 顯示 watchdog: BUG: soft lockup。

根因：Patroni 主循環因 etcd 短暫慢回應卡住 60+ 秒、kernel watchdog 觸發 reboot；但實際 PostgreSQL 沒 hang、是 Patroni-watchdog 鏈過敏。

修法：

safety_margin 設大一點（10-15）、給 Patroni loop_wait 抖動空間
etcd 跟 Patroni 部署在低延遲 network 內（同 AZ < 5ms）、跨 region etcd 不建議
watchdog device 用 softdog（軟體模擬）vs 硬體 watchdog、debug 時 softdog 容易觀察

容量規劃

維度	估算	警戒
Cluster size	3-5 node（含 leader + 2-4 standby）	< 3 不能 HA（單 standby 失敗整 cluster 掛）
DCS size	3 / 5 / 7 node（奇數 quorum）	etcd 5 node 是 prod standard
TTL	30s（default 30、production 20-60）	< 15s 過敏、> 60s 過鈍
maximum_lag_on_failover	1MB（default）	大表 write-heavy 可放 10-100MB
Synchronous standby	1 個 sync + N 個 async 是 production 預設	全 async 容易丟資料、全 sync write latency 爆
RTO	10-30 秒（detection 30s 內 + promotion 5-10s + reconfig 5s）	> 60s 要 audit 鏈路
RPO	sync mode 接近 0、async mode 跟 lag 同數量級	async 在 disk IO 慢時 lag 可能 MB-GB level

整合 / 下一步

跟 PgBouncer 整合

PgBouncer 不主動感知 Patroni failover、要靠：

HAProxy 在 PgBouncer 上層：HAProxy 跑 Patroni health check、PgBouncer connection 重新路由
PgBouncer reload：failover 後 SRE / automation 跑 pgbouncer -R、強制重連 backend
Connection pool drain：application 端 connection pool 設 pool_lifetime_max=5min、舊 connection 自然汰換

跟 cert-manager（TLS rotation）

Patroni REST API 跟 PostgreSQL streaming replication 都用 TLS、cert rotation 不能停服務：

cert-manager 自動換證後、Patroni 跟 PostgreSQL 都需要 reload（不是 restart）
patronictl reload 不會觸發 failover、只 reload config
PostgreSQL pg_ctl reload 是 SIGHUP、平滑載入新 cert

跟 backup / PITR

Patroni 不管 backup — 但 standby promotion 後、WAL archive 必須跟新 leader 的 timeline 對齊：

WAL archive 命令模板含 %t（timeline）：archive_command = 'wal-g wal-push %p'
Backup tool（pgBackRest / WAL-G）支援 timeline 切換、archive 不會中斷
詳見 PITR + WAL archiving deep article

下一步議題

Multi-region Patroni：跨 region 部署的 DCS quorum 設計、跟單 region 的取捨完全不同
PostgreSQL 16+ streaming replication slot 持久化：簡化 standby promotion 後 logical consumer 重連
跟 Kubernetes operator 整合：Patroni 跑在 K8s 時、StatefulSet + pod identity + DCS 部署模式

1.11 全球分散式 OLTP

Wed, 13 May 2026 00:00:00 +0000

概念定位

全球分散式 OLTP 解決一個傳統 DB 做不到的問題：跨地理位置同時維持強一致性、低延遲、高可用性。CAP 定理過往把這視為「三選二」，但近 15 年的工程進展（Google Spanner、AWS Aurora DSQL、CockroachDB、Microsoft Cosmos DB 等）顯示「在投入 專屬硬體 或 特殊演算法 的條件下、可以同時拿到 strong consistency + global distribution + 可接受 latency」。

本章整理這類系統的工程設計、容量取捨、跟傳統 single-region OLTP 的差異。讀完後讀者能回答：什麼業務需求需要 global OLTP、跨 region quorum 的延遲代價、選 Spanner vs Aurora DSQL vs Cosmos DB 的決策依據。

跟 1.3 Transaction Boundary 的關係：1.3 處理 single-region OLTP 的 transaction 設計、本章處理 multi-region OLTP 的特殊取捨。

跟 1.10 KV / Document DB 容量規劃的關係：1.10 KV 通常 eventual consistency 全球分散容易、本章處理 強一致 全球分散的工程挑戰。

CAP 跟 PACELC：理論工具

選擇全球 DB 前要先理解兩個理論框架。

CAP 定理：分散式系統 發生分區（network partition） 時、必須在 Consistency 跟 Availability 二選一。

CP 系統：強一致、partition 時拒絕服務（Spanner、Cosmos DB strong）
AP 系統：高可用、partition 時可能回舊資料（Cassandra、DynamoDB Global Tables）

PACELC（Daniel Abadi 提出）：擴充 CAP、加上「沒 partition 時」的取捨。

沒 partition 時：Latency vs Consistency 二選一
結合表示：PA/EL（partition 時選 Availability、平時選 Latency）vs PC/EC（partition 時選 Consistency、平時選 Consistency）

工程含義：

Spanner、Aurora DSQL、Cosmos DB strong：PC/EC — 永遠選一致、付出 latency
Cassandra、DynamoDB Global Tables：PA/EL — 永遠選快、付出可能不一致
Cosmos DB session：PA/EL 但對同一 session 內保持 EC — 妥協方案

選 global DB 不是「哪個最好」、是「業務需要哪一邊」。金融交易、ticketing inventory、payment ledger 通常需要 EC；社群 feed、推薦、analytics 通常 EL 夠用。

Spanner / TrueTime 模型

Google Cloud Spanner 是目前最成熟的 global strong-consistency OLTP。

TrueTime API：用 GPS + 原子鐘提供「全球 unambiguous 時間戳」、解決分散式系統最難的問題之一 — 跨節點時序排序。

External consistency（線性化）：用 TrueTime 保證「全球任何節點看到的交易順序、跟 wall clock 一致」。比 CAP 的 strong consistency 更強。

容量特性（引自 9.C10 Spanner 案例）：

內部峰值 > 10 億 requests / 秒
線性擴展：2 nodes → 45K reads/sec、4 nodes → 90K reads/sec
跨地區交易延遲 100-200ms（quorum round-trip 不可壓縮）
multi-region instance 可設定 quorum location（影響哪幾個 region 必須同意）

線性擴展為什麼是 OLTP 設計的最高目標

「2 nodes → 45K reads/sec、4 nodes → 90K reads/sec」這個線性對應在傳統 OLTP（PostgreSQL、MySQL）做不到。原因是 跨節點交易需要 coordinator 確認順序、coordinator 本身是 bottleneck。加更多節點不會線性加吞吐、因為 coordinator 處理速度跟不上、其他節點得排隊等。

Spanner 用 Paxos + TrueTime 把 coordinator 變成「拓樸感知的多 leader」、每個 leader 只管自己 partition、不需要全域 coordinator。這層演算法 + 硬體（GPS + 原子鐘）配合、才達成線性擴展。

為什麼這個 frame 對選型重要：讀「Spanner 撐 10 億 req/sec」不該理解成「能力差距」、而是「設計差距」— 傳統 OLTP 不是「沒它快」、是「結構上做不到線性」。如果業務未來會跨 region 擴展、必須在最初就選 distributed SQL、不是先用 PostgreSQL 再「之後加 sharding」。

對等技術跟取捨：

AWS Aurora DSQL：用其他協議（OCC + 分散式時鐘）達成跨 region strong consistency、不用 TrueTime 硬體。
CockroachDB：用 HLC（Hybrid Logical Clock）+ Raft、可在通用硬體上跑、但 cross-region linearizability 需要 OCC retry。
TiDB：用 TSO（Timestamp Oracle）服務發 global timestamp、TSO 本身是 single point、可用性要靠 TSO failover 設計。

TrueTime 是 專屬硬體投資、其他方案是 軟體 only、兩者一致性保證等級類似、但運維成本跟認證難度差很大。可複製性低的 TrueTime 是 Google 的競爭優勢、不是普遍 best practice。

容量規劃：

節點數量 = 容量單位（每年 review）
跨 region quorum 配置決定 latency baseline
不能像 single-region OLTP 那樣短期擴容、需要提前 ramp

適用場景：

金融交易、ticketing inventory
全球客戶但需要強一致
不能容忍跨地區 stale read 的業務

不適用：

跨洲低延遲（沒辦法、TrueTime 也壓不下 100ms 跨洲）
高 throughput 但容忍 eventual consistency（Bigtable / Cassandra 更便宜）

分散式 SQL 的 over-provision 屬結構性成本

分散式 SQL（TiDB、CockroachDB、Spanner）要求恆常 over-provision、是結構性成本、不是 capacity planning 失誤。三個原因都來自跨節點協調的物理需求：

跨節點 transaction 需要 coordinator 角色、leader election 在尖峰當下不能發生、否則整個 cluster 卡住。
預留 buffer 讓 leader / follower lag 在尖峰時仍能收斂、否則 replication lag 爆增、讀走 replica 的 query 拿到太舊資料。
跨 region quorum 在某個 region 暫時不可用時、剩下 region 要能繼續 quorum、所以每 region 的容量都要 >= quorum 所需。

對應 9.C20 Zomato — Zomato 從 TiDB 遷出是業務需求側的判斷：該 workload 本身就能接受 eventually consistent、為 strong consistency 付的 over-provision 屬於浪費。判讀重點：strong consistency 是業務需求時、distributed SQL 的常態 over-provision 是合理代價；業務需求不到這個層級時、KV / 傳統 OLTP 是更划算的選項。

選型公式：先問業務需求要什麼一致性層級、再選 DB 類型、避免倒過來「先選 DB 再硬塞需求」。

Aurora DSQL：AWS 的全球 strong consistency 答案

AWS 在 2024 re:Invent 推出 Aurora DSQL、是 AWS 對 Spanner 的回應。

設計特點（引自 Aurora DSQL announcement）：

跨 region active-active write
強一致性（線性化）
PostgreSQL wire protocol compatible（應用層改動小）
Serverless（不必管 instance）

跟 Spanner 的差異：

Spanner 用 TrueTime 硬體、Aurora DSQL 用其他協議
Aurora DSQL 跟 PostgreSQL 相容（容易遷移）、Spanner 是專屬 SQL dialect
Aurora DSQL 較新（2024）、生態還在成長
Spanner 服務時間長（內部 2007、外部 2017）、production 案例多

適用場景：

AWS 生態用戶想要 global strong consistency
已用 Aurora / PostgreSQL、想擴展到 multi-region
應用層想保留 PostgreSQL ORM

CockroachDB 跟 TiDB：自管選項

如果不想 vendor lock-in、或需要 on-prem 部署、選擇是 self-managed distributed SQL。

CockroachDB：

開源、可自管或用 Cockroach Cloud
跟 PostgreSQL wire protocol compatible
線性擴展、跨 region 部署、強一致
設計理念近 Spanner、但不用 TrueTime（用 HLC + Raft）

TiDB：

開源（PingCAP）、可自管或用 TiDB Cloud
跟 MySQL wire protocol compatible
TiKV + TiDB 分層架構
中國市場大量使用、亞洲生態成熟

選擇取捨：

vendor lock-in 風險 → 選 CockroachDB / TiDB
想 managed → 選 Spanner / Aurora DSQL
已用 PostgreSQL → 選 CockroachDB / Aurora DSQL（migration 容易）
已用 MySQL → 選 TiDB

對應案例：9.C20 Zomato 從 TiDB 遷出（理由不是 TiDB 不好、是 NewSQL 必須 over-provision、KV NoSQL 對該 workload 更划算）。

Cosmos DB multi-region write 模式

Azure Cosmos DB 提供 五個一致性層級、是 multi-region OLTP 最有彈性的選擇之一。

五個 consistency level（從強到弱）：

Strong：linearizable、跨 region quorum
Bounded staleness：訂版本 / 時間上限
Session consistency：同 session 內強一致
Consistent prefix：保證寫入順序
Eventual：最便宜、最終一致

Multi-region write 特色：

每個 region 都能寫、不必所有寫入回主 region
conflict resolution 用 LWW（Last-Writer-Wins）或自訂 stored procedure
跟 Spanner 的 strong consistency 不同 — 是 AP 系統、不保證 linearizability

適用場景：

全球用戶分布、想 寫入本地 region 減延遲
容忍 eventual consistency（電商商品評論、社群動態）
不能容忍跨 region failover 中斷

對應案例：

9.C11 Minecraft Earth — AR 玩家位置用 session consistency、跨 region 寫入
9.C21 ASOS — Black Friday 全球用戶、Cosmos DB 跨 region 複製
9.C30 Microsoft 365 — 分析 platform 用 weakest acceptable consistency、最大 throughput

跨地理合規：法規限制下的 global OLTP

部分產業（金融、醫療、政府）有 資料駐留 要求 — 特定國家的資料不能離境。這跟全球分散式 OLTP 的設計有 conflict。

典型法規：

歐盟 GDPR：歐洲用戶資料應留歐
中國《網路安全法》、《資料安全法》：中國用戶資料留中國
印度資料保護法：印度金融資料留印度
美國各州 healthcare（HIPAA）：醫療資料規範
金融業：各國央行通常規定本地交易資料留本地

設計策略：

多個獨立 cluster、每個合規區一個。不是 single global cluster。
meta-data 可以 global（用戶 profile 摘要）、transaction 必須 local
跨區查詢通過 federated query 或 ETL、不是直接 join

對應案例：

9.C14 Standard Chartered — 7 個受監管市場、各自獨立 Aurora cluster、不能合併
9.C24 Genesys — 15 主 region + 5 衛星、按合規區分布
9.C32 Clearent — 美國支付業務、Azure SQL Hyperscale + 美國 region

延遲代價：跨 region quorum 不可壓縮

全球 strong consistency 必須付的延遲代價來自物理。光速跑跨大西洋（紐約 ↔ 倫敦 5500 km）大約 27ms one-way、實際網路延遲 70-90ms（含路由 / 處理）。任何 strong consistency 系統都不能比這個快。

典型跨 region quorum latency：

同 region 跨 AZ：1-3ms
同 continent 跨 region（us-east-1 ↔ us-west-2）：50-80ms
跨 continent（us ↔ eu）：80-120ms
跨地球（us ↔ asia）：150-250ms

工程含義：

SLO 訂 p99 < 50ms 跨 continent strong consistency → 不可能達成
必須在 SLO 設計時就接受跨 region 的物理 floor
業務不需要 strong consistency 的話、用 session / eventual 換 latency

對應案例：

9.C3 Coinbase — sub-ms 需求、無法跨 region、用 single-AZ cluster placement
9.C12 Riot Games — 35ms VALORANT 延遲門檻、靠 region cluster 滿足、不靠 global DB

詳見 Latency Budget 卡片。

業務的不同延遲代價曲線

讀「100-200ms 跨洲延遲」這種數字、不能只看絕對值、要看 業務代價怎麼隨延遲變化。不同業務型態的延遲代價曲線不同、決定能不能用 strong consistency 全球分散。

B2B agent 操作介面（客服平台、CRM）：延遲代價的特性是累積。agent 一通客戶電話內連續操作數十次、每次卡 1 秒、累積 30 秒讓 agent 在用戶面前沉默 — 客服效率直接掉一半、客戶等不及掛電話、agent 績效跟 NPS 同時下降。專屬訊號是「單次 latency 看似可接受、agent 體感卻變慢」。對應 9.C24 Genesys 用 15 個 region 把任一 agent 的 DB 延遲壓到 < 50ms — 客服 SaaS 對單次延遲的容忍區間遠窄於一般網路服務。

B2C 終端用戶（社群、電商）：延遲代價是 一次性跳離。用戶等 1 秒會抱怨、等 3 秒會跳離；但完成一個操作就走、不會像 B2B 累積多次。容忍區間在 200ms-500ms、超過就掉 conversion。專屬訊號是「session bounce rate 跟 latency p99 高度相關」、不是看平均。

金融交易（payment、trading）：延遲代價有兩面、是其他業務型態少見的結構。一面是用戶體驗（付款卡 = 結帳放棄）、另一面是 系統正確性（交易順序錯 = 對帳異常、稽核失敗）。後者讓金融業願意付 100-200ms 換 strong consistency、因為對帳成本遠高於延遲成本。專屬訊號是「願意接受比 B2C 更高的 latency budget、但拒絕任何 consistency 妥協」。對應 9.C14 Standard Chartered 7 個受監管市場的設計。

IoT / Telemetry：延遲幾乎無業務代價（資料晚 10 秒進來、報表還是準）、但 throughput 才是主導指標。原因是這類業務的價值來自 大量裝置的聚合趨勢、不是 單一裝置即時回應；只要事件最終到達且順序合理、晚一點不影響決策。專屬訊號是「百萬裝置同時上報、寫入吞吐才是 SLO、latency 不在 alert 條件裡」。選型上 KV 或時序 DB 比 strong-consistency OLTP 更划算。

判讀重點：選 global OLTP 前先畫業務的延遲代價曲線、再決定能付多少 latency budget 給 strong consistency。「100ms 跨洲太慢」這個直覺反射只在沒有對帳 / 累積 / 趨勢這些業務代價時成立。

容量規劃：跟 single-region OLTP 完全不同

全球分散式 OLTP 的容量規劃有獨特挑戰。

容量單位：

Spanner：節點數
Aurora DSQL：serverless 自動（按 ACU 計費）
Cosmos DB：RU/s（每個 region 獨立配置）
CockroachDB / TiDB：節點數 + storage

規劃要點：

每個 region 獨立規劃（跨 region 不能 amortize）
quorum 配置決定哪些 region 必須同意（影響 failure domain）
跨 region replication lag 是 SLO 一部分
不能像 single-region 那樣 reactive 擴容、必須 predictive

對應 9.6 容量規劃模型：全球 OLTP 是「不可水平擴容服務」的延伸 — 不只「單機極限」、是「跨 region 協調的物理極限」。

可用性目標的成本曲線

「我們要 99.99% 還是 99.999%」這個問題不該用直覺答、要先看每多一個 9 帶來的成本是多少。可用性是非線性、不是線性。

九的數學意義：

可用性	年停機時間	月停機時間	適用場景
99%	87.6 小時 / 年	7.3 小時 / 月	開發 / 內部工具
99.9%	8.76 小時 / 年	43.8 分鐘 / 月	一般 B2C 網站
99.95%	4.38 小時 / 年	21.9 分鐘 / 月	B2C SaaS、有 SLA 但非 mission-critical
99.99%	52.6 分鐘 / 年	4.38 分鐘 / 月	受監管產業、付款
99.999%	5.26 分鐘 / 年	26 秒 / 月	客服 SaaS、telco、5x9 是合約義務
99.9999%	31.5 秒 / 年	2.6 秒 / 月	極特殊（核電、航空管制）

為什麼 99.99 → 99.999 是指數成本而非線性：每多一個 9、要求 每一層基礎設施 都要對等冗餘。

99.9 → 99.99：加 multi-AZ active-active、~2-3x 成本
99.99 → 99.999：加 multi-region active-active、+ DR 演練、+ failover 自動化、+ 監控覆蓋率拉滿、~5-10x 成本
99.999 → 99.9999：加多 cloud、+ 異地災備、+ 全自動 failover、+ 全鏈路演練、~20-50x 成本

適用場景的業務理由：

99.99%（受監管產業、付款）：合約 SLA 通常落在這層。受監管金融在中央銀行 / 金融監管機關的書面要求下、年度書面合規會審查 downtime 紀錄、超過 52 分鐘 / 年要解釋；付款 gateway 對商家 SLA 通常承諾 99.99%、低於這個值會被合作夥伴扣保證金。
99.999%（客服 SaaS / telco）：5x9 是 B2B 客服 SaaS 跟電信業的 合約義務、不是行銷話術。對應 9.C24 Genesys — 客服平台用 15 主 region + 5 衛星 region 達 99.999%、架構成本約是 single-region 的 15 倍、但 B2B 客服合約要 5x9、這是合理投資。對應 9.C5 Amazon Ads — 廣告計費 1 分鐘斷線可能損失幾百萬美金廣告收入、5x9 對應真實營收邊界。電信業 911 緊急通話必須 5x9 是更嚴格的法規層級。
99.9999%（核電、航空管制）：6x9 不只是工程目標、是 公共安全法規。核電廠 SCADA 系統、空管雷達、軌道交通信號這類業務 30 秒 / 年的中斷會威脅生命、所以付得起跨多 cloud / 異地災備 / 全鏈路演練的成本。一般網路服務談 6x9 通常是過度設計。

SLO 木桶效應：99.999% 是 系統整體 數字、不是 DB 單獨。DNS、load balancer、application、DB、storage 任何一層 single-region 就破壞整體 SLO。傳統工程師常以為「DB 多 region 就好」、忽略 application 跑在 single-region 的話、application down = 整體 down。

要達成 5x9、要 每一層 都 multi-region active-active、且 failover 流程能自動執行（人類在事故當下做不到 5 分鐘內完成切換）。對應 05 部署平台模組的跨 region 部署、跟 06 可靠性驗證模組的 DR 演練。

Region 成本曲線：N 個 region 的成本約是 1 個 region 的 N 倍（DB + compute + storage 都要複製）、但業務收益不是線性。

1 region：覆蓋本國用戶
3 region（同 continent）：覆蓋整 continent、延遲 < 50ms
6 region（跨 continent）：覆蓋全球、延遲 100-200ms
15 region：每個用戶 < 50ms 接入（如 Genesys 模式）

從 6 region → 15 region 的成本是 2.5x、但用戶體驗改善（50ms 延遲）對 B2B 客服很關鍵、對 B2C 推薦系統幾乎無感。region 數量選擇要看 業務模型對延遲的敏感度、不是工程「越多越好」。

Sharding 粒度跟業務一致性需求

distributed SQL 跟 single-cluster SQL 之間還有一層：多個獨立 cluster + 應用層 sharding。選哪個跟業務的一致性需求有關。

Hyperscale / Aurora 同類設計（storage / compute 分離）：

AWS Aurora、Azure SQL Hyperscale、GCP AlloyDB、Spanner 都採類似工程哲學 — log-structured 分散式 storage + 獨立 compute scale
storage 最高通常 100 TB（Hyperscale）、超過要 sharding
compute 上限是 instance type（80 vCore 等）、超過要 sharding 或換 distributed SQL

對應 9.C32 Clearent — 5 億筆/年支付交易、用 Hyperscale 撐單一 cluster、沒拆 sharding 是因為支付業需要 跨 merchant 對帳一致性、共用 OLTP 比拆 cluster 划算。

選 vendor 看生態、不看技術：Hyperscale 跟 Aurora 工程哲學一致、選哪家取決於 application 已在哪個 cloud。AWS 客戶選 Aurora、Azure 客戶選 Hyperscale、GCP 客戶選 AlloyDB / Spanner。技術差異小、生態差異大（IAM 整合、observability tooling、計費綁定）。

業務一致性需求決定 sharding 粒度：

微服務各自 OLTP（Netflix Aurora consolidation）：每個微服務有自己的 Aurora cluster、跨服務一致性靠 application 層 saga / outbox。適合服務間業務 天然解耦（用戶服務、訂單服務、商品服務各自 owned data）。Query path 上、跨服務查詢必須走 API 而非 SQL JOIN、要接受查多個服務多次往返；一致性 path 上、跨服務 transaction 用 saga + compensation、容忍中間態。
微服務共用 OLTP（Clearent Hyperscale）：所有微服務共用一個大 cluster、跨服務一致性靠 DB transaction。適合業務 天然耦合（payment 跟 refund 跟 chargeback 必須在同一 transaction）。Query path 上、可以用 SQL JOIN 直接查跨服務資料、簡單；一致性 path 上、所有微服務共享一個 schema 演進邊界、schema migration 影響所有服務、要協調。
Sharding by tenant（B2B SaaS）：每個 enterprise tenant 自己 cluster、適合 tenant 之間完全隔離、大客戶可能要求專屬 cluster。Query path 上、跨 tenant 查詢（例如平台級報表）要走 federated query 或 ETL 聚合、不能直接 join；運維 path 上、每個 tenant cluster 的容量規劃、backup、upgrade 都獨立、運維工時隨 tenant 數量線性成長。
Sharding by region（受監管產業）：每個合規市場自己 cluster、合規驅動、不是性能驅動。對應 9.C14 Standard Chartered 7 個市場各自獨立。

判讀重點：sharding 不是「擴容到不夠才做」、是「業務模型決定的初始設計」。等到 single cluster 撐不住才開始 shard、會踩進「跨 shard 一致性」的工程地雷區、修改成本遠高於初期設計成本。Managed DB（Aurora、Hyperscale）的容量上限是已知的、設計時就該知道未來何時觸發 sharding。對應 1.1 高併發資料存取的 storage 層 replication 段 — Hyperscale / Aurora / Spanner 同類設計的容量上限同樣是 sharding 觸發點。

案例對照

案例	教學重點
9.C10 Spanner	10 億 req/sec 線性擴展、TrueTime 實作
9.C11 Minecraft Earth Cosmos DB	turnkey global distribution、5 consistency levels
9.C14 Standard Chartered	受監管金融跨市場、必須各自獨立 cluster
9.C21 ASOS Cosmos DB	全球零售 multi-region、Black Friday 持續高峰
9.C24 Genesys 99.999%	跨 15 region active-active 達 5 個 9 可用性
9.C32 Clearent Azure SQL Hyperscale	美國支付業、storage / compute 分離擴展

下一步路由

上游：1.3 Transaction Boundary（single-region OLTP）
平行：1.10 KV / Document DB 容量規劃（KV 全球分散）
下游：1.12 大規模 DB 遷移實戰（含「預設 DB 治理 pattern」— 平台規模化階段的 OLTP 選型治理）
跨模組：9.6 容量規劃模型、9.12 SLO 與 Performance Budget、0.2 State Storage Selection、7.11 Data Residency
Spanner 深入：TrueTime API 深入、一致性模型對照、interleaved table schema migration
CockroachDB / Aurora DSQL 深入：Aurora DSQL / Spanner / CockroachDB 決策樹、CockroachDB transaction retry pattern、survival goals、locality-aware schema
Aurora 多 region 深入：global database multi-region、跨 AZ failover RTO
Cosmos DB 多 region 深入：一致性層次工程、多 region write 衝突

既建知識卡片

Firestore Security Rules 授權建模與可測試化：把規則當程式碼治理

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Firestore overview 的 deep article。寫作參照 Vendor 深度技術文章寫作方法論。規則語法以官方 Security Rules 文件為準、最後檢查日 2026-06-16。

問題情境：授權沒有後端可以藏

自建後端的授權有一個天然的藏身處：所有讀寫都過 API，權限檢查寫在 service 層，前端拿不到的資料就是拿不到。Firestore 的 client 直連模型把這個藏身處拿掉了——前端 SDK 直接連資料庫，唯一擋在「任何人都能讀整個 collection」與「正確授權」之間的，就是 Security Rules。規則寫錯一條，等於把資料庫對公網敞開。

這個責任轉移最常見的引爆點是上線後的滲透測試或 bug bounty：報告指出「未登入就能用 REST API 拉出整張 users collection」。根因幾乎都是同一類——開發期為了方便把規則設成 allow read, write: if true，上線忘了收。Firestore 的規則是控制面的全部，這篇處理它的求值模型、如何把它寫成可測試的程式碼、以及它撐不住時的退場路線。

核心概念：規則的求值模型

Firestore Security Rules 是一套宣告式 DSL，掛在 match path 上、對每個讀寫請求求值。理解它要抓住四個跟後端授權不同的點：

規則不是 filter，是 allow/deny 判定。一條 allow read: if 不會「只回傳符合條件的 document」——它是對「這次請求能不能執行」的布林判定。query 若可能讀到任何不符合規則的 document，整個 query 被拒絕，不是默默過濾。這逼著 client 的 query 必須自帶與規則一致的條件（例如 where('ownerId', '==', uid)），規則才放行。

規則預設拒絕。沒有 match 命中的 path 一律拒絕。rules_version = '2' 下，match /{document=**} 遞迴匹配所有 subcollection，要小心別用一條寬鬆的遞迴規則蓋掉底下該嚴格的 path。

請求脈絡來自 request 與 resource。request.auth 是已驗證的身分（request.auth.uid、request.auth.token 的 custom claims）；request.resource.data 是寫入後的 document 狀態；resource.data 是寫入前的既有狀態。授權與資料驗證都在這幾個物件上展開。

跨 document 查詢用 get() / exists()。判斷「這個 user 是不是這個 project 的成員」要去讀另一份 document，用 get(/databases/$(database)/documents/projects/$(pid)/members/$(uid))。每個 get() 是一次額外讀取、計入計費，也有每請求次數上限（規則內 document access 有上限，設計時要省著用）。

基本骨架：

 1rules_version = '2';
 2service cloud.firestore {
 3  match /databases/{database}/documents {
 4    match /notes/{noteId} {
 5      allow read: if request.auth != null
 6                  && resource.data.ownerId == request.auth.uid;
 7      allow create: if request.auth != null
 8                    && request.resource.data.ownerId == request.auth.uid;
 9      allow update, delete: if request.auth != null
10                            && resource.data.ownerId == request.auth.uid;
11    }
12  }
13}

read 用 resource.data（既有 document），create 用 request.resource.data（沒有既有狀態），update 兩者都要看——把 read / create / update / delete 分開是建模的起點，混成一條 allow read, write 是後面所有漏洞的源頭。

配置：把授權拆成可組合 function

規則一旦超過幾個 collection，inline 的 if 條件會重複且難讀。把授權判斷抽成 function，讓每條規則讀起來像在描述意圖，是讓規則可維護的核心手段：

 1rules_version = '2';
 2service cloud.firestore {
 3  match /databases/{database}/documents {
 4
 5    function isSignedIn() {
 6      return request.auth != null;
 7    }
 8
 9    function isOwner(docData) {
10      return isSignedIn() && docData.ownerId == request.auth.uid;
11    }
12
13    function isProjectMember(projectId) {
14      return isSignedIn()
15        && exists(/databases/$(database)/documents/projects/$(projectId)/members/$(request.auth.uid));
16    }
17
18    function hasRole(projectId, role) {
19      return isProjectMember(projectId)
20        && get(/databases/$(database)/documents/projects/$(projectId)/members/$(request.auth.uid)).data.role == role;
21    }
22
23    // 寫入時欄位白名單：禁止 client 竄改 ownerId / createdAt
24    function fieldsUnchanged(fields) {
25      return request.resource.data.diff(resource.data).affectedKeys().hasOnly(fields);
26    }
27
28    match /projects/{projectId} {
29      allow read: if isProjectMember(projectId);
30      allow update: if hasRole(projectId, 'admin')
31                    && fieldsUnchanged(['name', 'description', 'updatedAt']);
32      allow delete: if hasRole(projectId, 'owner');
33
34      match /tasks/{taskId} {
35        allow read: if isProjectMember(projectId);
36        allow create: if isProjectMember(projectId)
37                      && request.resource.data.createdBy == request.auth.uid;
38        allow update, delete: if isProjectMember(projectId);
39      }
40    }
41  }
42}

這裡有三個建模手段值得展開。第一，isProjectMember / hasRole 把「成員資格」與「角色」的判斷集中成單一定義，授權邏輯改一處全站生效，避免同一條規則散落在十個 collection。第二，fieldsUnchanged 用 diff().affectedKeys().hasOnly() 把「這次 update 只准動哪些欄位」寫成白名單——這擋掉 client 直接改 ownerId 把別人的資料佔為己有的攻擊，是 client 直連模型必備的欄位級防護。第三，custom claims（request.auth.token.role）適合放跨專案、低頻變動的全域角色；per-resource 的成員資格用 get() 查 membership document，因為 claims 改動要等 token 刷新、不適合表達即時變動的權限。

配置：用 emulator 把規則寫成單元測試

規則是安全邊界，改一條就要驗證沒開新洞——這要求規則像程式碼一樣有測試。Firebase Emulator + @firebase/rules-unit-testing 讓規則在本地用真實求值引擎跑斷言，不必碰雲端：

 1// rules.test.js — 用 Jest / Mocha 跑
 2const {
 3  initializeTestEnvironment,
 4  assertFails,
 5  assertSucceeds,
 6} = require('@firebase/rules-unit-testing');
 7const { setDoc, getDoc, doc } = require('firebase/firestore');
 8
 9let testEnv;
10
11beforeAll(async () => {
12  testEnv = await initializeTestEnvironment({
13    projectId: 'demo-notes',
14    firestore: { rules: require('fs').readFileSync('firestore.rules', 'utf8') },
15  });
16});
17
18afterAll(async () => { await testEnv.cleanup(); });
19beforeEach(async () => { await testEnv.clearFirestore(); });
20
21test('owner 能讀自己的 note', async () => {
22  // 用 admin context 預先種一筆資料、繞過規則
23  await testEnv.withSecurityRulesDisabled(async (ctx) => {
24    await setDoc(doc(ctx.firestore(), 'notes/n1'), { ownerId: 'alice' });
25  });
26  const alice = testEnv.authenticatedContext('alice').firestore();
27  await assertSucceeds(getDoc(doc(alice, 'notes/n1')));
28});
29
30test('非 owner 不能讀別人的 note', async () => {
31  await testEnv.withSecurityRulesDisabled(async (ctx) => {
32    await setDoc(doc(ctx.firestore(), 'notes/n1'), { ownerId: 'alice' });
33  });
34  const bob = testEnv.authenticatedContext('bob').firestore();
35  await assertFails(getDoc(doc(bob, 'notes/n1')));
36});
37
38test('未登入完全擋下', async () => {
39  const anon = testEnv.unauthenticatedContext().firestore();
40  await assertFails(getDoc(doc(anon, 'notes/n1')));
41});
42
43test('client 不能竄改 ownerId', async () => {
44  await testEnv.withSecurityRulesDisabled(async (ctx) => {
45    await setDoc(doc(ctx.firestore(), 'notes/n1'), { ownerId: 'alice', text: 'hi' });
46  });
47  const alice = testEnv.authenticatedContext('alice').firestore();
48  await assertFails(setDoc(doc(alice, 'notes/n1'), { ownerId: 'bob', text: 'hi' }));
49});

啟動方式 firebase emulators:exec --only firestore "npm test"，讓測試在 CI 跑。測試要覆蓋的不只是 happy path——每條規則至少要有「正向放行」「越權拒絕」「未登入拒絕」「欄位竄改拒絕」四類斷言。assertFails 比 assertSucceeds 更重要：它證明的是「該擋的有擋住」，正是滲透測試會打的點。把這套測試接進 release gate，規則變更才有 evidence 可交（對應 6.8 release gate）。

故障演練：五個把規則寫成漏洞的 production 踩坑

Case 1：`allow read, write: if true` 上線沒收

開發期為了快，把規則開全放，上線忘改。任何人用公開的 project config（前端 bundle 裡就有）就能 REST 拉整個資料庫。修法：規則預設從 deny 起手，開發期的寬鬆規則進不了 main branch；CI 跑一條 lint 掃 if true，命中即 fail。這是 1.5 資料層紅隊越權查詢路徑的最便宜目標。

Case 2：`read` 沒拆 `get` 與 `list`

allow read 同時涵蓋讀單一 document（get）與查整個 collection（list）。規則只想開「讀自己那筆」，卻因為沒拆 list，讓 client 能 list 整個 collection 撈別人的資料。修法：對 collection-level query 敏感的 path，把 read 拆成 allow get 與 allow list，list 條件更嚴或直接關閉、改走後端彙整。

Case 3：信任 `request.resource.data` 的內容沒驗證

create 規則只檢查 request.auth != null，沒驗證寫入內容。client 自己塞 role: 'admin' 或 balance: 999999 進 document。修法：寫入規則要驗證關鍵欄位的值與型別（request.resource.data.role == 'member'、request.resource.data.amount is int），敏感欄位（角色、金額、狀態）的權威值不該由 client 寫入、改由 Cloud Function 或後端寫。

Case 4：遞迴 `match /{document=**}` 蓋掉嚴格規則

頂層放一條 match /{document=**} { allow read: if isSignedIn(); } 圖方便，結果它遞迴命中所有 subcollection，把底下本來該按成員資格嚴格控管的 members collection 也開成「登入即可讀」。修法：避免寬鬆的遞迴萬用規則；授權顆粒不同的 path 各自寫明確 match。

Case 5：規則複雜到沒人能 review

授權邏輯長到幾百行、巢狀 get() 互相依賴，改一條沒人敢保證沒開新洞、也沒有測試。修法：這是規則撐不住的訊號（見下方邊界段）——超過這個複雜度，授權該拉回後端中介層，而不是繼續在 DSL 裡長。

容量與觀測：`get()` 計費與規則複雜度上限

規則內的每個 get() / exists() 是一次 document 讀取，計入計費，且單次請求的 document access 有數量上限（以官方限制為準）。高頻讀取路徑若每次都 get() 查 membership，成本與延遲都會浮現。優化方向有二：把低頻變動的權限（全域角色）放進 custom claims，從 token 直接讀、零額外 document access；把成員資格設計成可由 document path 直接判斷（例如 membership document 的 ID 就是 uid，用 exists() 而非 get() 撈整份）。

觀測上，授權問題不會在規則層留下豐富 log——被拒的請求 client 端收到 permission-denied。要把這類錯誤從 client 回報、或在關鍵寫入路徑改走 Cloud Function 以取得 server 端 audit log，接回 7.7 稽核軌跡。規則本身的變更要進版本控制、每次 deploy 留 diff，授權變更才可回溯。

邊界與整合：規則撐不住時把授權拉回後端

Security Rules 適合表達「資源的擁有者與成員能做什麼」這類 resource-scoped 授權。它撐不住的訊號很明確：授權依賴跨多個 document 的複雜聚合判斷、需要呼叫外部系統、規則複雜到無法 review、或業務規則頻繁變動到規則 deploy 跟不上。撞到這些訊號時，正確的動作是把該塊授權移出 client 直連路徑，而非把規則寫得更巧：

敏感寫入改走 Cloud Function / 後端 API：金額、狀態機轉換、跨實體一致性的寫入，由 server 端驗證後以 admin 權限寫入，規則對 client 直接關閉這些 path 的寫入
複雜授權整體下沉：當規則複雜度本身成為風險，這是 Firestore → 自建 relational playbook 裡「授權控制面失控」這面牆——把授權拉回後端中介層是遷移的 driver 之一

判讀的單位仍是逐路徑：簡單的 owner-scoped 資料留在規則 + client 直連，複雜或敏感的部分走後端。不是非此即彼。

下一步路由

上層：Firestore overview（服務定位與查詢邊界）
安全驗證：1.5 資料層紅隊（越權查詢與資料外洩路徑）
遷移 driver：Firestore → 自建 relational（授權控制面失控的退場）
發布證據：6.8 release gate（規則測試接進 gate）
官方：Security Rules get started、Rules unit testing、Rules conditions limits

MongoDB Shard Expansion + Multi-DC：Type F「不需要 parallel run」的 multi-region 例外

Tue, 19 May 2026 00:00:00 +0000

本文是 MongoDB overview 的 implementation-layer deep article。對應 #128 Type F「Topology re-layout」第 3 個 dogfood、特別驗證 self-aware limitation 第 3 點「不需要 parallel run」claim 的 multi-region rollout 例外 — 本文是反例的具體實證。

Reviewer D 的質疑：Type F 一定不需要 parallel run 嗎

#128 Self-aware limitation 第 3 點承認：

「不需要 parallel run」claim 部分不成立：multi-region rollout（#128 列為 Type F 情境）必須 parallel run — 兩 region 同時跑然後切流量、不然就是停機切換、跟 Type A phase 3 機制相同。

本文是該 claim 的 正面實證 — MongoDB sharded cluster 從 single-DC 加 shard + 加 secondary DC、確實需要 parallel run + 流量切換、跟 Type A phased migration 局部同構：

Type F 假設	Single-DC re-sharding（Redis case）	Multi-DC expansion（本文）
同 cluster 不同 state	yes	yes（同 MongoDB cluster）
不需 schema translation	yes	yes
不需 parallel run	yes（slot migration 內部完成）	no — 兩 DC 同跑後切流量
不需 cleanup phase	yes	partial（舊 DC 角色降為 standby）
Step-by-step + rollback boundary	yes	yes

→ Type F anatomy 仍適用、但「不需 parallel run」是 子情境條件、不是 universal claim。

兩個操作合併：shard 加 + DC 加

實務上中型公司常同時跑兩個 topology 變動：

Shard expansion：現有 3-shard cluster 加到 5-shard、chunk migration 平均分佈
Multi-DC：從 single-DC（us-east-1）加到 multi-DC（us-east-1 + us-west-2）

兩個操作的 diff dimension audit：

維度	Shard 加（單獨）	Multi-DC（單獨）	兩者同跑
Schema / API	Low	Low	Low
Operational model	Low	Medium（跨 DC ops）	Medium
Paradigm	Low	Low	Low
Components	Low（加 shard、同 cluster）	Low	Low
Application change	Low	Low-Medium（cross-DC latency aware）	Low-Medium
Data topology	High（sharding strategy）	High（replication + region）	High（雙變、複合 topology）

兩者主導維度都是 topology = High、組合走 Type F multi-axis 子情境。

Pre-layout analysis：當前 + 目標 topology

 1// 1. 當前 shard 分佈
 2sh.status({verbose: false});
 3// 期望輸出: 3 shard、每個 ~33% chunks、no migration in progress
 4
 5db.printShardingStatus({verbose: false});
 6// 找 hot shard、imbalanced chunk distribution
 7
 8// 2. Replication topology
 9rs.status();
10// 各 replica set primary/secondary 健康度、replication lag
11
12// 3. Cross-DC network baseline (在 add DC 前測)
13// us-east-1 → us-west-2 RTT、bandwidth

Pre-layout 階段 output：

當前：3 shard × 1 replica set per shard (3 member) = 9 node、全在 us-east-1
目標：5 shard × 1 replica set per shard (5 member: 3 us-east + 2 us-west) = 25 node
Migration scope：加 2 shard + 加 2 DC member 每 shard、共 +16 node
Chunk migration estimate：30% chunk 需重分（從 33% × 3 變 20% × 5）

Re-layout 機制

兩個 mechanism 平行進行：

Shard expansion mechanism

 1// 1. 新增 shard 到 cluster
 2sh.addShard("rs-shard4/host10:27017,host11:27017,host12:27017");
 3sh.addShard("rs-shard5/host13:27017,host14:27017,host15:27017");
 4
 5// 2. balancer 自動 chunk migration
 6sh.startBalancer();
 7// 觀察 progress: db.adminCommand({balancerStatus: 1})
 8
 9// 3. 完成後 verify shard distribution
10sh.status();

Chunk migration 是 background job、balancer 控制 throttle；不阻塞 production query、但 CPU / network 上升 30-50%。

Multi-DC expansion mechanism

 1// 1. 對每 shard 的 replica set 加 us-west-2 member (priority 0)
 2rs.add({
 3  host: "us-west-2-host:27017",
 4  priority: 0,           // 不能當 primary
 5  votes: 1,              // 參與投票
 6  hidden: false
 7});
 8
 9// 2. 等 initial sync 完成（依資料量 1 小時 - 1 天）
10rs.printReplicationInfo();
11
12// 3. 確認 secondary 健康後、提升 priority 或 votes
13// 不要立刻設 priority 1、避免 unintended failover
14
15// 4. Cross-DC routing 透過 readPreference 在 application 設
16const client = new MongoClient(uri, {
17  readPreference: 'secondaryPreferred',
18  readPreferenceTags: [{ region: 'us-west-2' }, {}],
19});

關鍵：multi-DC 是 漸進加 member、不是 atomic switch；每 shard 獨立加、整體耗時 = shard 數 × initial sync time。

Execution flow（含 parallel run + 流量切換）

8 step、包含 parallel run + 切流量 段——驗證 #128 self-aware limitation 第 3 點：

Step	動作	Parallel run?	Rollback boundary
1 Pre-check	量化當前 topology、確認 cluster 健康	no	-
2 加 us-east shard	sh.addShard、balancer migrate chunk	no（cluster 內）	removeShard、chunk migrate 回
3 加 us-west member	對每 shard rs.add 跨 DC member	no	rs.remove、initial sync 投入廢棄
4 Initial sync wait	等所有 us-west member catch up	parallel run starts：兩 DC 同時 serve	-
5 Cross-DC dual-serve	兩 DC 都跑 read traffic（不切 write）	yes、parallel run：app 用 secondary preferred us-west	readPref 切回 us-east primary
6 流量切換	application us-west traffic 走 us-west read	yes	DNS / readPref 切回
7 Promote us-west（optional）	一個 shard 的 us-west member priority 提到 1	post-cutover	demote priority 回 0
8 Cleanup	Verify、archive log、document new topology	no	-

Step 4-6 是 parallel run + 切流量 — Type F 有此例外、跟 Type A phase 3 機制同構；anatomy 中「Execution flow per-step」段必須含 parallel run 子段。

Production 故障演練

Case 1：Balancer 跑 chunk migration 撞 production peak

徵兆：加 shard 後 balancer 開始 migrate chunk、production write latency p99 從 10ms 跳到 100ms；application 端 timeout 大量。

根因：MongoDB balancer 預設 24×7 跑、chunk migrate 是 blocking 操作（migration lock 期間阻塞 write 到該 chunk）；產線高峰時間 balancer 不會自動暫停。

修法：

1// 限 balancer 跑在 low-traffic window
2sh.setBalancerState(true);
3db.settings.update(
4  { _id: "balancer" },
5  { $set: { activeWindow: { start: "02:00", stop: "06:00" } } },
6  { upsert: true }
7);

且設 chunkSize 較小（128MB → 64MB）讓 migration 步驟細、單次 lock 時間短。

Case 2：Cross-DC initial sync 期間 oplog 跑出窗口

徵兆：加 us-west member 後、initial sync 跑 4 小時、結束時 member 顯示「too stale to catch up」、需要 full re-sync。

根因：MongoDB oplog 是 capped collection、預設 size 5% disk；4 小時 initial sync 期間 primary 寫入量超出 oplog 保留範圍、member 拿到的 oplog start point 已被覆蓋。

修法：

預先擴 oplog size：db.adminCommand({replSetResizeOplog: 1, size: 51200}) 加到 50GB、覆蓋 sync window
Off-peak initial sync：跑在低流量時間、oplog 寫入較慢
Manual initial sync via snapshot：用 mongodump 從 primary snapshot、restore 到 new member、跳過 oplog tail catch-up

Case 3：跨 DC read 路由錯誤、stale data 影響業務

徵兆：切流量到 us-west 後、application 偶爾抓到 5-30 秒前的 stale data；customer 報告「明明剛改了 setting、refresh 又變回去」。

根因：us-west member 是 secondary、replication lag 5-30 秒；application readPreference 設 secondaryPreferred 但沒 maxStalenessSeconds、可能讀到嚴重 stale member。

修法：

 1const client = new MongoClient(uri, {
 2  readPreference: 'secondaryPreferred',
 3  readPreferenceTags: [{ region: 'us-west-2' }, {}],
 4  maxStalenessSeconds: 90,  // 限 stale 不超過 90 秒
 5});
 6
 7// 對 strict consistency 場景強制 primary
 8const client_strict = new MongoClient(uri, {
 9  readPreference: 'primary',  // 強制讀 us-east primary
10});

Application-level read pattern 必須區分「accept stale read」vs「require fresh read」、不是 cluster-level 統一配置。

Case 4：Shard tag-aware routing 沒設、cross-DC traffic 爆 cost

徵兆：multi-DC 跑了 1 個月、AWS egress cost 從 $500 / month 漲到 $8000 / month；99% 流量還是 us-east → us-west 跨 DC。

根因：sharded cluster 沒設 zone sharding、application 不知道哪些 chunk 在哪個 DC、所有 query 預設打 us-east primary、跨 DC bandwidth 爆。

修法：

 1// 注意: MongoDB 4.2+ API、舊版 sh.addShardTag / sh.addTagRange 已 deprecated
 2// 對應改 sh.addShardToZone / sh.updateZoneKeyRange
 3
 4// 1. 給 shard 加 zone (MongoDB 4.2+)
 5sh.addShardToZone("rs-shard1", "us-east");
 6sh.addShardToZone("rs-shard2", "us-east");
 7sh.addShardToZone("rs-shard3", "us-east");
 8sh.addShardToZone("rs-shard4", "us-west");
 9sh.addShardToZone("rs-shard5", "us-west");
10
11// 2. 對 collection 加 zone range
12sh.updateZoneKeyRange(
13  "myapp.events",
14  { region: "us-east", _id: MinKey },
15  { region: "us-east", _id: MaxKey },
16  "us-east"
17);
18sh.updateZoneKeyRange(
19  "myapp.events",
20  { region: "us-west", _id: MinKey },
21  { region: "us-west", _id: MaxKey },
22  "us-west"
23);
24
25// 3. balancer 重新分配 chunk 到對應 zone

Zone sharding 是 multi-DC 必要設計、不設等於白付 egress cost。

Case 5：Failover 後跨 DC primary 切換、application 連線中斷

徵兆：production 跑 6 個月後、us-east-1 outage、某 shard primary 切到 us-west member；application 5-10 秒內大量 connection error。

根因：MongoDB driver 預設 election timeout 10 秒、application 沒設 server selection retry；primary 切換期間 client 沒重連。

修法：

1const client = new MongoClient(uri, {
2  serverSelectionTimeoutMS: 30000,    // 等 30 秒給 election
3  retryWrites: true,
4  retryReads: true,
5  heartbeatFrequencyMS: 5000,         // 更頻繁 detect topology 變動
6});

且 multi-DC primary 應該設 priority asymmetry：us-east member priority 2、us-west priority 1；正常情況不切換、災難時自動切。

Capacity / cost

維度	Single-DC 3-shard	Multi-DC 5-shard	Trade-off
Node count	9	25	~3x infrastructure cost
Storage redundancy	3 replica	5 replica (3 east + 2 west)	+2 copy、storage cost +66%
Network egress	內部 VPC、低	Cross-DC、高（需 zone sharding）	$500 → $8000 / month if no zone sharding
Latency p99 (write)	5-10ms	5-15ms（primary 仍 us-east）	略升
Latency p99 (read)	5-10ms	2-5ms (local DC)	Multi-DC 區域 read 加快
Disaster recovery	RTO 30 分鐘（rebuild）	RTO < 1 分鐘（auto failover）	顯著改善
Operational complexity	低	高（zone sharding / DR drill）	+1 SRE FTE 維護

判讀：multi-DC 是 DR 投資、不是 cost optimization；只在 availability SLA > 99.9% 或合規要求 場景值得。

整合 / 下一步

跟 MongoDB → Atlas migration 對位

Self-managed multi-DC 複雜度高、Atlas 把 multi-cluster + cross-region 簡化成 UI 配置；如果走 multi-DC、考慮直接遷 Atlas。

跟 Application read pattern 整合

zone sharding + readPreference 跟 application logic 緊密耦合；不能事後補、應在 multi-DC 設計階段就設計 application 端的 region-aware routing。

跟 Cassandra keyspace re-balance 對比

Cassandra 是另一個 Type F multi-DC 典型 case；用 NetworkTopologyStrategy + replication factor per DC、跟 MongoDB zone sharding 概念對等但 mechanism 完全不同。Reviewer D 把 Cassandra 列為 Type F 反例 — 本文以 MongoDB 替代驗證。

下一步議題

Cross-region active-active：MongoDB 不支援 multi-primary、cross-region active-active 需要 application-level conflict resolution
PostgreSQL Citus / CockroachDB multi-region 對比：distributed SQL 對 multi-region 有不同設計
Cost optimization：跨 DC egress 是 long-term concern、zone sharding 設好後仍要 quarterly review

MySQL Replication Topology：async / semi-sync / GTID 不是三選一、是三個 trade-off 軸的疊加

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 replication topology — 從 single primary 到 multi-replica 部署的 3 個 trade-off 軸跟 5 段配置。

Replication 的 3 個 trade-off 軸 + mode 選擇

Replication mode 選擇看起來是「選 async 還是 semi-sync」、但決策實際是 3 個獨立 trade-off 軸的權衡、async / semi-sync 是這些軸的兩個常見組合名稱：

軸	端 A	端 B	MySQL 旋鈕
Durability	primary 寫完就 commit	至少一個 standby 收到才 commit	`rpl_semi_sync_master_enabled` / sync ack count
Latency	client 等 primary 寫完 OK	client 等 standby ack（額外 RTT）	`rpl_semi_sync_master_timeout`
Consistency	replica 隨時可能 stale	replica 跟 primary 保證讀到一致	application read routing rule（不是 replication 旋鈕）

「async vs semi-sync」實際上是 durability + latency 兩軸 的選擇、不影響 consistency 軸（consistency 在 read routing 層決定）。Group Replication / MySQL Cluster（synchronous multi-primary）會同時改三軸、是另一個故事、不在本文 scope。

跟這三軸獨立的、是 replication 機制本身的可維護性。binlog position-based replication 用 (file, position) 標 replica 進度、failover 時要對齊 position 容易出錯；GTID（Global Transaction Identifier）用全域 transaction ID 標進度、failover / re-pointing 不必算 position。GTID 是 跨 mode 的 infrastructure、不是第三種 mode。

Async replication：default + 高 throughput 的代價

Async 是 MySQL 預設、行為：

Primary 寫 binlog、立刻 commit、回應 client OK
Replica 的 IO thread 從 primary pull binlog event 到 local relay log
Replica 的 SQL thread apply relay log（單 thread 或 multi-thread parallel）

Trade-off：

Durability：primary 寫完 commit、replica 還沒 pull = primary 在這瞬間 crash + 永久故障 → data loss（已 commit 的 transaction 在 replica 不存在）
Latency：client 不等 replica、寫入延遲 = primary 自身寫 binlog 的時間（通常 < 1ms with innodb_flush_log_at_trx_commit=1）
Consistency：replica 可能 lag、application 讀 replica 會 stale；用 SHOW SLAVE STATUS 看 Seconds_Behind_Master

適用：

主流選擇（90% 場景）
Failover loss 在容忍範圍（多數 web 應用容忍 1-2 秒 data loss）
Read scaling 為主要 driver、絕對 durability 非首要

不適用：

金融交易 / 訂單系統、不允許 any data loss
Compliance 要求 zero data loss（PCI-DSS / 部分監管場景）

Semi-sync replication：至少一個 standby ack 才 commit

Semi-sync 在 async 基礎上加 primary 等至少 N 個 replica ack 才 commit 的步驟：

Primary 寫 binlog
Primary 發送 binlog event 到所有 replica
Primary 等至少 N 個 replica 回 ack（N 是 rpl_semi_sync_master_wait_for_slave_count、預設 1）
Primary commit、回應 client

Trade-off：

Durability：至少 N 個 replica 收到 binlog（不一定 apply）、primary crash 後 replica 還有 binlog 可 promote、保證 zero data loss（但是 binlog-level、不是 applied-level）
Latency：client 等 primary + 一輪 replica ack RTT；跨 AZ 通常 +1-3ms、跨 region 可能 +50-200ms
Consistency：跟 async 一樣、replica apply 仍 async、application 讀 replica 仍可能 stale

MySQL 5.7+ 區分 standard 跟 Loss-Less semi-sync：

Standard semi-sync（5.5-5.6）：primary 先 commit 再等 ack、ack 超時 fallback 成 async — 仍可能 lose data
Loss-Less semi-sync（5.7+、rpl_semi_sync_master_wait_point=AFTER_SYNC）：primary 寫完 binlog 但 先等 ack 再 commit、ack 超時 fallback async 之前已寫 binlog 仍保證 durable

Production 場景必須用 Loss-Less semi-sync、不是 standard。

適用：

金融交易 / 訂單 / payment ledger
不允許 data loss、可接受寫入延遲 +1-3ms
已有 multi-AZ / multi-region 部署、replica 物理上可靠

不適用：

跨 region semi-sync（RTT 50-200ms）通常不划算 — 寫吞吐砍半、改用 region-local sync replica + cross-region async chain
寫吞吐 > 50K WPS 且容忍 sub-second loss — async 即可

GTID-based replication：機制升級、跨 mode 都需要

GTID 把每個 transaction 標一個全域 ID：:。Replica 紀錄「已 apply 的 GTID set」、不再用 (binlog_file, position)。

為什麼 GTID 比 binlog position 好：

Failover re-pointing 簡單：promote 新 primary 後、其他 replica 重新 attach 不必算 MASTER_LOG_FILE + MASTER_LOG_POS、用 CHANGE MASTER TO MASTER_AUTO_POSITION=1 即可
Multi-source replication 可行：一個 replica 從多個 primary 拉、各 primary 的 GTID set 獨立 track
Consistency check 容易：兩個 server 對 GTID set、就知道誰落後、有無 gap
跟 group replication / MySQL Cluster 必需：5.7+ 多 primary 場景 GTID 是前提

設定流程（兩階段、不能直接開）：

Phase 1 (預備、所有 server 同 mode)：

1gtid_mode = ON_PERMISSIVE  -- 接受 GTID 跟 non-GTID transaction
2enforce_gtid_consistency = ON  -- 拒絕無法用 GTID 表達的 statement（CREATE TABLE...SELECT 等）

Phase 2 (rolling、全部 server 都 Phase 1 後)：
```
1gtid_mode = ON  -- 只接受 GTID transaction
```

跳 phase 直接 gtid_mode=ON 會讓 replication break（既有 non-GTID transaction 無法處理）。Production 啟用 GTID 要排 maintenance window、跑完 phase 1 觀察 1-2 天再進 phase 2。

配置 step-by-step（Loss-Less semi-sync + GTID 組合）

實務最常見組合：Loss-Less semi-sync + GTID。配置順序：

Step 1：Primary + replica 都開 GTID（兩 phase 跑完）

1# my.cnf on primary AND replica
2gtid_mode = ON
3enforce_gtid_consistency = ON
4log_bin = mysql-bin
5log_slave_updates = 1  -- replica 也記 binlog (chained replication 需要)
6binlog_format = ROW    -- ROW 比 STATEMENT 安全
7sync_binlog = 1        -- 每次 commit fsync binlog
8innodb_flush_log_at_trx_commit = 1  -- 每次 commit fsync InnoDB log

Step 2：Primary 安裝 semi-sync plugin

1INSTALL PLUGIN rpl_semi_sync_master SONAME 'semisync_master.so';
2SET GLOBAL rpl_semi_sync_master_enabled = 1;
3SET GLOBAL rpl_semi_sync_master_wait_for_slave_count = 1;  -- 至少 1 個 ack
4SET GLOBAL rpl_semi_sync_master_wait_point = AFTER_SYNC;   -- Loss-Less
5SET GLOBAL rpl_semi_sync_master_timeout = 10000;           -- 10s timeout、超時 fallback async

Step 3：Replica 安裝 semi-sync plugin

1INSTALL PLUGIN rpl_semi_sync_slave SONAME 'semisync_slave.so';
2SET GLOBAL rpl_semi_sync_slave_enabled = 1;
3STOP SLAVE IO_THREAD;
4START SLAVE IO_THREAD;  -- 重啟 IO thread 啟用 semi-sync

Step 4：Replica attach primary

1CHANGE MASTER TO
2  MASTER_HOST='primary.example.com',
3  MASTER_PORT=3306,
4  MASTER_USER='repl',
5  MASTER_PASSWORD='...',
6  MASTER_AUTO_POSITION=1;  -- 用 GTID auto-position
7START SLAVE;

Step 5：驗證

 1-- Primary: 確認 semi-sync 啟用 + 有 active client
 2SHOW STATUS LIKE 'Rpl_semi_sync_master_status';      -- ON
 3SHOW STATUS LIKE 'Rpl_semi_sync_master_clients';     -- ≥ 1
 4SHOW STATUS LIKE 'Rpl_semi_sync_master_yes_tx';      -- > 0 (有 transaction 走 semi-sync)
 5SHOW STATUS LIKE 'Rpl_semi_sync_master_no_tx';       -- 應該 = 0 (沒有 fallback 成 async)
 6
 7-- Replica: 確認 GTID + IO thread 正常
 8SHOW SLAVE STATUS\G
 9-- Slave_IO_Running: Yes
10-- Slave_SQL_Running: Yes
11-- Retrieved_Gtid_Set: 跟 primary Executed_Gtid_Set 接近
12-- Seconds_Behind_Master: 觀察 lag

5 個 Production 踩雷

1. Replication lag 暴衝 — 單 SQL thread bottleneck

預設 replica 的 SQL thread 是 單 thread apply、primary 多 thread 寫入時 replica 跟不上、lag 從 < 100ms 飆到分鐘級。常見觸發：批次 UPDATE / DELETE、大 transaction、index rebuild。

修法：

啟用 multi-thread replication：slave_parallel_workers = 8（per database 或 per logical clock parallel）
5.7+ 用 slave_parallel_type = LOGICAL_CLOCK：依 primary 上的 group commit 並行度自動 parallel
8.0+ 的 writeset-based parallel：binlog_transaction_dependency_tracking = WRITESET、更細粒度並行

監控：Seconds_Behind_Master 是 表面指標、實際看 Executed_Gtid_Set 跟 primary 對比的 GTID gap 更準。

2. Semi-sync timeout fallback 成 async（沒監控就看不見）

rpl_semi_sync_master_timeout 預設 10000ms（10 秒）、超時後 自動 fallback async、直到 replica 重連。Application 視角看不到任何 error、但 durability guarantee 已失效。

修法：

監控 Rpl_semi_sync_master_status — fallback 後變 OFF
監控 Rpl_semi_sync_master_no_tx — fallback 期間每個 transaction 都計數
Alert 規則：5 分鐘內 no_tx 增加 > 0 即告警
Timeout 設太短（< 5s）容易 false positive、設太長（> 30s）crash 時 data loss 風險增

3. GTID gap — replica 無法 attach

Replica 重新 attach primary 時報 ERROR 1236: ... transactions you need from master are purged、原因是 primary 的 binlog_expire_logs_seconds 過短、需要的 binlog 已被清掉。GTID 模式下這個錯誤更明顯（直接看 GTID gap）、但 binlog position 模式下也一樣。

修法：

binlog_expire_logs_seconds = 604800（7 天）作為 baseline
大流量 server 確認 disk 容量能撐 7 天 binlog（一個高峰小時 binlog 可能 GB 級）
真的 gap 太大時用 base backup + replay binlog 重建 replica、不要硬 reset GTID

4. Loss-Less semi-sync 不一定真的 loss-less

AFTER_SYNC 模式 primary 寫 binlog → 等 ack → commit、看起來 zero loss。但 primary 寫完 binlog 還沒等 ack 時 crash + replica 剛好沒收到那個 binlog event + replica promote — 這個 binlog event 在新 primary 不存在、但舊 primary 的 binlog 仍紀錄為 已寫 binlog 未 commit。client 收到 connection lost、不知道 transaction 是否成功。

修法：

接受這個 edge case unknown state、application 用 idempotency key + retry 處理
Loss-Less semi-sync 保證的是 已 commit transaction 不會丟、不是 所有寫入都 ack-and-tell
真的 zero unknown state 需要 group replication / Galera Cluster / MySQL Cluster（synchronous multi-primary）

5. Chained replication 雪崩

Topology 是 primary → replica1 → replica2 → ...（hub-and-spoke 之外的選擇、節省 primary 出口頻寬）。Replica1 SQL thread 卡住、replica2 跟 replica3 都被 block、整條 chain 雪崩。

修法：

避免超過 2 層 chain（primary → tier1 replica → tier2 replica 是上限）
用 parallel binary log relay（5.7+ slave_pending_jobs_size_max + parallel workers）讓 chain 中段不阻塞
規模真的大、改用 binlog server（如 Maxwell / MaxScale）解耦 chain dependency
跨 region 用 region-local hub + cross-region async、不是長 chain

容量 / cost 對照

配置	寫吞吐影響	Replica overhead	適合 workload
Async + binlog position	baseline	低（IO + SQL thread）	高吞吐、容忍 sub-second loss
Async + GTID	baseline	同上、failover 容易	大多數 production 預設
Loss-Less semi-sync + GTID（1 ack）	-10% ~ -20%	同上 + ack RTT	金融、訂單、不容忍 data loss
Loss-Less semi-sync + GTID（2 ack）	-15% ~ -30%	同上、跨 AZ	強 durability + multi-AZ HA
Group Replication（synchronous）	-30% ~ -50%	高（每 transaction quorum）	不允許 single-primary、multi-primary 寫入

跨 AZ semi-sync 通常加 1-3ms、跨 region 加 50-200ms — 寫密集 workload 跨 region semi-sync 通常不划算、改用 region-local sync + cross-region async chain。

整合 / 下一步

Aurora MySQL

Aurora MySQL 用 AWS-managed storage layer、storage 自動 replicate 6 份跨 3 AZ、不需要應用層配 semi-sync。從自管 MySQL 遷 Aurora 時、上方所有 semi-sync 配置消失、改成 Aurora storage quorum（4 of 6 write、3 of 6 read）。

trade-off 軸的 durability 完全交給 Aurora、application 只關心 latency + consistency。詳見 Aurora vendor page。

Vitess（sharding layer）

Vitess shard 內部仍用 MySQL replication（async or semi-sync）、Vitess 不取代 replication topology、是 上層 routing。Vitess vttablet 每個 shard 有自己的 primary + replica、跟本文 topology 設計一致。

Vitess 比較大議題在 cross-shard transaction（VReplication 跨 shard binlog stream）、不是 replication topology — 詳見 MySQL backlog 中 Vitess sharding 設計 篇（待寫）。

ProxySQL（read replica routing）

ProxySQL 是 MySQL 生態的 connection pool + query routing 標準、按 query type（SELECT vs DML）跟 replica lag 自動 route。寫入路 primary、讀走 replica、replica lag > N 秒時暫時退路 primary 維持 consistency。

ProxySQL 跟本文 replication topology 是 互補不重疊 — replication 設定哪些 server 有什麼資料、ProxySQL 設定 query 怎麼分配。詳見 MySQL backlog 中 ProxySQL 配置 篇（待寫）。

Orchestrator（HA failover）

Orchestrator 是 MySQL HA topology 管理 + 自動 failover 工具、用 GTID 偵測 replica 進度、failover 時自動 promote 最新 replica。對比 PostgreSQL 的 Patroni（詳見 Patroni HA）— 兩者角色相同、Orchestrator 需要 GTID + 對 MySQL 行為熟、Patroni 需要 DCS（etcd / Consul）+ 對 PG 行為熟。

詳見 MySQL backlog 中 Orchestrator failover 設計 篇（待寫）。

CDC（Maxwell / Debezium）

Maxwell（Zendesk 出品、MySQL-only）跟 Debezium（Red Hat、MySQL / PG / MongoDB 都支援）都讀 MySQL binlog 轉成 event stream（Kafka / Kinesis / Pulsar）。Binlog 必須 ROW format、GTID 啟用後 exactly-once delivery 更好維護（不需算 binlog position）。

跟 PG logical replication + Debezium 對比、MySQL 用 binlog（physical / row-level）不是 logical decoding、所以 schema change 時 CDC consumer 要 schema-aware 處理。詳見 MySQL backlog 中 Binary log + Maxwell / Debezium CDC 篇（待寫）。

PostgreSQL Replication Topology：async / sync / quorum 三模式跟 LSN + replication slot 的三軸組合

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 streaming replication topology — 從 single primary 到 multi-standby 部署的 3 個 trade-off 軸 + LSN + replication slot 機制。

Replication 的 3 個 trade-off 軸 + mode 選擇

PG streaming replication mode 選擇看起來是「async 還是 sync」、實際是 3 個獨立 trade-off 軸的組合、async / sync / quorum-based sync 是這些軸的常見組合名稱：

軸	端 A	端 B	PG 旋鈕
Durability	primary 寫完就 commit	至少一個 standby 收到才 commit	`synchronous_commit` / `synchronous_standby_names`
Latency	client 等 primary 寫完 OK	client 等 standby ack（額外 RTT）	同上
Consistency	standby 隨時可能 stale	standby 跟 primary 保證讀到一致	application read routing rule（不是 replication 旋鈕）

跟這三軸獨立的、是 replication 機制本身的可維護性：

LSN（Log Sequence Number）：PG 用全域 byte offset 標 WAL 進度、所有 standby 同步用 LSN 對齊、不像 MySQL 早期 binlog position + file 雙欄
Replication slot：primary 紀錄每個 standby 已接收的 LSN、防 standby 失聯期間 WAL 被清掉、是 streaming replication 的 持久化進度追蹤

跟 MySQL Replication Topology 對比、PG 的 LSN + replication slot 直接內建 standby 進度追蹤、不像 MySQL 5.7- 要靠 binlog position + GTID 雙機制；但 slot 是 primary 紀錄、orphan slot 是 PG-specific 議題（slot 留 WAL 直到 standby 重連、standby 永久失聯 → primary disk 爆）。

Async streaming：default + 高 throughput 的代價

Async 是 PG 預設、行為：

Primary 寫 WAL 進 pg_wal/ 目錄、commit、回應 client OK
WAL sender process 把 WAL stream 給 standby
Standby WAL receiver 寫 standby 的 pg_wal/、startup 進程 redo 套用

Trade-off：

Durability：primary commit 後 standby 還沒收 → primary 永久故障 → data loss（已 commit 的 transaction 在 standby 不存在）
Latency：client 寫入延遲 = primary 自身 fsync WAL 的時間（fsync=on + synchronous_commit=on 預設、通常 < 1ms 在 SSD / NVMe）
Consistency：standby 可能 lag、application 讀 standby 會 stale；用 pg_stat_replication.write_lag / flush_lag / replay_lag 看

配置：

1# postgresql.conf on primary
2wal_level = replica          # 至少 replica（logical 是 superset）
3max_wal_senders = 10         # 並行 WAL sender process 數（依 standby 數量）
4wal_keep_size = 1024MB       # WAL 保留量（slot 為主、但 backup buffer）
5synchronous_commit = on      # 預設、primary 自己 fsync WAL
6# synchronous_standby_names 留空 = async

適用：

主流選擇（90% 場景）
Failover loss 在容忍範圍（多數 web 應用容忍 1-2 秒 data loss）
Read scaling 為主要 driver、絕對 durability 非首要

Sync streaming：至少一個 standby flush WAL 才 commit

Sync mode 在 async 基礎上加 primary 等指定 standby flush WAL 才回 client：

Primary 寫 WAL、send to standby
Standby 收到 WAL、寫進 pg_wal/、fsync、回 ack
Primary 等 ack → commit → 回 client

synchronous_commit 有 5 個 level、不是 binary：

Level	行為	Latency 影響	Crash data loss
`off`	primary 不等自己 fsync、background flush	+0	primary crash 丟 0-1 秒
`local`	primary fsync own WAL（不等 standby）	baseline	primary crash 0、standby 丟
`remote_write`	primary fsync + standby 收到（不必 standby fsync）	+1 RTT 大致	OS crash on standby 丟
`on` (預設)	primary fsync + standby fsync（standby 收進 disk）	+1 RTT + fsync	全 crash 都不丟
`remote_apply`	primary fsync + standby fsync + standby 已 replay（visible to read）	+1 RTT + fsync + replay	全 crash 都不丟 + replica 立刻可讀

配置（synchronous）：

1synchronous_commit = on
2synchronous_standby_names = 'FIRST 1 (standby1, standby2)'
3# 'FIRST 1' = 第一個 active standby ack 即可
4# 'ANY 2 (s1, s2, s3)' = 任 2 個 ack 即可（quorum-based）

Quorum-based sync：用 ANY N 語法、達到 N 個 ack 就 commit、提高 latency stability（不依賴特定 standby）：

1synchronous_standby_names = 'ANY 2 (standby1, standby2, standby3)'
2# 3 個 standby 中任 2 個 ack 即 commit

適用：

金融交易 / 訂單 / payment ledger（不允許 data loss）
已有 multi-AZ deploy、replica 物理上可靠
可接受寫入延遲 +1-3ms (跨 AZ)

不適用：

跨 region sync（RTT 50-200ms）— 寫吞吐砍半、改用 region-local sync + cross-region async
寫吞吐 > 50K WPS + 容忍 sub-second loss — async 即可

LSN + Replication Slot：PG 的進度追蹤機制

PG 每個 WAL 寫入都標 LSN（64-bit byte offset）。Standby 紀錄 已收到 / 已 flush / 已 replay 的 LSN、primary 透過 streaming protocol 知道每個 standby 進度。

Replication slot 是 primary 端的 standby 進度紀錄：

1-- 建 physical replication slot（給 streaming replication 用）
2SELECT * FROM pg_create_physical_replication_slot('standby1_slot');
3
4-- 查 slot 狀態
5SELECT slot_name, active, restart_lsn, confirmed_flush_lsn,
6       pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) AS lag
7FROM pg_replication_slots;

Slot 的核心責任：

防 WAL premature deletion：standby 失聯（restart / network blip）、primary 仍保留 slot 對應 LSN 之後的 WAL、standby 重連可繼續 stream
無需 base backup re-build：跟沒 slot 的 standby 對比、有 slot 的 standby 失聯後重連、不用重建

Slot 跟 wal_keep_size：

wal_keep_size（PG 13+）/ wal_keep_segments（< 13）：minimum WAL 保留量、不依賴 slot
Slot 是 動態保留：直到 slot 的 standby 推進 LSN 才釋放對應 WAL
兩者組合：wal_keep_size 是底線、slot 是 standby-specific 動態保留

Standby 配置（用 slot）：

1# standby1 postgresql.conf
2primary_conninfo = 'host=primary.example.com port=5432 user=replication password=...'
3primary_slot_name = 'standby1_slot'   # 用 primary 上預先建的 slot
4hot_standby = on                       # 讓 standby 接受 read query

standby.signal 空檔案在 PG_DATA 內、告訴 PG 這是 standby、進入 recovery mode。

配置 step-by-step（sync streaming + slot）

實務最常見組合：sync streaming + replication slot + cross-AZ replica。

Step 1：Primary 配置

 1# postgresql.conf
 2wal_level = replica
 3max_wal_senders = 10
 4max_replication_slots = 10
 5synchronous_commit = on
 6synchronous_standby_names = 'FIRST 1 (standby1, standby2)'
 7wal_keep_size = 1024MB
 8
 9# pg_hba.conf — 允許 replication 連線
10host replication replication 10.0.0.0/16 scram-sha-256

Restart primary 套用。

Step 2：建 replication user + slot

1CREATE USER replication WITH REPLICATION PASSWORD '...';
2SELECT * FROM pg_create_physical_replication_slot('standby1_slot');
3SELECT * FROM pg_create_physical_replication_slot('standby2_slot');

Step 3：Standby base backup

1# 在 standby 上跑
2pg_basebackup -h primary.example.com -D /var/lib/postgresql/data \
3  -U replication -P -X stream \
4  -S standby1_slot -R
5# -R: 自動生成 standby.signal + primary_conninfo
6# -X stream: 邊 backup 邊 stream 增量 WAL（避免 backup 期間 WAL gap）

Step 4：Standby 啟動

1# standby /var/lib/postgresql/data/postgresql.auto.conf 已有：
2# primary_conninfo = 'host=primary.example.com user=replication password=... application_name=standby1'
3# primary_slot_name = 'standby1_slot'
4
5pg_ctl -D /var/lib/postgresql/data start

Step 5：驗證

1-- Primary: 確認 standby 連上
2SELECT application_name, state, sync_state, write_lag, flush_lag, replay_lag
3FROM pg_stat_replication;
4-- 應顯示 standby1 / streaming / sync / 各 lag
5
6-- Standby: 確認在 recovery + 收到 WAL
7SELECT pg_is_in_recovery(), pg_last_wal_receive_lsn(), pg_last_wal_replay_lsn();

5 個 Production 踩雷

1. Standby lag 暴衝 — Single replay process bottleneck

PG standby 是 single startup process 套用 WAL（不像 MySQL multi-thread replication）、primary 高並發寫入時 standby 跟不上、lag 從 < 100ms 飆到分鐘級。常見觸發：批次 UPDATE / DELETE、大 transaction、index 建立、autovacuum 大量 dead tuple cleanup。

修法：

Parallel WAL apply（PG 14+）：max_parallel_workers_per_gather 增加 background worker、但仍受 startup process 主導
對 read scaling 場景接受 standby lag、application 用 primary read 對 latency-critical query
Cascading replication 對 high-fan-out 解決 sender CPU bottleneck、但 standby replay 仍 single-thread

監控：pg_stat_replication.replay_lag 是 最後一個 commit 到 standby replay 的時間差、超過 threshold 即告警。

2. Sync standby 失聯時 primary commit 卡住

synchronous_standby_names = 'FIRST 1 (standby1)' + standby1 down → primary commit 等永遠。Application 全部 timeout。

修法：

用 ANY N quorum：synchronous_standby_names = 'ANY 1 (standby1, standby2)' — 任一 standby ack 即可
設多 standby、防單一失聯
監控 sync standby 健康、自動 failover 切 sync mode 到其他 standby（Patroni 自動做）
緊急情況：在 primary 跑 ALTER SYSTEM SET synchronous_standby_names = ''; SELECT pg_reload_conf(); 暫時退 async（接受 data loss risk）

3. Orphan replication slot — Primary disk 爆

Standby 失聯（永久故障 / 重 decommission 但忘了 drop slot）、primary slot 持續保留 WAL、pg_wal/ 累積到 disk 滿、primary 也掛。

修法：

監控 pg_replication_slots.active — false 持續 > N 小時是警訊

監控 slot lag：

1SELECT slot_name, active,
2       pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) AS retained_wal
3FROM pg_replication_slots WHERE retained_wal > 10GB;

設 max_slot_wal_keep_size（PG 13+）— slot 對應 WAL 超過 limit 自動 invalidate slot（standby 之後要 base backup 重來）
DR runbook 紀錄 standby 退役流程 必須包含 pg_drop_replication_slot('xxx')

4. Cascading replication 雪崩

Topology primary → standby1 → standby2 → ...（每層遞迴 stream）。Standby1 startup process 卡住、後續 standby 都被 block、整條 chain 雪崩。

修法：

避免超過 2 層 cascade（primary → tier1 → tier2 是上限）
跨 region 用 region-local tier1 + cross-region tier2、不是長 chain
真的大規模、改用 binlog server style：Citus / PgCat 等中介、或 logical replication 解耦

5. Failover 後 timeline 分歧

Primary 失敗、standby1 promote 為新 primary、其他 standby（standby2 / 3）原本連舊 primary、必須重新連 standby1。但 PG 用 timeline（每次 promotion 增 1）標 WAL 分支、原 standby 的 timeline 跟新 primary 不同。重連時看到 timeline mismatch、報錯。

修法：

pg_rewind 工具：對比新 primary 跟舊 standby 的 timeline 分歧點、把舊 standby 上 新 primary 沒有的 WAL 倒退、然後從分歧點重新跟新 primary 同步
Base backup re-build：對舊 standby 重建 — 慢但保證乾淨
Patroni 自動處理 pg_rewind / base backup 選擇

容量 / cost 對照

配置	寫吞吐影響	Standby overhead	適合 workload
Async streaming + slot	baseline	低（WAL receive + startup）	高吞吐、容忍 sub-second loss
Sync `remote_write` + 1 standby	-5% ~ -10%	同上 + RTT	一般 production、可接受 OS crash 丟
Sync `on` + 1 standby	-10% ~ -20%	同上 + fsync	金融、訂單、不容忍 data loss
Sync `on` + ANY 2 quorum	-15% ~ -30%	同上、跨 AZ	強 durability + multi-AZ HA
Sync `remote_apply` + 1 standby	-20% ~ -40%	同上 + replay	強一致 read on standby（少用、成本高）

跨 AZ sync 通常加 1-3ms、跨 region 加 50-200ms — 寫密集 workload 跨 region sync 通常不划算、改用 region-local sync + cross-region async chain。

整合 / 下一步

Patroni HA

Patroni 是 PG HA 自動 failover 標準、依賴 DCS（etcd / Consul）+ 本文 replication topology。Patroni 自動：

偵測 primary 失聯、promote 適合 standby
處理 timeline 分歧（pg_rewind）
重配 sync standby（避免 sync standby 失聯卡 primary）

Logical Replication + Debezium

Logical replication + Debezium 是 跟 streaming replication 共用 WAL 但不同 abstraction — logical decoding output event、streaming replication output physical bytes。Logical replication slot 跟 physical slot 共存、各自獨立 retention。

PITR + WAL Archiving

PITR + WAL Archiving 用 archive_command 把 WAL ship 到 S3、跟 streaming replication 並行：

Streaming：給 活的 standby（real-time read scaling / HA）
Archive：給 PITR + 新 standby base backup source

兩者使用同一 WAL stream、不衝突。

Connection 路由（PgBouncer + read/write split）

PgBouncer 不做 read/write split（transaction pool 不看 SQL）。Read replica routing 通常用 application-level 或 HAProxy 監控 standby health。

跟 MySQL Replication Topology 對比

維度	PG streaming replication	MySQL replication
進度追蹤	LSN（單一 byte offset）	GTID 或 binlog (file, position)
標準工具	streaming replication（physical）+ logical	binlog ROW format
Sync 機制	`synchronous_commit` + standby names	semi-sync plugin
Quorum	`ANY N` syntax	`rpl_semi_sync_master_wait_for_slave_count`
Replay parallelism	Single startup process	Multi-thread (logical clock / writeset)
Replica routing	PgBouncer 不看 SQL、需外接	ProxySQL 內建 query routing

兩者 high-level 對等、低層機制有顯著差異。詳見 MySQL Replication Topology。

1.12 大規模 DB 遷移實戰

Wed, 13 May 2026 00:00:00 +0000

概念定位

DB 遷移是後端工程中 風險最高的長期工作 之一。一次失敗的遷移可能造成資料丟失、用戶體驗劣化、合規違約、團隊信心受挫。本章整理近 5 年公開的大規模 DB 遷移案例、提煉出可重用的工程流程。

跟 1.6 database migration playbook 的關係：1.6 是 generic playbook、本章針對「跨 DB 種類」遷移（PostgreSQL → Aurora、TiDB → DynamoDB、MongoDB → Cosmos DB）、規模較大、風險較高。

跟 1.7 Schema Migration Rollout Evidence 的關係：1.7 處理 同一 DB 內 的 schema 演進、本章處理 換 DB engine 的遷移。兩者都用 evidence-based gate、但 stakes 不同。

讀完後讀者能回答：跨 DB 遷移該怎麼分階段、dual-write 怎麼設計、shadow read 怎麼驗證、cutover 怎麼安全進行、rollback window 訂多久。

遷移類型分類

DB 遷移不是單一概念、按 變動範圍 分四類、每類風險跟流程不同。

Type 1：scale-up（換 instance）：

例：m5.large → m5.4xlarge
變動：硬體規格、不變 schema、不變 DB engine
風險：低、通常 minutes downtime 即可
工具：vendor 提供 in-place scaling

Type 2：schema migration：

例：加欄位、加 index、改 data type
變動：schema 結構、不變 DB engine
風險：中、需要 expand-contract 模式
詳見 1.7 Schema Migration Rollout Evidence

Type 3：cross-DB engine migration：

例：PostgreSQL → Aurora、SQL Server → PostgreSQL、TiDB → DynamoDB
變動：DB engine、可能 schema、可能 query language
風險：高、可能需要應用層改寫、cutover 風險大
本章重點

Type 4：cross-model migration：

例：RDBMS → KV、Document → Graph
變動：資料模型、必須應用層大改寫
風險：極高、通常分 service 漸進遷移、不會一次切完
對應 9.C20 Zomato TiDB → DynamoDB

為什麼要做大規模 DB 遷移

不是所有遷移都值得做。理由要強過 成本 + 風險、不然不該開工。

合理動機：

舊系統規模上限：9.C20 Zomato TiDB 必須長期 over-provision 應付 spike、成本不划算 → 換 DynamoDB on-demand 後 50% 成本下降
舊系統運維成本：9.C9 Spotify 自管 Kafka 工程成本太高 → 換 managed Pub/Sub 釋放 SRE
舊系統失能：9.C23 Netflix 多套 RDBMS（PostgreSQL、MySQL、Oracle）DBA 負擔重 → 統一到 Aurora、效能 +75% 成本 -28%
vendor 終止支援：mongoDB 改授權、TiDB 改授權、Mesos 被棄、Oracle 升級費高
合規要求：9.C14 Standard Chartered 新市場上線、需要本地合規 cluster
新功能需求：9.C30 Microsoft 365 需要 global distribution、原 MongoDB 達不到

不合理動機（要警惕）：

「新技術好酷」：fad-driven、通常會後悔
「vendor sales 推銷」：sales 利益跟你 ROI 不一致
「同行 X 也在遷」：人家的場景跟你不同
「主管要看到 transformation」：政治、不是工程

遷移階段流程

成熟的大規模 DB 遷移分五階段、每階段有明確 exit criteria。

階段 1：可行性評估（T-180 ~ T-90）

輸出：可行性報告、決定 go / no-go。

評估項目：

workload 在新 DB 上是否真的能跑（不是 marketing、是實測 POC）
應用層改寫成本（哪些 query 需要改、哪些 ORM 需要換）
遷移時程預估（含 合規審查 lead time、如金融業可能 3-12 個月）
成本對比（總成本曲線、不只當下 snapshot）
失敗代價（如果遷移失敗、business 影響多大）

跨雲遷移特有 gap 分析：當遷移橫跨雲廠商時、評估項目要加上 0.19 雲端服務對照地圖的「對應 ≠ 等價」差異維度：

一致性模型差異（如 DynamoDB eventual vs Cosmos DB 五級可選）
failover 時間差異（vendor 文件 vs 實測長尾）
計價模型差異（per-request vs provisioned capacity 換算）
配額差異（partition 上限、batch size、throttling 行為）
Data gravity / egress lock-in（PB 級資料的 egress fee 常是被低估的單筆最大成本）

跨雲遷移的失敗多數來自 0.19 對照表沒做完整 gap 分析、把「名稱對應」當「能力等價」。

對應案例：

9.C20 Zomato — POC 驗證 DynamoDB 撐得住、再決定遷移
9.C30 Microsoft 365 — MongoDB API 相容讓 POC 成本低、加速決策

階段 2：應用層相容性改造（T-90 ~ T-30）

輸出：應用層支援 新舊 DB 雙寫、可以隨時切換。

改造項目：

Repository adapter 抽象化（1.4 Repository Adapter）
新增 新 DB 的 adapter 實作
配置「寫入 mode」：old only / dual-write / new only
query 端「讀取 mode」：old / new / shadow（讀兩邊比對）
error handling 兼容（不同 DB 的錯誤碼）

API-compatible 遷移的優勢：

9.C30 Microsoft 365 MongoDB → Cosmos DB MongoDB API — 應用層幾乎不用改、只換 connection string
Aurora PostgreSQL-compatible → 不改 SQL 跟 ORM
缺點：API 相容不等於行為完全相同、要 特定 query pattern 驗證

階段 3：Dual-write + shadow read 驗證（T-30 ~ T-7）

dual-write / shadow read / backfill 的 generic 機制 詳見 1.6 database migration playbook 跟 1.7 schema migration rollout evidence（含 Dual-write divergence schema 詳細分類）；本章只強調 跨 DB engine 遷移的特殊取捨。

輸出：新 DB 已 並行寫入、跟舊 DB 結果一致。

Dual-write 流程：

應用層同時寫入 old 跟 new DB
用 old DB 結果回應用戶
log 兩邊寫入是否成功、有差異就 alert
backfill 之前的歷史資料到 new DB

Shadow read 驗證：

應用層查 old DB 拿結果回用戶
也查 new DB、比對結果是否一致
不一致記錄到 audit log
跑 N 天（建議 7-14 天）確認一致性高

注意事項：

Dual-write 期間 兩邊都要可寫、寫失敗的 fallback 流程明確
新 DB 還沒承擔流量、容量規劃要 提前 ramp up、不要等 cutover 才發現容量不夠
監控指標：write success rate、cross-DB inconsistency rate、replication lag、performance metrics

對應案例：9.C20 Zomato — 遷移前用 dual-write 驗證 4 倍吞吐改善是真的、不是 POC marketing。

階段 4：Cutover（T-7 ~ T-0）

輸出：用戶流量切到 new DB、old DB 變成 fallback。

Cutover 策略：

Big-bang cutover：一次切全部流量

優點：簡單、不必維護 跨 DB consistency
缺點：風險集中、rollback 困難
適合：小規模、low-stakes

Gradual cutover（推薦）：分階段切

T-7：1% 流量到 new DB、觀察 1 天
T-6：5% → 觀察 1 天
T-5：25% → 觀察 1 天
T-3：50% → 觀察 2 天
T-1：100%

Reverse rollout：某些工作負載先切（read-only first、再 write）

T-7：所有 read 切到 new DB（write 還在 old）
T-3：write 切到 new DB（read 已驗證）

階段 5：Rollback window + 清理（T+0 ~ T+30+）

Rollback window：cutover 後保持 可隨時 rollback 回 old DB 的狀態。

Rollback window 設計：

短期（T+7）：保持 dual-write、可以即時切回 old DB
中期（T+30）：保留 old DB read-only、需要 manual 切回但快
長期（T+90）：保留 old DB snapshot、disaster recovery 用
結束：徹底刪除 old DB（含 backup、ETL pipeline 改寫）

Cleanup 工作：

移除 dual-write code
移除 shadow read code
簡化 repository adapter（只保留 new DB）
文件更新（runbook、onboarding doc）
decommission old DB（不立即砍、保留至少 90 天備援）

對應案例：9.C9 Spotify Kafka → Pub/Sub — 大規模事件交付系統的 multi-month 漸進遷移、有明確 rollback path。

API-compatible vs 應用層改寫

跨 DB 遷移的關鍵決策：要不要追求 應用層零改動。

API-compatible 遷移：

新 DB 提供舊 DB 的 wire protocol / API
應用層只換 connection string、不改 query
例：MongoDB → Cosmos DB（MongoDB API）、Cassandra → Cosmos DB（Cassandra API）、MySQL → Aurora（MySQL）

優點：

遷移成本低（不必改 application code）
風險低（不會引入 query bug）
時程快（不必等 application 改寫）

缺點：

行為可能不完全一致（subtle bug）
性能可能不是最佳（compat 層有 overhead）
vendor lock-in 更深

應用層改寫：

換 query 風格、ORM、access pattern
例：PostgreSQL → DynamoDB（SQL → NoSQL access pattern）

何時必須應用層改寫：

跨 model（RDBMS → KV）
跨 query paradigm（SQL → MongoDB 風格）
想拿 native 性能 / 成本優勢

對應案例：

9.C30 Microsoft 365 — MongoDB API compat、應用層幾乎不改
9.C23 Netflix — 多套 RDBMS → Aurora、PostgreSQL / MySQL 相容、最小應用層改動
9.C20 Zomato — TiDB（SQL）→ DynamoDB（KV）、必須改 access pattern、不能 API compat

容量規劃在遷移中的角色

DB 遷移期間有特殊的容量挑戰、跟一般 capacity planning 不同。

遷移期容量需求：

old DB 持續服務 production
new DB 接 dual-write（額外負載）
backfill historical data（額外負載）
shadow read（讀兩倍）
應用層擴容（dual-write 邏輯吃 CPU）

典型容量增加：

應用層 +20-30%（dual-write、cross-DB logic、metric）
new DB 必須 提前 provision 接 100% 流量
監控 / log 容量 +50%（要追蹤更多事件）

對應 9.6 容量規劃模型：遷移期是「臨時 over-provisioning 期」、要算進 cost。遷移完才能 right-sizing。

對應 9.10 Production-Side 驗證：dual-write 跟 shadow read 是 production validation 的特殊形式、要按 9.10 的安全邊界設計。

案例對照

案例	遷移類型	教學重點
9.C9 Spotify	self-managed → managed	7500 萬用戶事件交付系統遷移、人力成本驅動
9.C20 Zomato	NewSQL → KV NoSQL	對照 over-provisioning 成本、50% 帳單下降
9.C23 Netflix	多套 RDBMS → 統一 Aurora	DB consolidation 釋放 DBA、效能 +75%
9.C30 Microsoft 365	MongoDB → Cosmos DB（API compat）	API 相容遷移路徑、planet-scale 分析

遷移評估的成本曲線

遷移 ROI 評估常見錯誤是 只看當下流量下的成本對照、忽略未來流量曲線。決策時要算 12-24 個月的累積成本、不是 snapshot。

對應 9.C20 Zomato TiDB → DynamoDB — Zomato 帳單系統「成本降 50%」是當下流量下的對照。如果未來流量繼續成長、DynamoDB on-demand 的單位成本可能比 TiDB 自管 cluster 高、達到某規模後 TiDB 反而更便宜。

評估公式：

1未來 N 個月累積成本 = sum(月流量 × 月單位成本)

各 DB 的「月單位成本 vs 流量」曲線形狀不同：

DynamoDB on-demand：線性、按用量計費、單位成本固定
DynamoDB provisioned + reserved：階梯、預訂量越大單價越低
自管 TiDB / PostgreSQL：階梯 + 固定基線、低流量時單位成本高（基線分攤）、高流量時單位成本低
Aurora Serverless：線性、但有最低 ACU 基線
Spanner：節點數 × 單價、增量是 100 pu 一單位

曲線交叉點是選型決策的關鍵：DynamoDB on-demand 跟自管 PostgreSQL 在某個流量水位交叉、流量低於此值前者便宜（無基線成本）、高於此值後者便宜（基線分攤後單價低）。Aurora Serverless 跟 Aurora provisioned 也有類似交叉、波動大的 workload 在 Serverless 划算、穩定的在 provisioned 划算。Spanner 因為節點數階梯式增加、跨節點交叉點通常在 每節點 70-80% 利用率 — 過了就要加節點、新節點利用率掉回 50% 是常態。判讀重點：選型不該只看 當下流量點、要看未來 12-24 月的流量曲線會跨過哪些交叉點、再決定哪種計費模式總成本最低。

遷移 ROI 評估的維度：

維度	應該算進去
Infra 成本	當下 + 預期成長下的累積、不是 snapshot
人力成本	DBA、SRE、on-call 工時、跟 vendor 整合工時
機會成本	遷移期間不能做新功能的時間成本
Lock-in 成本	換 vendor 的退場成本、合約年限
合規 lead time	受監管產業每市場 3-12 月審查、不算進來時程會崩
Migration 本身成本	dual-write infra、shadow read 雙倍負載、人力、風險

機會成本延伸：機會成本是遷移期間 不能做新功能 的時間。大型遷移通常綁住核心 team 6-12 個月、期間業務側看不到產品演進、可能流失市場機會。實務上要算「如果這 6 個月去做新產品、營收 / 競爭優勢值多少」、若超過遷移節省的 infra 成本、遷移不划算。

Lock-in 成本延伸：vendor lock-in 不是「不能換」、是「換的時候要付多少」。包含：(1) 應用層改寫成本（DynamoDB → Spanner 要改 access pattern）、(2) 合約終止 penalty（reserved capacity 提前解約罰款）、(3) 資料導出成本（雲商出口流量費）、(4) 人才再訓練（DBA 從 Aurora 轉 Spanner 需要時間）。選 vendor 時就要評估這四項、即使沒打算換、合約年限到時也要面對。

判讀重點：「遷移後成本降 50%」這種敘述只看 infra 成本、且只看當下。完整評估要看所有六個維度跨 12-24 月、決策才不會出「短期省、長期更貴」或「短期看似賺、合規卡 1 年」的事故。

合規審查 lead time 是時程主要拉力

受監管產業（金融、醫療、電信、政府）的 DB 遷移、合規審查 通常是時程主導因素、不是技術整合。

對應 9.C14 Standard Chartered — 跨 7 個受監管市場遷移到 Aurora、每個市場各自審查（中央銀行 / 金融監管機關 / 個資主管機關）、單一市場審查 3-12 個月、總時程是「市場數 × 平均審查月份」、不是「技術遷移月份」。

合規 lead time 的常見項目：

中央銀行核心系統變更審查（金融業）
個資主管機關的跨境傳輸審批（GDPR / 各國個資法）
醫療資料的隱私審查（HIPAA / 各國醫療法）
雲端服務商的合規認證對應（PCI-DSS、ISO 27001、SOC 2）
跨市場資料駐留限制（中國《數據安全法》、印度資料保護法、歐盟 GDPR）

規劃含義：

技術側 ready ≠ 可上線、合規簽核才是 cutover gate
合規審查通常 serial、不能 parallel（單一審查機關沒法平行處理多 case）
高風險變更（DB 換 vendor、cross-border）審查週期最長
跨市場部署、各市場各自審、不能用某市場結果代替

判讀重點：受監管產業的遷移計畫、預設技術側 50%、合規 50% 工時、不是「技術 90% / 合規 10%」。低估合規 lead time 會讓專案在最後關頭卡關、且無法用工程資源補。

Benchmark 對照基準的解讀

遷移案例的「X% improvement」要追問 跟什麼基準比、否則容易誤導。

對應 9.C14 Standard Chartered — 「10x throughput」是 vs 舊系統、不是 vs 競爭對手。受監管銀行的舊系統通常是 1990s-2000s 的 mainframe 或自建 OLTP、性能本來就低、改善幅度大不代表絕對性能領先。

對應 9.C23 Netflix Aurora consolidation — 「up to 75% improvement」是 跨多個 workload 的最大改善幅度、不是「每個 workload 都 +75%」。實際每個 workload 改善從 10% 到 75% 不等、平均可能 30-40%。

benchmark 解讀的關鍵問題（遷移情境專屬）：

vs 什麼基準：跟舊系統比 vs 跟競爭對手比 vs 跟理論最佳比
哪個 workload：是平均 vs 最快 vs 最慢
規模對照：在多大流量下測的、自家業務規模類似嗎

讀 vendor 案例研究時、這三個遷移專屬維度都要對照、否則「75% 改善」可能變成「在某個 cherry-picked workload、跟舊系統比、規模跟自家不同」、實際搬過去未必有對應收益。

規模對照延伸：vendor 案例研究最容易誤判的維度。讀者要識別三個訊號才能判斷規模是否類似 — (1) 資料量（vendor 揭露的是 GB 還是 PB？自家在哪個量級？）、(2) QPS 分布（vendor 是 sustained 還是 bursty？自家流量形狀是否類似？）、(3) 讀寫比（vendor 案例是 write-heavy 還是 read-heavy？自家業務性質是否吻合？）。三個訊號至少要有兩個跟自家對齊、benchmark 數字才有參考價值。對應 9.C5 Amazon Ads 案例的 18:1 讀寫比、跟一般電商的 5:1 完全不同、不能用同一份 benchmark 推論。

Percentile 跟時間窗口維度 — 是更通用的容量數字判讀問題、詳見 1.1 高併發資料存取的「讀峰值數字的工程細節」段（容量三口徑、p50/p99/p999 解讀）。遷移情境只需在這個基礎上加「vs 基準 / workload / 規模對照」三個遷移專屬問題。

「預設 DB」治理 pattern

大規模平台選 DB 的做法是建立「預設 DB」規則、新團隊用其他要 justify、逐案決定在這個規模行不通。這個治理 pattern 簡化 onboarding、降低 DB 種類太多的運維成本。

對應 9.C24 Genesys — Genesys Cloud 的 Chief Architect 明確說「Amazon DynamoDB is our primary data layer by default, and teams have to justify the use of something else」。對應 9.C23 Netflix — 把多套 RDB 整合到 Aurora、降低 DB 種類就是降低運維 surface area。

預設 DB 治理的工程含義：

新團隊預設用 X、特殊需求才評估其他、減少 DB 評估的認知負擔
DBA / SRE 知識集中、不必養多個 vendor 的專業
監控、backup、compliance 流程統一、運維成本下降
多個服務的 schema migration / capacity planning 可以共用 tooling

選擇預設 DB 的判讀條件：

平台規模夠大（10+ 微服務）、運維 surface area 是真實成本
業務需求大部分可以收斂到單一 DB（OLTP 90%、KV 10% 可以選 OLTP 為預設）
vendor 提供完整能力組合（managed + multi-region + auto-scaling）

預設 DB 對應：

AWS 生態大規模 OLTP → Aurora（Netflix）
AWS 生態大規模 KV → DynamoDB（Genesys、Capcom、Disney+）
Azure 生態 multi-model → Cosmos DB
GCP 生態 OLTP → Spanner / AlloyDB

同一雲廠商兩個預設 DB 怎麼選邊界：AWS 生態同時有 Aurora（OLTP 預設）跟 DynamoDB（KV 預設）、不衝突、但要清楚兩者邊界。預設選 Aurora 的條件是「需要 SQL JOIN / ACID 跨表 transaction / 既有 ORM」、預設選 DynamoDB 的條件是「access pattern 已知且固定 / 預期跨 region 寫入 / surge 場景下 connection-based DB 撐不住」。這條邊界要寫進平台的 onboarding doc、否則新 team 會在「Aurora 還是 DynamoDB」之間反覆 review、抵消預設 DB 治理的價值。

判讀重點：小規模平台（< 5 微服務）不必預設 DB 治理、case-by-case 決定即可。隨著服務數量增加、DB 種類失控成為大規模平台的隱性成本、預設 DB 治理變成規模化階段的工程紀律。

Vendor dogfood 是 selection signal

Vendor dogfood signal 是 vendor 自家 production-critical workload 對該服務的使用程度、反映 vendor 對自家服務的真實信任度。讀 vendor 案例研究時、這個訊號比 sales material 更可信、因為 vendor 自己賭身家。

對應 9.C1 AWS Prime Day — Amazon Prime Day 用自家 DynamoDB + Aurora 撐 1.51 億 RPS + 500B txn。對應 9.C10 Spanner — Google 自家 Ads、Play、Search 都用 Spanner。對應 9.C30 Microsoft 365 — Microsoft 365 usage analytics 用自家 Cosmos DB。

Dogfood 訊號為什麼重要：

vendor 自家賭身家、出問題自己第一個踩
內部 dogfood 通常比外部 customer earlier 用、bug 修得快
vendor sales team 的「能撐 X」如果跟內部 dogfood 不一致、是 marketing
內部用量大、vendor 對該服務的工程投入比 marginal customer 多

Dogfood 訊號的限制：

vendor 內部享有專屬資源配額跟內部成本機制、外部用戶在公開計費下、單位成本邊界不同
vendor 內部享有深度 API 客製化跟特殊 SLA、外部用戶實際可取得的能力是公開版本
vendor 自家業務的 workload pattern 反映 vendor 自己的業務需求、跟你業務的 workload 可能不同

判讀重點：dogfood 是必要訊號、不是充分訊號。看 vendor 自家用代表服務經過嚴格驗證；但「自家業務 vs 你業務」的相似度（資料量、QPS、讀寫比、一致性需求）才是 dogfood signal 是否能套用的判讀條件。

反模式

大規模 DB 遷移的常見錯誤：

沒做 POC 就 commit 遷移：發現新 DB 撐不住某個 query pattern、時程崩
dual-write 沒 monitoring：兩邊不一致沒被發現、cutover 後資料錯亂。divergence 該怎麼分類追蹤、詳見 1.7 Dual-write divergence schema
shadow read 跑太短：1-2 天就 cutover、long-tail bug 沒暴露
沒 rollback path：cutover 後發現問題、回不去
app 跟 DB 一起遷：兩個 risk source 疊加、追根因困難
忽略合規 lead time：技術側 ready 但合規審查還在跑、整個 stuck
忽略 ETL pipeline：production cutover 完、下游 BI / analytics 還在打 old DB

下一步路由

上游：1.6 database migration playbook（基本流程）/ 1.7 Schema Migration Rollout Evidence（schema 演進）
平行：1.10 KV / Document DB 容量規劃 / 1.11 全球分散式 OLTP
跨模組：9.10 Production-Side 驗證（dual-write、shadow）、9.6 容量規劃模型、6.11 Migration Safety、8.19 Incident Decision Log
跨 vendor 實戰深入：Cosmos DB MongoDB API vs SQL API（document → multi-model）、Aurora 從自管 PG / MySQL 遷入、Spanner 從 Cloud SQL PG 遷入、MongoDB 遷入 Atlas

既建知識卡片

Firestore 高頻寫入與 distributed counter：單 document contention 邊界與分片計數

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Firestore overview 的 deep article。寫作參照 Vendor 深度技術文章寫作方法論。寫入限制以官方 best practices 為準、最後檢查日 2026-06-16。

問題情境：一個讚數欄位拖垮整條寫入

直播平台上線一個「即時按讚數」功能：每個貼文一個 document，按讚就 update 它的 likes 欄位 +1。內測沒問題，上了熱門直播——同一個貼文每秒湧入上千次按讚，寫入開始大量失敗、retry，延遲飆高，連帶其他寫入路徑被拖累。

根因是流量全壓在單一 document 上，而非流量總量超過 Firestore。Firestore 對單一 document 的持續寫入有軟上限（官方長期建議維持在每秒個位數量級、以當前文件為準），因為每次寫入要更新該 document 的所有索引、且並行寫同一 document 會觸發 contention 重試。把高頻變動的值塞進一個 document，等於替自己造一個寫入熱點。這篇處理 contention 的成因、用 distributed counter 把熱點打散的實作，以及這個手段的能力邊界。

核心概念：寫入 contention 從哪來

Firestore 的寫入成本不只是「寫一個值」。理解 contention 要抓三點：

每次寫入維護該 document 的所有索引。document 上有幾個被索引的欄位，一次寫入就要更新幾份索引條目。索引越多、單次寫入越重，這是寫入吞吐與索引數量綁定的根因。

並行寫同一 document 會序列化。Firestore 保證單一 document 的寫入一致性，並行的 +1 不能各寫各的——它們競爭同一份狀態，後到的要重試。transaction 與 FieldValue.increment() 都受這個限制：increment 省掉「讀-改-寫」的來回，但多個 increment 打同一 document 仍在同一個寫入熱點上排隊。

熱點是 per-document，不是 per-collection。把 1000 個貼文的讚數分在 1000 個 document，每個 document 每秒個位數寫入，完全沒問題；問題只在「單一 document 每秒上千寫入」。所以解法的方向是把一個邏輯計數拆成多個物理 document。

配置：distributed counter 分片計數

distributed counter 的核心是把「一個計數」拆成 N 個 shard document，寫入時隨機挑一個 shard +1，讀取時把所有 shard 加總。寫入壓力被分散到 N 個 document，每個 shard 的寫入頻率降為原本的 1/N。

資料結構：在計數目標下建一個 shards subcollection，N 個 shard document，每個存一段 partial count。

 1// counter.js（用 Firebase Web SDK v9 modular API）
 2import {
 3  doc, collection, runTransaction, getDocs,
 4  writeBatch, increment,
 5} from 'firebase/firestore';
 6
 7const NUM_SHARDS = 10;
 8
 9// 初始化：建立 N 個 shard、每個 count = 0
10export async function createCounter(db, counterRef) {
11  const batch = writeBatch(db);
12  for (let i = 0; i < NUM_SHARDS; i++) {
13    batch.set(doc(counterRef, 'shards', String(i)), { count: 0 });
14  }
15  await batch.commit();
16}
17
18// 寫入：隨機挑一個 shard +1（用 increment 省掉 read-modify-write）
19export async function incrementCounter(db, counterRef) {
20  const shardId = Math.floor(Math.random() * NUM_SHARDS);
21  const shardRef = doc(counterRef, 'shards', String(shardId));
22  await setDoc(shardRef, { count: increment(1) }, { merge: true });
23}
24
25// 讀取：加總所有 shard
26export async function getCount(db, counterRef) {
27  const snap = await getDocs(collection(counterRef, 'shards'));
28  let total = 0;
29  snap.forEach((s) => { total += s.data().count; });
30  return total;
31}

三個設計點要展開。第一，寫入用 increment(1) 而非 transaction 的讀-改-寫：increment 是 atomic 的 server-side 操作，省掉一次讀取，且本身就避開了「讀到舊值再寫」的 race。第二，shard 選擇用隨機分佈，讓寫入均勻打散到 N 個 shard——這是分片有效的前提，若選 shard 有偏（例如按 user id hash 但 user 分佈不均），熱點會在某幾個 shard 復現。第三，讀取要讀 N 個 document 加總，這是分片的代價：寫入便宜了，讀取從「讀 1 筆」變成「讀 N 筆」，計費與延遲都乘以 N。

如果即時讀取頻率也很高（每個觀眾畫面都要顯示即時讚數），讀 N 個 shard 的成本會反過來變成瓶頸。這時把彙總值定期寫回一個 summary document，client 訂閱 summary 而非每次加總：

1// 由 Cloud Function 定時（或 onWrite 觸發 + debounce）彙總寫回 summary
2export async function aggregateToSummary(db, counterRef) {
3  const total = await getCount(db, counterRef);
4  await setDoc(doc(counterRef, 'summary', 'current'), {
5    count: total,
6    updatedAt: serverTimestamp(),
7  });
8}

這把「即時精確」換成「近即時」：summary 有刷新間隔的延遲，但讀取從 N 筆降回 1 筆。讚數、觀看數這類「差幾個不影響體驗」的計數，這個取捨幾乎總是對的。

故障演練：五個高頻寫入踩坑

Case 1：直接 `increment` 單一 document 沒分片

最常見的起手——以為 FieldValue.increment() 就解決了並行，忽略它仍在單一 document 的寫入熱點上。低流量沒事、熱門事件寫爆。修法：判斷該計數的峰值寫入頻率，超過單 document 軟上限就上 distributed counter；不確定峰值就先分片，分片對低流量無害（只是多讀幾筆）。

Case 2：shard 數量拍腦袋定太小

設了 3 個 shard，峰值流量下每個 shard 仍每秒上百寫入、照樣 contention。修法：shard 數要對齊峰值寫入頻率除以單 shard 安全寫入率（每秒個位數）。預期峰值每秒 500 寫入、單 shard 安全 5/s，就需要約 100 個 shard。寧可估高。

Case 3：shard 太多拖垮讀取

反向錯誤——為了保險設 1000 個 shard，結果每次讀計數要讀 1000 個 document，讀取計費與延遲爆炸。修法：shard 數是寫入分散與讀取成本的取捨；高寫入低讀取用多 shard + 直接加總，高寫入高讀取用多 shard + summary 彙總，別用「讀 N 筆加總」硬扛高頻讀取。

Case 4：選 shard 有偏導致熱點復現

用 userId 的 hash 選 shard、但活躍 user 集中在少數，寫入仍打在某幾個 shard 上。修法：shard 選擇要與寫入來源無關的隨機分佈，不要綁任何可能傾斜的 key。

Case 5：把分片計數當強一致餘額用

把 distributed counter 拿來記帳戶餘額、庫存這類需要強一致與精確讀的值。分片計數的讀取是「加總當下各 shard」，並行寫入下讀到的是近似值，不適合做扣款判斷。修法：強一致的計數（餘額、庫存、配額）不該用分片計數，也通常不該用 Firestore 的單欄位累加——這類值要走 transaction 嚴格控制、或放關聯式資料庫用 row lock，見邊界段。

容量與觀測：shard 數的估算與監控

shard 數量的估算從峰值寫入頻率反推：shard 數 ≈ 峰值每秒寫入 / 單 shard 安全寫入率。單 shard 安全寫入率以官方當前的單 document 持續寫入建議為基準（個位數量級），估算時取保守值。讀取成本同步要算：每次讀計數 = N 次 document read，乘上讀取頻率與日活，這是 distributed counter 的隱性帳。

監控的訊號是寫入失敗率與 contention 重試。寫入大量失敗 + retry 是 contention 的直接徵兆；單一 shard 的寫入頻率若明顯高於其他 shard，是 shard 選擇有偏的徵兆。這些訊號接回 4.20 Observability Evidence Package，把高頻寫入的健康度當成可觀測指標而非事故才發現。

容量規劃還要考慮 shard 數的可調整性：shard 數寫死在 client 程式裡，事後要加 shard 得同時改寫入與讀取邏輯、並補建新 shard document。預期會成長的計數，起步就把 shard 數設在峰值對應的量級，比事後擴容省事。

邊界與整合：什麼計數不該用分片，什麼該離開 Firestore

distributed counter 解的是「高頻、可接受近似、不需強一致」的計數——讚數、觀看數、瀏覽量、即時參與人數。它的邊界很清楚：

需要強一致與精確的計數：帳戶餘額、庫存、配額扣減。這些要嘛用 Firestore transaction 嚴格序列化（但就回到單 document 寫入上限的限制、不適合高頻），要嘛放關聯式資料庫用 row-level lock 與交易保護（見 1.3 transaction 與一致性邊界）
需要任意維度聚合的計數：要算「各地區、各時段的累計」這類多維彙總，分片計數表達不了，該把事件流寫進分析系統或關聯式資料庫做 aggregation
計數本身是核心交易資料：當計數驅動扣款、結算這類有金錢後果的流程，把它留在 client 直連的 Firestore 是控制面風險，該移到後端——這呼應 Firestore → 自建 relational 的成本與授權 driver

判讀順序是先問「這個計數能不能容忍近似與最終一致」。能，distributed counter 是 Firestore 內的正解；不能，這個計數從一開始就不該用 Firestore 的單欄位累加表達。

下一步路由

上層：Firestore overview（容量特性與寫入熱點）
一致性邊界：1.3 transaction 與一致性邊界（強一致計數的去處）
容量背景：1.10 KV / Document DB 容量規劃
觀測：4.20 Observability Evidence Package（寫入失敗率與 contention 監控）
官方：Firestore best practices、Distributed counters solution

1.13 應用層查詢反模式與 Query 預算

Wed, 27 May 2026 00:00:00 +0000

應用程式變慢、第一個直覺常常是「資料庫不夠力」。多數團隊的真實瓶頸在應用程式發給資料庫的查詢方式、資料庫本身反而不是問題：N+1、select *、缺索引、ORM lazy load、長 transaction。本章把這些反模式列成可診斷、可修正的清單、並提出「每請求的 query 預算」作為發布前的判讀基準 — 讓讀者在資料層撞牆之前、先在應用層發現問題。

為什麼查詢反模式比 vendor 細節更重要

多數團隊面對「資料庫變慢」時，會先去看 vendor 的調校（buffer pool、配置升級、replica 加開）。這些調校通常把基礎效能拉高 1-2 倍；一個 N+1 query 反模式可以讓回應時間慢 10-1000 倍（具體倍數取決於 N 跟 RTT — N=100 + RTT=1ms 約慢 100 倍）。先解掉應用層的反模式、再去調 vendor 配置，整體效益遠高於反過來。

這條優先序也對應 9.5 瓶頸定位流程的精神：先定位真正的瓶頸再決定是否加資源。應用層 query 是最常被忽略的瓶頸來源。

N+1 Query：最常見也最隱性的反模式

N+1 query 指「先發一個 query 取回 N 筆資料、再對每一筆各發一個 query 取相關資料」，總共 1 + N 次 round trip。N 越大、整體越慢。

典型範例：列出 100 個訂單跟每筆訂單的客戶資料。錯誤寫法是先 SELECT * FROM orders LIMIT 100 拿到 100 筆訂單、再對每一筆訂單做 SELECT * FROM customers WHERE id = ?，總共 101 次 query。正確寫法是 JOIN 或 IN 一次取回：SELECT o.*, c.* FROM orders o JOIN customers c ON o.customer_id = c.id LIMIT 100，1 次 query 完成。

N+1 在 ORM 環境特別隱性，因為它常被框架的 lazy loading 機制隱藏。Django ORM 的 order.customer 看起來像存取 attribute，背後對應一次 query。寫程式時看不到 SQL，發布後才從 slow log 發現問題。

判讀方式：開啟 ORM 的 query log（debug mode）、看一個 API request 跑出幾個 query。預期是個位數；若 query 數隨著資料集大小線性成長（例如 list 100 筆觸發 100 query、list 1000 筆觸發 1000 query），這條 scaling 訊號就是 N+1 — 比固定閾值更可靠的判讀。

修正方向：

ORM 端用 eager loading（Django select_related / prefetch_related、Rails includes、SQLAlchemy joinedload）
自己寫 SQL 用 JOIN 或 IN 條件批次取
確認 ORM 預設不是 lazy（有些 ORM 的設計鼓勵 lazy，需要明確標示 eager）

Select * 與超量讀取

SELECT * 把表的所有欄位都拉出來，包含可能很大的欄位（content、blob、JSON）跟根本用不到的欄位。代價有三：

網路傳輸成本：query 結果在 DB 跟應用之間傳輸，欄位越多越大。
記憶體成本：應用程式要 deserialize 整個 row，物件越大記憶體佔越多。
隱性耦合：欄位有變動（新增、刪除、改型別）時，所有 SELECT * 的 query 都會被影響。

修正方向是明確列出需要的欄位：SELECT id, name, status FROM orders。如果擔心欄位列表太長，問自己是不是 query 試圖一次處理太多責任。

例外是 ad-hoc query 跟 DB tool 環境，可以接受 SELECT *。production code 不應該有。

缺索引：查詢計畫沒走索引

缺索引的徵兆是 query 在小資料量時很快、資料一多就突然慢。原因是 query 走了 full table scan，資料量小時 scan 還快、資料量上百萬筆就慢。

判讀方式是用 EXPLAIN 看查詢計畫：

type=ALL 或 Seq Scan 代表沒走索引
rows 估計值跟實際表大小接近，代表掃描範圍過大
Using filesort / Using temporary 代表排序或暫存資料的成本

修正方向不是「對每個 WHERE 條件都建索引」，這會讓寫入變慢、索引變大。要建索引的判讀條件：

該 query 是熱路徑（頻率高、影響 user）
該欄位有足夠選擇性（distinct 值多）
該欄位沒有跟其他索引重複覆蓋
寫入路徑能承受多一個索引的維護成本

複合索引的欄位順序也要對齊 query 的 WHERE 條件。WHERE a = ? AND b = ? 適合 (a, b) 複合索引，不適合 (b, a)。這部分屬於 1.2 schema design 與資料建模的範圍、本章只標出徵兆跟診斷起點。

ORM Lazy Load 陷阱

ORM 的 lazy load 預設行為是「存取 attribute 時才發 query」，這在開發時讓 code 很乾淨，但隱藏了 query 的數量。

常見陷阱：

跨 transaction 邊界存取 lazy attribute：query 在原 transaction 已關閉後才發，連線狀態錯誤。
在 template / serializer 裡存取 lazy attribute：一個 page render 觸發數十個額外 query。
lazy load 跨服務邊界：DTO 傳遞時不知道哪些 attribute 是 lazy、哪些是 eager，前端拿到 DTO 後 trigger 額外 query。

修正方向：

明確標示 eager loading 邊界，serializer 之前完成所有需要的資料載入
ORM 配置改成 default eager 或 strict mode（query 太多會 warning）
DTO 出 service 邊界前做 fully materialized

Long-Running Transaction

長時間佔住的 transaction 會擋住其他 query、產生 lock 等待、消耗連線池資源。

常見成因：

在 transaction 內做 HTTP call 或外部 API 呼叫
在 transaction 內做檔案 I/O 或長計算
用 transaction 包住整個 request handler（從 request 開始到 response 結束都在 transaction）
ORM 設定 default transaction-per-request 但業務只需要短交易

修正方向是把 transaction 範圍縮到最小：只包住「需要原子性」的那幾個 SQL 操作。外部呼叫、計算、檔案 I/O 都要在 transaction 之外。詳見 1.3 transaction 與一致性邊界。

其他常見反模式

上面五個是讀路徑高頻反模式。實務上其他幾類在 slow log 出現頻率不低、要一併列入發布前檢查：

Cardinality explosion / cross join 誤用：兩個多對多關聯 join 沒加 filter、結果集從 N 行炸成 N×M 行。判讀訊號：query 結果行數遠超業務直覺、EXPLAIN 估計 rows 異常大。修正方向：補 filter、改 EXISTS / IN 半連接、或拆兩段 query。
OFFSET-based pagination on large tables：LIMIT 20 OFFSET 100000 在大表退化成「掃描 100020 行 + skip 100000 行」。修正方向：用 keyset / cursor pagination（WHERE id > last_seen_id LIMIT 20）— 一致 O(LIMIT) 而非 O(OFFSET + LIMIT)。
隱式型別轉換讓 index 失效：WHERE varchar_col = 123 把 column 轉成 int 比較、index 失效退到 full scan。判讀訊號：EXPLAIN 顯示 index 沒命中但 schema 上有 index。修正方向：明示型別（WHERE varchar_col = '123'）。
應用層做大結果集排序 / 聚合：把 100 萬行拉回應用、在記憶體 sort 或 group。應該 push 給 DB 做 ORDER BY / GROUP BY + LIMIT。判讀訊號：應用程式記憶體用量隨 endpoint 流量線性升高。
N+1 write：在 loop 內單筆 insert / update 而非 bulk insert。每筆觸發一次 round trip + 可能的 fsync。修正方向：用 INSERT ... VALUES (), (), () 或 executemany / bulk_create。

NoSQL / KV DB 也有 sibling 反模式（hot partition、read amplification、scan-and-filter），不在本章 SQL 範疇但邏輯類似 — 詳見 1.10 KV / Document DB 容量規劃。

每請求的 Query 預算

把上面這些反模式收斂成一個發布前可檢查的判準：每個 API request 允許發多少個 query。

API 類型	建議 query 預算	判讀說明
簡單 read（取單筆）	1–3 個	主資源 1 個 + 相關資源 join 或 1–2 個額外
List read（取列表）	1–5 個	主列表 1 個 + filter / pagination / 關聯 batch query
Write（單筆操作）	2–5 個	check 1 個 + write 1 個 + 觸發後續 query
Complex（多步驟業務）	5–15 個	視業務複雜度，但每多 1 個都要能講出為什麼

超過預算不一定錯，但需要解釋。CI / staging 可以加 middleware 統計每個 endpoint 的 query 數，超過閾值在 PR review 時觸發討論。這比事後從 slow log 找問題更有效。

這張表以 OLTP API 為主。Dashboard / report / search endpoint 常需要 10-30 query 解 join / aggregation、用「Complex」涵蓋不夠精確；batch / bulk write（一次寫入 1000 筆訂單）不該用 query count 評估、應該看 batch size 跟 transaction 範圍。預算是判讀工具、不是硬閾值。

判讀訊號

訊號	判讀重點	對應動作
API 在資料量增加後突然變慢	缺索引或查詢計畫退化	跑 EXPLAIN、檢查 query plan
同一個 API 跑出 dozens 個 query	N+1 反模式	加 eager loading 或改寫成 JOIN
應用程式記憶體用量隨流量線性升高	`SELECT *` 載入過多資料	改成明確欄位、加 pagination
DB connection 等待時間升高	long transaction 或 connection pool 不足	縮 transaction 範圍、評估 connection pool 上限
Lock wait timeout 變多	long transaction 或 hot row 競爭	拆 transaction、檢查 hot row 設計
Slow query log 集中在某類 SQL	該 query 走了 full scan 或 join 順序錯誤	EXPLAIN + 加索引或改寫 query
ORM debug log 顯示 hundreds query	lazy load 失控	換 eager loading 策略、檢視 serializer 邊界

常見誤區

把「資料庫變慢」直接解讀成「該升級資料庫」。先看應用層 query。多數效能問題是反模式造成的、而不是 DB 規格不夠。

把索引當「想加就加」。每個索引都有寫入成本跟空間成本。索引太多會讓 INSERT/UPDATE 變慢、backup 變大。要建索引前先驗證該 query 是熱路徑。

把 N+1 當「在 ORM 環境無解」。多數 ORM 都有 eager loading 選項，只是預設 lazy。問題是團隊沒把這當作預設策略。設定 ORM 為 default eager 或在 CI 加 query 數量檢查就能避免。

把 transaction 範圍當「越大越安全」。長 transaction 是 lock 風險來源，不是一致性保證。一致性靠正確的 isolation level 跟業務邏輯，不是靠長 transaction 鎖住整個流程。

定位邊界

本章專注「應用層發給資料庫的 query 反模式」。當問題進入 schema 設計（要不要拆表？要不要 partition？）交給 1.2 schema design；進入 transaction 語意（什麼時候用 SERIALIZABLE？怎麼 retry？）交給 1.3 transaction boundary；進入跨服務的查詢責任拆分（哪些查詢屬於該服務？）交給 1.8 state ownership 與 query boundary；進入瓶頸定位的工程流程交給 9.5 瓶頸定位流程。

案例回寫

09 案例庫的主軸是規模、vendor 與容量壓力，直接以「query 反模式」為主題的案例較少。下列案例可以反向讀：每一個都展示了「在沒有先用 query 反模式優化收回壓力的前提下、團隊直接走 vendor 遷移或 scale-out 路徑」的決策。讀者讀完應追問：這些 case 啟動遷移前、是否有可能用本章的反模式清單先收回一部分容量？

9.C39 DoorDash：Aurora Postgres 寫入瓶頸 → CockroachDB — DoorDash 撞到 Aurora single-primary write 天花板（瓶頸在 primary CPU + WAL flush rate）、用 PostgreSQL wire protocol 相容的 CockroachDB 換成多主寫入、ORM 不必重寫。對照本章可問：寫入熱點是否伴隨長 transaction 或熱 row 競爭？這些是 vendor 遷移前可以先用本章「Long-Running Transaction」清單檢查的點。
9.C20 Zomato：TiDB 遷到 DynamoDB — Zomato 判斷 billing 事件本身可接受 eventually consistent、用一致性語意換取 4 倍吞吐 + 50% 成本。對照本章可問：遷移前每筆業務動作平均發了多少 query、是否有 N+1 或 select * 在放大壓力？把這條問題擺進「每請求 Query 預算」段一起讀。
9.C14 Standard Chartered：Aurora 4000 TPS 合規容量 — Standard Chartered 在 7 個受監管市場各跑獨立 Aurora cluster（資料不能跨境）、容量規劃單位是「per 市場」、合規邊界決定了 cluster 拓樸。對照本章可問：query 預算假設是否進入容量模型？預算寫鬆、規劃出的 per-cluster TPS 上限會偏低。

DoorDash 案例是這條反向追問最直接的應用 — 寫入瓶頸的判讀不該停在 vendor 規格、而是先檢查 transaction 範圍跟熱 row 競爭。Zomato 跟 Standard Chartered 的反向追問則退一步問「query 預算假設是否進入容量模型」。三條追問共享同一條診斷邏輯：應用層 query 不是事後解釋的細節、是事前可以收回的容量。這個讀法承認案例本身不直接示範 query 反模式、是用反向追問把案例當成 query 反模式重要性的反證。

跨模組路由

與 1.1 高併發下的 SQL 讀寫邊界的交接：1.1 處理連線池與 read replica 機制、1.13 處理 query 寫法本身。高併發場景下兩者要同步檢查。
與 1.2 schema design 的交接：索引設計是 schema 層的事、本章只指出徵兆。
與 04 observability 的交接：slow query log、APM、query trace 是判讀反模式的主要訊號來源。
與 9.5 瓶頸定位流程的交接：先在應用層查反模式，再考慮 DB 配置升級。
與 9.13 擴展軸的交接：規模成長路線上、9.13 解擴展軸選擇後、1.13 是緊接著的下一站 — 在加機器或加 replica 前、先用本章反模式清單收回單機能撐住的容量。
與 10.1 服務拆分的交接：拆服務常被用來「解決 DB 慢」，但本章的反模式優化通常比拆服務 ROI 更高、應該優先嘗試。

下一步路由

規模成長路線下一站 → 1.1 高併發下的 SQL 讀寫邊界：query 反模式收完後、處理連線池與 read replica 的擴展。

其他延伸方向：

Schema 與索引設計 → 1.2 schema design 與資料建模
Transaction 範圍收斂 → 1.3 transaction 與一致性邊界
瓶頸定位完整流程 → 9.5 瓶頸定位流程

MySQL Online Schema Change：gh-ost 跟 pt-online-schema-change 兩條完全不同的 ghost table 路徑

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 online schema change — gh-ost 跟 pt-online-schema-change 兩條工具路徑的機制對比。

機制	pt-online-schema-change（Percona）	gh-ost（GitHub）
同步機制	MySQL trigger（原表 INSERT/UPDATE/DELETE 觸發寫 ghost）	Binlog stream（讀 primary binlog 寫 ghost）
Primary 寫入 overhead	trigger 觸發成本（同 transaction 內）	0（binlog 已存在）
Replica lag 影響	trigger 在 primary 跑、replica 自然 lag	從 replica 讀 binlog、可主動 throttle
Foreign key	部分支援（drop/recreate strategy）	不支援（必須先 drop FK）
Roll back（過程中）	困難（trigger 已建、要清乾淨）	容易（drop ghost table 即可）
暫停 / resume	不支援	支援（gh-ost interactive command）
切換時 lock 持續	rename 期間 metadata lock（毫秒級）	rename 期間 metadata lock（毫秒級）
工具 binary	Perl 腳本（Percona Toolkit）	Go binary（單一可執行檔）
推出年份	2011	2016

兩工具最終結果一樣（ghost table 取代原表）、但 過程中對 production 的影響非常不同。選哪個取決於：trigger overhead 可不可接受、是否有 foreign key、是否需要 resume/throttle 能力、團隊熟悉哪條工具鏈。

為什麼 ALTER TABLE 需要 online path

MySQL 8.0 之前的 ALTER TABLE 多數情況下 rebuild 整張表 — 過程中 primary key 之外的 read/write 都 block。100 GB 表 ALTER 跑 hours、production write 全部失敗。

MySQL 8.0 加 Instant DDL（部分 ALTER 不 rebuild、只改 metadata、毫秒級完成）、但 能用 instant 的 ALTER 是 subset：

支援：ADD COLUMN（末尾）、DROP COLUMN（部分情境）、RENAME COLUMN
不支援：ADD INDEX、CHANGE COLUMN type、ADD/DROP PRIMARY KEY、ADD FOREIGN KEY

不支援 instant 的場景仍要走 ghost table。Percona 跟 GitHub 各自從 production 痛點出發、產出 pt-osc（2011）跟 gh-ost（2016）。

pt-online-schema-change：用 trigger 同步寫入

pt-osc 流程：

CREATE ghost table（跟原表同 schema + 你要的 ALTER）
在原表上 建 3 個 trigger：INSERT / UPDATE / DELETE
任何寫入原表的 transaction 同時觸發 trigger 寫對應 ghost
背景 chunk-by-chunk copy 既有 row 到 ghost
全部 copy 完後 RENAME TABLE：原表 → archive、ghost → 原表名（atomic、metadata lock 毫秒級）
Drop trigger、drop archive

Trade-off：

寫入 overhead：每個 primary 寫入 transaction 都多一次 trigger 執行、寫吞吐降 10-30%
Replica lag：trigger 跟原寫入同 transaction、replica 上每個 row 也跑 trigger、replica lag 可能暴增（缺少主動 throttle）
Roll back 困難：tool 跑到一半失敗、trigger 已建、要手動清掉才能 retry
FK 處理：原表有 FK 指向時、ghost table 要先 drop FK 再 recreate、操作複雜

適用：

寫吞吐 < 50% capacity（有 buffer 撐 trigger overhead）
無 FK 或 FK 簡單
沒有 replica lag 敏感的 read（trigger 在 replica 也跑）

不適用：

高寫吞吐（> 80% capacity）— trigger overhead 直接 saturate
大量 FK 結構
需要 throttle / pause / resume

gh-ost：用 binlog stream 同步寫入

gh-ost 流程：

CREATE ghost table
從 replica 讀 binlog（不在 primary 加 trigger）
同步 primary 上的寫入 透過 binlog event 寫到 ghost
背景 chunk-by-chunk copy 既有 row 到 ghost
全部 copy 完後 swap：RENAME TABLE
Drop archive

Trade-off：

寫入 overhead：0（binlog 已經寫了、gh-ost 只是 consumer）
Replica lag 影響：gh-ost 可監測 replica lag、超過 threshold 自動 throttle copy（不影響 primary 寫入）
Roll back 容易：取消時直接 drop ghost table、原表完全沒被改動
FK 不支援：gh-ost 設計上不處理 FK、有 FK 必須先 drop / restructure

適用：

高寫吞吐 production（trigger overhead 不可接受）
需要 throttle / pause / resume（gh-ost interactive command 可動態調 chunk size、cut-over 時點）
已用 GitHub-flavored MySQL operations workflow

不適用：

有複雜 FK 結構、不想動 schema
Replica 跑不了 binlog（極少數場景）

配置 step-by-step（gh-ost）

實務 production 多用 gh-ost（GitHub / Slack / Booking.com 等）。pt-osc 用於有 FK 或舊系統。

gh-ost 一個 ALTER 命令

 1gh-ost \
 2  --host=replica.example.com \           # 從 replica 讀 binlog
 3  --user=ghost \
 4  --password=... \
 5  --database=production \
 6  --table=orders \
 7  --alter='ADD COLUMN status VARCHAR(20) DEFAULT NULL, ADD INDEX idx_status (status)' \
 8  --allow-on-master=false \              # 不直接連 primary 讀 binlog
 9  --chunk-size=1000 \                    # 每批 copy 1000 row
10  --max-load='Threads_running=50' \      # primary load 限制
11  --critical-load='Threads_running=200' \ # 超過直接 abort
12  --max-lag-millis=1500 \                # replica lag 限制
13  --throttle-additional-flag-file=/tmp/throttle \  # touch 此檔 throttle
14  --postpone-cut-over-flag-file=/tmp/postpone \    # touch 此檔延後 cut-over
15  --execute                              # 真的執行（沒這個只 dry-run）

Interactive command（gh-ost 跑起來後）

1# 連 gh-ost socket（同 directory）
2echo "status" | nc -U /tmp/gh-ost.production.orders.sock
3# 動態調 chunk size
4echo "chunk-size=500" | nc -U /tmp/gh-ost.production.orders.sock
5# 立即觸發 cut-over（不再等）
6echo "unpostpone" | nc -U /tmp/gh-ost.production.orders.sock
7# Abort 並 drop ghost
8echo "panic" | nc -U /tmp/gh-ost.production.orders.sock

配置 step-by-step（pt-osc）

對比 gh-ost 的 binlog reader、pt-osc 命令更短但配置義務同樣多：

 1pt-online-schema-change \
 2  --host=primary.example.com \
 3  --user=ghost \
 4  --password=... \
 5  --alter='ADD COLUMN status VARCHAR(20) DEFAULT NULL, ADD INDEX idx_status (status)' \
 6  D=production,t=orders \
 7  --chunk-size=1000 \
 8  --max-load='Threads_running=50' \
 9  --critical-load='Threads_running=200' \
10  --max-lag=1.5 \
11  --check-replication-filters \           # 防 binlog filter 漏 trigger
12  --alter-foreign-keys-method=auto \      # auto / rebuild_constraints / drop_swap / none
13  --execute

--alter-foreign-keys-method 是 pt-osc 對 FK 處理的策略選項、四種選擇對 production 影響非常不同（rebuild 重建 FK / drop_swap 用更快但少了 atomic、none 是不處理）。

5 個 Production 踩雷

1. pt-osc trigger overhead 不可預期

--max-load='Threads_running=50' 看起來保護了 server、但 trigger 在 transaction 內、production 的 每個寫入 都加 trigger 開銷。Threads_running 是當下數字、看不到 trigger 累積 latency。常見場景：高峰時段下 pt-osc、預期 30% overhead、實際 60%、p99 飆 5x。

修法：

高峰時段不跑 pt-osc、排 off-peak window
用 staging environment 跑 production-like load 預估 trigger overhead
對寫吞吐 > 50% capacity 的 server 改用 gh-ost

2. gh-ost binlog lag 跟 primary 寫入率追不上

gh-ost 從 replica 讀 binlog、binlog event 進來速度有上限。如果 primary 寫入率超過 gh-ost binlog consume 速度（每秒幾千 transaction 對某些 server 已是 ceiling）、gh-ost 永遠追不上、cut-over 會長時間卡住。

修法：

gh-ost 預設用 replica binlog、改用 --allow-on-master 直接從 primary 讀（如果 primary 容量夠）
提高 --chunk-size 加快 copy（同時用 --max-load 防過載）
真的追不上、考慮 暫停部分寫入流量（throttle traffic，而非 throttle tool）

3. Foreign key constraint — 兩工具都尷尬

原表有 FK 指向（其他 table FK references 這張表）、ghost table 切換時 新 ghost 沒有那些 FK 指向。Cut-over 一瞬間、FK 從指向「原表」變成指向「archive 表」、外部 constraint 失效。

修法（pt-osc）：

用 --alter-foreign-keys-method=rebuild_constraints：先 ALTER 外部 table FK 指向 ghost、再 cut-over
或 drop_swap：cut-over 前 drop FK、cut-over 後 recreate（更快但 cut-over 期間 FK 失效）

修法（gh-ost）：

gh-ost 不支援 — 手動 drop FK / 重 setup FK
或維護 schema 改 FK 結構（FK 改在 application 層 enforce）

4. pt-osc trigger 跟 application 既有 trigger 衝突

原表上已經有 application 自建 trigger、pt-osc 在原表 再加 3 個 trigger、新舊 trigger 執行順序 MySQL 不保證（多 trigger 同事件按 未定義順序）。Application 行為可能 subtly broken。

修法：

跑 pt-osc 前 audit 原表 trigger（SHOW TRIGGERS FROM production LIKE 'orders'）
如果有 application trigger、考慮 暫時 disable 再 ALTER 或改 gh-ost
gh-ost 不在原表加 trigger、不會碰到這個問題

5. Cut-over 瞬間 deadlock — 兩工具都有但表現不同

Cut-over 用 RENAME TABLE original TO archive, ghost TO original（atomic operation）。但 cut-over 瞬間需要 metadata lock、跟 進行中的 long-running transaction 衝突會 wait。Long-running transaction 持續、cut-over 永遠 wait、最後 timeout 失敗。

修法（gh-ost）：

--cut-over-lock-timeout-seconds=3、超時 abort、稍後 retry
--postpone-cut-over-flag-file：先把 copy 跑完、等流量空檔再觸發 cut-over

修法（pt-osc）：

--set-vars="lock_wait_timeout=60"、cut-over 等更久（風險：long transaction 撐住更久 server 更多 lock wait）
或排在 long transaction 已知不會跑的時段（nightly backup 後）

容量 / 時間估算

對 100 GB 表、ALTER 加 column + 加 index 為例：

維度	pt-osc	gh-ost
估算總時間	6-12 小時（依 chunk size + load）	5-10 小時（同上、可動態調整）
寫吞吐影響	-10% ~ -30%（trigger overhead）	< 5%（binlog 已存在）
Replica lag	1-10 秒（trigger 在 replica 跑）	自動 throttle 在 threshold 內
Disk 額外需求	~原表大小 + index（ghost 用）	同左
Rollback 成本	中（清 trigger）	低（drop ghost）

兩工具總時間接近、影響 production 的差異大。

跟其他模組整合

跟 GTID / Replication topology

兩工具都 依賴 replication — pt-osc 透過 trigger 確保 replica 同步、gh-ost 直接從 replica 讀 binlog。Pre-requisite：

Binlog ROW format（兩工具都要）
GTID 啟用（gh-ost 更需要、binlog re-pointing 容易）
詳見 Replication Topology

跟 Vitess

Vitess 有自己的 VReplication-based online DDL、不用 gh-ost 或 pt-osc。Vitess online DDL 在 shard 內部用類似 gh-ost 的 binlog stream 機制、但有 Vitess-aware schema management。詳見 Vitess sharding 設計 篇（待寫）。

跟 Aurora MySQL

Aurora MySQL 仍支援 gh-ost / pt-osc、但 Aurora 自己的 fast DDL（部分 ALTER）比 8.0 Instant DDL 更廣。先檢查 Aurora 文件、能用 native fast DDL 就不用 ghost table tool。詳見 Aurora vendor page。

跟 PlanetScale

PlanetScale（managed Vitess）走 branch-based schema migration — 建 schema branch、跑 schema change、deploy 時 atomic merge。schema change 由 PlanetScale 內建流程承擔。詳見 PlanetScale migration playbook。

Production case：gh-ost operation workflow

Online schema change 的 production 責任是把大表 DDL 拆成可暫停、可節流、可切換的資料搬移流程。gh-ost 作為 GitHub 開源工具，把 schema change 轉成 ghost table copy、binlog tailing 與 controlled cutover；這讓 operator 可以在 replica lag、application load 或部署窗口變化時調整速度。

這個案例要回收到三個操作判準。第一，throttle 指標要接 production SLO，例如 replica lag、thread running、application latency 或錯誤率，而非只看 copy rows/sec。第二，pause / resume 是變更治理能力，代表 schema change 可以配合 incident response、deploy freeze 與商業尖峰窗口。第三，cutover 要設 rollback window 與 owner，因為 rename table 的瞬間仍是高風險控制點。

gh-ost workflow 的 sibling 路由是 PostgreSQL Online Schema Change。PostgreSQL 常靠 fast ALTER、MVCC 與 extension 工具解決同類需求；MySQL 的 ghost table tool 更常成為標準路徑，主因是大表 DDL、metadata lock 與 replication event 的組合壓力不同。

何時用哪一個

情境	選擇	原因
標準 production write < 50% capacity	gh-ost（預設）	寫入 overhead 0、控制更細
高寫吞吐 (> 80% capacity)	gh-ost（必須）	pt-osc trigger overhead 直接 OOM
有 FK constraint 需要保留	pt-osc	gh-ost 不處理 FK
有 application-side trigger 在原表	gh-ost	pt-osc trigger 跟既有 trigger 不可預期
需要 pause / resume 能力	gh-ost	pt-osc 不支援
已用 Percona Toolkit 整套（pt-table-checksum / pt-archiver）	pt-osc	工具鏈一致
已用 Vitess	Vitess online DDL	維持 Vitess schema workflow
已用 PlanetScale	branch-based	維持 PlanetScale schema workflow
已用 Aurora MySQL + native fast DDL OK	不用 ghost table	直接 ALTER

PostgreSQL Online Schema Change：先用 ALTER 內建特性、不能解才 pg_repack / pg-osc

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 online schema change — 先看 PG ALTER 哪些已 fast catalog-only、再看 pg_repack / pg-osc 何時必要。

跟 MySQL 不同：PG 大量 schema change 內建 fast catalog-only 行為、不必走 ghost table tool。MySQL 對應的 gh-ost / pt-online-schema-change 之於 PG 是 少數場景才需要的 escape hatch、不是 standard practice。

寫作 OSC 時必須 先看 PG 自身 ALTER 行為、確認真的需要再上 pg_repack / pg-osc — 否則徒增複雜度。

PG ALTER TABLE 的 fast / slow 分類

1-- ALTER TABLE 的操作大致三類

類 A：Fast catalog-only（< 1 秒、metadata 改）

PG 9.4+ / 11+ 多數 ALTER 已 catalog-only：

ADD COLUMN col TYPE NULL DEFAULT NULL — 直接 metadata、不 rewrite
ADD COLUMN col TYPE NOT NULL DEFAULT （PG 11+）— optimizer 把 default 存在 metadata、舊 row read 時動態返回 default、不 rewrite
DROP COLUMN — metadata 標 dropped、實際 row 不 rewrite（VACUUM 之後逐步清理）
ALTER COLUMN ... SET DEFAULT — metadata
RENAME COLUMN / RENAME TABLE — metadata
ADD CONSTRAINT ... NOT VALID — 標記 constraint 不 validate、之後 VALIDATE CONSTRAINT 才 scan
ALTER COLUMN ... TYPE 同 binary-compat 類型（VARCHAR(10) → VARCHAR(20)、TEXT → VARCHAR 等）— catalog-only

這類 ALTER 直接跑、不必任何工具。

類 B：Lock heavy（rewrites table、production 慎用）

需要 rewrite 整張 table、ACCESS EXCLUSIVE lock 整個 ALTER 期間：

ALTER COLUMN ... TYPE binary 不相容類型（INT → BIGINT 永遠 rewrite、TEXT → INT 也是）— 雖然語意「擴大」、底層 4-byte 跟 8-byte storage 不同、全表 rewrite + ACCESS EXCLUSIVE 不可省
ALTER COLUMN ... SET NOT NULL 對既有 nullable column（要 scan 整 table）
ALTER COLUMN ... DROP IDENTITY
ALTER TABLE ... SET TABLESPACE

這類 ALTER 對大表 production 不能直接跑、要 ghost table tool。

類 C：Concurrent index / online operation（無 table lock）

CREATE INDEX CONCURRENTLY — 不 lock 寫入、background build、慢但安全
REINDEX INDEX CONCURRENTLY（PG 12+） — 同上
DROP INDEX CONCURRENTLY — 短 ACCESS EXCLUSIVE lock 只在最後 swap

何時需要 ghost table tool

只在以下場景才需要 pg_repack / pg-osc：

Rewrite-required type change（類 B ALTER COLUMN TYPE）對大表
VACUUM FULL 替代：pg_repack 比 VACUUM FULL 安全（不 lock 整表）
Bloat 重組：大表 dead tuple 累積、想完整 rewrite

對「add column」「drop column」「create index」等場景 PG 內建 fast 已夠、不必 ghost table tool。

Tool 1：pg_repack — Trigger-based + 雙 table swap

pg_repack 是 PG community 標準 online table rewrite 工具：

1pg_repack -h primary.example.com -p 5432 -d production -U postgres \
2  --table=orders --no-superuser-check

Mechanism：

CREATE repack.table_ 跟原表同 schema
在原表加 3 個 trigger：INSERT / UPDATE / DELETE → 寫入 log table repack.log_
從原表 INSERT INTO repack.table_ SELECT * FROM original 複製 row
邊複製邊 apply log table 紀錄的變更
切換：rename 原表 → original_old、rename repack.table_ → original（atomic）
Drop 舊原表跟 trigger / log

Trade-off：

Trigger overhead：每個 primary 寫入加 trigger 執行（10-30% 寫吞吐降）
FK 處理：需要 drop & re-create FK referencing original table（pg_repack 自動處理但有 lock window）
適用 PG-version 綁定 — pg_repack 13 不能對 PG 14 cluster 跑

配置：

1-- Primary 安裝
2CREATE EXTENSION pg_repack;

1# Repack orders
2pg_repack -d production --table=orders
3# 監控 lock：另一 session 跑 SELECT * FROM pg_stat_activity

Tool 2：pg-osc / pg-online-schema-change — WAL-shipping style

pg-osc（Shayon Mukherjee、2023）是較新的工具、模仿 gh-ost mechanism：

Mechanism：

用 logical replication slot 從 primary WAL stream 變更
CREATE shadow table + 套 ALTER 變更
Stream WAL event 同步 shadow table（不靠 trigger）
完成後 swap

Trade-off：

Primary 寫入 overhead：0（WAL 已存在）
比 pg_repack 較新（社群驗證度低）
適合 trigger overhead 不可接受 的高吞吐 production

配置：

1# 用 gem install
2gem install pg_online_schema_change
3
4# Run
5pg-online-schema-change perform \
6  --alter-statement="ALTER TABLE orders ADD COLUMN status VARCHAR(20)" \
7  --schema=public \
8  --dbname=production \
9  --host=primary.example.com

配置 step-by-step（pg_repack 為主）

實務多數 PG OSC 用 pg_repack。pg-osc 是 high-write-throughput escape hatch。

Step 1：安裝 + 確認版本

1-- 安裝 pg_repack（versioned）
2CREATE EXTENSION pg_repack;
3SELECT * FROM pg_available_extensions WHERE name = 'pg_repack';
4-- 確認 installed_version 跟 PG major version 對齊

Step 2：跑 pg_repack

1pg_repack -h primary -d production -U postgres \
2  --table=orders \
3  --jobs=4 \                       # 並行 worker
4  --wait-timeout=60 \              # 等 lock 超時（秒）
5  --no-kill-backend                # 不主動 kill 卡 lock 的 query

Step 3：監控

1-- 看 pg_repack 進度
2SELECT pid, query, state, wait_event_type, wait_event
3FROM pg_stat_activity
4WHERE query LIKE '%repack%';
5
6-- 看 lock 狀態
7SELECT * FROM pg_locks WHERE relation IN (
8  SELECT oid FROM pg_class WHERE relname IN ('orders', 'repack.table_xxx')
9);

Step 4：驗證

1-- 跑完後對比 row count + 抽樣 query
2SELECT count(*) FROM orders;
3-- 跟 pg_repack 之前 count 對比

5 個 Production 踩雷

1. ALTER 直接跑沒看是不是 fast 變 lock heavy

ALTER TABLE orders ADD COLUMN status VARCHAR(20) NOT NULL DEFAULT 'pending' — 預期 catalog-only（PG 11+）、但若 PG 10 跑這個就會 rewrite 整表、ACCESS EXCLUSIVE lock 幾小時。

修法：

寫 schema migration 前 確認 PG version
看 PG ALTER doc、each subcommand 標 Note 段是否 fast
Production 跑前 staging 測 + 監控 pg_stat_activity lock wait

2. VACUUM FULL 誤用 — Production downtime

VACUUM FULL 等於「rewrite 整表 + ACCESS EXCLUSIVE lock」。Production 跑 = 表變 unavailable 幾分鐘到幾小時。

修法：

永遠用 pg_repack 取代 VACUUM FULL（除非 maintenance window）
對 bloat 議題、定期跑 pg_repack
autovacuum tuning 第一優先（autovacuum-tuning 詳細）

3. pg_repack version mismatch

PG cluster 升 14、但 pg_repack extension 還是 13 版本。試 ALTER 跑 pg_repack 命令、ERROR: program "pg_repack 14.x" does not match installed extension "pg_repack 13.x"。

修法：

升 PG cluster 後 立即 ALTER EXTENSION pg_repack UPDATE
若 pg_repack 還沒釋出對應 PG 版本（早期升級）、暫時用 pg-osc 替代或等待
升級 runbook 紀錄 pg_repack 是 必同步升級的 extension

4. CREATE INDEX CONCURRENTLY 失敗清理

CREATE INDEX CONCURRENTLY 跑到一半被 cancel（用戶 Ctrl-C / connection drop）、產生 invalid index：

1SELECT indexrelid::regclass FROM pg_index WHERE NOT indisvalid;
2-- 顯示一個 idx_orders_status_invalid

Invalid index 仍佔 disk、但 optimizer 不會用。

修法：

跑 DROP INDEX CONCURRENTLY idx_orders_status_invalid
之後重新 CREATE INDEX CONCURRENTLY
避免在 connection 不穩的 session 跑長時間 CREATE INDEX CONCURRENTLY、改用 cron 或 deploy pipeline

5. Generated stored column 不能 online ADD

ADD COLUMN total NUMERIC GENERATED ALWAYS AS (price * qty) STORED — stored generated column 必須 rewrite 整表計算 column value、不是 catalog-only。

修法：

用 GENERATED ALWAYS AS (...) VIRTUAL（PG 18+）— 不存實際 value、catalog-only

或 先加 nullable column + backfill + 加 NOT NULL constraint：

1ALTER TABLE orders ADD COLUMN total NUMERIC;
2UPDATE orders SET total = price * qty WHERE id BETWEEN ...;  -- chunked
3ALTER TABLE orders ALTER COLUMN total SET NOT NULL;
4-- 之後加 trigger 或 application 層維護 total

或用 pg_repack 跑 rewrite ADD GENERATED STORED

容量 / 時間估算

對 100 GB 表、ADD COLUMN 加 index 為例：

操作	時間	Lock 影響
`ADD COLUMN col TYPE NULL` (PG 11+)	< 1 秒	ACCESS EXCLUSIVE（毫秒級）
`ADD COLUMN col TYPE NOT NULL DEFAULT 0` (PG 11+)	< 1 秒	ACCESS EXCLUSIVE（毫秒級）
`CREATE INDEX CONCURRENTLY`	2-6 小時	無 table lock
`pg_repack table`	4-8 小時	短 ACCESS EXCLUSIVE（swap）
`ALTER COLUMN TYPE` rewrite	4-8 小時	ACCESS EXCLUSIVE 全程
`VACUUM FULL`	同 pg_repack	ACCESS EXCLUSIVE 全程（不要跑）

跟 MySQL gh-ost / pt-osc 對照

維度	PG pg_repack	PG pg-osc	MySQL gh-ost	MySQL pt-osc
機制	Trigger + log table	WAL logical stream	Binlog stream	Trigger + log table
Primary 寫 overhead	中（trigger）	0（WAL 已存在）	0（binlog 已存在）	中（trigger）
Throttle 支援	部分	支援	強	部分
Pause / Resume	不支援	不支援	支援	不支援
工具成熟度	高	中（2023+）	高	高
Use case 比例	PG 主流（90% case）	高吞吐 escape hatch	MySQL 主流（dev）	MySQL legacy + FK

PG OSC tool 使用頻率比 MySQL 低 — 因為 PG 內建 fast ALTER 已 cover 90% schema change、ghost table tool 只對 少數 rewrite-required 場景。

詳見 MySQL Online Schema Change Tools — sibling、不同 use case mix。

跟其他模組整合

跟 Replication topology

ALTER TABLE / pg_repack / pg-osc 都產生 WAL、會 replicate 到 standby。Standby 上的 long-running query 可能跟 ALTER 衝突、被 hot_standby_feedback 影響 primary autovacuum。詳見 Replication Topology。

跟 Autovacuum Tuning

Schema change 後常產生 dead tuple、autovacuum 需要重新 cover。詳見 Autovacuum Tuning。

跟 Logical Replication

logical replication 透過 publication / subscription 同步 — DDL 不會 logical replicate（PG 16 之前）、必須 在 publisher / subscriber 各自跑 DDL。詳見 Logical Replication + Debezium。

跟 Patroni HA

Patroni promote 新 primary 後、pg_repack extension state（slot / catalog）跟著走、新 primary 仍可繼續 pg_repack。詳見 Patroni HA。

何時用哪個

情境	選擇
ADD COLUMN nullable / DROP COLUMN / RENAME 等	直接 ALTER（fast catalog-only）
CREATE INDEX 大表	`CREATE INDEX CONCURRENTLY`
ALTER COLUMN TYPE rewrite（大表）	pg_repack
Bloat 重組	pg_repack
高吞吐 + trigger overhead 不可接受	pg-osc
ADD GENERATED STORED column	nullable + backfill + constraint
Cluster on Cloud（RDS / Aurora）	RDS / Aurora 內建 fast DDL 多數已 cover、pg_repack 視 vendor 支援

Firestore document 反正規化與一致性維護：fan-out write、副本同步與資料修復

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Firestore overview 的 deep article。寫作參照 Vendor 深度技術文章寫作方法論。

問題情境：改一個使用者名稱要改一千筆

一個社群 app 的貼文列表要顯示作者頭像與名稱。關聯式思路是貼文存 authorId、查詢時 JOIN users 表。但 Firestore 沒有 JOIN——要嘛 client 每顯示一則貼文就多查一次 users（列表 20 則就 20 次額外讀取），要嘛在貼文 document 裡直接存一份 authorName 與 authorAvatar 副本。為了讀取效率，多數人選後者。

副本一上線就埋了一致性債：使用者改了名稱，他過去發的一千則貼文裡的 authorName 還是舊的。改名這個動作從「更新一筆 users document」變成「更新一千筆貼文 document」。這篇處理 Firestore 反正規化的建模決策、如何用 fan-out write 維護副本一致、以及這套手段撐不住時的退場。

核心概念：反正規化是查詢邊界逼出來的

關聯式資料庫預設正規化，靠 JOIN 在查詢時組合資料；Firestore 沒有 server 端 JOIN，組合資料只有兩條路：client 多次查詢自己組，或寫入時就把要一起讀的資料存在一起。後者就是反正規化——它不是 Firestore 的「壞習慣」，是 client 直連 + 無 JOIN 的查詢模型逼出來的必然建模。

反正規化的判斷單位是 access pattern，不是資料的「正規與否」。問題不是「該不該複製」，而是「這份資料在哪些讀取路徑上要被一起讀到，複製它的一致性維護成本，比每次多查一次划不划算」。判斷有三個輸入：

讀寫比。讀多寫少的資料適合反正規化——複製成本攤在少數寫入上、省下大量讀取的額外查詢。作者名稱顯示在每則貼文（高讀），但改名很少（低寫），複製划算。反過來，高頻變動的資料複製多份，每次變動要 fan-out 到所有副本，成本可能超過省下的讀取。

副本數量的可預測性。複製到「一個 user 的 profile 摘要」這種固定副本可控；複製到「該 user 的所有貼文」這種隨資料成長無上限的副本，fan-out 的寫入量會隨規模膨脹，要特別評估。

一致性容忍度。副本短暫不一致（改名後幾秒內舊貼文還顯示舊名）能不能接受。能容忍最終一致的，反正規化的維護可以非同步、用 Cloud Function 慢慢 fan-out；不能容忍的，要嘛同步 fan-out（貴且有規模上限），要嘛這份資料根本不該複製。

配置：fan-out write 維護副本一致

fan-out write 是「一次邏輯更新，寫多個 document」。Firestore 的 writeBatch 讓多個寫入 atomic 提交（最多 500 個操作一批），是固定且可控副本數的標準手段：

 1import { writeBatch, doc, collection, query, where, getDocs } from 'firebase/firestore';
 2
 3// 改名：更新 users/{uid} + fan-out 到該 user 的所有貼文副本
 4async function renameUser(db, uid, newName) {
 5  // 1. 更新權威來源
 6  const userRef = doc(db, 'users', uid);
 7
 8  // 2. 查出所有要同步的副本
 9  const postsSnap = await getDocs(
10    query(collection(db, 'posts'), where('authorId', '==', uid))
11  );
12
13  // 3. batch 提交（超過 500 要分批）
14  const ops = [{ ref: userRef, data: { displayName: newName } }];
15  postsSnap.forEach((p) => {
16    ops.push({ ref: p.ref, data: { authorName: newName } });
17  });
18
19  for (let i = 0; i < ops.length; i += 500) {
20    const batch = writeBatch(db);
21    ops.slice(i, i + 500).forEach((op) => batch.update(op.ref, op.data));
22    await batch.commit();
23  }
24}

這裡的關鍵取捨是同步 fan-out 與非同步 fan-out。上面的同步版本在使用者點「儲存」時就把一千筆貼文改完，使用者等待時間隨副本數成長、且超過 500 要分批多次提交，副本數無上限時會撞到不可接受的延遲。非同步版本把權威來源（users/{uid}）同步更新，副本同步丟給 Cloud Function 在背景慢慢做：

 1// Cloud Function：onUpdate users document 時 fan-out 到副本
 2exports.fanoutUserName = functions.firestore
 3  .document('users/{uid}')
 4  .onUpdate(async (change, context) => {
 5    const before = change.before.data();
 6    const after = change.after.data();
 7    if (before.displayName === after.displayName) return; // 名稱沒變不做
 8
 9    const uid = context.params.uid;
10    const postsSnap = await admin.firestore()
11      .collection('posts').where('authorId', '==', uid).get();
12
13    // 分批 fan-out，背景執行、使用者不等待
14    const docs = postsSnap.docs;
15    for (let i = 0; i < docs.length; i += 500) {
16      const batch = admin.firestore().batch();
17      docs.slice(i, i + 500).forEach((d) =>
18        batch.update(d.ref, { authorName: after.displayName }));
19      await batch.commit();
20    }
21  });

非同步 fan-out 把「使用者體驗的即時性」與「副本的最終一致」分開：權威來源立刻更新、副本最終收斂。代價是中間有一段不一致窗口（改名後到 fan-out 完成前，舊貼文顯示舊名），這對社群 app 的顯示名稱通常可接受。writeBatch 與 transaction 的選擇在這裡也要分清：fan-out 是「寫多個獨立 document、不依賴彼此既有值」用 writeBatch；若更新要依賴讀到的當前值（例如同時扣 A 加 B 且要看當前餘額）才用 transaction，但 transaction 在大量 document 的 fan-out 上不適用。

故障演練：五個副本不一致的 production 踩坑

Case 1：複製了卻沒建 fan-out 路徑

貼文存了 authorName 副本，但改名邏輯只更新 users，沒人寫 fan-out。副本永遠停在建立時的值。修法：反正規化的建模決策必須連同「誰負責同步副本」一起定，複製一份資料就要有對應的 fan-out write 路徑，沒有 fan-out 的副本是一致性債。

Case 2：同步 fan-out 撞到副本數上限

改名時同步更新所有貼文，某個高產出使用者有幾萬則貼文，提交分成幾十批、使用者等了半分鐘還在轉圈、甚至 timeout。修法：副本數無上限的 fan-out 改非同步（Cloud Function 背景做），同步 fan-out 只用在副本數固定且小的場景。

Case 3：fan-out 中途失敗留下部分更新

非同步 fan-out 跑到一半 function 掛了，前 500 筆改了、後面沒改，副本處於半新半舊。修法：fan-out function 要可重入（重跑能補完未完成的），或記錄 fan-out 進度；殘留的不一致由對帳流程掃出修復（對應 1.9 Reconciliation 與 Data Repair）。

Case 4：雙向反正規化造成更新環

A 存 B 的副本、B 也存 A 的副本，改 A 觸發 fan-out 改 B、又觸發 fan-out 改回 A，function 互相觸發成環。修法：反正規化要有明確的權威方向（誰是 source of truth、誰是副本），副本不反向觸發權威來源的更新。

Case 5：把副本當權威來源讀來做判斷

拿貼文裡的 authorName 副本去做權限或業務判斷，而非讀 users 權威來源。副本在不一致窗口內是舊值，判斷出錯。修法：副本只供顯示，任何需要正確性的判斷讀權威來源；明確標示哪個 document 是 source of truth、哪些是顯示副本。

容量與觀測：fan-out 寫入量與不一致窗口

反正規化的容量帳要算 fan-out 的寫入放大。一次邏輯更新放大成 N 次寫入，N 是副本數，這 N 次寫入計入計費。高頻變動 + 高副本數的組合會讓寫入成本失控——這正是判斷「該不該反正規化」的成本面：省下的讀取 vs 放大的寫入。

不一致窗口是要監控的健康指標：權威來源更新到所有副本收斂的延遲。非同步 fan-out 下這個窗口隨副本數與 function 吞吐變動，異常拉長是 fan-out 積壓的徵兆。觀測還要涵蓋 fan-out 失敗率與重試，接回 4.20 Observability Evidence Package。定期跑對帳掃描副本與權威來源的差異，是把潛在不一致從「使用者回報才知道」變成「主動發現修復」，對應 1.9 Reconciliation 的可驗證、可修復、可稽核流程。

邊界與整合：反正規化複雜到該回關聯式

反正規化適合「讀多寫少、副本數可控、能容忍最終一致」的顯示資料。它撐不住的訊號是複製關係長成一張難以追蹤的網——資料被複製到十幾個地方、fan-out 路徑互相依賴、改一個欄位要同步的副本沒人說得清、對帳越來越頻繁。撞到這些訊號時，方向不是把 fan-out 寫得更巧：

關聯查詢成為主導需求：當資料的核心價值在「任意關聯與聚合」（報表、跨實體分析），反正規化是在用副本模擬 JOIN，成本與複雜度都不划算。這是 Firestore → 自建 relational 的報表牆——relational 的 JOIN 在查詢時組合，省掉整套副本維護
副本維護成本超過查詢省下的成本：高頻變動的資料反正規化，fan-out 放大的寫入成本超過正規化後多查一次的成本，反正規化的前提就不成立
巢狀結構保留比拆表更省：相反方向——有些一起讀寫、不需獨立查詢的關聯資料，在 Firestore 用巢狀 map / array 保留在同一 document 反而比拆 collection 簡單，遷到 relational 時用 PostgreSQL JSONB 保留，不是所有東西都要拆成正規表

判讀的起點永遠是 access pattern 與讀寫比，不是「正規化是對的、反正規化是妥協」這種預設立場。在 Firestore 裡反正規化是正解，問題只在它的維護成本何時翻轉。

下一步路由

上層：Firestore overview（資料形狀與查詢邊界）
資料修復：1.9 Reconciliation 與 Data Repair（副本不一致的對帳與修復）
狀態歸屬：1.8 State Ownership 與 Query Boundary（權威來源與派生副本的分辨）
遷移 driver：Firestore → 自建 relational（報表牆與反正規化還原）
官方：Firestore data model、Batched writes

1.14 Production Slow Log Closed Loop

Wed, 27 May 2026 00:00:00 +0000

1.13 應用層查詢反模式列出了 query 反模式清單跟每請求預算、但沒覆蓋一件事：production slow log 怎麼從「事故時才看」變成「定期審視能 catch 反模式」。本章把 slow log 包成 closed loop — 採集、分析、PR review 整合、regression 偵測四個動作串起來、讓反模式在進 production 之前就被攔下。

Slow log 的兩種讀法

多數團隊把 slow log 當「事故診斷工具」— 服務變慢時去翻一下、找出當下的罪魁禍首。這條讀法在事故時有效、但有 systemic 缺陷：所有 catch 到的反模式都已經影響使用者一段時間。

另一條讀法是把 slow log 當「定期審視訊號」— 每週 / 每 release cycle 抓 slow log top-N、看哪些 query 模式持續存在、哪些是新出現的。這條讀法的關鍵在於「對比基線」、不是「找絕對閾值」。

兩種讀法的對比決定了 closed loop 的設計方向：

維度	事故診斷工具	定期審視訊號
觸發時機	服務變慢時被動翻	排程定期掃
比較對象	跟絕對閾值比（query > 1 秒）	跟上週 / 上次 release 的 slow log 分布比
處理路徑	找出 root cause → 立即修	收進 PR backlog → 排序 → 規律修
介入點	事故發生後	反模式被引入後、影響使用者前
對應角色	On-call / SRE	整個團隊（每週輪流 review）

定期審視這條讀法是本章的核心、後續四個動作都環繞它建立。

Loop 第一步：採集

Slow log 採集的設計關鍵是「採集標準要穩定、retention 要夠長」。常見的採集配置選擇：

Threshold 設定：MySQL long_query_time、PostgreSQL log_min_duration_statement 設多久才記？常見 default 1 秒太寬鬆、會漏掉「200ms-1s」這層慢但累積成大量壓力的 query。建議 100ms 或更低（依 application 需求）。
採集對象：純 SELECT 慢？還是含 INSERT/UPDATE/DELETE？寫路徑慢通常代表 lock contention 或 transaction 範圍問題、跟讀路徑反模式不同、要分開分析。
Retention：log 保留多久？至少 30 天（覆蓋一個 sprint）、有資源的話 90 天（覆蓋季度 regression 對比）。雲端 managed DB（RDS / Aurora）的 slow log 通常自動匯出到 CloudWatch / S3、設定 retention policy 而不是依賴 DB instance 本身的 log。
Sample rate：高流量服務全採會把 disk I/O 拖垮。Production 環境用 sampling（如 10% 取樣）平衡採集完整度跟系統壓力。

採集出來的 raw log 不適合直接讀、要先 normalize。

Loop 第二步：Normalize 與聚合

Raw slow log 每筆都帶具體參數（WHERE user_id = 12345、WHERE user_id = 67890），直接看會看到上千筆「不同 query」。實際上多數是同一個 query template 的不同參數實例。

Normalize 動作把參數抽掉、留 query shape：

WHERE user_id = 12345 → WHERE user_id = ?
IN (1, 2, 3, 4, 5) → IN (?)
字串常數同樣抽掉

工具上：MySQL 用 pt-query-digest（Percona Toolkit）；PostgreSQL 用 pg_stat_statements extension（已內建 normalize）；雲端用 vendor 工具（AWS Performance Insights、GCP Query Insights、Azure SQL Insights）。Normalize 後可以按 query shape 聚合、看哪些 shape 累計時間最長、出現次數最多、平均延遲最高。

聚合後產出三條訊號：

Top-N by total time：累計時間最長的 query — 改一條就能省最多 DB 壓力
Top-N by count：出現次數最多的 query — 改一條就能降最多 connection 占用
Top-N by avg latency：平均延遲最高的 query — 個別 request 體驗最差的

三條訊號可能指向不同 query、各自值得 attention。

Loop 第三步：PR review 整合

把 slow log 的 top-N 帶回 PR review 是 closed loop 的關鍵。常見三種整合機制：

每週 slow log review 會議：固定時段（每週 30 分鐘）、團隊輪流 owner、把 top-10 過一輪、決定每筆是修 / 留 / 標 acceptable。產出進 backlog、不是當場修。
PR-level query budget check：CI 加 middleware 統計每個 endpoint 的 query 數（per 1.13 query 預算）、超過閾值的 PR 在 review 時觸發討論。這層比 slow log 早、catch 的是「新引入」反模式。
Production regression alert：當某個 query shape 的 P99 latency 比上週 baseline 偏高 50%+、自動發 alert 給該服務 owner。這層 catch 的是「漸進惡化」反模式（如資料量增加、index 失效）。

三層機制按介入點分層：PR check 是「進 production 前」、weekly review 是「進 production 後的固定盤點」、regression alert 是「漸進惡化的訊號偵測」。三層覆蓋率最高、單跑任一層都會漏。

Loop 第四步：Regression 偵測

Slow log 的對比基線需要主動維護。沒有基線、定期審視會退化成「每次都看到同樣的 top-10、習以為常」。建立基線的常見做法：

每 release 凍結 baseline：上線新版本前抓一份 slow log snapshot、release 後跟它比。新增的 query shape 跟惡化的 query shape 都會浮出來。
資料量分位點 marker：在 schema 加註「這張表預期 1M / 10M / 100M 行的 query 計畫」、實際成長到對應規模時驗證 plan 是否還對。Index 失效常常是「資料量過某個門檻、optimizer 改用 full scan」造成的。
跨 release 趨勢圖：把 slow log top-10 的累計時間做時序圖、看一年的趨勢。穩定升高代表反模式 / 資料成長壓力、突然升高代表新引入問題。

Regression 偵測的 false-positive 風險是「業務本身在變、流量本身在長」、不是反模式造成的。用「query shape 佔比」而非「絕對延遲」當訊號可以降低 false positive — 某個 query shape 從佔 5% 變成佔 30%，不論絕對延遲是否升高、都值得審視。

判讀訊號

訊號	判讀重點	對應動作
Slow log top-10 一直是同一批 query	Closed loop 沒形成、review 退化成擺設	啟動 PR-level query budget check 或 weekly review
某個 query shape 突然從 top-100 升到 top-10	新版本引入反模式 / 流量結構變化	對照最近 release diff、找出引入時點
Top-N 累計時間穩定升高、但 query shape 沒變	資料量增加、index 退化或 query 計畫漂移	EXPLAIN 對比、檢查是否該加 covering index 或 partition
Slow log 異常稀少（< 預期）	Threshold 設太寬、或採集 sample rate 太低	降 threshold、提高 sample rate
同一個 endpoint 在 PR check 過、production 卻爆	PR 環境資料量太小、CI 無法 catch 大資料量退化	加 production-like load test、或在 CI 用 anonymized prod data

常見誤區

把 slow log 當「事故工具」、不做定期審視。事故時的 slow log 是 lagging indicator — 反模式已經影響使用者一段時間才被看見。定期審視是把它變成 leading indicator 的關鍵。

把 threshold 設太鬆（1 秒、5 秒）。多數反模式落在 100ms-1s 區間、設 1 秒會漏掉。Threshold 應該對齊「user-perceived 慢」門檻、通常 100-500ms。

把 top-10 當「不能動」。一些 top-10 是業務本質慢（複雜 report、bulk write）、改起來代價遠超效益。Review 時要明示標記「acceptable」、避免下週又被當未解決問題討論。

定位邊界

本章專注「production slow log 怎麼變成 closed loop」。當問題進入具體反模式分析（這條 query 是哪種反模式？怎麼改？）、回到 1.13 應用層查詢反模式；進入 EXPLAIN 解讀細節、回到 1.2 schema design；進入 application-side query 數量控制機制（ORM middleware、query log 觀察），跨到 04 observability 模組。

案例回寫

09 案例庫中、slow log closed loop 直接示範的案例稀少（多數案例談規模 / vendor、不談 ops loop 設計）。可用以下案例反向追問：

9.C39 DoorDash：Aurora Postgres 寫入瓶頸 — 寫入飽和被識別為 vendor 層問題、但若 production slow log loop 早期就 catch 到 transaction 範圍跟熱 row 競爭、可能延後遷移時點。對照本章可問：DoorDash 在啟動遷移前、是否有定期 slow log review 機制？
9.C14 Standard Chartered：合規驅動容量規劃 — 容量規劃以合規為驅動、但 query 預算假設若無 production 驗證、規劃出的 TPS 上限會偏低。對照本章「Regression 偵測」段：合規 cluster 是否有 query shape 趨勢圖？

反向追問框架（per #146）：案例本身不直接示範 closed loop、但用「啟動 vendor 升級前、closed loop 能不能延後撞牆」這條追問、能看出 slow log loop 的事前價值。

跨模組路由

與 1.13 query 反模式的交接：1.13 給反模式清單、本章給「定期 catch 它們」的機制。
與 04 observability 的交接：slow log 採集跟聚合是 observability 的子問題、跨服務的 query trace 需要 04 的 telemetry pipeline。
與 9.5 瓶頸定位的交接：9.5 用 USE / RED method 定位、本章用 slow log 在 DB 層做更精細的 query-level 定位。
與 06 reliability ci-pipeline 的交接：PR-level query budget check 是 CI 環節、屬 06 模組的 release gate 設計。

下一步路由

要看具體反模式怎麼修、回 1.13 應用層查詢反模式。要把 query 觀測接進完整 telemetry pipeline、進 04 observability。要看 PR-level check 怎麼接 release gate、進 6.8 release gate。

MySQL ProxySQL 配置：connection / query / route / response 四段 lifecycle 跟 query rule 設計

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 ProxySQL 配置 — connection pool + query routing 的 4 段 lifecycle 跟 rule chain 設計。

ProxySQL Lifecycle：每個 query 走 4 段

從 application 連 ProxySQL 到拿到 response、每個 query 都走完整 4 段：

11. Connection 接入        →  application connect 到 ProxySQL（不是 MySQL）
22. Query parse + rule match  → ProxySQL 解析 query、match query rule chain
33. Backend route          →  決定走哪個 hostgroup（primary / replica）+ 哪個 server
44. Response 返回          →  將 result set 回 application、connection 可被 reuse

每段都有獨立配置 + failure mode + 觀測 metric。ProxySQL 不是 簡單的 connection pool、是 query-aware proxy — 看得到 SQL 內容才能做 read/write split、replica lag-aware routing、query mirroring。

跟 PostgreSQL pgBouncer 比、pgBouncer 是 transaction-level pool（只看連線、不看 SQL）、ProxySQL 是 query-level proxy（看 SQL、做 routing decision）。能力不同、target use case 不同。

Stage 1：Connection 接入 — Hostgroup / Server / User 三層 schema

ProxySQL 不直接 expose backend MySQL、用 hostgroup 作為 routing 抽象。Application 不知道有幾個 backend、只知道 ProxySQL。

核心 table（在 main database）：

Table	角色
`mysql_servers`	列每個 backend MySQL server、屬於哪個 hostgroup
`mysql_replication_hostgroups`	定義 writer hostgroup ↔ reader hostgroup 配對、自動偵測 primary 切換
`mysql_users`	列允許連 ProxySQL 的 application user、預設 hostgroup
`mysql_query_rules`	Query rule chain、決定哪個 query 走哪個 hostgroup

典型部署：

 1-- 進 ProxySQL admin (6032 port)
 2mysql -uadmin -padmin -h127.0.0.1 -P6032
 3
 4-- 設 2 個 hostgroup：10=writer、20=reader
 5INSERT INTO mysql_servers(hostgroup_id, hostname, port, weight, max_connections)
 6VALUES
 7  (10, 'primary.example.com', 3306, 1000, 200),
 8  (20, 'replica1.example.com', 3306, 1000, 100),
 9  (20, 'replica2.example.com', 3306, 1000, 100);
10
11-- 自動偵測 primary（用 read_only flag）
12INSERT INTO mysql_replication_hostgroups(writer_hostgroup, reader_hostgroup, comment)
13VALUES (10, 20, 'production cluster');
14
15-- 設 application user、預設走 reader（保守）
16INSERT INTO mysql_users(username, password, default_hostgroup, max_connections)
17VALUES ('app', 'app_password', 20, 1000);
18
19-- 套用設定到 runtime
20LOAD MYSQL SERVERS TO RUNTIME;
21LOAD MYSQL USERS TO RUNTIME;
22
23-- 持久化到 disk（重啟保留）
24SAVE MYSQL SERVERS TO DISK;
25SAVE MYSQL USERS TO DISK;

注意 ProxySQL 的 三層 state：disk（持久化）→ memory（編輯區）→ runtime（實際運作）。每次改完要 LOAD ... TO RUNTIME 才生效、SAVE ... TO DISK 才能 reboot 保留。沒 SAVE 重啟後 config 消失是新手最常踩的雷。

Stage 2：Query Parse + Rule Match — query rule engine

ProxySQL 不只 forward connection、看 SQL 內容 決定怎麼 route。Query rule 是 ordered chain、match 第一個符合的 rule。

Query rule 核心欄位：

欄位	意義
`rule_id`	排序（越小越先 match）
`match_pattern`	regex 比對 SQL（支援 `^SELECT` / `FOR UPDATE` 等）
`destination_hostgroup`	match 後送哪個 hostgroup
`apply`	match 後是否停 chain（1=stop、0=繼續看後面 rule）
`cache_ttl`	result cache TTL（毫秒）— ProxySQL 內建 query cache
`mirror_hostgroup`	query 鏡像送到第二個 hostgroup（不等 response、用於 shadow test）

典型讀寫分離 rule：

 1-- Rule 100: SELECT ... FOR UPDATE 必須走 primary
 2INSERT INTO mysql_query_rules(rule_id, active, match_pattern, destination_hostgroup, apply)
 3VALUES (100, 1, '^SELECT.*FOR UPDATE$', 10, 1);
 4
 5-- Rule 200: 一般 SELECT 走 replica（reader）
 6INSERT INTO mysql_query_rules(rule_id, active, match_pattern, destination_hostgroup, apply)
 7VALUES (200, 1, '^SELECT', 20, 1);
 8
 9-- Rule 300: BEGIN / START TRANSACTION 走 primary
10INSERT INTO mysql_query_rules(rule_id, active, match_pattern, destination_hostgroup, apply)
11VALUES (300, 1, '^(BEGIN|START TRANSACTION)', 10, 1);
12
13-- 其他（INSERT / UPDATE / DELETE）預設走 default_hostgroup（user 設的）
14-- application user default 設 10 (writer)、所以寫入自動走 primary
15
16LOAD MYSQL QUERY RULES TO RUNTIME;
17SAVE MYSQL QUERY RULES TO DISK;

Rule 順序很重要：rule_id 100 先 match、200 再 match、依此類推。Rule 200 比 100 寬鬆（任何 SELECT）、所以 FOR UPDATE 必須先 match rule 100 才不會誤送 replica。

Stage 3：Backend Route — replica lag-aware + circuit breaker

Rule match 後 ProxySQL 從 hostgroup 內挑一個 server。Backend selection 不是 pure round-robin、考慮：

Weight：每個 server weight 比例分配（典型用於 replica capacity 不同）
Replica lag：若 hostgroup 設 max_replication_lag、lag 超過 threshold 的 replica 自動暫時退出
Connection count：避免某個 server connection 滿
Server status：mysql_servers.status (ONLINE / SHUNNED / OFFLINE_SOFT / OFFLINE_HARD) 決定是否可用

Replica lag-aware routing 配置：

1-- 給整個 reader hostgroup 設 lag threshold
2UPDATE mysql_servers
3SET max_replication_lag = 5  -- 秒
4WHERE hostgroup_id = 20;
5
6LOAD MYSQL SERVERS TO RUNTIME;

ProxySQL 內部用 monitor module 定期跑 SHOW SLAVE STATUS、lag 超過 5 秒 → 該 replica 暫時退出 reader hostgroup。讀 query 自動避開 lagging replica。

Circuit breaker（自動 shun）：server 連續失敗 → ProxySQL 自動 SHUNNED、避免持續打 broken server。但 application 層仍要處理 retry、ProxySQL 不保證 query 100% 成功。

Stage 4：Response 返回 — connection multiplexing

ProxySQL 對 application connection 跟 backend connection 是 N:M 多工：

Application connection 跟 ProxySQL 1:1
ProxySQL 跟 backend MySQL connection 共用 pool（multiplexing）

Multiplexing 條件：

Transaction 內：connection 綁定特定 backend（保 transaction atomicity）
跨 transaction：connection 可以換 backend
SET statement 改 session variable：connection 黏死 backend（防 session state leak）
User variable（@var）：connection 黏死 backend

結果：application 看到的是「自己有 1000 個 connection」、ProxySQL 後端可能只有 100 connection 到 MySQL。對 connection-bound MySQL（max_connections 限制）是關鍵 cost saving。

5 個 Production 踩雷

1. Query rule 順序錯亂 — `FOR UPDATE` 被 SELECT route 到 replica

Rule 200（^SELECT）寫在 rule 100（^SELECT.*FOR UPDATE$）之前、ProxySQL match 第一個 rule（rule 200）就停、SELECT ... FOR UPDATE 被送 replica、replica 沒 lock、application 假設有 lock 跑 race condition。

修法：

rule_id 排序：精確 rule（多條件 regex）放小、寬鬆 rule 放大
用 apply=1 強制停 chain、不要讓 query 繼續往下 match
跑 ProxySQL SHOW PROCESSLIST + audit log 確認 routing 正確

2. Connection 漂移 — Multiplexing 把 session variable 弄丟

Application 跑 SET sql_mode=...、ProxySQL 把這 connection 暫時黏死 backend 1。下個 query ProxySQL forget、把 connection unstick、實際 forward 到 backend 2（沒 SET sql_mode）、SQL 解析行為不同、application bug。

修法：

用 mysql-multiplexing=false 全 disable（最簡單但浪費 connection pool 效率）
或在 application init 連線後跑的 SET 全列在 mysql_users.connect_init（每個 connection ProxySQL 自動跑、不會漂移）
避免 application 中途改 session variable、改成全部走 ProxySQL connect_init

3. Write 不小心 route 到 replica — `default_hostgroup` 設錯

Application user default_hostgroup 設 20 (reader)、INSERT / UPDATE / DELETE 沒 match 到任何 rule（沒寫 catch-all write rule）、走 default → 送 replica → replica 是 read-only → error。或更糟：replica 不是 read-only mode、寫入 寫到 replica 上、replication 反向不同步、data corruption。

修法：

Application user default_hostgroup 設 10 (writer) — 寫入預設走 primary
Replica MySQL 一定要 read_only=1（防 stale write 寫到 replica）
監控 mysql_query_rules match 率、寫入 query 應該大部分透過 default_hostgroup 路由、不是個別 rule

4. Runtime / disk schema drift — 改了 runtime 沒 save、重啟 config 消失

LOAD ... TO RUNTIME 跟 SAVE ... TO DISK 是兩個獨立操作。On-call 在事故中改 ProxySQL 配置（add server、調 query rule）、LOAD 套到 runtime 但忘記 SAVE、隔天 ProxySQL 重啟（OS update / crash）、config 回到 disk 版本、半夜 alert。

修法：

每次 LOAD ... TO RUNTIME 後立刻 SAVE ... TO DISK（變成 habit）
用 IaC（Terraform / Ansible）管 ProxySQL config、不要手動改 admin
監控：對比 runtime_mysql_servers 跟 mysql_servers（disk）、有 diff 即告警

5. Mirror traffic 副作用 — INSERT 鏡像到 staging 寫了兩次

mirror_hostgroup 把 query 鏡像送到第二個 hostgroup（不等 response、用於 shadow test 新 schema）。但 鏡像是真實執行、不是 dry-run。鏡像 INSERT 到 staging hostgroup → staging 真的多了 row。如果 staging hostgroup 接到 production 表（誤接）、production 寫入 doubled。

修法：

Mirror 只用於 獨立 staging cluster、不混用 production schema
Mirror 設定要 review（規則 match_pattern 跟 mirror_hostgroup 配對）
開 mirror 前在 staging 跑 dry-run、確認 schema 跟 production isolated

容量規劃要點

對 100 application instance × 50 connection / instance = 5000 application connection 場景：

配置	ProxySQL 設定	MySQL backend 配置
Application → ProxySQL	`mysql-max_connections=10000`	不影響
ProxySQL → MySQL primary	`max_connections=200`（per server）	MySQL `max_connections=300`（多 100 buffer for admin）
ProxySQL → MySQL replica	`max_connections=200`（per server）	同上
ProxySQL 數量（HA）	至少 2 instance（HAProxy / VIP）	-
Memory per ProxySQL	2-4 GB（query rule cache + connection pool）	-

ProxySQL 本身需要 HA：放兩個 instance 後面接 VIP（keepalived）或 HAProxy。Application 連 VIP / HAProxy、不直接連 ProxySQL hostname（單點失效）。

跟其他模組整合

跟 Replication topology

ProxySQL 透過 monitor module 自動偵測 primary（檢查 read_only flag）+ replica lag（檢查 Seconds_Behind_Master）。這個 monitor 依賴 MySQL replication 已配好（GTID + binlog ROW format）。詳見 Replication Topology。

跟 Orchestrator HA

Orchestrator 自動 failover 後新 primary 的 read_only flag 變 0、舊 primary 變 1。ProxySQL monitor 偵測到、自動把 hostgroup 10（writer）的 server 切換、application 不必改 connection string。

詳見 Orchestrator failover 設計 篇（待寫）。

跟 OSC tool（gh-ost / pt-osc）

ProxySQL 可以 暫時 throttle application 對某張表的寫入（query rule delay 欄位）、配合 OSC tool cut-over 時段降低 metadata lock 衝突。

詳見 Online Schema Change Tools。

跟 Aurora MySQL / RDS Proxy

Aurora MySQL 推 RDS Proxy（AWS managed proxy）取代 ProxySQL — 跟 IAM 整合、failover < 30 秒。但 RDS Proxy 沒有 query routing rule engine（只做 connection pool）、不能讀寫分離。Aurora user 仍可能用 ProxySQL 在前面、再用 RDS Proxy 作 backend connection pool。

詳見 Aurora vendor page。

跟 PostgreSQL pgBouncer 對比

維度	ProxySQL（MySQL）	pgBouncer（PostgreSQL）
抽象層	Query-level proxy	Transaction-level pool
Query routing	內建（rule engine）	無（不看 SQL）
Connection pool	內建	核心功能
Read/write split	內建（自動 + rule）	要 application 層或 HAProxy 配
Replica lag-aware	內建	無
Query cache	內建	無

ProxySQL 是 query 層中介、pgBouncer 是 connection 層中介。詳見 pgBouncer 配置。

PostgreSQL Connection Scaling：process-per-connection model 跟為什麼 pooler 是必裝

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 connection scaling 的根因 — 為什麼 PG 比多數 DB 更需要 pooler、跟 pgbouncer-config 是 根因 vs 配置 的關係。

Connection-per-Process Model 是 PG 的結構性選擇

PG 接受 client connection 時的行為跟多數現代 DB 不同：每個 connection 由 postmaster fork() 一個獨立的 OS process（backend）來服務。這個 process 在 connection lifetime 內專屬該 client、不跟其他 client 共享。

對比常見 DB 的 connection model：

Vendor	Connection model	每 connection 資源
PostgreSQL	Process-per-connection（fork）	5-15MB RAM、獨立 PID
MySQL	Thread-per-connection	256KB-2MB RAM、共享 process
Oracle	Shared server / dedicated 可選	配置決定
SQL Server	Thread-per-connection（pooled）	~512KB
MongoDB	Thread-per-connection	~1MB

PG 選 process 不選 thread 是 1990s 設計決定 — 當時 thread library 在多 UNIX 平台不穩定、process 隔離性更好（一個 backend crash 不會帶倒整個 DB）。這個 trade-off 一路保留到今天、是 PG 在 high-connection-count workload 的 結構性負擔。

量化：connection 數量對 RAM 跟 CPU 的壓力

一個 PG backend process 的 RAM footprint 由三部分組成：

1backend_rss ≈ shared_buffers_attach + process_private + work_mem 高水位

shared_buffers 是所有 backend 共享的、不重複計、但 process_private（catalog cache / plan cache / temp buffer）跟 work_mem 是 per-backend：

Workload 類型	process_private	work_mem 高水位	單 backend RAM
Idle / 簡單 OLTP	3-5MB	4MB	7-9MB
中等 query（join / sort）	5-8MB	16-64MB	21-72MB
Heavy analytical（CTE / window）	8-15MB	256MB+	264MB+

500 個 connection、平均 30MB 各 ≈ 15GB RAM 給 backend processes（還沒算 shared_buffers）。這是 PG 在 cloud instance 上很快撞到 RAM ceiling 的根因。

CPU 層面、fork() 系統呼叫在 Linux 通常 1-3ms、context switch ~3-5μs。100 connection burst 在 1 秒內進來、accumulated fork cost 100-300ms、加 query 本身的 CPU 跟 scheduler latency、平均 query 延遲會跳 2-5x。

三個 GUC 互動：max_connections / shared_buffers / work_mem

PG 的 memory 規劃由這三個 GUC 互動決定、不能獨立調：

1total_RAM ≈ shared_buffers + (max_connections × work_mem 高水位) + OS overhead

實務 sizing 規則（16GB instance、OLTP workload）：

GUC	建議值	理由
`shared_buffers`	25% RAM（4GB）	太大 OS file cache 收益遞減、< 25% wastes RAM
`work_mem`	8-32MB	每 query operation 用一份、不是每 connection 一份
`max_connections`	100-200	超過 200 需 pooler、不是調更大
`effective_cache_size`	50-75% RAM	planner 估 cost 用、不是實際配置
`maintenance_work_mem`	64-512MB	VACUUM / CREATE INDEX 用

max_connections = 1000 是常見 anti-pattern — 真實 active query 可能只 50-100、剩下都 idle、但每個還是吃 RAM 跟 process slot、context switch overhead 還在。

Pooler 為什麼是 production prerequisite

本段是「為什麼必裝」、實際 PgBouncer 配置看 pgbouncer-config。

Pooler 的核心責任是 把 N 個 application connection multiplex 成 M 個 PG backend（M ≪ N）：

1Application (3000 connection)
2   ↓
3Pooler（PgBouncer / PgCat）
4   ↓
5PostgreSQL (50 backend process)

Application 看到的是 無限 connection 池、PG 看到的是 穩定 50 個 backend。三個層次的效益：

RAM 節省：3000 connection × 30MB = 90GB → 50 backend × 30MB = 1.5GB
Fork() cost 攤平：backend 重用、不是每個 client 都 fork
Connection storm 緩衝：application 重啟 / scaling event 不會直接打到 PG

Pooler 有三種 pool mode、各有 application 層相容性 trade-off：

Pool mode	Session 隔離	適用 application	PG feature 限制
Session	每 client 獨佔 1 backend	用 prepared statement、SET、temp table	等同沒 pool、僅救 fork cost
Transaction	每 transaction 換 backend	多數 stateless API（最常用）	不能用 session-level state
Statement	每 statement 換 backend	Read-only / analytical	不能用 transaction

Production 多數選 transaction pool — 救 RAM 又保留 transaction semantics、代價是 application 不能用 session-level SET、LISTEN/NOTIFY、prepared statement（部分 pooler 已支援）。

Application-side Pool vs Middleware Pool vs RDS Proxy

三層 pool 都能解 connection 問題、但解的問題不同：

層級	代表	解的問題	限制
Application-side（driver）	HikariCP（Java）/ pgx pool（Go）/ asyncpg / Sequelize	Connection 重用 + lifecycle 管理	仍每 app instance 開 N 個到 PG、總量沒收斂
Middleware pooler	PgBouncer / PgCat	Multiplex 所有 application instance 到少數 backend	多一跳 latency 0.1-1ms、需自管 HA
Cloud-managed proxy	RDS Proxy / Cloud SQL Proxy	Multiplex + IAM auth + Secrets Manager integration	Latency 1-3ms、cost premium、PG feature 受限

典型 production 拓撲：

1Application (HikariCP pool 10/instance × 50 instance = 500)
2   ↓
3PgBouncer transaction pool（50 backend）
4   ↓
5PostgreSQL primary

Application pool 救 fork cost、PgBouncer 救 backend 總量、兩層各做各的事不衝突。

雙層 pool 配置容易出錯：application pool size 5 + PgBouncer default_pool_size 50 + 100 個 app instance、application 願意開 500 connection、PgBouncer 只給 50 個 backend — 多 450 個 application connection wait、看起來像「DB 慢」但實際是 pool 不足。

5 個 Production 踩雷

Case 1：Connection storm（重啟 / autoscale 同時打進來）

情境：Kubernetes rolling restart、200 個 pod 同時重連、每 pod 開 20 個 connection、瞬間 4000 個 connection 嘗試打到 PG。

PG max_connections = 500 直接拒絕 3500 個、application 看到 FATAL: sorry, too many clients already、retry storm 雪上加霜。

修法：

PgBouncer 在前面、application 連 PgBouncer 不直連 PG
reserve_pool_size = 5 給管理流量留 buffer
Application 端加 jittered exponential backoff、避免 retry 同步

Case 2：fork() cost 在 burst 流量

情境：Cron job 每分鐘整點觸發、500 個 worker 同時開 short-lived connection 跑 30ms query、結束關閉。

每分鐘 500 次 fork() + 500 次 exit()、fork cost 500-1500ms、CPU spike、其他 OLTP query 延遲飆。

修法：

Worker 改 connect 到 PgBouncer transaction pool、backend 重用、fork 只在 PgBouncer 首次拓展時
或 worker 改成 long-lived process + 內部 task queue、避免每分鐘重 fork

Case 3：shared_buffers 跟 max_connections 互相壓縮

情境：16GB instance、shared_buffers = 8GB（50%）、max_connections = 800、work_mem = 16MB。

預估 RAM：8GB + 800 × ~30MB = 32GB ≫ 16GB instance、OOM kill 來訪。

修法（重新分配）：

1shared_buffers = 4GB           # 25%
2max_connections = 200          # 透過 PgBouncer multiplex
3work_mem = 16MB
4effective_cache_size = 12GB
5maintenance_work_mem = 512MB

關鍵：max_connections 不是調更大救 connection 不足、是調 PgBouncer pool size 拓展 application 容量。

Case 4：Double-pool 配置失敗

情境：Application HikariCP pool size = 50、50 個 instance、PgBouncer default_pool_size = 20、PG max_connections = 100。

Application 願意開 2500 個 connection、PgBouncer 只給 20 個 backend、application thread 大量 block 在 PgBouncer 等 backend 釋出。

修法：

計算 application 願意的並發 vs PgBouncer 允許的 backend vs PG max_connections 三層匹配
通常 application_total_connection ≪ pgbouncer_max_client_conn + pgbouncer_default_pool_size + reserve ≪ pg_max_connections
Monitor PgBouncer SHOW POOLS 的 cl_waiting、長期 > 0 表示 pool 不足

Case 5：max_connections 設太大反而慢

情境：team 看到 connection refused、把 max_connections 從 200 調到 2000、想說「給更多 connection 應該更好」。

調完 throughput 反而降 30% — context switch overhead、planner cache 競爭、lock manager 競爭都跟 connection 數線性放大。

修法：

max_connections 上限通常 200-500、超過要靠 pooler multiplex
用 pg_stat_activity 看真實 active connection（state != ‘idle’）、通常 < 100
真實上限 = active 高水位 × 安全係數 1.5、不是「未來可能會用到的數量」

跟 MySQL connection model 對比

維度	PostgreSQL	MySQL
Connection 模型	Process-per-connection（fork）	Thread-per-connection
單 connection RAM	5-15MB（idle）/ 30-200MB（heavy）	256KB-2MB
Fork / spawn cost	1-3ms	< 100μs
Pooler 必要性	強烈必要（300+ connection 必裝）	中等（ProxySQL 對特定 case 有用）
主流 pooler	PgBouncer / PgCat	ProxySQL / MySQL Router

MySQL thread-per-connection model 讓它在 high-connection-count workload 上 看起來 更省 — 但 PG 透過 PgBouncer 達到的 application 看到的容量跟 MySQL 直連是一樣的、只是多一層 indirection。

實務影響：

MySQL 直連 1000 connection 還 OK、PG 直連 1000 connection 通常 OOM
PG + PgBouncer 1000 application connection、後端 50 backend、表現跟 MySQL 1000 直連相當
沒有 PG 更耗 RAM 的本質結論、是 PG 預設不 multiplex、需要外掛 multiplex 層

PG 17+ 的 connection 進展

PG 17（2024）對 connection 仍維持 process-per-connection、但有幾個減壓改進：

Per-process memory 降低：catalog cache 改 generational allocator、idle backend RAM 降 ~20%
Subscriber-side parallel apply：logical replication 減少 connection 開銷
io_combine_limit：buffered read 合併、降 syscall overhead

但 process-per-connection model 本身 沒換 — 短期內 PG 仍需 pooler。長期方向（PG 18+ 討論）可能引入 thread-based backend、但目前是 experimental patch。

下一步

連到 pgbouncer-config 學配置細節
看 PostgreSQL overview 回到全圖

Firestore realtime listener 扇出與成本：snapshot 訂閱、re-read 計費與連線規模

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Firestore overview 的 deep article。寫作參照 Vendor 深度技術文章寫作方法論。計費模型以官方 pricing 為準、最後檢查日 2026-06-16。

問題情境：即時很爽，帳單很痛

Firestore 的 snapshot listener 是它最有吸引力的能力——client onSnapshot 訂閱一個 query，資料一變就即時推送，多裝置同步、協作介面幾乎免費得到。團隊很快把所有列表都改成 listener：訊息列表、通知、儀表板計數，全部即時更新，體驗很好。

帳單在用戶量上來後出問題。Firestore 對 listener 的計費規則是——query 結果裡每個被推送的 document 都計一次 read。一個列表有 100 名觀眾各自訂閱、列表變動推送 50 筆，就是 100 × 50 = 5000 次 read。即時的爽感建立在 re-read 計費上，扇出越大、變動越頻繁，成本成乘積成長。這篇處理 listener 的推送與計費模型、如何設計訂閱範圍把成本壓住、以及即時需求超過 listener 能力時的退場。

核心概念：listener 的推送與計費模型

snapshot listener 不是「推送變動的那一筆」這麼簡單。理解它的成本要抓三點：

初次訂閱讀整個結果集，之後讀變動的部分。onSnapshot(query) 第一次觸發時，query 結果的每個 document 計一次 read（跟一次性 getDocs 相同）。之後 query 結果有 document 新增、修改、移出，推送那些變動的 document，各計一次 read。所以 listener 的計費 = 初次結果集大小 + 後續每次變動推送的 document 數。

計費是 per-listener 的。同一個 query 被 N 個 client 各自訂閱，是 N 個獨立 listener，變動推送計 N 次。扇出（同一資料多少人在看）直接乘進成本。這跟自建後端用一個 WebSocket broadcast 推給 N 個連線的模型不同——那裡資料讀一次、推 N 份；Firestore listener 是每個訂閱各自從資料庫讀。

query 範圍決定推送頻率。訂閱一個寬的 query（整個 collection），collection 裡任何符合的 document 變動都推；訂閱窄的 query（只我相關的那幾筆），只有那幾筆變動才推。listener 成本的設計槓桿是「把訂閱範圍縮到 client 真正要即時看到的最小集合」。

 1import { onSnapshot, query, collection, where, orderBy, limit } from 'firebase/firestore';
 2
 3// 寬訂閱：整個 messages collection 任何變動都推（成本失控）
 4const wide = query(collection(db, 'messages'));
 5
 6// 窄訂閱：只訂這個對話的最近 50 則（成本可控）
 7const narrow = query(
 8  collection(db, 'messages'),
 9  where('conversationId', '==', convId),
10  orderBy('createdAt', 'desc'),
11  limit(50)
12);
13
14const unsub = onSnapshot(narrow, (snap) => {
15  snap.docChanges().forEach((change) => {
16    // 只處理變動的部分，不是每次重畫整個列表
17    if (change.type === 'added') { /* ... */ }
18    if (change.type === 'modified') { /* ... */ }
19    if (change.type === 'removed') { /* ... */ }
20  });
21});
22// 畫面離開時務必取消訂閱，否則 listener 與計費持續
23// unsub();

docChanges() 是控制成本與效能的關鍵——它只給「跟上次相比變動的 document」，而不是每次都拿整個結果集重畫。用 limit 把結果集封頂、用 where 把範圍縮到 client 相關，是 listener 成本設計的兩個主要手段。

配置：訂閱範圍與生命週期設計

listener 的成本與效能由訂閱範圍和生命週期決定。三個設計原則：

訂閱跟著畫面生命週期。listener 在畫面進入時建立、離開時 unsubscribe()。最常見的成本洩漏是忘記取消訂閱——使用者切走了，listener 還在背景持續接收推送計費。在元件 unmount、路由切換、app 進背景時取消所有 listener。

用 limit 封頂結果集，配分頁。即時列表只訂最近 N 筆，往前翻歷史用一次性 getDocs 分頁，不訂閱。歷史資料不會變、不需要即時，訂閱它只是白付 re-read。即時的部分小而精，歷史的部分按需一次性拉。

高扇出的即時值改訂閱彙總 document。一萬名觀眾要看同一個即時計數，正解是由後端把彙總值寫進一個 summary document、所有人訂閱那一份，而非各自訂閱原始資料加總。扇出仍是一萬個 listener，但每次變動只推一份小 document，而不是推整個結果集——把推送的 payload 壓到最小。這跟 distributed counter 的 summary 彙總是同一個手段的兩面：那裡解寫入熱點，這裡解讀取扇出。

故障演練：五個 realtime 成本踩坑

Case 1：把不需要即時的列表也做成 listener

歷史訊息、已讀通知、靜態設定全用 onSnapshot，這些資料根本不變或極少變，訂閱它們只是把一次性讀取變成持續掛著的 listener。修法：先問「這個資料 client 在看的時候會不會變、變了要不要立刻看到」，否才用 listener；不變或不需即時的用一次性 getDocs。

Case 2：忘記 unsubscribe 造成 listener 洩漏

路由切換、元件重建時建了新 listener 沒取消舊的，listener 越積越多、計費持續、記憶體也漏。修法：listener 的建立與取消綁死畫面生命週期，用框架的 cleanup hook（React useEffect return、Vue onUnmounted）統一管理，app 進背景時主動斷。

Case 3：訂閱寬 query 被無關變動轟炸

訂了整個 orders collection 想看自己的訂單，結果別人的訂單一變也推給你（雖然規則可能擋讀，但寬 query 本身設計就錯）。修法：query 用 where 縮到 client 相關的最小集合，訂閱範圍與 Security Rules 的授權範圍對齊。

Case 4：每次 snapshot 重畫整個列表

onSnapshot callback 裡拿 snap.docs 整個重建 UI，而不用 docChanges()，列表大時每次推送都重畫、UI 卡頓。修法：用 docChanges() 只處理 added / modified / removed 的增量，UI 做局部更新。

Case 5：高扇出直接訂閱原始資料

直播觀看數讓每個觀眾訂閱原始事件流自己算，扇出 × 結果集大小的 re-read 爆炸。修法：後端彙總寫 summary document，觀眾訂閱 summary 一份，把推送 payload 與 re-read 都壓到最小。

容量與觀測：扇出 × 變動頻率的成本估算

listener 成本估算的公式是 初次訂閱 read + Σ(訂閱數 × 每次變動推送的 document 數)。把它拆開算：高扇出（很多人訂同一資料）× 高變動頻率（資料常變）× 大結果集（每次推很多筆）三者相乘，是成本爆炸的組合；任一維壓低都有效。設計時對每個 listener 問這三維的量級，乘起來對照預算。

連線數也有規模考量：Firestore 對並行連線與 listener 有規模上限（以官方當前限制為準），超大扇出（百萬級同時在線）會撞到連線層的天花板，而不只是計費問題。觀測上要監控 read 用量的來源拆分——哪些 collection 的 read 來自 listener 推送、哪些來自一次性查詢，把 listener 的 re-read 成本獨立出來看，接回 4.20 Observability Evidence Package 與 9.7 成本邊界。

邊界與整合：即時需求超過 listener 該換推送架構

snapshot listener 適合「中等扇出、client 要即時看到自己相關資料變動」的場景——協作編輯、聊天、個人通知、儀表板。它撐不住的訊號是扇出或變動頻率推高 re-read 成本到不划算，或連線規模撞到天花板：

超高扇出的廣播：百萬人看同一場直播的即時數據，per-listener 的 re-read 模型成本遠高於自建一次讀取、WebSocket broadcast 推 N 份的模型。這類純廣播（一份資料推給海量訂閱者）用專門的推送層（自建 WebSocket / SSE、或 pub/sub + 邊緣推送）更划算，見 03 訊息佇列的 fan-out 設計
複雜事件處理的即時：即時推送需要先做跨資料聚合、過濾、轉換，listener 只能訂 query 結果、表達不了。這類要後端處理後再推，listener 不是合適的傳輸層
即時是核心且規模化：當即時同步是產品核心且扇出規模化，整個即時層自建是 Firestore → 自建 relational 裡「realtime / offline 要重建」這項工作量——遷移時這層最容易被低估

判讀的起點是「這份即時是 client 看自己相關的少量資料，還是海量訂閱者看同一份廣播」。前者 listener 是正解，後者從一開始就該用推送架構，而不是把 listener 的扇出推到極限。

下一步路由

上層：Firestore overview（realtime / offline 能力與容量特性）
sibling：distributed counter 高頻寫入（summary 彙總的另一面）
授權對齊：Security Rules 授權建模（訂閱範圍與授權範圍一致）
推送架構：03 訊息佇列（超高扇出 broadcast 的去處）
成本邊界：9.7 成本邊界與 efficiency
官方：Firestore pricing、Listen to realtime updates

MySQL Orchestrator Failover：HA 工具自己怎麼 HA？raft cluster + GTID-based promotion 的兩段 paradox

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 Orchestrator failover — 自動 HA 的工具雙層架構跟 5 段 decision tree。

用詞註：Orchestrator 工具命名與 MySQL 5.7- SQL 命令（SHOW SLAVE STATUS / CHANGE MASTER TO / STOP SLAVE 等）沿用 master / slave。MySQL 8.0+ 改採 primary / replica、但 SQL syntax 仍保留別名。本文出現 master / slave 處對應 8.0 primary / replica 概念。

讀者第一個會問的問題：「Orchestrator 自己會壞嗎？壞了誰 failover Orchestrator？」這個 paradox 是 任何 HA 工具 的核心議題、PostgreSQL 的 Patroni 用 DCS（etcd / Consul）解決、MySQL 的 Orchestrator 用 內建 raft cluster 解決：

1被管的 (Layer 1):       primary MySQL → replica MySQL → replica MySQL → ...
2管理者 (Layer 2):       orchestrator instance × 3 (or 5) — 用 raft 自己選 leader
3管理者狀態存放 (Layer 3): 每個 orchestrator instance 自己有 MySQL backend (state)

Orchestrator 3 個 instance 構成 raft cluster、自己選 leader。Leader 才有 寫入 state + 發起 failover 權限、其他 instance follower 同步 state。Leader 失聯 → raft 重新選 leader（< 10 秒）、新 leader 繼續 manage MySQL topology。

跟 PostgreSQL Patroni 不同：Patroni 需要 外部 DCS（etcd / Consul）作為 source of truth、Patroni 本身 stateless；Orchestrator 內建 raft、不需要外部 DCS、但每個 orchestrator instance 需要 自己的 MySQL backend 存 state。

Orchestrator 雙層架構：管 MySQL 的 Layer 2

Layer 1 是 被管的 MySQL cluster — primary + replica 群。Layer 2 是 管理者 — orchestrator instance 群。Layer 2 監視 Layer 1、Layer 2 自己用 raft 自管。

Layer 1 對 Orchestrator 的需求：

所有 MySQL server 啟用 binlog + log_slave_updates（讓 Orchestrator 看得到 binlog event）
啟用 GTID（Orchestrator failover decision 依賴 GTID 比較進度、不用算 binlog position）
每個 server 有 orchestrator user（GRANT SUPER, REPLICATION CLIENT, REPLICATION SLAVE, PROCESS ON *.* TO 'orchestrator'@'%'）

Layer 2 配置：

 1# /etc/orchestrator.conf.json (簡化)
 2{
 3  "MySQLOrchestratorHost": "orchestrator-backend.example.com",
 4  "MySQLOrchestratorPort": 3306,
 5  "MySQLOrchestratorDatabase": "orchestrator",
 6
 7  # 用 backend MySQL（每個 orchestrator instance 自己一個）+ raft 同步
 8  "RaftEnabled": true,
 9  "RaftDataDir": "/var/lib/orchestrator",
10  "RaftBind": "10.0.1.10:10008",
11  "RaftNodes": [
12    "orchestrator1.example.com:10008",
13    "orchestrator2.example.com:10008",
14    "orchestrator3.example.com:10008"
15  ],
16
17  # Topology discovery
18  "DiscoverByShowSlaveHosts": true,
19  "InstancePollSeconds": 5,
20
21  # Failover detection
22  "FailureDetectionPeriodBlockMinutes": 60,
23  "RecoveryPeriodBlockSeconds": 3600,
24
25  # Failover automation
26  "RecoverMasterClusterFilters": ["*"],
27  "RecoverIntermediateMasterClusterFilters": ["*"],
28  "PreFailoverProcesses": ["/usr/local/bin/orchestrator-fence-master.sh"],
29  "PostFailoverProcesses": ["/usr/local/bin/orchestrator-notify-proxysql.sh"]
30}

Stage 1：Topology Discovery — 自動發現 + manual seed

Orchestrator 啟動後 seed 一個或多個 MySQL server、自動發現整個 topology：

連 seed server → SHOW SLAVE HOSTS → 發現所有 replica
對每個 replica 跑 SHOW MASTER STATUS + SHOW SLAVE STATUS → 建立 父子關係 graph
持續 poll（InstancePollSeconds=5）每 5 秒更新 topology state

Topology graph 的 node：

Master：no slave status、被多個 replica 指
Intermediate master：有 slave status 也有下游 replica（chained replication）
Co-master：互相 replicate（罕見、active-passive failover 場景）
Replica：有 slave status、無下游

Topology 可視化：Orchestrator UI（web）顯示 cluster 樹狀圖、操作員可手動 drag-and-drop replica 重新 attach。

Stage 2：Failure Detection — 區分真壞跟假壞

Orchestrator 不是 單一 ping 失敗就 failover、有 holistic detection：

指標	解讀
Master `connect fail`	可能 network blip、不一定真壞
Master `timeout poll`	可能 master loaded、不一定真壞
Replica 全部 `IO error`	Master 真的對 replica 不可達、強訊號
Replica 看到 master 還活著	Master 對 orchestrator 不可達、可能是 orchestrator network 問題、不是 master
Replica lag 暴增	Master 可能還活著但 overload、不一定要 failover

Detection rule：Master 自己連不上 + 至少一個 replica 也看 master IO error → 判定 DeadMaster。單一 orchestrator 連不上 master 不觸發 — 防 orchestrator network 隔離造成的 false positive failover。

Stage 3：Failover Decision Tree — 選哪個 replica promote

判定 DeadMaster 後不是 選最近的 replica、用 decision tree：

GTID 最新的 replica：跟舊 master 同步最完整（用 Executed_Gtid_Set 對比）
同 DC / AZ 的 replica（如果有 multi-DC 配置）
手動指定的 promotion candidate（promote_rule=must 或 prefer）
Semi-sync ack 的 replica（如果 semi-sync 啟用）

GTID 最新是基本要求。其他規則是 tie-breaker。

Errant transaction 處理：選出的 candidate replica 如果有 errant GTID（master 沒有但 replica 有的 transaction）、Orchestrator 不會 promote 這個 replica（怕 errant transaction 變成 new master state）。改選次優 candidate。

Stage 4：Promote Action — 5 步 atomic（理想情況）

選好 candidate 後執行：

Fence 舊 master（pre-failover hook）：把舊 master 對外停掉、防 split-brain
STOP SLAVE on candidate：candidate 不再從舊 master pull binlog
RESET SLAVE ALL on candidate：candidate 清掉 slave 配置、變成獨立 master
Re-attach 其他 replica：用 CHANGE MASTER TO MASTER_HOST=, MASTER_AUTO_POSITION=1（GTID auto-position）
Post-failover hook：通知 ProxySQL / HAProxy / DNS 切流量

每步任一失敗、Orchestrator 可能停在中間狀態、需要 人工介入。

Stage 5：Recovery — Old master 怎麼處理

Failover 完、舊 master 可能：

真的死了：物理 server 故障 / region outage → 不必處理、未來修好作為新 replica re-attach
Network blip 後復活：舊 master 自己 仍認為自己是 master、再次接受寫入會造成 split-brain

修法：

Fencing（必須）：pre-failover hook 把舊 master 對外 firewall 掉、或 force read_only=1、防舊 master 復活後接受寫入
Manual reset：舊 master 復活後人工 confirm 是否變成新 master 的 replica（不要自動、自動容易誤判）

Orchestrator UI 在偵測到 errant master 時會標 warning、不會自動處理。

5 個 Production 踩雷

1. Split-brain — pre-failover hook 沒 fence 舊 master

舊 master network blip 後復活、orchestrator 已 promote 新 master、application 部分 instance 連舊 master、部分連新 master、雙寫造成 data divergence。

修法：

Pre-failover hook 必須 fence（不是可選）：
- 物理 fencing：透過 IPMI 重啟 / 關 server
- Network fencing：透過 firewall rule 切斷 server 對外連線
- MySQL fencing：SET GLOBAL read_only=1 + KILL 所有 active connection
用 VIP / DNS 配合：fence 完才切 VIP / DNS 到新 master、避免 application 連舊 IP
不依賴 application 連線 string 動態變更（DNS TTL 期間仍可能連舊 IP）

2. Pre-failover hook 失敗 — Orchestrator 該停還是該繼續

Pre-failover hook 跑失敗（fence script 因為 SSH 不通、IPMI 沒回應）。Orchestrator 有兩種策略：

PostponeReplicaRecoveryOnLagMinutes：等 hook 成功才繼續、可能永遠 stuck
FailMasterPromotionOnLagMinutes：放棄 promotion、留 cluster degraded（無 master）

兩者都不理想。多數 production 選 PostponeReplicaRecoveryOnLagMinutes=10：等 10 分鐘 hook 成功、超時則 alert 人工介入、不繼續 auto-promote（人工 review 才是正確選擇）。

3. Anti-flapping 窗口太短 — Master 抖動 vs 真死

FailureDetectionPeriodBlockMinutes=60：偵測一次 failure 後 60 分鐘內不再 trigger failover（即使再偵測到 failure）。預設 60 分鐘對 第一次 failover 後 master 仍不穩 的場景太長 — 60 分鐘內 master 真的死了第二次、orchestrator 不 failover。預設 60 分鐘對 網路抖動 的場景太短 — 60 分鐘內可能 multiple failover、cluster 一直在 promote。

修法：

評估自己 cluster 的 typical recovery time：1-2 小時、設 FailureDetectionPeriodBlockMinutes=120
監控 failover 頻率、單週 > 2 次表示底層問題（網路 / hardware）、不是調 anti-flapping window 解決

4. GTID errant transaction — Orchestrator 拒絕 promote 但沒講原因

Candidate replica 有 errant GTID（從別處 inject 的 transaction）、Orchestrator 拒絕 promote、log 訊息 errant GTID detected、但 沒寫實際是哪個 GTID。On-call 在事故中沒辦法 debug。

修法：

平時 監控 errant GTID：定期跑 pt-show-grants + GTID 比對、不要等 failover 才發現
Orchestrator 的 OrchestratorIssuesAGtidPurge 設 true：preview mode 看 errant GTID 的位置
Errant GTID 來源通常是 人為 inject（DBA 直接寫 replica 然後 binlog 出現）、教育 DBA 不要直接連 replica 寫

5. VIP / ProxySQL 整合斷層 — 切流量延遲

Post-failover hook 跑完 script 上報「我切完了」、但實際 VIP / DNS / ProxySQL 還沒看到變化。Application 連 stale endpoint 30 秒、寫入失敗。

修法：

Post-failover hook 不只 trigger 切換、要 wait 切換完成：
- VIP：等 arping 確認新 IP 已 propagate
- ProxySQL：等 mysql_servers runtime table 更新 + 確認 monitor module 看到新 primary
- DNS：先把 TTL 降到極短（5 秒）、再切 DNS、等 TTL 過
Orchestrator PostFailoverProcessesFailOnError=true：hook 失敗整個 failover 標記失敗、人工檢查
ProxySQL 用 mysql_replication_hostgroups 自動偵測 read_only flag、可不依賴 hook（推薦）

容量規劃要點

元件	配置建議
Orchestrator instance 數量	3（raft cluster 最小、odd number、容忍 1 個故障）
每個 instance MySQL backend	1 個獨立 MySQL（不要共用、不要用被管的 cluster）
Backend MySQL spec	t3.small 級別、Orchestrator state ~1 GB
Network latency	raft 同 region 內、跨 AZ 可接受（< 5ms）、跨 region 不推薦
InstancePollSeconds	5 秒（預設）— 越小越敏感、越大越省連線

3 instance raft cluster 容忍 1 instance 故障。5 instance 容忍 2 instance 故障但 quorum cost 高、99% 場景 3 個夠用。

跟其他模組整合

跟 Replication topology

Orchestrator 100% 依賴 GTID + binlog ROW format（Replication Topology）。沒 GTID 用 binlog position、failover 時 re-pointing 容易出錯、Orchestrator 強烈建議 GTID。

跟 ProxySQL

ProxySQL 用 mysql_replication_hostgroups 自動偵測 read_only flag — orchestrator 切完新 master 後、ProxySQL monitor module 自動看到新 master 的 read_only=0、自動更新 routing、application 不用改 connection string。

這個 無需 post-failover hook 通知 ProxySQL 的整合是 ProxySQL + Orchestrator 組合的最大優勢、比手動 hook 通知 VIP / DNS 可靠。

跟 Patroni（PostgreSQL 對應）

維度	Orchestrator	Patroni
DCS	內建 raft（不需外部）	外部（etcd / Consul / ZooKeeper）
State storage	每 instance 一個 MySQL backend	DCS 本身
Topology discovery	自動 + manual seed	自動（透過 DCS）
Fencing	Pre-failover hook（自實作）	Watchdog（內建）
5+ year 生產驗證	GitHub / Booking.com / Shopify	Zalando / 多個歐美企業

兩者角色相同、設計取捨不同。Patroni 對 DCS 高依賴、Orchestrator 對自己 backend MySQL 高依賴。

跟 RDS / Aurora MySQL

AWS RDS / Aurora 內建 multi-AZ failover、不用 Orchestrator。Aurora failover < 30 秒、RDS failover ~60-120 秒。Aurora 把 replication / failover 整套封進 storage layer、application 看到的是 reader endpoint + writer endpoint。

詳見 Aurora vendor page。

跟 Vitess

Vitess shard 內部用 VTOrc（Vitess fork of Orchestrator）— 概念跟 Orchestrator 一致、針對 Vitess topology metadata 適配。

詳見 Vitess sharding 設計 篇（待寫）。

PostgreSQL Index Selection：B-tree / GIN / GiST / BRIN / Hash 對應 workload 的決策樹

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 index 選型 — 何時用哪種 index、跟 query-optimization 的「為什麼這個 plan 慢」互補。

6 種 Index Method 對應 Workload

PG 有 6 種 index access method、各有自己擅長的 query pattern：

Index method	適用 query pattern	典型 column type	儲存成本
B-tree	`=` / `<` / `>` / `BETWEEN` / `IS NULL` / `LIKE 'prefix%'`	任何 scalar、最常用	中
Hash	純 `=` 比對	scalar、不常用	低
GIN	`@>` / `?` / `?	` / FTS / array 包含	JSONB / tsvector / array	高（write 慢）
GiST	範圍 / 空間 / 自訂 operator	geometry / tsvector / range	中
SP-GiST	Non-balanced 樹結構	IP / phone prefix / quad-tree	中
BRIN	大表的 range scan、physical order 跟 logical order 相關	timestamp / id（append-only）	極低

選錯 index 的代價：

Write workload：每 write 都更新所有相關 index、5 個 unused index = 5x write 放大
Storage：JSONB 加 GIN 可能比表本身還大
Plan misjudge：planner 看到 index 不一定用、EXPLAIN 才確認

B-tree：預設選擇、95% workload 適用

B-tree 是 PG 預設 index、CREATE INDEX 不指定 method 就是 B-tree：

1CREATE INDEX idx_orders_user_id ON orders (user_id);
2CREATE INDEX idx_orders_created_at ON orders (created_at);

B-tree 擅長的 query：

 1-- 等值
 2SELECT * FROM orders WHERE user_id = 42;
 3
 4-- 範圍
 5SELECT * FROM orders WHERE created_at BETWEEN '2025-01-01' AND '2025-01-31';
 6
 7-- IS NULL
 8SELECT * FROM orders WHERE shipped_at IS NULL;
 9
10-- Prefix LIKE
11SELECT * FROM products WHERE sku LIKE 'ABC%';

B-tree 不擅長：

LIKE '%suffix'（前綴 wildcard）→ 改 trigram + GIN
column @> array（包含）→ 改 GIN
JSON 內部 path query → 改 GIN on JSONB

Multi-column B-tree 的順序很重要：

1-- 假設常 query: WHERE user_id = ? AND status = ?
2CREATE INDEX idx_orders_user_status ON orders (user_id, status);  -- 對
3CREATE INDEX idx_orders_status_user ON orders (status, user_id);  -- 錯（status 選擇性低）

順序原則：

等值 column 在前（高選擇性）
範圍 column 在後（B-tree leftmost 規則）
selectivity 高的在前（filter 更多 row）

GIN：JSONB / FTS / Array 的標配

GIN（Generalized Inverted Index）對「一個 value 內含多個 sub-element」的 column 高效：

 1-- JSONB
 2CREATE INDEX idx_products_metadata ON products USING GIN (metadata);
 3
 4-- Array
 5CREATE INDEX idx_articles_tags ON articles USING GIN (tags);
 6
 7-- Full-text search
 8CREATE INDEX idx_articles_content ON articles USING GIN (to_tsvector('english', content));
 9
10-- Trigram（fuzzy match）
11CREATE EXTENSION pg_trgm;
12CREATE INDEX idx_products_name_trgm ON products USING GIN (name gin_trgm_ops);

GIN 代價：

Write 慢 2-10x：每個 sub-element 都要更新 inverted index
Storage 大：可能比表還大
Vacuum 沉重：bloat 累積快

Operator class 選擇影響大：

Op class	適用	索引大小	支援 operator
`jsonb_ops`（預設）	通用	大	`@>` / `?` / `?	`/`?&`
`jsonb_path_ops`	只 `@>` containment	1/3-1/2	只 `@>`

只用 @> query 時、jsonb_path_ops 救大量 storage。

GiST：範圍 / 空間 / 自訂

GiST（Generalized Search Tree）擅長範圍跟空間：

1-- 範圍 type（PostgreSQL 內建 int4range / tsrange 等）
2CREATE INDEX idx_bookings_period ON bookings USING GiST (period);
3
4-- 空間（PostGIS）
5CREATE INDEX idx_locations_geom ON locations USING GiST (geom);
6
7-- Exclusion constraint（範圍不重疊）
8ALTER TABLE bookings ADD CONSTRAINT no_overlap
9EXCLUDE USING GiST (room_id WITH =, period WITH &&);

GiST vs GIN 對 FTS 的選擇：

維度	GIN	GiST
Lookup 速度	快 3x	慢
Update 速度	慢 3x	快
索引大小	大	小
適合場景	Read-heavy FTS	Write-heavy / 即時更新

多數 FTS workload 選 GIN — read 占多、index size 換 query latency 划算。

BRIN：大表 + Physical Order Correlated

BRIN（Block Range Index）對 physical 儲存順序跟 logical 順序強相關 的 column 高效：

1-- timestamp column（append-only insert、physical 順序 = 時間順序）
2CREATE INDEX idx_events_created_at ON events USING BRIN (created_at);

BRIN 機制：每個 block range（預設 128 page）記 min/max、query 時跳過 range 外的 block。

適用場景：

append-only 表：log、metrics、events
大表（10GB+）：B-tree 太貴、BRIN 1/1000 大小
column physical order 跟 query 一致：時間欄、自增 id

BRIN 失效情境：

UPDATE 破壞 physical order（row 被 vacuum 移到別 block）→ BRIN 失效
隨機 insert（uuid / hash id）→ BRIN range 完全沒選擇性

何時不該用 BRIN：表 < 1GB（沒省 storage 收益）、column 沒 physical order correlation（CLUSTER 後可能改善）。

Partial Index：條件式 index 救 storage

對 只 query 部分 row 的 column、partial index 救大量 storage：

 1-- 只 index unshipped order
 2CREATE INDEX idx_orders_unshipped ON orders (created_at)
 3WHERE shipped_at IS NULL;
 4
 5-- 只 index active user
 6CREATE INDEX idx_users_active ON users (email)
 7WHERE status = 'active';
 8
 9-- 只 index 高金額 transaction
10CREATE INDEX idx_orders_high_value ON orders (user_id)
11WHERE total > 1000;

Partial index 的 query 要 完全匹配 WHERE 條件 才用得到：

1-- 用得到 partial index
2SELECT * FROM orders WHERE shipped_at IS NULL AND created_at > '2025-01-01';
3
4-- 用不到（planner 不 prove WHERE 包含 partial 條件）
5SELECT * FROM orders WHERE created_at > '2025-01-01';

實務 size 救法：unshipped order 只 1% 總量、partial index 1/100 大小。

Expression Index：對函式結果 index

 1-- 對 lowercased email index（case-insensitive search）
 2CREATE INDEX idx_users_email_lower ON users (lower(email));
 3SELECT * FROM users WHERE lower(email) = lower('USER@example.com');
 4
 5-- 對 JSONB 內部欄位
 6CREATE INDEX idx_products_category ON products ((metadata->>'category'));
 7SELECT * FROM products WHERE metadata->>'category' = 'shoes';
 8
 9-- 對日期截斷
10CREATE INDEX idx_orders_day ON orders (date_trunc('day', created_at));

Expression 必須 IMMUTABLE — now() / random() 不能用、timezone('UTC', ts) 可以。

Covering Index（INCLUDE）：避免回表

PG 11+ 支援 INCLUDE column：

1-- 只 index user_id、但 query 常要 email
2CREATE INDEX idx_users_user_id_covering ON users (user_id) INCLUDE (email);
3
4-- Index-only scan：不用回表
5SELECT email FROM users WHERE user_id = 42;

INCLUDE column 不參與 sorting / equality、只放 leaf node、救 IO。

Index 選擇決策樹

 1Query pattern 是什麼？
 2
 3├─ 等值 / 範圍 / prefix LIKE / IS NULL
 4│  └─ B-tree（90% 場景）
 5│     ├─ 只 query 部分 row？→ Partial B-tree
 6│     ├─ 對函式結果？→ Expression B-tree
 7│     └─ 需要回表更多 column？→ Covering（INCLUDE）
 8│
 9├─ JSONB 內部 query / array 包含 / FTS
10│  └─ GIN
11│     ├─ 只用 @>？→ jsonb_path_ops 救 storage
12│     └─ FTS write-heavy？→ 改 GiST
13│
14├─ 範圍 type（int4range / tsrange）/ 空間
15│  └─ GiST
16│
17├─ 大表 + append-only + physical order correlated
18│  └─ BRIN
19│
20├─ 純 equality + 簡單 column
21│  └─ Hash（很少用、B-tree 通常更好）
22│
23└─ Non-balanced 樹（IP prefix / quad-tree）
24   └─ SP-GiST（罕見）

5 個 Production 踩雷

Case 1：過度 index（write 放大）

情境：team「為了 query 快」對 20 個 column 各建 index、寫入量大時 INSERT 慢 10x。

每個 INSERT 要更新 20 個 index、WAL volume 也跟著放大、replication lag 拉長。

修法：

用 pg_stat_user_indexes 找 idx_scan = 0 的 index、可能根本沒用
用 pg_stat_statements 找實際被執行的 query、反推真正需要的 index
同 column 多 index（user_id 單欄 + (user_id, status) 多欄）通常可拆掉單欄

Case 2：Partial index 條件跟 query 不匹配

情境：建 WHERE status = 'active' partial index、application query 寫 WHERE status IN ('active')、planner 不 prove 等價、不用 index。

修法：

Partial 條件用最 generic form（避免 IN / OR 跟 = 的差異）
寫完用 EXPLAIN 驗證 query 真的用到 partial index
Application 統一 query 寫法、不要混 = 跟 IN 跟 ANY

Case 3：B-tree 對 JSONB 內部欄位無效

情境：對 metadata JSONB column 建 B-tree、query metadata->>'category' = 'shoes' 不用 index。

B-tree 對 整個 JSONB 排序、但 path query 不是整個 JSONB 的比對。

修法：

對固定 path 建 expression index：CREATE INDEX ... ON products ((metadata->>'category'))
對動態 path 建 GIN index：CREATE INDEX ... USING GIN (metadata)
兩者並存可、EXPLAIN 看 planner 選哪個

Case 4：BRIN 對非 correlated 資料無效

情境：對 user_id 建 BRIN index（user_id 是隨機 UUID）、query 完全跑 seq scan。

UUID 沒 physical order correlation、每個 block range 的 min/max 涵蓋整個 ID space、BRIN 完全沒 prune 效果。

修法：

BRIN 只用 timestamp / 自增 id / 其他自然 correlate 的 column
用 pg_stats 看 correlation value、< 0.1 就不適合 BRIN
真要對 random column 加 index、回 B-tree

Case 5：Multi-column index 順序錯

情境：常見 query WHERE status = 'pending' AND user_id = 42、建 index (status, user_id)、效能差。

status 只 5 個 distinct value、選擇性 1/5；user_id 1M distinct、選擇性 1/1M。Index leftmost 是 status、scan range 太大。

修法：

1-- 拆兩個或調順序
2CREATE INDEX idx_user_status ON orders (user_id, status);
3
4-- 或加 partial 限定低選擇性 column
5CREATE INDEX idx_orders_pending ON orders (user_id) WHERE status = 'pending';

跟 MySQL Index 差異

維度	PostgreSQL	MySQL
Index method	6 種（B-tree / Hash / GIN / GiST / SP-GiST / BRIN）	主要 B-tree、空間另算 R-tree
預設	B-tree	B-tree（InnoDB clustered）
Clustered index	沒有原生（CLUSTER 一次性）	InnoDB primary key 永遠 clustered
Covering	INCLUDE（PG 11+）	自然支援（secondary index 帶 PK）
JSON index	GIN on JSONB（強）	functional index on JSON（弱）
Partial index	原生支援	8.0+ 支援（受限）
Expression index	原生支援	5.7+ functional index
BRIN-like	原生	沒有
Spatial	GiST / PostGIS	R-tree（基本）

PG index 系統比 MySQL 表達力高、但代價是 選對 index method 是 application 責任、MySQL 預設 B-tree 多數場景夠用。

下一步

看 query-optimization 驗證 index 有沒有被 plan 用到
回 PostgreSQL overview 看全圖

MySQL InnoDB Tuning：為什麼一個 100 GB DB 在 64 GB RAM server 上 query 慢 5 倍

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 InnoDB engine tuning — 4 個影響最大的 knob 跟對應 production 行為。

開場：常見痛點

一個 100 GB MySQL DB、64 GB RAM 的 server、p99 query latency 從 5ms 飆到 50ms。第一直覺是 server overload — 但 CPU < 30%、disk IO 50 IOPS。為什麼慢？

打開 SHOW VARIABLES LIKE 'innodb_buffer_pool_size'：134217728（128 MB）。對 64 GB RAM server、buffer pool 只用了 128 MB、剩 99.9% 的 working set 每次 query 都要從 disk 讀。CPU 閒、disk 沒滿、是因為 MySQL 自己不用 RAM — 用 InnoDB 預設值跑 100 GB DB 等於 disk-only 模式。

這個案例展示 InnoDB tuning 的核心：MySQL 預設值是 為 16 GB RAM 設計、production server RAM 越大、預設值離 optimal 越遠。

4 個 critical knob

對 90% production case、調這 4 個就解決大部分 InnoDB 性能問題：

Knob	預設	對 production 建議	影響
`innodb_buffer_pool_size`	128 MB	系統 RAM 50-75%（dedicated server 75%）	讀效能（資料能否在 RAM）
`innodb_log_file_size`	48 MB（×2 file）	1-4 GB（依寫吞吐、8.0.30+ 改 `innodb_redo_log_capacity`）	寫效能（flush 頻率）
`innodb_flush_log_at_trx_commit`	1 (full ACID)	1（金融 / 訂單）/ 2（高吞吐可容 1 秒 loss）	寫吞吐 vs durability
`innodb_io_capacity` + `_max`	200 / 2000	SSD: 2000 / 20000; NVMe: 10000 / 40000	flush 速度（適配儲存）

其他 knob（innodb_thread_concurrency / innodb_buffer_pool_instances / innodb_read_io_threads 等）也有影響、但對多數 case 先把這 4 個調對 比微調其他 20 個重要。

Knob 1：Buffer pool — 把 working set 拉進 RAM

InnoDB buffer pool 是 page cache — 從 disk 讀過的 16 KB page 快取在 RAM、下次 query 直接 RAM 讀。Buffer pool 越大、cache hit ratio 越高、disk IO 越少。

Sizing：

Dedicated MySQL server：RAM 70-80%（剩 20-30% 給 OS / MySQL 其他結構 / connection buffer）
Shared server：RAM 30-50%（看其他 process 需求）
Container / Kubernetes：對 container memory limit 70%（不是 host RAM）

1# 64 GB RAM dedicated server
2innodb_buffer_pool_size = 48G
3innodb_buffer_pool_instances = 8  # 分 8 個 instance 降 mutex contention（每 instance 6 GB）

Buffer pool warm-up：MySQL 重啟後 buffer pool 是空的、要慢慢從 disk 把熱資料拉回 RAM。預設 5.7+ MySQL 啟動時 dump buffer pool LRU list 到 disk、重啟時 自動 restore：

1innodb_buffer_pool_dump_at_shutdown = 1
2innodb_buffer_pool_load_at_startup = 1
3innodb_buffer_pool_dump_pct = 75  # 只 dump 最 hot 的 75% page list

沒這個 warm-up、重啟後第 1 個小時 query latency 都偏高、application 看到 p99 spike。

Knob 2：Redo log — flush 頻率跟寫吞吐

InnoDB 寫入 先寫 redo log（順序寫）、再非同步寫到 data file（隨機寫）。Redo log 滿了強迫 flush data file、flush 期間寫吞吐降。

innodb_log_file_size 控制每個 log file 大小（預設 2 個 file）：

5.7：預設 48 MB × 2 = 96 MB total
8.0：預設仍是 48 MB × 2、8.0.30+ 改用動態 innodb_redo_log_capacity（default 100 MB total）

對 5K WPS server、預設容量可能 每分鐘 flush 一次、寫吞吐持續 stall。提高到 1-4 GB total、flush 改成每 30 分鐘一次、寫吞吐穩定。

1innodb_log_file_size = 2G       # 大寫吞吐 server 設 1-4 GB
2innodb_log_files_in_group = 2   # 預設 2 個就夠
3innodb_log_buffer_size = 64M    # log 寫 disk 前的 RAM buffer

Trade-off：log file 越大、recovery 時間越長（crash 後 InnoDB 要 replay 全部 log）。1 GB log 通常 < 1 分鐘 recovery、4 GB 可能 5 分鐘以上。SSD / NVMe 這個 trade-off 不嚴重、HDD 要注意。

MySQL 8.0+ 改進：log file 可動態調整（不用重啟）、且 automatic redo log writer threads 降低 mutex contention。

Knob 3：Flush method — ACID vs 吞吐

innodb_flush_log_at_trx_commit 控制 每個 transaction commit 時要不要 flush log 到 disk：

1（預設）：每次 commit fsync log file → zero data loss on crash
2：每次 commit 寫 log file（但 OS-level cache、不 fsync）→ server crash 不丟、OS crash 丟 1 秒
0：每秒 fsync 一次 → 任何 crash 丟 1 秒

sync_binlog 對應 binlog（不是 InnoDB log）：

1（建議）：每次 commit fsync binlog
0：依賴 OS sync、容易丟 binlog → replication / CDC 風險

Production 組合：

用途	`innodb_flush_log_at_trx_commit`	`sync_binlog`	寫吞吐	Crash data loss
金融 / 訂單 / 支付	1	1	baseline	0
一般 web 應用	1	1	baseline	0
高寫吞吐 + 容忍 1 sec loss	2	1	+30-50%	OS crash 丟 1 秒
Dev / test	2	0	+50-100%	不重要
不要這樣設	0	0	+100%	任意 crash 丟資料

多數 production 用 1 + 1、雖然慢但 簡單可預測。改成 2 + 1 之前要明確 能容忍 1 秒 data loss、且通常 review 過 Disaster Recovery Plan。

Knob 4：IO capacity — 適配儲存

InnoDB 後台 flush 速度受 innodb_io_capacity 限制：

innodb_io_capacity（一般）：後台 flush 目標 IOPS
innodb_io_capacity_max（突發）：emergency flush 上限

對應儲存類型：

儲存	IOPS 能力	`innodb_io_capacity`	`innodb_io_capacity_max`
7200 RPM HDD	~80 IOPS	100	200
SSD (SATA)	10K-50K IOPS	2000	20000
NVMe SSD	100K-500K IOPS	10000	40000
EBS gp3	3000-16000 IOPS	5000	16000
EBS io2	50K-256K IOPS	20000	60000

預設 200 / 2000 是 為 HDD 設計、SSD / NVMe server 用預設值 = InnoDB 自我限速、flush 慢、寫入瓶頸。

1# NVMe SSD server
2innodb_io_capacity = 10000
3innodb_io_capacity_max = 40000
4innodb_flush_neighbors = 0  # NVMe 不需要 group flush 相鄰 page

5 個 Production 踩雷

1. Buffer pool 沒 warm-up — 重啟後 1 小時 p99 飆

MySQL 重啟（OS upgrade / config change / failover）後、buffer pool 是空的、所有 query 第一次都 disk 讀、p99 latency 飆 5-10x、application 看到 timeout。

修法：

啟用 innodb_buffer_pool_dump_at_shutdown=1 + innodb_buffer_pool_load_at_startup=1
對 沒 graceful shutdown 的 crash（OOM / kernel panic）、buffer pool 沒 dump、warm-up 後第一個小時仍辛苦
重要 server 重啟前手動 dump：SET GLOBAL innodb_buffer_pool_dump_now=ON
對於不能容忍 cold cache 的場景、failover 前 先 pre-warm new primary（用 query replay 把 hot data 拉到 buffer pool）

2. Log file size 設太小 — checkpoint storm

innodb_log_file_size=48M 預設、高寫吞吐 server log 每分鐘 flush 一次、flush 期間 checkpoint storm — 寫吞吐降 50%、p99 暴增。錯誤訊號是 innodb_log_waits 持續 > 0。

修法：

監控 SHOW STATUS LIKE 'Innodb_log_waits' — 應該長期接近 0
提高 innodb_log_file_size 到 1-4 GB（依寫吞吐）
8.0+ 可動態調整、5.7 需要 正常 shutdown 後改、開啟前先 dump buffer pool（避免 cold cache）

3. `sync_binlog=0` 換速度 — replication 永久 broken 風險

開發 / staging 改 sync_binlog=0（加快寫入）、後來複製到 production 配置、production 同樣 sync_binlog=0。OS crash 後 binlog 缺最後幾秒 transaction、replica 跟 primary GTID set diverge、replication broken、要 重建 replica from base backup（小時級 recovery）。

修法：

Production 永遠用 sync_binlog=1、不要為了寫吞吐犧牲 binlog durability
開發 / staging 配置跟 production 隔離、不要直接 copy config
Replica 失聯後 用 GTID 自動 re-attach（不是 binlog position）— 仍然需要 binlog 完整、sync_binlog=0 仍是風險

4. IO scheduler — 不是 InnoDB tuning 但影響大

Linux noop / deadline / cfq IO scheduler 對 SSD / NVMe 影響大：

cfq（traditional spinning disk default）：對 SSD 嚴重 bottleneck
deadline：對 SSD 較好、但有 latency cap
noop / none：對 NVMe 最好（讓 device 自己處理 queue）

Production check：

1cat /sys/block/sda/queue/scheduler
2# 應該顯示： [none] mq-deadline (NVMe)
3# 或：         noop deadline [cfq] (cfq 是錯的)

不是 InnoDB knob、但影響 InnoDB IO behavior > 30%。InnoDB tuning 前先確認 OS-level IO scheduler 對。

5. Undo log 膨脹 — purge 跟不上

Undo log 紀錄 未來可能 rollback 需要的舊版本 row。長 transaction（hours-level）讓 undo log 持續累積、不能 purge、最後 InnoDB tablespace 膨脹幾 GB、disk 滿。

訊號：

SHOW ENGINE INNODB STATUS 看 History list length 持續成長（正常 < 1000、異常 millions）
information_schema.innodb_metrics 的 trx_rseg_history_len

修法：

找 long-running transaction：SELECT * FROM information_schema.innodb_trx WHERE trx_started < NOW() - INTERVAL 1 HOUR
KILL 該 transaction（謹慎、可能 application bug）
8.0+ 用 separate undo tablespace（innodb_undo_tablespaces）、不污染 main tablespace、且可以 truncate

容量規劃要點

對 64 GB RAM、NVMe SSD、5K WPS、100 GB DB 的 server：

 1# my.cnf production-ready baseline
 2[mysqld]
 3# Buffer pool (75% RAM)
 4innodb_buffer_pool_size = 48G
 5innodb_buffer_pool_instances = 8
 6innodb_buffer_pool_dump_at_shutdown = 1
 7innodb_buffer_pool_load_at_startup = 1
 8
 9# Redo log
10innodb_log_file_size = 2G
11innodb_log_files_in_group = 2
12innodb_log_buffer_size = 64M
13
14# Flush behavior
15innodb_flush_log_at_trx_commit = 1
16sync_binlog = 1
17innodb_flush_method = O_DIRECT  # 跳過 OS page cache 避免 double cache
18
19# IO capacity (NVMe)
20innodb_io_capacity = 10000
21innodb_io_capacity_max = 40000
22innodb_flush_neighbors = 0
23innodb_lru_scan_depth = 1024
24
25# Concurrency
26innodb_thread_concurrency = 0  # 0 = no limit (8.0+ 推薦)
27innodb_read_io_threads = 8
28innodb_write_io_threads = 8
29
30# 額外
31innodb_file_per_table = 1
32innodb_strict_mode = 1

跨不同 server spec、buffer_pool_size / io_capacity 隨硬體調整、其他 knob 變動小。

跟其他模組整合

跟 Replication topology

sync_binlog=1 + innodb_flush_log_at_trx_commit=1 是 durability baseline、影響 Replication Topology 的 primary durability。Semi-sync 加在這基礎上提供 跨 server durability。

跟 ProxySQL

ProxySQL connection pool 降低 MySQL connection 開銷、但 每個 connection 仍消耗 8-10 MB RAM（thread stack + session buffer）。Buffer pool 設 75% RAM 後、剩 25% 給 connection / temporary buffer / OS。Connection 太多會擠掉 buffer pool。

詳見 ProxySQL 配置。

跟 Aurora MySQL

Aurora 改寫 InnoDB storage layer、上方 knob 大多 Aurora 自動管理：

Buffer pool size：Aurora compute instance 自動配
Redo log：Aurora 自己的 distributed log、不用 innodb_log_file_size
sync_binlog / innodb_flush_log_at_trx_commit：Aurora storage layer 保證 durability、應用層 knob 影響小

Aurora user 仍可 tune innodb_buffer_pool_size 等、但操作面從 InnoDB 內部議題變成 Aurora instance class 選擇。詳見 Aurora vendor page。

跟 OSC tool

InnoDB tuning 不直接影響 OSC 工具行為、但 log file size 太小 時 gh-ost / pt-osc 寫 ghost table 容易 trigger checkpoint storm、放慢整個 schema migration。詳見 Online Schema Change Tools。

觀測 metric

SHOW STATUS LIKE + Performance Schema 提供：

Innodb_buffer_pool_read_requests / _reads → cache hit ratio = 1 - reads/read_requests、應該 > 99%
Innodb_log_waits → checkpoint pressure、應該 = 0
Innodb_log_write_requests / _writes → log buffer 效率
Innodb_rows_inserted / _updated / _read → workload 形狀
Innodb_row_lock_waits / _time → lock contention

把這些丟進 Datadog / Prometheus 透過 mysqld_exporter / Percona Monitoring 持續 trend。

MySQL Binary Log + CDC：Maxwell / Debezium 是 binlog 第二消費者

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 CDC — Maxwell / Debezium 怎麼讀 binlog 產生 event stream。

MySQL CDC 的核心定位是 binlog consumer。

這個誤解來自跟 PostgreSQL CDC（Logical Replication + Debezium）混用名詞。PG 的 logical decoding 是 MySQL 沒有的能力 — PG 有 logical event（INSERT / UPDATE / DELETE 加上欄位 metadata）、輸出格式是 logical（人可讀、schema-aware）。MySQL 的 binlog 是 physical — 紀錄的是 row 的 binary image、不帶 schema 資訊。

Maxwell / Debezium 對 MySQL 是 binlog 第二消費者：

1Primary MySQL → binlog
2              ├→ Replica 1（讀 binlog 同步）
3              ├→ Replica 2
4              └→ Maxwell / Debezium（讀 binlog 解析、發 Kafka）

跟 replica 同一份 binlog stream，並非 separate logical decoding output。這個結構決定 CDC consumer 的設計：必須 自己處理 schema（從 information_schema 拉、跟 binlog event 對齊）、必須 自己 track position（binlog file + position 或 GTID）。

Binlog format：STATEMENT / ROW / MIXED

MySQL binlog 有 3 種 format、CDC 只能用 ROW：

Format	紀錄內容	CDC 可用？
STATEMENT	原始 SQL statement	不可用（CDC 看不到實際改的 row）
ROW	每個改變的 row（before + after image）	CDC 標準
MIXED	預設 STATEMENT、特殊情況用 ROW	不推薦（CDC 行為不一致）

ROW 是 CDC 唯一選擇、production 強制：

1binlog_format = ROW
2binlog_row_image = FULL  # FULL (all columns) / MINIMAL (only changed) / NOBLOB
3log_bin_use_v1_row_events = 0  # 用新版 event format

binlog_row_image 取捨：

FULL：每個 row event 包含所有 column（before + after）、binlog 大、CDC 完整
MINIMAL：只包含 changed column + primary key、binlog 省 30-50% 空間、CDC 看不到 未變 column
NOBLOB：跟 FULL 一樣但 BLOB / TEXT column 只在 changed 時包含、平衡選擇

對 CDC 需要 full row payload（例如下游 search index 重建）必須 FULL。對 純 audit log 可以 MINIMAL。

ROW format 的 raw event 結構

Binlog ROW event 的資料形狀是 binary row image，而非 INSERT INTO orders VALUES (1, ‘foo’, 100)：

1TABLE_MAP_EVENT     - 對應 table schema metadata (table id + column type)
2                      ↓ 接續同一個 transaction 內所有 row event
3WRITE_ROWS_EVENT    - INSERT 的新 row image（column values）
4UPDATE_ROWS_EVENT   - UPDATE 的 before + after image
5DELETE_ROWS_EVENT   - DELETE 的 row image（被刪的 row）
6XID_EVENT           - transaction commit marker

CDC consumer（Maxwell / Debezium）必須：

接收 binlog event stream
看到 TABLE_MAP_EVENT 從中拿 table id → 對應 table name（cache 一份）
看到 WRITE/UPDATE/DELETE_ROWS_EVENT 用 table id 反查 schema、把 binary 解析成 column value
包成 JSON / Avro / Protobuf 推到 Kafka

關鍵：table schema 不在 binlog 內、CDC consumer 必須 獨立查 information_schema。如果 schema 變了（ALTER TABLE）、CDC 必須 invalidate cache、重新查、否則新 column 的 row event 解析錯亂。

Maxwell vs Debezium

兩個是 MySQL CDC 主流選擇、不同設計取捨：

維度	Maxwell	Debezium MySQL
開發者	Zendesk	Red Hat
語言	Java（單一 binary）	Java（Kafka Connect plugin）
部署模式	Standalone process	Kafka Connect cluster
支援 DB	MySQL only	MySQL / PostgreSQL / MongoDB / SQL Server / Oracle
Output format	JSON（內建）	JSON / Avro / Protobuf（Kafka Connect）
Producer	Kafka / Kinesis / RabbitMQ / Pub/Sub	Kafka（Kafka Connect 限制）
Schema registry	不支援	支援（Confluent Schema Registry / Apicurio）
Transformation	filter / stream-level（內建）	Single Message Transform (SMT)
Bootstrapping	一個 utility 從 `SELECT *` snapshot	Built-in snapshot mode
GTID 支援	支援	支援
簡單性	高（單一 binary）	中（Kafka Connect 框架成本）

選擇邏輯：

只用 MySQL + 想要 simple operations → Maxwell
已用 Kafka Connect、需要 schema registry、跨多種 DB → Debezium
需要 Avro / Protobuf schema 嚴格 governance → Debezium

配置 step-by-step（Debezium MySQL connector）

Debezium 是 Kafka Connect plugin、整套 stack：

 1# debezium-mysql.json - 部署到 Kafka Connect REST API
 2{
 3  "name": "orders-mysql-connector",
 4  "config": {
 5    "connector.class": "io.debezium.connector.mysql.MySqlConnector",
 6    "database.hostname": "primary.example.com",
 7    "database.port": "3306",
 8    "database.user": "debezium",
 9    "database.password": "...",
10    "database.server.id": "184054",          # 唯一 server ID (跟 MySQL replica 一樣)
11    "topic.prefix": "production",            # Debezium 2.x（舊 1.x 用 database.server.name）
12    "database.include.list": "orders_db",
13    "table.include.list": "orders_db.orders,orders_db.payments",
14
15    "database.history.kafka.bootstrap.servers": "kafka:9092",
16    "database.history.kafka.topic": "dbhistory.orders",
17    "include.schema.changes": "true",
18
19    "snapshot.mode": "initial",              # 或 schema_only / when_needed / never
20    "snapshot.locking.mode": "minimal",      # 避免 FLUSH TABLES WITH READ LOCK
21
22    "gtid.source.includes": "...",           # 可選 GTID filter
23    "tombstones.on.delete": "true",          # DELETE event 同 partition 跟一個 null tombstone
24    "decimal.handling.mode": "double"        # DECIMAL 處理: precise / string / double
25  }
26}

deploy：

1curl -X POST -H "Content-Type: application/json" \
2  --data @debezium-mysql.json \
3  http://kafka-connect:8083/connectors

Output topic：production.orders_db.orders / production.orders_db.payments 等 — 每張 table 一個 topic。

配置 step-by-step（Maxwell）

Maxwell 簡單很多：

 1maxwell \
 2  --host=primary.example.com \
 3  --user=maxwell \
 4  --password=... \
 5  --producer=kafka \
 6  --kafka.bootstrap.servers=kafka:9092 \
 7  --kafka_topic="maxwell.%{database}.%{table}" \
 8  --filter='exclude: *.*, include: orders_db.*' \
 9  --gtid_mode=true \
10  --output_ddl=true \
11  --output_xoffset=true

Maxwell event format：

 1{
 2  "database": "orders_db",
 3  "table": "orders",
 4  "type": "update",
 5  "ts": 1715000000,
 6  "xid": 12345,
 7  "commit": true,
 8  "data": { "id": 1, "status": "shipped", "amount": 100.50 },
 9  "old": { "status": "pending" }
10}

Debezium 對應的 event 格式更複雜（envelope + before + after + source + ts_ms 各 nested）、但跟 schema registry 整合好。

5 個 Production 踩雷

1. Binlog retention 太短 — CDC consumer 落後就 re-bootstrap

CDC consumer 失聯（Kafka Connect cluster down、network issue）超過 binlog retention（預設 binlog_expire_logs_seconds=2592000、30 天、但有些 production 縮短到 1 天）、需要的 binlog event 已被 purge、consumer error。

修法：

Production binlog retention >= 7 天（避免為了 disk 過度縮短）
監控 Master_Log_File 是否還在（如果 retention 設 7 天、確認當前 file 仍存在）
CDC consumer 失聯 alert 設 早於 retention 期（例如 6 天告警、給 24 小時修）
真的 missed binlog、必須 re-snapshot table（用 Debezium snapshot.new.tables）— 24 小時級工作

2. DDL event 處理 — schema change 跟 row event 對齊

ALTER TABLE orders ADD COLUMN status VARCHAR(20) 之後、UPDATE_ROWS_EVENT 多一個 column。CDC consumer 如果還用舊 schema cache、解析 row 時欄位數對不上、event 丟。

修法（Debezium）：

include.schema.changes=true：DDL 進獨立 topic、consumer 監聽更新自己的 schema cache
database.history.kafka.topic：Debezium 自己 track schema 歷史

修法（Maxwell）：

--output_ddl=true：DDL 也進 stream、downstream 看到 DDL event 自己更新
沒有內建 schema history、要 application 層處理

修法（兩者通用）：

用 Online Schema Change Tools 取代直接 ALTER — 工具操作的 DDL 對 CDC consumer 更可預期
Schema 改動 優先 add column 為 nullable、避免 backfill 期間 CDC consumer 看到 mid-state

3. `binlog_row_image=MINIMAL` 讓下游錯亂

MINIMAL 省 binlog 空間、但 row event 只含 changed column。下游 search index 重建 需要 full row payload 的場景下、MINIMAL 看不到未變的 column、index 缺欄位。

修法：

CDC 需要 full payload 的場景 必須 FULL、這項成本要納入容量規劃
如果空間真緊、考慮 NOBLOB（BLOB / TEXT 只在 changed 時包含、其他 column 仍 FULL）
統一設定：production 全部 server 同一 binlog_row_image 設定

4. Kafka producer 跟 binlog reader 速度差 — lag 累積

Binlog reader 從 MySQL 讀 1000 event/sec、Kafka producer 寫得只有 800 event/sec、CDC consumer 自身 lag 累積、最終 disk 滿（producer 內部 buffer）。

修法：

監控 CDC consumer lag：對 Debezium 看 Kafka Connect 的 source-record-poll-rate vs source-record-write-rate
Kafka producer tuning：batch.size / linger.ms / compression.type=snappy
Kafka broker capacity：partition 數量 ≥ Debezium task 數量、避免 partition 瓶頸
避免把 過多 table 給單一 Debezium connector — 用 table grouping（按 traffic 拆 connector）

5. Schema change 跟 downstream consumer 不同步

CDC producer（Debezium）正確處理了 schema change、但 downstream Kafka consumer 用舊 schema deserialize、新 column 看不到 / type 解析錯。

修法：

用 Schema Registry（Confluent / Apicurio）+ Avro：consumer 訂閱 schema、自動 evolve
不用 schema registry 時、CDC payload 設計 backward-compatible（新 column 為 optional）
Application 層 schema change protocol：Expand / Contract — 先加 column、deploy consumer 認 column、再 backfill、最後 application 寫新 column
大型 schema change 跨多服務、建議 先 freeze CDC stream、做 schema migration、resume stream（極端但確定）

容量規劃要點

元件	容量考量
MySQL binlog disk	retention × 寫吞吐 × event size（5K WPS × 1 KB × 7 天 ~= 3 GB / 天 = 21 GB）
Debezium / Maxwell process	1 vCPU + 2-4 GB RAM（per connector、視 throughput）
Kafka topic partition	每 table 1-10 partition（依寫吞吐）、保 key-based ordering
Kafka 保留期	7-30 天（讓 downstream consumer 有 recover window）
Schema Registry	< 100 MB storage、replicate 跨 3 broker

對 100K WPS server、CDC pipeline cost 大致是 MySQL infra 的 5-10%。

跟其他模組整合

跟 Replication topology

CDC 是 binlog 第二消費者、需要 GTID + binlog ROW format（Replication Topology）。Debezium / Maxwell 都偏好從 replica 讀 binlog（不增加 primary 負擔）、但要小心 replica lag 加在 CDC lag 上。

跟 OSC tool

gh-ost / pt-osc 跑 schema change 時、會在 binlog 留下大量 row event（copy 既有 row 到 ghost）。CDC consumer 看到這些 event 是 normal-looking INSERT、可能誤觸發 downstream side effect。

修法：

CDC consumer 過濾 ghost table prefix（_orders_new / _orders_gho）— 不發 downstream
或暫停 CDC 期間跑 OSC（用 Debezium pause API）

跟 PostgreSQL Logical Replication + Debezium

維度	MySQL（binlog）	PostgreSQL（logical decoding）
抽象層	Physical（row binary）	Logical（row + schema-aware）
Schema metadata	不在 event 內、要查 information_schema	在 event 內（plugin output）
DDL handling	DDL 本身是 binlog event	DDL 不在 logical decoding output（要 trigger 自己 capture）
啟用成本	binlog ROW + GTID（基本 MySQL replication setup）	logical replication slot + publication
Snapshot	`SELECT *` + binlog catchup	logical replication initial sync

詳見 PostgreSQL Logical Replication + Debezium — 這是 sibling 對照，用來區分不同 abstraction。

跟 Aurora MySQL

Aurora MySQL 5.7 / 8.0 都支援 binlog + GTID、CDC 可用。但 Aurora 推薦走 Aurora-native database activity streams（不同 abstraction）— 跟 Debezium 共存但有 overlapping。生產上 Debezium 仍是 cross-cloud 跟 vendor-neutral 選項、優先用 Debezium。

詳見 Aurora vendor page。

Production case：Shopify sharded MySQL CDC

Sharded MySQL CDC 的核心責任是把多個 shard 的 binlog 轉成可消費、可回放、可觀測的事件流。Shopify Debezium CDC over sharded MySQL 提供的工程訊號是 100+ shard、約 150 個 Debezium connector、BFCM 期間 100K records/sec，以及 snapshot lock 與 oversized payload 對 CDC pipeline 的壓力。

這個案例要回收到三個操作判準。第一，connector 數量應跟 shard 拓撲一起設計，避免單一 connector 變成跨 shard bottleneck。第二，snapshot window 要排進 schema migration 與 event consumer 的變更計畫，避免 initial snapshot 把 production read path 壓滿。第三，oversized payload 要在 schema / outbox / topic 分流階段處理，避免 Kafka partition 與 downstream consumer 同時承受大訊息。

Shopify 案例的下一步路由是把本篇和 Database Sharding 一起讀。若讀者關心 broker 層的 partition、consumer lag 與 replay 策略，接到 Kafka vendor；若關心資料庫端壓力，回到 Replication Topology 與 Online Schema Change Tools。

MySQL Vitess Sharding：VTGate / VTTablet / VReplication / VSchema 四件套協作

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 Vitess sharding — 4 個 component 協作的完整 sharding 系統。

問題情境：MySQL 寫吞吐撞上 single primary 上限

MySQL primary 單機極限大致 50K-100K WPS（依 schema / hardware）。超過這個級別、選項三條：

Application 層 sharding：每張 table 自己決定怎麼分片、application 寫 routing logic、跨 shard query / migration 都要自己處理
Vitess：proxy layer 自動 routing、cross-shard query 可選自動 split、resharding 自動化
Distributed SQL（CockroachDB / Spanner / Aurora DSQL）：跟 MySQL 不同 engine、application 改 driver

選 Vitess 的核心 driver：保留 MySQL wire protocol + 應用層幾乎不必改 + 透明分片。代價是 4 個 component 的 operational complexity — Vitess 的責任範圍是完整分散式系統，而非單純 proxy。

閱讀本文前可先對齊 Database Sharding 的 shard key、routing、resharding 與 cross-shard query 語意；容量失衡時再接 Hot Partition。

Vitess 四件套：每個 component 的責任

 1                        ┌─────────────────┐
 2   Application ────→    │     VTGate      │  ← 對外 MySQL wire protocol
 3                        │  (proxy + parse + route + aggregate)  │
 4                        └────┬─────┬──────┘
 5                             │     │
 6                ┌────────────┘     └──────────────┐
 7                ▼                                 ▼
 8        ┌──────────────┐                  ┌──────────────┐
 9        │   VTTablet   │                  │   VTTablet   │
10        │ (per-MySQL   │                  │ (per-MySQL   │
11        │  sidecar)    │                  │  sidecar)    │
12        └─────┬────────┘                  └─────┬────────┘
13              │                                 │
14              ▼                                 ▼
15        ┌──────────────┐                  ┌──────────────┐
16        │    MySQL     │                  │    MySQL     │
17        │  (Shard -80) │                  │  (Shard 80-) │
18        └──────────────┘                  └──────────────┘
19
20   Topology Service (etcd / Consul / ZooKeeper)
21   ↑↓ 所有 component 共享 metadata
22   VSchema：keyspace 結構、shard 範圍、Vindex 定義

VTGate — query routing layer

對 application 看起來像 MySQL（同樣 port、同樣 wire protocol、同樣 query 語法）、實際是 stateless proxy。每個 query VTGate：

Parse SQL → 找出 routing key（從 WHERE column 拿）
查 VSchema → 計算 routing key 對應的 shard
把 query 送該 shard 的 VTTablet
等 response、aggregate（如果是 cross-shard query）、回 application

Stateless 設計 → VTGate 可以隨意 scale、放 N 個前面接 LB。多數 production 部署 3-10 個 VTGate per region。

VTTablet — per-MySQL agent

每個 MySQL instance 旁邊都跑一個 VTTablet。VTTablet 責任：

把 MySQL primary 標記、上報給 topology
接 VTGate 的 query、轉發給 local MySQL
跑 connection pool（VTGate 跟 VTTablet 之間少量連線、VTTablet 跟 local MySQL 共享 connection）
跑 query plan cache / transactional consistency check
處理 online schema change（Vitess 內建 OSC）
跟 VTOrc（fork of Orchestrator）配合做 failover

VTTablet 是 Vitess 跟 MySQL 唯一連接點 — 沒 VTTablet 直接連 MySQL 不在 Vitess 管理下。

VReplication — 跨 shard 資料移動

VReplication 是 Vitess 跨 shard / 跨 keyspace / 跨 cluster 資料移動引擎、底層用 MySQL binlog。用途：

Resharding：把 shard -80 拆成 -40 + 40-80、VReplication 自動拆 binlog event 對應 shard
Materialized view：cross-shard aggregation 預計算
MoveTables：跨 keyspace 移 table（schema-level migration）
VStream：CDC、binlog event 對外輸出（可接 Kafka / Debezium）

VReplication 的主要使用者是 Vitess operator，它和 application 行為直接相關（resharding 期間有 write split 行為）。

VSchema — sharding metadata

VSchema 是 keyspace 內 哪張 table 怎麼 shard 的定義、JSON 格式存 topology service。例子：

 1{
 2  "sharded": true,
 3  "vindexes": {
 4    "hash": {
 5      "type": "hash"
 6    }
 7  },
 8  "tables": {
 9    "orders": {
10      "column_vindexes": [
11        {
12          "column": "user_id",
13          "name": "hash"
14        }
15      ]
16    },
17    "users": {
18      "column_vindexes": [
19        {
20          "column": "user_id",
21          "name": "hash"
22        }
23      ]
24    }
25  }
26}

orders.user_id 跟 users.user_id 用同一個 Vindex（hash）+ 同一個 column → 同 user_id 的 orders + users 落在同 shard、可以 JOIN 不跨 shard。

Vindex：Vitess 的 sharding function

Vindex 是 Vitess 的 shard key 計算函數。內建多種：

Vindex 類型	計算方式	適用
`hash`	3DES-based null hash（非 MD5）→ 對應 shard range	預設、均勻分布、適合 primary key
`binary_md5`	MD5(binary)	binary key
`unicode_loose_xxhash`	xxHash on lowercased unicode	string key
`numeric`	直接 numeric value	連續 numeric range（適合 time-based）
`numeric_static_map`	預定義 map	國家 code / region 等少 enum
`lookup_hash`	透過 lookup table 查 shard	多個 column 都要 shard、需要二級 index

最常用：hash（primary key）+ lookup_hash（secondary access pattern）。

Keyspace / Shard / Tablet 階層

 1Keyspace (邏輯 database)
 2   └── Shards
 3        ├── -80 (shard range 0-128)
 4        │     ├── Primary tablet (1 MySQL primary)
 5        │     ├── Replica tablet × 2
 6        │     └── RDOnly tablet × 1 (analytics)
 7        └── 80- (shard range 128-256)
 8              ├── Primary tablet
 9              ├── Replica tablet × 2
10              └── RDOnly tablet × 1

Shard range 用 binary hex prefix（-80 表示 0 到 0x80、80- 表示 0x80 到 max）— 給 resharding 留 split 餘地（-80 可切成 -40 + 40-80）。

Tablet type：

Primary：寫入入口
Replica：read traffic（Vitess query rules 控制）
RDOnly：純 analytics / backup / VReplication source、低 SLA、不上 production read traffic

配置 step-by-step（local cluster）

Production 通常用 Kubernetes operator（vitess-operator）部署、但理解概念用 local cluster 最快：

 1# 用 vtctldclient 操作（替代舊的 vtctlclient）
 2
 3# 1. 建 unsharded keyspace
 4vtctldclient CreateKeyspace --durability-policy=semi_sync commerce
 5
 6# 2. 從一個 MySQL primary 開始（unsharded）
 7vtctldclient ApplySchema --sql="CREATE TABLE orders (id INT PRIMARY KEY, user_id INT)" commerce
 8
 9# 3. 把 keyspace 改成 sharded、定義 VSchema
10vtctldclient ApplyVSchema --vschema='{
11  "sharded": true,
12  "vindexes": {"hash": {"type": "hash"}},
13  "tables": {
14    "orders": {
15      "column_vindexes": [{"column": "user_id", "name": "hash"}]
16    }
17  }
18}' commerce
19
20# 4. 觸發 resharding：unsharded → 2 shards (-80, 80-)
21vtctldclient Reshard --workflow=initial-shard create \
22  --source-shards="commerce/0" \
23  --target-shards="commerce/-80,commerce/80-"
24
25# 5. 等資料 copy 完（VReplication 跑）
26vtctldclient Workflow --keyspace=commerce show initial-shard
27
28# 6. SwitchTraffic：先切 RDOnly → 再切 Replica → 最後切 Primary
29vtctldclient Reshard --workflow=initial-shard switchtraffic \
30  --tablet-types="rdonly,replica"
31vtctldclient Reshard --workflow=initial-shard switchtraffic \
32  --tablet-types="primary"
33
34# 7. 完成、cleanup old shard
35vtctldclient Reshard --workflow=initial-shard complete

實際 production 走 Vitess Kubernetes operator、用 VitessCluster CRD 宣告 desired state、operator 自動操作上面這些 step。

5 個 Production 踩雷

1. Cross-shard transaction — Vitess 不支援 atomic（預設）

兩個 user 的 order 在不同 shard、BEGIN; UPDATE orders WHERE user_id=1; UPDATE orders WHERE user_id=2; COMMIT; 跨兩個 shard。Vitess 預設 不保證 atomic — 兩個 shard 各自 commit、可能一個成功一個失敗、application 看到 partial state。

修法：

避免 cross-shard transaction：schema design 讓 transaction boundary 落在單一 shard 內
啟用 atomic 2-phase commit（Vitess transaction_mode=TWOPC、實驗性、performance penalty 大）
大規模需要 atomic 的場景應該換 distributed SQL（CockroachDB / Spanner），讓資料庫層承擔跨節點一致性

2. VStream lag — Resharding 期間 CDC 落後

Resharding 過程 VReplication 大量寫 binlog event、application 本來在用 的 VStream（接 Kafka 等）共享同 binlog stream、可能 lag。Downstream consumer 看到 stale data 1-2 小時。

修法：

Resharding 期間 暫停非關鍵 VStream（analytics ETL 可暫停、real-time recommendation 需要保留）
確認 binlog disk capacity > resharding 期間預估 binlog 量 × 2（buffer）
Resharding 完成後 手動驗證 VStream offset 已 catch up，把驗證結果留成 cutover evidence

3. Vindex 不均勻 — Hot shard

Vindex 預設 hash 對 primary key 均勻分布、但對 natural key（country / region / company_id 等）可能不均勻。10 個 country、其中 1 個 country 佔 80% traffic、單一 shard 永遠 hot。

修法：

Composite Vindex：combine country + user_id 兩 column 作為 shard key、user-level 仍均勻
Synthetic shard key：application 層加 sharding_key=hash(actual_key) % N、控制分布
監控 per-shard QPS：vtctldclient ShowVDiff + Prometheus exporter
Hot shard 出現後 Vitess 可以 resharding 解（split hot shard 為 2 個小 shard）、但工作量大

4. Resharding 切流量瞬間 deadlock

Resharding 最後的 SwitchTraffic 切 primary 階段、舊 shard 仍接 write、Vitess 切 routing、Application 一瞬間連兩個 shard、相同 user_id 寫入可能跑兩邊、deadlock 或 lost update。

修法：

SwitchTraffic 用 ReverseTraffic 預備：先 switch、確認問題後可 reverse 回去
切流量 只在 known quiet period（夜間 / 週末早上）
VTGate --retry-count=2 + --track-vtgate-deadlock-events：deadlock 自動 retry、不暴露給 application
真的失敗用 Reshard cancel 回 old state，讓 workflow 回到可驗證狀態

5. VReplication workflow 卡住 — cancel 前需要保護狀態

VReplication workflow 跑到 50% 但 某個 row 解析錯誤（schema mismatch / blob 大小超過 limit）、workflow stuck、進度條卡住、無 timeout。整個 resharding flow halt。

修法：

平時跑 staging 資料 dry-run、發現 schema 跟 blob 邊界問題
Workflow 卡住時 vtctldclient Workflow show 看 last_message / row_state
手動修問題 row（直接 MySQL 改）後 resume workflow
大 cluster 建議 VReplication 跑前先 SchemaApply audit、確認 source / target schema 兼容

Vitess 跟自管 sharding 對照

維度	Vitess	Application-level sharding
Application 改動	幾乎不必（保留 MySQL wire）	大改（routing logic 寫 application）
Cross-shard query	VTGate 自動 split（受限）	Application 自己處理
Resharding	VReplication 自動	手寫腳本、操作複雜
Online schema change	Vitess 內建（VReplication-based）	用 gh-ost / pt-osc
Failover	VTOrc 整合	自管 Orchestrator
Operational cost	高（4 component 要懂）	中（fewer abstractions、但 application logic 多）
Cross-keyspace 共用 vindex	內建（lookup_hash 跨 keyspace）	自寫

Vitess 的 operational complexity 是它的代價。10-20 人 SRE 團隊撐得住、5 人團隊用 managed Vitess（PlanetScale） 更實際。

跟其他模組整合

跟 Replication topology

Vitess shard 內部仍用 MySQL replication（Replication Topology）— 每個 shard 有 primary + replica + rdonly。Vitess durability-policy 控制 primary 寫入是否等 replica ack（semi-sync）。

跟 OSC tool

Vitess 不用 gh-ost / pt-osc、用 VReplication-based online DDL。Vitess online DDL：

1vtctldclient ApplySchema --strategy=vitess \
2  --sql="ALTER TABLE orders ADD COLUMN status VARCHAR(20)" commerce

詳見 Online Schema Change Tools。

跟 ProxySQL

Vitess 取代 ProxySQL。VTGate 本身做 connection pool + query routing、不再需要 ProxySQL。混用會造成 routing 衝突（VTGate 期待自己決定 shard、ProxySQL 跟 VTGate 競爭）。詳見 ProxySQL 配置。

跟 Orchestrator

Vitess 用 VTOrc（fork of Orchestrator）作 failover、跟 Vitess topology metadata 整合。不用獨立 Orchestrator。詳見 Orchestrator failover 設計。

跟 PlanetScale（managed Vitess）

PlanetScale 是 Vitess managed service、隱藏 4 component operational complexity、加 branch-based schema workflow。詳見 PlanetScale migration playbook。

跟 Aurora MySQL

Aurora 跟 Vitess 是 不同 scale 路徑：

Aurora：single-region scaling（storage / compute 分離、最高 ~128 TB）
Vitess：horizontal sharding（無上限、靠加 shard scaling）

兩者承擔的容量與操作責任不同。超過 Aurora single-region 上限的場景才考慮 Vitess。詳見 Aurora vendor page。

Production case：YouTube / Vitess

Vitess 的 production 責任是把 MySQL shard 拓撲變成應用可查詢、可遷移、可操作的資料庫層。YouTube / Vitess 的公開歷史提供的工程訊號是 VTGate、VTTablet、VReplication 與 VSchema 這組元件分工：application query 進 VTGate、tablet 層包住 MySQL、VSchema 描述 routing / sharding 規則、VReplication 支援 resharding 與資料搬移。

這個案例要回收到三個操作判準。第一，Vitess 是一套 database control plane，而非單一 proxy；導入時要把 topology service、tablet lifecycle、backup、failover 與 schema workflow 一起納入 ownership。第二，VSchema 是 application contract，shard key、lookup vindex 與 cross-shard query 都會影響產品功能設計。第三，VReplication 讓 resharding 可操作，但它仍需要 capacity window、backfill 監控與 cutover plan。

Vitess 的 sibling 路由是 PostgreSQL Citus Distributed 與 1.11 全球分散式 OLTP。Citus 保留 PostgreSQL 生態並用 coordinator / worker 拆分資料；CockroachDB / Spanner 則用 distributed SQL 重新定義交易與一致性邊界。選型時要先判斷自己是在延伸 MySQL 投資，還是在重新選 global OLTP model。

何時用 Vitess

條件	評估
流量 > 50K WPS、單 primary 撐不住	是 Vitess scope
已有大量 MySQL 投資、不想換 distributed SQL	是
有 5-10 人 SRE / DBA 團隊	是
流量 < 10K WPS	否（過度設計、用單 MySQL + replica）
5 人團隊、不想養 DBA	否（用 PlanetScale managed）
必須 multi-region 強一致 transaction	否（CockroachDB / Spanner 才對）
需要複雜 cross-shard analytics	否（搭配 BigQuery / Snowflake）

PostgreSQL Citus Distributed：用 extension 把 PG 變成 sharded cluster

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 Citus distributed extension — 把 PG 變成 sharded cluster 的方式。

當 PG single-primary 寫吞吐撞上單機極限（50K-100K WPS）、選項三條：

Application 層 sharding：應用層自管 shard routing
Citus：PG extension、自動 routing + cross-shard query
Distributed SQL（CockroachDB / Aurora DSQL / Spanner）：不同 engine

選 Citus 的核心 driver：保留 PG SQL syntax + extension 生態。但「應用層幾乎不必改」是樂觀說法 — 實際上 application 必須圍繞 distribution column 重設計（query 加 filter / transaction 限定同 shard / reference table 量控制）、跟 Vitess 比 cross-shard query 自動化弱。代價是 coordinator / worker 部署複雜度 + cross-shard query 限制 + application schema 改造工作量。

閱讀本文前可先對齊 Database Sharding 的 shard key、routing、resharding 與 cross-shard query 語意；容量失衡時再接 Hot Partition。

跟 MySQL Vitess sharding 的核心差異：Citus 是 PG extension（PG 自己跑）、Vitess 是 獨立 proxy + tablet 系統（包 MySQL）。Citus 用 PG 原生機制（FDW / extension hook）、Vitess 是 外部包裝。

Citus 架構：Coordinator + Worker

 1                ┌─────────────────┐
 2   Application  │   Coordinator   │  ← 對外 PG wire protocol、planner、routing
 3                │   (Citus + PG)  │
 4                └────┬─────┬──────┘
 5                     │     │
 6              ┌──────┘     └──────┐
 7              ▼                   ▼
 8        ┌──────────┐         ┌──────────┐
 9        │ Worker 1 │         │ Worker 2 │  ← 各跑 PG + Citus extension
10        │  (PG)    │         │  (PG)    │
11        │ shard 1,3│         │ shard 2,4│
12        └──────────┘         └──────────┘

Coordinator：

對 application 看起來像 PG（同 port / 同 wire protocol）
接 SQL → Citus planner 把 query 分解 + route 給 worker
不存 data（distributed table 的 shard 在 worker 上）
存 metadata（哪個 shard 在哪個 worker）

Worker：

標準 PG instance + Citus extension
各存若干 shard
接 coordinator 來的 query、跑 local execute、回結果

Shard：

Distributed table 拆成 N 個 shard（預設 32）
每 shard 是 worker 上的 physical PG table（含 _ 後綴）
行為跟一般 PG table 一樣、可以直接連 worker 用 PG 工具 access

3 種 Table Type

Distributed table — 跨 shard 切分

 1-- 建一般 PG table
 2CREATE TABLE orders (
 3    id BIGSERIAL,
 4    user_id BIGINT NOT NULL,
 5    amount DECIMAL(10,2),
 6    created_at TIMESTAMP,
 7    PRIMARY KEY (user_id, id)  -- PK 必須含 distribution column
 8);
 9
10-- 用 Citus 把它變 distributed
11SELECT create_distributed_table('orders', 'user_id');

user_id 是 distribution column — Citus 用它的 hash 決定 row 屬哪個 shard。PK 必須含 distribution column（跟 MySQL partitioning 同要求）。

跟 Vitess Vindex 對比：

Citus：hash distribution column → shard（單一 hash function、不可選 algorithm）
Vitess：Vindex 可選多種（hash / lookup_hash / xxhash / null）

Reference table — 全 shard 共有

1CREATE TABLE products (
2    id SERIAL PRIMARY KEY,
3    name VARCHAR(100),
4    price DECIMAL
5);
6
7SELECT create_reference_table('products');

products 在 每個 worker 都有完整 copy、寫入 coordinator 廣播給所有 worker。

用途：

小 lookup table（country code / product category 等）
跨 distributed table JOIN 時、reference table 在每 worker 上、不必 cross-shard
寫入頻率低（廣播 cost 跟 worker 數 linear）

Local table — Coordinator 上的 PG table

1CREATE TABLE audit_log (
2    id SERIAL PRIMARY KEY,
3    event JSONB
4);
5-- 不調用 Citus function、預設留在 coordinator

行為跟一般 PG table 一樣。用於 不需 distribute 的 table（如 admin metadata）。

Colocation：跨 distributed table 同 shard 對齊

當兩個 distributed table 都用 同 distribution column（例如 user_id）+ 同 shard count、Citus 自動 colocate：

1SELECT create_distributed_table('orders', 'user_id');
2SELECT create_distributed_table('user_addresses', 'user_id', colocate_with => 'orders');

Colocate 後：

user_id = 100 的 orders 跟 user_addresses 在 同一 worker shard
JOIN 不跨 worker、效率高
可用 PG 原生 FK constraint（cross-table 但同 shard）

Colocate 是 Citus 設計的核心 跨 table 一致性 機制。沒 colocate 的 cross-table query 變 cross-worker、效率大降。

配置 step-by-step（local cluster）

Production 用 Citus Cloud（Microsoft 託管）或 Azure Cosmos DB for PostgreSQL（同 engine）。Self-hosted：

Step 1：Coordinator + worker 都裝 PG + Citus

1# 在每個 node（coordinator + 2 worker）
2apt install postgresql-14
3apt install postgresql-14-citus-12.0
4
5# postgresql.conf
6shared_preload_libraries = 'citus'
7
8systemctl restart postgresql

1-- 在每個 node 跑
2CREATE EXTENSION citus;

Step 2：Coordinator 註冊 worker

1-- 在 coordinator 跑
2SELECT citus_add_node('worker1.example.com', 5432);
3SELECT citus_add_node('worker2.example.com', 5432);
4
5-- 確認
6SELECT * FROM citus_get_active_worker_nodes();

Step 3：建 distributed table

1CREATE TABLE orders (
2    id BIGSERIAL,
3    user_id BIGINT NOT NULL,
4    amount DECIMAL(10,2),
5    created_at TIMESTAMP,
6    PRIMARY KEY (user_id, id)
7);
8
9SELECT create_distributed_table('orders', 'user_id');

Citus 自動把 orders 拆成 32 個 shard（orders_102008 等）、分配到 worker。

Step 4：Application 連 coordinator

Application connection string 連 coordinator IP / port（不必知道 worker 存在）。

1-- 從 application 跑 query、Citus 透明 route
2INSERT INTO orders (user_id, amount) VALUES (12345, 50);
3-- → Citus 看 user_id=12345 hash 屬 shard 17、route 給對應 worker
4
5SELECT * FROM orders WHERE user_id = 12345;
6-- → Single-shard query、極快
7
8SELECT count(*) FROM orders;
9-- → Cross-shard aggregation、Citus 並行跑、合併結果

5 個 Production 踩雷

1. Distribution column 選錯 — Cross-shard query 變主流

選 created_at 或 id（auto increment）作 distribution column、看起來均勻、實際 application query 多以 user_id 為主、變成 每個 query 都 cross-shard、performance 雪崩。

修法：

Distribution column 選 application 最常 filter / join 的 column（通常是 tenant_id / user_id）
Audit application top query、確認 distribution column 對齊 query pattern
改 distribution column 要 rewrite 所有 shard、像 resharding、大工程

2. Cross-shard transaction 限制

跨多 shard 的 transaction（如：UPDATE 兩個 user_id 不同的 row）Citus 用 2PC（two-phase commit）但有限制：

Multi-statement transaction 跨 shard 需明確開 SET citus.multi_shard_modify_mode = 'sequential'
部分 isolation level 不保證 serializable across shards
DDL 跨 shard 是 sequential

修法：

Schema design 避免 cross-shard transaction（同 colocation group 內 transaction 沒問題）
必要 cross-shard 場景明確設 multi-shard mode
對 strict cross-shard consistency、考慮 distributed SQL（CockroachDB / Aurora DSQL）

3. Reference table 過大 — 寫入廣播 cost 爆

Reference table 在每 worker 都有 copy、寫入 廣播給所有 worker。Reference table 100K row + 高頻寫入 → 寫一次寫 N worker、cost N x。

修法：

Reference table 限 小 + 寫入頻率低 的 lookup data
超大表不該是 reference table、考慮 distributed
監控 reference table 寫入 rate、超 threshold 重新評估

4. Colocate 沒對齊 — 隱性 cross-shard JOIN

1-- 看似可以、實際 cross-shard 慢
2SELECT * FROM orders o JOIN user_addresses ua ON o.user_id = ua.user_id;

若 user_addresses 沒 colocate_with => 'orders'、兩表 shard 分配獨立、JOIN 跨 worker。

修法：

建相關 table 時 colocate_with 對齊
用 SELECT * FROM citus_tables 看 colocation_id、確認對齊
跨非 colocate table 的 JOIN 用 materialized view 或 application 層拆 query 避開

5. Worker failover — Coordinator 必須知道

Worker 故障、Citus 預設 coordinator 看到 query 失敗、不自動 failover。

修法（Citus 11+）：

用 shard replication（citus.shard_replication_factor = 2）— 每 shard 在 2 個 worker 有 copy
配 PG streaming replication 在 worker 層、外加 Patroni 管 failover
Coordinator 失敗 → 整個 cluster 失能、coordinator 也要 HA（Patroni）

跟 Vitess 對比 Citus 的 HA story 較弱、production 必須認真規劃。

何時用 Citus

條件	建議
Multi-tenant SaaS、tenant_id 為自然 distribution	是
寫吞吐 > 50K WPS、單 PG 撐不住	是
需要保留 PG SQL + extension（pgvector / TimescaleDB）	是
應用 query pattern 80% 都用同一 distribution column	是
應用大量 ad-hoc cross-tenant aggregation	否（cross-shard 慢）
強 cross-shard consistency 需求	否（用 CockroachDB）
想 zero-ops managed	Azure Cosmos DB for PostgreSQL（同 engine）

容量規劃

Coordinator: 中等 CPU + RAM、metadata 不大、不存 data
Worker: per-worker spec 同 single PG production
Shard count: 預設 32、實務常設 worker count × 4-8
Replication factor: production 至少 2

跟其他模組整合

跟 Replication topology

Coordinator + worker 各跑 PG streaming replication、Citus 不取代 PG replication。Worker failover 用 Patroni / streaming replication。詳見 Replication Topology。

跟 PG Extensions

Citus 跟其他 PG extension 多數兼容（pgvector / TimescaleDB / pg_stat_statements）— 它維持 extension 形態，保留 PostgreSQL 生態接點。詳見 PG Extension Ecosystem 篇（待寫）。

跟 MySQL Vitess

維度	Citus	Vitess
部署模型	PG extension	獨立 proxy + tablet
主要場景	Multi-tenant SaaS	超大規模分片
Cross-shard JOIN	colocate 對齊 + reference table	VTGate 自動 split + aggregate
FK	同 colocation 內可用	Vitess 18+ 支援、cross-shard 限制
HA	依賴 Patroni + replication factor	VTOrc + replication
學習曲線	中（PG ops 經驗夠）	高（4 component）

Citus 對 PG-native 場景更平順、Vitess 對 MySQL-native 場景更平順、不直接競爭。詳見 MySQL Vitess Sharding。

MySQL 8.0 Modern SQL：CTE / window function / JSON_TABLE 不是「終於跟上 PG」、是進入 SQL 工程深度的入場券

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 8.0 modern SQL 特性 — 5 個關鍵能力 + 跟 PostgreSQL 對應特性的對比。

「MySQL 是 SQL 簡單版」是個過時觀念。

這個觀念的來源很合理：MySQL 5.x 時代沒 CTE、window function 要嗑 hack、recursive query 寫不出來、JSON 處理是字串 substring 拼接、複雜分析 query 只能丟去 PostgreSQL 或 Snowflake。整整 10 年 SQL 進階特性 MySQL 全缺、PostgreSQL 全有。

MySQL 8.0（2018 推出）改變這件事。CTE / window function / lateral derived table / JSON_TABLE / hash join / atomic DDL / role-based authentication / common table expression 全部進來。這不是「終於跟上 PG」、是 MySQL 第一次有資格進入 SQL 工程深度討論。但有 caveats：每個特性的 行為實現 跟 PostgreSQL 對應特性都有 微妙差異、不能假設 PG 經驗直接套用。

對從 PostgreSQL 過來評估 MySQL 的讀者：本文是 特性對等驗證 — 哪些 8.0 特性真的可以 production 用、哪些是 marketing 但實作有 gap。對既有 MySQL 5.7 user：本文是 upgrade 5.7 → 8.0 的具體 ROI — 從 SQL feature 角度看升級值不值得。

5 個關鍵特性 + PG 對比

特性 1：CTE（Common Table Expression）

MySQL 8.0 / PG 8.4+ 都支援。

 1-- MySQL 8.0 + PG 都 OK
 2WITH order_summary AS (
 3    SELECT user_id, SUM(amount) AS total
 4    FROM orders
 5    WHERE created_at > '2026-01-01'
 6    GROUP BY user_id
 7)
 8SELECT u.name, os.total
 9FROM users u JOIN order_summary os ON u.id = os.user_id
10WHERE os.total > 1000;

行為差異：

MySQL 8.0：CTE 不 materialize 為預設、optimizer 把 CTE 視為 inlined subquery、CTE 引用兩次以上會 重複計算
PostgreSQL（< 12）：CTE fence by default（materialize barrier）、optimizer 不 push predicate 進 CTE
PostgreSQL（12+）：CTE 行為跟 MySQL 接近、有 MATERIALIZED / NOT MATERIALIZED keyword 明示

對 PG 12+ user：可以套 MySQL 經驗。對 PG 11 以下 user：CTE 行為跟 MySQL 不一樣、要重看 query plan。

Recursive CTE：

1WITH RECURSIVE org_chart AS (
2    SELECT id, name, manager_id, 0 AS depth
3    FROM employees WHERE manager_id IS NULL
4    UNION ALL
5    SELECT e.id, e.name, e.manager_id, oc.depth + 1
6    FROM employees e JOIN org_chart oc ON e.manager_id = oc.id
7)
8SELECT * FROM org_chart WHERE depth <= 10;

兩家都支援、但 MySQL 8.0 有 深度上限（cte_max_recursion_depth=1000、預設 1000、PG 預設 unlimited）。複雜 hierarchical query（深度 > 1000）MySQL 需要顯式提高 limit。

特性 2：Window Function

MySQL 8.0 / PG 8.4+ 都支援、語法同 SQL standard。

1SELECT
2    order_id,
3    user_id,
4    amount,
5    SUM(amount) OVER (PARTITION BY user_id ORDER BY created_at) AS running_total,
6    RANK() OVER (PARTITION BY user_id ORDER BY amount DESC) AS rank_in_user
7FROM orders;

行為差異：

執行 plan：MySQL 8.0 用 window iterator、單 partition 內 sort、外加 in-memory window buffer。PostgreSQL 有更成熟的 WindowAgg node、複雜 frame spec 處理更好
Frame spec 支援度：兩家都支援 ROWS / RANGE / GROUPS、但 GROUPS frame MySQL 是 8.0.16+ 才補進、PG 11+ 才補
大資料量 spill behavior：MySQL window function 超過 sort_buffer_size（預設 256K）會 spill 到 disk、Performance 雪崩。PG 用 work_mem（預設 4MB）、寬裕些但也會 spill

對長期用 PG window function 寫複雜 reporting query 的 user：MySQL 8.0 可以做、但 效能 tune 工作量大、不是 drop-in。

特性 3：JSON_TABLE（PG 主要賣點對比）

這是 user 點到的對比重點。

MySQL 8.0 的 JSON_TABLE：

 1SELECT t.id, j.name, j.price
 2FROM products t,
 3     JSON_TABLE(
 4         t.metadata,
 5         '$.variants[*]' COLUMNS (
 6             name VARCHAR(50) PATH '$.name',
 7             price DECIMAL(10,2) PATH '$.price'
 8         )
 9     ) AS j
10WHERE t.category = 'shoes';

JSON_TABLE 把 JSON document 內的 array element 展開成 relational rows、然後可以 JOIN / WHERE / GROUP BY。SQL:2016 standard 規範。

PostgreSQL 對應：

PG 17+ 有 JSON_TABLE（SQL:2016 standard、跟 MySQL 同語法）、但歷史上 PG user 用兩條不同路線：

JSONB operator（PG 9.4+）：

1SELECT id, metadata->'variants' AS variants
2FROM products
3WHERE metadata @> '{"category": "shoes"}';

jsonb_path_query（PG 12+）：

1SELECT t.id, v.name, v.price
2FROM products t,
3     jsonb_path_query(t.metadata, '$.variants[*]') AS v;

核心差異：

維度	MySQL JSON_TABLE	PG JSONB operator	PG jsonb_path_query
Index	必須對 JSON column 建 generated column + 一般 index、不能直接 GIN index JSON path	GIN index 直接 over JSONB（業界唯一）	可以走 GIN expression index
Storage	JSON column = LONGTEXT 包裝	JSONB = binary、壓縮、index 友善	同左
Query 效率（複雜 path）	中等（需要 generated column 加速）	高（GIN index 直接）	高
SQL standard 對齊	高（JSON_TABLE 是 standard）	低（JSONB operator 是 PG 專有）	中（jsonpath 是 standard）
大 JSON（> 1 MB）	LONGTEXT 仍可、但 query 慢	JSONB 壓縮 + 部分 read	同左

選型結論：

MySQL 是 JSON-storage 角色（document 順手存進關聯 DB）：JSON_TABLE 夠用、配 generated column + index、production-ready
MySQL 是 document-heavy workload（大量 JSON-driven query / 複雜 path / 高 selectivity）：PG JSONB GIN index 仍是 clearly winner、或直接用 MongoDB
MySQL 8.0 JSON 不是 PG JSONB 替代：JSON_TABLE 是 SQL standard 對齊、好 portable、但 index 跟 storage 仍弱

對「JSON 是 PG 主要賣點」的判斷：JSONB binary storage + GIN index 是 PG 在 JSON workload 的 結構性優勢、MySQL 8.0 補了 SQL_TABLE 但 index 那層沒補。8.0 後 JSON 議題 不是 deal-breaker for MySQL（不像 5.7 時代直接 disqualify）、但仍不是 MySQL 主場。

特性 4：Lateral Derived Table

MySQL 8.0.14+ / PG 9.3+ 都支援。

1-- 對每個 user、找他最近 5 個 order
2SELECT u.id, recent.*
3FROM users u
4LEFT JOIN LATERAL (
5    SELECT order_id, amount
6    FROM orders o
7    WHERE o.user_id = u.id
8    ORDER BY created_at DESC LIMIT 5
9) recent ON true;

Lateral 讓 subquery 可以 引用外部 reference column（u.id）、不可能用 plain subquery 寫出來。

行為差異：

MySQL 8.0：lateral 後加、optimizer plan 仍在演進、複雜 lateral query 可能 plan 次優
PostgreSQL：lateral 早就成熟、plan 跟 join 直接 fuse、效率高

對 PG-experienced 使用 lateral 寫 reporting query 的 user：MySQL 8.0 可以、但有時候要 hint optimizer 達到最佳 plan。

特性 5：Hash Join

MySQL 8.0.18+ / PG 早已有。

MySQL 8.0 之前：只有 nested loop join、大表 JOIN 完全失控（n × m row scan）。8.0.18 加 hash join、optimizer 在預估 row count 大時自動切。

注意：MySQL 8.0 hash join 預設 不對所有 join 開、只在 optimizer_switch='hash_join=on' 且 join condition 是 equality on indexed column 時觸發。常見錯估：複雜 join 條件不觸發 hash join、optimizer fallback nested loop、query 永遠跑不完。

PG 對應：PG 一直有 hash join、optimizer 預設 cover 廣、且有 parallel hash join（PG 11+）大表 JOIN 並行加速。

MySQL hash join 是補洞、不是 並肩特性。複雜 OLAP query MySQL 仍弱於 PG。

其他 8.0 特性（一句話帶過）

Atomic DDL：CREATE TABLE / DROP / ALTER 變 transactional、crash recovery 不會留 orphan table（PG 早就 atomic）
Role-based authentication：role 取代 group-level grant、user 可繼承 role（PG 早就 role 系統）
CHECK constraint enforcement：5.7 可寫但不執行、8.0 真的 enforce（PG 一直執行）
invisible index：建 index 但 optimizer 暫不用、適合 staging query plan 測試（PG 沒原生對應）
Resource Group：query 跑時可分配 CPU thread 給特定 user group（PG 沒原生對應）
Generated column：MySQL 5.7 已有、8.0 強化、可作為 JSON path 加速的 workaround

配置 step-by-step（從 5.7 → 8.0 SQL feature 升級）

如果已經是 8.0、所有特性都可以用、不必額外配置。如果是 5.7 → 8.0、需要：

character_set_server=utf8mb4：8.0 預設 utf8mb4（5.7 預設 latin1）、character set 不一致導致 query 行為微差
default_authentication_plugin=mysql_native_password：8.0 預設 caching_sha2_password、舊 client 連不上、cluster upgrade 期間用 native_password 保兼容
optimizer_switch='hash_join=on'：確認 hash join 啟用、預設應該已 ON
cte_max_recursion_depth=10000：複雜 recursive CTE 需要時提高
重新 review 所有 ORM-generated SQL：8.0 keywords 變多（WINDOW、RANK、LATERAL 等變成 reserved word）、5.7 識別碼可能變 syntax error

5 個 Production 踩雷

1. CTE 引用兩次 = 跑兩次

1WITH expensive AS (SELECT ... heavy aggregation ...)
2SELECT * FROM expensive WHERE ...
3UNION ALL
4SELECT * FROM expensive WHERE other_condition;

預期 CTE 跑一次、實際 MySQL 跑兩次。Query 時間 doubled。

修法：

把 CTE 結果先 INSERT 進 temporary table、SELECT 兩次走 temp table（手動 materialize）
或 PG 用 MATERIALIZED keyword（MySQL 沒對應 hint、要手動 temp table）

2. Window function 大 partition spill 到 disk

1SELECT order_id,
2       SUM(amount) OVER (PARTITION BY user_id ORDER BY created_at)
3FROM orders;  -- 1 億 row

sort_buffer_size=256K 預設、單 partition > 256K row 開始 spill disk、執行從秒級變分鐘級。

修法：

提高 sort_buffer_size（per-connection、不要設太大、connection × buffer 會吃 RAM）
加 INDEX 包含 user_id, created_at、optimizer 可直接用 sorted index、不必額外 sort

3. JSON_TABLE 跟 generated column 取捨錯誤

直接 JSON_TABLE on every query：

1SELECT * FROM products,
2JSON_TABLE(metadata, '$.variants[*]' COLUMNS (...));

每次 query 跑 JSON parse、無 index 加速、大表 query 慢。

修法：

對 常 query 的 JSON path 建 generated column：

1ALTER TABLE products
2ADD COLUMN category VARCHAR(50)
3GENERATED ALWAYS AS (JSON_UNQUOTE(metadata->'$.category')) STORED,
4ADD INDEX idx_category (category);

JSON_TABLE 用於 ad-hoc query、不要當熱 path
跟 PG JSONB GIN 對比：PG 不必預先建 generated column、GIN index 直接 over JSONB

4. Hash join 沒觸發 — Optimizer 預估錯 row count

JOIN 大表預期 hash join、實際 MySQL 跑 nested loop、query 跑不完。常見原因：

Table statistics 過時（沒跑 ANALYZE TABLE）
Join condition 不是 pure equality（a.id = b.id + 1 等）
一邊有 LIMIT、optimizer 估 small set、選 nested loop

修法：

跑 ANALYZE TABLE 更新 statistics
用 EXPLAIN ANALYZE 看實際 row count vs 估計
用 optimizer_hint（如 /*+ HASH_JOIN(t1 t2) */）強制

5. Recursive CTE 深度上限 — Production query 突然 fail

cte_max_recursion_depth=1000 預設、organization hierarchy / tree query 超過 1000 層直接 fail（ER_CTE_MAX_RECURSION_DEPTH_EXCEEDED）。

修法：

評估真實 hierarchy 深度、設 cte_max_recursion_depth=10000 或更高
或 query 加 WHERE depth < N 提前停（不依賴 implicit limit）
對極大 hierarchy（社群 follow graph 等）改用 graph DB（Neo4j）— MySQL recursive CTE 不是 graph workload 主場

MySQL 8.0 vs PG SQL 特性 cross-reference

特性	MySQL 8.0	PostgreSQL	差異
CTE	8.0+	8.4+	PG 2009 即支援、MySQL 2018 才支援、約晚 9 年
Recursive CTE	8.0+（depth 限）	8.4+（unlimited）	PG 無深度上限
Window function	8.0+	8.4+	Frame spec 兩家略不同（GROUPS frame 推出時點）
Lateral	8.0.14+	9.3+	PG plan 較成熟
JSON_TABLE	8.0+	17+	MySQL 早 6 年（SQL:2016 standard）
JSONB index	無原生	GIN index over JSONB	PG 結構優勢
Hash join	8.0.18+	早	PG parallel hash join
Atomic DDL	8.0+	早	PG 一直 atomic
Common keyword	補齊	完整	-
Role-based auth	8.0+	早	-
Materialized view	無原生	9.3+	PG 結構優勢（MySQL 用 trigger / scheduled refresh 模擬）
Partial index	無	早	PG 結構優勢
Expression index	8.0.13+	早	MySQL 後加
Full-text search	內建（InnoDB 5.6+）	內建（tsvector）	PG full-text 更成熟
Foreign data wrapper	無原生	早（FDW）	PG 結構優勢

8.0 補了 語法層 大部分缺漏、storage / index / extensibility 層 仍是 PG 結構優勢。對「先選 SQL 工程深度」的 org、PG 仍領先；對「先選 ecosystem / replication / sharding」的 org、MySQL 已不是 disqualifier。

跟其他模組整合

跟 InnoDB Tuning

JSON column 在 InnoDB 是 LONGTEXT 包裝、大 JSON 進 off-page storage（innodb_default_row_format=DYNAMIC 才行、Antelope format 不支援）。Buffer pool 對 LONGTEXT 較不友善、大 JSON workload 可能要更大 buffer pool。詳見 InnoDB Tuning。

跟 Query Optimization

8.0 新 hash join + lateral derived 讓 EXPLAIN ANALYZE 結果更複雜。優化複雜 query 需要熟 新 plan node 類型。詳見 Query Optimization deep dive 篇（待寫）。

跟 Online Schema Change

JSON column 跟 generated column 的 schema change 走 gh-ost / pt-osc 沒問題、但 JSON 大表 ALTER 速度比一般 column 慢（每 row 重 serialize）。詳見 Online Schema Change Tools。

跟 Replication

Window function / CTE / JSON_TABLE 的 query 結果 replicate（row-level binlog 紀錄結果）、不 replicate query 本身。所以 replica apply 不會重新跑 window function、效率 OK。詳見 Replication Topology。

何時 SQL 特性是 MySQL 選型 driver

想要 SQL standard 對齊跨 vendor portable：MySQL 8.0 JSON_TABLE / window 都對齊 standard、PG 部分能力（JSONB operator）是 PG-only、portability MySQL 略好
JSON workload < 20% query：MySQL 8.0 + generated column 夠用、不必為 JSON 換 PG
JSON workload > 50% query + 複雜 path / aggregation：PG JSONB GIN 仍 winner、考慮 PG 或 MongoDB
需要 materialized view / FDW / partial index：PG 仍領先、不要因為 SQL feature parity 假設 MySQL 全 cover
既有 MySQL 投資 + SQL 工程深度上升：升 8.0 + 訓練團隊用新特性、不是換 vendor

PostgreSQL SQL Features：PG 早就有的、MySQL 8.0 才補的、PG 仍領先的

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 SQL features baseline — PG 早期就有的、MySQL 8.0 才補的、PG 仍領先的、給從 MySQL 評估 PG 的讀者 reference。

PG SQL 工程深度的歷史錨點

PG 在 SQL feature 上長期領先 MySQL：

2009 (PG 8.4)：CTE / window function / recursive query
2013 (PG 9.3)：lateral derived table / materialized view
2014 (PG 9.4)：JSONB / partial index 早就有 / GIN index
2015 (PG 9.5)：UPSERT (ON CONFLICT)
2017 (PG 10)：declarative partitioning / logical replication / multi-column statistics

MySQL 8.0（2018）才補 CTE / window / lateral / JSON_TABLE / hash join — PG 早 9 年起步。

對 從 MySQL 評估 PG 的讀者來說、PG 的 SQL 工程深度不只是「該有的都有」、更多是「PG 結構性領先的特性 + MySQL 8.0 補了哪些 + PG 仍領先哪些」。

跟 MySQL Modern SQL Features 對比視角：

MySQL 8.0 視角：「我終於補齊 + 跟 PG 對比」
PG 視角：「我長期領先 + MySQL 8.0 才追上某些、其他我仍領先」

PG 結構性領先特性（MySQL 沒對應 / 弱對應）

1. Materialized View

PG 9.3+ 內建 materialized view：

1CREATE MATERIALIZED VIEW orders_summary AS
2SELECT user_id, COUNT(*) AS order_count, SUM(amount) AS total
3FROM orders GROUP BY user_id;
4
5-- 手動 refresh
6REFRESH MATERIALIZED VIEW orders_summary;
7-- 或 concurrent refresh（PG 9.4+、不 lock read）
8REFRESH MATERIALIZED VIEW CONCURRENTLY orders_summary;

用途：

預計算複雜 aggregation、查詢時極快
Concurrent refresh 不 lock read
可建 index on materialized view

MySQL 對應：沒原生 materialized view。常見替代：

Trigger + summary table（手動維護）
Application 層 caching layer
用 view + cache layer（不是 materialization）

MySQL 8.0+ 仍無原生 materialized view。

2. Partial Index

PG 預設支援 partial index — 對 滿足條件的 row 才建 index：

1-- 只對 active user 建 index
2CREATE INDEX idx_users_active_email ON users(email) WHERE status = 'active';
3
4-- Index size 比 full index 小很多、query 性能跟 full index 一樣
5SELECT * FROM users WHERE status = 'active' AND email = 'x@y.com';

用途：

Soft-delete 場景：對 deleted_at IS NULL 建 partial index
Hot subset 場景：對 status = 'pending' 等熱資料建 partial
Index 大小 / 寫入成本大降

MySQL 對應：MySQL 沒原生 partial index。MySQL 8.0+ 有 functional index 但跟 partial 不同。MySQL 替代：

Generated column + index（接近、但維護複雜）
或接受 full index cost

3. Foreign Data Wrapper (FDW)

PG FDW 讓 query 跨外部資料源：

 1CREATE EXTENSION postgres_fdw;
 2
 3CREATE SERVER remote_db FOREIGN DATA WRAPPER postgres_fdw
 4OPTIONS (host 'remote.example.com', dbname 'analytics');
 5
 6CREATE USER MAPPING FOR localuser SERVER remote_db
 7OPTIONS (user 'remoteuser', password '...');
 8
 9CREATE FOREIGN TABLE remote_orders (id INT, ...) SERVER remote_db OPTIONS (table_name 'orders');
10
11-- 在 local PG query remote table
12SELECT * FROM remote_orders WHERE id = 100;

支援 FDW：postgres_fdw / mysql_fdw / oracle_fdw / mongo_fdw / file_fdw / redis_fdw 等。

MySQL 對應：MySQL 8.0+ 有 FEDERATED engine（受限、不推薦）。實務上 MySQL 跨 DB query 用 application 層處理。

4. JSONB + GIN Index（PG 結構性優勢）

PG JSONB 是 binary 儲存 + 可 直接 GIN index：

 1CREATE TABLE products (
 2    id SERIAL PRIMARY KEY,
 3    metadata JSONB
 4);
 5
 6-- GIN index over JSONB
 7CREATE INDEX idx_products_metadata ON products USING GIN (metadata);
 8
 9-- 快 query
10SELECT * FROM products WHERE metadata @> '{"category": "shoes"}';
11SELECT * FROM products WHERE metadata @? '$.variants[*].price > 100';

MySQL 對應：MySQL 8.0 JSON_TABLE 是 SQL standard、但 index 必須 generated column workaround（不能 GIN index over JSON）。

詳見 MySQL Modern SQL Features JSON_TABLE vs PG JSONB 對比段。

5. Range Types + Exclusion Constraints

PG range types + exclusion constraints 防止 時間範圍重疊：

 1CREATE TABLE reservations (
 2    id SERIAL PRIMARY KEY,
 3    room_id INT,
 4    during TSRANGE,
 5    EXCLUDE USING GIST (room_id WITH =, during WITH &&)
 6);
 7
 8-- INSERT 重疊 booking 自動 reject
 9INSERT INTO reservations (room_id, during)
10VALUES (1, '[2026-05-19 10:00, 2026-05-19 12:00)');
11INSERT INTO reservations (room_id, during)
12VALUES (1, '[2026-05-19 11:00, 2026-05-19 13:00)');
13-- ERROR: conflicting key value violates exclusion constraint

MySQL 對應：完全沒對應、必須 application 層 enforce。

6. CHECK Constraint + Domain Type

PG CHECK constraint 真執行（MySQL 8.0 才補）+ user-defined DOMAIN：

1CREATE DOMAIN positive_int AS INT CHECK (VALUE > 0);
2CREATE TABLE orders (
3    id SERIAL PRIMARY KEY,
4    quantity positive_int NOT NULL,
5    amount DECIMAL CHECK (amount >= 0)
6);

MySQL 對應：8.0+ 有 CHECK constraint enforcement（5.7 可寫但不執行）。沒 user-defined DOMAIN。

7. Extension Ecosystem

PG extension 是 結構優勢：

pg_partman：自動 partition lifecycle
pg_repack：online table rewrite
pg_stat_statements：query stats
pgvector：vector similarity search
pg_cron：scheduled job
PostGIS：GIS
TimescaleDB：time-series
Citus：sharding

MySQL 對應：MySQL plugin 機制有、生態遠遠不如。詳見 PG Extension Ecosystem 篇（待寫）。

MySQL 8.0 補齊的 PG 既有特性

特性	PG 推出	MySQL 推出	差異後說明
CTE	8.4 (2009)	8.0 (2018)	MySQL 補語法、行為 PG 12+ 跟 MySQL 接近
Window function	8.4 (2009)	8.0 (2018)	兩家都標準、frame spec 細節有差
Lateral derived table	9.3 (2013)	8.0.14 (2019)	MySQL 後加、planner 不如 PG 成熟
Hash join	早就有	8.0.18 (2019)	MySQL 受限（equality on indexed column）
JSON_TABLE	17 (2024)	8.0 (2018)	MySQL 較早、PG 17+ 補進、PG 自己有 JSONB 路線
CHECK constraint	早就有	8.0 (2018)	MySQL 5.7 可寫但不執行
Role-based auth	早就有	8.0 (2018)	-
Atomic DDL	早就有	8.0 (2018)	-
Common keyword	完整	8.0 補	MySQL 5.7 缺很多 (window/rank/lateral 等)

MySQL 8.0 是 補齊 9 年 SQL standard 落後、不是 新領先 PG。

PG 仍領先的特性

對應「MySQL 8.0 補了 → PG 仍沒輸」的視角。以下 14 條中、production 影響最大 的是 Materialized view / Partial index / JSONB GIN / Full-text search 跟 Range / Exclusion constraints（schema-level expressiveness）；次要但常用 的是 Multi-column statistics 跟 Procedural language；非典型但 niche 重要 的是 User-defined DOMAIN / Generic table inheritance（讀者不必然知道、但 ORM 跟 schema migration 工具會用）：

PG 領先特性	MySQL 對應狀態	補充
Materialized view	無原生	application-side 重算成本高
Partial index	無（functional index 不等同）	對 boolean / status column 救 storage
FDW	弱（FEDERATED engine 不推薦）	跨 DB query escape hatch
JSONB GIN index	無（generated column workaround）	JSON workload 結構性差
Range types	無	booking / availability schema 救命
Exclusion constraints	無	range overlap 防護
User-defined DOMAIN	無	column-level type constraint
Extension ecosystem	弱	pgvector / TimescaleDB / PostGIS
Full-text search 成熟	InnoDB FTS 較弱	tsvector + GIN + pg_trgm 三層
Multi-column statistics	8.0 histograms 部分對應、PG 更廣	planner 更準
Procedural language	PL/pgSQL + 多語言（PL/Python / PL/Perl 等）	Stored procedure（不擴語言）
Recursive CTE 深度	Unlimited	1000（cte_max_recursion_depth）
LSN-based replication	簡潔	binlog file+position（GTID 緩解）
Generic table inheritance	早就有	無（multi-tenant schema 結構用）

對「從 MySQL 評估 PG」的讀者

讀者通常從 MySQL 8.0 過來、問題是 「PG 比 MySQL 強在哪、弱在哪」：

PG 比 MySQL 強

SQL 工程深度：上面列的 7 個結構優勢
Extension ecosystem：pgvector / TimescaleDB / Citus / pg_partman 等
Optimizer：planner 對複雜 query 更成熟
Concurrency model：MVCC + 少 lock（MVCC + Lock Model）

PG 比 MySQL 弱

Replication 機制簡潔度：MySQL GTID 比 PG WAL + replication slot 配置簡單（Replication Topology）
Sharding ecosystem：Vitess / PlanetScale 比 Citus 規模驗證高
Operational tooling 廣度：pt-toolkit / gh-ost / Orchestrator 等
VACUUM 維護：PG MVCC 必須 VACUUM、autovacuum 配錯議題多（Autovacuum Tuning）

選 PG 的核心 driver

對 SQL 工程深度、extension、複雜 query / OLAP-style workload 的場景、PG 仍是首選。對純簡單 OLTP + 大規模 sharding、MySQL + Vitess 仍 competitive。

跟其他模組整合

MVCC + Lock Model：PG MVCC 是 SQL feature 的並行控制基礎
Query Optimization：PG planner 對 window / CTE / hash join 成熟
Citus Distributed：extension 之一、體現 extension 生態
Autovacuum Tuning：MVCC 代價、跟 SQL feature 並行控制相關

MySQL Group Replication / InnoDB Cluster：single-primary vs multi-primary mode 對 transaction certification 的影響

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 Group Replication + InnoDB Cluster — synchronous multi-primary 的 transaction model + 部署模型。

把「Group Replication multi-primary mode」當成「multi-primary 直接線性 scale write」是常見誤解。

Single-primary 跟 multi-primary 共用同一套 GR 機制（GCE atomic broadcast + certification + applier）— 切換 mode 是 配置變更。但 性能效果 經常跟讀者預期不同：在 single-primary cluster 上加開 group_replication_single_primary_mode=OFF、預期 3 個 instance 都可以接受 write 帶來吞吐倍增、實際上每個寫入仍要全 cluster GCE broadcast + certification、寫吞吐沒爆增 / latency 飆高 / certification 衝突回退增加。

這篇 deep article 把 GR 的 certification 流程 講清楚 — 為什麼「multi-primary」聽起來像「線性 scale」、實際是「保 strong consistency 的 multi-entry」。然後展開 InnoDB Cluster（GR + MySQL Shell + MySQL Router）作為 production deployment 工具。

Group Replication 的 transaction model

GR 用 Group Communication Engine (GCE)（Paxos 變種）達成 atomic broadcast — 任何 write transaction 必須先 broadcast 到所有 member、所有 member 確認 certification pass 才 commit。

每個 transaction 的 GR lifecycle：

11. Client → Member A: BEGIN; UPDATE ...; COMMIT;
22. Member A: 先 local execute、收集 write_set（被改的 row + PK + transaction GTID）
33. Member A: write_set + binlog event → GCE broadcast to all members
44. GCE: Paxos consensus、所有 member 收到 broadcast、按 *相同順序*
55. Each Member: certification phase — 看 write_set 跟 *尚未 apply 的 incoming transactions* 是否有 PK 衝突
66. 若無衝突 → apply 該 transaction（local + remote member 都 apply）、回 client COMMIT OK
77. 若衝突 → certification fail、Member A 對 client 回 ERR_LOCK_DEADLOCK / GR_CONFLICT、application 必須 retry

核心結論：

Single-primary mode：只有指定 member 接受 write、其他 member 純 apply、certification 仍跑（但衝突極少、因只有一個寫入源）
Multi-primary mode：所有 member 都接受 write、certification 衝突常見、application 必須處理 conflict retry

「multi-primary 不會線性 scale write」的原因：

每個 write 仍要全 cluster GCE broadcast + certification
寫吞吐 ceiling 受 最慢 member + 網路延遲 限制（不是「N members × M throughput」）
多寫入源增加 certification 衝突機率、衝突 retry 反而拖 throughput

「multi-primary 真實價值」：

跨 region multi-active deploy（每個 region local member 接受 local write、無 cross-region write latency）— 但需求極少、多數場景 single-primary + Aurora DSQL / Spanner 更實際
零停機 maintenance（任一 member 下線、其他繼續接 write、不必 failover）— 但 single-primary mode 也提供同等 HA

對 99% production case：single-primary mode 才是正確選擇。Multi-primary 是 特殊 use case 工具、不是 預設 mode。

Group Communication Engine（GCE）

GR 內建 GCE、基於 XCom protocol（Paxos 變種）。GCE 責任：

Atomic broadcast：保證 message 到所有 member、按相同順序
Group membership：偵測 member join / leave / fail、reconfigure consensus
Network partition handling：minority partition 自動 fence（read-only）、majority 繼續服務

GCE 跟 Raft 對比：

維度	GR XCom (Paxos-like)	Raft
Leader	沒固定 leader、每個 message 選一個 sender	固定 leader、其他 follower
配置複雜度	高（cluster member 列表 + IP allowlist）	中（更易理解）
Member 數量	預設 3 (max 9)	預設 3-5
Performance	高吞吐、低延遲（不必每次選 leader）	Leader bottleneck 偶有
工程實作	XCom 在 MySQL 內部、不暴露 API	etcd / Consul / TiKV 等獨立工具

GR 的設計取捨：緊耦合 MySQL（不必外部 DCS）、Paxos-like consensus（不像 Raft 那麼簡單但效率更高）。trade-off 是 對 ops 的 transparency 較低 — XCom 內部行為對 DBA 是 black box。

InnoDB Cluster：GR + MySQL Shell + MySQL Router

純 GR 是 底層 replication mechanism、要組成 production deployment 需要：

MySQL Shell (mysqlsh)：CLI 工具、提供 dba.createCluster() / cluster.addInstance() 等 cluster 管理 API
MySQL Router：connection routing layer、自動發現 cluster topology、寫入 routing 給 primary、讀取 routing replica
MySQL Group Replication plugin：在每個 MySQL instance 啟用

InnoDB Cluster = GR + Shell + Router、是 Oracle 推薦的 production GR deployment 方式。

起始部署（3 member single-primary cluster）

 1# Step 1: 在每個 instance 啟 GR plugin + 配 my.cnf
 2[mysqld]
 3server_id = 1                          # 各 instance 不同
 4gtid_mode = ON
 5enforce_gtid_consistency = ON
 6log_bin = mysql-bin
 7binlog_format = ROW
 8master_info_repository = TABLE
 9relay_log_info_repository = TABLE
10transaction_write_set_extraction = XXHASH64
11plugin_load_add = 'group_replication.so'
12
13group_replication_group_name = "aaaaaaaa-bbbb-cccc-dddd-eeeeeeeeeeee"
14group_replication_start_on_boot = OFF
15group_replication_local_address = "node1.example.com:33061"
16group_replication_group_seeds = "node1:33061,node2:33061,node3:33061"
17group_replication_bootstrap_group = OFF
18group_replication_single_primary_mode = ON       # 99% 場景用 ON
19group_replication_enforce_update_everywhere_checks = OFF
20
21# Step 2: 用 MySQL Shell 從第一個 member bootstrap cluster
22mysqlsh --user=root --host=node1.example.com
23> dba.configureInstance('root@node1:3306')
24> var cluster = dba.createCluster('prodCluster')
25> cluster.addInstance('root@node2:3306')
26> cluster.addInstance('root@node3:3306')
27> cluster.status()  # 應該顯示 3 member、1 PRIMARY + 2 SECONDARY
28
29# Step 3: 部署 MySQL Router
30mysqlrouter --bootstrap root@node1:3306 --directory /etc/mysql-router --user=mysqlrouter
31systemctl start mysql-router
32
33# 完成 — application 連 mysql-router:6446 (R/W) 或 :6447 (R/O)

Application 連 Router、Router 自動發現 cluster topology + 自動 failover routing。Application 不必知道哪個 instance 是 primary。

5 個 Production 踩雷

1. Certification lag — Multi-primary 模式 retry storm

Multi-primary mode 下、3 個 instance 同時收到 相同 row 的 conflicting write、certification 階段必有 N-1 個 transaction 被退回。Application 看到 ER_GR_CONFLICT_TRANSACTION_ABORTED、retry、若不智能 retry（exponential backoff）會 retry storm、整個 cluster 寫吞吐暴降。

修法：

99% 場景用 single-primary mode、避開 conflict
真的需要 multi-primary：application 必須 sharding-aware（不同 entry 寫不同 row range）、本質上跟 Vitess sharding 同概念但用 GR 機制
Application retry 用 jitter exponential backoff、不直接 retry

2. Certification queue 爆炸 — Single-primary mode 仍受 cert backlog 影響

Single-primary mode 下 primary 接受 write、broadcast 到 secondary。Secondary 跟 primary network latency / 處理速度差時、cert queue 累積。Cert queue 滿 → primary write 也被卡（GR 設計：所有 member 同步前不接受新 write、保 consistency）。

修法：

監控 group_replication_member_stats view：COUNT_TRANSACTIONS_IN_QUEUE 持續 > 0 是警訊
提高 group_replication_message_cache_size（預設 1 GB）給 large transaction 緩衝
確認 所有 member 同 instance class、不要混 spec
跨 region GR：完全不推薦（network latency 殺 cert throughput）

3. Large transaction — 全 cluster 卡住

GR 必須把整個 transaction（含所有 write_set）一次 broadcast。10 GB transaction（大批量 UPDATE）必須一次塞滿 GCE buffer、cluster 內所有 member 都暫停接受新 transaction 直到 broadcast / apply 完成。常見場景：批次 archive / 大 backfill / INSERT ... SELECT 1 億 row。

修法：

group_replication_transaction_size_limit（預設 150 MB）超過直接 reject、不要設 unlimited
大批量寫入拆 chunk（每 chunk < 100 MB）、用 application 層 loop
對 archive / backfill 用 INSERT INTO archive SELECT ... LIMIT 10000 chunked、不是一個 transaction

4. Network partition — Minority partition 自動 read-only

3 member cluster、network partition 把 1 個 member 隔離。被隔離 member 是 minority、自動進入 read-only mode（不接受 write）、防 split-brain。Application 連到 minority member 寫入會失敗。

修法：

MySQL Router 自動發現 cluster topology、自動 route write 到 majority partition primary
Application 必須處理 connection error + retry（甚至 connection string 改成 Router endpoint 而非個別 instance）
監控 group_replication_primary_member UDF、確認哪個是真 primary

5. Member 加入 catch-up — 大量 binlog 阻擋 cluster service

新 member 加入 cluster（new instance / 復原 failed member）必須 catch-up — apply 從 GR cluster start 到當前所有 binlog 才能 join consensus。如果 cluster 已運作 1 個月、binlog 累積 100 GB、catch-up 可能 6-12 小時、catch-up 期間 該 member 不投票、其他 member 仍 service、但 majority 安全邊界縮小（3 → 2 member working）。

修法：

用 MySQL Shell clone plugin 直接 physical-snapshot 一個 existing member、跳過 binlog replay：
```
1> cluster.addInstance('root@node4:3306', {recoveryMethod: 'clone'})
```
Clone 期間原 member 暫不接 write traffic（用 Router temporarily 排除）
規劃 maintenance window 加 member、不要在 peak load 期間

何時用 GR / InnoDB Cluster

條件	建議
需要 zero-data-loss HA（不容忍任何 binlog gap）	GR single-primary
需要自動 failover 而不必 Orchestrator + fence script	GR / InnoDB Cluster
需要跨 region multi-active（且 conflict 可接受 / sharding-aware）	GR multi-primary
流量 < 50K WPS、無嚴格 zero-loss 需求	傳統 Orchestrator + Semi-sync 更簡單
已用 Aurora / Cloud SQL 等 managed	不用 GR、用 managed offering
需要分散式 SQL（跨 region linearizable）	Spanner / CockroachDB / Aurora DSQL（GR 不解決這個）

跟其他模組整合

跟 Replication topology

GR 取代傳統 async / semi-sync replication、不是 加在上面。啟用 GR 後不要再配 master-slave style replication。詳見 Replication Topology。

跟 Orchestrator

Orchestrator 跟 InnoDB Cluster 不該 同時用 — 兩者都會 trigger failover、會打架。GR / InnoDB Cluster 內建 failover、不需要 Orchestrator。詳見 Orchestrator Failover。

跟 ProxySQL / MySQL Router

ProxySQL 可以連 GR cluster（自動偵測 read_only flag）、但 MySQL Router 是 GR 原生的 routing layer、跟 InnoDB Cluster 緊耦合（透過 MySQL Shell metadata）。

選擇邏輯：

純 MySQL stack, 想 Oracle-supported 整套 → MySQL Router
已用 ProxySQL（包含其他非 GR cluster）+ 統一 routing → 仍用 ProxySQL

詳見 ProxySQL 配置。

跟 InnoDB Tuning

GR 對 innodb_flush_log_at_trx_commit / sync_binlog 行為更敏感 — GR 要求 binlog 必須 fsync to disk（sync_binlog=1）保 zero-loss、不能用 sync_binlog=0 換速度。詳見 InnoDB Tuning。

跟 PostgreSQL Patroni 對比

維度	InnoDB Cluster	Patroni + PostgreSQL
Consensus	GCE (Paxos-like) 內建	依賴外部 DCS (etcd / Consul)
Multi-primary	支援（但少用）	不支援（PG single-primary）
HA tooling	MySQL Shell + Router 整套	Patroni + HAProxy + pgBouncer
Setup 複雜度	中（MySQL Shell 帶很多 abstraction）	中（Patroni config + DCS）
5-year production maturity	Oracle-backed	community-driven、廣用

兩者角色相同、設計取捨不同。詳見 PostgreSQL Patroni HA。

容量規劃要點

元件	配置建議
Member 數量	3 (預設、容忍 1 failure)、5 (容忍 2 failure)
Member 間 network latency	< 5ms（同 region 同 AZ 或跨 AZ）
Network bandwidth	至少 1 Gbps、broadcast traffic 重
Transaction size limit	`group_replication_transaction_size_limit=150M`
Message cache	`group_replication_message_cache_size=1G`（預設）+ 看 lag 調
MySQL Router instance	至少 2 個（HA）、放 application 同 LB 後

Member 跨 region：不推薦。GR 對 latency 敏感、跨 region 50-200ms RTT 嚴重影響 cert throughput。multi-region 需求用 Aurora Global Database / Spanner 等專為跨 region 設計的方案。

PostgreSQL BDR / Multi-Master：active-active 寫入的 3 種路徑跟 conflict 治理

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 multi-master / active-active replication — 不是 PG 預設、需要 extension。

PG 預設沒 multi-master、得用 extension

PG core 是 single-primary streaming replication：

寫入只能進 primary
Standby 接受 read（hot_standby）但拒絕 write
Failover 後新 primary 接管、不能多入口

對需要 active-active（多 region 各自接受 local write）的場景、PG 提供 3 條 extension 路徑：

方案	來源	機制	License
BDR	EDB（Enterprise）	Logical replication-based、雙向	商業（EDB 訂閱）
pgEdge	pgEdge Inc.	基於 BDR、開源、加 Spock extension	開源（Spock）
Bucardo	community	Trigger-based、async、Perl 寫	開源（BSD）

每條路徑有不同 trade-off。對 99% PG production case、不需要 multi-master — single-primary streaming replication + read replica scaling 已夠。Multi-master 是 特殊需求（跨 region active-active write / 不可中斷 maintenance）才上。

跟 MySQL Group Replication 對比：MySQL GR 是 官方內建（5.7+）、PG 沒對應內建選項。MySQL 用戶 GR / InnoDB Cluster 直接套、PG 用戶要選 extension + license trade-off。

Multi-master 三方案對比

方案 1：BDR (EDB Postgres Distributed)

EDB 商業 distributed 方案、跑在 EDB Postgres Advanced Server 或 PG community 上。

特性：

雙向 logical replication、N-way active-active
Built-in conflict detection + resolution（LWW / column-level / user-defined）
Eager（sync）跟 async 兩種 mode
Tightly integrated with EDB tooling

Trade-off：

商業 license、EDB 訂閱
對 cross-region multi-master 成熟（北美 enterprise 廣用）
對 新 PG version 通常滯後幾個月

方案 2：pgEdge（基於 Spock extension）

pgEdge 開源 multi-master、基於 Spock extension（從 BDR 衍生）：

特性：

開源、可自管
跟 BDR 架構接近、無 license fee
Conflict resolution 用 LWW + column-level
對 edge / 地理分散 場景設計

Trade-off：

較新（2023+）、社群驗證度低於 BDR
Conflict resolution policy 比 BDR 簡單
部分 EDB 商業 feature 沒對應

方案 3：Bucardo

PG community async multi-master、Perl 寫、trigger-based：

特性：

完全開源
Trigger-based（不依賴 logical replication）
支援 multi-source replication（fan-in / fan-out）

Trade-off：

Async only — higher latency conflict
Trigger overhead（影響 primary 寫吞吐）
維護 Perl + tools chain 不普及
對 Sync 一致性 需求不適用

Multi-Master Conflict Model

任何 multi-master 方案都要解決 同一 row 兩地同時改 的 conflict：

Conflict 來源

1Region A (primary 1)          Region B (primary 2)
2UPDATE orders                 UPDATE orders
3SET status='shipped'          SET status='cancelled'
4WHERE id=100                  WHERE id=100
5     ↓                              ↓
6   合併？哪個贏？

跨 region 兩地各自 commit、replication lag 期間發現 conflict、必須 自動 resolve（不能丟給 application）。

Conflict Resolution Strategies

1. Last-Write-Wins (LWW) — 最常見：

比較 transaction commit timestamp、晚的贏
簡單但 data loss（前一個 commit 的變更被覆蓋）
需要 clock 同步（NTP）— clock skew 造成不可預測

2. Column-level conflict resolution：

不同 column 各自 LWW（status column 跟 amount column 獨立解）
比 row-level LWW 細、但需 application semantics 配合

3. User-defined trigger：

寫 PG function 解 conflict
對 特殊 business logic（如：金額相加、不是覆蓋）有用
維護成本高

4. Manual reconciliation：

Conflict 寫進 log table、application / DBA 手動處理
對 無法自動 resolve 場景（如金融）
高 ops cost

對 99% case 用 LWW、接受 small data loss、application 設計 idempotent / commutative 操作避免衝突。

Conflict 機率取決於 application pattern

Tenant-isolated application（user_id 各自寫自己的 row）：基本無 conflict
Shared counter / inventory application：高 conflict、multi-master 不適合
Append-only event log：conflict 低、適合 multi-master

配置 step-by-step（pgEdge 為主）

pgEdge 開源、最常見的 self-hosted 選擇。

Step 1：在每個 region node 裝 pgEdge

1# Install pgEdge CLI
2curl -fsSL https://pgedge-upstream.s3.amazonaws.com/REPO/install.py | python3
3
4# Setup PG + Spock + pgEdge
5./pgedge install pg16
6./pgedge install spock

Step 2：配置每個 node

1-- 在 node1（us-east） 跑
2SELECT spock.node_create(node_name := 'node1', dsn := 'host=node1.example.com port=5432 dbname=production');
3
4-- 在 node2（eu-west）跑
5SELECT spock.node_create(node_name := 'node2', dsn := 'host=node2.example.com port=5432 dbname=production');

 1-- 在 node1 建 default replication set + 加 tables
 2SELECT spock.repset_add_all_tables('default');
 3
 4-- 在 node1 subscribe node2
 5SELECT spock.sub_create(
 6    subscription_name := 'sub_n1_n2',
 7    provider_dsn := 'host=node2.example.com port=5432 dbname=production'
 8);
 9
10-- 在 node2 subscribe node1（雙向）
11SELECT spock.sub_create(
12    subscription_name := 'sub_n2_n1',
13    provider_dsn := 'host=node1.example.com port=5432 dbname=production'
14);

Step 4：設 conflict resolution

1-- 設 LWW（預設）
2SELECT spock.conflict_resolution_setting_set(
3    conflict_type := 'update_origin_change',
4    resolution_setting := 'apply_remote'
5);

Step 5：驗證

1-- 看 subscription 狀態
2SELECT * FROM spock.subscription;
3
4-- 看 replication lag
5SELECT * FROM pg_stat_replication;

5 個 Production 踩雷

1. LWW data loss — Application 沒設計 commutative

LWW 預設、兩 region 同時 UPDATE 同 row → 晚的 commit 贏、早的丟失。Application 看不到「我寫的不見了」、debug 困難。

修法：

Application schema 設計 tenant-isolated（user_id 各自寫自己 row）
對 shared counter / inventory 用 commutative operation（INCREMENT not SET）
重要寫入加 audit log — conflict 仍寫到 audit、application 看 audit 知道發生過
真的需要 strict consistency 別用 multi-master、用 single-primary + reader 或 distributed SQL

2. Sequence collision — Two region 各自 next 同號

SERIAL / IDENTITY 用 sequence、兩 region 各自 nextval 可能拿到同 number、INSERT 衝突（PK duplicate）。

修法：

用 staggered sequence range：node1 用 1-1M、node2 用 1M+1 到 2M（用 setval）
或用 UUID（v4 / v7）作 PK、跨 node 無 collision
或 sequence per-node namespace：CREATE SEQUENCE orders_id_node1 START 1 INCREMENT 2（odd vs even）

3. DDL replication 不自動

PG logical replication（pgEdge / BDR 基礎）不自動 replicate DDL。每 node CREATE TABLE / ALTER TABLE 必須 分別跑。

修法：

用 deployment automation（Ansible / Terraform）對所有 node 同時跑 DDL
pgEdge 提供 spock.replicate_ddl(...) 把 DDL 轉成可 replicate event
BDR Enterprise 有 DDL replication（商業 feature）
DDL 變更前確認 所有 node 都健康、減少 partial state

4. Conflict log 治理 — Log table 爆滿

每個 conflict 寫進 spock.conflict_log / bdr.conflict_history 等 table、log 累積 disk 爆。

修法：

設 log retention：cron 定期 archive + delete 老 conflict log
監控 conflict rate — 高 conflict rate 是 application 設計問題（不是 ops 問題）
對 strict business conflict 寫進 application-level audit table、不只 system log

5. Failover 後 timeline 分歧

Multi-master 設計上 每 region 是 primary、Region A 掛了 Region B 接管 — 但 Region A 復活後 仍認為自己是 primary。如果 Region A 復活前已有寫入沒 replicate 出去、resolution 跟 LWW 衝突。

修法：

Fence Region A 復活：物理 fence（network firewall）+ 手動 unfence 流程
用 etcd / Consul 跟 BDR / Spock 整合 leader election（避免 split-brain）
對 cross-region multi-master、必須有 runbook 處理 region 復活流程、不靠自動

何時用 multi-master vs 不用

情境	建議
真正 cross-region active-active write 需求	BDR / pgEdge
不可中斷 maintenance（zero downtime upgrade）	BDR / pgEdge
高 conflict rate（shared counter / inventory）	不要 multi-master、用 distributed SQL
Read scaling 為主、可接受 stale read	streaming replication + read replica（更簡單）
Strict consistency 需求	single-primary + sync replication 或 Aurora DSQL / Spanner
預算敏感 + 不想養 BDR / pgEdge ops	不要 multi-master、用 managed distributed SQL

跟 MySQL Group Replication 對比

維度	PG Multi-Master	MySQL Group Replication
內建？	否、需 extension	是、5.7+ 內建
商業 vs 開源	BDR 商業 / pgEdge 開源	Oracle 商業 / community 都行
Sync mode	可（BDR eager）	是（certification-based）
Conflict resolution	LWW / column / user-defined	Certification-based（distributed transaction）
Production maturity	BDR 高、pgEdge 中	高（Oracle 推）
Use case 比例	少（PG 多用 single-primary）	較多（MySQL 推 InnoDB Cluster）

MySQL GR 內建 + Oracle 推、PG 沒對應內建。對 multi-master 需求重的 org、MySQL 走 GR 路徑更直接。

跟其他模組整合

跟 Replication Topology

Multi-master 是 streaming replication 之上的 logical replication 加雙向、不取代 streaming。Streaming 仍給 standby / failover、multi-master 給 active-active write。詳見 Replication Topology。

跟 Logical Replication

pgEdge / BDR 都基於 logical replication slot、跟 Logical Replication + Debezium 共用 PG logical decoding infrastructure、但 配置 + tooling 不同。

跟 MVCC

Multi-master 的 conflict 在 commit 後 偵測（async）、不在 transaction 內。跟單機 MVCC（同 cluster 內 transaction snapshot）不同層。詳見 MVCC + Lock Model。

MySQL Query Optimization：從 EXPLAIN 看到實際執行、5 條 query 從 5 秒變 50ms 的 anatomy

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 query optimization — EXPLAIN / optimizer trace / hint 三層工具跟 5 個實際 case。

5 個常見 production case

production 上 query 慢、root cause 幾乎都是 optimizer 選錯 plan。從以下 5 個 case 進入 query optimization：

Case 1：5 秒 → 50ms — JOIN 順序選錯

1-- 慢 (5 秒)：optimizer 選 customers 為 outer table、scan 全 1M row
2SELECT o.id, o.amount, c.name
3FROM orders o JOIN customers c ON o.customer_id = c.id
4WHERE o.created_at > '2026-05-01' AND c.region = 'TW';

EXPLAIN 顯示：

1+----+-------------+-------+------+---------------+--------+
2| id | select_type | table | type | possible_keys | rows   |
3+----+-------------+-------+------+---------------+--------+
4|  1 | SIMPLE      | c     | ALL  | NULL          | 1000000|
5|  1 | SIMPLE      | o     | ref  | idx_cust_id   | 100    |
6+----+-------------+-------+------+---------------+--------+

c table type=ALL（full scan）、rows=1M。問題：customers 沒在 region 上的 index、optimizer 預估「region=TW filter 沒效率、就 full scan」、但 region=TW 只佔 10% row（100K row）。

修法：

1ALTER TABLE customers ADD INDEX idx_region (region);
2ANALYZE TABLE customers;  -- 更新 statistics

加 index 後 optimizer 切 plan：先 scan customers 用 idx_region 篩 100K row、再 join orders。從 5 秒降到 50ms。

Case 2：30 秒 → 200ms — Range scan 退化 ALL

1SELECT * FROM events
2WHERE created_at BETWEEN '2026-05-01' AND '2026-05-02'
3AND user_id = 12345;

events 有 idx_user_id 跟 idx_created_at 兩個 index、optimizer 應該選一個 + 二級 filter、但實際 type=ALL（full scan）。

EXPLAIN ANALYZE 顯示：

1-> Filter: ((events.user_id = 12345) and (events.created_at between ...))  (cost=2M rows=100)
2    -> Table scan on events  (cost=2M rows=10000000)  (actual time=0.1..30s ...)

問題：optimizer estimated rows=100、實際 cardinality estimation 失準（distribution skew）、選了 ALL。

修法：

1-- 用 composite index 直接 cover 兩個條件
2ALTER TABLE events ADD INDEX idx_user_created (user_id, created_at);

Composite index 讓 optimizer 看到 單一 index 直接 satisfy 兩個 predicate、走 range scan + index condition pushdown。30 秒降到 200ms。

Case 3：8 秒 → 30ms — Subquery 沒 unnest

1SELECT * FROM orders
2WHERE customer_id IN (
3    SELECT id FROM customers WHERE region = 'TW' AND vip_level >= 3
4);

5.6 之前 MySQL 把 IN (subquery) 寫成 correlated subquery、外表每 row 都 re-run subquery、極慢。5.6+ 加 subquery unnesting、轉換成 JOIN，但某些情況 unnest 失敗。

EXPLAIN 顯示：

1+----+--------------------+-----------+-------+
2| id | select_type        | table     | type  |
3+----+--------------------+-----------+-------+
4|  1 | PRIMARY            | orders    | ALL   |
5|  2 | DEPENDENT SUBQUERY | customers | unique_subquery |
6+----+--------------------+-----------+-------+

DEPENDENT SUBQUERY 是危險訊號。修法：

1-- 手動改寫成 JOIN
2SELECT o.* FROM orders o
3JOIN customers c ON o.customer_id = c.id
4WHERE c.region = 'TW' AND c.vip_level >= 3;

或用 EXISTS（部分 case 比 IN plan 好）：

1SELECT * FROM orders o
2WHERE EXISTS (
3    SELECT 1 FROM customers c
4    WHERE c.id = o.customer_id AND c.region = 'TW' AND c.vip_level >= 3
5);

不同寫法 plan 差異需用 EXPLAIN 驗證、不能假設「JOIN 一定比 IN 快」。

Case 4：2 秒 → 100ms — Derived table 沒 materialize

1SELECT * FROM orders o
2JOIN (
3    SELECT customer_id, COUNT(*) AS order_count
4    FROM orders
5    GROUP BY customer_id
6) AS counts ON o.customer_id = counts.customer_id
7WHERE counts.order_count > 10;

5.6 之前 derived table（FROM subquery）每次 query 都 re-run、慢。5.7+ 有 derived table materialization、但 optimizer 有時不觸發。

EXPLAIN 顯示：

1+----+-------------+-------+------+
2| id | select_type | table | type |
3+----+-------------+-------+------+
4|  1 | PRIMARY     | o     | ALL  |
5|  2 | DERIVED     | orders| ALL  |  -- 沒 materialize、每次 join 都跑
6+----+-------------+-------+------+

修法：

1-- 顯式用 CTE + 改寫
2WITH counts AS (
3    SELECT customer_id, COUNT(*) AS order_count
4    FROM orders GROUP BY customer_id
5)
6SELECT o.* FROM orders o
7JOIN counts ON o.customer_id = counts.customer_id
8WHERE counts.order_count > 10;

但記得 MySQL CTE 也不 materialize 預設、可能要 temporary table 才強制 cache：

1CREATE TEMPORARY TABLE counts AS
2SELECT customer_id, COUNT(*) AS order_count FROM orders GROUP BY customer_id;
3SELECT o.* FROM orders o JOIN counts ON o.customer_id = counts.customer_id
4WHERE counts.order_count > 10;
5DROP TEMPORARY TABLE counts;

Case 5：10 秒 → 100ms — Optimizer 選 index 不對

1SELECT * FROM users WHERE age > 30 AND active = 1;

users 有 idx_active (selectivity 高) 跟 idx_age (selectivity 低)。Optimizer 選 idx_age、scan 60% rows、慢。

EXPLAIN：key: idx_age — 但 active=1 filter 後 row 量 < 5%。

修法選一：

Index hint 強制：

1SELECT * FROM users USE INDEX (idx_active)
2WHERE age > 30 AND active = 1;

Composite index 取代：

1ALTER TABLE users ADD INDEX idx_active_age (active, age);
2DROP INDEX idx_age ON users;

Optimizer hint (8.0+)：

1SELECT /*+ INDEX(users idx_active) */ * FROM users
2WHERE age > 30 AND active = 1;

Composite index 是最持久解（不依賴 hint）。Index hint 是 quick fix、但對 future schema change 脆弱。

EXPLAIN 三層工具

Tool 1：EXPLAIN — query plan preview

1EXPLAIN SELECT ...;

輸出每個 step 的估計 cost / row count / key used。用於 quick check plan 形狀。

關鍵欄位：

type：access type（ALL < index < range < ref < eq_ref < const）、ALL / index 是警訊
key：實際選的 index、可能跟 possible_keys 不同
rows：估計 scan row 數
Extra：Using filesort / Using temporary / Using index condition 等行為標記

Tool 2：EXPLAIN ANALYZE — 實際執行統計

8.0+ 加的。差別：實際 run query、回實際 row count / time、跟 estimate 對比。

1EXPLAIN ANALYZE SELECT ...;

輸出格式（tree format）：

1-> Nested loop inner join  (cost=2.4e6 rows=100000) (actual time=0.05..3.2 rows=10000 loops=1)
2    -> Index range scan on orders using idx_created (cost=2.4e6 rows=10000) (actual time=0.04..3.0 rows=10000 loops=1)
3    -> Single-row index lookup on customers using PRIMARY (cost=1 rows=1) (actual time=0.0001..0.0001 rows=1 loops=10000)

關鍵：對比 cost / rows（estimate） vs actual time / rows。如果 estimate=100K / actual=10M、optimizer 嚴重低估、可能選錯 plan。

Tool 3：Optimizer Trace — 看 optimizer 為何選這個 plan

1SET optimizer_trace='enabled=on';
2SELECT ...;
3SELECT * FROM information_schema.optimizer_trace;

輸出 JSON、列每個 step optimizer 考慮過的 plan + cost estimate + 為什麼選最終 plan。用於：optimizer 行為跟你預期不符時、debug 為什麼。

複雜 query 的 optimizer trace 可能 100+ KB、要熟讀 JSON 結構。production debug tool、不是常規 tool。

Optimizer hint vs Index hint

兩種 hint、語法不同、行為不同：

Index hint（5.x 就有）

1SELECT ... FROM table USE INDEX (idx_name) WHERE ...;
2SELECT ... FROM table FORCE INDEX (idx_name) WHERE ...;
3SELECT ... FROM table IGNORE INDEX (idx_name) WHERE ...;

USE INDEX：建議 optimizer 用這 index、但 optimizer 仍可拒絕
FORCE INDEX：強制用、optimizer 不能拒絕
IGNORE INDEX：禁止用

問題：

對 table name 寫死、refactor / partition 時容易斷
FORCE 太強、可能讓 optimizer 跑得比沒 hint 更慢（forced index 不是最佳 plan）

Optimizer hint（8.0+）

1SELECT /*+ INDEX(table_name idx_name) */ ... FROM table WHERE ...;
2SELECT /*+ JOIN_ORDER(t1, t2, t3) */ ... FROM t1, t2, t3 WHERE ...;
3SELECT /*+ HASH_JOIN(t1 t2) */ ... FROM t1 JOIN t2 ...;
4SELECT /*+ NO_INDEX_MERGE(table) */ ... FROM table WHERE ...;

更細粒度（join order / join method / index 選擇分開）
注入 query comment 內、不污染 SQL syntax
比 index hint 安全：optimizer 看 hint 但仍走 plan space search

5 個 Production 踩雷

1. Statistics 過時 — optimizer 估錯 row count

information_schema.STATISTICS 紀錄每個 index 的 cardinality。如果 過 1 個月沒 ANALYZE、statistics 跟實際資料 distribution 嚴重偏差、optimizer 估計錯。

修法：

定期跑 ANALYZE TABLE（大表改 nightly cron）
8.0+ innodb_stats_auto_recalc=ON 預設、但變更超過 10% row 才觸發
設 innodb_stats_persistent=ON（預設、把 statistics 存 disk）+ innodb_stats_persistent_sample_pages=20（提高 sample 精度）

2. Forced index 用錯 — Hint 比沒 hint 還慢

FORCE INDEX (idx) 強制 optimizer 用、但 idx 不是最佳 時、query 變慢。常見：開發 staging 試出 FORCE INDEX 有效、production 資料 distribution 不同、forced index 反而慢。

修法：

用 USE INDEX 而不是 FORCE INDEX（optimizer 仍可換）
不依賴 hint、用 composite index / 重寫 query 達到目的
已用 hint 的 query 進 staging review 機制、確認 plan 仍合理

3. Hash join 沒觸發 — Equality 是 expression

1SELECT ... FROM a JOIN b ON a.id = b.parent_id + 1;

b.parent_id + 1 是 expression、不是 raw column、optimizer 不選 hash join、用 nested loop。

修法：

Schema 改：把 parent_id + 1 變成 generated column
Query 改：JOIN 之前 預計算 expression 存 temp table
或 /*+ HASH_JOIN(a b) */ 顯式（但 plan 仍可能拒絕）

4. Range scan 退化 ALL — Cardinality 估計太低

1SELECT ... FROM t WHERE col IN (1, 2, 3, ..., 1000);

IN 1000 value、optimizer 預估「range scan 太多 lookup、不如 ALL」、選 full table scan。對 中型表（1M row）通常 IN 仍快、但 optimizer 估錯。

修法：

IN 拆成 temp table JOIN：

1CREATE TEMPORARY TABLE in_values (val INT);
2INSERT INTO in_values VALUES (1), (2), ..., (1000);
3SELECT t.* FROM t JOIN in_values iv ON t.col = iv.val;

或 optimizer_switch='index_merge=on'（multi-value IN 可能走 index merge）
或大 IN 改 application 層拆批 query

5. Derived table materialization off — 重複 scan

optimizer_switch='derived_merge=on'（預設 ON、derived table 自動 inline merge）某些 query 反而慢（merge 後 plan 變複雜）。或 反向問題：derived table 沒 materialize、每次都 re-run。

修法：

看 EXPLAIN 是否有 DERIVED row、確認 materialization 行為
可 optimizer_switch='derived_merge=off' 強制 materialize（影響整個 connection、謹慎用）
大 derived table 改 explicit temporary table 完全控制

跟 PostgreSQL EXPLAIN 對比

工具	MySQL	PostgreSQL
Query plan preview	`EXPLAIN`	`EXPLAIN`
實際執行統計	`EXPLAIN ANALYZE` (8.0+)	`EXPLAIN ANALYZE`
Optimizer 內部 trace	optimizer_trace (JSON)	`auto_explain` extension
Format	TABLE / JSON / TREE	TEXT / JSON / XML / YAML
Parallel query plan	受限（8.0 限 hash join）	Full（PG 10+ parallel scan / aggregate / join）
Index merge	有	有 (`bitmap index scan`)
Genetic Query Optimizer	無	PG 有（適合 > 12 table JOIN）
Cost estimate accuracy	中（histograms 8.0+）	高（成熟 statistics）

PG optimizer 整體更成熟、複雜 OLAP-style query plan 更穩定。MySQL 8.0 補了不少（histograms、hash join、derived table merge）、簡單 OLTP query 已 OK、複雜 query 仍弱。

跟其他模組整合

跟 Modern SQL Features

CTE / window function / lateral / hash join 都改變 query plan space、optimizer 跟著要識別新 pattern。8.0 optimizer 對新 SQL feature plan 仍有改進空間。詳見 Modern SQL Features。

跟 InnoDB Tuning

Query plan 受 buffer pool hit rate 影響 — optimizer 假設 random IO cost、實際資料在 buffer pool 內讀取快。Buffer pool 不夠時 plan estimate 失真。詳見 InnoDB Tuning。

跟 ProxySQL

ProxySQL query rule 不影響 optimizer plan、但可以 rewrite query（rule engine 的 replace_pattern）— 用於把 application 寫不好的 query 改成 optimizer-friendly 形式、application 不必改。詳見 ProxySQL 配置。

跟 Lock Contention

Slow query 持有 lock 久、其他 query wait、整個 cluster lock contention 爆。Query optimization 不只是 latency 問題、也是 lock 影響範圍 問題。詳見 Lock Contention deep dive 篇（待寫）。

跟 Partitioning

Partition pruning 是 optimizer 決定的、EXPLAIN PARTITIONS 看 partition 命中。partition + index 組合可能比 single big table + index 慢（cross-partition query overhead）。詳見 Partitioning 篇（待寫）。

觀測 metric

Production 持續 monitor：

Performance_schema.events_statements_summary_by_digest：每個 query digest 的累計 time / row examined / row sent
slow_query_log：slow query 進 log 檔（long_query_time=1）
sys.statements_with_full_table_scans：列 query 用 full scan 的歷史
sys.schema_unused_indexes：列從未用過的 index、可以 drop 省 write cost

把這些丟進 Datadog / Percona Monitoring & Management 做 trend analysis。

PostgreSQL Query Optimization：EXPLAIN ANALYZE / pg_hint_plan / auto_explain 三層工具跟 4 個 case

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 query optimization — EXPLAIN ANALYZE / auto_explain / pg_hint_plan 三層工具跟 4 個實際 case。

4 個常見 production case

PG query 慢的 root cause 多數是 planner 選錯 plan。從以下 4 個 case 進入 query optimization：

Case 1：5 秒 → 50ms — Seq scan vs index

1-- 慢 (5 秒)
2SELECT o.id, o.amount, c.name
3FROM orders o JOIN customers c ON o.customer_id = c.id
4WHERE c.region = 'TW' AND o.created_at > '2026-05-01';

EXPLAIN (ANALYZE, BUFFERS)：

1Hash Join  (cost=20000..50000 rows=100 width=...) (actual time=4900..5000 rows=10000)
2  ->  Seq Scan on customers c  (cost=0..20000 rows=1000000 width=...)
3      Filter: (region = 'TW')
4      Rows Removed by Filter: 900000
5  ->  Hash  (cost=...)
6      ->  Index Scan on orders_created_idx

問題：customers.region 沒 index、planner 選 seq scan、實際 region=TW 只 10% row。修法：

1CREATE INDEX CONCURRENTLY idx_customers_region ON customers(region);
2ANALYZE customers;  -- 更新 statistics、讓 planner 看到新 index

加完 5 秒降 50ms。

Case 2：30 秒 → 200ms — Hash join 沒觸發、用 nested loop

1SELECT u.name, count(o.id)
2FROM users u LEFT JOIN orders o ON o.user_id = u.id
3GROUP BY u.name;

EXPLAIN ANALYZE 顯示 Nested Loop 跑 1M 次 inner loop、執行 30 秒。Planner 估錯 row count、選 nested loop。Hash join 應該 < 200ms。

修法：

1ANALYZE users;
2ANALYZE orders;
3-- 提高 default_statistics_target 對 critical column
4ALTER TABLE orders ALTER COLUMN user_id SET STATISTICS 1000;
5ANALYZE orders;

統計精度提升、planner 估 row count 準、自動切 hash join。

Case 3：8 秒 → 100ms — Multi-column 統計缺

1SELECT * FROM orders WHERE status = 'pending' AND region = 'TW';

status = 'pending' 5% row、region = 'TW' 10% row。Planner 假設兩 column 獨立、估 0.5% (5K row)。實際 status=‘pending’ 跟 region=‘TW’ 強相關（TW 訂單多 pending）、實際 4% (40K row)。Planner 估錯 8x、選錯 plan。

修法（PG 10+）：

1CREATE STATISTICS stats_orders_status_region (dependencies, ndistinct, mcv)
2ON status, region FROM orders;
3ANALYZE orders;
4-- 之後 planner 知道 status+region 相關度、估準

Case 4：20 秒 → 5 秒 — Parallel query 沒觸發

1SELECT region, count(*), sum(amount) FROM orders GROUP BY region;

orders 100M row、預期 PG parallel scan + parallel aggregate、實際 single worker 跑 20 秒。

EXPLAIN：Workers Planned: 0。

修法：

1# postgresql.conf
2max_parallel_workers_per_gather = 4
3max_parallel_workers = 8
4max_worker_processes = 16
5parallel_setup_cost = 100        # 預設 1000、降低讓 planner 更敢 parallel
6parallel_tuple_cost = 0.01       # 預設 0.1

並行後 5 秒。

EXPLAIN 三層工具

Tool 1：EXPLAIN — Plan preview

1EXPLAIN SELECT ...;

輸出每個 node 的估計 cost / row count / width。用於 quick plan check。

關鍵欄位：

Plan node 類型：Seq Scan < Index Scan < Index Only Scan、警訊看 unexpected node type
cost=START..END：planner 估的 cost、START 是 startup cost、END 是 total
rows：估計 output row 數
width：每 row average byte（影響 sort / hash memory）

Tool 2：EXPLAIN ANALYZE — 實際執行 + 對比 estimate

1EXPLAIN (ANALYZE, BUFFERS, VERBOSE) SELECT ...;

差別：實際 跑 query、輸出實際 row count / time、跟 estimate 對比：

1Hash Join  (cost=20000..50000 rows=100) (actual time=400..500 rows=10000 loops=1)

rows=100 (estimate) vs rows=10000 (actual) — 估錯 100x、planner 可能選錯 plan。BUFFERS 顯示 disk read vs buffer cache hit。

注意：EXPLAIN ANALYZE 實際跑 query、修改性 query（UPDATE / DELETE）會真的改 data。讀 query 安全。修改性 query 包 transaction：

1BEGIN;
2EXPLAIN ANALYZE UPDATE orders SET status = 'x' WHERE ...;
3ROLLBACK;

Tool 3：auto_explain — Production query 自動 capture

auto_explain extension 自動 log slow query 的 plan：

1# postgresql.conf
2shared_preload_libraries = 'auto_explain'
3auto_explain.log_min_duration = '1s'    # 超過 1 秒 log plan
4auto_explain.log_analyze = on            # 含 ANALYZE 統計
5auto_explain.log_buffers = on
6auto_explain.log_format = 'json'         # JSON 格式給工具消費

Production slow query 自動進 log、不必手動 EXPLAIN。組合 pg_stat_statements + auto_explain 是 PG 標準 query observability。

pg_hint_plan vs Planner GUC

PG 兩種方式 nudge planner：

Planner GUC（global）

postgresql.conf 內：

enable_seqscan = off — 禁用 seq scan（force index）
enable_nestloop = off — 禁用 nested loop（force hash/merge join）
random_page_cost = 1.1 — SSD 設低（預設 4 是 HDD assumption）
effective_cache_size = '16GB' — buffer pool + OS cache 估、影響 planner

GUC 是 global — 影響所有 query。對 單一 query 用 hint：

pg_hint_plan extension（per-query hint）

1-- 強制特定 plan
2/*+ IndexScan(orders idx_orders_status) NestLoop(orders customers) */
3SELECT ... FROM orders JOIN customers ON ...;

Hint 形態：

IndexScan(t1 idx_name) — 強制 index scan
SeqScan(t1) — 強制 seq scan
HashJoin(t1 t2) / NestLoop(t1 t2) / MergeJoin(t1 t2)
Leading(t1 t2 t3) — 強制 join order
Rows(t1 t2 #100) — 強制 row 估計

5 個 Production 踩雷

1. Statistics 過時 — Planner 估錯 row count

ANALYZE 是 autovacuum 一部分、預設 autovacuum_analyze_scale_factor=0.1（10% row 變動才 analyze）。對 快速 grow 的表（log / event）、ANALYZE 跟不上、planner 用過時 statistics。

修法：

對 critical table 設 較 aggressive autovacuum_analyze_scale_factor：

1ALTER TABLE events SET (autovacuum_analyze_scale_factor = 0.02);

對 大批量寫入後、手動 ANALYZE events;
監控 pg_stat_user_tables.last_analyze — 跟 row count 比、判定是否需手動 trigger

2. Multi-column statistics — Planner 假設 column 獨立

如 Case 3、單 column statistics 對 相關 column 估錯。

修法：

對 常一起 query 的 column 組合、建 CREATE STATISTICS（PG 10+）
3 種 type：dependencies（functional dependency）、ndistinct（multi-column distinct count）、mcv（most common value combinations）
設完 必須跑 ANALYZE 才生效

3. Cost-base setting 不對齊硬體 — Planner 偏 seq scan

預設 random_page_cost = 4、seq_page_cost = 1 是 HDD assumption（random IO 比 sequential 慢 4x）。SSD / NVMe random / seq IO 差別小、planner 不該 4x penalty random。

修法：

1-- SSD
2ALTER SYSTEM SET random_page_cost = 1.1;
3
4-- NVMe
5ALTER SYSTEM SET random_page_cost = 1.0;
6
7SELECT pg_reload_conf();

random_page_cost 改了 planner 對 index scan 的 cost 估計更準、自動選 index 更積極。

4. `effective_cache_size` 不對齊實際 RAM

effective_cache_size 預設 4 GB、planner 假設 buffer pool + OS cache 共 4 GB。實際 server 64 GB RAM、shared_buffers = 16GB、OS page cache ~30 GB、實際可用 cache 46 GB。

修法：

1ALTER SYSTEM SET effective_cache_size = '46GB';  -- shared_buffers + OS cache 估

提升後 planner 估 query 多數 page 在 cache、降低 估計 random IO cost、選 index 更積極。

5. Parallel query 不觸發

預設 max_parallel_workers_per_gather = 2、有些 workload 不夠。或 table size 太小、min_parallel_table_scan_size = 8MB 預設、小表不 parallel。

修法：

1ALTER SYSTEM SET max_parallel_workers_per_gather = 4;
2ALTER SYSTEM SET parallel_setup_cost = 100;
3ALTER SYSTEM SET parallel_tuple_cost = 0.01;
4ALTER SYSTEM SET min_parallel_table_scan_size = '0';  -- 任何 size 都 parallel

監控 EXPLAIN 的 Workers Planned 數量、看是否真 parallel。

觀測 metric

Production 持續 monitor：

pg_stat_statements：每個 query digest 累計 calls / time / rows / IO
auto_explain log：slow query 的實際 plan + ANALYZE 統計
pg_stat_user_tables.last_analyze / last_autoanalyze：statistics 新鮮度
pg_stat_user_indexes.idx_scan：每個 index 使用次數 — 0 表示沒用、可考慮 drop

把這些丟進 Datadog / Prometheus（用 postgres_exporter / pg_exporter）做 trend analysis。

跟 MySQL Query Optimization 對照

維度	PG	MySQL
Query plan preview	`EXPLAIN`	`EXPLAIN`
實際執行統計	`EXPLAIN ANALYZE`	`EXPLAIN ANALYZE` (8.0+)
Auto-capture	`auto_explain` extension	`slow_query_log` + `pt-query-digest`
Optimizer trace	log_planner_stats / log_executor_stats	`optimizer_trace` (JSON)
Per-query hint	`pg_hint_plan` extension	optimizer hint comment (`/+ /`)
Multi-column statistics	`CREATE STATISTICS`	無原生（依賴 index 統計）
Parallel query	Full (scan / agg / join, PG 9.6+)	受限 (8.0 hash join)
Cost-base setting	random_page_cost / effective_cache_size	隱性、optimizer 預設

PG planner 整體成熟、複雜 OLAP-style query 處理較好。MySQL 8.0 補了不少（histograms / hash join）但複雜 query 仍弱於 PG。詳見 MySQL Query Optimization。

跟其他模組整合

跟 Autovacuum Tuning

ANALYZE 是 autovacuum 一部分、autovacuum 跟不上 → statistics 過時 → planner 估錯。詳見 Autovacuum Tuning。

跟 Replication Topology

Standby 上跑 query 用同 statistics（streaming replication copy 整個 system catalog）、planner 行為一致。但 standby 有 hot_standby_feedback 影響 primary autovacuum / ANALYZE 行為。詳見 Replication Topology。

跟 Partitioning

Partition pruning 跟 query plan 緊密 — EXPLAIN 看是否 prune 對的 partition。詳見 Declarative Partitioning。

何時用 pg_hint_plan vs GUC

情境	選擇
全 cluster 行為（如 SSD random_page_cost）	GUC
單一 critical query 強制特定 plan	pg_hint_plan
暫時 disable 某類 plan 給 debug	`SET enable_xxx=off` per-session
Production stable use	GUC + multi-column statistics 為主、hint 為 last resort

MySQL Partitioning：partition lifecycle 五段、跟 Vitess sharding 不同的「同 instance 內水平切割」

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 native partitioning — 5 段 lifecycle + 4 種 type + 跟 Vitess sharding / PG partitioning 對比。

Partition lifecycle 五段

MySQL native partitioning 是 同 instance 內把一個邏輯 table 拆成多個 physical sub-table、optimizer 可選擇只 scan 相關 partition。整個 partition lifecycle 5 段：

1Design       決定 partition key / type / 數量
2   ↓
3Create       CREATE TABLE ... PARTITION BY ...
4   ↓
5Query        WHERE clause + partition pruning
6   ↓
7Maintenance  ADD / DROP / REORGANIZE / EXCHANGE
8   ↓
9Drop         整個 partition 一次刪（比 DELETE FROM 快 1000x）

每段都有獨立工程決策。設計階段選錯 partition key、後續 maintenance + query 全部 broken。

跟 Vitess sharding 對比：

MySQL partitioning：同 instance、optimizer 自動 pruning、無 cross-instance network cost
Vitess sharding：跨 instance、application 透過 VTGate routing、可線性 scale

兩者不衝突、可組合：Vitess shard 內部再用 MySQL partition（例如：shard 切 16 個、每個 shard 的 table 再按月份 partition）。

4 種 partition type

RANGE partitioning — 連續區間切割

最常見、適合 time-series / 連續數字：

 1CREATE TABLE orders (
 2    id BIGINT AUTO_INCREMENT,
 3    user_id BIGINT NOT NULL,
 4    amount DECIMAL(10,2),
 5    created_at DATETIME NOT NULL,
 6    PRIMARY KEY (id, created_at)              -- PK 必須含 partition key
 7)
 8PARTITION BY RANGE (TO_DAYS(created_at)) (
 9    PARTITION p202601 VALUES LESS THAN (TO_DAYS('2026-02-01')),
10    PARTITION p202602 VALUES LESS THAN (TO_DAYS('2026-03-01')),
11    PARTITION p202603 VALUES LESS THAN (TO_DAYS('2026-04-01')),
12    PARTITION p_future VALUES LESS THAN MAXVALUE  -- 未來資料 fallback
13);

優點：

Partition pruning 高效（時間 range query）
整個月 archive 直接 ALTER TABLE orders DROP PARTITION p202601、毫秒級

缺點：

必須 預先建 未來 partition（或用 p_future fallback、但 fallback partition 變大就失去 pruning 意義）
Hot partition — 最新 partition 接收所有 INSERT、其他 partition 純歷史

LIST partitioning — 離散值切割

適合 enum-like value：

 1CREATE TABLE users (
 2    id BIGINT,
 3    name VARCHAR(100),
 4    region VARCHAR(10) NOT NULL,
 5    PRIMARY KEY (id, region)
 6)
 7PARTITION BY LIST COLUMNS (region) (
 8    PARTITION p_asia VALUES IN ('TW', 'JP', 'KR', 'CN'),
 9    PARTITION p_americas VALUES IN ('US', 'CA', 'BR'),
10    PARTITION p_emea VALUES IN ('GB', 'DE', 'FR', 'IT')
11);

優點：對 enum-like value 直接命中、pruning 簡單。

缺點：value list 不能變更（不 supported ALTER PARTITION ADD VALUE）、新國家代碼必須 REORGANIZE。

HASH partitioning — 均勻分布

對 numeric / string column 取 hash、均勻分布：

1CREATE TABLE events (
2    id BIGINT,
3    user_id BIGINT NOT NULL,
4    event_type VARCHAR(50),
5    PRIMARY KEY (id, user_id)
6)
7PARTITION BY HASH (user_id) PARTITIONS 8;

優點：均勻分布、沒有 hot partition。

缺點：

Range query 沒效 — WHERE user_id BETWEEN 100 AND 200 不能 pruning、scan 全部 partition
Partition 數量改變需要 REORGANIZE 整張表

KEY partitioning — MySQL 內部 hash

跟 HASH 類似、但用 MySQL 內部 hash function（不依賴 column 是否 integer）：

1CREATE TABLE sessions (
2    session_id VARCHAR(64),
3    user_id BIGINT NOT NULL,
4    data TEXT,
5    PRIMARY KEY (session_id, user_id)
6)
7PARTITION BY KEY (user_id) PARTITIONS 16;

用於 string column 或 composite column 的均勻分布。一般場景跟 HASH 效果接近。

Sub-partitioning — 兩層切割

RANGE + HASH 組合、深化分隔：

 1CREATE TABLE big_events (
 2    id BIGINT,
 3    user_id BIGINT,
 4    created_at DATETIME,
 5    PRIMARY KEY (id, created_at, user_id)
 6)
 7PARTITION BY RANGE (TO_DAYS(created_at))
 8SUBPARTITION BY HASH (user_id) SUBPARTITIONS 4 (
 9    PARTITION p202601 VALUES LESS THAN (TO_DAYS('2026-02-01')),
10    PARTITION p202602 VALUES LESS THAN (TO_DAYS('2026-03-01'))
11);

每個 RANGE partition 又拆 4 個 HASH sub-partition、共 8 個 physical storage location。適合 時間 range + user_id hash 兩維度。

實務罕用、複雜性高、調 query plan 困難。多數 case 用 single-level partition 即可。

Partition Pruning — Optimizer 怎麼選 partition

EXPLAIN PARTITIONS SELECT ... 顯示 query 命中哪些 partition：

1EXPLAIN PARTITIONS
2SELECT * FROM orders WHERE created_at BETWEEN '2026-02-15' AND '2026-02-20';
3
4+----+-------------+--------+------------+-------+
5| id | select_type | table  | partitions | type  |
6+----+-------------+--------+------------+-------+
7|  1 | SIMPLE      | orders | p202602    | range |
8+----+-------------+--------+------------+-------+

只命中 p202602、其他 partition 不 scan。

Pruning 失效場景：

Function on partition key：

1WHERE YEAR(created_at) = 2026  -- 沒 pruning、scan 全部

應該寫成：

1WHERE created_at >= '2026-01-01' AND created_at < '2027-01-01'

Implicit conversion：

1WHERE created_at = '2026-02-15'  -- 字串 vs DATETIME、可能失效

應該：

1WHERE created_at = TIMESTAMP '2026-02-15 00:00:00'

OR 跨 partition：

1WHERE created_at = '2026-02-15' OR user_id = 100  -- partition + non-partition column OR、scan 全部

JOIN 不直接 filter partition key：JOIN 條件不含 partition key、optimizer 估計無法 pruning。

Partition Maintenance — ADD / DROP / REORGANIZE / EXCHANGE

ADD partition

1ALTER TABLE orders ADD PARTITION (
2    PARTITION p202604 VALUES LESS THAN (TO_DAYS('2026-05-01'))
3);

對 RANGE 簡單、但要 排在 MAXVALUE partition 之前（如果有 p_future、要先 REORGANIZE）。

DROP partition

1ALTER TABLE orders DROP PARTITION p202601;

直接刪 partition file、毫秒級完成。是 time-series archive 的最大優勢 — 對比 DELETE FROM orders WHERE created_at < '...' 跑 hours。

REORGANIZE partition

切分 / 合併 partition：

1-- 切：把 p_future 切成 p202604 + new p_future
2ALTER TABLE orders REORGANIZE PARTITION p_future INTO (
3    PARTITION p202604 VALUES LESS THAN (TO_DAYS('2026-05-01')),
4    PARTITION p_future VALUES LESS THAN MAXVALUE
5);

REORGANIZE rewrites partition data、跟 OSC 一樣慢、大 partition 走 gh-ost / pt-osc 模擬（用 ghost table）。

EXCHANGE partition

把 partition 跟 獨立 table swap（不複製資料）：

1-- 建一個 staging table 跟 partition 同 schema
2CREATE TABLE orders_staging LIKE orders;
3ALTER TABLE orders_staging REMOVE PARTITIONING;  -- staging 必須是 non-partitioned
4
5-- 把 archive partition 的資料 atomic swap 給 staging
6ALTER TABLE orders EXCHANGE PARTITION p202601 WITH TABLE orders_staging;
7
8-- 現在 orders_staging 有 p202601 的資料、orders 的 p202601 變空
9-- 可以 dump staging 到 S3、或 INSERT 進 archive DB

EXCHANGE PARTITION 是 metadata operation、毫秒級完成、不複製資料。Time-series archive 工作流的核心工具。

5 個 Production 踩雷

1. PK 必須含 partition key — Schema 設計受限

MySQL partition 規則：PK 必須包含所有 partition key column。

1-- 錯：PK 沒包含 partition key
2CREATE TABLE orders (
3    id BIGINT AUTO_INCREMENT PRIMARY KEY,  -- 只有 id
4    created_at DATETIME NOT NULL
5) PARTITION BY RANGE (TO_DAYS(created_at)) (...);
6-- ERROR 1503: A PRIMARY KEY must include all columns in the table's partitioning function

1-- 對：PK 包含 partition key
2CREATE TABLE orders (
3    id BIGINT AUTO_INCREMENT,
4    created_at DATETIME NOT NULL,
5    PRIMARY KEY (id, created_at)  -- 兩 column 都進 PK
6) PARTITION BY RANGE (TO_DAYS(created_at)) (...);

修法：

接受 PK 是 composite（id + partition_key column）
AUTO_INCREMENT 仍 work、但 INSERT 必須給定 created_at
Unique constraint 也受影響 — 所有 UNIQUE index 必須含 partition key

對 application：原本 WHERE id = X 仍 work、但慢（沒 partition pruning）、必須 WHERE id = X AND created_at >= ... 才高效。

2. Global index 沒原生支援

MySQL partitioning 沒 global secondary index（PG 有）。每個 partition 各自有自己的 local index、跨 partition 的 unique constraint 必須 包含 partition key。

例：希望 user_id 全表 unique、但 partition by created_at：

1-- MySQL 不允許這樣 — UNIQUE 必須含 created_at
2CREATE TABLE orders (
3    id BIGINT AUTO_INCREMENT,
4    user_id BIGINT,
5    created_at DATETIME,
6    PRIMARY KEY (id, created_at),
7    UNIQUE KEY (user_id, created_at)  -- 必須含 created_at、不是純 user_id
8);

對 application：跨 partition 的 unique 需要 application 層處理（INSERT 前 SELECT 檢查）或改用 Vitess lookup_hash Vindex。

3. EXCHANGE partition — schema 必須完全一致

EXCHANGE 失敗常見：staging table 跟 partition 的 index / column 順序差一個、ERROR 1736: Tables have different definitions。

修法：

建 staging 用 CREATE TABLE staging LIKE orders 而非手寫
REMOVE PARTITIONING 後立即 verify schema
跑 OSC 改 schema 時、partition + staging table 同時改、不能漏一個

4. Orphan partition — Future partition 預先建忘記延展

部署 cron 每月建下個月 partition、cron 失敗 / pause、下個月 INSERT 無對應 partition、寫入 p_future。p_future 一年累積後變超大、partition pruning 沒效、查最近資料 scan 全表。

修法：

監控 p_future partition size、超過 threshold alert
Cron 失敗 alert（不是 silent fail）
不依賴 cron、改成 application 層在 INSERT 前 ensure partition exists（lazy create）

5. Cross-partition query 慢

1SELECT user_id, SUM(amount) FROM orders GROUP BY user_id;

沒 partition key filter、optimizer 不能 pruning、scan 全部 partition。比 single big table without partition 還慢（因為跨 partition aggregation overhead）。

修法：

接受 partition 不是 讀效能 工具、是 write + archive 效能 工具
跨 partition aggregation 改 materialized aggregation table（trigger / scheduled job 維護）
跨 partition reporting 改丟 OLAP DB（BigQuery / Snowflake / ClickHouse）

跟 Vitess sharding 對比

維度	MySQL partitioning	Vitess sharding
切割範圍	同 instance 內	跨 instance（無上限）
Cross-shard query	不適用	VTGate 自動 split + aggregate
Resharding	REORGANIZE（rewrite data）	VReplication 自動
Operational cost	低（單 instance 內）	高（4 component Vitess stack）
可線性 scale write	否（單 instance 寫吞吐限）	是（加 shard）
Archive 效率	DROP PARTITION 毫秒級	不是 archive 工具

兩者不衝突、適用不同問題。Partitioning 解決 單 instance archive + write 集中、sharding 解決 跨 instance scale。

跟 PostgreSQL declarative-partitioning 對比

維度	MySQL partitioning	PostgreSQL declarative-partitioning
Partition type	RANGE / LIST / HASH / KEY	RANGE / LIST / HASH
Sub-partitioning	RANGE + HASH	多層 nested 支援更廣
Global index	無	PG 11+ 有
Partition wise join	受限	PG 11+ 強
Cross-partition unique	必須含 partition key	PG 11+ 同限制、但 PG 17+ 部分解除
Partition attach	EXCHANGE PARTITION	ATTACH PARTITION
操作工具	gh-ost / pt-osc 對 partition	pg_partman（成熟）
Production maturity	中（5.x 開始有、8.0 強化）	高（11+ declarative 後成熟）

PG partitioning 對 跨 partition unique 跟 partition-wise join 處理較好、是 reporting workload 的優勢。MySQL partitioning 對 archive workflow（DROP / EXCHANGE）較成熟。詳見 PostgreSQL Declarative Partitioning。

何時用 native partitioning

場景	建議
Time-series workload + archive needs（log / event / order history）	用 RANGE
大表 > 1 TB 且 query 多有 time filter	用 RANGE 加速 prune
跨 region / 跨業務切分	用 LIST
需要線性 scale write throughput	不用 partition、用 Vitess sharding
需要全表 unique constraint	不用 partition、影響太大
主要做 ad-hoc analytical query	不用 partition、OLAP DB（ClickHouse / BigQuery）
小表 < 100 GB	不必 partition、index 夠用

跟其他模組整合

跟 Online Schema Change

對 partitioned table 的 schema change（ALTER COLUMN）必須 每個 partition 都改。gh-ost / pt-osc 對 partitioned table 仍 work、但複雜性增加。詳見 Online Schema Change Tools。

跟 Vitess

Vitess shard 內部可再 partition、單 shard 對應一個 MySQL instance、partition 是 instance 內優化。Vitess vtctldclient PartitionTablet 命令處理 shard-aware partition 操作。詳見 Vitess sharding。

跟 InnoDB Tuning

每個 partition 是獨立 InnoDB tablespace（innodb_file_per_table=ON 預設）、buffer pool 內 cache 行為跟 single big table 不同。Partition 多時 buffer pool warm-up 時間更長。詳見 InnoDB Tuning。

跟 Replication

Partition operation（ADD / DROP / EXCHANGE）是 DDL、走 binlog、replica apply 時可能 locking issue（特別是 EXCHANGE 跟 replica running query 衝突）。詳見 Replication Topology。

跟 Query Optimization

EXPLAIN PARTITIONS 是 partition-aware query optimization 的關鍵工具、看 query 真的命中哪些 partition。詳見 Query Optimization。

容量規劃要點

維度	建議
Partition 數量上限	8.0 預設 8192、實務建議 < 1000（管理成本上升）
單 partition 大小	10 GB - 100 GB（太小無 partition value、太大 prune 沒效）
RANGE 時間 partition	月 / 週 / 日（依資料量）
HASH partition 數量	通常 power of 2（8 / 16 / 32 / 64）
Future partition pre-create	至少 6 個月 buffer、cron 每月 add 1 個