Dr on Tarragon

Aurora Global Database：跨 region async replication、< 1 秒 lag 與合規 anti-recommendation

Wed, 27 May 2026 00:00:00 +0000

Aurora Global Database 是 跨 region async replication、< 1 秒 typical lag、最多 5 個 secondary region — 看起來是 multi-region OLTP 的標準解、但 9.C14 Standard Chartered 揭露一個受監管產業的 anti-recommendation：合規禁止跨境複製場景下、Global Database 違反合規、要改用每市場獨立 cluster + 應用層市場切換。本文展開 Global Database 適用條件、跟 cross-AZ failover 的 RTO 數量級差、合規邊界、跟 Aurora DSQL / Spanner / CockroachDB 的決策樹。

本文不是 Aurora overview（請看 Aurora vendor 頁）— 而是 Global Database 的實作層教學。前置閱讀建議 Aurora storage architecture（理解 storage-level replication）、Aurora cross-AZ failover RTO（對照單 region failover）。

問題情境

典型觸發場景：global SaaS / 跨地理金融服務、需要 region-level DR（us-east-1 整 region 失效時 < 5 分鐘恢復寫入）、或跨地理 read（歐洲用戶查美國 primary 延遲 100ms+ 不可接受）、但又不到「multi-region active-active write」需求。

讀者常見的具體疑問：

「Global Database 是 sync 還是 async？lag 多少？」
「Secondary region 可以寫嗎？」
「Region failover 流程跟 cross-AZ 一樣嗎？」
「跟 Aurora DSQL / Spanner / CockroachDB 怎麼選？」
「合規場景一定要用 Global Database 嗎？」

進一步問題：Global Database 對一般 SaaS 是合理的 DR + 跨地理 read 工具、但對 受監管產業 是反指標。9.C14 Standard Chartered 7 個受監管市場、各自獨立 Aurora cluster、不用 Global Database — 不是技術不夠、是合規要求「資料不能跨境複製」。讀者規劃 multi-region 架構時、合規維度要在技術維度之前判斷。

核心機制：跨 region async storage replication

Aurora Global Database 的 first-class concept 是 跨 region storage-level async replication。跟 logical replication / streaming replication 不同、Global Database 在 storage layer 複製、lag 上限相對穩定。

Architecture：

Primary region：1 個 writer cluster + N read replica
Secondary region：最多 5 個 secondary region、每 region N 個 reader-only cluster（最多 16 個 reader 含 1 個 headless）
Storage replication：primary region 寫 storage 後 async push 到 secondary region storage、不等 ack

Write path：

1Application
2    ↓ writer endpoint (primary region only)
3Primary region compute
4    ↓ redo log
5Primary region storage (4-of-6 quorum)
6    ↓ async replication (typical < 1 秒)
7Secondary region storage

Read path：

Secondary region 直接從 local storage 讀、不需要跨 region 拉
Read latency 是 secondary region local latency、不是跨 region

DR 切換 RTO 跟 cross-AZ 對比：

場景	RTO	機制
Cross-AZ failover	< 30 秒	storage 跨 AZ 共享、replica 升 primary 即可
Planned failover	< 2 分鐘	managed graceful failover、無資料丟失
Unplanned failover	5-15 分鐘	整 region 失效、手動 promote secondary

數量級不同 — cross-AZ 是 seconds、cross-region planned 是 minutes、unplanned 是 tens of minutes。

對應 knowledge card：stale-read、rpo、rto。

跟通用 cross-region replication 差在哪：Aurora 在 storage layer 複製、lag 上限更穩定；vs PostgreSQL logical replication lag 受寫速度影響大、heavy write 期間可能秒級到分鐘級。

Step-by-step 配置

建 global cluster：

 1# Step 1：在 primary region 建 global cluster
 2aws rds create-global-cluster \
 3  --global-cluster-identifier myglobal \
 4  --source-db-cluster-identifier arn:aws:rds:us-east-1:123:cluster:primary-cluster \
 5  --region us-east-1
 6
 7# Step 2：在 secondary region 加 reader cluster
 8aws rds create-db-cluster \
 9  --db-cluster-identifier secondary-cluster \
10  --global-cluster-identifier myglobal \
11  --engine aurora-postgresql \
12  --source-region us-east-1 \
13  --region eu-west-1
14
15# Step 3：在 secondary region 建 db instance
16aws rds create-db-instance \
17  --db-cluster-identifier secondary-cluster \
18  --db-instance-identifier secondary-reader-01 \
19  --db-instance-class db.r6g.4xlarge \
20  --engine aurora-postgresql \
21  --region eu-west-1

Application routing：

1# 寫永遠去 primary region writer endpoint
2primary:
3  url: jdbc:postgresql://primary-cluster.cluster-xxx.us-east-1.rds.amazonaws.com/mydb
4
5# read 可走 secondary region reader endpoint（靠近用戶的 region）
6secondary-eu:
7  url: jdbc:postgresql://secondary-cluster.cluster-ro-xxx.eu-west-1.rds.amazonaws.com/mydb

DR 切換（planned failover）：

1aws rds failover-global-cluster \
2  --global-cluster-identifier myglobal \
3  --target-db-cluster-identifier arn:aws:rds:eu-west-1:123:cluster:secondary-cluster

切換後 application 端要 reconfigure connection string — DNS 不自動切跨 region（vs cross-AZ failover writer endpoint 自動跟）。

Application reconfiguration 模式：

Connection string 用 service discovery（Consul / Route53 health check）動態解析
或在 application config 加入 region-aware logic、failover 後切換 active region
不能假設 application 自動 reconnect 到新 primary region

驗證點：

AuroraGlobalDBReplicationLag < 1 秒
Planned failover RTO 量測（手動 trigger + heartbeat timestamp diff）
Application 跨 region read 路徑 latency 符合預期

Rollback boundary：promote secondary 後原 primary 變 secondary、不會自動 fallback；rollback 要再做一次 failover。

故障模式 / 邊界 case

Case 1：期待 multi-region active-active write

徵兆：team 在 secondary region application 直連 secondary cluster 寫資料、收到 cannot execute INSERT in a read-only transaction 錯誤。

原因：Global Database secondary 是 reader-only、寫只能去 primary region。要 active-active write 必須改用其他服務（Aurora DSQL / Spanner / CockroachDB）。

修：

Application 設計時明確區分 read region vs write region
寫操作永遠路由到 primary region、容忍跨 region write latency
真的需要 active-active write 才考慮 Aurora DSQL（2024-12 preview / 2025-05 GA）

Case 2：DNS 不跨 region 自動切

徵兆：手動 failover trigger 後、application 端 connection string 仍指向舊 primary region、寫操作全失敗。

原因：cross-AZ failover writer endpoint DNS 自動跟、cross-region 不會 — Global Database 切換要 application 端管 region-specific connection string。

修：

Application 用 service discovery（Route53 / Consul / etcd）解析 active primary region
部署 region-aware DNS（Route53 latency-based routing + health check）
Failover 演練要包含 application reconfiguration step、不只是 DB layer

Case 3：跨 region read 假設 strong consistency

徵兆：用戶在 primary region 寫資料、隨即在 secondary region read、看到舊資料、客訴 inconsistency。

原因：Global Database 是 async replication、< 1 秒 lag 不是 zero、read-after-write 場景仍會看到 stale data。

修：

用戶寫操作後短期內 read 走 primary region（read-after-write window）
接受最終一致性、application 端做 versioning / timestamp 比對
強一致性需求改 Aurora DSQL / Spanner

Case 4：Lag spike during bulk operation

徵兆：DDL 或 bulk insert 期間 cross-region lag 從 < 1 秒跳到秒級到分鐘級、secondary region read 大量 stale。

原因：Global Database 「< 1 秒」是 typical、heavy write 期間 lag 拉大。Storage-level replication 比 logical 穩定、但 不是 zero variance。

修：

DDL 跟 bulk insert 在低峰期跑、避開跨 region read traffic
監測 AuroraGlobalDBReplicationLag、spike 超過閾值 trigger application 端 fallback（read 切回 primary region）
重要 DDL 用 pg_repack 避免長時間 lag

Case 5：合規邊界誤用 Global Database — Standard Chartered anti-pattern

徵兆：team 以為 Global Database 是受監管金融的標準 DR 解、配置完才發現監管機構不接受跨境資料複製、被迫拆掉 Global Database 重建獨立 cluster。

9.C14 Standard Chartered case 「判讀」段第 1 點原文：「7 個受監管市場代表 7 個獨立 cluster（資料不能跨境）、容量規劃變成『7 個獨立規劃 × 各自合規門檻』」。

原因：受監管市場資料 不能跨境複製（Data Residency 硬約束）、Global Database 本質上就是跨 region storage replication、配置了就違反合規。Standard Chartered 的選擇是 每市場獨立 cluster、跨市場 DR 走應用層市場切換、不靠 Global Database。

修：

規劃 multi-region 前先確認合規要求（資料駐留、跨境複製禁令、稽核要求）
合規禁止跨境複製場景：每市場獨立 cluster + cross-AZ failover 吸收 RTO（見 cross-az-failover-rto）
跨市場 DR 設計成 市場切換（用戶從 A 市場切到 B 市場）、不是 資料切換
Fleet 拓樸（多市場 → 多 cluster）詳見 Aurora read replica scaling fleet 治理 SSoT

scope warning（必明示）：Standard Chartered case 未公開是 PostgreSQL 還是 MySQL、未公開具體 cost 數字、屬「相關 case study」匿名對照。引用時不能擴寫具體 engine。

Case 6：Cost trap — cross-region data transfer

徵兆：開了 Global Database 後月帳變高 50%、發現 cross-region data transfer 是主要費用、不是 instance。

原因：Aurora 跨 region replication 走 AWS 內部網路、但 cross-region data transfer 仍計費。Heavy write workload 月費可能 doubled。

修：

用 AuroraGlobalDBReplicatedWriteIO × per-region transfer rate 估月費
Write-heavy workload 評估 Global Database ROI（保險、低費用版本是用 cross-region snapshot 做冷備）
Cost 跟 RTO 一起看 — 如果接受 hours RTO、cross-region snapshot 更便宜

Case 7：FanDuel 雙峰 case 對照（避免 over-extrapolate）

如果 team 引用 9.C28 FanDuel 規劃 multi-region 部署、要明示 scope warning。

case「判讀」段第 1 點原文：「直播跟投注是兩種完全不同 SLO：直播容忍秒級延遲（用 CDN + ABR 串流）、投注必須毫秒級成交。兩個服務必須各自獨立擴容、各自獨立 SLO」。

scope warning（必明示）：

FanDuel 5-10x 是 betting 服務的 Aurora 擴容倍數、不是 streaming（streaming 走 CDN、不走 Aurora）
不能壓成「Aurora 撐 5-10x」單一數字
案例自承：betting transaction TPS 跟 concurrent streams 未公開、不能 over-extrapolate

引用 FanDuel 規劃自家 multi-region betting workload 時、看策略（事件型分級 + 雙 SLO 拆分 + 多層 edge）、不套用 具體數字。

跟 Aurora DSQL / Spanner / CockroachDB 的決策樹

Global Database 是 async + reader-only secondary、不是 multi-region active-active。當 active-active write 是核心需求時、要看 distributed SQL 方案。

維度	Aurora Global Database	Aurora DSQL	Spanner	CockroachDB
Replication	Async storage-level	Sync distributed	Sync TrueTime	Sync Raft consensus
Secondary	Reader-only	Active-active	Active-active	Active-active
Lag	< 1 秒 typical	None (sync)	None (sync)	None (sync)
Write	Primary region only	Multi-region	Multi-region	Multi-region
Strong consistency cross-region	No	Yes	Yes	Yes
適用	DR + 跨地理 read	Multi-region OLTP	Global scale OLTP	Cross-cloud OLTP
邊界	active-active 不支援、合規反指標	AWS-only、新服務	GCP-only、學習曲線	跨雲、operational 複雜

何時選 Global Database：

DR + 跨地理 read 是主要需求
寫流量集中在一個 region（單 region write 撐得住）
合規允許跨境複製（一般 SaaS、非受監管）
從 single-region Aurora 升級、不想換 engine

何時改 Aurora DSQL / Spanner / CockroachDB：

Multi-region active-active write
跨 region strong consistency 是業務需求
跨雲 / on-prem 需求（CockroachDB）

何時不用 Global Database：

合規禁止跨境複製（Standard Chartered case）→ 每市場獨立 cluster
Single-region 已滿足 DR / read 需求
跨 region cost 不划算（write-heavy workload）

容量與觀測

核心 metric：

1AuroraGlobalDBReplicationLag       # secondary lag、< 1 秒 typical
2AuroraGlobalDBReplicatedWriteIO    # cross-region data transfer 量
3AuroraGlobalDBProgressLag          # storage replication progress

容量上限：

1 primary region + 5 secondary region
每 secondary region 16 個 reader 含 1 個 headless（可升 writer）

Cost signal：

1月費 ≈ AuroraGlobalDBReplicatedWriteIO × per-region transfer rate
2     + secondary region instance + storage
3     + cross-region snapshot (optional)

Write 量大的 workload 月費可能 doubled（primary region + secondary region 都計費）、要在規劃時估準。

驗證 DR：

Planned failover drill 每季一次、量測 RTO / RPO
受監管產業：每月一次、有合規 sign-off 記錄
重大版本升級前必跑一次

回路徑：9.6 容量規劃模型 cross-region cost、8.x DR playbook region-level failover decision。

邊界與整合 / 下一步

Sibling deep articles：

Aurora storage architecture — cross-region replication 是 storage-level 延伸
Aurora cross-AZ failover RTO — cross-AZ 跟 cross-region failover RTO 數量級對比
Aurora read replica scaling — fleet 治理 SSoT、合規驅動 fleet 拓樸的展開

Migration playbook：

PostgreSQL / MySQL → Aurora — 從 PostgreSQL streaming replication 跨 region 升級的差異

1.x 章節互引：

1.11 全球分散式 OLTP — Global Database vs distributed SQL 對比

何時不用本文：single-region OLTP、無跨 region DR / read 需求時可跳過、看 Aurora vendor overview 即可。

PostgreSQL Cross-region DR

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL cross-region DR 的核心責任是把區域性事故下的資料恢復、服務切換與資料一致性風險寫成可演練流程。跨區 DR 通常由法規、業務連續性、雲區故障、區域隔離或高可用承諾觸發。

本文的判讀錨點是：cross-region DR 是恢復策略，而非自動等同 multi-region active-active。PostgreSQL 可以透過 backup / WAL archive、physical standby、logical replication、managed service replica 或 application-level replication 支援不同 RPO / RTO；每種路線都有資料延遲、切換與回切成本。

DR Strategy

DR strategy 的核心責任是把恢復目標和技術路線對齊。

策略	RPO / RTO 型態	適合情境
Backup + WAL archive	RPO 依 WAL archive，RTO 依 restore	成本敏感、低頻災難復原
Cross-region standby	RPO 接近 replication lag，RTO 較短	需要較快啟動 read / promote
Logical replication	table-level / selective DR	跨版本、跨 schema、局部資料同步
Managed global DB	雲平台提供跨區 replica	希望降低自管複製與 promote 維運
Application replay	event / queue 重建狀態	domain event 已是 source of truth

RPO 要由業務定義。若付款、訂單、庫存只允許秒級遺失，backup-only 路線通常成本不足；若是內部報表或可重建資料，backup + WAL archive 可能足夠。

Physical vs Logical

Physical vs logical 的核心責任是區分 byte-level recovery 與 row-level replication。Physical replica 保留 PostgreSQL cluster 層級狀態；logical replication 提供 table / publication 層級彈性。

面向	Physical standby	Logical replication
粒度	cluster / database	table / publication
版本彈性	通常要求版本與系統相容	可支援跨版本 / selective migration
DDL	跟隨 WAL / 需相容	需要 schema coordination
Failover	promote standby	application / target DB 切換
風險	replication lag、timeline	slot lag、schema drift、missing key

Physical standby 適合整體 DR。它的 runbook 要處理 WAL archive、replication lag、promotion、timeline、DNS / connection string 切換與回切。

Logical replication 適合局部資料或跨版本轉換。它的 runbook 要處理 publication、subscription、replication slot、schema migration ordering 與資料 diff。

Failover Runbook

Failover runbook 的核心責任是把災難切換變成可演練步驟。最小流程包含 incident declare、source freeze、replica health check、promote、traffic switch、data validation 與 rollback / rebuild。

Step	操作	Evidence
Declare incident	確認 primary region 事故範圍	incident decision log
Freeze source	停止寫入或確認 source 已不可用	last known LSN / timestamp
Check replica	lag、WAL received、read health	replica status snapshot
Promote	promote standby 或啟用 target	new timeline / role
Switch traffic	DNS、secret、connection string	app smoke test
Validate	row count、critical invariant	validation report
Rebuild	重建舊 primary 或新 standby	follow-up runbook

Failover 決策要有 owner。自動化可以執行步驟，但是否接受資料遺失、是否凍結寫入、是否 promote，仍需要明確責任人與 tripwire。

Data Reconciliation

Data reconciliation 的核心責任是處理 cross-region 切換後的資料差異。只要 replication lag 存在，failover 後就可能有未套用交易。

差異類型	處理方式
已提交但未複製	從 source WAL / app log / event 補償
client retry 重複寫入	idempotency key / natural key 去重
sequence / identity	target sequence reset / collision check
external side effect	payment、email、queue 需對帳

Reconciliation 要先定義 critical table。所有表都做 full diff 成本高；付款、訂單、權限、ledger、mutation log 等高風險資料要有專用 validation query。

Drill Design

Drill design 的核心責任是定期驗證 RPO / RTO。DR 文件只有在演練後才可信。

演練至少包含：

從 backup + WAL 還原到指定時間。
Promote standby 到 isolated environment。
Application 使用 DR endpoint 跑 smoke test。
計算實際 RPO / RTO。
記錄失敗點、人工步驟與下一次修正。

演練應避開 production destructive action。使用 isolated VPC、staging app、read-only validation 與 mock external side effect。

No-Go Conditions

No-go conditions 的核心責任是指出 PostgreSQL cross-region DR 的邊界。

訊號	建議路由
多區同時交易寫入是核心需求	CockroachDB / Spanner / YugabyteDB 類 distributed SQL
RPO 接近零且跨區距離大	synchronous replication latency 成本評估
Team 缺少 DR 演練能力	managed service + vendor runbook
數據 residency 限制跨區複製	regional shard / policy-driven replication

Cross-region DR 要誠實面對延遲。把每個 region 都變成 writer 需要 distributed transaction 模型；PostgreSQL DR 路線主要提供恢復與切換。

下一步路由

Cross-region DR 完成後，恢復實作讀 PITR / WAL Archiving；replication 架構讀 Replication Topology；跨區 rollout 的資料政策讀 Multi-region GDPR Rollout。