Postgresql on Tarragon

PostgreSQL

Wed, 13 May 2026 00:00:00 +0000

PostgreSQL 是 backend 預設關聯式資料庫的安全選擇。生態完整、SQL 功能豐富、MVCC 跟 transaction 模型穩定、新版本仍積極演進（pg17 加入 JSON_TABLE、平行 vacuum；pg18 加入 io_uring async）。Aurora（AWS managed）、CockroachDB、Aurora DSQL（2024-12 preview / 2025-05 GA）、Spanner（2024 PostgreSQL dialect）都把 PostgreSQL wire protocol 當作相容標的 — 它是 SQL DB 世界的 lingua franca。

教學路線：SQL baseline 與交易演進

PostgreSQL 服務頁的教學目標是建立 SQL baseline。讀者讀完後要能用 PostgreSQL 理解 transaction、schema evolution、query boundary、connection pressure 與 managed / distributed SQL 的比較基準。

學習段	核心問題	對應段落
SQL baseline	PostgreSQL 為什麼常作為 OLTP 預設比較基準	定位、適用場景
容量邊界	connection、write throughput、replica、storage 如何限制服務	容量特性、容量規劃要點
交易與查詢	複雜 SQL、JSONB、GIS、全文檢索如何影響資料模型	適用場景、跟其他 vendor 的取捨
演進與維護	vacuum、partition、index、replication 如何成為長期責任	容量規劃要點、常見陷阱
替代路由	何時轉 Aurora、CockroachDB、Spanner、DynamoDB 或 OLAP	不適用場景、跟其他 vendor 的取捨

定位：OLTP 預設、SQL 工程深度

PostgreSQL 跟 MySQL 是兩大 SQL OLTP 主流、但設計取捨明顯不同：

PostgreSQL 偏 特性深度 — JSON、GIS、full-text search、partial index、CTE、window function 都成熟
MySQL 偏 簡單 query 效能 + 分片生態 — Vitess / PlanetScale 提供超大規模 database sharding

選 PostgreSQL 的核心訴求：需要進階 SQL 特性、需要長期 schema evolution 彈性、信任 community-driven 演進、想避免單一 vendor lock-in（PostgreSQL 是 open source、可跨雲 / on-prem）。

容量特性

PostgreSQL 沒有「vendor 給的容量數字」、要靠 instance 配置 + tuning 推估。但有幾個工程上限要知道：

單一 primary 寫吞吐：

一般 m5.4xlarge 級 instance：5K-10K WPS（依 schema、index、commit fsync）
高階 r6i.16xlarge + io2 storage：30K-50K WPS
超過這個級別 → 應用層 database sharding 或換 Aurora / Spanner

Connection 上限：

預設 100 connection、每個 connection ~10MB RAM
1000+ connection 必須 pgBouncer / PgCat 共享 pool
對應 9.C29 Lemino case — RDB connection limit 是 surge 場景的隱性 bottleneck

Read replica：

streaming replication：1 個 primary + 多個 standby（async / sync）
跨 AZ replication lag 通常 < 100ms、跨 region 可能秒級
跟 Aurora 比、自管 PostgreSQL replication lag 較大

Storage 上限：

單一 table 32 TB（PostgreSQL 設計上限）
實務上單表超過 1 TB 開始有 vacuum / index 問題、建議 partition

適用場景

1. 多用途 OLTP、複雜查詢：

複雜 JOIN、CTE、window function、subquery
訂單系統、會員系統、訂閱方案、權限 RBAC
需要 strong consistency + ACID transaction

2. JSON / 半結構化資料：

JSONB column 支援 indexing、partial query
比 MongoDB 適合 主要結構化 + 部分 JSON workload
不適合主要 document workload（用 MongoDB / Cosmos DB）

3. 地理 / 全文檢索：

PostGIS 是業界標準 GIS extension
全文檢索（ts_vector）對中等規模夠用、超大規模用 Elasticsearch

4. 進階特性需求：

partial index（WHERE 條件下才建 index）
exclusion constraints（避免 booking 重疊）
range types（時間 / 數字範圍）
logical decoding / CDC（Debezium、pgcapture）
foreign data wrapper（query 跨 DB）

5. 跨雲 / on-prem 部署：

不想 vendor lock-in
可用 Patroni / Stolon / pg_auto_failover 做 HA
對應 1.11 全球分散式 OLTP 的 CockroachDB / Aurora DSQL 比較段

6. 中小規模高峰場景：

流量 < 10K WPS 級別、PostgreSQL 自管或 RDS 通常夠
流量更高、考慮 Aurora（同 wire protocol、storage 升級）

不適用場景

1. 極高寫入吞吐（單機 > 50K WPS）：

必須進入 database sharding 或分散式 SQL
替代：CockroachDB、TiDB、Spanner、應用層 sharding

2. 全球 multi-region active-active write：

PostgreSQL 是 single primary、不支援 multi-region active-active
替代：Aurora DSQL、Spanner、CockroachDB multi-region

3. KV 簡單查詢 + sub-10ms p99：

PostgreSQL connection 開銷 + parsing + planning 已經 1-3ms
KV-pattern workload 用 DynamoDB / Redis / Cosmos DB 更便宜更快

4. 大規模 OLAP：

PostgreSQL 定位在 OLTP，analytics workload 交給 OLAP 系統
大數據分析用 ClickHouse / BigQuery / Snowflake / Redshift / Synapse

5. 連線量極大 SaaS（每個用戶一個 connection）：

即使有 pgBouncer、超大連線量仍是 PostgreSQL 結構性限制
對應 9.C29 Lemino 案例 — 流量上升 connection 爆是換 DynamoDB 的主因

跟其他 vendor 的取捨

vs MySQL：

PostgreSQL：SQL 特性深、JSON / GIS / window 完整、replication 較簡單但 lag 較大
MySQL：簡單 query 效能好、replication 機制成熟、Vitess 分片生態強
選 PostgreSQL：需要進階 SQL、複雜 query、JSON workload
選 MySQL：高併發簡單 query、需要 sharding、已用 MySQL 生態

vs Aurora（同 PostgreSQL wire protocol）：

PostgreSQL：自管 / RDS、特性接近 upstream、跨雲可用
Aurora：AWS managed、storage / compute 分離、更多 read replica
選 PostgreSQL：跨雲、想最新特性、預算敏感
選 Aurora：AWS 生態、需要更快 failover + 更多 read replica
詳見 Aurora vendor page

vs CockroachDB（PostgreSQL wire protocol 相容）：

PostgreSQL：single-primary OLTP、SQL 特性完整
CockroachDB：multi-region 強一致 SQL、PostgreSQL wire 相容但部分特性缺
選 PostgreSQL：single-region 或 read replica 跨 region 夠
選 CockroachDB：必須 multi-region active-active write
詳見 1.11 全球分散式 OLTP

vs Spanner / Aurora DSQL（全球分散式 SQL）：

PostgreSQL：傳統設計、跨 region 是 async replication
Spanner / Aurora DSQL：全球線性化、跨 region 強一致
選 PostgreSQL：90% 場景夠用、便宜、容易
選 Spanner / Aurora DSQL：金融交易、ticketing inventory、必須全球強一致

vs DynamoDB：

詳見 1.10 KV / Document DB 容量規劃的 connection model 對比段

vs Neon（PostgreSQL serverless）：

PostgreSQL：standard、自管或 RDS
Neon：branch-based、scale-to-zero、適合 dev / preview environment
選 Neon：dev / preview、稀疏 workload、CI 用
選 PostgreSQL：production sustained workload

容量規劃要點

1. Connection pool 必須有：

直接連 1000+ connection 會壓垮 PostgreSQL
pgBouncer（最簡單、transaction pooling）
PgCat（rust 寫的進階替代、支援 sharding）
application 層 pool（HikariCP、SQLAlchemy pool）
通常組合使用：application pool 30-50 connection × 多 instance → pgBouncer 共享 → PostgreSQL 200 connection
對應 Connection Pool 卡片

2. Replication 配置：

streaming replication：async / sync / quorum
跨 AZ async：lag 通常 < 100ms、failover 1-2 分鐘
跨 AZ sync：lag 接近 0、但寫入要等 standby ack、會降寫吞吐
跨 region 通常 async
HA 工具：Patroni（最常見）、pg_auto_failover、Stolon

3. Vacuum 跟 bloat 治理：

PostgreSQL MVCC 會留下 dead tuples、必須 vacuum
autovacuum 配置：throttle 大表、避免在 peak 跑
bloat 監控：pg_stat_user_tables 看 dead_tup ratio
大表 vacuum 可能要 hours、影響 maintenance window

4. 大表 partitioning：

單表 > 1 TB 建議 partition（按時間、按 tenant）
partition pruning 讓 query 只掃需要的 partition
partition 限制：cross-partition unique constraint、跨 partition join 較慢

5. Index 策略：

預設 B-tree、適合大多數 query
partial index 對 boolean / status column 特別有用
GIN / GiST 對 JSON / full-text / GIS
index 太多會拖累寫入、定期 review 未用 index（pg_stat_user_indexes）

安全、DR 與角色分工

PostgreSQL 的 production 完整性不只來自 SQL 特性，也來自資料存取、備份復原、升級責任與事故證據的分工。這一段補上 PG baseline 原本留在 limitation 的三個缺口：Security / RLS / audit logging、cross-region DR、application developer vs DBA / SRE 視角。

責任面	PostgreSQL 要回答的問題	主要引用路徑
Access control / RLS	table、row、function、extension 與 service account 權限如何切	Security / RLS / Audit Logging、7.4 Data Protection、Audit Log
TLS / credential	application 連線、DB user、憑證與 secret rotation 如何治理	TLS / mTLS、Credential、Secret Management
Cross-region DR	region 失效時要 async replica、PITR、Aurora Global Database 還是 distributed SQL	Cross-region DR、RPO、RTO、Failover、PITR + WAL Archiving
Developer / DBA split	application schema、migration、query、index 與 rollback 誰負責	Developer / DBA Responsibility Split、1.2 Schema Design、1.6 Migration Playbook
Incident evidence	資料事故中要留下哪些 query、timeline、restore 與 decision evidence	4.20 Observability Evidence Package、8.19 Incident Decision Log

Access control / RLS 的判讀重點是把資料責任放在資料層與 application 層之間分工。PostgreSQL 支援 role、grant、schema、function security 與 row-level security；但 RLS 會把授權邏輯拉進 database，適合 multi-tenant row isolation、資料平台或共享 reporting schema，日常 OLTP 仍要保留 application authorization 與 audit trail。

TLS / credential 的判讀重點是連線安全與憑證生命週期。Self-managed PostgreSQL 要處理 server cert、client cert、DB user rotation 與 connection pool 重連；managed PostgreSQL 常把 certificate、IAM auth 或 secret integration 交給平台，但 application pool、migration tool 與 read replica 仍要一起更新。

Cross-region DR 的判讀重點是 RPO / RTO 與資料一致性。自管 PostgreSQL 可用 streaming replication、WAL archiving、PITR 與 Patroni 做 region failover；Aurora 把 backup、PITR 與 Global Database 交給 AWS；真正 active-active 或 global strong consistency 需求要回到 CockroachDB、Spanner 或 Aurora DSQL，single-primary PostgreSQL 保留為 region failover 與 async DR 路線。

Developer / DBA split 的判讀重點是把日常責任寫進流程。Application developer 擁有 query shape、transaction boundary、repository adapter 與 migration contract；DBA / SRE 擁有 backup、replication、pooler、extension、vacuum、index maintenance 與 DR drill；release gate 需要把兩邊 evidence 合在同一份 decision log。

Managed PG 與相容變體路由

PostgreSQL wire protocol 已成為 managed SQL 與 distributed SQL 的相容目標。選型時要區分「PostgreSQL 本體」、「managed PostgreSQL」、「PostgreSQL-compatible distributed SQL」與「PostgreSQL extension ecosystem」四種不同責任。

變體	適合情境	主要代價 / 檢查點	下一步路由
RDS / self-managed PG	想接近 upstream、保留跨雲與 extension 彈性	團隊承擔 HA、backup、upgrade、vacuum 與 pooler	Patroni HA、PITR + WAL Archiving
Aurora PostgreSQL	AWS 內 production OLTP、想轉移 HA / storage ops	extension whitelist、cost model、cluster endpoint	→ Aurora、Aurora vendor
Cloud SQL / AlloyDB	GCP 內 managed PostgreSQL 與 Google operation model	extension / version matrix、IAM / backup / cost model	Managed PG Comparison
Azure Cosmos DB for PostgreSQL	Citus-based distributed PostgreSQL、tenant / shard workload	coordinator / worker topology、Citus 語意	Citus distributed、Database Sharding、Cosmos DB vendor
Neon / serverless PG	preview、branch、稀疏 workload、dev environment	cold start、connection、production sustained workload	本頁 vs Neon 段、後續 serverless PG comparison
Aurora DSQL / CockroachDB	global write、distributed SQL、region resiliency	transaction retry、extension gap、latency / cost	→ Aurora DSQL、→ CockroachDB

Managed PG 變體的引用規則是先查 compatibility，再談 migration。Extension whitelist、backup / restore API、logical replication 支援、connection endpoint 行為與 pricing 都是時間敏感 claim；實作前要回到官方文件確認版本，並把確認日期留在 migration plan 或 decision log。

Deep article + Migration playbook（已完成）

主題	文章	類型
Streaming replication topology + LSN + slot	replication-topology	Deep article
pg_repack / pg-osc 跟 PG 內建 ALTER 行為	online-schema-change	Deep article
Process-per-connection model + pooler 必要性	connection-scaling	Deep article
pgBouncer + PgCat connection pool	pgbouncer-config	Deep article
Patroni HA + DCS-based failover	patroni-ha	Deep article
Autovacuum tuning + bloat 治理	autovacuum-tuning	Deep article
Logical replication + Debezium CDC	logical-replication-debezium	Deep article
Citus distributed extension	citus-distributed	Deep article
BDR / pgEdge / Bucardo multi-master	bdr-multi-master	Deep article
MVCC + lock model（PG 並行控制核心）	mvcc-lock-model	Deep article
EXPLAIN / auto_explain / pg_hint_plan	query-optimization	Deep article
Index method 選型決策樹（B-tree / GIN / GiST / BRIN）	index-selection	Deep article
Declarative partitioning + pg_partman	declarative-partitioning	Deep article
JSONB binary storage + GIN index	jsonb-deep-dive	Deep article
Full-text search（tsvector + pg_trgm）	full-text-search	Deep article
Extension ecosystem（pgvector / TimescaleDB 等）	extension-ecosystem	Deep article
TimescaleDB hypertable + CAGG + compression	timescaledb-deep-dive	Deep article
pgvector HNSW / IVFFlat ANN search	pgvector-deep-dive	Deep article
PostGIS geometry / geography + GiST	postgis-deep-dive	Deep article
PITR + WAL archiving	pitr-wal-archiving	Deep article
Replication slot management（含 PG 17 failover slot）	replication-slot-management	Deep article
SQL features baseline + MySQL 對比	sql-features-baseline	Deep article
Hands-on 操作路線	hands-on	操作型章節群
Major version upgrade（N → N+1 pg_upgrade）	major-version-upgrade	Migration playbook（5-type 漏類 / 接近 Type B 但需 upgrade-specific audit）
→ Aurora PostgreSQL	migrate-to-aurora	Migration playbook（Type C）
→ Aurora DSQL（PG wire-compat distributed）	migrate-to-aurora-dsql	Migration playbook（Type E）
→ CockroachDB	migrate-to-cockroachdb	Migration playbook（Type E）
Multi-region + GDPR rollout	multi-region-gdpr-rollout	Migration playbook（Type F）
Partition redesign	partition-redesign	Migration playbook（Type F）

補充正文路由

當前 deep article、migration playbook、補充正文與 hands-on 已 cover replication / HA / OSC / connection / CDC / sharding / multi-master / MVCC / query opt / index / partitioning / JSONB / FTS / extension（含 TimescaleDB / pgvector / PostGIS）/ backup / slot / SQL features / upgrade / migration / security / DR / managed variant 等維度。下列補充正文用來承接 overview 中提到的延伸議題：

Logical decoding plugins deep dive：wal2json / pgoutput / decoderbufs 對位、CDC pipeline 整合
pg_partman advanced：retention 跟 child partition 自動 management
Connection pooler comparison：PgBouncer vs Pgcat vs Odyssey 細部對比
Aurora I/O-Optimized vs standard：cost model 取捨
AlloyDB / Cloud SQL 比較：GCP managed PG 選型

上述補充篇已完成正文，並保留既有引用路徑。Logical decoding 接 Logical Replication + Debezium 與 Replication Slot Management；pg_partman advanced 接 Declarative Partitioning；pooler comparison 接 Connection Scaling 與 pgBouncer Config；Aurora cost 接 → Aurora；AlloyDB / Cloud SQL 接 Managed PG Comparison。

案例對照

PostgreSQL 沒有直接的 09 case（多數 09 case 用 managed vendor）、但作為 baseline 跟遷移源頭 在許多 case 出現：

案例	跟 PostgreSQL 的關係
9.C23 Netflix Aurora consolidation	從多套 RDBMS（含 PostgreSQL）統一到 Aurora
9.C32 Clearent Azure SQL Hyperscale	Azure 生態替代 PostgreSQL 的選擇
9.C29 Lemino RDB connection limit	PostgreSQL/MySQL 都有的 connection 限制

已知 Limitation 與 Audit 紀錄

本 vendor 頁的 22 篇 deep article + 6 篇 migration playbook 經過 4-reviewer audit（A 寫作規範 / B 跨檔一致性 / C 技術準確性 / D 框架偏誤）、Phase 1-3 修法完成。承認以下 limitation：

PG narrative bias：pgvector / TimescaleDB / extension-ecosystem / Citus 四篇對「PG 取代專業 DB」描述偏 PG-favoring；對手 vendor（Pinecone / InfluxDB / Vitess）的優勢段相對簡短。讀者選型時、請以 cost / ops / scale 三軸綜合判斷、不依本 vendor 頁單一視角。
Anti-recommendation 深度不一：bdr-multi-master / extension-ecosystem 有「99% 不需要」明確邊界、其他篇章邊界較柔（如「Vector 量 > 5-20M」是粗略門檻）。實際 production 決策請參考多 vendor 對照 + 自家 workload 量測。
Sibling cross-link 狀態：MySQL ↔ PG sibling、PG 既有 ↔ 新章節 cross-link 已補（refer #136 卡）；本輪同步補 Aurora / CockroachDB / Spanner / Cosmos DB / DynamoDB vendor 頁的反向 sibling 路由，剩餘精修可在各 migration playbook 補更細的 step-by-step 對照。
時間敏感 vendor claim：Aurora DSQL（2024-12 preview / 2025-05 GA）/ pgvector（0.8 iterative scan）/ TimescaleDB version matrix / DSQL extension 支援範圍持續演進、本 vendor 頁以 2025-2026 公開狀態為準、實作前請以 vendor 官方 docs 為準（refer #137 卡）。
補充維度已正文化：Security / RLS / audit logging、cross-region DR、application developer vs DBA 視角分工、YugabyteDB / TiDB migration playbook、specialized PG variants 已補成正文。本輪也補上跨 vendor 反向連結與時間敏感 claim 路由；下一輪可集中在 migration playbook 的操作步驟與 lab 化。

詳細 audit findings 跟修法見 #136 Sibling Vendor Cross-Link Bidirectionality / #137 Vendor Feature 時間敏感性 / #138 Cross-Reviewer Convergence。

常見陷阱

connection 沒 pool 直接連：1000 application instance × 30 connection = 30K connection、PostgreSQL 撐不住
沒 vacuum 治理：dead tuple 累積、table bloat、query 變慢
大表沒 partition：> 1 TB 單表的 vacuum / index rebuild 變成事故
index 不 review：寫吞吐被舊 index 拖垮
跨 AZ sync replication 給寫入吞吐高的 workload：每次 commit 等 standby ack、寫吞吐減半
logical replication 拖太多 publication：可能造成 primary WAL 堆積、disk 爆

下一步路由

完整 T1 對照：01-database vendors index
平行：MySQL vendor、Aurora vendor（managed PostgreSQL）
操作：PostgreSQL Hands-on（local lab、pool、PITR、migration evidence、HA drill）
上游：1.1 高併發資料存取、1.3 Transaction Boundary
下游：1.10 KV / Document DB 容量規劃（PostgreSQL 不適用時的替代）/ 1.11 全球分散式 OLTP（PostgreSQL 不夠用時的升級路徑）
跨模組：9.5 瓶頸定位流程 — connection / replication lag / vacuum 都是 PostgreSQL 常見 bottleneck 源
官方：PostgreSQL Documentation

資料庫大版本升級

Fri, 26 Jun 2026 00:00:00 +0000

資料庫大版本升級是所有升級類型中風險最高的一種，因為資料庫承載的是不可重建的狀態。Runtime 升級（PHP 5.6→8.x）改壞了可以切回舊版本重新部署（切換 PHP 版本即可回退）；平台遷移（共享主機→雲端）改壞了可以把 DNS 切回去（TTL 期間內生效）。資料庫升級改壞了，回退手段是從備份還原——而還原需要時間，還原期間服務不可用，且還原點之後的寫入會遺失。這個不對稱決定了資料庫升級的操作模式：每一步都需要驗證通過才進下一步，且每一步都有明確的回退路徑。

升級前的相容性評估

大版本升級不只是換一個二進位檔——新版本可能改變 SQL 行為、儲存格式、認證方式與預設值。在動任何生產資源之前，先在本地或測試環境把相容性問題找出來。

MySQL 5.7 → 8.0 的常見破壞性變更

變更項	影響	檢查方式
`GROUP BY` 隱式排序移除	依賴 `GROUP BY` 順序的查詢結果可能改變	搜尋沒有 `ORDER BY` 的 `GROUP BY` 查詢
預設字元集 utf8 → utf8mb4	欄位長度與索引大小計算改變，索引可能超過限制	檢查 `VARCHAR(255)` + 唯一索引的欄位
認證方式改為 caching_sha2	舊版 client / driver 可能無法連線	確認應用程式的 MySQL driver 版本支援 caching_sha2_password
保留字新增（RANK、ROW_NUMBER）	用這些字當欄位名或別名的查詢會報語法錯	`grep -rn "RANK\|ROW_NUMBER\|GROUPS\|CUME_DIST" --include="*.sql"`
JSON 函式行為變更	`JSON_MERGE` 改名為 `JSON_MERGE_PRESERVE`、行為語意不同	搜尋 `JSON_MERGE` 呼叫

PostgreSQL 大版本升級的檢查點

PostgreSQL 的大版本升級相對穩定，但仍有需要確認的項目：extension 版本是否跟新 PostgreSQL 版本相容（特別是 PostGIS、pg_partman、timescaledb 這類複雜 extension）、pg_upgrade 的 --check 模式可以在不實際升級的前提下驗證相容性。

1# PostgreSQL: 升級前 dry-run 檢查
2pg_upgrade --old-datadir /var/lib/postgresql/13/main \
3           --new-datadir /var/lib/postgresql/16/main \
4           --old-bindir /usr/lib/postgresql/13/bin \
5           --new-bindir /usr/lib/postgresql/16/bin \
6           --check

應用程式層的查詢相容性

把應用程式的所有 SQL 查詢（ORM 產生的也算）對新版本跑一遍。重點是行為變更而非語法錯誤——語法錯誤會立刻報錯、容易抓；行為變更（排序結果不同、型別轉換規則不同）不會報錯、但結果錯誤。

1# MySQL 升級前檢查工具
2mysqlcheck --all-databases --check-upgrade
3mysql_upgrade --upgrade-system-tables --dry-run

ORM 和 database driver 也要確認版本支援。PHP 的 mysqli 在 PHP 7.4+ 預設支援 caching_sha2_password、但舊版不支援。Node.js 的 mysql2 原生支援、但 mysql（舊套件）不支援。Python 的 mysqlclient 1.4+ 支援。

備份：升級前的保險

升級前的備份不是日常備份——它是一份明確的、經過驗證的、標記為「升級前保險點」的快照。

備份操作

1# MySQL: 完整 dump（InnoDB 用 --single-transaction 避免鎖表）
2mysqldump --all-databases --single-transaction --routines --triggers \
3  --set-gtid-purged=OFF > pre-upgrade-$(date +%Y%m%d-%H%M).sql
4
5# PostgreSQL: 完整 dump
6pg_dumpall > pre-upgrade-$(date +%Y%m%d-%H%M).sql

RDS 環境：在升級操作前手動建立 snapshot，而非依賴自動備份。自動備份在升級過程中可能被新的快照覆蓋，手動 snapshot 不會被自動清除。

1aws rds create-db-snapshot \
2  --db-instance-identifier mydb-prod \
3  --db-snapshot-identifier pre-upgrade-$(date +%Y%m%d)

備份驗證

備份存在不等於備份可用。驗證方式是把備份還原到一台獨立的測試實例、確認資料完整：

1# 還原到測試實例
2mysql -h test-instance -u admin -p < pre-upgrade-20260626-1400.sql
3
4# 驗證關鍵表的 row count
5mysql -h test-instance -e "SELECT COUNT(*) FROM orders; SELECT COUNT(*) FROM users;"

記錄還原時間：「從這份備份還原到可服務狀態需要 N 分鐘/小時」。這個數字是升級失敗時的停機時間下限——管理層需要這個數字來評估升級的風險。

平行驗證策略

在生產環境切換之前，先在新版本的平行環境上跑完所有驗證。平行驗證的目標是讓切換那一刻的風險降到最低——切換時已經知道新版本在相同資料和相同負載下的行為。

建立平行環境

方式	適用情境	資料同步方式
Read replica + 版本升級	RDS 環境、支援跨版本 replica	RDS 原生複寫
Logical replication	需要跨大版本	pg_logical / binlog → 新實例
Dump / restore	任何環境、資料量可控	一次性 dump + 增量 binlog 回放

驗證項目

項目	方法	通過標準
應用程式測試套件	對新版本實例跑完整測試	0 failure
查詢效能	對比兩個版本的 slow query log	p99 延遲無顯著退化（<10% 差異）
資料一致性	關鍵表 row count + checksum	完全一致
連線行為	應用程式連新版本、觀察連線池	無 authentication failure
備份還原	從新版本做一次 dump + restore	還原成功、資料完整

平行驗證至少跑一週。時間越長、覆蓋到的邊界情境越多——月結批次、週期性報表、低頻排程任務都可能觸發只在特定條件下才出現的相容性問題。

切換策略

切換策略的選擇取決於三個變數的取捨：操作複雜度、停機時間、回退速度。

In-place 升級

直接在原實例上升級版本。RDS 的操作是修改 engine version、等待升級完成。

停機：升級期間實例不可用（MySQL 5.7→8.0 在 RDS 上約 10-30 分鐘，視資料量而定）
回退：從 pre-upgrade snapshot 還原，需要 snapshot restore 時間（分鐘到小時級）
適用：可接受計畫性停機的環境、資料量不大

Blue-green 切換

在新版本上建立獨立實例、透過 replication 同步資料、切換應用程式的連線端點。

停機：接近零（DNS TTL 或 endpoint 切換的傳播時間）
回退：把連線端點切回舊實例，舊實例持續運行
複雜度：需要維護兩個實例的同步、切換時要處理複寫延遲
適用：不能接受停機的 production 環境

RDS 從 2022 年開始提供原生的 Blue/Green Deployments 功能，簡化了同步與切換的操作：

1aws rds create-blue-green-deployment \
2  --blue-green-deployment-name mydb-upgrade \
3  --source arn:aws:rds:ap-northeast-1:123456789012:db:mydb-prod \
4  --target-engine-version 8.0.35

Read replica 升級後提升

建立指定新版本的 read replica，replica 同步完成後提升為獨立實例，應用程式切換連線。

停機：提升 replica 的幾秒 + 連線切換
回退：舊 primary 仍在，切回即可
限制：不是所有版本組合都支援跨版本 replica

選型判準

考量	In-place	Blue-green	Replica 提升
操作複雜度	低	中	中
停機時間	10-30 分鐘	接近零	幾秒
回退速度	慢（snapshot restore）	快（切回舊端點）	快（切回舊 primary）
成本	最低	升級期間雙倍	升級期間雙倍

升級後的驗證與監控

切換完成後的 48-72 小時是觀察期。這段時間舊實例保持可用狀態，直到確認新版本穩定才退役。

切換後立即驗證

應用程式的所有關鍵路徑可正常操作（登入、查詢、寫入、交易）
連線池行為正常（沒有持續的 authentication failure 或 connection reset）
排程任務（cron job、背景 worker）正常連線並執行

效能監控

比較升級前後的關鍵指標：

1# 觀察升級後的 slow query 數量
2mysql -e "SHOW GLOBAL STATUS LIKE 'Slow_queries';"
3
4# 比較 p99 延遲（需要 application-level metrics）
5# CloudWatch: DBInstanceIdentifier → ReadLatency, WriteLatency

升級後效能退化的常見原因：optimizer 行為改變（新版本選了不同的執行計畫）、buffer pool 冷啟動（升級後快取是空的、前幾小時延遲偏高是正常的）。如果 48 小時後延遲仍未回到基線，檢查 slow query log 找出退化的具體查詢。

舊實例退役

觀察期結束、新版本確認穩定後：

停止舊實例的 replication（如果仍在同步）
保留舊實例的 final snapshot
刪除舊實例（先確認 deletion protection 關閉是刻意的、不是誤操作）
更新文件：記錄升級日期、版本號、升級過程中遇到的問題

時程與管理層溝通

升級類型	典型時程	停機窗口
Minor version（5.7.x → 5.7.y）	2-4 小時計畫維護	10-15 分鐘
Major version（5.7 → 8.0）in-place	1-2 週（評估 + 驗證 + 切換 + 監控）	10-30 分鐘
Major version blue-green	2-3 週（含平行運行期）	接近零

向管理層說明時的關鍵框架：資料是不可重建的，升級策略是「在旁邊建一個新版本的資料庫、驗證它在相同資料和相同負載下行為正確、然後切過去」。多出來的時間買的是「切換那一刻的信心」和「出問題時能快速回退」——兩者對生產服務都是必要的保險。

跨分類引用

→ 升級的共通操作框架：四階段模型的通用說明
→ Stateful 資源保護與依賴表達：multi-AZ、備份、deletion protection 的 IaC 描述
→ 無 SSH 環境的資料庫備份與變更管理：接手環境的資料庫備份策略

規模演進

Fri, 19 Jun 2026 00:00:00 +0000

Collector 的儲存方案是可插拔 storage backend — 同一個 binary 透過啟動參數選擇不同的 storage implementation。Go 的 interface composition 讓 storage 分成 BasicStorage（所有 backend 共用）和 AnalyticsStorage（PostgreSQL 層新增），內部實作（SQLite / PostgreSQL / 時間序列 DB）分離，切換是 config change 而非重寫程式碼。

 1type BasicStorage interface {
 2    Store(event Event) error
 3    Query(filter QueryFilter) ([]Event, error)
 4    Close() error
 5    Downsample() error
 6    Purge() error
 7}
 8
 9type AnalyticsStorage interface {
10    BasicStorage
11    Aggregate(spec AggregateSpec) (AggregateResult, error)
12    Funnel(steps []string, timeWindow Duration) (FunnelResult, error)
13    Cohort(groupBy string, metric string) (CohortResult, error)
14}

SQLite implementation 只實作 BasicStorage。PostgreSQL implementation 實作 AnalyticsStorage。Dashboard 用 Go 的 type assertion（if as, ok := storage.(AnalyticsStorage); ok { ... }）判斷能力 — funnel/cohort 視圖在 SQLite 模式下不顯示入口，而非顯示後報錯。

選擇哪個 backend 取決於部署場景和查詢需求：

場景	Backend	啟動參數
自架簡單版（零依賴）	SQLite	`--storage=sqlite`
需要聚合分析的自用版	PostgreSQL	`--storage=postgres --dsn=...`
高併發 + 長期保留	時間序列 DB	`--storage=timescale --dsn=...`

SQLite Backend（day-one 預設）

SQLite 是嵌入式資料庫，編譯進 collector binary 中，不需要額外 server。Go 用 modernc.org/sqlite（pure Go、無 CGO 依賴、效能約為 CGO driver mattn/go-sqlite3 的 60-80%，自用規模下足夠），開源使用者 go build && ./collector 就能跑，部署步驟為零。WAL mode 允許讀寫並行 — dashboard 的 SELECT 查詢不會被 ingestion 的 INSERT 阻塞，反之亦然。寫入之間的競爭由 busy_timeout 處理。

能力範圍

索引查詢：按 type、name、timestamp 建索引，查詢從全表掃描變成索引查找
SQL 聚合：SELECT name, COUNT(*) FROM events WHERE type='error' GROUP BY name — 一行 SQL 完成分群計數
跨欄位過濾：WHERE type='error' AND name LIKE 'terminal.%' AND ts > '2026-06-18'
寫入：WAL mode 下每秒數千筆 append 寫入

Events 主表 DDL

Events 表的欄位從 event.schema.json 的 JSON 結構推導。Source 的 nested object 攤平成獨立 column — 方便 SQL 查詢和索引，不需要每次從 JSON 裡 extract。

 1CREATE TABLE events (
 2    id INTEGER PRIMARY KEY AUTOINCREMENT,
 3    v INTEGER NOT NULL DEFAULT 1,
 4    type TEXT NOT NULL,
 5    name TEXT NOT NULL,
 6    ts TEXT NOT NULL,
 7    source_sdk TEXT,
 8    source_app TEXT,
 9    source_version TEXT,
10    source_platform TEXT,
11    source_os TEXT,
12    session_id TEXT,
13    session_started TEXT,
14    level TEXT,
15    data TEXT,
16    error_message TEXT,
17    error_stack TEXT,
18    error_type TEXT,
19    receive_ts TEXT
20);

source_sdk 獨立成 column 讓「按 SDK 來源篩選」（WHERE source_sdk = 'python'）不需要從 JSON extract。data 用 TEXT 存 JSON。SQLite 沒有原生 JSON 型別，但 3.38+ 支援 json_extract() 函式做查詢（WHERE json_extract(data, '$.duration_ms') > 1000）。session_id 獨立成 column 讓 session 回放的 JOIN 不需要 JSON extract。error_stack 獨立成 column 讓 error 調查時全文搜尋 stack trace 不需要 JSON extract。receive_ts 是 collector 收到事件的時間，和 SDK 端的 ts 對照可估算 clock drift。

PostgreSQL 版本的差異：data 改成 JSONB 型別（原生索引和查詢）、source_* 可保持為 nested JSON（PostgreSQL 的 JSONB 查詢效能足夠）或維持攤平（和 SQLite 版本保持一致）。

建議索引

建表時一起建索引，覆蓋 dashboard 的核心查詢模式：

1CREATE INDEX idx_type_ts ON events(type, ts);    -- 按 type + 時間過濾（error 列表、趨勢圖）
2CREATE INDEX idx_session ON events(session_id);   -- 按 session 回放
3CREATE INDEX idx_name ON events(name);            -- 按 name 分群計數（功能使用排行）

Day-one 建表時就建，不是效能出問題後才加。

適用規模

單日事件量在十萬筆以下、SQLite 資料庫在 1GB 以下。索引查詢在毫秒級完成。自用工具和小型團隊的日常使用通常在這個範圍。

分層保留與降採樣

保留策略從查詢需求反推，每一種查詢需要的資料粒度和回溯深度不同。回溯越深的查詢需要的粒度越粗 — debug 需要最近幾天的逐筆事件，cohort 留存需要一整年的資料但每週一筆聚合數字就夠。

查詢用途	需要的粒度	回溯深度	對應表
Debug 定位	逐筆原始	天	events
Funnel	逐筆 event	週～月	events
Error 趨勢	每小時計數	月～季	hourly_summary
Cohort	每天計數	季～年	daily_summary
RFM 分群	每月聚合	年	monthly_summary

SQLite 中的實作是三張摘要表加定期 job：

 1-- 摘要表
 2CREATE TABLE hourly_summary (
 3    hour TEXT, type TEXT, name TEXT,
 4    count INTEGER, error_count INTEGER,
 5    UNIQUE(hour, type, name)
 6);
 7CREATE TABLE daily_summary (
 8    date TEXT, type TEXT, name TEXT,
 9    count INTEGER, unique_sessions INTEGER,
10    UNIQUE(date, type, name)
11);
12
13-- 降採樣（Downsample，每小時跑一次，幂等 — 重跑只更新不重複）
14INSERT OR REPLACE INTO hourly_summary (hour, type, name, count, error_count)
15SELECT strftime('%Y-%m-%dT%H:00:00', ts), type, name,
16       COUNT(*), SUM(CASE WHEN type='error' THEN 1 ELSE 0 END)
17FROM events
18WHERE ts >= datetime('now', '-1 hour')
19GROUP BY 1, 2, 3;
20
21-- 清理（Purge，每天跑一次，分批刪除避免長時間鎖定）
22DELETE FROM events WHERE rowid IN (
23  SELECT rowid FROM events WHERE ts < datetime('now', '-7 days') LIMIT 10000
24);
25-- 重複執行直到影響行數為 0
26DELETE FROM hourly_summary WHERE hour < datetime('now', '-90 days');
27DELETE FROM daily_summary WHERE date < datetime('now', '-365 days');

保留期限由 collector config 設定，數字的來源是「哪些查詢需要回溯多遠」：

1retention:
2  raw_events: 7d
3  hourly_summary: 90d
4  daily_summary: 365d
5  monthly_summary: forever

Storage interface 的 Downsample() 和 Purge() 由 collector 的定時排程觸發（Go 的 time.Ticker）。每個 storage backend 各自實作 — SQLite 用上述 SQL、PostgreSQL 用相同邏輯但可以加 partial index 加速、時間序列 DB 的 continuous aggregate 和 retention policy 原生支援。

為什麼是聚合而非抽樣

原始事件的保留期到期後，需要決定如何保留歷史統計。降採樣有兩種思路。抽樣保留是同事件名稱（name 欄位）同小時保留一筆原始事件、刪除其餘，保留了逐筆查詢能力但喪失準確計數。聚合摘要是把一小時內的事件壓成一筆計數記錄，喪失逐筆細節但保留準確統計。

Collector 選擇聚合摘要——捨棄逐筆細節，換取準確計數。降採樣後的資料用途是趨勢圖和長期統計，這些查詢需要「過去 30 天每小時的 error 總數」而非「某一筆原始 error 的 stack trace」。

這意味著原始事件 purge（定期清理過期事件）後，超過保留期的逐筆查詢會回傳空結果。Dashboard 在回溯超過原始事件保留期的時間範圍時，應切換到上方的摘要表（hourly_summary/daily_summary）查詢——顯示趨勢圖而非事件列表。設計方向是查詢 API 的 from 參數超過 retention.raw_events 時自動降級到摘要表，或回傳提示告知 client 該時間範圍只有聚合資料（初版 collector 尚未實作此降級邏輯）。

觸發切換到 PostgreSQL 的訊號

寫入爭搶：SQLite 是單寫者模型。高併發寫入（多個 SDK 同時 flush、每秒數百筆以上持續發生）會出現 database is locked 錯誤。WAL mode 能緩解但不能根治。

聚合查詢效能不足：Dashboard 需要的聚合查詢（「過去 30 天每小時的 error 數量趨勢」「funnel 的每步轉換率」）在資料量成長後變慢。SQLite 沒有 parallel query 和 partial index 等進階 OLAP 能力。

跨實例需求：需要多個 collector 實例共用同一個資料庫時，SQLite 的單檔案模型無法跨主機存取。

PostgreSQL Backend（分析觸發）

PostgreSQL 是獨立的資料庫 server，提供多連線並行寫入、進階索引（GIN for JSONB、partial index）和完整的 SQL 分析能力。切換到 PostgreSQL 意味著 collector 從「零依賴單一 binary」變成「binary + 外部 DB」，運維複雜度上升。

觸發條件

SQLite 的寫入爭搶或聚合效能成為瓶頸時切換。具體訊號：database is locked 錯誤頻率超過每分鐘一次、或 dashboard 的聚合查詢超過 3 秒。

切換方式

切換是 config change：把 --storage=sqlite 改成 --storage=postgres --dsn=postgres://...。資料遷移用匯出 + 匯入完成：

從 SQLite 匯出事件為 JSONL（monitor export --format=jsonl）
在 PostgreSQL 建立 events 表（schema 和 SQLite 相同，data 欄位改用 JSONB）
匯入 JSONL 到 PostgreSQL（monitor import --storage=postgres --file=events.jsonl）
切換啟動參數、確認查詢正常後停用 SQLite 檔案

Storage interface 保證 collector 的 ingestion、query、rule engine 邏輯不需要改動 — 只有 storage implementation 層切換。

能力增量

並行寫入：多個 SDK 同時 flush 不會 lock
JSONB 索引：對 data 欄位的特定 key 建索引（CREATE INDEX ON events ((data->>'name'))）
Window function：funnel 和 cohort 分析的 SQL 基礎
Read replica：寫入和查詢分離，dashboard 的查詢不影響 ingestion 效能

時間序列 DB Backend（長期演進）

時間序列資料庫（TimescaleDB、InfluxDB、VictoriaMetrics）專門為高頻 append 寫入和時間分桶聚合設計。TimescaleDB 基於 PostgreSQL 擴展，Storage interface 的 PostgreSQL implementation 可以直接複用、加上 hypertable 和 continuous aggregate。

觸發條件

每秒數萬筆以上的持續寫入、或需要自動 downsampling（每分鐘的原始資料保留 7 天、每小時的聚合保留 90 天、每天的聚合永久保留）。多數自用工具和小型團隊不會到達這個規模。

能力增量

時間分桶原生操作：time_bucket('1 hour', ts) 替代手動 DATE_TRUNC
Continuous aggregate：預計算的聚合結果自動更新
壓縮：歷史資料自動壓縮，TB 級資料可查詢
Retention policy：按時間自動清理舊資料

JSONL 匯出（debug 用途）

JSONL 不作為主要 storage backend，而是作為匯出格式保留人類可讀性和 grep 友好性。monitor export --format=jsonl 把 storage 中的事件匯出為每行一個 JSON 物件的檔案，讓開發者可以用 grep / jq 做臨時查詢或把資料搬到其他工具。

JSONL 匯出也是備份和遷移的中介格式 — SQLite 損壞時從 JSONL 重建、切換到 PostgreSQL 時從 JSONL 匯入。

匯出使用 streaming — 從 storage 逐筆讀取、逐行寫出檔案，記憶體使用和事件總量無關。300 萬筆事件（約 900MB JSONL）的匯出不需要載入全部資料到記憶體。匯出的 JSONL 檔案包含事件明文（已 redaction 的欄位除外），匯出後不受 collector 的存取控制保護，應注意存放位置和存取權限。

演進原則

按觀察到的瓶頸切換。database is locked 錯誤頻率、聚合查詢延遲、磁碟使用量 — 這些是可觀察的訊號。「未來可能有百萬筆事件」是預測。按訊號行動，不按預測行動。

切換是 config change。Storage interface 確保切換 backend 時 collector 的其他邏輯（ingestion、query API、rule engine、dashboard）不需要改動。切換的成本是資料遷移，不是程式碼重寫。

SQLite 是安全的起點。多數開源使用者會停留在 SQLite backend — 單日萬筆以下、索引查詢毫秒級、零依賴部署。只有明確的效能瓶頸才值得引入外部 DB 的運維成本。

下一步路由

Collector 的整體架構 → Collector 架構
查詢 API 的設計（跨 backend 統一） → 查詢 API 設計
資料庫選型的通用指南 → backend 01 資料庫
效能瓶頸的判讀方法 → backend 09 效能容量
水平擴展的基礎概念 → DevOps 水平擴展
Error fingerprint 的 DDL 擴充 → Error Fingerprint 與去重分群

功能分層與 Backend 選擇

Sat, 20 Jun 2026 00:00:00 +0000

Collector 的可插拔 Storage Backend 分成兩個功能層級。分界線是查詢模式 — SQLite 能高效處理的查詢定義了簡單版的功能邊界，超出的查詢需求觸發 PostgreSQL 的引入。所有事件都經過同一個 Ingestion domain，差異在 Query 和 Dashboard domain 能提供什麼能力。

SQLite 層：開發者工具

SQLite 層提供的功能聚焦在「開發者自己 debug 和監控」。所有查詢都是單一維度的 — 按時間、按類型、按名稱過濾，不需要跨事件 JOIN 或跨使用者聚合。

承載的功能

功能	查詢模式	SQL 範例
最近 error 列表	按 type + 時間過濾	`WHERE type='error' ORDER BY ts DESC LIMIT 20`
Error 計數（按 name 分群）	單表 GROUP BY	`SELECT name, COUNT(*) FROM events WHERE type='error' GROUP BY name`
單次 session 回放	按 session_id 過濾	`WHERE session_id='xxx' ORDER BY ts`
事件時間軸	按時間排序	`WHERE ts BETWEEN ? AND ? ORDER BY ts`
基本 rule engine	逐筆事件評估	收到事件時逐條比對 rule（不需要查歷史）
CLI 查詢	任意過濾	`WHERE type=? AND name LIKE ? AND ts > ?`

這些功能覆蓋開發者日常 debug 和監控的核心操作 — 查錯誤、看時間軸、回放 session、設規則告警。

對應的 Dashboard 視圖

視圖	顯示
總覽頁	最近 1 小時的事件計數（按 type 分）+ 最近 error 列表
事件詳情	單筆事件的完整 JSON
Session 回放	單次 session 內的事件序列

對應的事件消費

SQLite 層消費所有四類事件，但消費方式是「單筆或單 session 級查詢」：

事件類型	消費方式	保留需求
event	按名稱計數、按 session 排列	原始 7 天（debug）
error	按名稱分群、按時間排列、看 stack trace	原始 30 天（error 追蹤價值較長）
metric	按名稱查最近 N 筆的值	原始 7 天 + 每小時聚合 90 天
lifecycle	按 session 排列、看狀態轉換	原始 7 天

PostgreSQL 層：行為分析

PostgreSQL 層在 SQLite 層的基礎上加入「跨 session、跨使用者的聚合分析」。這些查詢需要 JOIN 多張表、計算時間窗口、處理大量資料的 GROUP BY — SQLite 的單寫者模型和有限的查詢最佳化器在這些場景下效能不足。

觸發引入 PostgreSQL 的功能需求

功能需求	為什麼 SQLite 不夠	PostgreSQL 提供什麼
Funnel 分析	跨大量 session 的 multi-step JOIN 和聚合效能不足	Window functions + 高效 JOIN
Cohort 留存	需要按「註冊週」分群、計算每週的回訪率	Date functions + 大規模 GROUP BY
RFM 分群	需要跨所有使用者計算 recency/frequency/monetary	全表聚合 + 分位數計算
時間趨勢 dashboard	需要「過去 30 天每小時的 error P95」	時間分桶 + percentile 函數
高併發寫入	多個 SDK 同時 flush 且持續出現 database is locked	連線池 + 並行寫入
長期保留 + 聚合	降採樣的 materialized view	REFRESH MATERIALIZED VIEW

判斷公式

1需要 funnel / cohort / RFM 任一 → PostgreSQL
2需要跨使用者聚合（不只看自己的資料） → PostgreSQL
3需要高併發寫入（多個 SDK 同時 flush 且持續出現 database is locked 錯誤） → PostgreSQL
4以上都不需要 → SQLite 足夠

對應的 Dashboard 視圖（SQLite 層不提供）

視圖	查詢模式
Funnel 漏斗	多步驟轉換率（session 級 JOIN）
Cohort 留存表	時間窗口 × 群組矩陣
RFM 分群散佈	三維度分位數計算
Error 趨勢圖（長期）	30 天 × 每小時的時間序列
效能 P95 趨勢	percentile_cont 視窗函數

對應的事件消費

PostgreSQL 層消費的事件和 SQLite 相同（Ingestion 不變），但消費方式從「單筆/單 session」擴展到「跨 session/跨使用者」：

事件類型	SQLite 層消費	PostgreSQL 層新增消費
event	按名稱計數	funnel 步驟轉換、cohort 行為分群
error	按名稱分群	跨版本 error 率比較、P95 回應時間趨勢
metric	最近 N 筆值	長期趨勢（materialized view 預聚合）
lifecycle	單 session 排列	session 長度分佈、留存率計算

Domain 的分層影響

Domain	SQLite 層	PostgreSQL 層新增
Ingestion	HTTP POST → 驗證 → 寫入	不變（寫入目標換 backend）
Storage	SQLite embedded	PostgreSQL + 連線池
Query	單表過濾 + 單表 GROUP BY	JOIN + window function + percentile
Rule	逐筆事件即時評估	不變（rule 不依賴聚合查詢）
Dashboard	總覽 + 事件詳情 + session 回放	新增 funnel / cohort / RFM / 趨勢圖

Ingestion 和 Rule 兩個 domain 和 storage backend 無關 — 事件進來的方式和規則評估的邏輯不因 backend 改變。Query 和 Dashboard 是分層影響最大的兩個 domain — PostgreSQL 層的查詢能力決定了 Dashboard 能提供什麼視圖。

實作邊界

Storage interface 用 Go 的 interface composition 分成兩層：

 1type BasicStorage interface {
 2    Store(event Event) error
 3    Query(filter QueryFilter) ([]Event, error)
 4    Close() error
 5    Downsample() error
 6    Purge() error
 7}
 8
 9type AnalyticsStorage interface {
10    BasicStorage
11    Aggregate(spec AggregateSpec) (AggregateResult, error)
12    Funnel(steps []string, timeWindow Duration) (FunnelResult, error)
13    Cohort(groupBy string, metric string) (CohortResult, error)
14}

下一步路由

可插拔 Storage Backend 的架構 → 規模演進
事件枚舉方法（哪些事件要收） → 事件枚舉與補齊檢查
分層保留策略 → 規模演進的分層保留段
Funnel 分析的完整方法論 → Funnel analysis
查詢消費模式（各場景需要什麼事件）→ 查詢消費模式

從 collector 資料做基礎 funnel 分析

Fri, 19 Jun 2026 00:00:00 +0000

自架 collector 收集的事件資料可以做基礎的 funnel 分析，不需要商業方案。分析的深度取決於 storage backend 的查詢能力 — SQLite 層能做每步事件計數，PostgreSQL 層能做 session 級轉換率分析。功能分層的完整定義見功能分層與 Backend 選擇。

定義 funnel 步驟

Funnel 分析的第一步是列出每一步和對應的事件名稱。以一個透過 WebSocket 連接遠端終端機的 app 連線流程為例：

步驟	事件名稱	意義
1	terminal.connect.start	使用者點擊連線
2	auth.biometric.success	生物辨識通過
3	terminal.connect.done	WebSocket 連線成功
4	terminal.input.submit	使用者開始打字

SQLite 層：每步事件計數

SQLite backend 能做的 funnel 是「每步有多少事件觸發」— 單表 GROUP BY，不需要跨事件 JOIN。

1SELECT name, COUNT(*) as count
2FROM events
3WHERE name IN ('terminal.connect.start', 'auth.biometric.success',
4               'terminal.connect.done', 'terminal.input.submit')
5  AND ts >= datetime('now', '-7 days')
6GROUP BY name;

步驟 N 的轉換率 = 步驟 N 的事件數 / 步驟 N-1 的事件數。流失率 = 1 - 轉換率。

能做的

每步事件計數（單表 GROUP BY）
按 source.version 或 source.platform 分群（加 WHERE 條件）
按天/按週看趨勢（strftime 分桶 + GROUP BY）

做不到的

Session 級轉換率：「同一個 session 完成步驟 1 到步驟 4 的比例」需要 JOIN 同 session 的多個事件、跨所有 session 聚合。SQLite 能做這個 JOIN，但在大量 session 時效能不足。
步驟間耗時：「使用者在步驟 1 和步驟 2 之間等了多久」需要 self-join on session_id + timestamp 差值計算。
漏斗順序驗證：確認使用者是按 1→2→3→4 順序完成、不是跳步。

PostgreSQL 層：Session 級 funnel

PostgreSQL backend 提供 window function 和高效 JOIN，能做完整的 session 級 funnel 分析。

 1WITH session_steps AS (
 2  SELECT session_id, name,
 3         ROW_NUMBER() OVER (PARTITION BY session_id ORDER BY ts) as step_order
 4  FROM events
 5  WHERE name IN ('terminal.connect.start', 'auth.biometric.success',
 6                 'terminal.connect.done', 'terminal.input.submit')
 7    AND ts >= NOW() - INTERVAL '7 days'
 8),
 9session_max_step AS (
10  SELECT session_id, MAX(step_order) as reached
11  FROM session_steps
12  GROUP BY session_id
13)
14SELECT reached, COUNT(*) as sessions
15FROM session_max_step
16GROUP BY reached
17ORDER BY reached;

新增能力

Session 級轉換率：每個 session 到達了哪一步、在哪一步流失
步驟間耗時：LAG window function 計算相鄰步驟的 timestamp 差值
漏斗順序驗證：用 ROW_NUMBER + CASE 確認步驟順序
Cohort 分群的 funnel：按使用者註冊日期 / 版本 / 平台分群看不同 cohort 的 funnel 差異

JSONL 匯出後的臨時分析

Collector 的 monitor export --format=jsonl 可以匯出事件為 JSONL 格式。匯出後用 grep + jq 做一次性的臨時分析：

1for step in terminal.connect.start auth.biometric.success terminal.connect.done terminal.input.submit; do
2  count=$(grep "\"name\":\"$step\"" exported-events.jsonl | wc -l)
3  echo "$step: $count"
4done

JSONL 臨時分析適合「快速看一眼大概數字」的場景。持續性的 funnel 監控應該用 SQLite 或 PostgreSQL 的 SQL 查詢，結果穩定且可重現。

自架 vs 商業方案

需求	自架能力	商業方案
每步事件計數	SQLite GROUP BY	Mixpanel / Amplitude 內建
Session 級轉換率	PostgreSQL window function	Mixpanel / Amplitude 內建
視覺化 funnel 漏斗圖	自建 dashboard	商業方案內建、拖拉設定
即時更新	定期重算 + dashboard 刷新	商業方案即時
A/B test 分群 funnel	PostgreSQL + feature flag	Optimizely / LaunchDarkly 整合

自用工具場景下，SQLite 層的每步事件計數通常足夠。商業產品需要 session 級分析時，PostgreSQL 層的 SQL 能力和商業方案的分析能力在功能上對等，差異在 UI 和設定便利性。

下一步路由

Funnel 分析的完整方法論 → Funnel analysis
事件設計如何影響分析品質 → 行為事件設計
功能分層定義 → 功能分層與 Backend 選擇
去識別化是分析的入場條件 → 模組七資安與隱私

MySQL → PostgreSQL：從 SQL dialect diff 跑出來的 Type A 6-phase migration

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 MySQL 跟 PostgreSQL。本文是 Migration playbook methodology Type A 的標準形態實證。

三類 SQL dialect diff sample：先看具體差距

 1-- 1. Auto increment / sequence
 2-- MySQL
 3CREATE TABLE users (id INT AUTO_INCREMENT PRIMARY KEY);
 4-- PostgreSQL
 5CREATE TABLE users (id SERIAL PRIMARY KEY);
 6-- 或 PG 10+:
 7CREATE TABLE users (id INT GENERATED ALWAYS AS IDENTITY PRIMARY KEY);
 8
 9-- 2. String concatenation
10-- MySQL: CONCAT(a, b) 或 a || b 在 ANSI mode
11SELECT CONCAT(first_name, ' ', last_name) FROM users;
12-- PostgreSQL: a || b 或 CONCAT(a, b)
13SELECT first_name || ' ' || last_name FROM users;
14-- 注意: PostgreSQL 對 NULL || x = NULL、MySQL CONCAT 對 NULL 處理不同
15
16-- 3. UPSERT
17-- MySQL
18INSERT INTO users (id, name) VALUES (1, 'Alice')
19ON DUPLICATE KEY UPDATE name = VALUES(name);
20-- PostgreSQL (9.5+)
21INSERT INTO users (id, name) VALUES (1, 'Alice')
22ON CONFLICT (id) DO UPDATE SET name = EXCLUDED.name;
23
24-- 4. Index hint / FORCE INDEX
25-- MySQL
26SELECT * FROM orders FORCE INDEX (idx_created_at) WHERE created_at > '2025-01-01';
27-- PostgreSQL: 沒對應 syntax、依賴 planner + statistics
28-- 必要時用 enable_seqscan=off 或 pg_hint_plan extension
29
30-- 5. JSON path
31-- MySQL 5.7+
32SELECT data->'$.name' FROM events;
33-- PostgreSQL
34SELECT data->'name' FROM events;
35SELECT data->>'name' FROM events;  -- 取出 text

5 個 sample 看出 MySQL → PostgreSQL 主要工作是 SQL dialect translation；不是 5-10 個函數差、是 跨整個 application SQL surface 的 audit + 改寫。對應 diff dimension audit 結果：

維度	評估	等級
Schema / API	SQL dialect 差大、CREATE TABLE / INDEX / function 都差	High
Operational model	兩者都 OLTP RDBMS、replication 概念對等但語法不同	Medium
Abstraction / paradigm	同 SQL RDBMS	Low
Number of components	同 1 個	Low
Application change	ORM 多數能 cover、raw SQL 必改	Medium

主導維度 Schema = High、走 Type A 6-phase playbook 標準結構。

Phase 0：rule audit + SQL surface 盤點

 1-- 1. 列所有 stored procedure
 2SELECT routine_schema, routine_name, routine_type
 3FROM information_schema.routines
 4WHERE routine_schema NOT IN ('mysql', 'sys', 'information_schema', 'performance_schema');
 5
 6-- 2. 列所有 trigger
 7SELECT trigger_name, event_object_table, action_statement
 8FROM information_schema.triggers;
 9
10-- 3. 列所有 view
11SELECT table_name, view_definition
12FROM information_schema.views;
13
14-- 4. 列所有 index 含 prefix length
15SHOW INDEX FROM users;
16-- PostgreSQL 對 prefix index 處理不同、要逐個 audit

Audit 主要產出三類清單：

Direct port：標準 SQL feature、PG 直接接受
Translate：MySQL-specific syntax、需要改寫（UPSERT / CONCAT NULL 行為 / index hint）
Refactor：MySQL-specific behavior（auto_increment session-level / SELECT FOUND_ROWS / GROUP BY 寬鬆 / TEXT 隱性 cast）— 不能直接 port、application code 也要改

Phase 1：schema 對位

MySQL	PostgreSQL
`INT AUTO_INCREMENT`	`INT GENERATED ALWAYS AS IDENTITY` 或 `SERIAL`
`TINYINT(1)` (boolean usage)	`BOOLEAN`
`DATETIME`	`TIMESTAMP WITHOUT TIME ZONE`
`DATETIME(6)` (microsecond)	`TIMESTAMP(6)`
`VARCHAR(N)` with charset	`VARCHAR(N)` (UTF-8 always)
`TEXT`	`TEXT` (no length limit)
`LONGTEXT`	`TEXT`
`JSON`	`JSONB` (推薦、indexed) 或 `JSON`
`ENUM('a','b','c')`	自定 `TYPE foo AS ENUM('a','b','c')` 或 `VARCHAR + CHECK`
`SET('a','b')`	Array `TEXT[]` + CHECK
`BINARY(N)`	`BYTEA`
Index prefix `KEY (col(10))`	Functional index `CREATE INDEX ON t (LEFT(col, 10))`
`FULLTEXT INDEX`	`tsvector` + GIN index
Geographic types	PostGIS extension（必須先裝）

Schema 對位表存版控、application code refactor 時對照。

Phase 2：Translation pipeline（3-tier 跟 Splunk → Elastic 類似）

Tier 1：vendor / community tool

1# pgloader：成熟工具、cover ~70-80% schema + data
2pgloader mysql://user:pass@mysql-host/dbname \
3         postgresql://user:pass@pg-host/dbname
4
5# 或 AWS DMS（managed、適合 RDS / Aurora target）
6# DMS task: Full Load + CDC

Tier 2：自家 SQL refactor

對 ORM 不能 cover 的 raw SQL：

Manual grep application code 找 auto_increment / ON DUPLICATE KEY / FORCE INDEX / FOUND_ROWS() / CONCAT NULL
寫 codemod / lint rule、CI 強制 check（PG-incompatible SQL block PR）

Tier 3：tricky case manual

例：MySQL SELECT * FROM t1, t2 WHERE t1.id = t2.id GROUP BY t1.id（implicit GROUP BY 寬鬆）— PG 嚴格 GROUP BY 必須 list 所有 non-aggregate column；application code refactor 必要。

Phase 3：Parallel run

雙寫 + 雙讀比對 1-2 個月：

1Application ──→ MySQL (write + read primary)
2            └─→ PostgreSQL (write only + read shadow)
3                                    ↓
4                            Diff checker (latency / result diff)

pt-table-checksum (MySQL) + 自家 checksum scanner 對 sample table 跑 daily checksum、找 schema 對位錯。

Phase 4：Cutover

設 application maintenance window（30 分鐘）
Drain MySQL write、等 last LSN propagated to PG
Application switch connection string → PG
解除 maintenance、monitor 24-48 hours

Phase 5：Cleanup

MySQL read-only 1-2 週（fallback window）
之後 stop replication、decommission MySQL

Production 故障演練

Case 1：Auto_increment vs SERIAL 跨 transaction 行為差

徵兆：cutover 後某 batch job 跑得比 MySQL 慢 5-10x、PG log 顯示 sequence 競爭。

根因：MySQL AUTO_INCREMENT 取值受 innodb_autoinc_lock_mode 控制（8.0 預設 mode=2 interleaved 可並行、mode=0 才是 table-level lock；詳見 Lock contention）、PG SERIAL 是 sequence-level non-transactional；mode=0 場景跟 PG SERIAL 差異最大、mode=2 跟 PG SERIAL 行為較接近（皆可亂號、皆可並行）。

修法：

改 UUID v7 / bigserial：消除 sequence 競爭
bigserial + cache：CREATE SEQUENCE ... CACHE 100、batch 預取 100 個 ID 降 contention
批量 insert 改 COPY：COPY t FROM STDIN 是 PG 對 batch 最快路徑

Case 2：Charset / collation 跑出 unicode 異常

徵兆：cutover 後某些用戶名 / 中文文字 query 對不到結果、SELECT * WHERE name = '張三' 返回空。

根因：MySQL default utf8mb3（3-byte UTF-8、不能存 emoji / 部分 unicode）、PG default UTF8 全 unicode；資料遷移時 MySQL 端的 utf8mb3 column 帶到 PG 後 bytes 不變 但 collation rule 變；string comparison 結果差。

修法：

Pre-migration audit：MySQL 強制 utf8mb4、avoid utf8mb3 data
Collation 對位：MySQL utf8mb4_unicode_ci → PG LC_COLLATE = 'C.utf8' 或 ICU collation
Application encoding contract：明示 UTF-8 全範圍、不接受 utf8mb3-only client

Case 3：Case sensitivity 反轉

徵兆：cutover 後 application query SELECT * FROM users 報錯 relation does not exist；但 SELECT * FROM "Users" works。

根因：MySQL Linux default table name case-sensitive、Windows case-insensitive、配置 lower_case_table_names 影響；PG all identifier folded to lowercase unless quoted。MySQL on macOS 開發環境是 case-insensitive、PG 嚴格 case-sensitive、application code 端可能用 mixed case。

修法：

Schema migration 階段強制 lowercase：所有 table / column name 統一 lowercase
Application code refactor：grep raw SQL 找 mixed case identifier、改 lowercase
ORM 端設定 naming_strategy：JPA / Hibernate 等明示 lowercase mapping

Case 4：Replication 行為差、CDC pipeline 失效

徵兆：MySQL 端 binlog-based CDC（Debezium MySQL connector）跑得好好的、cutover 後 PG 端要重建 CDC pipeline、初期 1-2 週 message 模式異常。

根因：MySQL binlog row format vs PG logical replication slot 完全不同 protocol；Debezium 對兩家連接器是獨立 binary、message schema 部分對等但不直通。

修法：

Pre-cutover 建 PG 端 CDC：Debezium PG connector 提前部署、初期跟 MySQL CDC 並存比對
Schema registry 同步：Avro schema 從 MySQL 端 export、註冊 PG 端 connector 用同 schema
Consumer 端 idempotent：cutover 期間 dual-source、consumer 必須 idempotent 避免 duplicate

Case 5：FULLTEXT INDEX 對應 tsvector、application search broken

徵兆：cutover 後 application 全文搜尋功能失效、MATCH(name) AGAINST('xxx') 不被 PG 認；application 端 raw SQL 對 search 寫死。

根因：MySQL FULLTEXT INDEX + MATCH ... AGAINST syntax PG 不支援；PG 用 tsvector + ts_rank + to_tsquery、概念對等但 syntax 完全不同。

修法：

Pre-migration：列 application 用到的 fulltext search 場景、改寫成 tsvector pattern
大型 search 改 Elasticsearch / Meilisearch：fulltext 是專門 search engine 的本職、不該用 RDBMS 解
降級為 LIKE：簡單 case WHERE name ILIKE '%xxx%'、performance 較差但相容性好

Capacity / cost

維度	MySQL	PostgreSQL
Instance cost	對等（同 EC2 / RDS spec）	對等
Operational FTE	對等	對等
Connection pooling	proxysql / mysql-proxy	PgBouncer（更成熟）
Index performance	對等	對等
JSON performance	Improving	JSONB 領先
Replication	Async binlog	Async streaming + logical
Extension ecosystem	少	大（PostGIS / TimescaleDB / pgvector）
Migration cost (one-time)	-	2-6 FTE 月 × project length（含 application）

Migration 主要 cost 在 application code refactor + dual-write window operational、不是 DB itself。

整合 / 下一步

跟 PostgreSQL → Aurora migration 串接

部分組織走 MySQL → PostgreSQL → Aurora 兩段：

先 MySQL → self-managed PostgreSQL（schema 對位 + application 改）
穩定後 self-managed PostgreSQL → Aurora（operational simplification）

不要一次跑 MySQL → Aurora PostgreSQL compat、認知負擔太大、failure mode 互相干擾。

跟 Logical Replication + Debezium 對位

PG 端 CDC pipeline 在 cutover 完成後立刻可用；可作為 downstream CDC 重建 的契機、設計 outbox pattern 更穩。

下一步議題

MySQL 8 vs PostgreSQL 16 feature gap：MySQL 8 加了 CTE / window function / generated column；2025+ feature parity 漸高、migration ROI 評估會變
Reverse migration（PG → MySQL）：少見、通常是 application 端 dependency lock-in（用了 MySQL-specific stored procedure）
MariaDB → PostgreSQL：跟 MySQL → PG 類似、MariaDB 部分 syntax 略接近 PG（如 RETURNING）

PostgreSQL Patroni HA：從 leader 失聯到 client 重連的 5 段 failover lifecycle

Mon, 18 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PostgreSQL 在 OLTP 譜系的定位、本文聚焦 Patroni-based HA 的 lifecycle 設計 — 從正常運作到 failover 完成的 5 段、每段配置 + failure mode + recovery。

Failover lifecycle：5 段不是一條曲線

PostgreSQL 原生沒有 auto-failover；primary 掛了、application 卡死、SRE 手動 promote standby — 整個過程通常 5-30 分鐘。Patroni 把這條鏈拆成 自動化的 5 段 lifecycle、每段有自己的 trigger、配置、失敗模式：

段	觸發	動作	失敗模式
1. Detection	Leader heartbeat 在 DCS（etcd / Consul）失聯	Standby 們開始觀察、累積失聯時間到 TTL	DCS 本身分裂 → false detection 啟動失敗 failover
2. Election	TTL 過、DCS 開放 leader lock	Standby 競爭寫 leader key（DCS quorum-based）	Network partition → 兩邊都自認 leader（split-brain）
3. Promotion	新 leader 寫 DCS key 成功	跑 `pg_ctl promote`、停 streaming replication、開始接寫	Standby 落後太多 → 拒 promote 或承接時資料缺
4. Reconfiguration	Patroni REST API 通知 routing 層	HAProxy / PgBouncer 切流量到新 leader	Routing 層 health check 慢 → 流量持續打舊 leader
5. Recovery	舊 leader 恢復（手動 / 自動）	跑 `pg_rewind` + 重接 streaming replication 為 standby	WAL divergence 太大 → 必須重 base backup

每段都有獨立配置、不是「設一個 timeout 就好」。後面分段展開。

Stage 1：Detection — DCS heartbeat 跟 TTL

 1# patroni.yml 核心配置
 2scope: myapp-pg-cluster
 3namespace: /db/
 4name: pg-node-1                                # 跟 hostname 一致
 5
 6etcd:
 7  hosts: etcd1:2379,etcd2:2379,etcd3:2379       # DCS quorum
 8  protocol: https
 9
10bootstrap:
11  dcs:
12    ttl: 30                                     # leader lock TTL
13    loop_wait: 10                               # patroni 主循環間隔
14    retry_timeout: 10                           # DCS retry 上限
15    maximum_lag_on_failover: 1048576            # standby 落後 1MB 內才能 promote
16    synchronous_mode: false                     # async / sync 取捨

關鍵直覺：

TTL (30s) = leader 失聯多久才被視為 dead。設太短（< 15s）會把 transient network jitter 當 dead；設太長（> 60s）unavailability 拖長
loop_wait + retry_timeout < TTL：Patroni 必須在 TTL 內成功跟 DCS 互動 N 次、loop_wait=10 + retry_timeout=10 給每個循環 20s buffer
maximum_lag_on_failover：standby WAL 落後超過這個閾值就 不參與 election；防止「promote 一個落後 5 分鐘的 standby」資料丟失

Stage 2：Election — DCS quorum + watchdog 防 split-brain

1watchdog:
2  mode: required                                # required / automatic / off
3  device: /dev/watchdog
4  safety_margin: 5

Election 期間最大風險是 split-brain — network partition 下、舊 leader 還活著但跟 DCS 斷線；新 leader 從 standby 升上來、application 同時連兩個 PostgreSQL 寫。資料 divergence 後 無法自動 reconcile。

防護機制兩層：

DCS quorum：etcd / Consul 至少 3 node、過半 quorum 才能寫 leader key — 少數派 partition 無法 elect 新 leader
Watchdog (Linux kernel)：required mode 強制 — Patroni 必須定期 poke /dev/watchdog、若 Patroni 自己掛或被 OS 凍結、kernel 自動 reboot 整台機器、避免舊 leader 在 DCS 失聯後繼續接寫

Watchdog required 是 production-grade 的硬要求 — automatic / off 在 split-brain 場景下無法防護。

Stage 3：Promotion — pg_ctl + replication slot 切換

新 leader 寫 DCS key 成功後、Patroni 自動執行：

1# Patroni 內部、不要手動跑
2pg_ctl promote -D /var/lib/postgresql/data
3# postgresql.auto.conf 移除 primary_conninfo
4# postgresql.auto.conf 重新計算 timeline ID
5# 啟動接寫

Promotion 期間關鍵議題：

timeline divergence：新 leader 開新 timeline ID（從 leader 失聯時的 LSN 開始）；其他 standby 需要 pg_rewind 把自己的 WAL fork 點對齊新 timeline
replication slot 處理：舊 leader 上的 replication slot 在 DCS 中已 stale、新 leader 重建 slot；如果 logical replication consumer 沒 idempotent、會 replay 部分訊息
promotion latency：通常 3-10 秒（pg_ctl 本身 < 5s、加 DCS 寫確認）

Stage 4：Reconfiguration — client routing 切換

PostgreSQL 自己升 leader 還不夠、application 不知道；要靠前端 routing 層轉發。三種典型 pattern：

1[client] → [HAProxy / pgBouncer] → [pg-node-1 (leader)]
2                                 → [pg-node-2 (standby, read)]
3                                 → [pg-node-3 (standby, read)]

Patroni REST API 暴露 /leader / /replica / /health endpoint、HAProxy 用 health check 跑這些 endpoint：

1# haproxy.cfg
2backend pg-write
3  option httpchk OPTIONS /leader
4  http-check expect status 200
5  server pg-node-1 pg-node-1:5432 check port 8008
6  server pg-node-2 pg-node-2:5432 check port 8008 backup
7  server pg-node-3 pg-node-3:5432 check port 8008 backup

Reconfiguration 期間關鍵延遲：

HAProxy health check 間隔（預設 2s）+ failure threshold（預設 3 次）= ~6s 切換感應
PgBouncer 不主動 health check、要靠 application 端 retry 跟 connection drop 觸發重連
整個 reconfiguration 端到端通常 10-20s（含 PostgreSQL promotion 時間）

Stage 5：Recovery — pg_rewind 跟 base backup 取捨

舊 leader 恢復後變 standby，但 WAL 已 divergence — 必須選一條 recovery path：

pg_rewind：rewind 舊 leader WAL 到分歧點、重新接 streaming replication；條件 = 分歧 WAL 量小（< 幾 GB）且 timeline 可對齊
重 base backup：用 pg_basebackup 從新 leader 拉完整 base + WAL；條件 = 任何時候都可、但時間長（TB 級 1-4 小時）

Patroni 預設嘗試 pg_rewind、失敗才退 base backup。production 配置：

1postgresql:
2  use_pg_rewind: true
3  remove_data_directory_on_rewind_failure: true   # rewind 失敗自動清 data dir、再 base backup
4  remove_data_directory_on_diverged_timelines: true

Production 故障演練

Case 1：Split-brain due to DCS partition

徵兆：兩個 PostgreSQL node 都在接寫、application 大量寫入 conflict / unique constraint violation。

根因：DCS（etcd）partition — 兩個 etcd node 在 partition 兩側、都自認 quorum；其實是 split-vote、兩邊都不應該。Patroni 在兩邊各 elect 一個 leader。

修法：

DCS 必須奇數 node（3 / 5 / 7）、過半 quorum 嚴格 enforce
DCS 部署跨 AZ / region 時、quorum size 要考慮 partition 機率（3 AZ 各 1 node 是 production 最低標）
Watchdog required mode 是最後一道閘門 — DCS partition 加 quorum 失靈時、watchdog 強制 reboot 失聯 node

Case 2：Standby 落後太多、無法 failover

徵兆：primary 失聯後、Patroni log 顯示 Following members have lag greater than maximum_lag_on_failover、所有 standby 都被拒 promote、cluster unavailable。

根因：maximum_lag_on_failover 設 1MB、但 standby replication lag 累積到 50MB（write-heavy workload + slow disk on standby）。安全機制觸發、但代價是 無 standby 可升、需要人工降低門檻或等 standby catch up。

修法：

預防：standby 容量 / IO 對齊 primary、避免 lag 累積；prometheus alert pg_replication_lag_bytes > 10MB 觸發前 catch
臨時：手動 patronictl edit-config 把 maximum_lag_on_failover 暫時拉到 50MB、接受可能丟 50MB worth of writes、換 availability
長期：sync replication（一個 standby 強制同步）、保證至少一個 standby zero-lag

Case 3：Promotion 後 application connection storm

徵兆：failover 完成後 30-120 秒內、application log 大量 connection refused / password authentication failed、application 自己 retry storm。

根因：新 leader 剛 promote、PostgreSQL max_connections 容量還在 warm up（shared memory / cache 未 prime）、application 同時湧入大量 connection request；應用 retry 不夠 jitter、queue 堆積。

修法：

Application 用 exponential backoff with jitter、不要 immediate retry
PgBouncer / connection pool 限制每 application instance 對 PG 的 connection 上限、不直連 PG
預先在 standby 跑 pg_prewarm 把熱表 cache 預熱、promotion 後 cache miss 不爆

Case 4：pg_rewind 失敗、退到 base backup 沒做

徵兆：舊 leader 恢復後、Patroni log 顯示 pg_rewind failed、舊 leader 一直 STARTING、無法重接 cluster；SRE 手動跑 pg_basebackup 才恢復。

根因：remove_data_directory_on_rewind_failure: false（預設）— rewind 失敗時 Patroni 不主動清 data dir、需要 SRE 手動處理；運維沒 runbook、卡在這步幾小時。

修法：

Production 設 remove_data_directory_on_rewind_failure: true + remove_data_directory_on_diverged_timelines: true、讓 Patroni 自動 fallback
data dir 跑在獨立 PV / disk、清掉風險可控（不要跑 root disk）
容量規劃：base backup 時間預估納入 RTO（TB 級 base backup 1-4 小時、不是 RTO 30 分鐘所能承受）

Case 5：Watchdog 觸發整機 reboot、誤殺

徵兆：production server 在無故障時 unexpected reboot、dmesg 顯示 watchdog: BUG: soft lockup。

根因：Patroni 主循環因 etcd 短暫慢回應卡住 60+ 秒、kernel watchdog 觸發 reboot；但實際 PostgreSQL 沒 hang、是 Patroni-watchdog 鏈過敏。

修法：

safety_margin 設大一點（10-15）、給 Patroni loop_wait 抖動空間
etcd 跟 Patroni 部署在低延遲 network 內（同 AZ < 5ms）、跨 region etcd 不建議
watchdog device 用 softdog（軟體模擬）vs 硬體 watchdog、debug 時 softdog 容易觀察

容量規劃

維度	估算	警戒
Cluster size	3-5 node（含 leader + 2-4 standby）	< 3 不能 HA（單 standby 失敗整 cluster 掛）
DCS size	3 / 5 / 7 node（奇數 quorum）	etcd 5 node 是 prod standard
TTL	30s（default 30、production 20-60）	< 15s 過敏、> 60s 過鈍
maximum_lag_on_failover	1MB（default）	大表 write-heavy 可放 10-100MB
Synchronous standby	1 個 sync + N 個 async 是 production 預設	全 async 容易丟資料、全 sync write latency 爆
RTO	10-30 秒（detection 30s 內 + promotion 5-10s + reconfig 5s）	> 60s 要 audit 鏈路
RPO	sync mode 接近 0、async mode 跟 lag 同數量級	async 在 disk IO 慢時 lag 可能 MB-GB level

整合 / 下一步

跟 PgBouncer 整合

PgBouncer 不主動感知 Patroni failover、要靠：

HAProxy 在 PgBouncer 上層：HAProxy 跑 Patroni health check、PgBouncer connection 重新路由
PgBouncer reload：failover 後 SRE / automation 跑 pgbouncer -R、強制重連 backend
Connection pool drain：application 端 connection pool 設 pool_lifetime_max=5min、舊 connection 自然汰換

跟 cert-manager（TLS rotation）

Patroni REST API 跟 PostgreSQL streaming replication 都用 TLS、cert rotation 不能停服務：

cert-manager 自動換證後、Patroni 跟 PostgreSQL 都需要 reload（不是 restart）
patronictl reload 不會觸發 failover、只 reload config
PostgreSQL pg_ctl reload 是 SIGHUP、平滑載入新 cert

跟 backup / PITR

Patroni 不管 backup — 但 standby promotion 後、WAL archive 必須跟新 leader 的 timeline 對齊：

WAL archive 命令模板含 %t（timeline）：archive_command = 'wal-g wal-push %p'
Backup tool（pgBackRest / WAL-G）支援 timeline 切換、archive 不會中斷
詳見 PITR + WAL archiving deep article

下一步議題

Multi-region Patroni：跨 region 部署的 DCS quorum 設計、跟單 region 的取捨完全不同
PostgreSQL 16+ streaming replication slot 持久化：簡化 standby promotion 後 logical consumer 重連
跟 Kubernetes operator 整合：Patroni 跑在 K8s 時、StatefulSet + pod identity + DCS 部署模式

PostgreSQL Replication Topology：async / sync / quorum 三模式跟 LSN + replication slot 的三軸組合

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 streaming replication topology — 從 single primary 到 multi-standby 部署的 3 個 trade-off 軸 + LSN + replication slot 機制。

Replication 的 3 個 trade-off 軸 + mode 選擇

PG streaming replication mode 選擇看起來是「async 還是 sync」、實際是 3 個獨立 trade-off 軸的組合、async / sync / quorum-based sync 是這些軸的常見組合名稱：

軸	端 A	端 B	PG 旋鈕
Durability	primary 寫完就 commit	至少一個 standby 收到才 commit	`synchronous_commit` / `synchronous_standby_names`
Latency	client 等 primary 寫完 OK	client 等 standby ack（額外 RTT）	同上
Consistency	standby 隨時可能 stale	standby 跟 primary 保證讀到一致	application read routing rule（不是 replication 旋鈕）

跟這三軸獨立的、是 replication 機制本身的可維護性：

LSN（Log Sequence Number）：PG 用全域 byte offset 標 WAL 進度、所有 standby 同步用 LSN 對齊、不像 MySQL 早期 binlog position + file 雙欄
Replication slot：primary 紀錄每個 standby 已接收的 LSN、防 standby 失聯期間 WAL 被清掉、是 streaming replication 的 持久化進度追蹤

跟 MySQL Replication Topology 對比、PG 的 LSN + replication slot 直接內建 standby 進度追蹤、不像 MySQL 5.7- 要靠 binlog position + GTID 雙機制；但 slot 是 primary 紀錄、orphan slot 是 PG-specific 議題（slot 留 WAL 直到 standby 重連、standby 永久失聯 → primary disk 爆）。

Async streaming：default + 高 throughput 的代價

Async 是 PG 預設、行為：

Primary 寫 WAL 進 pg_wal/ 目錄、commit、回應 client OK
WAL sender process 把 WAL stream 給 standby
Standby WAL receiver 寫 standby 的 pg_wal/、startup 進程 redo 套用

Trade-off：

Durability：primary commit 後 standby 還沒收 → primary 永久故障 → data loss（已 commit 的 transaction 在 standby 不存在）
Latency：client 寫入延遲 = primary 自身 fsync WAL 的時間（fsync=on + synchronous_commit=on 預設、通常 < 1ms 在 SSD / NVMe）
Consistency：standby 可能 lag、application 讀 standby 會 stale；用 pg_stat_replication.write_lag / flush_lag / replay_lag 看

配置：

1# postgresql.conf on primary
2wal_level = replica          # 至少 replica（logical 是 superset）
3max_wal_senders = 10         # 並行 WAL sender process 數（依 standby 數量）
4wal_keep_size = 1024MB       # WAL 保留量（slot 為主、但 backup buffer）
5synchronous_commit = on      # 預設、primary 自己 fsync WAL
6# synchronous_standby_names 留空 = async

適用：

主流選擇（90% 場景）
Failover loss 在容忍範圍（多數 web 應用容忍 1-2 秒 data loss）
Read scaling 為主要 driver、絕對 durability 非首要

Sync streaming：至少一個 standby flush WAL 才 commit

Sync mode 在 async 基礎上加 primary 等指定 standby flush WAL 才回 client：

Primary 寫 WAL、send to standby
Standby 收到 WAL、寫進 pg_wal/、fsync、回 ack
Primary 等 ack → commit → 回 client

synchronous_commit 有 5 個 level、不是 binary：

Level	行為	Latency 影響	Crash data loss
`off`	primary 不等自己 fsync、background flush	+0	primary crash 丟 0-1 秒
`local`	primary fsync own WAL（不等 standby）	baseline	primary crash 0、standby 丟
`remote_write`	primary fsync + standby 收到（不必 standby fsync）	+1 RTT 大致	OS crash on standby 丟
`on` (預設)	primary fsync + standby fsync（standby 收進 disk）	+1 RTT + fsync	全 crash 都不丟
`remote_apply`	primary fsync + standby fsync + standby 已 replay（visible to read）	+1 RTT + fsync + replay	全 crash 都不丟 + replica 立刻可讀

配置（synchronous）：

1synchronous_commit = on
2synchronous_standby_names = 'FIRST 1 (standby1, standby2)'
3# 'FIRST 1' = 第一個 active standby ack 即可
4# 'ANY 2 (s1, s2, s3)' = 任 2 個 ack 即可（quorum-based）

Quorum-based sync：用 ANY N 語法、達到 N 個 ack 就 commit、提高 latency stability（不依賴特定 standby）：

1synchronous_standby_names = 'ANY 2 (standby1, standby2, standby3)'
2# 3 個 standby 中任 2 個 ack 即 commit

適用：

金融交易 / 訂單 / payment ledger（不允許 data loss）
已有 multi-AZ deploy、replica 物理上可靠
可接受寫入延遲 +1-3ms (跨 AZ)

不適用：

跨 region sync（RTT 50-200ms）— 寫吞吐砍半、改用 region-local sync + cross-region async
寫吞吐 > 50K WPS + 容忍 sub-second loss — async 即可

LSN + Replication Slot：PG 的進度追蹤機制

PG 每個 WAL 寫入都標 LSN（64-bit byte offset）。Standby 紀錄 已收到 / 已 flush / 已 replay 的 LSN、primary 透過 streaming protocol 知道每個 standby 進度。

Replication slot 是 primary 端的 standby 進度紀錄：

1-- 建 physical replication slot（給 streaming replication 用）
2SELECT * FROM pg_create_physical_replication_slot('standby1_slot');
3
4-- 查 slot 狀態
5SELECT slot_name, active, restart_lsn, confirmed_flush_lsn,
6       pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) AS lag
7FROM pg_replication_slots;

Slot 的核心責任：

防 WAL premature deletion：standby 失聯（restart / network blip）、primary 仍保留 slot 對應 LSN 之後的 WAL、standby 重連可繼續 stream
無需 base backup re-build：跟沒 slot 的 standby 對比、有 slot 的 standby 失聯後重連、不用重建

Slot 跟 wal_keep_size：

wal_keep_size（PG 13+）/ wal_keep_segments（< 13）：minimum WAL 保留量、不依賴 slot
Slot 是 動態保留：直到 slot 的 standby 推進 LSN 才釋放對應 WAL
兩者組合：wal_keep_size 是底線、slot 是 standby-specific 動態保留

Standby 配置（用 slot）：

1# standby1 postgresql.conf
2primary_conninfo = 'host=primary.example.com port=5432 user=replication password=...'
3primary_slot_name = 'standby1_slot'   # 用 primary 上預先建的 slot
4hot_standby = on                       # 讓 standby 接受 read query

standby.signal 空檔案在 PG_DATA 內、告訴 PG 這是 standby、進入 recovery mode。

配置 step-by-step（sync streaming + slot）

實務最常見組合：sync streaming + replication slot + cross-AZ replica。

Step 1：Primary 配置

 1# postgresql.conf
 2wal_level = replica
 3max_wal_senders = 10
 4max_replication_slots = 10
 5synchronous_commit = on
 6synchronous_standby_names = 'FIRST 1 (standby1, standby2)'
 7wal_keep_size = 1024MB
 8
 9# pg_hba.conf — 允許 replication 連線
10host replication replication 10.0.0.0/16 scram-sha-256

Restart primary 套用。

Step 2：建 replication user + slot

1CREATE USER replication WITH REPLICATION PASSWORD '...';
2SELECT * FROM pg_create_physical_replication_slot('standby1_slot');
3SELECT * FROM pg_create_physical_replication_slot('standby2_slot');

Step 3：Standby base backup

1# 在 standby 上跑
2pg_basebackup -h primary.example.com -D /var/lib/postgresql/data \
3  -U replication -P -X stream \
4  -S standby1_slot -R
5# -R: 自動生成 standby.signal + primary_conninfo
6# -X stream: 邊 backup 邊 stream 增量 WAL（避免 backup 期間 WAL gap）

Step 4：Standby 啟動

1# standby /var/lib/postgresql/data/postgresql.auto.conf 已有：
2# primary_conninfo = 'host=primary.example.com user=replication password=... application_name=standby1'
3# primary_slot_name = 'standby1_slot'
4
5pg_ctl -D /var/lib/postgresql/data start

Step 5：驗證

1-- Primary: 確認 standby 連上
2SELECT application_name, state, sync_state, write_lag, flush_lag, replay_lag
3FROM pg_stat_replication;
4-- 應顯示 standby1 / streaming / sync / 各 lag
5
6-- Standby: 確認在 recovery + 收到 WAL
7SELECT pg_is_in_recovery(), pg_last_wal_receive_lsn(), pg_last_wal_replay_lsn();

5 個 Production 踩雷

1. Standby lag 暴衝 — Single replay process bottleneck

PG standby 是 single startup process 套用 WAL（不像 MySQL multi-thread replication）、primary 高並發寫入時 standby 跟不上、lag 從 < 100ms 飆到分鐘級。常見觸發：批次 UPDATE / DELETE、大 transaction、index 建立、autovacuum 大量 dead tuple cleanup。

修法：

Parallel WAL apply（PG 14+）：max_parallel_workers_per_gather 增加 background worker、但仍受 startup process 主導
對 read scaling 場景接受 standby lag、application 用 primary read 對 latency-critical query
Cascading replication 對 high-fan-out 解決 sender CPU bottleneck、但 standby replay 仍 single-thread

監控：pg_stat_replication.replay_lag 是 最後一個 commit 到 standby replay 的時間差、超過 threshold 即告警。

2. Sync standby 失聯時 primary commit 卡住

synchronous_standby_names = 'FIRST 1 (standby1)' + standby1 down → primary commit 等永遠。Application 全部 timeout。

修法：

用 ANY N quorum：synchronous_standby_names = 'ANY 1 (standby1, standby2)' — 任一 standby ack 即可
設多 standby、防單一失聯
監控 sync standby 健康、自動 failover 切 sync mode 到其他 standby（Patroni 自動做）
緊急情況：在 primary 跑 ALTER SYSTEM SET synchronous_standby_names = ''; SELECT pg_reload_conf(); 暫時退 async（接受 data loss risk）

3. Orphan replication slot — Primary disk 爆

Standby 失聯（永久故障 / 重 decommission 但忘了 drop slot）、primary slot 持續保留 WAL、pg_wal/ 累積到 disk 滿、primary 也掛。

修法：

監控 pg_replication_slots.active — false 持續 > N 小時是警訊

監控 slot lag：

1SELECT slot_name, active,
2       pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) AS retained_wal
3FROM pg_replication_slots WHERE retained_wal > 10GB;

設 max_slot_wal_keep_size（PG 13+）— slot 對應 WAL 超過 limit 自動 invalidate slot（standby 之後要 base backup 重來）
DR runbook 紀錄 standby 退役流程 必須包含 pg_drop_replication_slot('xxx')

4. Cascading replication 雪崩

Topology primary → standby1 → standby2 → ...（每層遞迴 stream）。Standby1 startup process 卡住、後續 standby 都被 block、整條 chain 雪崩。

修法：

避免超過 2 層 cascade（primary → tier1 → tier2 是上限）
跨 region 用 region-local tier1 + cross-region tier2、不是長 chain
真的大規模、改用 binlog server style：Citus / PgCat 等中介、或 logical replication 解耦

5. Failover 後 timeline 分歧

Primary 失敗、standby1 promote 為新 primary、其他 standby（standby2 / 3）原本連舊 primary、必須重新連 standby1。但 PG 用 timeline（每次 promotion 增 1）標 WAL 分支、原 standby 的 timeline 跟新 primary 不同。重連時看到 timeline mismatch、報錯。

修法：

pg_rewind 工具：對比新 primary 跟舊 standby 的 timeline 分歧點、把舊 standby 上 新 primary 沒有的 WAL 倒退、然後從分歧點重新跟新 primary 同步
Base backup re-build：對舊 standby 重建 — 慢但保證乾淨
Patroni 自動處理 pg_rewind / base backup 選擇

容量 / cost 對照

配置	寫吞吐影響	Standby overhead	適合 workload
Async streaming + slot	baseline	低（WAL receive + startup）	高吞吐、容忍 sub-second loss
Sync `remote_write` + 1 standby	-5% ~ -10%	同上 + RTT	一般 production、可接受 OS crash 丟
Sync `on` + 1 standby	-10% ~ -20%	同上 + fsync	金融、訂單、不容忍 data loss
Sync `on` + ANY 2 quorum	-15% ~ -30%	同上、跨 AZ	強 durability + multi-AZ HA
Sync `remote_apply` + 1 standby	-20% ~ -40%	同上 + replay	強一致 read on standby（少用、成本高）

跨 AZ sync 通常加 1-3ms、跨 region 加 50-200ms — 寫密集 workload 跨 region sync 通常不划算、改用 region-local sync + cross-region async chain。

整合 / 下一步

Patroni HA

Patroni 是 PG HA 自動 failover 標準、依賴 DCS（etcd / Consul）+ 本文 replication topology。Patroni 自動：

偵測 primary 失聯、promote 適合 standby
處理 timeline 分歧（pg_rewind）
重配 sync standby（避免 sync standby 失聯卡 primary）

Logical Replication + Debezium

Logical replication + Debezium 是 跟 streaming replication 共用 WAL 但不同 abstraction — logical decoding output event、streaming replication output physical bytes。Logical replication slot 跟 physical slot 共存、各自獨立 retention。

PITR + WAL Archiving

PITR + WAL Archiving 用 archive_command 把 WAL ship 到 S3、跟 streaming replication 並行：

Streaming：給 活的 standby（real-time read scaling / HA）
Archive：給 PITR + 新 standby base backup source

兩者使用同一 WAL stream、不衝突。

Connection 路由（PgBouncer + read/write split）

PgBouncer 不做 read/write split（transaction pool 不看 SQL）。Read replica routing 通常用 application-level 或 HAProxy 監控 standby health。

跟 MySQL Replication Topology 對比

維度	PG streaming replication	MySQL replication
進度追蹤	LSN（單一 byte offset）	GTID 或 binlog (file, position)
標準工具	streaming replication（physical）+ logical	binlog ROW format
Sync 機制	`synchronous_commit` + standby names	semi-sync plugin
Quorum	`ANY N` syntax	`rpl_semi_sync_master_wait_for_slave_count`
Replay parallelism	Single startup process	Multi-thread (logical clock / writeset)
Replica routing	PgBouncer 不看 SQL、需外接	ProxySQL 內建 query routing

兩者 high-level 對等、低層機制有顯著差異。詳見 MySQL Replication Topology。

PostgreSQL Online Schema Change：先用 ALTER 內建特性、不能解才 pg_repack / pg-osc

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 online schema change — 先看 PG ALTER 哪些已 fast catalog-only、再看 pg_repack / pg-osc 何時必要。

跟 MySQL 不同：PG 大量 schema change 內建 fast catalog-only 行為、不必走 ghost table tool。MySQL 對應的 gh-ost / pt-online-schema-change 之於 PG 是 少數場景才需要的 escape hatch、不是 standard practice。

寫作 OSC 時必須 先看 PG 自身 ALTER 行為、確認真的需要再上 pg_repack / pg-osc — 否則徒增複雜度。

PG ALTER TABLE 的 fast / slow 分類

1-- ALTER TABLE 的操作大致三類

類 A：Fast catalog-only（< 1 秒、metadata 改）

PG 9.4+ / 11+ 多數 ALTER 已 catalog-only：

ADD COLUMN col TYPE NULL DEFAULT NULL — 直接 metadata、不 rewrite
ADD COLUMN col TYPE NOT NULL DEFAULT （PG 11+）— optimizer 把 default 存在 metadata、舊 row read 時動態返回 default、不 rewrite
DROP COLUMN — metadata 標 dropped、實際 row 不 rewrite（VACUUM 之後逐步清理）
ALTER COLUMN ... SET DEFAULT — metadata
RENAME COLUMN / RENAME TABLE — metadata
ADD CONSTRAINT ... NOT VALID — 標記 constraint 不 validate、之後 VALIDATE CONSTRAINT 才 scan
ALTER COLUMN ... TYPE 同 binary-compat 類型（VARCHAR(10) → VARCHAR(20)、TEXT → VARCHAR 等）— catalog-only

這類 ALTER 直接跑、不必任何工具。

類 B：Lock heavy（rewrites table、production 慎用）

需要 rewrite 整張 table、ACCESS EXCLUSIVE lock 整個 ALTER 期間：

ALTER COLUMN ... TYPE binary 不相容類型（INT → BIGINT 永遠 rewrite、TEXT → INT 也是）— 雖然語意「擴大」、底層 4-byte 跟 8-byte storage 不同、全表 rewrite + ACCESS EXCLUSIVE 不可省
ALTER COLUMN ... SET NOT NULL 對既有 nullable column（要 scan 整 table）
ALTER COLUMN ... DROP IDENTITY
ALTER TABLE ... SET TABLESPACE

這類 ALTER 對大表 production 不能直接跑、要 ghost table tool。

類 C：Concurrent index / online operation（無 table lock）

CREATE INDEX CONCURRENTLY — 不 lock 寫入、background build、慢但安全
REINDEX INDEX CONCURRENTLY（PG 12+） — 同上
DROP INDEX CONCURRENTLY — 短 ACCESS EXCLUSIVE lock 只在最後 swap

何時需要 ghost table tool

只在以下場景才需要 pg_repack / pg-osc：

Rewrite-required type change（類 B ALTER COLUMN TYPE）對大表
VACUUM FULL 替代：pg_repack 比 VACUUM FULL 安全（不 lock 整表）
Bloat 重組：大表 dead tuple 累積、想完整 rewrite

對「add column」「drop column」「create index」等場景 PG 內建 fast 已夠、不必 ghost table tool。

Tool 1：pg_repack — Trigger-based + 雙 table swap

pg_repack 是 PG community 標準 online table rewrite 工具：

1pg_repack -h primary.example.com -p 5432 -d production -U postgres \
2  --table=orders --no-superuser-check

Mechanism：

CREATE repack.table_ 跟原表同 schema
在原表加 3 個 trigger：INSERT / UPDATE / DELETE → 寫入 log table repack.log_
從原表 INSERT INTO repack.table_ SELECT * FROM original 複製 row
邊複製邊 apply log table 紀錄的變更
切換：rename 原表 → original_old、rename repack.table_ → original（atomic）
Drop 舊原表跟 trigger / log

Trade-off：

Trigger overhead：每個 primary 寫入加 trigger 執行（10-30% 寫吞吐降）
FK 處理：需要 drop & re-create FK referencing original table（pg_repack 自動處理但有 lock window）
適用 PG-version 綁定 — pg_repack 13 不能對 PG 14 cluster 跑

配置：

1-- Primary 安裝
2CREATE EXTENSION pg_repack;

1# Repack orders
2pg_repack -d production --table=orders
3# 監控 lock：另一 session 跑 SELECT * FROM pg_stat_activity

Tool 2：pg-osc / pg-online-schema-change — WAL-shipping style

pg-osc（Shayon Mukherjee、2023）是較新的工具、模仿 gh-ost mechanism：

Mechanism：

用 logical replication slot 從 primary WAL stream 變更
CREATE shadow table + 套 ALTER 變更
Stream WAL event 同步 shadow table（不靠 trigger）
完成後 swap

Trade-off：

Primary 寫入 overhead：0（WAL 已存在）
比 pg_repack 較新（社群驗證度低）
適合 trigger overhead 不可接受 的高吞吐 production

配置：

1# 用 gem install
2gem install pg_online_schema_change
3
4# Run
5pg-online-schema-change perform \
6  --alter-statement="ALTER TABLE orders ADD COLUMN status VARCHAR(20)" \
7  --schema=public \
8  --dbname=production \
9  --host=primary.example.com

配置 step-by-step（pg_repack 為主）

實務多數 PG OSC 用 pg_repack。pg-osc 是 high-write-throughput escape hatch。

Step 1：安裝 + 確認版本

1-- 安裝 pg_repack（versioned）
2CREATE EXTENSION pg_repack;
3SELECT * FROM pg_available_extensions WHERE name = 'pg_repack';
4-- 確認 installed_version 跟 PG major version 對齊

Step 2：跑 pg_repack

1pg_repack -h primary -d production -U postgres \
2  --table=orders \
3  --jobs=4 \                       # 並行 worker
4  --wait-timeout=60 \              # 等 lock 超時（秒）
5  --no-kill-backend                # 不主動 kill 卡 lock 的 query

Step 3：監控

1-- 看 pg_repack 進度
2SELECT pid, query, state, wait_event_type, wait_event
3FROM pg_stat_activity
4WHERE query LIKE '%repack%';
5
6-- 看 lock 狀態
7SELECT * FROM pg_locks WHERE relation IN (
8  SELECT oid FROM pg_class WHERE relname IN ('orders', 'repack.table_xxx')
9);

Step 4：驗證

1-- 跑完後對比 row count + 抽樣 query
2SELECT count(*) FROM orders;
3-- 跟 pg_repack 之前 count 對比

5 個 Production 踩雷

1. ALTER 直接跑沒看是不是 fast 變 lock heavy

ALTER TABLE orders ADD COLUMN status VARCHAR(20) NOT NULL DEFAULT 'pending' — 預期 catalog-only（PG 11+）、但若 PG 10 跑這個就會 rewrite 整表、ACCESS EXCLUSIVE lock 幾小時。

修法：

寫 schema migration 前 確認 PG version
看 PG ALTER doc、each subcommand 標 Note 段是否 fast
Production 跑前 staging 測 + 監控 pg_stat_activity lock wait

2. VACUUM FULL 誤用 — Production downtime

VACUUM FULL 等於「rewrite 整表 + ACCESS EXCLUSIVE lock」。Production 跑 = 表變 unavailable 幾分鐘到幾小時。

修法：

永遠用 pg_repack 取代 VACUUM FULL（除非 maintenance window）
對 bloat 議題、定期跑 pg_repack
autovacuum tuning 第一優先（autovacuum-tuning 詳細）

3. pg_repack version mismatch

PG cluster 升 14、但 pg_repack extension 還是 13 版本。試 ALTER 跑 pg_repack 命令、ERROR: program "pg_repack 14.x" does not match installed extension "pg_repack 13.x"。

修法：

升 PG cluster 後 立即 ALTER EXTENSION pg_repack UPDATE
若 pg_repack 還沒釋出對應 PG 版本（早期升級）、暫時用 pg-osc 替代或等待
升級 runbook 紀錄 pg_repack 是 必同步升級的 extension

4. CREATE INDEX CONCURRENTLY 失敗清理

CREATE INDEX CONCURRENTLY 跑到一半被 cancel（用戶 Ctrl-C / connection drop）、產生 invalid index：

1SELECT indexrelid::regclass FROM pg_index WHERE NOT indisvalid;
2-- 顯示一個 idx_orders_status_invalid

Invalid index 仍佔 disk、但 optimizer 不會用。

修法：

跑 DROP INDEX CONCURRENTLY idx_orders_status_invalid
之後重新 CREATE INDEX CONCURRENTLY
避免在 connection 不穩的 session 跑長時間 CREATE INDEX CONCURRENTLY、改用 cron 或 deploy pipeline

5. Generated stored column 不能 online ADD

ADD COLUMN total NUMERIC GENERATED ALWAYS AS (price * qty) STORED — stored generated column 必須 rewrite 整表計算 column value、不是 catalog-only。

修法：

用 GENERATED ALWAYS AS (...) VIRTUAL（PG 18+）— 不存實際 value、catalog-only

或 先加 nullable column + backfill + 加 NOT NULL constraint：

1ALTER TABLE orders ADD COLUMN total NUMERIC;
2UPDATE orders SET total = price * qty WHERE id BETWEEN ...;  -- chunked
3ALTER TABLE orders ALTER COLUMN total SET NOT NULL;
4-- 之後加 trigger 或 application 層維護 total

或用 pg_repack 跑 rewrite ADD GENERATED STORED

容量 / 時間估算

對 100 GB 表、ADD COLUMN 加 index 為例：

操作	時間	Lock 影響
`ADD COLUMN col TYPE NULL` (PG 11+)	< 1 秒	ACCESS EXCLUSIVE（毫秒級）
`ADD COLUMN col TYPE NOT NULL DEFAULT 0` (PG 11+)	< 1 秒	ACCESS EXCLUSIVE（毫秒級）
`CREATE INDEX CONCURRENTLY`	2-6 小時	無 table lock
`pg_repack table`	4-8 小時	短 ACCESS EXCLUSIVE（swap）
`ALTER COLUMN TYPE` rewrite	4-8 小時	ACCESS EXCLUSIVE 全程
`VACUUM FULL`	同 pg_repack	ACCESS EXCLUSIVE 全程（不要跑）

跟 MySQL gh-ost / pt-osc 對照

維度	PG pg_repack	PG pg-osc	MySQL gh-ost	MySQL pt-osc
機制	Trigger + log table	WAL logical stream	Binlog stream	Trigger + log table
Primary 寫 overhead	中（trigger）	0（WAL 已存在）	0（binlog 已存在）	中（trigger）
Throttle 支援	部分	支援	強	部分
Pause / Resume	不支援	不支援	支援	不支援
工具成熟度	高	中（2023+）	高	高
Use case 比例	PG 主流（90% case）	高吞吐 escape hatch	MySQL 主流（dev）	MySQL legacy + FK

PG OSC tool 使用頻率比 MySQL 低 — 因為 PG 內建 fast ALTER 已 cover 90% schema change、ghost table tool 只對 少數 rewrite-required 場景。

詳見 MySQL Online Schema Change Tools — sibling、不同 use case mix。

跟其他模組整合

跟 Replication topology

ALTER TABLE / pg_repack / pg-osc 都產生 WAL、會 replicate 到 standby。Standby 上的 long-running query 可能跟 ALTER 衝突、被 hot_standby_feedback 影響 primary autovacuum。詳見 Replication Topology。

跟 Autovacuum Tuning

Schema change 後常產生 dead tuple、autovacuum 需要重新 cover。詳見 Autovacuum Tuning。

跟 Logical Replication

logical replication 透過 publication / subscription 同步 — DDL 不會 logical replicate（PG 16 之前）、必須 在 publisher / subscriber 各自跑 DDL。詳見 Logical Replication + Debezium。

跟 Patroni HA

Patroni promote 新 primary 後、pg_repack extension state（slot / catalog）跟著走、新 primary 仍可繼續 pg_repack。詳見 Patroni HA。

何時用哪個

情境	選擇
ADD COLUMN nullable / DROP COLUMN / RENAME 等	直接 ALTER（fast catalog-only）
CREATE INDEX 大表	`CREATE INDEX CONCURRENTLY`
ALTER COLUMN TYPE rewrite（大表）	pg_repack
Bloat 重組	pg_repack
高吞吐 + trigger overhead 不可接受	pg-osc
ADD GENERATED STORED column	nullable + backfill + constraint
Cluster on Cloud（RDS / Aurora）	RDS / Aurora 內建 fast DDL 多數已 cover、pg_repack 視 vendor 支援

PostgreSQL Connection Scaling：process-per-connection model 跟為什麼 pooler 是必裝

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 connection scaling 的根因 — 為什麼 PG 比多數 DB 更需要 pooler、跟 pgbouncer-config 是 根因 vs 配置 的關係。

Connection-per-Process Model 是 PG 的結構性選擇

PG 接受 client connection 時的行為跟多數現代 DB 不同：每個 connection 由 postmaster fork() 一個獨立的 OS process（backend）來服務。這個 process 在 connection lifetime 內專屬該 client、不跟其他 client 共享。

對比常見 DB 的 connection model：

Vendor	Connection model	每 connection 資源
PostgreSQL	Process-per-connection（fork）	5-15MB RAM、獨立 PID
MySQL	Thread-per-connection	256KB-2MB RAM、共享 process
Oracle	Shared server / dedicated 可選	配置決定
SQL Server	Thread-per-connection（pooled）	~512KB
MongoDB	Thread-per-connection	~1MB

PG 選 process 不選 thread 是 1990s 設計決定 — 當時 thread library 在多 UNIX 平台不穩定、process 隔離性更好（一個 backend crash 不會帶倒整個 DB）。這個 trade-off 一路保留到今天、是 PG 在 high-connection-count workload 的 結構性負擔。

量化：connection 數量對 RAM 跟 CPU 的壓力

一個 PG backend process 的 RAM footprint 由三部分組成：

1backend_rss ≈ shared_buffers_attach + process_private + work_mem 高水位

shared_buffers 是所有 backend 共享的、不重複計、但 process_private（catalog cache / plan cache / temp buffer）跟 work_mem 是 per-backend：

Workload 類型	process_private	work_mem 高水位	單 backend RAM
Idle / 簡單 OLTP	3-5MB	4MB	7-9MB
中等 query（join / sort）	5-8MB	16-64MB	21-72MB
Heavy analytical（CTE / window）	8-15MB	256MB+	264MB+

500 個 connection、平均 30MB 各 ≈ 15GB RAM 給 backend processes（還沒算 shared_buffers）。這是 PG 在 cloud instance 上很快撞到 RAM ceiling 的根因。

CPU 層面、fork() 系統呼叫在 Linux 通常 1-3ms、context switch ~3-5μs。100 connection burst 在 1 秒內進來、accumulated fork cost 100-300ms、加 query 本身的 CPU 跟 scheduler latency、平均 query 延遲會跳 2-5x。

三個 GUC 互動：max_connections / shared_buffers / work_mem

PG 的 memory 規劃由這三個 GUC 互動決定、不能獨立調：

1total_RAM ≈ shared_buffers + (max_connections × work_mem 高水位) + OS overhead

實務 sizing 規則（16GB instance、OLTP workload）：

GUC	建議值	理由
`shared_buffers`	25% RAM（4GB）	太大 OS file cache 收益遞減、< 25% wastes RAM
`work_mem`	8-32MB	每 query operation 用一份、不是每 connection 一份
`max_connections`	100-200	超過 200 需 pooler、不是調更大
`effective_cache_size`	50-75% RAM	planner 估 cost 用、不是實際配置
`maintenance_work_mem`	64-512MB	VACUUM / CREATE INDEX 用

max_connections = 1000 是常見 anti-pattern — 真實 active query 可能只 50-100、剩下都 idle、但每個還是吃 RAM 跟 process slot、context switch overhead 還在。

Pooler 為什麼是 production prerequisite

本段是「為什麼必裝」、實際 PgBouncer 配置看 pgbouncer-config。

Pooler 的核心責任是 把 N 個 application connection multiplex 成 M 個 PG backend（M ≪ N）：

1Application (3000 connection)
2   ↓
3Pooler（PgBouncer / PgCat）
4   ↓
5PostgreSQL (50 backend process)

Application 看到的是 無限 connection 池、PG 看到的是 穩定 50 個 backend。三個層次的效益：

RAM 節省：3000 connection × 30MB = 90GB → 50 backend × 30MB = 1.5GB
Fork() cost 攤平：backend 重用、不是每個 client 都 fork
Connection storm 緩衝：application 重啟 / scaling event 不會直接打到 PG

Pooler 有三種 pool mode、各有 application 層相容性 trade-off：

Pool mode	Session 隔離	適用 application	PG feature 限制
Session	每 client 獨佔 1 backend	用 prepared statement、SET、temp table	等同沒 pool、僅救 fork cost
Transaction	每 transaction 換 backend	多數 stateless API（最常用）	不能用 session-level state
Statement	每 statement 換 backend	Read-only / analytical	不能用 transaction

Production 多數選 transaction pool — 救 RAM 又保留 transaction semantics、代價是 application 不能用 session-level SET、LISTEN/NOTIFY、prepared statement（部分 pooler 已支援）。

Application-side Pool vs Middleware Pool vs RDS Proxy

三層 pool 都能解 connection 問題、但解的問題不同：

層級	代表	解的問題	限制
Application-side（driver）	HikariCP（Java）/ pgx pool（Go）/ asyncpg / Sequelize	Connection 重用 + lifecycle 管理	仍每 app instance 開 N 個到 PG、總量沒收斂
Middleware pooler	PgBouncer / PgCat	Multiplex 所有 application instance 到少數 backend	多一跳 latency 0.1-1ms、需自管 HA
Cloud-managed proxy	RDS Proxy / Cloud SQL Proxy	Multiplex + IAM auth + Secrets Manager integration	Latency 1-3ms、cost premium、PG feature 受限

典型 production 拓撲：

1Application (HikariCP pool 10/instance × 50 instance = 500)
2   ↓
3PgBouncer transaction pool（50 backend）
4   ↓
5PostgreSQL primary

Application pool 救 fork cost、PgBouncer 救 backend 總量、兩層各做各的事不衝突。

雙層 pool 配置容易出錯：application pool size 5 + PgBouncer default_pool_size 50 + 100 個 app instance、application 願意開 500 connection、PgBouncer 只給 50 個 backend — 多 450 個 application connection wait、看起來像「DB 慢」但實際是 pool 不足。

5 個 Production 踩雷

Case 1：Connection storm（重啟 / autoscale 同時打進來）

情境：Kubernetes rolling restart、200 個 pod 同時重連、每 pod 開 20 個 connection、瞬間 4000 個 connection 嘗試打到 PG。

PG max_connections = 500 直接拒絕 3500 個、application 看到 FATAL: sorry, too many clients already、retry storm 雪上加霜。

修法：

PgBouncer 在前面、application 連 PgBouncer 不直連 PG
reserve_pool_size = 5 給管理流量留 buffer
Application 端加 jittered exponential backoff、避免 retry 同步

Case 2：fork() cost 在 burst 流量

情境：Cron job 每分鐘整點觸發、500 個 worker 同時開 short-lived connection 跑 30ms query、結束關閉。

每分鐘 500 次 fork() + 500 次 exit()、fork cost 500-1500ms、CPU spike、其他 OLTP query 延遲飆。

修法：

Worker 改 connect 到 PgBouncer transaction pool、backend 重用、fork 只在 PgBouncer 首次拓展時
或 worker 改成 long-lived process + 內部 task queue、避免每分鐘重 fork

Case 3：shared_buffers 跟 max_connections 互相壓縮

情境：16GB instance、shared_buffers = 8GB（50%）、max_connections = 800、work_mem = 16MB。

預估 RAM：8GB + 800 × ~30MB = 32GB ≫ 16GB instance、OOM kill 來訪。

修法（重新分配）：

1shared_buffers = 4GB           # 25%
2max_connections = 200          # 透過 PgBouncer multiplex
3work_mem = 16MB
4effective_cache_size = 12GB
5maintenance_work_mem = 512MB

關鍵：max_connections 不是調更大救 connection 不足、是調 PgBouncer pool size 拓展 application 容量。

Case 4：Double-pool 配置失敗

情境：Application HikariCP pool size = 50、50 個 instance、PgBouncer default_pool_size = 20、PG max_connections = 100。

Application 願意開 2500 個 connection、PgBouncer 只給 20 個 backend、application thread 大量 block 在 PgBouncer 等 backend 釋出。

修法：

計算 application 願意的並發 vs PgBouncer 允許的 backend vs PG max_connections 三層匹配
通常 application_total_connection ≪ pgbouncer_max_client_conn + pgbouncer_default_pool_size + reserve ≪ pg_max_connections
Monitor PgBouncer SHOW POOLS 的 cl_waiting、長期 > 0 表示 pool 不足

Case 5：max_connections 設太大反而慢

情境：team 看到 connection refused、把 max_connections 從 200 調到 2000、想說「給更多 connection 應該更好」。

調完 throughput 反而降 30% — context switch overhead、planner cache 競爭、lock manager 競爭都跟 connection 數線性放大。

修法：

max_connections 上限通常 200-500、超過要靠 pooler multiplex
用 pg_stat_activity 看真實 active connection（state != ‘idle’）、通常 < 100
真實上限 = active 高水位 × 安全係數 1.5、不是「未來可能會用到的數量」

跟 MySQL connection model 對比

維度	PostgreSQL	MySQL
Connection 模型	Process-per-connection（fork）	Thread-per-connection
單 connection RAM	5-15MB（idle）/ 30-200MB（heavy）	256KB-2MB
Fork / spawn cost	1-3ms	< 100μs
Pooler 必要性	強烈必要（300+ connection 必裝）	中等（ProxySQL 對特定 case 有用）
主流 pooler	PgBouncer / PgCat	ProxySQL / MySQL Router

MySQL thread-per-connection model 讓它在 high-connection-count workload 上 看起來 更省 — 但 PG 透過 PgBouncer 達到的 application 看到的容量跟 MySQL 直連是一樣的、只是多一層 indirection。

實務影響：

MySQL 直連 1000 connection 還 OK、PG 直連 1000 connection 通常 OOM
PG + PgBouncer 1000 application connection、後端 50 backend、表現跟 MySQL 1000 直連相當
沒有 PG 更耗 RAM 的本質結論、是 PG 預設不 multiplex、需要外掛 multiplex 層

PG 17+ 的 connection 進展

PG 17（2024）對 connection 仍維持 process-per-connection、但有幾個減壓改進：

Per-process memory 降低：catalog cache 改 generational allocator、idle backend RAM 降 ~20%
Subscriber-side parallel apply：logical replication 減少 connection 開銷
io_combine_limit：buffered read 合併、降 syscall overhead

但 process-per-connection model 本身 沒換 — 短期內 PG 仍需 pooler。長期方向（PG 18+ 討論）可能引入 thread-based backend、但目前是 experimental patch。

下一步

連到 pgbouncer-config 學配置細節
看 PostgreSQL overview 回到全圖

PostgreSQL Index Selection：B-tree / GIN / GiST / BRIN / Hash 對應 workload 的決策樹

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 index 選型 — 何時用哪種 index、跟 query-optimization 的「為什麼這個 plan 慢」互補。

6 種 Index Method 對應 Workload

PG 有 6 種 index access method、各有自己擅長的 query pattern：

Index method	適用 query pattern	典型 column type	儲存成本
B-tree	`=` / `<` / `>` / `BETWEEN` / `IS NULL` / `LIKE 'prefix%'`	任何 scalar、最常用	中
Hash	純 `=` 比對	scalar、不常用	低
GIN	`@>` / `?` / `?	` / FTS / array 包含	JSONB / tsvector / array	高（write 慢）
GiST	範圍 / 空間 / 自訂 operator	geometry / tsvector / range	中
SP-GiST	Non-balanced 樹結構	IP / phone prefix / quad-tree	中
BRIN	大表的 range scan、physical order 跟 logical order 相關	timestamp / id（append-only）	極低

選錯 index 的代價：

Write workload：每 write 都更新所有相關 index、5 個 unused index = 5x write 放大
Storage：JSONB 加 GIN 可能比表本身還大
Plan misjudge：planner 看到 index 不一定用、EXPLAIN 才確認

B-tree：預設選擇、95% workload 適用

B-tree 是 PG 預設 index、CREATE INDEX 不指定 method 就是 B-tree：

1CREATE INDEX idx_orders_user_id ON orders (user_id);
2CREATE INDEX idx_orders_created_at ON orders (created_at);

B-tree 擅長的 query：

 1-- 等值
 2SELECT * FROM orders WHERE user_id = 42;
 3
 4-- 範圍
 5SELECT * FROM orders WHERE created_at BETWEEN '2025-01-01' AND '2025-01-31';
 6
 7-- IS NULL
 8SELECT * FROM orders WHERE shipped_at IS NULL;
 9
10-- Prefix LIKE
11SELECT * FROM products WHERE sku LIKE 'ABC%';

B-tree 不擅長：

LIKE '%suffix'（前綴 wildcard）→ 改 trigram + GIN
column @> array（包含）→ 改 GIN
JSON 內部 path query → 改 GIN on JSONB

Multi-column B-tree 的順序很重要：

1-- 假設常 query: WHERE user_id = ? AND status = ?
2CREATE INDEX idx_orders_user_status ON orders (user_id, status);  -- 對
3CREATE INDEX idx_orders_status_user ON orders (status, user_id);  -- 錯（status 選擇性低）

順序原則：

等值 column 在前（高選擇性）
範圍 column 在後（B-tree leftmost 規則）
selectivity 高的在前（filter 更多 row）

GIN：JSONB / FTS / Array 的標配

GIN（Generalized Inverted Index）對「一個 value 內含多個 sub-element」的 column 高效：

 1-- JSONB
 2CREATE INDEX idx_products_metadata ON products USING GIN (metadata);
 3
 4-- Array
 5CREATE INDEX idx_articles_tags ON articles USING GIN (tags);
 6
 7-- Full-text search
 8CREATE INDEX idx_articles_content ON articles USING GIN (to_tsvector('english', content));
 9
10-- Trigram（fuzzy match）
11CREATE EXTENSION pg_trgm;
12CREATE INDEX idx_products_name_trgm ON products USING GIN (name gin_trgm_ops);

GIN 代價：

Write 慢 2-10x：每個 sub-element 都要更新 inverted index
Storage 大：可能比表還大
Vacuum 沉重：bloat 累積快

Operator class 選擇影響大：

Op class	適用	索引大小	支援 operator
`jsonb_ops`（預設）	通用	大	`@>` / `?` / `?	`/`?&`
`jsonb_path_ops`	只 `@>` containment	1/3-1/2	只 `@>`

只用 @> query 時、jsonb_path_ops 救大量 storage。

GiST：範圍 / 空間 / 自訂

GiST（Generalized Search Tree）擅長範圍跟空間：

1-- 範圍 type（PostgreSQL 內建 int4range / tsrange 等）
2CREATE INDEX idx_bookings_period ON bookings USING GiST (period);
3
4-- 空間（PostGIS）
5CREATE INDEX idx_locations_geom ON locations USING GiST (geom);
6
7-- Exclusion constraint（範圍不重疊）
8ALTER TABLE bookings ADD CONSTRAINT no_overlap
9EXCLUDE USING GiST (room_id WITH =, period WITH &&);

GiST vs GIN 對 FTS 的選擇：

維度	GIN	GiST
Lookup 速度	快 3x	慢
Update 速度	慢 3x	快
索引大小	大	小
適合場景	Read-heavy FTS	Write-heavy / 即時更新

多數 FTS workload 選 GIN — read 占多、index size 換 query latency 划算。

BRIN：大表 + Physical Order Correlated

BRIN（Block Range Index）對 physical 儲存順序跟 logical 順序強相關 的 column 高效：

1-- timestamp column（append-only insert、physical 順序 = 時間順序）
2CREATE INDEX idx_events_created_at ON events USING BRIN (created_at);

BRIN 機制：每個 block range（預設 128 page）記 min/max、query 時跳過 range 外的 block。

適用場景：

append-only 表：log、metrics、events
大表（10GB+）：B-tree 太貴、BRIN 1/1000 大小
column physical order 跟 query 一致：時間欄、自增 id

BRIN 失效情境：

UPDATE 破壞 physical order（row 被 vacuum 移到別 block）→ BRIN 失效
隨機 insert（uuid / hash id）→ BRIN range 完全沒選擇性

何時不該用 BRIN：表 < 1GB（沒省 storage 收益）、column 沒 physical order correlation（CLUSTER 後可能改善）。

Partial Index：條件式 index 救 storage

對 只 query 部分 row 的 column、partial index 救大量 storage：

 1-- 只 index unshipped order
 2CREATE INDEX idx_orders_unshipped ON orders (created_at)
 3WHERE shipped_at IS NULL;
 4
 5-- 只 index active user
 6CREATE INDEX idx_users_active ON users (email)
 7WHERE status = 'active';
 8
 9-- 只 index 高金額 transaction
10CREATE INDEX idx_orders_high_value ON orders (user_id)
11WHERE total > 1000;

Partial index 的 query 要 完全匹配 WHERE 條件 才用得到：

1-- 用得到 partial index
2SELECT * FROM orders WHERE shipped_at IS NULL AND created_at > '2025-01-01';
3
4-- 用不到（planner 不 prove WHERE 包含 partial 條件）
5SELECT * FROM orders WHERE created_at > '2025-01-01';

實務 size 救法：unshipped order 只 1% 總量、partial index 1/100 大小。

Expression Index：對函式結果 index

 1-- 對 lowercased email index（case-insensitive search）
 2CREATE INDEX idx_users_email_lower ON users (lower(email));
 3SELECT * FROM users WHERE lower(email) = lower('USER@example.com');
 4
 5-- 對 JSONB 內部欄位
 6CREATE INDEX idx_products_category ON products ((metadata->>'category'));
 7SELECT * FROM products WHERE metadata->>'category' = 'shoes';
 8
 9-- 對日期截斷
10CREATE INDEX idx_orders_day ON orders (date_trunc('day', created_at));

Expression 必須 IMMUTABLE — now() / random() 不能用、timezone('UTC', ts) 可以。

Covering Index（INCLUDE）：避免回表

PG 11+ 支援 INCLUDE column：

1-- 只 index user_id、但 query 常要 email
2CREATE INDEX idx_users_user_id_covering ON users (user_id) INCLUDE (email);
3
4-- Index-only scan：不用回表
5SELECT email FROM users WHERE user_id = 42;

INCLUDE column 不參與 sorting / equality、只放 leaf node、救 IO。

Index 選擇決策樹

 1Query pattern 是什麼？
 2
 3├─ 等值 / 範圍 / prefix LIKE / IS NULL
 4│  └─ B-tree（90% 場景）
 5│     ├─ 只 query 部分 row？→ Partial B-tree
 6│     ├─ 對函式結果？→ Expression B-tree
 7│     └─ 需要回表更多 column？→ Covering（INCLUDE）
 8│
 9├─ JSONB 內部 query / array 包含 / FTS
10│  └─ GIN
11│     ├─ 只用 @>？→ jsonb_path_ops 救 storage
12│     └─ FTS write-heavy？→ 改 GiST
13│
14├─ 範圍 type（int4range / tsrange）/ 空間
15│  └─ GiST
16│
17├─ 大表 + append-only + physical order correlated
18│  └─ BRIN
19│
20├─ 純 equality + 簡單 column
21│  └─ Hash（很少用、B-tree 通常更好）
22│
23└─ Non-balanced 樹（IP prefix / quad-tree）
24   └─ SP-GiST（罕見）

5 個 Production 踩雷

Case 1：過度 index（write 放大）

情境：team「為了 query 快」對 20 個 column 各建 index、寫入量大時 INSERT 慢 10x。

每個 INSERT 要更新 20 個 index、WAL volume 也跟著放大、replication lag 拉長。

修法：

用 pg_stat_user_indexes 找 idx_scan = 0 的 index、可能根本沒用
用 pg_stat_statements 找實際被執行的 query、反推真正需要的 index
同 column 多 index（user_id 單欄 + (user_id, status) 多欄）通常可拆掉單欄

Case 2：Partial index 條件跟 query 不匹配

情境：建 WHERE status = 'active' partial index、application query 寫 WHERE status IN ('active')、planner 不 prove 等價、不用 index。

修法：

Partial 條件用最 generic form（避免 IN / OR 跟 = 的差異）
寫完用 EXPLAIN 驗證 query 真的用到 partial index
Application 統一 query 寫法、不要混 = 跟 IN 跟 ANY

Case 3：B-tree 對 JSONB 內部欄位無效

情境：對 metadata JSONB column 建 B-tree、query metadata->>'category' = 'shoes' 不用 index。

B-tree 對 整個 JSONB 排序、但 path query 不是整個 JSONB 的比對。

修法：

對固定 path 建 expression index：CREATE INDEX ... ON products ((metadata->>'category'))
對動態 path 建 GIN index：CREATE INDEX ... USING GIN (metadata)
兩者並存可、EXPLAIN 看 planner 選哪個

Case 4：BRIN 對非 correlated 資料無效

情境：對 user_id 建 BRIN index（user_id 是隨機 UUID）、query 完全跑 seq scan。

UUID 沒 physical order correlation、每個 block range 的 min/max 涵蓋整個 ID space、BRIN 完全沒 prune 效果。

修法：

BRIN 只用 timestamp / 自增 id / 其他自然 correlate 的 column
用 pg_stats 看 correlation value、< 0.1 就不適合 BRIN
真要對 random column 加 index、回 B-tree

Case 5：Multi-column index 順序錯

情境：常見 query WHERE status = 'pending' AND user_id = 42、建 index (status, user_id)、效能差。

status 只 5 個 distinct value、選擇性 1/5；user_id 1M distinct、選擇性 1/1M。Index leftmost 是 status、scan range 太大。

修法：

1-- 拆兩個或調順序
2CREATE INDEX idx_user_status ON orders (user_id, status);
3
4-- 或加 partial 限定低選擇性 column
5CREATE INDEX idx_orders_pending ON orders (user_id) WHERE status = 'pending';

跟 MySQL Index 差異

維度	PostgreSQL	MySQL
Index method	6 種（B-tree / Hash / GIN / GiST / SP-GiST / BRIN）	主要 B-tree、空間另算 R-tree
預設	B-tree	B-tree（InnoDB clustered）
Clustered index	沒有原生（CLUSTER 一次性）	InnoDB primary key 永遠 clustered
Covering	INCLUDE（PG 11+）	自然支援（secondary index 帶 PK）
JSON index	GIN on JSONB（強）	functional index on JSON（弱）
Partial index	原生支援	8.0+ 支援（受限）
Expression index	原生支援	5.7+ functional index
BRIN-like	原生	沒有
Spatial	GiST / PostGIS	R-tree（基本）

PG index 系統比 MySQL 表達力高、但代價是 選對 index method 是 application 責任、MySQL 預設 B-tree 多數場景夠用。

下一步

看 query-optimization 驗證 index 有沒有被 plan 用到
回 PostgreSQL overview 看全圖

PostgreSQL Citus Distributed：用 extension 把 PG 變成 sharded cluster

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 Citus distributed extension — 把 PG 變成 sharded cluster 的方式。

當 PG single-primary 寫吞吐撞上單機極限（50K-100K WPS）、選項三條：

Application 層 sharding：應用層自管 shard routing
Citus：PG extension、自動 routing + cross-shard query
Distributed SQL（CockroachDB / Aurora DSQL / Spanner）：不同 engine

選 Citus 的核心 driver：保留 PG SQL syntax + extension 生態。但「應用層幾乎不必改」是樂觀說法 — 實際上 application 必須圍繞 distribution column 重設計（query 加 filter / transaction 限定同 shard / reference table 量控制）、跟 Vitess 比 cross-shard query 自動化弱。代價是 coordinator / worker 部署複雜度 + cross-shard query 限制 + application schema 改造工作量。

閱讀本文前可先對齊 Database Sharding 的 shard key、routing、resharding 與 cross-shard query 語意；容量失衡時再接 Hot Partition。

跟 MySQL Vitess sharding 的核心差異：Citus 是 PG extension（PG 自己跑）、Vitess 是 獨立 proxy + tablet 系統（包 MySQL）。Citus 用 PG 原生機制（FDW / extension hook）、Vitess 是 外部包裝。

Citus 架構：Coordinator + Worker

 1                ┌─────────────────┐
 2   Application  │   Coordinator   │  ← 對外 PG wire protocol、planner、routing
 3                │   (Citus + PG)  │
 4                └────┬─────┬──────┘
 5                     │     │
 6              ┌──────┘     └──────┐
 7              ▼                   ▼
 8        ┌──────────┐         ┌──────────┐
 9        │ Worker 1 │         │ Worker 2 │  ← 各跑 PG + Citus extension
10        │  (PG)    │         │  (PG)    │
11        │ shard 1,3│         │ shard 2,4│
12        └──────────┘         └──────────┘

Coordinator：

對 application 看起來像 PG（同 port / 同 wire protocol）
接 SQL → Citus planner 把 query 分解 + route 給 worker
不存 data（distributed table 的 shard 在 worker 上）
存 metadata（哪個 shard 在哪個 worker）

Worker：

標準 PG instance + Citus extension
各存若干 shard
接 coordinator 來的 query、跑 local execute、回結果

Shard：

Distributed table 拆成 N 個 shard（預設 32）
每 shard 是 worker 上的 physical PG table（含 _ 後綴）
行為跟一般 PG table 一樣、可以直接連 worker 用 PG 工具 access

3 種 Table Type

Distributed table — 跨 shard 切分

 1-- 建一般 PG table
 2CREATE TABLE orders (
 3    id BIGSERIAL,
 4    user_id BIGINT NOT NULL,
 5    amount DECIMAL(10,2),
 6    created_at TIMESTAMP,
 7    PRIMARY KEY (user_id, id)  -- PK 必須含 distribution column
 8);
 9
10-- 用 Citus 把它變 distributed
11SELECT create_distributed_table('orders', 'user_id');

user_id 是 distribution column — Citus 用它的 hash 決定 row 屬哪個 shard。PK 必須含 distribution column（跟 MySQL partitioning 同要求）。

跟 Vitess Vindex 對比：

Citus：hash distribution column → shard（單一 hash function、不可選 algorithm）
Vitess：Vindex 可選多種（hash / lookup_hash / xxhash / null）

Reference table — 全 shard 共有

1CREATE TABLE products (
2    id SERIAL PRIMARY KEY,
3    name VARCHAR(100),
4    price DECIMAL
5);
6
7SELECT create_reference_table('products');

products 在 每個 worker 都有完整 copy、寫入 coordinator 廣播給所有 worker。

用途：

小 lookup table（country code / product category 等）
跨 distributed table JOIN 時、reference table 在每 worker 上、不必 cross-shard
寫入頻率低（廣播 cost 跟 worker 數 linear）

Local table — Coordinator 上的 PG table

1CREATE TABLE audit_log (
2    id SERIAL PRIMARY KEY,
3    event JSONB
4);
5-- 不調用 Citus function、預設留在 coordinator

行為跟一般 PG table 一樣。用於 不需 distribute 的 table（如 admin metadata）。

Colocation：跨 distributed table 同 shard 對齊

當兩個 distributed table 都用 同 distribution column（例如 user_id）+ 同 shard count、Citus 自動 colocate：

1SELECT create_distributed_table('orders', 'user_id');
2SELECT create_distributed_table('user_addresses', 'user_id', colocate_with => 'orders');

Colocate 後：

user_id = 100 的 orders 跟 user_addresses 在 同一 worker shard
JOIN 不跨 worker、效率高
可用 PG 原生 FK constraint（cross-table 但同 shard）

Colocate 是 Citus 設計的核心 跨 table 一致性 機制。沒 colocate 的 cross-table query 變 cross-worker、效率大降。

配置 step-by-step（local cluster）

Production 用 Citus Cloud（Microsoft 託管）或 Azure Cosmos DB for PostgreSQL（同 engine）。Self-hosted：

Step 1：Coordinator + worker 都裝 PG + Citus

1# 在每個 node（coordinator + 2 worker）
2apt install postgresql-14
3apt install postgresql-14-citus-12.0
4
5# postgresql.conf
6shared_preload_libraries = 'citus'
7
8systemctl restart postgresql

1-- 在每個 node 跑
2CREATE EXTENSION citus;

Step 2：Coordinator 註冊 worker

1-- 在 coordinator 跑
2SELECT citus_add_node('worker1.example.com', 5432);
3SELECT citus_add_node('worker2.example.com', 5432);
4
5-- 確認
6SELECT * FROM citus_get_active_worker_nodes();

Step 3：建 distributed table

1CREATE TABLE orders (
2    id BIGSERIAL,
3    user_id BIGINT NOT NULL,
4    amount DECIMAL(10,2),
5    created_at TIMESTAMP,
6    PRIMARY KEY (user_id, id)
7);
8
9SELECT create_distributed_table('orders', 'user_id');

Citus 自動把 orders 拆成 32 個 shard（orders_102008 等）、分配到 worker。

Step 4：Application 連 coordinator

Application connection string 連 coordinator IP / port（不必知道 worker 存在）。

1-- 從 application 跑 query、Citus 透明 route
2INSERT INTO orders (user_id, amount) VALUES (12345, 50);
3-- → Citus 看 user_id=12345 hash 屬 shard 17、route 給對應 worker
4
5SELECT * FROM orders WHERE user_id = 12345;
6-- → Single-shard query、極快
7
8SELECT count(*) FROM orders;
9-- → Cross-shard aggregation、Citus 並行跑、合併結果

5 個 Production 踩雷

1. Distribution column 選錯 — Cross-shard query 變主流

選 created_at 或 id（auto increment）作 distribution column、看起來均勻、實際 application query 多以 user_id 為主、變成 每個 query 都 cross-shard、performance 雪崩。

修法：

Distribution column 選 application 最常 filter / join 的 column（通常是 tenant_id / user_id）
Audit application top query、確認 distribution column 對齊 query pattern
改 distribution column 要 rewrite 所有 shard、像 resharding、大工程

2. Cross-shard transaction 限制

跨多 shard 的 transaction（如：UPDATE 兩個 user_id 不同的 row）Citus 用 2PC（two-phase commit）但有限制：

Multi-statement transaction 跨 shard 需明確開 SET citus.multi_shard_modify_mode = 'sequential'
部分 isolation level 不保證 serializable across shards
DDL 跨 shard 是 sequential

修法：

Schema design 避免 cross-shard transaction（同 colocation group 內 transaction 沒問題）
必要 cross-shard 場景明確設 multi-shard mode
對 strict cross-shard consistency、考慮 distributed SQL（CockroachDB / Aurora DSQL）

3. Reference table 過大 — 寫入廣播 cost 爆

Reference table 在每 worker 都有 copy、寫入 廣播給所有 worker。Reference table 100K row + 高頻寫入 → 寫一次寫 N worker、cost N x。

修法：

Reference table 限 小 + 寫入頻率低 的 lookup data
超大表不該是 reference table、考慮 distributed
監控 reference table 寫入 rate、超 threshold 重新評估

4. Colocate 沒對齊 — 隱性 cross-shard JOIN

1-- 看似可以、實際 cross-shard 慢
2SELECT * FROM orders o JOIN user_addresses ua ON o.user_id = ua.user_id;

若 user_addresses 沒 colocate_with => 'orders'、兩表 shard 分配獨立、JOIN 跨 worker。

修法：

建相關 table 時 colocate_with 對齊
用 SELECT * FROM citus_tables 看 colocation_id、確認對齊
跨非 colocate table 的 JOIN 用 materialized view 或 application 層拆 query 避開

5. Worker failover — Coordinator 必須知道

Worker 故障、Citus 預設 coordinator 看到 query 失敗、不自動 failover。

修法（Citus 11+）：

用 shard replication（citus.shard_replication_factor = 2）— 每 shard 在 2 個 worker 有 copy
配 PG streaming replication 在 worker 層、外加 Patroni 管 failover
Coordinator 失敗 → 整個 cluster 失能、coordinator 也要 HA（Patroni）

跟 Vitess 對比 Citus 的 HA story 較弱、production 必須認真規劃。

何時用 Citus

條件	建議
Multi-tenant SaaS、tenant_id 為自然 distribution	是
寫吞吐 > 50K WPS、單 PG 撐不住	是
需要保留 PG SQL + extension（pgvector / TimescaleDB）	是
應用 query pattern 80% 都用同一 distribution column	是
應用大量 ad-hoc cross-tenant aggregation	否（cross-shard 慢）
強 cross-shard consistency 需求	否（用 CockroachDB）
想 zero-ops managed	Azure Cosmos DB for PostgreSQL（同 engine）

容量規劃

Coordinator: 中等 CPU + RAM、metadata 不大、不存 data
Worker: per-worker spec 同 single PG production
Shard count: 預設 32、實務常設 worker count × 4-8
Replication factor: production 至少 2

跟其他模組整合

跟 Replication topology

Coordinator + worker 各跑 PG streaming replication、Citus 不取代 PG replication。Worker failover 用 Patroni / streaming replication。詳見 Replication Topology。

跟 PG Extensions

Citus 跟其他 PG extension 多數兼容（pgvector / TimescaleDB / pg_stat_statements）— 它維持 extension 形態，保留 PostgreSQL 生態接點。詳見 PG Extension Ecosystem 篇（待寫）。

跟 MySQL Vitess

維度	Citus	Vitess
部署模型	PG extension	獨立 proxy + tablet
主要場景	Multi-tenant SaaS	超大規模分片
Cross-shard JOIN	colocate 對齊 + reference table	VTGate 自動 split + aggregate
FK	同 colocation 內可用	Vitess 18+ 支援、cross-shard 限制
HA	依賴 Patroni + replication factor	VTOrc + replication
學習曲線	中（PG ops 經驗夠）	高（4 component）

Citus 對 PG-native 場景更平順、Vitess 對 MySQL-native 場景更平順、不直接競爭。詳見 MySQL Vitess Sharding。

PostgreSQL SQL Features：PG 早就有的、MySQL 8.0 才補的、PG 仍領先的

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 SQL features baseline — PG 早期就有的、MySQL 8.0 才補的、PG 仍領先的、給從 MySQL 評估 PG 的讀者 reference。

PG SQL 工程深度的歷史錨點

PG 在 SQL feature 上長期領先 MySQL：

2009 (PG 8.4)：CTE / window function / recursive query
2013 (PG 9.3)：lateral derived table / materialized view
2014 (PG 9.4)：JSONB / partial index 早就有 / GIN index
2015 (PG 9.5)：UPSERT (ON CONFLICT)
2017 (PG 10)：declarative partitioning / logical replication / multi-column statistics

MySQL 8.0（2018）才補 CTE / window / lateral / JSON_TABLE / hash join — PG 早 9 年起步。

對 從 MySQL 評估 PG 的讀者來說、PG 的 SQL 工程深度不只是「該有的都有」、更多是「PG 結構性領先的特性 + MySQL 8.0 補了哪些 + PG 仍領先哪些」。

跟 MySQL Modern SQL Features 對比視角：

MySQL 8.0 視角：「我終於補齊 + 跟 PG 對比」
PG 視角：「我長期領先 + MySQL 8.0 才追上某些、其他我仍領先」

PG 結構性領先特性（MySQL 沒對應 / 弱對應）

1. Materialized View

PG 9.3+ 內建 materialized view：

1CREATE MATERIALIZED VIEW orders_summary AS
2SELECT user_id, COUNT(*) AS order_count, SUM(amount) AS total
3FROM orders GROUP BY user_id;
4
5-- 手動 refresh
6REFRESH MATERIALIZED VIEW orders_summary;
7-- 或 concurrent refresh（PG 9.4+、不 lock read）
8REFRESH MATERIALIZED VIEW CONCURRENTLY orders_summary;

用途：

預計算複雜 aggregation、查詢時極快
Concurrent refresh 不 lock read
可建 index on materialized view

MySQL 對應：沒原生 materialized view。常見替代：

Trigger + summary table（手動維護）
Application 層 caching layer
用 view + cache layer（不是 materialization）

MySQL 8.0+ 仍無原生 materialized view。

2. Partial Index

PG 預設支援 partial index — 對 滿足條件的 row 才建 index：

1-- 只對 active user 建 index
2CREATE INDEX idx_users_active_email ON users(email) WHERE status = 'active';
3
4-- Index size 比 full index 小很多、query 性能跟 full index 一樣
5SELECT * FROM users WHERE status = 'active' AND email = 'x@y.com';

用途：

Soft-delete 場景：對 deleted_at IS NULL 建 partial index
Hot subset 場景：對 status = 'pending' 等熱資料建 partial
Index 大小 / 寫入成本大降

MySQL 對應：MySQL 沒原生 partial index。MySQL 8.0+ 有 functional index 但跟 partial 不同。MySQL 替代：

Generated column + index（接近、但維護複雜）
或接受 full index cost

3. Foreign Data Wrapper (FDW)

PG FDW 讓 query 跨外部資料源：

 1CREATE EXTENSION postgres_fdw;
 2
 3CREATE SERVER remote_db FOREIGN DATA WRAPPER postgres_fdw
 4OPTIONS (host 'remote.example.com', dbname 'analytics');
 5
 6CREATE USER MAPPING FOR localuser SERVER remote_db
 7OPTIONS (user 'remoteuser', password '...');
 8
 9CREATE FOREIGN TABLE remote_orders (id INT, ...) SERVER remote_db OPTIONS (table_name 'orders');
10
11-- 在 local PG query remote table
12SELECT * FROM remote_orders WHERE id = 100;

支援 FDW：postgres_fdw / mysql_fdw / oracle_fdw / mongo_fdw / file_fdw / redis_fdw 等。

MySQL 對應：MySQL 8.0+ 有 FEDERATED engine（受限、不推薦）。實務上 MySQL 跨 DB query 用 application 層處理。

4. JSONB + GIN Index（PG 結構性優勢）

PG JSONB 是 binary 儲存 + 可 直接 GIN index：

 1CREATE TABLE products (
 2    id SERIAL PRIMARY KEY,
 3    metadata JSONB
 4);
 5
 6-- GIN index over JSONB
 7CREATE INDEX idx_products_metadata ON products USING GIN (metadata);
 8
 9-- 快 query
10SELECT * FROM products WHERE metadata @> '{"category": "shoes"}';
11SELECT * FROM products WHERE metadata @? '$.variants[*].price > 100';

MySQL 對應：MySQL 8.0 JSON_TABLE 是 SQL standard、但 index 必須 generated column workaround（不能 GIN index over JSON）。

詳見 MySQL Modern SQL Features JSON_TABLE vs PG JSONB 對比段。

5. Range Types + Exclusion Constraints

PG range types + exclusion constraints 防止 時間範圍重疊：

 1CREATE TABLE reservations (
 2    id SERIAL PRIMARY KEY,
 3    room_id INT,
 4    during TSRANGE,
 5    EXCLUDE USING GIST (room_id WITH =, during WITH &&)
 6);
 7
 8-- INSERT 重疊 booking 自動 reject
 9INSERT INTO reservations (room_id, during)
10VALUES (1, '[2026-05-19 10:00, 2026-05-19 12:00)');
11INSERT INTO reservations (room_id, during)
12VALUES (1, '[2026-05-19 11:00, 2026-05-19 13:00)');
13-- ERROR: conflicting key value violates exclusion constraint

MySQL 對應：完全沒對應、必須 application 層 enforce。

6. CHECK Constraint + Domain Type

PG CHECK constraint 真執行（MySQL 8.0 才補）+ user-defined DOMAIN：

1CREATE DOMAIN positive_int AS INT CHECK (VALUE > 0);
2CREATE TABLE orders (
3    id SERIAL PRIMARY KEY,
4    quantity positive_int NOT NULL,
5    amount DECIMAL CHECK (amount >= 0)
6);

MySQL 對應：8.0+ 有 CHECK constraint enforcement（5.7 可寫但不執行）。沒 user-defined DOMAIN。

7. Extension Ecosystem

PG extension 是 結構優勢：

pg_partman：自動 partition lifecycle
pg_repack：online table rewrite
pg_stat_statements：query stats
pgvector：vector similarity search
pg_cron：scheduled job
PostGIS：GIS
TimescaleDB：time-series
Citus：sharding

MySQL 對應：MySQL plugin 機制有、生態遠遠不如。詳見 PG Extension Ecosystem 篇（待寫）。

MySQL 8.0 補齊的 PG 既有特性

特性	PG 推出	MySQL 推出	差異後說明
CTE	8.4 (2009)	8.0 (2018)	MySQL 補語法、行為 PG 12+ 跟 MySQL 接近
Window function	8.4 (2009)	8.0 (2018)	兩家都標準、frame spec 細節有差
Lateral derived table	9.3 (2013)	8.0.14 (2019)	MySQL 後加、planner 不如 PG 成熟
Hash join	早就有	8.0.18 (2019)	MySQL 受限（equality on indexed column）
JSON_TABLE	17 (2024)	8.0 (2018)	MySQL 較早、PG 17+ 補進、PG 自己有 JSONB 路線
CHECK constraint	早就有	8.0 (2018)	MySQL 5.7 可寫但不執行
Role-based auth	早就有	8.0 (2018)	-
Atomic DDL	早就有	8.0 (2018)	-
Common keyword	完整	8.0 補	MySQL 5.7 缺很多 (window/rank/lateral 等)

MySQL 8.0 是 補齊 9 年 SQL standard 落後、不是 新領先 PG。

PG 仍領先的特性

對應「MySQL 8.0 補了 → PG 仍沒輸」的視角。以下 14 條中、production 影響最大 的是 Materialized view / Partial index / JSONB GIN / Full-text search 跟 Range / Exclusion constraints（schema-level expressiveness）；次要但常用 的是 Multi-column statistics 跟 Procedural language；非典型但 niche 重要 的是 User-defined DOMAIN / Generic table inheritance（讀者不必然知道、但 ORM 跟 schema migration 工具會用）：

PG 領先特性	MySQL 對應狀態	補充
Materialized view	無原生	application-side 重算成本高
Partial index	無（functional index 不等同）	對 boolean / status column 救 storage
FDW	弱（FEDERATED engine 不推薦）	跨 DB query escape hatch
JSONB GIN index	無（generated column workaround）	JSON workload 結構性差
Range types	無	booking / availability schema 救命
Exclusion constraints	無	range overlap 防護
User-defined DOMAIN	無	column-level type constraint
Extension ecosystem	弱	pgvector / TimescaleDB / PostGIS
Full-text search 成熟	InnoDB FTS 較弱	tsvector + GIN + pg_trgm 三層
Multi-column statistics	8.0 histograms 部分對應、PG 更廣	planner 更準
Procedural language	PL/pgSQL + 多語言（PL/Python / PL/Perl 等）	Stored procedure（不擴語言）
Recursive CTE 深度	Unlimited	1000（cte_max_recursion_depth）
LSN-based replication	簡潔	binlog file+position（GTID 緩解）
Generic table inheritance	早就有	無（multi-tenant schema 結構用）

對「從 MySQL 評估 PG」的讀者

讀者通常從 MySQL 8.0 過來、問題是 「PG 比 MySQL 強在哪、弱在哪」：

PG 比 MySQL 強

SQL 工程深度：上面列的 7 個結構優勢
Extension ecosystem：pgvector / TimescaleDB / Citus / pg_partman 等
Optimizer：planner 對複雜 query 更成熟
Concurrency model：MVCC + 少 lock（MVCC + Lock Model）

PG 比 MySQL 弱

Replication 機制簡潔度：MySQL GTID 比 PG WAL + replication slot 配置簡單（Replication Topology）
Sharding ecosystem：Vitess / PlanetScale 比 Citus 規模驗證高
Operational tooling 廣度：pt-toolkit / gh-ost / Orchestrator 等
VACUUM 維護：PG MVCC 必須 VACUUM、autovacuum 配錯議題多（Autovacuum Tuning）

選 PG 的核心 driver

對 SQL 工程深度、extension、複雜 query / OLAP-style workload 的場景、PG 仍是首選。對純簡單 OLTP + 大規模 sharding、MySQL + Vitess 仍 competitive。

跟其他模組整合

MVCC + Lock Model：PG MVCC 是 SQL feature 的並行控制基礎
Query Optimization：PG planner 對 window / CTE / hash join 成熟
Citus Distributed：extension 之一、體現 extension 生態
Autovacuum Tuning：MVCC 代價、跟 SQL feature 並行控制相關

PostgreSQL BDR / Multi-Master：active-active 寫入的 3 種路徑跟 conflict 治理

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 multi-master / active-active replication — 不是 PG 預設、需要 extension。

PG 預設沒 multi-master、得用 extension

PG core 是 single-primary streaming replication：

寫入只能進 primary
Standby 接受 read（hot_standby）但拒絕 write
Failover 後新 primary 接管、不能多入口

對需要 active-active（多 region 各自接受 local write）的場景、PG 提供 3 條 extension 路徑：

方案	來源	機制	License
BDR	EDB（Enterprise）	Logical replication-based、雙向	商業（EDB 訂閱）
pgEdge	pgEdge Inc.	基於 BDR、開源、加 Spock extension	開源（Spock）
Bucardo	community	Trigger-based、async、Perl 寫	開源（BSD）

每條路徑有不同 trade-off。對 99% PG production case、不需要 multi-master — single-primary streaming replication + read replica scaling 已夠。Multi-master 是 特殊需求（跨 region active-active write / 不可中斷 maintenance）才上。

跟 MySQL Group Replication 對比：MySQL GR 是 官方內建（5.7+）、PG 沒對應內建選項。MySQL 用戶 GR / InnoDB Cluster 直接套、PG 用戶要選 extension + license trade-off。

Multi-master 三方案對比

方案 1：BDR (EDB Postgres Distributed)

EDB 商業 distributed 方案、跑在 EDB Postgres Advanced Server 或 PG community 上。

特性：

雙向 logical replication、N-way active-active
Built-in conflict detection + resolution（LWW / column-level / user-defined）
Eager（sync）跟 async 兩種 mode
Tightly integrated with EDB tooling

Trade-off：

商業 license、EDB 訂閱
對 cross-region multi-master 成熟（北美 enterprise 廣用）
對 新 PG version 通常滯後幾個月

方案 2：pgEdge（基於 Spock extension）

pgEdge 開源 multi-master、基於 Spock extension（從 BDR 衍生）：

特性：

開源、可自管
跟 BDR 架構接近、無 license fee
Conflict resolution 用 LWW + column-level
對 edge / 地理分散 場景設計

Trade-off：

較新（2023+）、社群驗證度低於 BDR
Conflict resolution policy 比 BDR 簡單
部分 EDB 商業 feature 沒對應

方案 3：Bucardo

PG community async multi-master、Perl 寫、trigger-based：

特性：

完全開源
Trigger-based（不依賴 logical replication）
支援 multi-source replication（fan-in / fan-out）

Trade-off：

Async only — higher latency conflict
Trigger overhead（影響 primary 寫吞吐）
維護 Perl + tools chain 不普及
對 Sync 一致性 需求不適用

Multi-Master Conflict Model

任何 multi-master 方案都要解決 同一 row 兩地同時改 的 conflict：

Conflict 來源

1Region A (primary 1)          Region B (primary 2)
2UPDATE orders                 UPDATE orders
3SET status='shipped'          SET status='cancelled'
4WHERE id=100                  WHERE id=100
5     ↓                              ↓
6   合併？哪個贏？

跨 region 兩地各自 commit、replication lag 期間發現 conflict、必須 自動 resolve（不能丟給 application）。

Conflict Resolution Strategies

1. Last-Write-Wins (LWW) — 最常見：

比較 transaction commit timestamp、晚的贏
簡單但 data loss（前一個 commit 的變更被覆蓋）
需要 clock 同步（NTP）— clock skew 造成不可預測

2. Column-level conflict resolution：

不同 column 各自 LWW（status column 跟 amount column 獨立解）
比 row-level LWW 細、但需 application semantics 配合

3. User-defined trigger：

寫 PG function 解 conflict
對 特殊 business logic（如：金額相加、不是覆蓋）有用
維護成本高

4. Manual reconciliation：

Conflict 寫進 log table、application / DBA 手動處理
對 無法自動 resolve 場景（如金融）
高 ops cost

對 99% case 用 LWW、接受 small data loss、application 設計 idempotent / commutative 操作避免衝突。

Conflict 機率取決於 application pattern

Tenant-isolated application（user_id 各自寫自己的 row）：基本無 conflict
Shared counter / inventory application：高 conflict、multi-master 不適合
Append-only event log：conflict 低、適合 multi-master

配置 step-by-step（pgEdge 為主）

pgEdge 開源、最常見的 self-hosted 選擇。

Step 1：在每個 region node 裝 pgEdge

1# Install pgEdge CLI
2curl -fsSL https://pgedge-upstream.s3.amazonaws.com/REPO/install.py | python3
3
4# Setup PG + Spock + pgEdge
5./pgedge install pg16
6./pgedge install spock

Step 2：配置每個 node

1-- 在 node1（us-east） 跑
2SELECT spock.node_create(node_name := 'node1', dsn := 'host=node1.example.com port=5432 dbname=production');
3
4-- 在 node2（eu-west）跑
5SELECT spock.node_create(node_name := 'node2', dsn := 'host=node2.example.com port=5432 dbname=production');

 1-- 在 node1 建 default replication set + 加 tables
 2SELECT spock.repset_add_all_tables('default');
 3
 4-- 在 node1 subscribe node2
 5SELECT spock.sub_create(
 6    subscription_name := 'sub_n1_n2',
 7    provider_dsn := 'host=node2.example.com port=5432 dbname=production'
 8);
 9
10-- 在 node2 subscribe node1（雙向）
11SELECT spock.sub_create(
12    subscription_name := 'sub_n2_n1',
13    provider_dsn := 'host=node1.example.com port=5432 dbname=production'
14);

Step 4：設 conflict resolution

1-- 設 LWW（預設）
2SELECT spock.conflict_resolution_setting_set(
3    conflict_type := 'update_origin_change',
4    resolution_setting := 'apply_remote'
5);

Step 5：驗證

1-- 看 subscription 狀態
2SELECT * FROM spock.subscription;
3
4-- 看 replication lag
5SELECT * FROM pg_stat_replication;

5 個 Production 踩雷

1. LWW data loss — Application 沒設計 commutative

LWW 預設、兩 region 同時 UPDATE 同 row → 晚的 commit 贏、早的丟失。Application 看不到「我寫的不見了」、debug 困難。

修法：

Application schema 設計 tenant-isolated（user_id 各自寫自己 row）
對 shared counter / inventory 用 commutative operation（INCREMENT not SET）
重要寫入加 audit log — conflict 仍寫到 audit、application 看 audit 知道發生過
真的需要 strict consistency 別用 multi-master、用 single-primary + reader 或 distributed SQL

2. Sequence collision — Two region 各自 next 同號

SERIAL / IDENTITY 用 sequence、兩 region 各自 nextval 可能拿到同 number、INSERT 衝突（PK duplicate）。

修法：

用 staggered sequence range：node1 用 1-1M、node2 用 1M+1 到 2M（用 setval）
或用 UUID（v4 / v7）作 PK、跨 node 無 collision
或 sequence per-node namespace：CREATE SEQUENCE orders_id_node1 START 1 INCREMENT 2（odd vs even）

3. DDL replication 不自動

PG logical replication（pgEdge / BDR 基礎）不自動 replicate DDL。每 node CREATE TABLE / ALTER TABLE 必須 分別跑。

修法：

用 deployment automation（Ansible / Terraform）對所有 node 同時跑 DDL
pgEdge 提供 spock.replicate_ddl(...) 把 DDL 轉成可 replicate event
BDR Enterprise 有 DDL replication（商業 feature）
DDL 變更前確認 所有 node 都健康、減少 partial state

4. Conflict log 治理 — Log table 爆滿

每個 conflict 寫進 spock.conflict_log / bdr.conflict_history 等 table、log 累積 disk 爆。

修法：

設 log retention：cron 定期 archive + delete 老 conflict log
監控 conflict rate — 高 conflict rate 是 application 設計問題（不是 ops 問題）
對 strict business conflict 寫進 application-level audit table、不只 system log

5. Failover 後 timeline 分歧

Multi-master 設計上 每 region 是 primary、Region A 掛了 Region B 接管 — 但 Region A 復活後 仍認為自己是 primary。如果 Region A 復活前已有寫入沒 replicate 出去、resolution 跟 LWW 衝突。

修法：

Fence Region A 復活：物理 fence（network firewall）+ 手動 unfence 流程
用 etcd / Consul 跟 BDR / Spock 整合 leader election（避免 split-brain）
對 cross-region multi-master、必須有 runbook 處理 region 復活流程、不靠自動

何時用 multi-master vs 不用

情境	建議
真正 cross-region active-active write 需求	BDR / pgEdge
不可中斷 maintenance（zero downtime upgrade）	BDR / pgEdge
高 conflict rate（shared counter / inventory）	不要 multi-master、用 distributed SQL
Read scaling 為主、可接受 stale read	streaming replication + read replica（更簡單）
Strict consistency 需求	single-primary + sync replication 或 Aurora DSQL / Spanner
預算敏感 + 不想養 BDR / pgEdge ops	不要 multi-master、用 managed distributed SQL

跟 MySQL Group Replication 對比

維度	PG Multi-Master	MySQL Group Replication
內建？	否、需 extension	是、5.7+ 內建
商業 vs 開源	BDR 商業 / pgEdge 開源	Oracle 商業 / community 都行
Sync mode	可（BDR eager）	是（certification-based）
Conflict resolution	LWW / column / user-defined	Certification-based（distributed transaction）
Production maturity	BDR 高、pgEdge 中	高（Oracle 推）
Use case 比例	少（PG 多用 single-primary）	較多（MySQL 推 InnoDB Cluster）

MySQL GR 內建 + Oracle 推、PG 沒對應內建。對 multi-master 需求重的 org、MySQL 走 GR 路徑更直接。

跟其他模組整合

跟 Replication Topology

Multi-master 是 streaming replication 之上的 logical replication 加雙向、不取代 streaming。Streaming 仍給 standby / failover、multi-master 給 active-active write。詳見 Replication Topology。

跟 Logical Replication

pgEdge / BDR 都基於 logical replication slot、跟 Logical Replication + Debezium 共用 PG logical decoding infrastructure、但 配置 + tooling 不同。

跟 MVCC

Multi-master 的 conflict 在 commit 後 偵測（async）、不在 transaction 內。跟單機 MVCC（同 cluster 內 transaction snapshot）不同層。詳見 MVCC + Lock Model。

PostgreSQL Query Optimization：EXPLAIN ANALYZE / pg_hint_plan / auto_explain 三層工具跟 4 個 case

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 query optimization — EXPLAIN ANALYZE / auto_explain / pg_hint_plan 三層工具跟 4 個實際 case。

4 個常見 production case

PG query 慢的 root cause 多數是 planner 選錯 plan。從以下 4 個 case 進入 query optimization：

Case 1：5 秒 → 50ms — Seq scan vs index

1-- 慢 (5 秒)
2SELECT o.id, o.amount, c.name
3FROM orders o JOIN customers c ON o.customer_id = c.id
4WHERE c.region = 'TW' AND o.created_at > '2026-05-01';

EXPLAIN (ANALYZE, BUFFERS)：

1Hash Join  (cost=20000..50000 rows=100 width=...) (actual time=4900..5000 rows=10000)
2  ->  Seq Scan on customers c  (cost=0..20000 rows=1000000 width=...)
3      Filter: (region = 'TW')
4      Rows Removed by Filter: 900000
5  ->  Hash  (cost=...)
6      ->  Index Scan on orders_created_idx

問題：customers.region 沒 index、planner 選 seq scan、實際 region=TW 只 10% row。修法：

1CREATE INDEX CONCURRENTLY idx_customers_region ON customers(region);
2ANALYZE customers;  -- 更新 statistics、讓 planner 看到新 index

加完 5 秒降 50ms。

Case 2：30 秒 → 200ms — Hash join 沒觸發、用 nested loop

1SELECT u.name, count(o.id)
2FROM users u LEFT JOIN orders o ON o.user_id = u.id
3GROUP BY u.name;

EXPLAIN ANALYZE 顯示 Nested Loop 跑 1M 次 inner loop、執行 30 秒。Planner 估錯 row count、選 nested loop。Hash join 應該 < 200ms。

修法：

1ANALYZE users;
2ANALYZE orders;
3-- 提高 default_statistics_target 對 critical column
4ALTER TABLE orders ALTER COLUMN user_id SET STATISTICS 1000;
5ANALYZE orders;

統計精度提升、planner 估 row count 準、自動切 hash join。

Case 3：8 秒 → 100ms — Multi-column 統計缺

1SELECT * FROM orders WHERE status = 'pending' AND region = 'TW';

status = 'pending' 5% row、region = 'TW' 10% row。Planner 假設兩 column 獨立、估 0.5% (5K row)。實際 status=‘pending’ 跟 region=‘TW’ 強相關（TW 訂單多 pending）、實際 4% (40K row)。Planner 估錯 8x、選錯 plan。

修法（PG 10+）：

1CREATE STATISTICS stats_orders_status_region (dependencies, ndistinct, mcv)
2ON status, region FROM orders;
3ANALYZE orders;
4-- 之後 planner 知道 status+region 相關度、估準

Case 4：20 秒 → 5 秒 — Parallel query 沒觸發

1SELECT region, count(*), sum(amount) FROM orders GROUP BY region;

orders 100M row、預期 PG parallel scan + parallel aggregate、實際 single worker 跑 20 秒。

EXPLAIN：Workers Planned: 0。

修法：

1# postgresql.conf
2max_parallel_workers_per_gather = 4
3max_parallel_workers = 8
4max_worker_processes = 16
5parallel_setup_cost = 100        # 預設 1000、降低讓 planner 更敢 parallel
6parallel_tuple_cost = 0.01       # 預設 0.1

並行後 5 秒。

EXPLAIN 三層工具

Tool 1：EXPLAIN — Plan preview

1EXPLAIN SELECT ...;

輸出每個 node 的估計 cost / row count / width。用於 quick plan check。

關鍵欄位：

Plan node 類型：Seq Scan < Index Scan < Index Only Scan、警訊看 unexpected node type
cost=START..END：planner 估的 cost、START 是 startup cost、END 是 total
rows：估計 output row 數
width：每 row average byte（影響 sort / hash memory）

Tool 2：EXPLAIN ANALYZE — 實際執行 + 對比 estimate

1EXPLAIN (ANALYZE, BUFFERS, VERBOSE) SELECT ...;

差別：實際 跑 query、輸出實際 row count / time、跟 estimate 對比：

1Hash Join  (cost=20000..50000 rows=100) (actual time=400..500 rows=10000 loops=1)

rows=100 (estimate) vs rows=10000 (actual) — 估錯 100x、planner 可能選錯 plan。BUFFERS 顯示 disk read vs buffer cache hit。

注意：EXPLAIN ANALYZE 實際跑 query、修改性 query（UPDATE / DELETE）會真的改 data。讀 query 安全。修改性 query 包 transaction：

1BEGIN;
2EXPLAIN ANALYZE UPDATE orders SET status = 'x' WHERE ...;
3ROLLBACK;

Tool 3：auto_explain — Production query 自動 capture

auto_explain extension 自動 log slow query 的 plan：

1# postgresql.conf
2shared_preload_libraries = 'auto_explain'
3auto_explain.log_min_duration = '1s'    # 超過 1 秒 log plan
4auto_explain.log_analyze = on            # 含 ANALYZE 統計
5auto_explain.log_buffers = on
6auto_explain.log_format = 'json'         # JSON 格式給工具消費

Production slow query 自動進 log、不必手動 EXPLAIN。組合 pg_stat_statements + auto_explain 是 PG 標準 query observability。

pg_hint_plan vs Planner GUC

PG 兩種方式 nudge planner：

Planner GUC（global）

postgresql.conf 內：

enable_seqscan = off — 禁用 seq scan（force index）
enable_nestloop = off — 禁用 nested loop（force hash/merge join）
random_page_cost = 1.1 — SSD 設低（預設 4 是 HDD assumption）
effective_cache_size = '16GB' — buffer pool + OS cache 估、影響 planner

GUC 是 global — 影響所有 query。對 單一 query 用 hint：

pg_hint_plan extension（per-query hint）

1-- 強制特定 plan
2/*+ IndexScan(orders idx_orders_status) NestLoop(orders customers) */
3SELECT ... FROM orders JOIN customers ON ...;

Hint 形態：

IndexScan(t1 idx_name) — 強制 index scan
SeqScan(t1) — 強制 seq scan
HashJoin(t1 t2) / NestLoop(t1 t2) / MergeJoin(t1 t2)
Leading(t1 t2 t3) — 強制 join order
Rows(t1 t2 #100) — 強制 row 估計

5 個 Production 踩雷

1. Statistics 過時 — Planner 估錯 row count

ANALYZE 是 autovacuum 一部分、預設 autovacuum_analyze_scale_factor=0.1（10% row 變動才 analyze）。對 快速 grow 的表（log / event）、ANALYZE 跟不上、planner 用過時 statistics。

修法：

對 critical table 設 較 aggressive autovacuum_analyze_scale_factor：

1ALTER TABLE events SET (autovacuum_analyze_scale_factor = 0.02);

對 大批量寫入後、手動 ANALYZE events;
監控 pg_stat_user_tables.last_analyze — 跟 row count 比、判定是否需手動 trigger

2. Multi-column statistics — Planner 假設 column 獨立

如 Case 3、單 column statistics 對 相關 column 估錯。

修法：

對 常一起 query 的 column 組合、建 CREATE STATISTICS（PG 10+）
3 種 type：dependencies（functional dependency）、ndistinct（multi-column distinct count）、mcv（most common value combinations）
設完 必須跑 ANALYZE 才生效

3. Cost-base setting 不對齊硬體 — Planner 偏 seq scan

預設 random_page_cost = 4、seq_page_cost = 1 是 HDD assumption（random IO 比 sequential 慢 4x）。SSD / NVMe random / seq IO 差別小、planner 不該 4x penalty random。

修法：

1-- SSD
2ALTER SYSTEM SET random_page_cost = 1.1;
3
4-- NVMe
5ALTER SYSTEM SET random_page_cost = 1.0;
6
7SELECT pg_reload_conf();

random_page_cost 改了 planner 對 index scan 的 cost 估計更準、自動選 index 更積極。

4. `effective_cache_size` 不對齊實際 RAM

effective_cache_size 預設 4 GB、planner 假設 buffer pool + OS cache 共 4 GB。實際 server 64 GB RAM、shared_buffers = 16GB、OS page cache ~30 GB、實際可用 cache 46 GB。

修法：

1ALTER SYSTEM SET effective_cache_size = '46GB';  -- shared_buffers + OS cache 估

提升後 planner 估 query 多數 page 在 cache、降低 估計 random IO cost、選 index 更積極。

5. Parallel query 不觸發

預設 max_parallel_workers_per_gather = 2、有些 workload 不夠。或 table size 太小、min_parallel_table_scan_size = 8MB 預設、小表不 parallel。

修法：

1ALTER SYSTEM SET max_parallel_workers_per_gather = 4;
2ALTER SYSTEM SET parallel_setup_cost = 100;
3ALTER SYSTEM SET parallel_tuple_cost = 0.01;
4ALTER SYSTEM SET min_parallel_table_scan_size = '0';  -- 任何 size 都 parallel

監控 EXPLAIN 的 Workers Planned 數量、看是否真 parallel。

觀測 metric

Production 持續 monitor：

pg_stat_statements：每個 query digest 累計 calls / time / rows / IO
auto_explain log：slow query 的實際 plan + ANALYZE 統計
pg_stat_user_tables.last_analyze / last_autoanalyze：statistics 新鮮度
pg_stat_user_indexes.idx_scan：每個 index 使用次數 — 0 表示沒用、可考慮 drop

把這些丟進 Datadog / Prometheus（用 postgres_exporter / pg_exporter）做 trend analysis。

跟 MySQL Query Optimization 對照

維度	PG	MySQL
Query plan preview	`EXPLAIN`	`EXPLAIN`
實際執行統計	`EXPLAIN ANALYZE`	`EXPLAIN ANALYZE` (8.0+)
Auto-capture	`auto_explain` extension	`slow_query_log` + `pt-query-digest`
Optimizer trace	log_planner_stats / log_executor_stats	`optimizer_trace` (JSON)
Per-query hint	`pg_hint_plan` extension	optimizer hint comment (`/+ /`)
Multi-column statistics	`CREATE STATISTICS`	無原生（依賴 index 統計）
Parallel query	Full (scan / agg / join, PG 9.6+)	受限 (8.0 hash join)
Cost-base setting	random_page_cost / effective_cache_size	隱性、optimizer 預設

PG planner 整體成熟、複雜 OLAP-style query 處理較好。MySQL 8.0 補了不少（histograms / hash join）但複雜 query 仍弱於 PG。詳見 MySQL Query Optimization。

跟其他模組整合

跟 Autovacuum Tuning

ANALYZE 是 autovacuum 一部分、autovacuum 跟不上 → statistics 過時 → planner 估錯。詳見 Autovacuum Tuning。

跟 Replication Topology

Standby 上跑 query 用同 statistics（streaming replication copy 整個 system catalog）、planner 行為一致。但 standby 有 hot_standby_feedback 影響 primary autovacuum / ANALYZE 行為。詳見 Replication Topology。

跟 Partitioning

Partition pruning 跟 query plan 緊密 — EXPLAIN 看是否 prune 對的 partition。詳見 Declarative Partitioning。

何時用 pg_hint_plan vs GUC

情境	選擇
全 cluster 行為（如 SSD random_page_cost）	GUC
單一 critical query 強制特定 plan	pg_hint_plan
暫時 disable 某類 plan 給 debug	`SET enable_xxx=off` per-session
Production stable use	GUC + multi-column statistics 為主、hint 為 last resort

PostgreSQL MVCC + Lock Model：為什麼 PG 比 MySQL 少 deadlock、但 vacuum 是別的代價

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 MVCC + lock model — PG 並行控制機制跟跟 MySQL lock-based 不同。

PG MVCC：每次更新都新增 tuple、不改舊版

PG 的並行控制核心是 Multi-Version Concurrency Control — UPDATE 不修改原 row、是新增一個 tuple version、舊 version 留在 table 直到 VACUUM 清理：

1原 row:    (id=1, status='pending', xmin=100, xmax=NULL)
2                 ↓ UPDATE status='shipped'
3新 tuple:  (id=1, status='shipped', xmin=200, xmax=NULL)
4舊 tuple 標 xmax=200（不刪、給其他 transaction 看舊 version）

xmin / xmax 是 creator transaction id / destroyer transaction id。每個 SELECT 用 snapshot（含當下 active transaction list）判斷哪些 tuple 對自己可見：

自己 transaction id > tuple.xmin 且 (tuple.xmax = NULL 或自己 transaction id < tuple.xmax) → 可見
否則 → 看不到（過去 / 未來版本）

結果：

Readers 不 lock writers：SELECT 看 snapshot、不 block UPDATE
Writers 不 lock readers：UPDATE 寫新 tuple、不影響正在跑的 SELECT snapshot
Writers 只 lock 同一 row 的 writers：兩個 UPDATE 同 row 才 conflict

跟 MySQL InnoDB lock-based（Lock Contention）對比：

MySQL：SELECT FOR UPDATE 用 gap lock 防 phantom、deadlock 機率高
PG：MVCC + snapshot 自然防 phantom（read 看 snapshot）、deadlock 少

但 PG 代價是 VACUUM 治理 — dead tuple 不清理會佔 disk + 影響 query 效率。詳見 Autovacuum Tuning。

PG 4 種 lock

PG 仍有 lock、但場景跟 MySQL 不同：

1. Row-level lock — 主要由 UPDATE / DELETE / SELECT FOR UPDATE 取

1BEGIN;
2SELECT * FROM orders WHERE id = 100 FOR UPDATE;
3-- 對 id=100 row 加 ROW EXCLUSIVE lock
4-- 其他 transaction 試 UPDATE / DELETE id=100 必須等

Row-level lock 不 block reader（SELECT 看 snapshot、不檢查 lock）。

2. Table-level lock — DDL 跟少數 SELECT FOR 場景

PG 有 8 種 table lock mode、嚴重程度遞增：

Mode	行為	衝突
ACCESS SHARE	SELECT 跑	跟 ACCESS EXCLUSIVE 衝突
ROW SHARE	SELECT FOR UPDATE / FOR SHARE	跟 EXCLUSIVE 衝突
ROW EXCLUSIVE	UPDATE / DELETE / INSERT	跟 SHARE 衝突
SHARE UPDATE EXCLUSIVE	VACUUM / ANALYZE / CREATE INDEX CONCURRENTLY	跟同 mode + 高 mode 衝突
SHARE	CREATE INDEX（non-concurrent）	跟 ROW EXCLUSIVE 衝突
SHARE ROW EXCLUSIVE	CREATE TRIGGER / 某些 ALTER	跟 ROW EXCLUSIVE 衝突
EXCLUSIVE	REFRESH MATERIALIZED VIEW	跟所有 + 自身衝突
ACCESS EXCLUSIVE	DROP / ALTER TABLE / VACUUM FULL	跟所有衝突

DDL（ALTER / DROP）拿 ACCESS EXCLUSIVE、跟所有衝突。Production 跑 ALTER 必須短時間或走 Online Schema Change。

3. Advisory lock — Application 自己控

PG 提供 advisory lock 給 application 用、不關 row / table 結構：

1-- Session 1
2SELECT pg_advisory_lock(12345);
3-- 跑 critical section
4SELECT pg_advisory_unlock(12345);
5
6-- Session 2
7SELECT pg_try_advisory_lock(12345);  -- 試取、不阻塞、返回 false

用途：

Application-level 互斥（如：cron job 同時只跑一個）
跨 connection 同步（PG-managed mutex）
Distributed transaction coordinator（lightweight）

跟 row lock 不同：advisory lock 不關 row、application 自定義 lock ID 語義。

4. Predicate lock — SERIALIZABLE isolation 才用

PG SERIALIZABLE 用 Serializable Snapshot Isolation (SSI)、追蹤 predicate（query 條件）而不是 row：

1SET TRANSACTION ISOLATION LEVEL SERIALIZABLE;
2BEGIN;
3-- Predicate lock 紀錄這個 query 看了哪些 predicate
4SELECT * FROM orders WHERE status = 'pending';
5-- 其他 transaction INSERT pending order
6-- 提交時：PG 偵測 anomaly、rollback 之一
7COMMIT;

跟 MySQL gap lock 不同：

MySQL gap lock：pre-lock、防 phantom 在 query 期間
PG predicate lock：post-detect、commit 時偵測 anomaly、退回 transaction

PG SSI 對 寫入吞吐影響低（不 pre-lock）、但 transaction rollback 機率高（要 application retry）。

PG 預設 isolation：READ COMMITTED

PG 預設 READ COMMITTED、跟 MySQL InnoDB 預設 REPEATABLE READ 不同：

Isolation	PG 行為	MySQL InnoDB 對應
READ UNCOMMITTED	PG 視為 READ COMMITTED（不真的支援 dirty read）	MySQL 真支援
READ COMMITTED	每 statement 看當下 committed snapshot（PG 預設）	一致
REPEATABLE READ	Transaction 內 fixed snapshot（純 MVCC）	MVCC snapshot + gap lock 防 phantom（兩者都 MVCC、差在 phantom 防護機制：PG 靠 snapshot version visibility、InnoDB 加 gap lock pre-lock 範圍）
SERIALIZABLE	SSI、commit 時偵測 anomaly	強 lock + gap

對 application code 含意：

PG REPEATABLE READ 對 寫入吞吐 影響低（不 pre-lock、只 retry）
沒 gap lock → INSERT 不被 lock-induced 阻塞
Deadlock 機率比 MySQL 低數量級

實務 PG production：用預設 READ COMMITTED 即可、SERIALIZABLE 留給 strict consistency 需求（金融 / 訂單）但接受 retry。

5 個 Production 踩雷

1. Idle transaction 卡 vacuum — Bloat 暴增

PG MVCC 仰賴 VACUUM 清理 dead tuple。VACUUM 只清理 沒 active transaction 看得到的 dead tuple。如果有 idle in transaction session 持續開著（application connection pool 連線忘關 transaction）、VACUUM 看不到 該 transaction snapshot 之後的 dead tuple、累積 bloat。

修法：

監控 pg_stat_activity 看 state = 'idle in transaction' 持續時間
設 idle_in_transaction_session_timeout = '5min' — 超時 PG 自動 kill 該 session
Application connection pool 配置 不留 transaction 開著（如：pgBouncer transaction pool 自動 commit / rollback）

2. SELECT FOR UPDATE 跨 transaction — Application retry 麻煩

跟 MySQL 不同：PG SELECT FOR UPDATE 不會 block 其他 SELECT（讀仍可繼續）、但 block 其他 UPDATE / FOR UPDATE。若 application 在 transaction 內 SELECT FOR UPDATE、其他 transaction 等。

如果 application 設計 跨 transaction 持 lock（如：取 lock + return UI + 等用戶操作 + commit）、容易撞 idle in transaction 跟其他 transaction wait。

修法：

Transaction 短：取 FOR UPDATE → 立刻處理 → commit、不跨 user interaction
跨 user interaction 用 advisory lock 或 application-level state machine、不依賴 row lock

3. Advisory lock 沒釋放 — Session 結束才自動釋放

pg_advisory_lock() 拿了、沒 pg_advisory_unlock()、lock 直到 session 結束 才自動釋放。Connection pool 重複使用同 connection、可能繼承前面留的 lock。

修法：

用 pg_advisory_lock 必 try/finally pg_advisory_unlock
或用 session-level 用 transaction-scoped：pg_advisory_xact_lock() — commit / rollback 自動釋放
監控 pg_locks 看 advisory lock count、長期累積是警訊

4. Bloat 不只是 vacuum 沒跑、是 active transaction 阻擋 vacuum

第 #1 點延伸：vacuum 已跑、但 bloat 仍持續成長、原因不是 vacuum 不夠、是 active transaction 阻擋 vacuum 看 dead tuple。

修法：

不只看 last_vacuum、看 VACUUM 跑了但沒收回多少
SELECT * FROM pg_stat_progress_vacuum 看 VACUUM 進度
SELECT * FROM pg_stat_activity WHERE backend_xmin IS NOT NULL ORDER BY backend_xmin — 看誰阻擋 vacuum
詳見 Autovacuum Tuning

5. SERIALIZABLE 下 transaction rollback — Application 必須 retry

SET TRANSACTION ISOLATION LEVEL SERIALIZABLE 後、PG SSI 偵測到 anomaly 會 rollback transaction、application 看到 serialization failure、必須 retry。

對 不知道要 retry 的 application、SERIALIZABLE 變 production bug。

修法：

Application code 加 retry middleware：catch SQLSTATE 40001 (serialization_failure) → exponential backoff retry
不必所有 transaction 走 SERIALIZABLE — 只對 strict consistency 需求 場景 set
高並發 SERIALIZABLE workload 容易 rollback storm、考慮拆 transaction 縮短時間

觀測 metric

Production 監控：

pg_stat_activity：active session / idle in transaction / wait_event
pg_locks：當前 lock 列表、用 join 看誰 block 誰
pg_stat_database.deadlocks：deadlock 計數（PG 較低、但仍要監控）
pg_stat_user_tables.n_dead_tup / n_live_tup：dead tuple 比例 — bloat 指標
pg_stat_progress_vacuum：VACUUM 進度

跟 MySQL Lock Model 對比

維度	PG MVCC	MySQL InnoDB Lock
主要機制	MVCC + snapshot	Lock-based + MVCC mixed
Readers vs Writers	不互 block	預設 RR 下 gap lock 影響
Deadlock 機率	低（無 gap lock）	中-高（gap lock 主要來源）
Phantom 防護	Snapshot 自然防 + SSI predicate lock	Gap lock 預先 lock
預設 isolation	READ COMMITTED	REPEATABLE READ
成本	Dead tuple + VACUUM 治理	Lock contention 治理
Application code	SERIALIZABLE 需 retry	寫得不錯多數時 OK

兩者解決同一問題（並行控制）、用不同策略。PG 用 空間換時間（保留多版本 tuple、讀寫不互鎖、但需 VACUUM 清理）、MySQL 用 時間換空間（lock 等待、但不必清舊版本）。

選擇判讀：

High 並發 OLTP、寫 / 讀都重：PG MVCC 通常更好（讀不 block 寫）
簡單 OLTP + 不想管 VACUUM：MySQL InnoDB 對 ops 簡單
需要 SERIALIZABLE 強一致：PG SSI 對寫吞吐影響低
已有 MySQL 生態 / 工具鏈：MySQL Lock 知識可繼續用

詳見 MySQL Lock Contention — 完整 MySQL lock 機制。

跟其他模組整合

跟 Autovacuum Tuning

MVCC 仰賴 VACUUM、autovacuum 是 PG 並行控制的 維護成本。VACUUM 跑慢 / 沒跑 → bloat → query 慢。詳見 Autovacuum Tuning。

跟 Replication Topology

hot_standby_feedback = on 讓 standby 上 long-running query 不被 vacuum 取消、但 standby 把 oldest xmin 推回 primary、primary autovacuum 變保守、增加 bloat。詳見 Replication Topology。

跟 Connection Pool

pgBouncer transaction pooling 模式下、advisory lock / SELECT FOR UPDATE 跨 transaction 行為 broken（不同 transaction 可能進不同 backend connection）。詳見 pgBouncer Config。

跟 Query Optimization

長 transaction 跑慢 query 期間、其他 transaction 看到 snapshot bloat、planner 估錯 dead tuple ratio。詳見 Query Optimization。

PostgreSQL JSONB Deep Dive：Binary Storage + GIN Index 為什麼是結構性優勢

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 JSONB deep dive — binary storage + GIN index 的結構性優勢。

JSON vs JSONB：選 JSONB

PG 9.2 加 JSON type、9.4 加 JSONB。99% 場景用 JSONB：

維度	JSON	JSONB
儲存	純文字（原樣保存）	Binary decomposed format
Parse cost	每次 query parse	Insert 時 parse 一次
Index 支援	Limited（functional index）	GIN / functional / partial 都行
Operator 支援	有限（→ / →>）	完整（@> / ? / @? / ? 等）
Duplicate key	保留（原樣）	只保留最後一個（normalize）
Key order	保留	不保留
Whitespace	保留	不保留

JSONB 唯一缺點是 binary 儲存（不保留 key order / whitespace / duplicate）。99% application 不在意這些。

從 application semantics 視角、JSONB 是 PG JSON 的 the right type、JSON 是 legacy / niche。

JSONB GIN Index：核心結構性優勢

PG GIN（Generalized Inverted Index）可以對 JSONB 內所有 key/value pair 建 inverted index：

1CREATE TABLE products (
2    id SERIAL PRIMARY KEY,
3    metadata JSONB
4);
5
6-- GIN index
7CREATE INDEX idx_products_metadata ON products USING GIN (metadata);

加完後、JSONB query 用 GIN index 加速：

1-- @> (contains) 用 GIN
2SELECT * FROM products WHERE metadata @> '{"category": "shoes"}';
3
4-- ? (has key) 用 GIN
5SELECT * FROM products WHERE metadata ? 'discount';
6
7-- ?| (has any of these keys) 用 GIN
8SELECT * FROM products WHERE metadata ?| array['discount', 'promotion'];

跟 MongoDB index 對比、PG 不必 預先 define JSON path index、USING GIN (metadata) 對 整個 JSONB document 任意 path 都有效。

`jsonb_ops` vs `jsonb_path_ops`

PG GIN 對 JSONB 有兩種 operator class：

維度	`jsonb_ops`（預設）	`jsonb_path_ops`
索引內容	Key + value 都索引	只索引 path → value pair
Index size	大	小（約一半）
支援 operator	`@> / ? / ?\| / ?&`	只 `@>` (containment)
適用	多種 query pattern	只用 `@>` 的場景

1-- jsonb_ops（預設）
2CREATE INDEX idx_meta_default ON products USING GIN (metadata);
3
4-- jsonb_path_ops（小、快、但只支援 @>）
5CREATE INDEX idx_meta_path ON products USING GIN (metadata jsonb_path_ops);

選擇：

只跑 @> containment query → jsonb_path_ops（index 小、快）
跑 ? / ?| / ?& key existence query → jsonb_ops（預設）

Operator + Path Query

JSONB 提供豐富 operator + jsonpath：

Operator

 1-- Extract value（returns jsonb）
 2SELECT metadata -> 'name' FROM products;
 3
 4-- Extract text（returns text）
 5SELECT metadata ->> 'name' FROM products;
 6
 7-- Path extract
 8SELECT metadata #> '{variants, 0, price}' FROM products;
 9SELECT metadata #>> '{variants, 0, price}' FROM products;  -- 返回 text
10
11-- Containment（用 GIN index）
12SELECT * FROM products WHERE metadata @> '{"category": "shoes", "active": true}';
13
14-- Reverse containment
15SELECT * FROM products WHERE '{"sub": "value"}' <@ metadata;
16
17-- Key existence
18SELECT * FROM products WHERE metadata ? 'discount';
19SELECT * FROM products WHERE metadata ?| array['a', 'b'];  -- 任一 key
20SELECT * FROM products WHERE metadata ?& array['a', 'b'];  -- 全部 key

jsonpath（PG 12+）

SQL/JSON jsonpath 是 SQL standard、PG 12+ 支援：

 1-- jsonb_path_query：展開 path 結果
 2SELECT jsonb_path_query(metadata, '$.variants[*].price')
 3FROM products WHERE id = 1;
 4
 5-- jsonb_path_exists：返 boolean
 6SELECT * FROM products
 7WHERE jsonb_path_exists(metadata, '$.variants[*] ? (@.price > 100)');
 8
 9-- jsonb_path_query_array：返 array of result
10SELECT jsonb_path_query_array(metadata, '$.tags[*]')
11FROM products;

jsonpath 比 PG-specific operator 標準化、跨 vendor portable。

Partial JSONB Index

對 只 query subset row 的場景、建 partial index：

1-- 只對 active product 建 metadata index
2CREATE INDEX idx_active_products_metadata
3ON products USING GIN (metadata)
4WHERE status = 'active';
5
6-- Query active products + JSONB filter
7SELECT * FROM products
8WHERE status = 'active' AND metadata @> '{"category": "shoes"}';
9-- → planner 用 partial GIN index

Partial index 比 full GIN 小很多、write cost 低、index hit rate 高。

5 個 Production 踩雷

1. 大 JSONB + TOAST — 性能崩潰

JSONB > 2 KB 自動進 TOAST（PG 內外部 storage）、每次 query read 該 row 都要 de-TOAST（拉外部 storage 再合併）。大 JSONB（> 50 KB）每次 query 慢 10-100x。

修法：

把 大 attribute 拆獨立 column（如 description TEXT 不放 metadata）
用 JSON path index 對 hot path 加速、不必每次讀整個 JSONB
用 pg_column_size(metadata) 監控 JSONB size 分布、找 outlier
對 truly 大 document（> 1 MB）考慮 separate table 或 object storage

2. Nested update — 整個 JSONB 重寫

PG 沒 atomic partial update。修改 nested key 必須讀整個 JSONB → 修改 → 寫回：

1UPDATE products
2SET metadata = jsonb_set(metadata, '{discount}', '0.2'::jsonb)
3WHERE id = 100;
4-- 等同於：讀 metadata、改 discount、寫回整個 metadata

對 大 JSONB + 高頻 update 場景、寫吞吐受限。跟 MongoDB $set operator 對應 partial document update 不同。

修法：

對 high-update nested key 拆獨立 column
Application 層 batch update（攢一批一次 update）
接受 PG JSONB 是 immutable-replace 心智模型、不是 mutable in-place

3. Index 選錯 op class — `?` query 走 full scan

對 jsonb_path_ops index、? key existence query 走 full scan（不用 index）。Application 看 query 慢、查 EXPLAIN 才發現 index 沒用。

修法：

設計階段確認 application query pattern：只用 @> 還是會用 ?
多 query pattern → jsonb_ops（預設）
純 containment → jsonb_path_ops（省 index size）
不確定先用預設、production 觀察後再優化

4. `jsonb_path_query` 跟 `jsonb_path_exists` 行為差

jsonb_path_query(metadata, '$.variants[*].price') — 展開、每個 match return 一 row
jsonb_path_exists(metadata, '$.variants[*]') — return boolean（true if any match）

Application 想要「過濾 row」用前者寫成：

1-- 錯：返多 row 給每個 product、結果 row count 暴增
2SELECT id, jsonb_path_query(metadata, '$.variants[*].price') FROM products;

應該：

1-- 對：只過濾 product
2SELECT * FROM products WHERE jsonb_path_exists(metadata, '$.variants[*] ? (@.price > 100)');

修法：

區分 exists 過濾 row vs query 展開 row
過濾用 jsonb_path_exists 或 @> operator
展開用 jsonb_path_query + 配合 LATERAL 或 subquery

5. Partial index 條件不對齊 query

1CREATE INDEX idx_active_metadata ON products USING GIN (metadata) WHERE status = 'active';
2
3-- Application query 但 status 沒 explicit
4SELECT * FROM products WHERE metadata @> '{"category": "shoes"}';
5-- → 不用 partial index（planner 不知道 status='active' 條件）

修法：

Application query 必須包含 partial index 的 WHERE 條件：

1SELECT * FROM products WHERE status = 'active' AND metadata @> '...';

確認 planner 用 partial index：EXPLAIN 看 Index Scan using idx_active_metadata
不對齊 query pattern 的 partial index = waste

何時用 JSONB vs 拆 column

場景	選擇
不規則 schema（user-generated metadata / customization）	JSONB
半結構化 + 5-10 個常 query key	JSONB + GIN partial index
規則 schema、column 數量穩定	拆 column（更快 / index 易）
Nested 結構 + 經常需要展開 query	JSONB + jsonb_path_query
大 document（> 1 KB）+ 高頻 update	拆 column 或 separate table
完全 schemaless workload	考慮 MongoDB 而非 PG

JSONB 是 PG 適合 semi-structured data 的工具、不是 MongoDB 替代品。對 主要結構化 + 少量 JSON 場景 JSONB 完美；對 主要 JSON / 複雜 nested aggregation 場景 MongoDB 仍是專業選擇。

跟其他模組整合

跟 Query Optimization

JSONB query 的 planner 行為：

@> containment 對 jsonb_ops / jsonb_path_ops 都用 GIN
? 只對 jsonb_ops 用 GIN
jsonb_path_exists 用 functional index（不是 GIN）
看 EXPLAIN 確認用對 index、詳見 Query Optimization

跟 SQL Features Baseline

JSONB 是 PG 結構性領先特性之一、詳見 SQL Features Baseline。

跟 MVCC + Lock Model

JSONB UPDATE 整個 column 重寫、每次 update 創新 tuple、跟 row update 相同 MVCC behavior。詳見 MVCC + Lock Model。

跟 MySQL JSON_TABLE

MySQL 8.0 JSON_TABLE 跟 PG jsonpath 類似（都 SQL standard）、但 index 機制 完全不同：

PG：JSONB + GIN index over 整個 column
MySQL：JSON column + generated column + index over generated

PG JSONB GIN 是 結構性領先、MySQL 短期內難對應。詳見 MySQL Modern SQL Features。

觀測 metric

pg_column_size(metadata) — 每 row JSONB size 分布
pg_relation_size('idx_name') — JSONB GIN index 大小
pg_stat_user_indexes.idx_scan — JSONB index 使用次數
TOAST table size：SELECT pg_relation_size(reltoastrelid) FROM pg_class WHERE relname='products'

PostgreSQL Extension Ecosystem：把 PG 變成 vector DB / time-series / sharded 的 plugin 生態

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 extension ecosystem — PG 結構性產品線擴張的機制。

Extension 不只是 plugin、是產品線擴張

PG extension 機制讓 第三方加新 type / function / operator / index access method / planner hook、深度整合到 PG core。對比其他 DB 的 plugin model（MySQL plugin / MongoDB plugin）、PG extension 是 更深的 SPI。

結果：

pgvector → PG 變 vector similarity search DB（取代 Pinecone / Weaviate）
TimescaleDB → PG 變 time-series DB（取代 InfluxDB）
Citus → PG 變 sharded cluster
PostGIS → PG 變 GIS DB
pg_cron → PG 變 scheduled job runner
pgvectorscale → 大規模 vector index

對 vendor lock-in 敏感 / 想統一 stack 的 org、PG extension 提供 用 PG 取代多個 specialized DB 的可能。

但 統一 stack 的代價：PG 主庫 ops 風險集中（一個 PG 掛 = vector / time-series / GIS / cron 全掛）、extension 跟 PG version 對齊矩陣多一道升級顧慮、規模上限通常比專業 DB 低（pgvector 100M+ vs Pinecone 10B+ / TimescaleDB 100K rows/s vs InfluxDB 500K+）。決策框架：中小規模 + 已用 PG + 不想多管系統 → extension；大規模 + 純該 workload + 有專業 team → specialized DB。

Extension Lifecycle

 1-- 看可用 extension
 2SELECT * FROM pg_available_extensions;
 3
 4-- 安裝（在 OS 層、要有對應 package）
 5-- apt install postgresql-14-pg-stat-statements
 6
 7-- Enable in DB
 8CREATE EXTENSION pg_stat_statements;
 9
10-- 確認
11SELECT * FROM pg_extension;
12
13-- 升級 extension
14ALTER EXTENSION pg_stat_statements UPDATE;
15
16-- 移除
17DROP EXTENSION pg_stat_statements;

每個 extension 有：

Version — 跟 PG version 綁定（如 pg_stat_statements 14 / 15 / 16）
Schema — 安裝到 public 或專屬 schema
Dependencies — 部分 extension 依賴其他（如 PostGIS 依賴 pg_trgm）
Trusted vs untrusted — trusted 可以 non-superuser 安裝（PG 13+）

6 個 Production-Critical Extension

1. pg_stat_statements — Query stats（必裝）

任何 production PG cluster 都該裝：

1# postgresql.conf
2shared_preload_libraries = 'pg_stat_statements'
3pg_stat_statements.max = 5000
4pg_stat_statements.track = all

1CREATE EXTENSION pg_stat_statements;
2
3-- Top 10 query by total time
4SELECT query, calls, total_exec_time, mean_exec_time, rows
5FROM pg_stat_statements
6ORDER BY total_exec_time DESC LIMIT 10;

對應 MySQL events_statements_summary_by_digest。詳見 Query Optimization。

2. pg_partman — 自動 partition lifecycle

PG declarative partitioning 需要 手動建 / drop partition。pg_partman 自動化：

 1CREATE EXTENSION pg_partman SCHEMA partman;
 2
 3-- 設 events 表自動 monthly partition
 4SELECT partman.create_parent(
 5    p_parent_table => 'public.events',
 6    p_control => 'created_at',
 7    p_type => 'range',
 8    p_interval => '1 month',
 9    p_premake => 6  -- 預先建 6 個未來 partition
10);
11
12-- 跑 maintenance（建未來 partition + drop 老 partition）
13SELECT partman.run_maintenance(p_analyze => false);
14-- 預設用 pg_cron 排程

對 time-series partition workload 必裝。詳見 Declarative Partitioning。

3. pg_repack — Online table rewrite

詳見 Online Schema Change。

4. pgvector — Vector similarity search

LLM embedding / semantic search 場景必裝：

 1CREATE EXTENSION vector;
 2
 3CREATE TABLE documents (
 4    id SERIAL PRIMARY KEY,
 5    content TEXT,
 6    embedding VECTOR(1536)  -- OpenAI text-embedding-3-small 1536-dim
 7);
 8
 9-- HNSW index（pgvector 0.5+）
10CREATE INDEX ON documents USING HNSW (embedding vector_cosine_ops);
11
12-- 找最相似的 5 個
13SELECT * FROM documents
14ORDER BY embedding <=> '[0.1, 0.2, ...]'::vector
15LIMIT 5;

對 中小規模 RAG / semantic search workload、pgvector 在 PG 內跑、不必跨 Pinecone / Weaviate / Qdrant 等獨立服務。

對 超大規模 vector workload（> 1 億 vector）考慮 pgvectorscale（pgvector 的 streaming variant）或專業 vector DB。

5. TimescaleDB — Time-series 擴展

把 PG 變 time-series DB：

 1CREATE EXTENSION timescaledb;
 2
 3CREATE TABLE metrics (
 4    time TIMESTAMPTZ NOT NULL,
 5    device_id INT,
 6    value DOUBLE PRECISION
 7);
 8
 9-- 轉成 hypertable（auto-partition by time）
10SELECT create_hypertable('metrics', 'time');
11
12-- Continuous aggregate（materialized view 自動 refresh）
13CREATE MATERIALIZED VIEW metrics_5min
14WITH (timescaledb.continuous) AS
15SELECT time_bucket('5 minutes', time) AS bucket,
16       device_id, avg(value)
17FROM metrics
18GROUP BY bucket, device_id;

對 IoT / monitoring / financial tick data 場景、TimescaleDB 比純 PG 寫吞吐高 10x+。

6. PostGIS — GIS extension

地理 / 空間 query 業界標準：

 1CREATE EXTENSION postgis;
 2
 3CREATE TABLE stores (
 4    id SERIAL PRIMARY KEY,
 5    name TEXT,
 6    location GEOGRAPHY(POINT, 4326)
 7);
 8
 9CREATE INDEX ON stores USING GIST (location);
10
11-- 找 1 km 內的 store
12SELECT * FROM stores
13WHERE ST_DWithin(location, ST_MakePoint(121.5, 25.05)::geography, 1000);

PostGIS 是 GIS workload 業界標準、其他 DB GIS 能力都對標 PostGIS。

其他常用 extension

除 6 個 production-critical 之外、以下是 特定場景常用 的 extension — 分四類：排程跟 utility（pg_cron / pg_trgm / uuid-ossp）、type 擴展（hstore / citext / pgcrypto）、跨 DB 整合（postgres_fdw / mysql_fdw）、observability / debug 工具（pg_buffercache / pg_visibility / auto_explain）：

Extension	用途
`pg_cron`	排程 SQL job（不必外部 cron）
`pg_trgm`	Fuzzy string match / similarity
`uuid-ossp`	UUID 產生
`hstore`	Key-value pair type
`citext`	Case-insensitive text type
`pgcrypto`	加密 / hash function
`postgres_fdw`	PG → PG foreign table
`mysql_fdw`	PG → MySQL foreign table
`pg_buffercache`	Buffer pool 內容檢視
`pg_visibility`	Visibility map 檢視（debug bloat）
`auto_explain`	Slow query 自動 log plan
`wal2json`	Logical decoding output 為 JSON
`Citus`	Distributed PG
`pgvector`	Vector similarity
`pglogical`	Logical replication（功能比 native 強）
`pg_squeeze`	pg_repack 替代

實務組合：observability 三件套（pg_stat_statements + auto_explain + pg_buffercache）幾乎是 production 標配；FDW 是「跨 DB query」的 escape hatch、但 cross-DB query 效能差、適合 reporting 不適合 OLTP。

5 個 Production 踩雷

1. Extension version 跟 PG version 對齊

PG cluster 升 14 → 15 後、extension（pg_stat_statements / pg_partman / pgvector 等）必須有對應 15 版本。早期升級 / niche extension 可能還沒釋出。

修法：

升 PG cluster 前 先確認所有 extension 都有對應 PG version 釋出版本
升完 PG cluster 立即跑 ALTER EXTENSION xxx UPDATE
Upgrade runbook 紀錄每個 extension 的版本兼容狀態

2. Managed PG 限制 extension 列表

AWS RDS / Aurora PG / Cloud SQL / Azure DB for PostgreSQL 各自有 支援 extension 白名單：

不在白名單的 extension 不能 install
部分 extension 限定特定 PG version
Untrusted extension 通常不允許

常見 managed 不支援 的 extension：

pg_repack（Aurora 有限支援、RDS 部分 version 支援）
pglogical（部分 cloud 不支援）
pg_cron（cloud 通常用 managed scheduler 取代）
Custom extension（自寫 .so）

修法：

評估 managed PG 之前、先查 vendor 支援 extension 列表
Self-hosted vs managed 的 跨雲 portability 議題：extension 是 lock-in source
如果 application 強依賴某 extension（如 PostGIS），確認 cloud 支援

3. Extension upgrade order

pg_upgrade 升 PG major version 後、extension 也要升。順序：

pg_upgrade PG binary + cluster
對每個 DB 跑 ALTER EXTENSION xxx UPDATE
部分 extension（如 PostGIS）需要 特殊升級程序（SELECT postgis_extensions_upgrade()）

修法：

升 PG 後 先測 staging cluster 確認 extension upgrade 流程
PostGIS / TimescaleDB / Citus 有自己 upgrade 程序、必須遵循 vendor doc
升完跑 \dx 看每個 extension 版本

4. `shared_preload_libraries` 衝突

部分 extension（pg_stat_statements / auto_explain / TimescaleDB / Citus / pg_cron）必須在 shared_preload_libraries 加進去、需要 重啟 PG。

衝突情境：

pg_partman + TimescaleDB 都用 background worker、worker 上限不夠
max_worker_processes 預設 8、不夠時某些 extension 起不起來

修法：

列出所有 shared_preload extension、確認 order（部分有 dependency）
提高 max_worker_processes = 16 / max_parallel_workers = 8 等
重啟 PG 才生效、計入 maintenance window

5. Extension 跟 logical replication 互動

Logical replication（pglogical / native）不自動 replicate extension state（function / type definition）。Subscriber 沒裝對應 extension、replicate event 失敗。

修法：

Subscriber 必須 先安裝 publisher 用的 extension
Extension 版本 publisher / subscriber 對齊
對 extension-heavy schema、考慮用 streaming replication（physical）而非 logical

Cloud Vendor 對 Extension 的支援

Vendor	常見 extension 支援	限制
AWS RDS PostgreSQL	pg_stat_statements / pg_partman / pgvector / pg_repack	部分 version 限制 / 不能 install custom
AWS Aurora PostgreSQL	同 RDS、加 Aurora-specific	pg_repack 限版本
GCP Cloud SQL	標準 extension 廣支援	pg_cron / pgvector OK
Azure DB for PostgreSQL	廣泛支援 + Azure 整合	Citus（managed 即 Cosmos DB for PG）
Self-hosted	全部	自己維護

對 extension-heavy application、self-hosted PG 仍是必要選擇。Managed PG 適合 標準 extension workload。

何時用 PG extension 取代專業 DB

場景	用 extension 還是專業 DB
< 100M vector + RAG / semantic search	pgvector（單一 stack 省 ops）
大規模 vector search > 10M with high QPS	專業 vector DB（Pinecone / Qdrant）
Time-series < 100 TB	TimescaleDB
Time-series > 100 TB + high cardinality	專業 TS DB（InfluxDB / VictoriaMetrics）
GIS	PostGIS（業界標準）
Sharded < 10 TB + multi-tenant	Citus
Sharded > 100 TB	distributed SQL（CockroachDB / TiDB）
Scheduled job	pg_cron（簡單）/ Airflow（複雜）

對中小規模、PG + extension 是 簡化 stack 的有效路徑。規模超過時、專業 DB 仍是首選。

跟其他模組整合

Citus Distributed：extension 一例、可看 extension model
Query Optimization：pg_stat_statements + auto_explain 必用
Online Schema Change：pg_repack 是 extension
Declarative Partitioning：pg_partman 是 extension
SQL Features Baseline：extension 是 PG 結構性領先之一

PostgreSQL Full-Text Search：tsvector / tsquery / GIN index 跟 pg_trgm fuzzy 三層搜尋

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 full-text search — 內建 tsvector / tsquery + pg_trgm fuzzy match。

PG FTS 機制：tsvector + tsquery + GIN index

PG 內建 full-text search 三件組：

tsvector：document 轉成 lexeme（字根 + position）vector、normalized 後存
tsquery：搜尋字串 parse 成 query 形式
GIN index：對 tsvector 加 inverted index

 1-- Document
 2SELECT to_tsvector('english', 'The quick brown fox jumps over the lazy dog');
 3-- 結果：'brown':3 'dog':9 'fox':4 'jump':5 'lazi':8 'quick':2
 4-- The/over 是 stop word 被過濾、jumps/lazy 轉字根、保留 position
 5
 6-- Query
 7SELECT to_tsquery('english', 'fox & dog');
 8-- 結果：'fox' & 'dog'
 9
10-- Match
11SELECT to_tsvector('english', 'The quick brown fox') @@ to_tsquery('english', 'fox & quick');
12-- → true

Index：

 1CREATE TABLE articles (
 2    id SERIAL PRIMARY KEY,
 3    title TEXT,
 4    body TEXT
 5);
 6
 7-- GIN index over tsvector (動態 cast)
 8CREATE INDEX idx_articles_fts ON articles
 9USING GIN (to_tsvector('english', title || ' ' || body));
10
11-- Query 用 index
12SELECT * FROM articles
13WHERE to_tsvector('english', title || ' ' || body) @@ to_tsquery('english', 'postgres & index');

跟 JSONB GIN index 同 GIN access method、不同 indexed expression。

Generated column 加速

每次 query 都跑 to_tsvector(...) 浪費 CPU。用 generated column 預存：

1ALTER TABLE articles ADD COLUMN fts tsvector
2GENERATED ALWAYS AS (to_tsvector('english', coalesce(title, '') || ' ' || coalesce(body, ''))) STORED;
3
4CREATE INDEX idx_articles_fts ON articles USING GIN (fts);
5
6-- Query 簡化
7SELECT * FROM articles WHERE fts @@ to_tsquery('english', 'postgres');

Stored generated column 是 PG 12+、自動跟 row update 同步。

Ranking + 加權

PG FTS 提供 ts_rank / ts_rank_cd 給結果排序：

1-- 簡單 ranking
2SELECT id, title, ts_rank(fts, query) AS rank
3FROM articles, to_tsquery('english', 'postgres & index') AS query
4WHERE fts @@ query
5ORDER BY rank DESC LIMIT 10;

加權（A > B > C > D）：

 1-- Title 比 body 重要
 2UPDATE articles SET fts =
 3    setweight(to_tsvector('english', coalesce(title, '')), 'A') ||
 4    setweight(to_tsvector('english', coalesce(body, '')), 'B');
 5
 6-- Query 用加權 ranking
 7SELECT id, title,
 8       ts_rank(fts, query, 32 /* normalize by document length */) AS rank
 9FROM articles, to_tsquery('english', 'postgres') AS query
10WHERE fts @@ query
11ORDER BY rank DESC;

ts_rank 第三 parameter 是 normalization flag：

0：no normalization
1：divide by document length
32：divide by uniqueness（避免短 doc 一律 rank 高）

Multi-language Support

PG 內建多種語言 dictionary：english / french / german / spanish / simple（不做 stemming）等。

對 中文 / 日文 / 韓文、PG 預設無支援、需要 extension：

zhparser（中文、用 SCWS 分詞）
pgroonga（多語言、支援中日韓）
RUM index（PG 自己 + 可選 dictionary）

1-- 中文用 zhparser
2CREATE EXTENSION zhparser;
3CREATE TEXT SEARCH CONFIGURATION chinese (PARSER = zhparser);
4ALTER TEXT SEARCH CONFIGURATION chinese
5ADD MAPPING FOR n,v,a,i,e,l WITH simple;
6
7-- 使用
8SELECT to_tsvector('chinese', '我愛 PostgreSQL 資料庫');

對 主要英文 search 場景 PG built-in 夠用、對 主要 CJK search 需要 extension。

pg_trgm — Fuzzy String Match

PG FTS 對 精確字根 match 強、對 拼錯 / similar string 弱。pg_trgm extension 提供 trigram-based fuzzy match：

 1CREATE EXTENSION pg_trgm;
 2
 3-- 對 column 建 GIN trigram index
 4CREATE INDEX idx_users_name_trgm ON users USING GIN (name gin_trgm_ops);
 5
 6-- Fuzzy match（similarity threshold 預設 0.3）
 7SELECT * FROM users WHERE name % 'jhon';
 8-- → 找到 'John'、'Johan'、'Johnny' 等 similar string
 9
10-- 顯式 similarity score
11SELECT name, similarity(name, 'jhon') FROM users
12ORDER BY similarity(name, 'jhon') DESC LIMIT 5;

用途：

Autocomplete / typeahead suggestion
拼錯容錯（user 輸入 typo）
ILIKE 加速（name ILIKE '%jhon%' 走 GIN trigram index）

跟 FTS 互補：

FTS：full document search、tokenize / stemming / ranking
pg_trgm：short string similarity、typo tolerance

5 個 Production 踩雷

1. Dictionary 選錯 — 中文搜不到

對中文 column 用 to_tsvector('english', text)、不分詞、整段當一個 token、搜不到任何結果。

修法：

中文用 zhparser / pgroonga
多語言 column 拆 per-language column 或用 simple dictionary（不 stemming、字元級 match）
確認 dictionary 選對：SELECT to_tsvector('chinese', '...') 看分詞結果

2. GIN vs GiST 取捨選錯

PG FTS 有兩種 index access method：

GIN：read fast、write slow、size 大、適合 read-heavy
GiST：read 慢、write fast、size 小、適合 write-heavy 或 small doc

預設選 GIN、適合 90% search workload。對 寫入頻繁 + 文件小 場景 GiST。

修法：

預設 GIN
寫吞吐 > 10K WPS 場景考慮 GiST 或 bulk index（先 disable index、bulk insert、重建 index）
GIN 有 fastupdate option、buffering 加速寫入（trade-off：read 慢）

3. Ranking 評分權重不對齊 business

ts_rank 預設不考慮 field weight、ts_rank_cd 考慮 cover density、兩者結果不同。Application 不知道 自己 query 對應哪個 rank function、結果隨機。

修法：

顯式選 ranking function：ts_rank 一般用、ts_rank_cd 對 proximity 重要 場景
設 field weight（A > B > C > D）反映 business priority（title > body > tags）
對 搜尋結果 用 A/B test 評估 ranking 質量、不靠直覺

4. Multi-language column 處理

Application 同表存多語言 row（user-generated content、不同 language）、用單一 to_tsvector('english', ...) 對中文 row 搜不到、對 french row 也 stem 錯。

修法：

加 language column 標每 row 語言

用 dynamic dictionary：

1ALTER TABLE articles ADD COLUMN fts tsvector
2GENERATED ALWAYS AS (
3    to_tsvector(
4        CASE WHEN language = 'zh' THEN 'chinese'::regconfig
5             WHEN language = 'fr' THEN 'french'::regconfig
6             ELSE 'english'::regconfig END,
7        coalesce(title, '') || ' ' || coalesce(body, '')
8    )
9) STORED;

Query 時用對應語言 to_tsquery

5. 何時不該用 PG FTS — 應該換 Elasticsearch / OpenSearch

PG FTS 適合 中小規模搜尋、不適合：

> 100M document high-QPS search
需要 complex aggregation（faceted search）
需要 advanced ranking（BM25 / learning to rank）
需要 分散式 search（PG FTS 是 single-node）
需要 near-real-time indexing（PG GIN update 較慢）

對這些場景、用 Elasticsearch / OpenSearch / Meilisearch / Typesense 等專業 search engine。

PG FTS 優勢是 跟 OLTP data 同 transaction — 不需要 ETL 同步 search index、application 寫 PG 立即 searchable。對 application data + search 是同源的場景 PG FTS 比較適合。

何時用 PG FTS

場景	選擇
Application internal search（admin / dashboard）	PG FTS
< 10M document、低 QPS（< 100/s）	PG FTS
Search 跟 OLTP data 同 transaction needed	PG FTS
Fuzzy / typo tolerance	PG FTS + pg_trgm
> 100M document + high QPS	Elasticsearch / OpenSearch
Faceted aggregation	Elasticsearch / OpenSearch
Vector similarity（semantic search）	pgvector（同 PG）

PG FTS + pgvector 組合對 中小規模 hybrid keyword + semantic search 是強選擇。

跟其他模組整合

JSONB Deep Dive：JSONB 跟 FTS 都用 GIN
Extension Ecosystem：pg_trgm / pgroonga / zhparser 都是 extension
Query Optimization：FTS query 的 EXPLAIN
Replication Topology：FTS GIN index 在 standby 自動 replicate

PostgreSQL Replication Slot Management：Physical / Logical / Failover Slot 治理

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 replication slot management — physical / logical / failover slot 三類治理。

Replication Slot 兩大類

PG 兩種 replication slot：

Physical Replication Slot

對應 streaming replication（physical WAL byte-level）：

1SELECT pg_create_physical_replication_slot('standby1_slot');

用於：

Streaming replication standby（Replication Topology）
pg_basebackup 用 slot 防 WAL 清理
高 lag standby 防 WAL premature deletion

Logical Replication Slot

對應 logical replication / logical decoding：

1SELECT pg_create_logical_replication_slot('my_slot', 'pgoutput');
2-- 或用 wal2json plugin
3SELECT pg_create_logical_replication_slot('debezium_slot', 'wal2json');

用於：

PG-to-PG logical replication（publication / subscription）
CDC（Debezium / Maxwell / pg_logical_emitter）
Multi-master replication（BDR / pgEdge / Spock）

logical slot 跟 physical slot 共存、各自獨立 retention。

Slot Lifecycle

1建立 → active（有 consumer）→ inactive（consumer 失聯）→ drop
2                                    ↓
3                              WAL 持續累積（直到推進 LSN 或 drop）

狀態查詢：

1SELECT slot_name,
2       slot_type,
3       active,
4       restart_lsn,
5       confirmed_flush_lsn,
6       pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) AS retained_wal
7FROM pg_replication_slots;

關鍵欄位：

slot_type：physical / logical
active：true / false（consumer 是否連著）
restart_lsn：slot 起點 LSN、primary 必須保留這以後的 WAL
confirmed_flush_lsn：logical slot 已 confirm flush 的 LSN
retained_wal：當前因 slot 累積的 WAL

Failover Slot Synchronization (PG 17+)

PG 17 之前的痛點：logical replication slot 是 primary 上的 state、failover 後 新 primary 沒這個 slot、CDC consumer 失聯、需要重建（大工程）。

PG 17 加 failover slot synchronization：

 1-- PG 17+：標 slot 為 failover-tracked
 2-- signature: pg_create_logical_replication_slot(slot_name, plugin, temporary, two_phase, failover)
 3SELECT pg_create_logical_replication_slot('my_slot', 'pgoutput', false, false, true);
 4--                                                                          ↑
 5--                                                                     failover=true（第 5 個參數）
 6-- 注意：第 4 個參數是 two_phase（這裡 false）、第 5 個才是 failover
 7
 8-- Standby 上 enable sync_replication_slots
 9ALTER SYSTEM SET sync_replication_slots = on;
10SELECT pg_reload_conf();

sync_replication_slots = on 後、physical replication 同步 slot state 到 standby。Failover promote standby 後、logical slot 仍可用、CDC consumer 重連即可。

PG 17 之前用 pgEdge / pglogical 等 extension 提供類似功能、現在 PG core 內建。

Orphan Slot 治理

active = false 的 slot 持續累積 WAL、disk 爆是 PG production 經典事故。

監控 orphan slot

1-- 找 inactive 太久的 slot
2SELECT slot_name, active, restart_lsn,
3       pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) AS retained_wal
4FROM pg_replication_slots
5WHERE NOT active
6  AND pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn) > 1024 * 1024 * 1024;  -- > 1 GB

自動 invalidate slot（PG 13+）

1-- postgresql.conf
2ALTER SYSTEM SET max_slot_wal_keep_size = '50GB';  -- slot 累積 > 50GB 自動 invalidate

當 slot 累積 WAL 超過 max_slot_wal_keep_size、PG 自動 invalidate slot（active=false 且不再保留 WAL）。Consumer 重連會 fail、必須重建（base backup + new slot）。

這是 trade-off：

設 limit → 保護 disk、但 consumer 失聯 → 大重建工作
不設 limit → consumer 失聯 OK、但 disk 爆

實務多數設 max_slot_wal_keep_size 給 disk capacity 50%、避免徹底 disk full。

手動 drop orphan slot

1-- 確認 slot 真的不需要
2SELECT * FROM pg_replication_slots WHERE slot_name = 'old_standby_slot';
3
4-- Drop
5SELECT pg_drop_replication_slot('old_standby_slot');

DR runbook 必須包含 standby 退役流程：先 standby fence、再 primary drop slot。

5 個 Production 踩雷

1. Orphan slot disk 爆

最經典 PG 事故：standby decomission 沒 drop slot、primary 持續保留 WAL、pg_wal/ 累積到 disk full、primary 也掛。

修法：

監控 pg_replication_slots + pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) retained_wal
設 max_slot_wal_keep_size（PG 13+）— hard limit
Standby 退役 runbook 強制 先 fence、再 drop slot
Cron job 自動 alert orphan slot

2. Logical slot lag — CDC consumer 跟不上

Logical decoding 比 physical replication 慢（per-transaction logical event 重組）。CDC consumer（Debezium）跟不上 → slot lag 累積。

修法：

監控 pg_replication_slots.confirmed_flush_lsn 跟 primary pg_current_wal_lsn() 對比
CDC consumer 性能調整（throughput / batch size）
Throttle source writes（如果不能升 consumer）
對 hot table 拆 publication / subscription、避免單 slot 處理所有變更

詳見 Logical Replication + Debezium。

3. Failover 後 logical slot 丟（PG 16 之前）

PG 16 之前、failover promote standby、新 primary 沒有原 logical slot。CDC consumer 試連、ERROR: replication slot "xxx" does not exist。

修法（PG 17+）：

用 failover slot synchronization（如上）
pg_create_logical_replication_slot(..., failover := true)
Standby sync_replication_slots = on

修法（PG 16-）：

用 pglogical 或 pgEdge extension
Failover runbook 包含 新 primary 重建 logical slot（CDC consumer 重 snapshot）
Pre-create slot on standby + manual sync（早期 workaround）

4. `wal_keep_size` 跟 slot 衝突

wal_keep_size（PG 13+）/ wal_keep_segments（< 13）跟 slot 都會保留 WAL：

wal_keep_size：固定 minimum WAL 保留量
Slot：動態保留直到 consumer 推進

兩者一起 set 時：實際保留 WAL = max(wal_keep_size, slot 需要的量)。

修法：

wal_keep_size 設小（如 1-2 GB）作 minimum backup
主要靠 slot 動態保留 — 給 active consumer
監控 pg_wal/ 大小 + 拆解 retention source（wal_keep_size vs slot 各佔多少）

5. Slot 數量上限

max_replication_slots 預設 10、不夠時新 slot 建不出來、報錯。

修法：

Production 大 cluster 設 max_replication_slots = 50 或更多
對 standby + logical replication + CDC consumer 同時跑、計算需要的 slot 數
監控 SELECT count(*) FROM pg_replication_slots 接近 limit 時告警

Slot Naming Convention

Production 大 cluster 多 slot、命名 convention 重要：

1__
2例：
3- physical_standby1_replication
4- physical_standby2_replication
5- logical_debezium_orders_cdc
6- logical_pgedge_node2_subscription
7- physical_pgbasebackup_temp（base backup 用、completed 後 drop）

清楚命名讓 看 slot 名 就知道用途、誰負責、能不能 drop。

跟其他模組整合

Replication Topology：physical slot 給 streaming replication 用
Logical Replication + Debezium：logical slot 給 CDC
BDR / Multi-Master：multi-master 大量用 logical slot
PITR + WAL Archiving：WAL archive 跟 slot 是兩種 WAL retention 機制、可並行

監控 metric

Production 持續監控：

pg_replication_slots.active — 失聯 slot
pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn) — slot 累積 WAL
pg_replication_slots.confirmed_flush_lsn vs pg_current_wal_lsn() — logical slot lag
pg_ls_waldir() 看 pg_wal/ 目錄大小
count(*) FROM pg_replication_slots 對 max_replication_slots 比例

把這些丟進 Datadog / Prometheus + alert。

TimescaleDB Deep Dive：Hypertable / Continuous Aggregate / Compression 把 PG 變 Time-Series DB

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 TimescaleDB extension — 用 PG 解 time-series workload 的路徑、跟 extension-ecosystem 是 單一 extension 細節 vs ecosystem 全景 的關係。

TimescaleDB 是 PG 的 Time-Series Specialization

TimescaleDB 不是獨立 DB、是 PG extension：

1CREATE EXTENSION timescaledb;

加完後、PG 多三個 time-series 專屬機制：

Hypertable：對 time column 自動 partition、應用層看是一張表
Continuous aggregate：incremental refresh 的 materialized view
Compression：對舊 chunk 壓縮（columnar-like format）

跟專業 time-series DB（InfluxDB / Prometheus / VictoriaMetrics）對比、TimescaleDB 的賣點不是「最快」而是「PG ecosystem 一致」：

維度	TimescaleDB	InfluxDB	Prometheus
Query 語言	標準 SQL	InfluxQL / Flux	PromQL
寫入效能	中（10-100K rows/s）	高（500K+ rows/s）	中（pull-based scrape）
壓縮	90%+（columnar compression）	高	高
Join	完整 SQL join	弱	不支援
跟既有 PG schema	同一個 DB、可 join	獨立	獨立
生態	完整 PG ecosystem	自家 ecosystem	自家 ecosystem
Open source	Apache 2.0（部分功能 TSL license）	MIT	Apache 2.0

何時選 TimescaleDB：

Application 已用 PG、不想多管一套 time-series DB
需要 join time-series 跟 application 表（user / device metadata）
不需 InfluxDB 級寫入速度（< 100K rows/s）
Team SQL 熟、PromQL / Flux 學習成本不想付

何時選 InfluxDB / Prometheus（不選 TimescaleDB）：

High-cardinality metric（10M+ unique series）— TSDB-purpose-built engine 在 cardinality 跟 retention 上比 hypertable 高效
Pull-based scrape model（Prometheus）跟 alerting / Grafana 生態深整合
PromQL operator（rate() / histogram_quantile()）對 metric query 比 SQL 直覺
TSL license 不能接受（TimescaleDB 部分功能在 Timescale License、不是純 Apache 2.0）
Operational team 已熟 InfluxDB / Prometheus、不想多學 PG 維運

Hypertable：自動 Time-based Partitioning

普通 PG 表變 hypertable：

1CREATE TABLE sensor_data (
2    time        TIMESTAMPTZ NOT NULL,
3    sensor_id   INTEGER NOT NULL,
4    temperature DOUBLE PRECISION,
5    humidity    DOUBLE PRECISION
6);
7
8-- 變 hypertable、按 time 自動 partition
9SELECT create_hypertable('sensor_data', 'time');

Hypertable 機制：

後台自動拆 chunk（child partition）by time interval（預設 7 天）
Application 看到的是 sensor_data 一張表、實際資料分散在 _timescaledb_internal._hyper_*_chunk 表
Query 自動 chunk pruning（只掃命中時間範圍的 chunk）

Chunk interval 選擇很關鍵：

Chunk interval	適用	問題
1 小時	高頻 metrics（每秒 100+ row）	Chunk 太多、catalog 膨脹
1 天	中高頻（每秒 10-100 row）	OK
7 天（預設）	中頻（每分鐘 row）	OK
30 天	低頻（每小時 row）	OK

通用原則：每個 chunk 25% RAM、超過退化 disk IO。Production 監控 chunk_size 跟 shared_buffers ratio 自動調。

Multi-dimensional hypertable（time + space partition）：

1-- 按 time + device_id 雙維 partition
2SELECT create_hypertable('sensor_data', 'time',
3    partitioning_column => 'sensor_id',
4    number_partitions => 16
5);

適用 sensor 數 1000+ 的 IoT workload、單 chunk 太大時用 space partition 拆。

Continuous Aggregate（CAGG）：Incremental Materialized View

普通 PG materialized view 是 全量重算、TimescaleDB CAGG 是 incremental refresh：

 1-- 1 小時粒度聚合
 2CREATE MATERIALIZED VIEW sensor_hourly
 3WITH (timescaledb.continuous) AS
 4SELECT
 5    time_bucket('1 hour', time) AS hour,
 6    sensor_id,
 7    avg(temperature) AS avg_temp,
 8    max(temperature) AS max_temp,
 9    min(temperature) AS min_temp,
10    count(*) AS sample_count
11FROM sensor_data
12GROUP BY hour, sensor_id;
13
14-- 加 refresh policy（每 30 分鐘 refresh 過去 1 天）
15SELECT add_continuous_aggregate_policy('sensor_hourly',
16    start_offset => INTERVAL '1 day',
17    end_offset => INTERVAL '30 minutes',
18    schedule_interval => INTERVAL '30 minutes'
19);

CAGG 機制：

記錄哪些 time bucket 已 materialize、哪些 stale
Refresh 時只重算 stale bucket、不全量
Query CAGG 自動 fallback 到原 hypertable 補最新資料（real-time aggregation）

CAGG vs 普通 MV 對比：

維度	TimescaleDB CAGG	普通 PG MV
Refresh 模式	Incremental	全量重算
Refresh 時間	秒級	表大時數十分鐘
Real-time fallback	自動補最新	不支援、需手動 union
Storage	多一份 aggregated	多一份 aggregated
Policy	內建排程	需 pg_cron / 外部排程

CAGG hierarchy（多層聚合）：

1-- 從 1 hour CAGG 再聚合到 1 day
2CREATE MATERIALIZED VIEW sensor_daily
3WITH (timescaledb.continuous) AS
4SELECT
5    time_bucket('1 day', hour) AS day,
6    sensor_id,
7    avg(avg_temp) AS daily_avg
8FROM sensor_hourly
9GROUP BY day, sensor_id;

Application query 不同時間範圍時自動命中對應粒度、不必每次掃原始資料。

Compression：把舊 Chunk 壓 90%+

舊 chunk 可以開啟 compression：

1-- 開啟 compression（必須先設定 segment by）
2ALTER TABLE sensor_data SET (
3    timescaledb.compress,
4    timescaledb.compress_segmentby = 'sensor_id',
5    timescaledb.compress_orderby = 'time DESC'
6);
7
8-- 自動壓縮 policy：7 天前 chunk 壓
9SELECT add_compression_policy('sensor_data', INTERVAL '7 days');

Compression 機制：

把 chunk 內 row 按 segmentby 分組
每組內按 orderby 排序後、把每 column 變成 columnar array
對 array 用 type-specific 壓縮（Gorilla for float / delta-of-delta for timestamp / dictionary for string）

實際壓縮率：

Workload	壓縮率
IoT sensor（重複值多）	95-98%
Application metrics	90-95%
Trade tick（隨機浮點）	70-85%
Log line（高 cardinality string）	50-70%

Compression 限制（重要）：

壓縮後 chunk 不能 UPDATE / DELETE 單 row（要先 decompress）
壓縮後 chunk 不能加 column（要 decompress 所有 chunk）
壓縮後 chunk 只能 append new row、不能改舊 row
DDL 變更（加 column / 改 index）需 decompress

實務：compression 是 write-once cold data 的工具、active OLTP chunk 不開。

Retention Policy：自動刪舊資料

1-- 1 年前 chunk 自動刪
2SELECT add_retention_policy('sensor_data', INTERVAL '1 year');

Retention drop 整個 chunk（不是 DELETE row）、O(1) 操作、不產生 bloat。

CAGG 有獨立 retention：

1-- 原始資料只留 30 天、aggregated 留 5 年
2SELECT add_retention_policy('sensor_data', INTERVAL '30 days');
3SELECT add_retention_policy('sensor_hourly', INTERVAL '5 years');

這是 TimescaleDB 跟普通 PG partitioning 最大的價值差 — 普通 PG 要自己寫 cron drop partition、TimescaleDB policy 內建。

5 個 Production 踩雷

Case 1：Chunk size 不對、catalog 膨脹

情境：sensor 每秒寫 10 row、chunk_interval 設 1 小時、一年產 8760 chunk、pg_class 撐到 200 萬 row、planner 變慢。

修法：

Chunk 數量上限 ~10000、超過 catalog overhead 出現
重設 chunk_interval：SELECT set_chunk_time_interval('sensor_data', INTERVAL '1 day');
已存在 chunk 不會自動 merge、要靠 retention drop 自然消化

Case 2：CAGG refresh 落後 real-time

情境：CAGG refresh policy 每 1 小時跑、application 期待「即時 dashboard」、看到的數字落後 1 小時。

修法：

縮短 schedule_interval（5 分鐘）
用 real-time aggregation（預設 ON、CAGG 自動 union 原始資料）
確認 materialized_only = false（real-time aggregation 開啟）

1ALTER MATERIALIZED VIEW sensor_hourly SET (timescaledb.materialized_only = false);

Case 3：Compression 後想 UPDATE

情境：發現某個歷史 row 數值錯、想 UPDATE、報錯 cannot update/delete from compressed chunk。

修法：

1-- 找到該 chunk 並 decompress
2SELECT decompress_chunk(c) FROM show_chunks('sensor_data',
3    older_than => INTERVAL '7 days') c WHERE c::text LIKE '%_5_chunk';
4
5-- UPDATE 完再 compress 回去
6UPDATE sensor_data SET temperature = 22.5 WHERE ...;
7SELECT compress_chunk(...);

或設計階段就避免 — compression 用在 immutable data、有可能改的留未壓。

Case 4：Hypertable 不能加 FK 到 non-hypertable

情境：想對 sensor_data 加 FK 到 sensors 表、報錯 foreign key constraints with hypertables are not supported。

修法：

Application 層維護 referential integrity
或反過來：sensors 可以 FK 到 hypertable（特定方向支援）
TimescaleDB 2.11+ 部分支援 FK from hypertable、但限制多

Case 5：TimescaleDB 跟 PG 主版本對齊

情境：PG 升級 14 → 16、TimescaleDB extension 沒對應升級、PG 啟動 fail。

TimescaleDB 跟 PG 版本對齊矩陣：

TimescaleDB	支援 PG version	備註
2.11+	13, 14, 15
2.13+	13, 14, 15, 16	加 PG 16 支援
2.15.x	13, 14, 15, 16	最後支援 PG 13 的 minor
2.16+	14, 15, 16	PG 13 drop
2.17+	14, 15, 16, 17	PG 17 加入（需 17.2+ binary 對齊）
2.18+	14, 15, 16, 17	PG 17 完整支援
2.23+	14, 15, 16, 17, 18	PG 18 加入

修法：

升 PG 前先升 TimescaleDB 到支援目標 PG 版本的 extension
Production 升級順序：TimescaleDB minor upgrade → PG major upgrade → TimescaleDB final upgrade
Cloud managed（Timescale Cloud）自動處理

跟 PG 原生 Partitioning 對比

PG 10+ 有 declarative partitioning、不一定要 TimescaleDB：

維度	TimescaleDB hypertable	PG declarative partitioning
自動建 chunk	是	否（需手動或 pg_partman）
Chunk pruning	自動	自動（需 partition key）
Retention 內建	是	否（pg_partman 或自寫 cron）
Compression	內建 columnar	否
Continuous aggregate	內建	否（自寫 incremental refresh）
跨 chunk index	統一 management	Per-partition index
Cardinality limit	10000+ chunk OK	1000+ partition 就慢

何時用原生 partitioning（不用 TimescaleDB）：

不需要 compression / CAGG
Partition 數 < 1000
已用 pg_partman 不想換
公司禁用 TSL license（TimescaleDB 部分功能受限）

何時用 TimescaleDB：

高頻 time-series（compression 必要）
需要 CAGG（手寫 incremental MV 成本高）
Partition 數 > 1000
IoT / metrics / observability workload

詳細 partitioning 機制看 declarative-partitioning。

下一步

看 extension-ecosystem 了解其他 PG 擴展選項
回 PostgreSQL overview 看全圖

pgvector Deep Dive：HNSW / IVFFlat 取捨跟跟專業 Vector DB 對比

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 pgvector extension — 用 PG 解 vector search workload 的路徑、是 extension-ecosystem 內最受關注的 extension。

pgvector 是 PG 變 Vector DB 的最短路徑

pgvector 加兩件事：

 1CREATE EXTENSION vector;
 2
 3-- 加 vector column（dimension 必須事先決定）
 4CREATE TABLE documents (
 5    id SERIAL PRIMARY KEY,
 6    content TEXT,
 7    embedding vector(1536)  -- OpenAI ada-002 維度
 8);
 9
10-- 三種 distance operator
11SELECT * FROM documents ORDER BY embedding <-> '[0.1, 0.2, ...]' LIMIT 10;  -- L2
12SELECT * FROM documents ORDER BY embedding <#> '[0.1, 0.2, ...]' LIMIT 10;  -- inner product
13SELECT * FROM documents ORDER BY embedding <=> '[0.1, 0.2, ...]' LIMIT 10;  -- cosine

Operator 對應：

Operator	意義	適用
`<->`	L2 distance	通用、空間距離
`<#>`	Negative inner product	normalized vector、cosine 等價
`<=>`	Cosine distance	embedding 比較最常用

對 OpenAI / Cohere / sentence-transformers embedding、通常用 <=>（cosine）— embedding model 訓練時是 cosine objective。

ANN Index 是 Vector Search 的核心

不加 index 的 ORDER BY embedding <=> ? 是 full scan：

100K row、1536 dim、每 query ~2-5s（不可用）
1M row 直接超時

pgvector 提供兩種 Approximate Nearest Neighbor（ANN）index：

Index	Build 時間	Query 時間	Recall@10	Memory cost	Update 行為
IVFFlat	快（分鐘級）	中（10-100ms）	90-95%	中（lists 數量）	Insert OK、需重建保持 recall
HNSW	慢（小時級）	快（1-10ms）	95-99%	高（2-4x 資料）	Insert OK、graph 漸進維護

選 IVFFlat 的場景：

Embedding 量 < 1M
Build 時間敏感（CI / batch 環境）
Memory 緊
接受重建 cost（每月 / 每季）

選 HNSW 的場景：

Embedding 量 1M-100M
Query latency < 50ms 要求
Memory 充足
Insert 量穩定（不會爆炸性增長）

IVFFlat：分 Cluster 找鄰居

IVFFlat 機制：

Build：跑 k-means 把所有 vector 分 lists 個 cluster
Query：先找最近的 probes 個 cluster、再在這些 cluster 內找 nearest neighbor

1-- Build（lists 數量重要）
2CREATE INDEX ON documents USING ivfflat (embedding vector_cosine_ops) WITH (lists = 100);
3
4-- Query 時調 probes 換 recall vs latency
5SET ivfflat.probes = 10;
6SELECT * FROM documents ORDER BY embedding <=> ? LIMIT 10;

Lists 跟 probes sizing 規則（pgvector 官方建議）：

Row count	lists 建議	probes 建議
< 1M	`rows / 1000`	`sqrt(lists)`
> 1M	`sqrt(rows)`	`sqrt(lists)`

實務：100K row → lists=100 / probes=10、1M row → lists=1000 / probes=32。

IVFFlat 的 recall drift：cluster 是 build 時固定的、新 insert 的 vector 進入「最近 cluster」、但隨資料分布改變、cluster center 可能不再代表性、recall 隨時間下降。

修法：定期 REINDEX INDEX CONCURRENTLY ...（每月 / 每 100K 新 row）。

HNSW：Multi-level Graph 找鄰居

HNSW（Hierarchical Navigable Small World）機制：

多層 graph、上層稀疏、下層密集
Query 從上層 entry point 開始、逐層找近鄰、最後在底層精細搜尋
Insert 漸進維護 graph、不必重建

1-- Build（兩個關鍵參數）
2CREATE INDEX ON documents USING hnsw (embedding vector_cosine_ops)
3WITH (m = 16, ef_construction = 64);
4
5-- Query 時調 ef_search
6SET hnsw.ef_search = 100;
7SELECT * FROM documents ORDER BY embedding <=> ? LIMIT 10;

參數含義：

參數	含義	預設	Trade-off
`m`	每 node 最多鄰居數	16	大 → recall 高、memory 多
`ef_construction`	Build 時 graph 質量參數	64	大 → build 慢、graph 質量好
`ef_search`	Query 時搜尋範圍	40	大 → recall 高、latency 高

Build cost 真實量級（1M vector × 1536 dim）：

配置	Build 時間	Memory	Recall@10
m=8, ef_construction=32	30 min	4GB	92%
m=16, ef_construction=64	2 hour	8GB	96%
m=32, ef_construction=200	8 hour	16GB	98%

Production 多數選中間 m=16, ef_construction=64、recall / cost 平衡。

Hybrid Search：Vector + Filter 一起

Vector search 加 SQL filter 是 pgvector 比專業 vector DB 強的場景：

1-- Vector + metadata filter
2SELECT * FROM documents
3WHERE category = 'tech' AND created_at > '2025-01-01'
4ORDER BY embedding <=> '[0.1, 0.2, ...]'
5LIMIT 10;

但這裡有個 pgvector 的踩雷：filter 跟 ANN index 互動有兩種模式：

Pre-filter（planner 選）：先 filter 出符合條件的 row、再對 subset 跑 vector ordering → 不用 ANN index、可能慢
Post-filter：用 ANN index 找 top-N、再 filter、可能 N 不夠補

pgvector 0.8+（2024-10 release）加入 iterative index scan：HNSW / IVFFlat 一邊掃 graph 一邊 filter、效能比 pre-filter 好 5-10x。0.7+（2024-07）加 halfvec / binary quantization / parallel HNSW build。

實務：filter selectivity 高（< 10%）時、考慮對 filter column 加 index 走 pre-filter；selectivity 低（> 50%）走 iterative scan。

Quantization 跟 Dimension Reduction

1536 dim float32 vector 一筆 6KB、1M row 6GB、加 HNSW index 後 ~20GB。Memory 緊時的省法：

Half-precision（pgvector 0.7+）

1CREATE TABLE documents (
2    embedding halfvec(1536)
3);

halfvec 是 float16、storage 減半、recall 損失通常 < 1%。

Binary quantization

1-- 把每維壓成 1 bit
2CREATE INDEX ON documents USING hnsw (embedding bit_hamming_ops);

Recall 下降明顯（85-90%）、但 storage 1/32、適合「先粗篩再 rerank」hybrid pipeline。

Dimension reduction

訓練 PCA / Matryoshka model 把 1536 dim 降到 256-512 dim、recall 通常損失 < 3%、storage 1/3-1/6。

5 個 Production 踩雷

Case 1：Dimension 超 2000 限制

情境：要用 OpenAI text-embedding-3-large（3072 dim）、CREATE TABLE ... embedding vector(3072) 報錯。

pgvector vector type 上限 2000 dim（IVFFlat / HNSW index 限制）。

修法：

改用 halfvec（pgvector 0.7+ 支援 4000 dim）
用 Matryoshka 截斷到 2000 dim 以下
換 embedding model（OpenAI text-embedding-3-small 1536 dim / 可截斷到 256-1024）

Case 2：HNSW build 太慢

情境：1M row build HNSW、跑 8 小時、blocking production。

修法：

1-- 用 CONCURRENTLY 不 block
2CREATE INDEX CONCURRENTLY ON documents USING hnsw (...);
3
4-- 開 maintenance_work_mem
5SET maintenance_work_mem = '8GB';
6
7-- 開 parallel
8SET max_parallel_maintenance_workers = 7;

仍慢的話、考慮：

切分 batch insert + index（適合 read-heavy）
用 IVFFlat 短期上線、之後再切 HNSW
改用 cloud managed pgvector（提供更大 instance）

Case 3：IVFFlat 不重建 recall 漂移

情境：IVFFlat build 時資料 100K、現在 500K、新資料 recall 從 92% 降到 75%、user 抱怨「找不到相關文件」。

修法：

Monitor recall：定期跑 ground-truth eval（brute-force 對比）
設定 reindex policy：每 100K 新 row 或每月 reindex
換 HNSW：insert 漸進維護、不需 reindex（trade-off：build 更慢）

情境：query WHERE user_id = ? ORDER BY embedding <=> ?、user_id 高選擇性（1/1M）、planner 選 vector index scan、掃到 top-K 全不符 user_id、補抓無止盡。

修法：

EXPLAIN 看 planner 選 pre-filter 還是 vector-first
對 user_id 加 B-tree index、強 planner pre-filter（hint 不容易、用 statistics）
pgvector 0.8+ 用 iterative scan、自動處理
設計 schema：高選擇性 filter（user_id）建議走 pre-filter；低選擇性（category）走 iterative

Case 5：Memory budget 沒抓

情境：1M vector × 1536 dim × HNSW（m=16）= ~12GB index、shared_buffers 8GB、index 不在 cache、每 query disk IO、latency 100ms+。

修法：

算 vector + index memory：row × dim × 4 bytes × (1 + index_overhead)
shared_buffers 至少能放 hot index portion
不行就降 dim（halfvec）/ 升 instance / 拆 sharded

跟專業 Vector DB 對比

維度	pgvector	Pinecone	Weaviate	Milvus
Query 介面	SQL	REST/gRPC API	GraphQL / REST	gRPC
Recall	95-99%（HNSW）	95-99%	95-99%	95-99%
Throughput	中（PG 限制）	高	高	高
Hybrid search	強（完整 SQL）	中（metadata filter）	中	中
跟既有 PG 整合	完美（同 DB join）	需 sync	需 sync	需 sync
Multi-tenant	row-level（PG 一致）	內建	內建	partition
Open source	是	否	是	是
Operational cost	跟 PG 一樣（管 PG 即可）	Managed-only	需自管或 cloud	需自管或 cloud
Scale 上限	10M-100M vector	10B+	1B+	10B+

選 pgvector 的場景：

Application 已用 PG、不想多管系統
Vector 量 < 100M
需要 join vector + relational
Team SQL 熟、不想學 API SDK
Cost 敏感（managed Pinecone 1M vector 月 ~$70+）

選專業 vector DB 的場景：

Vector 量 > 5-20M（依 dim / QPS / recall 要求、pgvector 在這個級別 + 高 QPS 已開始痛、不必撐到 100M 才換）
純 vector workload（沒 relational integration）
需要 multi-tenant SaaS
Throughput 要求極高（> 10K QPS）
不想自管 HNSW build / memory budget / recall drift（managed Pinecone 把這層 ops 轉嫁、cost 換 ops 時間）
需要 dim > 2000（pgvector vector type 限制、halfvec 可到 4000、再大需 dimension reduction）

下一步

看 extension-ecosystem 探索其他 PG 擴展可能
回 PostgreSQL overview 看全圖

PostGIS Deep Dive：Geometry / Geography 型別、GiST 空間索引跟 ST_* 函式生態

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 PostGIS extension — PG 變 GIS DB 的標配、跟 extension-ecosystem 是 單一 extension 細節 vs ecosystem 全景 的關係。

PostGIS 是 PG 的 GIS Specialization

PostGIS 是 PG 最成熟的 extension 之一（2001 年起、25 年歷史）、產業地位等同 OracleSpatial / SQL Server geography：

1CREATE EXTENSION postgis;

加完後 PG 多兩件事：

空間型別：geometry（平面）/ geography（地球曲面）/ raster（柵格）
1000+ 函式：ST_Distance / ST_Within / ST_Buffer / ST_Intersects 等

用 PostGIS 解的典型 workload：

「離我最近的 N 家店」（k-NN）
「半徑 1km 內的所有 POI」（radius query）
「兩個 polygon 是否重疊」（intersection）
「polyline 總長度」（measurement）
「行政區包含哪些 point」（containment）

Geometry vs Geography：選錯付學費

PostGIS 提供兩種空間型別、用途完全不同：

維度	`geometry`	`geography`
座標系統	平面（笛卡兒）	地球曲面（spheroid）
距離單位	座標系統決定（meter / degree）	永遠 meter
跨經度 180°	不處理	自動處理
適用範圍	小區域（單一城市 / 國家）	全球
函式覆蓋	1000+ 函式	約 300 函式
效能	快（平面計算）	慢 2-5x（球面計算）
Index 行為	GiST 直接	GiST 直接

選 geography 的場景：

全球範圍 application（跨國 / 跨大陸）
距離精準度要求高（球面比平面誤差小）
不需要複雜空間運算（geography 函式較少）

選 geometry 的場景：

單一城市 / 國家內 application
需要完整 ST_* 函式（90% 函式只支援 geometry）
效能敏感

實務多數 production 選 geometry + 適合的 SRID（用 local projection）— 既快又精準。

SRID 跟 Projection：為什麼 4326 vs 3857 是 GIS 第一課

SRID（Spatial Reference System Identifier）定義「座標數字怎麼解讀」：

SRID	名稱	適用
4326	WGS 84（GPS）	經緯度、最常見、Google Maps API
3857	Web Mercator	Web tile map（OpenStreetMap）
3826	TWD97 / TM2 zone 121	台灣 local projection、米為單位
2272	NAD83 / Pennsylvania	美國 state plane（各州不同）

為什麼選 local projection（3826）而不是經緯度（4326）：

經緯度單位是度、不是距離 — ST_Distance 直接算出來是「度」、不是「米」
距離計算需 ST_DistanceSphere 或 geography cast、計算 cost 高
Local projection 是「平面投影」、ST_Distance 直接是米、ST_Area 直接是平方米

 1-- 4326 經緯度直接算 → 結果不是米
 2SELECT ST_Distance(
 3    ST_SetSRID(ST_MakePoint(121.5654, 25.0330), 4326),  -- 台北 101
 4    ST_SetSRID(ST_MakePoint(121.5170, 25.0478), 4326)   -- 台北車站
 5);  -- ~0.05（這是「度」）
 6
 7-- 轉 3826（台灣本地投影）才是米
 8SELECT ST_Distance(
 9    ST_Transform(ST_SetSRID(ST_MakePoint(121.5654, 25.0330), 4326), 3826),
10    ST_Transform(ST_SetSRID(ST_MakePoint(121.5170, 25.0478), 4326), 3826)
11);  -- ~5300（米）
12
13-- 或用 geography cast
14SELECT ST_Distance(
15    ST_SetSRID(ST_MakePoint(121.5654, 25.0330), 4326)::geography,
16    ST_SetSRID(ST_MakePoint(121.5170, 25.0478), 4326)::geography
17);  -- ~5300（米）

典型 schema 設計（台灣 application）：

 1CREATE TABLE pois (
 2    id SERIAL PRIMARY KEY,
 3    name TEXT,
 4    -- 儲存 4326（跟 Google Maps API 對齊）
 5    location_4326 geometry(Point, 4326),
 6    -- 預計算 3826（給距離 / 面積 query 用）
 7    location_3826 geometry(Point, 3826) GENERATED ALWAYS AS
 8        (ST_Transform(location_4326, 3826)) STORED
 9);
10
11CREATE INDEX idx_pois_location_3826 ON pois USING GIST (location_3826);

GiST 空間索引：R-tree 的 PG 實作

PostGIS 用 PG 內建 GiST 做空間索引（內部是 R-tree 變體）：

1CREATE INDEX idx_pois_geom ON pois USING GIST (location_3826);

GiST 對空間 query 加速的場景：

 1-- 範圍 query（box overlap）
 2SELECT * FROM pois
 3WHERE location_3826 && ST_MakeEnvelope(290000, 2760000, 305000, 2775000, 3826);
 4
 5-- 半徑 query（用 ST_DWithin 才走 index）
 6SELECT * FROM pois
 7WHERE ST_DWithin(location_3826, ST_SetSRID(ST_MakePoint(300000, 2770000), 3826), 1000);
 8
 9-- k-NN（PostGIS 2.0+ <-> operator）
10SELECT id, name, location_3826 <-> ST_SetSRID(ST_MakePoint(300000, 2770000), 3826) AS dist
11FROM pois
12ORDER BY location_3826 <-> ST_SetSRID(ST_MakePoint(300000, 2770000), 3826)
13LIMIT 10;

index 用沒用到的關鍵：

Query 寫法	走 index？
`ST_DWithin(a, b, dist)`	是
`ST_Distance(a, b) < dist`	否（必 full scan）
`a && bbox`	是
`ST_Intersects(a, bbox)`	是
`a <-> b ORDER BY ... LIMIT n`	是（k-NN）
`ST_Equals(a, b)`	否

Production 寫法守則：能用 ST_DWithin 就不用 ST_Distance(...) < ?、語意一樣但 index 行為差很多。

ST_* 函式生態：產業級全套

PostGIS 1000+ 函式分類（典型用到的）：

類別	代表函式
建構	`ST_MakePoint` / `ST_MakeLine` / `ST_MakePolygon`
關係判定	`ST_Intersects` / `ST_Within` / `ST_Contains` / `ST_Touches`
距離 / 大小	`ST_Distance` / `ST_DWithin` / `ST_Length` / `ST_Area`
變換	`ST_Buffer` / `ST_Union` / `ST_Difference` / `ST_Intersection`
投影	`ST_Transform` / `ST_SetSRID`
格式轉換	`ST_AsGeoJSON` / `ST_AsKML` / `ST_AsText` / `ST_GeomFromGeoJSON`
路徑 / 拓樸	`ST_ShortestLine` / `ST_LineMerge`
聚合	`ST_Collect` / `ST_ConvexHull` / `ST_Centroid`
簡化	`ST_Simplify` / `ST_SimplifyPreserveTopology`

Web tile 場景典型 query：

1-- 給定 z/x/y tile、找這個 tile 內的所有 POI
2SELECT id, name, ST_AsMVTGeom(location_3857, ST_TileEnvelope(z, x, y)) AS geom
3FROM pois
4WHERE location_3857 && ST_TileEnvelope(z, x, y);

ST_AsMVTGeom + ST_AsMVT 直接產 Mapbox Vector Tile binary、給前端 Leaflet / Mapbox GL JS 用。

5 個 Production 踩雷

Case 1：Geometry 用錯 SRID

情境：app 寫入時用 4326、query 時用 3826 ST_Transform、忘記給某個 column 設 SRID、index 失效。

修法：

 1-- 確認 SRID
 2SELECT ST_SRID(location) FROM pois LIMIT 1;
 3
 4-- 強 type 約束（column type 寫死 SRID）
 5ALTER TABLE pois ALTER COLUMN location TYPE geometry(Point, 4326)
 6USING ST_SetSRID(location, 4326);
 7
 8-- Check constraint 防錯
 9ALTER TABLE pois ADD CONSTRAINT chk_location_srid
10CHECK (ST_SRID(location) = 4326);

Case 2：Geography 不能用所有 ST_* 函式

情境：用 geography 想跑 ST_Buffer、報錯或結果不對。

ST_Buffer 對 geography 走 spheroid 近似、邊界 case 結果跟 geometry 不一致；很多函式（ST_Voronoi / ST_Delaunay 等）只支援 geometry。

修法：

簡單距離 query 用 geography
複雜空間運算用 geometry + 適合 projection
不確定哪些函式支援 geography、看 PostGIS docs Geography Support Functions 清單

Case 3：GiST index 不對 ST_Distance 生效

情境：query ST_Distance(location, ?) < 1000、EXPLAIN 顯示 full scan、加 index 也沒用。

ST_Distance 算完才 filter、planner 沒辦法用 GiST。

修法：

改 ST_DWithin(location, ?, 1000) — 語意一樣、會走 GiST
確認 index 是對 被 query 的 column 建的（不是 transform 後的 expression）

Case 4：CLUSTER on geom 後 BRIN 失效

情境：對 pois 跑 CLUSTER pois USING idx_pois_geom 想加速空間查、但同時對 created_at 用 BRIN index、BRIN 完全失效。

CLUSTER 重組 physical order 跟 GiST 對齊、created_at physical order correlation 從 1.0 變 0.0、BRIN range 沒選擇性。

修法：

不要 CLUSTER 大表（一次性、影響其他 column）
換 partition by time + GiST per-partition（取兩者）
看 index-selection 的 BRIN 段

Case 5：EWKB vs WKB 跨工具相容

情境：用 PostGIS export 給其他 GIS 工具（QGIS / Shapely / ogr2ogr）、resort 抱怨格式不對。

PostGIS 內部用 EWKB（Extended Well-Known Binary）— 多帶 SRID。多數 GIS 工具讀 WKB（標準）。

修法：

1-- Export 標準 WKB
2SELECT ST_AsBinary(geom) FROM pois;
3
4-- 或 GeoJSON（跨工具最相容）
5SELECT ST_AsGeoJSON(geom) FROM pois;
6
7-- 或 Shapefile via ogr2ogr
8-- ogr2ogr -f "ESRI Shapefile" output.shp PG:"..." -sql "SELECT * FROM pois"

跟專業 GIS DB 對比

維度	PostGIS	Oracle Spatial	SQL Server geography	MongoDB GeoJSON
函式覆蓋	1000+	800+	200+	~20
Raster 支援	是	是	否	否
Topology	是（PostGIS Topology）	是	否	否
3D 支援	是（PostGIS SFCGAL）	是	部分	否
License	GPL	商業	商業	開源
Tile generation	內建（ST_AsMVT）	否	否	否
跟 PG 整合	完美	跟 Oracle 一體	跟 SQL Server 一體	獨立
工業界使用	OpenStreetMap / 各國國土測繪	大型企業	Microsoft 生態	簡單 location app

選 PostGIS 的場景（90% GIS workload）：

Application 已用 PG
需要完整 GIS 函式生態（路網 / 等高線 / 流域分析）
開源 / cost 敏感
跟 OGR / GDAL / QGIS 互通

選專業 GIS DB 的場景：

已綁定 Oracle / SQL Server license
極專業 GIS（3D 城市模型 / LIDAR / GPU 加速）
純 location app 不需 relational（MongoDB GeoJSON 足夠）

下一步

看 extension-ecosystem 探索其他 PG 擴展可能
回 PostgreSQL overview 看全圖

PostgreSQL autovacuum tuning：為什麼你的 autovacuum 永遠追不上 bloat

Mon, 18 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PostgreSQL MVCC 的 vacuum 必要性、本文聚焦 autovacuum 在 production write-heavy workload 為什麼追不上 的根因 + 各維度 tuning。

你的 autovacuum 永遠追不上 bloat — 為什麼

write-heavy table 的常見故事：上線時表 10GB、3 個月後 30GB、6 個月 80GB；DBA 看 pg_stat_user_tables 發現 n_dead_tup 比 n_live_tup 還多、pg_stat_progress_vacuum 顯示 autovacuum 一直在跑、但 dead tuple 從沒清乾淨。表本身才 5M row、實際磁碟卻佔 80GB。

這不是 PostgreSQL bug、是 autovacuum cost-based throttling 預設保守 的設計意圖 — autovacuum 不該影響 OLTP query 性能、所以每跑一段就 sleep。預設 autovacuum_vacuum_cost_limit=200 + autovacuum_vacuum_cost_delay=2ms 在 write-heavy 表（每秒幾千 UPDATE）下、清理速度 永遠慢於 dead tuple 產生速度。預設配置適合 read-heavy / write-light workload；OLTP write-heavy 必須調。

MVCC 跟 dead tuple：vacuum 在解什麼

PostgreSQL MVCC：每次 UPDATE 都是 insert new row + mark old row as deleted；DELETE 是 mark as deleted、不立刻釋放空間。dead tuple 在 disk 上佔位、但不能被 query 讀到。autovacuum 的責任：

回收 dead tuple 空間 供新 row reuse（不縮 table 大小、是 free space map）
更新 visibility map 讓 index-only scan 跳過 heap fetch
凍結老 row 的 xid（freeze）避免 xid wraparound 災難
重整 index B-tree 標記 dead pointer（不刪 index page）

Vacuum 不縮表 — 真要縮要跑 VACUUM FULL（全表 exclusive lock、production 不能跑）或 pg_repack（online repack tool）。預期 vacuum 只能 讓表停止長大、不能 讓表變小。

Tuning：cost-based throttle 跟 trigger threshold

Cost-based throttle（全 instance）

1# postgresql.conf
2autovacuum_vacuum_cost_limit = 2000          # 預設 200、production 拉 5-10 倍
3autovacuum_vacuum_cost_delay = 2ms            # 預設 2ms、不太需要動
4autovacuum_max_workers = 6                    # 預設 3、CPU 多時拉到 6-10
5maintenance_work_mem = 1GB                    # 預設 64MB、單一 vacuum 用的記憶體

直覺：

cost_limit 是每個 cycle 能消費多少「cost」、cost 由 page read / dirty / hit 加總；拉高 = 每次 cycle 處理更多 page
拉 cost_limit 比 cost_delay 直接 — delay 太低（< 1ms）OS scheduler 抖動就無效
max_workers 限同時跑的 vacuum；partition 多時容易爆滿、要拉
maintenance_work_mem 影響 index vacuum 速度、SSD 環境 1-2GB 是 sweet spot

Per-table override（精準到 hot table）

 1-- 對 hot write-heavy 表加強
 2ALTER TABLE events SET (
 3  autovacuum_vacuum_scale_factor = 0.05,      -- 預設 0.2、5% dead 就觸發
 4  autovacuum_vacuum_threshold = 1000,          -- 預設 50、絕對值底線
 5  autovacuum_vacuum_cost_limit = 5000,         -- 該表獨立 cost_limit
 6  autovacuum_analyze_scale_factor = 0.05,      -- analyze 也跟著
 7  autovacuum_freeze_max_age = 100000000        -- anti-wraparound 提前
 8);
 9
10-- 對 append-only 表（log table）降頻
11ALTER TABLE audit_log SET (
12  autovacuum_vacuum_scale_factor = 0.5,        -- 50% dead 才觸發（極少 UPDATE / DELETE）
13  autovacuum_freeze_max_age = 1000000000       -- freeze 延後
14);

關鍵：hot table 比 default 緊、cold table 比 default 鬆、不要把所有表用同套配置。Production cluster 通常 5-20 個 hot table 需要 per-table tuning。

Production 故障演練

Case 1：write-heavy hot table，autovacuum 永遠跑不完

徵兆：pg_stat_user_tables.n_dead_tup 持續高於 n_live_tup、pg_stat_progress_vacuum 顯示某表 vacuum 跑了 6+ 小時還在 scanning heap、表 size 持續長大。

根因：default cost_limit=200 對該表 write rate（~5000 UPDATE/s）下、vacuum 處理速度 < dead tuple 產生速度；單次 autovacuum 跑完整表要 12 小時、但表 5% bloat 觸發又啟動下一輪。

修法：

對該表 ALTER TABLE ... SET (autovacuum_vacuum_cost_limit = 10000) — 該表 vacuum 不受全 instance 限制
maintenance_work_mem 拉到 2GB（單 vacuum）
短期：手動 VACUUM (VERBOSE, ANALYZE) events; 在 maintenance window 跑、catch up
長期：考慮 partitioning — partition 後 vacuum 只動最近 partition、不掃整表

Case 2：長 transaction 卡住 vacuum 的 xmin horizon

徵兆：autovacuum 看似有跑、但 n_dead_tup 不降；pg_stat_activity 看到一個跑了 8 小時的 SELECT（report query 或 idle in transaction）。

根因：vacuum 只能回收「不會被任何 active transaction 看到」的 dead tuple；長 transaction 的 xmin 鎖死 vacuum 能回收的範圍、即使 autovacuum 不停跑、能回收的 row 數為 0。

修法：

預防：application 端用 statement_timeout + idle_in_transaction_session_timeout（30 分鐘）強制終止 long transaction
偵測：SELECT pid, now() - xact_start FROM pg_stat_activity WHERE state = 'idle in transaction' 定期掃
臨時：kill 長 transaction（pg_cancel_backend(pid) / pg_terminate_backend(pid)）、autovacuum 下次跑就能回收
架構：報表 query 跑在 standby、不要在 primary 開 long transaction

Case 3：Anti-wraparound vacuum 在 peak 觸發

徵兆：production 流量高峰時 PostgreSQL CPU 100%、pg_stat_progress_vacuum 顯示 anti-wraparound vacuum 正在跑、application latency 暴漲；log 出現 database "myapp" must be vacuumed within X transactions。

根因：autovacuum_freeze_max_age（預設 200M）到了、PostgreSQL 強制跑 anti-wraparound vacuum（即使在 peak）；這個 vacuum 不受 cost_limit 限制、跑到完才停、表大時要幾小時、跟 OLTP query 搶 IO。

修法：

預防：autovacuum_freeze_max_age 拉到 1B（10 億）、給 freeze 更多時間在 off-peak 自然發生
per-table freeze：hot table 設 autovacuum_freeze_max_age = 100M（提前在 off-peak freeze）、cold table 設 800M（避免不必要 freeze）
緊急：手動跑 VACUUM (FREEZE, VERBOSE) table_name; 在 maintenance window 預先 freeze
監測：SELECT relname, age(relfrozenxid) FROM pg_class WHERE relkind = 'r' ORDER BY age(relfrozenxid) DESC LIMIT 20; 看哪些表逼近 wraparound

Case 4：Partition table 把 autovacuum_max_workers 跑滿

徵兆：partition 後（時間 partition、12 個月分區）、autovacuum 跑很慢、pg_stat_activity 看到 3 個 autovacuum worker 都在跑 partition 表、其他 hot table queue 等很久。

根因：autovacuum_max_workers=3 預設、每個 partition 算獨立 table；100 個 partition 中 50 個都需要 vacuum、worker 滿、其他 table 排隊。

修法：

拉 autovacuum_max_workers 到 6-10（依 CPU core 數）
cold partition 設 autovacuum_enabled = false（已不寫的舊 partition）、減少 worker 競爭
partition 數量本身要克制 — 100+ partition 是訊號該重新評估 partition strategy

Case 5：Index bloat 沒被 vacuum 處理

徵兆：表 vacuum 跑完了、n_dead_tup 為 0、但 index size 持續長大；query 用該 index 越來越慢、跟 sequential scan 差不多。

根因：autovacuum 只處理 heap（table data）跟 index leaf pages；index B-tree 內部結構 fragmentation 不被 vacuum 處理。dead pointer 留在 index leaf page、查詢仍 traverse 過、IO 多。

修法：

REINDEX CONCURRENTLY 線上重建 index（PG 12+）、不鎖表
監測 index bloat：pgstattuple_approx extension 或 pg_repack
預防：B-tree index 設計避免 high cardinality + 大量 UPDATE 同欄位（typical 場景：status column update）；考慮 partial index 或 hash index（PG 10+ logged）
大量 bloat index 用 pg_repack 重建（不需要 superuser、不鎖表）

容量規劃

vacuum capacity 用 跟得上 dead tuple 產生速度 衡量：

維度	估算方式	警戒
dead tuple 產生 rate	`UPDATE/s + DELETE/s + ~10% INSERT/s（HOT update miss）`	跟 vacuum rate 對比
vacuum 處理 rate	`cost_limit / cost_delay × page_size`、~MB/s 數量級	跟 dead tuple rate 對比
autovacuum_max_workers	partition 數 + hot table 數 / 3-5	100+ partition 必須拉 worker
maintenance_work_mem	1-2GB / vacuum worker	全 worker 跑時的記憶體上限要 sizing
anti-wraparound 觸發頻率	預設 200M xid、write-heavy ~ 1-2 週觸發一次	拉到 1B 後 ~ 2-3 月一次
Bloat ratio	`pg_stat_user_tables.n_dead_tup / n_live_tup`	> 50% 表示 vacuum 追不上

實務 default：

OLTP write-heavy（事件 / 訂單）：cost_limit 2000-5000、scale_factor 0.05、freeze_max_age 100M
OLTP read-heavy（user / config）：default 即可
Append-only log：scale_factor 0.5、freeze_max_age 800M、autovacuum_enabled = false for cold partition

整合 / 下一步

跟 partitioning 整合

partitioning 是 vacuum 問題的長期解：

大表（> 100GB）vacuum 時間隨 size 線性、partition 後 vacuum 只動最近 partition
Cold partition autovacuum_enabled = false 完全停掉、新數據只在 hot partition
缺點：partition 數量爆炸時、autovacuum_max_workers 也要拉

跟 monitoring 整合

關鍵 metric：

 1-- bloat 比例
 2SELECT relname, n_dead_tup, n_live_tup,
 3       round(n_dead_tup::numeric / nullif(n_live_tup, 0) * 100, 1) AS dead_pct
 4FROM pg_stat_user_tables
 5WHERE n_live_tup > 1000
 6ORDER BY n_dead_tup DESC LIMIT 20;
 7
 8-- vacuum 進度
 9SELECT * FROM pg_stat_progress_vacuum;
10
11-- xid wraparound 距離
12SELECT datname, age(datfrozenxid) FROM pg_database ORDER BY age DESC;

Prometheus alert 三條：dead_pct > 30、vacuum_running_seconds > 3600、xid_age > 500000000。

跟 backup window

VACUUM FREEZE 在 backup 前跑能減少 backup size（freeze tuple 不需要 special handling）：

每週 maintenance window 跑 VACUUM (FREEZE, ANALYZE) hot_table — 預先 freeze + 更新 stats
backup 前避免長 transaction、確保 vacuum 能跑

下一步議題

HOT update 跟 fillfactor：UPDATE 同頁可重用空間、fillfactor 80 為 hot table 留 20% buffer
pg_repack vs VACUUM FULL：online vs offline、長期維護工具選擇
PostgreSQL 14+ parallel vacuum：index vacuum 平行化、大表受益明顯

Migration Playbook：Cloud SQL for PostgreSQL → Cloud Spanner

Wed, 27 May 2026 00:00:00 +0000

本文是 Cloud Spanner overview 的 migration playbook。走 vendor-article-spec Migration Playbook 規格 + migration-playbook-methodology Type E（paradigm shift）。每階段切換用 migration gate 把關 — Evidence 段列的證據是 gate 通過條件、不是 nice-to-have。

Driver：為什麼遷、什麼條件不該遷

啟動壓力

single-region Cloud SQL PostgreSQL primary 觸到容量上限（connection、write throughput、storage IOPS、region 故障風險）、產品要求跨 region active-active write、external consistency 是契約而非 nice-to-have。讀者要先確認自己面對的是「real 跨 region write residency」、不是「想用更強的技術」 — driver 段的核心責任是排除空泛動機。

主要 driver 候選

Global write residency：用戶分散全球、各地寫入本地 region、跨 region 一致性是產品要求
External consistency 對帳契約：跨 region 交易順序錯誤會導致對帳爆炸（金融、計費、ticketing）
單 primary 容量天花板：Cloud SQL 最大 instance 仍撐不住、應用層 sharding 是大工程
跨 region read latency：read 從各地直接打本地 replica、Cloud SQL read replica 受 single-primary 寫入 throughput 限制

No-go condition（基礎）

流量集中單 region、跨 region 只是 DR 需求 → 維持 Cloud SQL + read replica + cross-region async DR 更便宜。這條 no-go 不複雜、但團隊常被 marketing 推著跳過 — 在自家 traffic dashboard 上 audit 一遍「write 來自哪些 region、各占比多少」、若 90%+ 來自單 region、Spanner 沒有 benefit。

No-go condition（sizing barrier）

小 / 中型 PostgreSQL workload 的成本門檻 — Spanner 早期最小單位 100 processing units（≈ 1 node）對中小負載偏貴、過去是 sizing barrier；2021+ 推出 100 pu 起跳的 granular sizing 後雖然可從小開始、但 100 pu × per-pu monthly cost 加上跨 region replication 仍可能比 Cloud SQL HA 設定貴數倍。

來源 9.C10「判讀」段第 3 點：Spanner 早期 100 pu 起跳是 sizing barrier、後來推出 granular sizing 才讓中小負載可從小開始。Dogfood 邊界明示：9.C10 case 揭露的 sizing 結構是 Google 內部 dogfood 的 capacity 規劃語言、不是 customer-facing pricing 承諾；客戶實際成本要看當期 Spanner pricing + region + replication config。

觸發 sizing no-go 的條件：

信號	判讀
workload row count < 數百萬	100 pu 對這個資料量過 over-provision
QPS < 1000	100 pu 容量遠超實際 traffic、cost / QPS ratio 高
單 region 即可滿足合規	跨 region replication cost 是純浪費
Cloud SQL HA 設定已 cover SLA	升 Spanner 沒 marginal benefit

觸發任一條 → 強烈建議走 Cloud SQL HA、不升 Spanner。判讀時要把 Cloud SQL HA cost vs Spanner 100 pu cost 對比清楚、避免讀者「想用新技術」而升級。

No-go condition（應用層延遲容忍）

應用層延遲容忍 < 50ms write 的 workload 不該升 Spanner — 跨 region Spanner write 在物理光速硬限下達 100-200ms（consistency-models-comparison 的 cross-region quorum 段）。延遲敏感 workload 升級後會在 p99 直接撞牆、回退時資料已經寫進 Spanner、roll back 成本巨大。

來源 9.C10「判讀」段第 2 點 + 「策略」段第 3 點：「external consistency 必須等多區 quorum、跨洲交易延遲可達 100-200ms」。Dogfood 邊界明示：9.C10 揭露的數量級是 Google internal observation、客戶實際 latency 隨 voting region 配置變化、引用時要附條件。

觸發 latency no-go 的場景：

實時報價系統（毫秒級回應）
高頻交易（HFT）
遊戲 leaderboard 寫入
低延遲 OLTP（金融下單、支付路由）

觸發任一條 → 強烈建議走 Cloud SQL 單 region、或考慮把 跨 region 一致性需求 重新審視（是否真的需要強一致、能不能改 event-driven async reconcile）。

替代方案排除

Aurora DSQL：AWS 生態、若團隊在 GCP、跨雲不合
CockroachDB：要自管或想 PostgreSQL wire 但不選 GCP 託管時可考慮、本 playbook 不對照
Citus on Cloud SQL：multi-region write 不是強項、不解 cross-region external consistency 需求

Case anchor + dogfood 邊界

無強 customer case。9.C10 是 Google 內部 dogfood、不是公開遷移 case；本 playbook 用 Spanner overview 的 PostgreSQL dialect 路徑 + 官方 migration guide + 通用 pattern。引用時必須明示「9.C10 揭露的線性 scaling / line-rate 設計目標是 Spanner 設計依據、不等於客戶遷移後可獲得的 capacity」。

對照 case：9.C14 Standard Chartered Aurora 受監管 banking — 雖然是 Aurora、不是 Spanner、但揭露「受監管 OLTP 遷移要算合規 lead time」「資料駐留限制 = 容量規劃 per-市場」這兩條結論在 Spanner 遷移同樣適用。讀者若是受監管產業、跨 region instance config 還要疊上 voting region 是否落在合規市場的 audit。

Diff Audit（6 規格面 + sizing / cost 第 7 面）

Schema diff

PostgreSQL DDL → Spanner PostgreSQL dialect 對照：

PostgreSQL 特性	Spanner 對應	動作
`SERIAL`	bit-reversed sequence	改 primary key 策略、避免 hot split
`JSONB`	`JSON` type	大部分相容、複雜 path query 重寫
`ARRAY`	`ARRAY`	OK
`PARTITION BY`	不直接支援	改成 interleaved table 或單表
`FOREIGN KEY`	保留 FK constraint + 考慮 Interleaved Table	parent-child access pattern 改 interleaved
`B-tree INDEX`	OK	直接遷
`GIN / GiST INDEX`	不支援	用 `STORING` column 取代部分需求、其餘改應用層
`CHECK constraint`	部分支援（time-sensitive、查最新文件）	audit 每條 constraint
`UDF / stored procedure`	少數支援	改應用層或 client-side compute
`TRIGGER`	不支援	改 application 層或 Spanner change streams

interleaved table 設計參考 schema-migration-interleaved-tables。讀者要在 schema audit 階段就決定哪些 parent-child 該 interleave、避免後悔成本。

Operational diff

維度	Cloud SQL	Spanner
基礎架構	VM-based	API-based
認證	postgres user / role	IAM role / service account
備份	pg_dump / pgBackRest	point-in-time backup（PITR）
監控	postgres-flavor（pg_stat_*）	Cloud Monitoring `spanner.*`
Connection pool	PgBouncer	SDK 內 gRPC pool
Vacuum	必要	不存在（MVCC 機制不同）
Replication lag	需監控	不存在 single-primary 概念

不再需要的 Cloud SQL 責任：vacuum、autovacuum tuning、connection pool（PgBouncer）、replication lag 監控、Patroni HA。

新增 Spanner 責任：processing unit capacity 預測、TrueTime ε 觀測（truetime-api-depth）、long-running schema operation 跟蹤、IAM 細粒度權限。

Paradigm diff

從 single-primary OLTP → 跨 region distributed SQL：

transaction commit latency：< 5ms → 50-200ms（跨洲、含 Commit Wait + cross-region quorum）
external consistency 是 default（不再是 isolation level 選擇題）
transaction 上限：Cloud SQL 無硬限 → Spanner 10s timeout、要重構成短交易
read consistency：default eventual → default strong、需顯式選 bounded staleness

詳細 consistency model 差異看 consistency-models-comparison。

Component diff

退役：

PgBouncer / pgcat（connection pool）
Cloud SQL HA / Patroni cluster
pgBackRest（備份外掛）
Citus extension（若有用）
各種 postgres extension（時間敏感、逐個 audit 是否 Spanner 支援等效）

新增：

Spanner client library（Go / Java / Node / Python）
Dataflow（用於 bulk export-import）
Datastream / Database Migration Service（用於 CDC catch-up）
Spanner Studio（query UI）

Application diff

維度	Cloud SQL（PostgreSQL client）	Spanner
ORM	全 PG ORM 相容	PostgreSQL dialect 相容部分 ORM、查最新 dialect 支援列表
Connection model	process-per-connection（postgres）	stateless gRPC client（SDK 內 pool）
Transaction model	可長交易	10s timeout、需短交易
Timestamp 使用	app 內 `now()` / `CURRENT_TIMESTAMP`	改用 `PENDING_COMMIT_TIMESTAMP` sentinel
Cursor / prepared statement	全支援	部分支援、查 SDK 文件
Stored procedure	全支援	少數支援、業務邏輯改應用層

ORM 兼容性是 time-sensitive claim — JPA / Hibernate / SQLAlchemy 在 Spanner PostgreSQL dialect 上的行為隨 dialect 版本演進、實作前查最新 vendor docs。讀者要把 ORM 兼容測試放 Phase 0、不能假設「PostgreSQL ORM 直接搬到 Spanner」。

Data topology diff

Single primary（write）+ read replica → multi-region voting + read-only replica
Primary key 設計：避免單調遞增（SERIAL）造成 hot split、改 UUID 或 bit-reversed
Partition：PostgreSQL declarative partition → Spanner 不需要顯式 partition（自動 split）

Sizing / cost diff（第 7 規格面）

維度	Cloud SQL	Spanner
計費單位	instance class（vCPU / RAM）+ storage IOPS + HA add-on	100 processing units 起跳 ≈ 1 node
起跳成本	小型 instance 月成本可控（小型 HA $50-200/月）	100 pu × per-pu monthly rate、月成本是 Cloud SQL 小型 HA 的數倍
Storage	獨立計費（GB / month）	含在 node count 內、無單獨 storage charge
Throughput cap	隨 instance class	隨 pu 線性擴展
跨 region replication	額外 read replica cost	含在 multi-region instance config 內
Egress	跨 region 額外	跨 region 額外

觸發 sizing audit 的時機：workload 行數、QPS、跨 region 需求都明確後、把「Cloud SQL HA monthly bill」對「Spanner 100 pu × monthly rate + egress」做 cost crossover 分析、無法 cost crossover 證明 → 不升。

Cost crossover 不是「Spanner 成本必須低於 Cloud SQL」、是「Spanner 多付的成本要對應到具體 benefit」：

若 benefit 是 multi-region write residency、Spanner 多付的 cost 換得跨 region 一致性 — 對齊
若 benefit 只是「更新的技術」、Spanner 多付的 cost 沒對應產品價值 — 不升

Type 判定

Type E（paradigm shift）、不是 drop-in。schema / app / operation / data topology / cost 五軸都動、不能用 Type B（drop-in）思路規劃 phase。詳細 type 判定方法看 migration-playbook-methodology。

Phase Plan：9 段、每段有驗證門檻

Phase 0 — Compatibility audit + sizing audit

跑 schema-converter（pgloader / Spanner migration tool）、列出 incompatible feature、決定哪些改 schema、哪些改 app。hot key 風險評估（SERIAL primary key、單調遞增 timestamp）。

同時跑 sizing audit：

估 target Spanner pu 數（基於 QPS、storage size、cross-region replication factor）
做 Cloud SQL HA cost vs Spanner cost crossover 分析
若 cost crossover 證明不出來 → halt migration、回到 driver 段重審

Phase 0 是 migration 的決策閘門 — 不過閘門就停、不浪費 Phase 1+ 的 engineering effort。

Phase 1 — Target schema design

interleaved table 設計（base on Phase 0 access pattern audit）
Index 重寫（GIN / GiST 用 STORING column 替代、其他用 B-tree）
Primary key 反序（避免 hot split）
Storing column 選擇（trade-off：query latency vs index size）

Output 是 target DDL、跟原 PostgreSQL schema 並排 diff 文件、給 application 團隊審。

Phase 2 — Application dual-target preparation

抽象 DB layer（repository pattern、避免直接呼 SQL）
SDK 並存（go-pg + Spanner client）
Feature flag 控制讀寫路徑（read-from-pg / read-from-spanner / dual-write）
Transaction 模式 audit（長交易拆短）

Phase 3 — Bulk initial load

Cloud SQL → Cloud Storage（CSV / Avro）→ Dataflow → Spanner。Row count + checksum 驗證、column-level diff sample。

Phase 4 — CDC catch-up

Datastream from Cloud SQL → Dataflow → Spanner。Replication lag < 1s 為前進門檻、sustained 24h。

Phase 5 — Shadow read

Production read 同時打 Cloud SQL 跟 Spanner、diff log 異常。至少 7 天觀察、divergence rate < 0.1%、p99 latency Spanner < 1.5x Cloud SQL。

Phase 6 — Dual write

Cloud SQL 為 source-of-truth、Spanner 為 mirror。偵測 dual write divergence、評估是否提早升 source-of-truth。

Phase 7 — Cutover

read-only window（< 5 min）→ 最後 catch-up → switch source-of-truth → cutover application write。

Phase 8 — Cleanup

退役 Cloud SQL primary、保留 backup、清 PgBouncer / Patroni / 監控 dashboard。

Stage 0 variant 規劃

若 read-only window 不可接受（24/7 不能停機的金融 / 醫療系統）、Phase 6 dual write 期間做 conflict resolution（last-writer-wins + manual reconcile）、進入 fail-forward 模式、不走 read-only cutover。

Evidence：每階段驗證材料

Phase	Evidence
Phase 0	incompatible feature 清單、預估改動 SP、hot key 風險 row count、sizing audit 報告（target pu 數估算 + Cloud SQL HA vs Spanner cost crossover 月 / 年成本對比）
Phase 1	DDL diff report、預估 backfill 時間（基於 row count + Spanner 文件）
Phase 3	row count 對齊、column-level checksum、payload sample diff
Phase 4	CDC lag < 1s sustained 24h、error rate < 0.01%
Phase 5	shadow read divergence rate < 0.1%、p99 latency Spanner < 1.5x Cloud SQL
Phase 6	dual write divergence < 0.01%、reconcile queue 不積壓
Phase 7	cutover window 內 write 一致性、回到 Phase 6 的條件（rollback path）

Cost crossover 報告（Phase 0 必交付）：

 1Item                          | Cloud SQL HA | Spanner 100 pu | Delta
 2------------------------------|--------------|----------------|------
 3Compute monthly               | $X           | $Y             | $Y-X
 4Storage monthly               | $A           | (included)     | -$A
 5Cross-region replication      | $B           | (included)     | -$B
 6Egress (est)                  | $C           | $C             | $0
 7Total monthly                 | $X+A+B+C     | $Y+C           | $Y-X-A-B
 8Annual                        | 12*above     | 12*above       | -
 9Benefit (qualitative)         | -            | multi-region write residency / external consistency | -
10Crossover verdict             | -            | proceed / halt | -

Verdict = proceed 才進 Phase 1；halt → 回到 Driver 段重審 driver 是否成立。

所有 evidence 進 incident decision log、回 4.20 Observability Evidence Package。

Cutover：決策與 rollback

Cutover window

選用戶最低流量時段、< 5 min read-only freeze、預先通知。受監管產業（對照 9.C14 Standard Chartered）要算合規 lead time、每市場各自審。

Decision owner

DB lead + product lead + on-call SRE 共同 sign-off。受監管產業多加合規 owner。

Rollback condition

cutover 後 30 min 內 p99 write latency 持續 > SLA 2x → rollback
error rate > 1% sustained 5 min → rollback
對帳系統發現 divergence > 0.1% → rollback

Rollback 機制

保留 Cloud SQL 為 read-only mirror 14 天、Spanner 改 read-only、reverse CDC（Spanner → Cloud SQL）需事先準備。Reverse CDC 在 Phase 4-6 期間就要 dry-run 過、不能 cutover 才第一次試。

連結 rollback-window、rollback-condition。

Cleanup：退役清單跟保留責任

退役清單

Cloud SQL primary instance
PgBouncer 配置
Patroni cluster
pgBackRest backup job（保留歸檔 90 天、依產業合規）
Datastream pipeline
Dataflow job

監控清理

postgres-specific dashboard（exporter / wal lag / autovacuum）改成 Spanner dashboard（commit_latencies / clock_skew_ms / cpu_utilization_by_priority）。

文件 / runbook 更新

postgres operation runbook 標記 deprecated、Spanner runbook 上線。新 runbook 含：

DDL long-running operation 監控
TrueTime ε 異常處理
Cross-region instance failover drill
Cost monitoring alert

稽核 / 合規

保留 final pg_dump 7 年（依產業）、incident write-back 完成、合規市場各自留檔（對照 Standard Chartered case 的 per-市場合規 lead time）。

邊界與整合：sibling、對照、anti-recommendation

Sibling deep articles

truetime-api-depth：app 對 timestamp 假設審計（Phase 2 必讀）
schema-migration-interleaved-tables：Phase 1 target schema 設計
consistency-models-comparison：Phase 0 應用層一致性要求釐清、Driver 段 latency no-go 的物理硬限

跟其他 migration 對照

PostgreSQL → Aurora DSQL Migration：兩者都是 PostgreSQL → distributed SQL paradigm shift、選 GCP / AWS 看生態
1.12 大規模 DB 遷移實戰：通用大規模遷移方法論

跟 case 對照

9.C10 Cloud Spanner planetary scale：dogfood case、揭露 Spanner 設計目標、不是 customer-facing capacity reference
9.C14 Standard Chartered Aurora banking：受監管產業遷移要算合規 lead time、per-市場容量規劃

Anti-recommendation

讀者讀完本文應該能判斷：

若 driver 只是「想用新技術」→ 回 Cloud SQL
若 workload 小（QPS < 1000、行數 < 數百萬）→ Cloud SQL HA 更划算
若應用層延遲容忍 < 50ms write → Cloud SQL 單 region
若 cost crossover 證明不出來 → halt migration、不升

Driver 是真正跨 region write residency / external consistency 對帳契約 / 單 primary 容量天花板 → 才升。Migration playbook 的目標不是把所有 Cloud SQL workload 升到 Spanner、是把「適合升」的部分用低風險路徑遷過去。

PostgreSQL declarative partitioning：partition 不是切表、是讓 planner pruning

Mon, 18 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明大表（> 1TB）需要 partitioning、本文聚焦 partition 真實價值在哪、為什麼多數人第一次 partition 都做錯。

Partition 不是「把大表切小」、是「讓 planner pruning + 縮小 maintenance scope」

剛開始學 partitioning 的人多半從「表太大、切小一點」直覺出發；切了之後發現 — query 變慢（planner 還在看所有 partition）、INSERT 變慢（trigger / partition routing overhead）、backup 沒變短（總資料量沒變）。直覺錯了：partition 的工程價值來自兩個機制、跟「切小」沒直接關係：

Query planner pruning：planner 在 planning 階段跳過不可能命中 partition key 的 partition、查詢只 scan 相關 partition；前提是 WHERE 條件含 partition key、否則 planner 看完所有 partition、效能反而比單表差
Maintenance scope 縮小：vacuum / index rebuild / DROP / archive 只動單一 partition、不掃整表；vacuum 12 小時變 30 分鐘 / DROP 老資料 0.01 秒、是 partition 真正回本的地方

partition 是 為了 maintenance 跟 planner pruning 設計、不是「表變小」設計。漏掉這個 framing、partition 配置會錯。

RANGE / LIST / HASH：partition 策略對應業務形狀

 1-- RANGE: 時間序列、log、event（最常見）
 2CREATE TABLE events (
 3  id bigint,
 4  event_time timestamptz NOT NULL,
 5  payload jsonb
 6) PARTITION BY RANGE (event_time);
 7
 8CREATE TABLE events_2026_05 PARTITION OF events
 9  FOR VALUES FROM ('2026-05-01') TO ('2026-06-01');
10
11-- LIST: tenant ID / region / status enum
12CREATE TABLE orders (
13  id bigint,
14  tenant_id int NOT NULL,
15  ...
16) PARTITION BY LIST (tenant_id);
17
18CREATE TABLE orders_tenant_premium PARTITION OF orders
19  FOR VALUES IN (1001, 1002, 1003);
20
21-- HASH: 均勻散落（無自然 partition key）
22CREATE TABLE users (
23  user_id bigint NOT NULL,
24  ...
25) PARTITION BY HASH (user_id);
26
27CREATE TABLE users_0 PARTITION OF users
28  FOR VALUES WITH (MODULUS 4, REMAINDER 0);

策略選擇關鍵：

RANGE 適合 時間 / 有序值 — query 多半帶 WHERE event_time >= X、prune 效率最高；archive / drop 老資料是 DROP PARTITION 0.01 秒
LIST 適合 離散 enum / tenant — query 帶 WHERE tenant_id = X prune；缺點是 tenant 增長要手動 ALTER ADD PARTITION
HASH 適合 均勻分散、沒自然 key — query 多半 by-PK lookup、HASH 讓單 partition 大小均勻；prune 只在 WHERE hash_key = X 等值查詢觸發

選錯 partition key 是最常見的錯誤

例：events 表用 user_id HASH partition、但 query 多半 WHERE event_time BETWEEN ...、user_id 不在 WHERE — planner 沒法 prune、掃所有 partition、效能比單表更差（多了 partition routing overhead）。

partition key 必須對應 query 最常用的 WHERE filter；錯了就退化成 維護面有好處、查詢面有壞處 的尷尬狀態。

Partition pruning：planner 怎麼決定跳過

1EXPLAIN (ANALYZE, BUFFERS)
2SELECT * FROM events
3WHERE event_time >= '2026-05-01' AND event_time < '2026-05-15';
4
5-- 期望輸出包含：
6--  Append (cost=...)
7--    -> Seq Scan on events_2026_05  (cost=...)
8-- (只 scan 一個 partition、其他 partition pruned)

pruning 觸發條件：

WHERE 含 partition key 的 constant expression（WHERE x = 5 觸發；WHERE x = some_function() 不觸發 planning-time prune、但 PG 11+ execution-time prune 可救）
PG 11+ 支援 execution-time pruning — query plan 內含 partition key、runtime 才知道值（prepared statement / NestedLoop join）
partition key 不在 WHERE 時 — 全部 partition 掃、是反指標、表示 partition strategy 不對

Partition-wise join / aggregate (PG 11+)

1SET enable_partitionwise_join = on;
2SET enable_partitionwise_aggregate = on;
3
4-- 兩個同 partition 策略的表 JOIN 時、planner 可 partition-wise 平行做
5SELECT * FROM events e JOIN events_metadata m
6  ON e.event_time = m.event_time
7  WHERE e.event_time >= '2026-05-01';

需要兩個表 partition strategy 完全一致（同 partition key + 同 partition boundary）— 設計時對齊、後期不容易調整。

Production 故障演練

Case 1：partition key 選錯，query 變慢

徵兆：partition 後特定查詢從 200ms 變成 2000ms；EXPLAIN 顯示 Append 下面所有 partition 都被 scan、沒 partition 被 prune。

根因：partition by user_id HASH、但 query 多用 WHERE created_at BETWEEN X AND Y；planner 不知道 user 在哪個 partition、必須掃全部。

修法：

驗證 step：partition 前先 pg_stat_statements 看 top 10 query 的 WHERE pattern、partition key 必須對應其中 80% 流量的 filter
修正：DROP partition strategy、改 partition by created_at RANGE；遷移用 pg_dump --section=data per-partition 重灌
避免：partitioning 不可逆、設計階段 query pattern 沒看清楚不要動

Case 2：cross-partition unique constraint 不 enforce

徵兆：partition 後發現 application code 寫死 duplicate user_email、但 unique constraint 沒擋；DB 內有同 email 多筆。

根因：PostgreSQL partition table 的 UNIQUE constraint 必須包含 partition key — UNIQUE (email) 在 partition by tenant_id 的表上 無法 enforce（PostgreSQL 拒建）；workaround 用 UNIQUE (email, tenant_id)、但業務語意是「email 全域唯一」、PG 無法保證。

修法：

架構：跨 partition 唯一性必須在 application 層 enforce（lock + check 模式）
替代：用 non-partitioned 表存唯一性目標（user_email_registry）、做寫入前 lookup
設計階段檢查：partition by X、unique constraint 必須含 X；若業務要求 unique 不含 X、partition strategy 錯

Case 3：ATTACH PARTITION 鎖表太久

徵兆：新 month partition ATTACH PARTITION 跑 30 秒、期間整個 events 表 read 阻塞、application timeout 大量。

根因：ATTACH PARTITION 預設加 ACCESS EXCLUSIVE lock 在 parent table、scan 整個新 partition 驗證 CHECK constraint；大 partition + 沒 CHECK constraint 預先驗證 → 鎖時間爆。

修法：

 1-- 1. 先把要 attach 的 partition 加 CHECK constraint，用 NOT VALID 不掃描
 2ALTER TABLE events_2026_06 ADD CONSTRAINT events_2026_06_range
 3  CHECK (event_time >= '2026-06-01' AND event_time < '2026-07-01') NOT VALID;
 4
 5-- 2. VALIDATE 用 SHARE UPDATE EXCLUSIVE lock、允許讀寫
 6ALTER TABLE events_2026_06 VALIDATE CONSTRAINT events_2026_06_range;
 7
 8-- 3. ATTACH 不再需要 scan（CHECK 已 VALIDATE 過）
 9ALTER TABLE events ATTACH PARTITION events_2026_06
10  FOR VALUES FROM ('2026-06-01') TO ('2026-07-01');
11-- ATTACH 變 instant

Case 4：partition 數爆炸，planner planning time 爆

徵兆：partition 累積到 500+（daily partition 跑 1-2 年）、簡單 query EXPLAIN 顯示 planning_time 從 1ms 漲到 200ms、application response 變慢。

根因：partition 越多 planner 要評估的 partition 越多、即使有 pruning、planning 階段也要 walk 全部 partition table；500+ partition 是 planning overhead 明顯的閾值。

修法：

架構：partition granularity 對應 retention — 不要 daily partition 留 2 年（→ weekly / monthly）
archive 老 partition：DETACH 老 partition、轉成 cold storage 表、planner 不再看
enable_partition_pruning 預設 on、確保啟用
PG 12+：planner 對 partition table 的 list 處理優化、planning time 上限拉高、但仍要控

Case 5：DETACH 後磁碟空間沒回收

徵兆：DETACH PARTITION 後 pg_database_size 沒下降、預期釋放 50GB；磁碟仍滿。

根因：DETACH 只是把 partition 從 parent table 分離、partition 自己仍是獨立表存在；要真釋放需要 DROP TABLE detached_partition。SRE 以為 DETACH = 刪掉。

修法：

1-- 完整流程
2ALTER TABLE events DETACH PARTITION events_2024_01;
3-- events_2024_01 仍存在、佔磁碟
4
5-- 確認沒 query 在用後
6DROP TABLE events_2024_01;
7-- 才釋放磁碟

Routine：archive workflow

1-- 月底跑：
2-- 1. detach 13 個月前的 partition
3ALTER TABLE events DETACH PARTITION events_2025_04;
4
5-- 2. dump 到 cold storage
6\COPY events_2025_04 TO '/cold/events_2025_04.csv' (FORMAT CSV);
7
8-- 3. drop 釋放磁碟
9DROP TABLE events_2025_04;

容量規劃

維度	估算	警戒
單 partition size	跟單表 vacuum 上限對齊（10-100GB sweet spot）	> 200GB 時考慮 sub-partition 或細化 granularity
Partition 數量	對應 retention × granularity	> 200 partition 時 planning time 開始浮現
Partition key cardinality	LIST：< 100 / HASH：自定 modulus / RANGE：時間 + 維度	太多獨立 partition value 用 HASH
Cross-partition query 比例	EXPLAIN 看 partition scan 數	> 30% query 掃 > 50% partition 表示 key 選錯
Maintenance window	DROP / DETACH / ATTACH 各 partition 各自管	hot partition 維護仍在 maintenance window

實務 default：

時間序列（events / log）：monthly RANGE partition、retention 12-24 個月
Multi-tenant（orders / records）：tenant_id LIST partition + 大 tenant 各自獨立 partition
均勻散落（user / metric）：8-16 個 HASH partition、單 partition 50-100GB

整合 / 下一步

跟 autovacuum tuning 整合

partitioning 是 autovacuum 問題的長期解：

Hot partition autovacuum 緊（scale_factor 0.05、cost_limit 5000）
Cold partition autovacuum_enabled = false
但 partition 數爆會把 autovacuum_max_workers 跑滿、需要拉

跟 index 設計整合

partition table 的 index 處理：

PG 11+ 全域 index：CREATE INDEX ON partitioned_table (...) 自動在每 partition 建 local index
不存在跨 partition unique — 只能 partition-local
partition-wise index scan：PG 11+ 跟 partition-wise join 一起、index lookup 平行

跟 backup / PITR

partition 不是 backup 替代品 — 但能加速 partial restore：

只 restore 特定時段的 partition、不用 restore 整個表
對應 PITR + WAL archiving 的 partial recovery scenario

下一步議題

Sub-partitioning：partition 內再 partition（時間 + tenant）、適合 multi-tenant + 時間序列
pg_partman extension：自動建月 partition、不用 cron
Foreign key to partitioned table (PG 12+)：跨 partition FK enforce、但 cascade 限制多

PostgreSQL Logical Replication + Debezium CDC：replication slot × failure × recovery 對照

Mon, 18 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 提到 logical decoding / Debezium CDC、本文聚焦 replication slot 生命週期 + 5 個 production failure mode 跟 recovery 的對照。

Replication slot × Failure × Recovery 對照

Logical replication 跟 Debezium CDC 的 production 議題集中在 replication slot — 它是 PostgreSQL 內保證 WAL 不被回收的 anchor point；slot 設不對、整個 CDC pipeline 失效。各 failure mode 對 slot 的影響跟 recovery 路徑：

Failure mode	對 slot 影響	Primary 端徵兆	Recovery 路徑
Consumer 卡住 / lag	slot LSN 不前進、WAL 留著	`pg_wal` 目錄持續長大、disk 撐爆	修 consumer / 加 throttle / 必要時 drop slot
Consumer crash 無 restart	slot 留在 active state	跟 lag 同、不會自動清	手動 `SELECT pg_drop_replication_slot('name')`
Schema change（ADD COLUMN）	多數 plugin 自動處理、無感	通常無感	-
Schema change（DROP / RENAME COLUMN）	多數 plugin 直接斷	Consumer log 報錯、slot active 卻不前進	重建 publication / 重 init load
Initial COPY	slot 建立時跑 snapshot、long-running tx	大表 COPY 期間鎖跟 WAL 都受影響	用 `CREATE_REPLICATION_SLOT ... NOEXPORT_SNAPSHOT` 分階段
Promotion (failover)	physical slot 跟 logical slot 處理不同	logical slot 在 PG 16- 不跨 failover	PG 16+ logical slot 持久化、或 consumer 重 init load
Replay storm（offset 重置）	slot 不變、consumer 重讀	Kafka 端流量爆、application 看 duplicate	Idempotent consumer 設計、或 transactional outbox

每個 failure mode 對應的詳細配置 + recovery 步驟、下面分段展開。

Logical replication 基礎：publication + subscription + slot

1-- Primary：建 publication
2CREATE PUBLICATION app_changes FOR TABLE orders, events;
3
4-- Subscriber：建 subscription（自動建 replication slot）
5CREATE SUBSCRIPTION app_sub
6  CONNECTION 'host=primary user=replicator dbname=app'
7  PUBLICATION app_changes
8  WITH (slot_name = 'app_sub_slot', copy_data = true);

關鍵物件：

publication（primary 端）：宣告 哪些表 + 哪些操作（INSERT/UPDATE/DELETE/TRUNCATE） 對外暴露
subscription（subscriber 端、若是 PG-to-PG）：訂閱 + 自動建 slot + 自動 initial COPY
replication slot：primary 端、保證 consumer 還沒消費的 WAL 不被回收

copy_data = true 觸發 initial COPY（snapshot）+ 後續 streaming；copy_data = false 只 streaming、適合 already-in-sync 場景。

Debezium CDC：用 logical replication slot 但繞過 subscription

Debezium 不是 PostgreSQL subscriber、是 直接讀 replication slot 的外部 consumer：

 1# Debezium PostgreSQL connector
 2connector.class=io.debezium.connector.postgresql.PostgresConnector
 3database.hostname=primary
 4database.dbname=app
 5plugin.name=pgoutput                            # 內建、PG 10+ 推薦
 6slot.name=debezium_app
 7publication.name=app_changes
 8publication.autocreate.mode=filtered            # debezium 自動建 publication
 9table.include.list=public.orders,public.events
10snapshot.mode=initial                            # 起始 snapshot 後 streaming

差異：

Debezium 用 pgoutput（PG 10+ 內建）或 wal2json（外掛 plugin）解 WAL、轉成結構化事件送 Kafka
不像 PG-to-PG subscription、Debezium 沒 subscription object、是 外部 consumer 自管 replication slot
Failure mode 上 consumer 端是 Debezium 自己、所以 lag 來源是 Debezium 處理速度 / Kafka 寫入速度

Production 故障演練

Case 1：consumer lag、slot LSN 不前進、primary disk 爆

徵兆：primary pg_wal 目錄持續長大、df -h 看磁碟 90%+；pg_replication_slots 看 confirmed_flush_lsn 卡在某 LSN、pg_wal_lsn_diff(pg_current_wal_lsn(), confirmed_flush_lsn) 數十 GB。

根因：consumer（Debezium / subscriber）處理慢於 primary 寫入；replication slot 保證 WAL 不回收、但 consumer 沒消費 → WAL 堆積。

修法：

監測：Prometheus alert pg_replication_slot_lag_bytes > 5GB 觸發前 catch
修 consumer：throttle primary 寫入 OR scale Debezium / subscriber 處理能力
緊急：SELECT pg_drop_replication_slot('debezium_app') 釋放 WAL — 但 consumer 必須重 init load（資料缺一塊）
架構：用 max_slot_wal_keep_size（PG 13+）設 slot 能保留 WAL 上限、超出自動 invalidate slot、保護 primary disk

Case 2：consumer crash 後 slot 變 zombie

徵兆：Debezium pod OOM crash、新 pod 起來時報 slot is active for PID X、無法 attach；primary 端 pg_replication_slots.active = true、active_pid 指向已經死掉的 process。

根因：PostgreSQL 把 slot 標 active 是基於 當下有 connection；consumer crash 但 connection 沒被 server 端發現（network 沒 RST）、slot 留在 active state。

修法：

1-- 手動清 zombie slot
2SELECT pg_terminate_backend(active_pid) FROM pg_replication_slots
3  WHERE slot_name = 'debezium_app' AND active;
4
5-- 或直接 drop（會丟資料、consumer 要重 init）
6SELECT pg_drop_replication_slot('debezium_app');

預防：

PostgreSQL tcp_keepalives_idle / interval / count 設較短（300 / 60 / 6）、network drop 較快被發現
Consumer 端用 graceful shutdown + pg_terminate_backend(active_pid) 在 startup 前主動清 stale connection

Case 3：schema change（DROP / RENAME COLUMN）斷流

徵兆：Debezium consumer 突然停 produce 訊息、log 報 column XYZ does not exist；primary 端 slot 還 active、但 confirmed_flush_lsn 不前進。

根因：pgoutput plugin 把 WAL 解成 row event 時、用的 schema 是 當下 catalog；如果中間 DROP COLUMN、之前 WAL 內的 row event 含已不存在欄位、解析失敗。

修法：

預防：schema change 走 expand-contract pattern
- Phase 1: ADD COLUMN new_col（不影響 logical replication）
- Phase 2: application 雙寫 old + new
- Phase 3: 等 consumer catch up old column 訊息
- Phase 4: DROP COLUMN old_col（此時無 in-flight WAL 帶 old_col）
緊急：DROP existing slot、重建 publication 跟 slot、consumer 重 init load
長期：用 Debezium snapshot.mode=schema_only_recovery 在 schema 變動時不重灌資料、只 reset schema

Case 4：initial COPY 大表鎖太久

徵兆：對 1TB 表跑 CREATE SUBSCRIPTION ... WITH (copy_data=true) 後、application 對該表 query / write 阻塞 30+ 分鐘；application timeout 大量。

根因：initial COPY 默認跑在 single transaction、整個 snapshot LSN 鎖住、長 transaction 跟 vacuum 衝突；同時對 subscriber 端鎖表寫入。

修法：

分階段 init：

 1-- Primary：建 publication 不 copy
 2CREATE PUBLICATION app_changes FOR TABLE big_table;
 3
 4-- Subscriber：建 subscription 不 copy
 5CREATE SUBSCRIPTION app_sub
 6  CONNECTION '...'
 7  PUBLICATION app_changes
 8  WITH (copy_data = false);
 9
10-- 手動跑 partition-by-partition COPY（若是 partition table）
11-- 或用 pg_dump / pg_basebackup 拿 snapshot

PG 16+ parallel init：max_sync_workers_per_subscription = 4 平行 COPY 多個表
Debezium replacement：用 incremental snapshot（Debezium 1.6+）、background trickle copy、不鎖長 transaction

Case 5：replay storm 後 consumer offset reset

徵兆：Debezium 修 bug / 重 deploy 後、snapshot.mode=initial 觸發整個資料重灌；Kafka topic 流量爆 10x、下游 application 看到大量 duplicate event。

根因：Debezium offset store（Kafka topic 或 file）被誤刪 / corruption；重啟時不知道從哪 LSN 開始、預設 fall back 到 initial snapshot。

修法：

預防：Debezium offset store 跟 Kafka cluster backup 一起做、不要單獨依賴 Kafka topic
架構：consumer side 設計 idempotent — 用 event 自帶的 (source LSN + transaction ID) 當 dedupe key
transactional outbox pattern：CDC 只 capture outbox 表、application 主動寫 outbox + business data 在同 transaction；duplicate 由 application 自己 dedupe

容量規劃

維度	估算	警戒
Replication slot lag	`pg_wal_lsn_diff(pg_current_wal_lsn(), confirmed_flush_lsn)`	> 1GB lag 訊號 consumer 跟不上
Primary `pg_wal` size	retention × peak WAL rate	預留 disk 容量 = max_slot_wal_keep_size + 30% buffer
Debezium throughput	~5-10K row/s 單 connector、多表平行可拉	跟 primary write rate 對比
Initial COPY time	100GB ~ 10-30 分鐘（看 network + subscriber IO）	TB 級必須分階段
Slot 數量	每 slot 佔 primary 一份 WAL 保留 buffer	5+ slot 同時跑 disk 壓力倍增
max_replication_slots	預設 10、production 跑 CDC + standby 各佔 slot 要拉到 20-50	達上限會拒新 slot 建立

實務 default：

Debezium production：1 connector per source schema、不要 1 connector 跨 50 個表
Slot retention：max_slot_wal_keep_size = 100GB、超出 invalidate slot 保護 primary
Monitor cadence：1 分鐘 sample lag + 5 分鐘 alert threshold

整合 / 下一步

跟 Patroni HA 整合

logical slot 在 PG 16- 不跨 failover、是長期痛點：

PG 16-：failover 後 logical consumer 必須重 init（slot 在新 leader 上不存在）
PG 16+：failover parameter 讓 logical slot 在 standby 同步、failover 後 consumer 直接接
Patroni 16+ 支援 logical slot persistence 配置、配合用

跟 Kafka outbox pattern

production-grade CDC 不直接 read business table、是 read outbox table：

1-- Application transaction
2BEGIN;
3  INSERT INTO orders (...) VALUES (...);
4  INSERT INTO outbox (event_type, payload, created_at) VALUES ('order_created', '...', now());
5COMMIT;

Debezium 只 capture outbox table、event payload 已是 application-shaped JSON、不用解 row event。好處：

Schema change 不影響 CDC（outbox table schema 穩定）
跨表 transaction 對應到單 event（outbox 是業務語意層）
Replay 可靠 — outbox 是 append-only、可重讀

跟 partitioning 整合

partitioned table 的 logical replication：

PG 13+ publish_via_partition_root = true — publication 從 parent 角度看、不是 per-partition
Subscriber 端可 partition 不同 strategy（甚至不 partition）
Schema change 對 partition table 更複雜、走 expand-contract 嚴格

下一步議題

Logical replication conflict：subscriber 端寫衝突的處理（PG 17+ 加 conflict resolution）
bi-directional replication（pg_active）：多 region active-active、衝突解決設計
Decoder plugin 對比：pgoutput / wal2json / decoderbufs 效能跟易用性

PostgreSQL PITR + WAL archiving：從 base backup 到 point-in-time recovery 的完整鏈

Mon, 18 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 backup / recovery 是 OLTP 必備能力、本文聚焦 PITR（Point-In-Time Recovery）的雙軌資料設計 + production 5 個 failure mode。

問題情境

Logical bug 在 production 部署、執行 6 小時後才發現 — 某個 batch job 把 50 萬筆 user.email 改成 NULL。此時：

還原最新 daily backup（昨晚）→ 丟掉今天所有正常寫入（訂單、註冊）
從 standby promote → standby 已同步 bug、跟 primary 同狀態
從 application log 重建 → 部分操作不可逆（已寄出 email）

PITR 是這類 logical disaster 的標準解 — 不還原到 backup 時間點、而是 還原到 bug 發生前一刻（例：1 分鐘前）。需要 base backup + WAL archive 雙軌資料：base backup 是 snapshot、WAL archive 是 snapshot 之後的所有寫入；recovery 時 replay WAL 到指定 timestamp / LSN / transaction ID。

核心概念：base backup + WAL archive 的雙軌設計

1[Base backup t0]  +  [WAL archive t0 → now]
2     ↓                       ↓
3  全量 snapshot          incremental log
4     ↓                       ↓
5     └────── recover to t_target ──→ [restored cluster at t_target]

兩個軌道各自獨立但必須對齊：

Base backup：某時刻整個 data dir 的 snapshot。pg_basebackup / pgBackRest / WAL-G 都產這個；通常 每天 / 每週 跑一次
WAL archive：base backup 之後每段 WAL 都 push 到外部 storage（S3 / GCS / NFS）。archive_command 觸發、PostgreSQL 等到 archive 成功才回收那段 WAL

兩者組合決定 RPO（recovery point objective）：

RPO ≈ WAL archive frequency（streaming 即時、archive_timeout 預設 1 分鐘）
RPO 不是 base backup frequency — daily base backup + 每分鐘 archive WAL → RPO 1 分鐘

RTO（recovery time objective）跟 base backup size + WAL replay 量 相關：

Restore base backup ~ 1-4 小時（TB 級）
WAL replay 時間 ~ archive 累積量 / replay throughput

Step-by-step 配置

Primary：archive_command 設好

1# postgresql.conf
2wal_level = replica                          # 預設 replica、PITR 需要
3archive_mode = on                            # 啟用 archive
4archive_command = 'wal-g wal-push %p'        # 或 pgBackRest / 自寫 script
5archive_timeout = 60                         # 60s 無 WAL 時強制切 segment
6max_wal_size = 4GB
7checkpoint_timeout = 15min

archive_command 必須 回 exit code 0 才算成功；非 0 PostgreSQL retry、retry 失敗會在 pg_wal 堆積 WAL 直到 disk 滿。critical：archive_command 不能寫成 silent-fail。

用 pgBackRest 取代手寫 script

production 強烈不建議自寫 archive script — pgBackRest / WAL-G / Barman 處理過所有 edge case：

 1# pgbackrest.conf
 2[global]
 3repo1-type=s3
 4repo1-s3-bucket=mybucket
 5repo1-s3-region=us-east-1
 6repo1-retention-full=4                       # 留 4 個 full backup
 7repo1-retention-diff=8                       # 留 8 個 differential
 8repo1-cipher-type=aes-256-cbc                # encrypt at rest
 9process-max=8                                # parallel restore
10
11[main]
12pg1-path=/var/lib/postgresql/16/main

1# 跑 full backup
2pgbackrest --stanza=main backup --type=full
3
4# archive_command 用 pgbackrest 內建
5archive_command = 'pgbackrest --stanza=main archive-push %p'

pgBackRest 處理：parallel push、compression、encryption、checksum、archive replay timing、backup catalog、retention 自動清理。

Restore：recovery_target_time

1# 1. 從 S3 / repo 拉 base backup
2pgbackrest --stanza=main --type=time \
3  --target="2026-05-18 14:30:00+00" restore
4
5# 2. PostgreSQL 進 recovery mode、自動 replay WAL 到 target time
6# (pgBackRest 寫好 recovery.signal + postgresql.auto.conf)
7
8# 3. 確認到目標 timestamp 後、promote
9pg_ctl promote

Recovery target 三種：

recovery_target_time：到某 timestamp
recovery_target_xid：到某 transaction ID（log 有 xid 才好定位）
recovery_target_lsn：到某 WAL LSN（最精確、但需要事先記下 LSN）

production 多用 timestamp、application log 有時間戳容易定位。

故障演練 / 邊界 case

Case 1：archive_command 靜默失敗

徵兆：DBA 發現某 PITR test 時、最近 3 天的 WAL 在 S3 上沒有；但 PostgreSQL 沒 alert、pg_wal 也沒堆積（早就被回收？）。

根因：archive_command 寫成 aws s3 cp %p s3://bucket/... 2>/dev/null — 錯誤訊息被吞、exit code 卻是 0（cp 失敗但 redirect 後 shell wrapper 不傳 fail code）；PostgreSQL 以為成功、繼續 advance WAL pointer、舊 WAL 已回收、archive 上實際沒有。

修法：

絕對不要靜默 exit code：archive_command 必須 fail loud、exit code 非 0
用 pgBackRest / WAL-G、不自寫 shell 腳本
monitoring：對 archive lag 寫 alert

1SELECT pg_last_archived_xact_time(), now() - pg_last_archived_xact_time() AS lag;

alert if lag > 5 minutes

定期測試 restore：每月跑一次 PITR drill、實際從 archive restore + 驗證 timestamp

Case 2：WAL archive lag、primary disk 壓力

徵兆：pg_wal 目錄持續長大、df -h 90%+；pg_stat_archiver 顯示 failed_count 累積、last_failed_time 是 30 分鐘前；archive_command 寫不出去（S3 throttle / network 慢）。

根因：archive_command 寫到 S3、但 S3 rate limit / connection timeout、PostgreSQL retry；WAL 一直在 pg_wal 不能回收、disk 持續長。

修法：

預防：archive_command 內部 retry + parallel push（pgBackRest 自帶 process-max）
alert：pg_stat_archiver.failed_count 增長 + primary disk usage > 80%
緊急：暫時改 archive_command 寫 local NFS / 其他 storage、等 S3 恢復再同步；不要直接 disable archive（會丟資料）
架構：archive storage 至少跨 region 兩份、單一 storage 故障不影響 archive

Case 3：recovery 跑到 wrong target time

徵兆：PITR 還原後資料看起來 缺一塊；DBA 後悔 — target time 設早了 30 分鐘、recovery 已 promote、後續 WAL 在新 timeline 上、回不去。

根因：recovery 過程不可逆 — 一旦 promote 開新 timeline、舊 WAL 在新 timeline 上不會被 replay；想還原到更晚 timestamp 必須 重新 restore base backup + WAL。

修法：

recovery_target_action = pause（PG 13+）：到 target time 後暫停、不自動 promote；DBA 手動 query 確認資料對才 promote

1recovery_target_time = '2026-05-18 14:30:00+00'
2recovery_target_action = pause

多次 PITR 試錯：用 獨立 staging cluster restore、驗證 target time 對、再對 production 跑
記錄 target time 來源：application log / event timestamp 多比對、避免時區錯亂（+00 UTC 跟 local time 差）

Case 4：base backup 過期未清、storage 爆

徵兆：S3 backup bucket size 半年內從 200GB 漲到 5TB；DBA 才發現 retention 沒設、daily base backup 留 180 天。

根因：archive_command 自寫腳本沒 retention 邏輯、或 pgBackRest 設了 repo1-retention-full=180 漏看；DB 容量本來就成長 + 每日 full backup 累積。

修法：

1# pgBackRest retention：4 full + auto-expire archive
2repo1-retention-full=4                         # 留 4 個 full backup
3repo1-retention-diff=8                         # 留 8 個 differential
4repo1-retention-archive=4                      # WAL archive 跟 full 對齊
5repo1-retention-archive-type=full

storage budgeting：

daily full + diff + WAL archive ≈ 1-2x DB size / day
4-week retention → ~30-60x DB size storage
跨 region replication → 2-3x

Case 5：timeline 分歧後 recovery 模糊

徵兆：production 經歷一次 failover（Patroni promote）+ 之後又 PITR 一次；現在要再 PITR 到 failover 前一刻、archive 上有兩個 timeline、recovery target 搞不清要哪個。

根因：每次 promote 開新 timeline ID（.history 檔）；archive storage 上同 LSN 可能對應不同 timeline；recovery target time 在分歧點附近、ambiguous。

修法：

recovery_target_timeline 明示要 follow 哪個 timeline

1recovery_target_time = '2026-05-15 10:00:00+00'
2recovery_target_timeline = '3'                 # 要 follow timeline 3

熟悉 .history 檔：/wal_archive/000000XX.history 記錄 timeline 切換點、PITR 前先看
預防：每次 promote 後立刻跑新的 base backup、簡化未來 PITR 流程（不用跨 timeline）

容量 / cost 規劃

維度	估算	警戒
Base backup size	跟 DB data dir 大小成正比（PostgreSQL 內部 compression 後）	每 backup ~ 0.5-1x DB size
WAL archive size	~5-50GB / day depending on write volume	1TB DB / write-heavy 可能 100GB+ / day
Storage retention	4-12 weeks 典型	30-60x DB size budget
Base backup time	TB 級 1-4 小時	跑在 maintenance window
Restore time	base backup restore + WAL replay	TB 級 PITR 通常 2-6 小時
Network bandwidth	full backup 期間 100-500 Mbps	跨 region 注意 egress cost

實務 default：

Daily full backup + 4 weeks retention
WAL archive every 60s（archive_timeout = 60）
跨 region replication（S3 → S3 cross-region）
月度 restore drill 驗證可用

整合 / 下一步

跟 Patroni HA 整合

Patroni 不管 backup，但 promotion 後 timeline 切換影響 archive：

archive_command 用 %t（timeline）+ %f（filename）路徑、避免不同 timeline WAL 覆蓋
Patroni recovery_conf 包含 restore_command、standby clone 從 archive 拉
每次 Patroni failover 後跑 full backup、簡化未來 PITR

跟 logical replication 對位

PITR 跟 logical replication 服務不同 use case：

PITR 是 災難恢復（logical bug / corruption）— 全量還原到某時刻
Logical replication 是 連續 sync — Kafka / 跨 DB 即時複製

兩者 都依賴 WAL、但目標不同；同 PostgreSQL 可同時跑、互不衝突。

跟 monitoring + alert

關鍵 metric：

1-- archive 健康度
2SELECT * FROM pg_stat_archiver;
3-- archived_count, failed_count, last_archived_wal, last_archived_time
4
5-- WAL 在 pg_wal 等待 archive 量
6SELECT count(*) FROM pg_ls_waldir() WHERE name ~ '^[0-9A-F]{24}$';
7
8-- base backup 上次跑時間
9-- (pgBackRest API 或 backup catalog)

Prometheus alert 三條：archive failed_count 增、archive lag > 5min、base backup > 25h 沒跑。

下一步議題

Incremental backup（PG 17+）：base backup 不全量、只 base + incremental
Block-level differential：pgBackRest 已支援
Cloud-native 替代：RDS / Aurora 用 storage-layer snapshot、不走 PITR 鏈
pg_dump vs PITR：pg_dump 是 logical backup（resume to different schema OK）、PITR 是 physical（必須同 version + same arch）

PostgreSQL major version upgrade (14 → 17)：為什麼這篇不套 5 type migration

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。寫作前判讀 不適用 Migration playbook methodology 的 5 type — 本文是該 methodology 「何時不該套」段的第 2 項實證（同 vendor major version upgrade）。

為什麼這篇不套 5 type migration

跑 diff dimension audit 對 PostgreSQL 14 → 17：

維度	評估	等級
Schema / API	同 PostgreSQL wire protocol、SQL syntax 99%+ 相容	Low
Operational model	同 PostgreSQL operational stack、tooling 不變	Low
Abstraction / paradigm	同 OLTP RDBMS	Low
Number of components	同 1 個	Low
Application change	多數 application 不改	Low

5 維皆 Low — 對映 Type B drop-in。但 實際工作量 跟 drop-in 完全不同：

Extension 相容性：pg14 的 extension 不一定能在 pg17 直接用（API 變動 / ABI break）
Breaking change：每個 major version 有 release-specific behavior change（pg17 移除 relation/oid 隱性 type、pg15 公開 pg_role 規則變嚴）
Storage format：major version 之間 data dir 不向後相容、必須 pg_upgrade 或 dump-restore
Statistics 重建：upgrade 後 pg_statistic 失效、必須跑 ANALYZE、否則 query plan 退化
Replication slot：logical replication slot 不跨 major version

5 type 對映 跨 vendor process、漏了 同 vendor 內升級 的 upgrade-specific dimension。本文採用 deep article methodology 的 6-section + 額外 upgrade audit 段 結構、不是 5 type 的任一個。

結構 differentiator：deep article + upgrade audit

跟 single feature deep article（如 pgBouncer config / Patroni HA）對照、本文多一段 upgrade audit；跟 migration playbook 對照、本文 沒 phased translation / parallel run / cutover routing：

1問題情境（為什麼升）
2→ Upgrade audit（extension / breaking change / dependency）
3→ 升級方法選擇（pg_upgrade / logical / blue-green）
4→ Step-by-step 執行
5→ 故障演練
6→ Capacity / downtime trade-off
7→ 整合 / 下一步

7 段、220-280 行。比 single feature deep article 多 1 段 audit、比 migration playbook 少 phased translation 章節。

問題情境：major version 不只是 minor bump

PostgreSQL major version（14 / 15 / 16 / 17）一年一版、每版含 breaking change、不是 minor bump。常見升級驅動：

EOL pressure：PostgreSQL 每版 maintained 5 年、pg14 EOL 2026-11；pg13 EOL 2025-11 已過、production 仍跑 pg13 是 risk
新 feature 需求：pg15 MERGE / pg16 parallel hash join / pg17 incremental backup
Cloud provider 強制：Aurora / RDS 對 EOL 版本停 minor patch、planned upgrade 不能拖

不升級的代價：security patch 停發、新功能不能用、跟新 client / extension 漸增不相容。

Upgrade audit

升級前的硬閘門 audit、跳過任一個 production 必踩：

Audit 1：Extension 相容性

1SELECT extname, extversion FROM pg_extension WHERE extname != 'plpgsql';

對每個 extension 跑：

對應 target version (pg17) 是否有 release？
ABI break？（如 PostGIS major version 對應 PG major version）
是否有 maintainer 持續更新？（TimescaleDB 已不 cover pg17 部分 feature）

常見 pg14 → pg17 需要 先升 extension 的：PostGIS / TimescaleDB / pgaudit / pg_partman / pg_repack。

Audit 2：Breaking change pull

1# 查 release note 累積 breaking change（pg14 → pg17 跨 3 個 major）
2# pg15: deprecated public schema 預設 write 權限變嚴
3# pg16: regrole removed implicit casts
4# pg17: removed several deprecated columns from system catalogs

對每個 breaking change：

用 SQL grep / static analysis 找 application code 影響範圍
評估修改工作量（通常 50-95% 是 false alarm、5-10% 真實影響）
列出無法立刻修的、規劃 逐 major 升 而不是 一次升 3 major

Audit 3：Replication / logical slot

1SELECT slot_name, plugin, slot_type, active FROM pg_replication_slots;

major version upgrade 後：

Physical replication slot：standby 必須先升級到 相同 major version 才能跟新 primary
Logical replication slot：不跨 major version、必須在 upgrade 前 drop、之後重建（消費者重 init load）
對應 Debezium CDC consumer 必須重 init

Audit 4：Config 參數變更

1# diff postgresql.conf default 14 vs 17
2# 重點: shared_preload_libraries / autovacuum_* / wal_level / synchronous_commit

新 major version 預設值常變（pg14 → 17：max_worker_processes 預設變 / unix_socket_directories 行為差異）；自定 config 需逐項 review。

Audit 5：Statistics 重建計畫

pg_upgrade 後 pg_statistic 重置、第一次跑 query plan 用空 stats、production 性能會塌；upgrade 計畫必須含：

ANALYZE 跑全 DB（小 DB ~10 分鐘、大 DB 1-3 小時）
多 stage vacuumdb --analyze-in-stages 先快速跑 baseline、再跑 full
Maintenance window 內預留 statistics 重建時間

升級方法選擇

三種主流方法、依 downtime 容忍跟 DB 大小：

方法	Downtime	風險	適用
`pg_upgrade --link`	10-30 分鐘	data dir 跟 OS package 同 host、回退複雜	< 500GB、可接受 30 分鐘 downtime
Logical replication	切換瞬間（< 1 分鐘）	設定複雜、long-running migration window	TB 級、低 downtime 需求
Blue-green deployment	切換瞬間	雙倍硬體、cutover 期間需嚴格 traffic shifting	Cloud-managed（Aurora / RDS 內建）

`pg_upgrade --link` 流程

 1# 1. install pg17 binary（不啟動）
 2# 2. stop pg14
 3sudo systemctl stop postgresql@14
 4
 5# 3. 跑 pg_upgrade（hard link、不複製資料）
 6sudo -u postgres /usr/lib/postgresql/17/bin/pg_upgrade \
 7  --old-bindir=/usr/lib/postgresql/14/bin \
 8  --new-bindir=/usr/lib/postgresql/17/bin \
 9  --old-datadir=/var/lib/postgresql/14/main \
10  --new-datadir=/var/lib/postgresql/17/main \
11  --link \
12  --jobs=8
13
14# 4. 啟動 pg17
15sudo systemctl start postgresql@17
16
17# 5. 跑 pg_upgrade 產出的 analyze script
18sudo -u postgres /tmp/analyze_new_cluster.sh

--link 用 hard link、不複製 data dir、適合大 DB；缺點是 回退到 pg14 不可能（data dir 已被新 pg 修改）— 必須有完整 backup + tested restore。

故障演練

Case 1：Extension 相容性沒先 audit、upgrade 後啟動失敗

徵兆：pg_upgrade 跑完、pg_ctl start 失敗、log 顯示 could not load library "timescaledb-2.13.so"。

根因：TimescaleDB 對應 pg14、pg17 需要 TimescaleDB 2.16+；pg_upgrade 階段沒 check、library path 找不到。

修法：

Pre-upgrade audit：每個 extension 列出 target version 對應、預先升 extension（在 pg14 上跑、用 ALTER EXTENSION ... UPDATE）
回退：data dir 用 --link 已不可逆、必須從 backup restore + 重試
預防：staging 環境完整 dry-run、production upgrade 前已知 path 都驗證過

Case 2：Application 用 deprecated SQL、跑壞

徵兆：upgrade 後某些 application query 直接 error ERROR: type "regtype" does not have a cast。

根因：pg16 移除了某些隱性 cast、application code 用了 implicit cast、現在 explicit cast 才能跑。

修法：

Pre-upgrade：跑 application test suite 對 pg17 staging、catch 不相容 query
緊急：staging 找到的 query 在 production 改 application code、deploy 後再 upgrade DB
長期：application code 用 ORM / query builder、避免 raw SQL 對 PG version-specific behavior 依賴

Case 3：`ANALYZE` 沒跑、production query 性能崩

徵兆：upgrade 後 5 分鐘、application latency p99 從 50ms 衝到 5000ms；query plan 從 index scan 退化到 seq scan。

根因：pg_upgrade 重置 pg_statistic、planner 用空 stats 跑 plan、無法估 selectivity、保守選 seq scan。

修法：

1# upgrade 完立刻跑 (順序)
2vacuumdb --all --analyze-in-stages --jobs=4
3# Stage 1: 最少 stats（快、~5 分鐘）
4# Stage 2: 中 stats（~30 分鐘）
5# Stage 3: 完整 stats（1-3 小時）

--analyze-in-stages 分 3 階段、第 1 階段就能讓 planner 做大致正確的決策；可在 maintenance window 內接受 stage 3 仍在跑。

Case 4：Logical replication slot 漏 drop、Debezium 卡死

徵兆：upgrade 完開機後、Debezium connector log 顯示 slot not found、消費停滯；Kafka downstream 訊息斷流。

根因：logical replication slot 不跨 major version、pg_upgrade 不自動處理 logical slot；upgrade 前沒 drop、新 cluster 上 slot 不存在。

修法：

Pre-upgrade：列所有 logical replication slot、Debezium 暫停 consumer + drop slot
Upgrade 後重建：用新 LSN starting position 建 slot、Debezium snapshot.mode=schema_only_recovery 取代 initial（避免重 init load）
架構：未來考慮用 outbox pattern、CDC 只追 outbox 表、降低 logical slot 重建成本

Case 5：Standby 沒同步升、replication 斷

徵兆：primary 升 pg17 後、standby 仍 pg14、replication 不通；pg_stat_replication 沒 standby connection。

根因：streaming replication 不跨 major version；standby 必須先升或 upgrade 後重 base backup。

修法：

兩種策略：

In-place upgrade standby：standby 也跑 pg_upgrade、但要先 stop streaming、升完重接（standby 端 archive_command + restore_command 對齊）
Rebuild standby：upgrade primary 完、standby 跑 pg_basebackup 重建（適合 standby 容量小、network 快）

Patroni HA 環境：用 rolling upgrade — 先升 sync standby、failover 過去、再升舊 primary 變新 standby。複雜度高、需要 staging 演練。

Capacity / downtime trade-off

方法	Downtime 估算（500GB DB）	硬體成本	風險
`pg_upgrade --link`	15-30 分鐘（含 ANALYZE 1st stage）	同當前	高（不可逆）
`pg_upgrade --clone`	1-3 小時	暫時 2x storage	中
Logical replication	< 1 分鐘 cutover	暫時 2x compute + storage	中（複雜）
Blue-green	切換瞬間（< 30 秒）	持續 2x（cutover 後可拆）	低（cloud managed）

實務 default：

< 100GB、可接受 30 分鐘 downtime：pg_upgrade --link
100GB - 1TB、要求 < 5 分鐘 downtime：logical replication（標準 PostgreSQL）
1TB+ 或 SLA 嚴格：blue-green via Aurora / RDS（cloud managed）

整合 / 下一步

跟 Patroni HA 整合

HA cluster upgrade 流程：

升新 standby（不在 cluster 中、physical / logical replicate 過去）
Promote 新 standby、舊 cluster failover 過去
重建剩餘 standby

Patroni 17+ 支援 logical slot 跨 failover — major version upgrade 期間 logical consumer 影響降低。

跟 monitoring 整合

upgrade 期間特別關注的 metric：

1-- Pre-upgrade baseline
2SELECT pg_database_size('myapp'), version();
3
4-- Post-upgrade verification
5SELECT pg_database_size('myapp'), version();
6SELECT count(*) FROM pg_stat_user_tables WHERE last_analyze IS NULL;
7-- 應該 = 0、若有未 analyze 表、ANALYZE 沒跑完

Prometheus alert 三條：pg_database_size upgrade 後差異 < 1%、pg_stat_replication lag < 10s、pg_query_p99_latency 對 baseline < 1.5x。

下一步議題

Aurora major version upgrade：blue-green deployment 是 default、流程跟 self-managed 完全不同、見 PostgreSQL → Aurora migration 對位段
Cross-major version skip upgrade：pg13 → pg17 跨 4 major、breaking change 累積、建議 逐 major 升 而不是 single hop
Extension lifecycle 管理：自動 audit extension 跟 PG version compatibility、每 quarter 跑 dry-run

PostgreSQL → Aurora Migration：protocol 相容、operational 重設計

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 PostgreSQL（self-managed source）跟 Aurora（cloud-managed target）。跟前兩篇 migration（Splunk → Elastic 高 schema 差 / Redis → DragonflyDB drop-in）對照、本篇是 middle ground：wire protocol drop-in、但 operational model 重設計。每階段切換用 migration gate 把關。

為什麼遷：operational cost / HA / DR 三條 driver

Driver	觸發場景
Operational cost	self-managed PostgreSQL + Patroni HA + pgBackRest backup + monitoring 需 0.5-2 FTE；Aurora 把這層責任轉嫁 AWS、SRE 專注 application
HA reliability	Patroni split-brain / DCS quorum 偶爾踩雷、production failover 4-15s；Aurora 自動 multi-AZ failover < 30s、shared storage 不丟資料
DR / backup	自管 PITR + cross-region replication 複雜；Aurora 內建 PITR + global database + backup retention 簡化

反向 driver（Aurora → self-managed）也存在 — 主要是 cost 在 10TB+ 規模時 Aurora 反而更貴、或 需要 PostgreSQL extension Aurora 不支援（pg_partman / pg_repack / TimescaleDB 等）。

結構：protocol 相容 + operational phased 的混合

跟前兩篇對照、Aurora migration 結構是 protocol drop-in（application 不改 SQL）+ operational redesign（HA / backup / monitoring 全換）：

維度	Splunk → Elastic（高 schema 差）	Redis → DragonflyDB（drop-in）	PostgreSQL → Aurora（middle）
Wire protocol	完全不同（SPL vs KQL）	完全相同（RESP）	完全相同（PostgreSQL wire）
Schema / data model	高差異（CIM vs ECS）	完全相同	完全相同
Application code	必改	不改	不改
Operational model	不同	相似	大差
HA / replication	不同	相似	完全重設計
Backup model	不同	簡化	完全換 AWS-native
Migration 週期	4-9 個月	1-4 週	6-12 週
Phased 結構需要	6-phase 明顯	不需要	混合（3 operational phase + drop-in cutover）

Hypothesis 驗證：migration playbook 結構由 最大差異維度 決定 — Splunk → Elastic 是 schema 差導向 phased、Aurora migration 是 operational 差導向局部 phased。

Operational redesign 對位

跟 self-managed PostgreSQL 比、Aurora 的 operational 模型差異：

Operational concept	Self-managed PostgreSQL	Aurora
Storage	Local disk / EBS、跟 compute 一體	Shared storage 跨 AZ 6 副本、跟 compute 解耦
HA	Patroni + DCS quorum + watchdog	Aurora 自家 failover、shared storage 不重 promote
Read replica	Streaming replication + Patroni 管理	Aurora reader endpoint、cluster 自動 routing
Backup	pgBackRest / WAL-G + S3	自動 continuous backup + PITR（內建）
Failover time	15-60s（Patroni）	< 30s（同 AZ）/ 1-2 min（跨 AZ）
Connection management	PgBouncer 必裝	RDS Proxy 推薦、Aurora 自家 connection pool
Major version upgrade	手動 + 停機	Aurora 自家 blue/green deployment
Monitoring	Prometheus + grafana-postgresql	CloudWatch + Performance Insights
Extension support	自由安裝	白名單、限 AWS 認可 extension
Custom config	postgresql.conf 全控	Parameter Group（限制）
OS / kernel access	完全控	無（fully managed）

每一條 operational concept 都需要 migration plan、application code 不變但 運維知識體系全換。

Migration 流程：3 phase operational + drop-in cutover

Phase 0：Pre-migration audit（1-2 週）

Extension 清單對位：

1SELECT extname, extversion FROM pg_extension;
2-- 對照 Aurora supported extensions list
3-- 不支援的（pg_repack / pg_partman 部分 / TimescaleDB / Citus）需替代方案

Custom config 清單：

1SELECT name, setting FROM pg_settings WHERE source != 'default';
2-- 對照 Aurora Parameter Group 可調項目

Capacity 評估：

當前 IOPS / connection / storage / WAL rate
對應 Aurora instance class（db.r6g.large to db.r6g.32xlarge）
估算 cost（vCPU + IOPS + storage + backup retention）

Application connection pool audit：

PgBouncer 配置是否能直接搬到 RDS Proxy
Connection string + IAM 認證準備

Phase 1：Operational infrastructure 準備（2-3 週）

建 Aurora cluster（Terraform / CloudFormation）
設 Parameter Group、對位 self-managed 配置
設 Security Group + IAM role
設 RDS Proxy（推薦、connection 集中管理）
CloudWatch alert + Performance Insights baseline
Backup retention + PITR window 設定

Phase 2：Data migration（取決於 dataset 大小）

兩條路：

路線 A：AWS DMS（推薦中等規模 < 5TB）

1self-managed Postgres ──(DMS)──→ Aurora
2                         |
3                  full load + CDC continuous

DMS task 設 Full Load + Ongoing Replication
跑 full load 估算（100GB ~ 1-3 小時依 instance class）
CDC 持續直到 cutover

路線 B：Logical replication（推薦 5TB+ 或要精準控制）

1-- Source：建 publication
2CREATE PUBLICATION migrate_pub FOR ALL TABLES;
3
4-- Aurora：建 subscription
5CREATE SUBSCRIPTION migrate_sub
6  CONNECTION 'host= dbname= user='
7  PUBLICATION migrate_pub;

Initial COPY 跑完後 streaming
詳見 Logical Replication + Debezium

Phase 3：Cutover 跟 verification

11. Application 端設 maintenance mode（block writes）
22. 等 replication lag → 0
33. 確認 Aurora 端 row count + checksum 對齊
44. Application connection string 切到 Aurora endpoint
55. 解除 maintenance mode
66. Self-managed 端 read-only 保留 1-2 週 standby

Cutover window 視 dataset 大小：

< 100GB：1-2 小時
100GB - 1TB：2-4 小時
1TB+：考慮 zero-downtime cutover via blue-green deployment

Production 故障演練

Case 1：Extension 不支援、application 直接壞

徵兆：cutover 後 application 某些 query 報 extension "pg_repack" not available、batch job 壞。

根因：Phase 0 audit 漏掉 application 用 pg_repack 做 maintenance；Aurora 不支援、self-managed 端的 cron job 改不過去。

修法：

Pre-migration audit 必做：SELECT extname FROM pg_extension 對照 Aurora extension whitelist
替代方案：
- pg_repack → Aurora 自家 vacuum + storage auto-resize
- TimescaleDB → 改 declarative partitioning 或換 Timestream
- Citus → 評估保留 self-managed 或重設計 schema
退役策略：Extension 是 application 必要的、評估暫不遷或選 alternative cloud（如 AlloyDB / Citus on Azure）

Case 2：Replication slot 不直通

徵兆：self-managed 端有 Debezium CDC 接 application 事件、cutover 後 CDC pipeline 直接壞、Kafka 端訊息斷流。

根因：Aurora 對 logical replication slot 有限制 — 不直接支援 external consumer（如 Debezium）讀 slot；要走 RDS Database Events 或 DMS CDC。

修法：

Pre-migration audit：列所有 logical consumer（Debezium / Kafka Connect / 自家 CDC）
替代方案：
- DMS CDC 取代 Debezium（Aurora 原生支援）
- 評估 RDS Database Activity Streams（newer feature）
- 重設計 CDC：application 寫 outbox 表、Aurora trigger 發 SNS → Lambda → Kafka
接受代價：CDC pipeline 重建是 2-4 週工作、納入 migration scope

Case 3：Autovacuum 行為跟 self-managed 不同

徵兆：cutover 後幾天、特定 hot table 的 bloat 數據異常、application 端 query latency p99 漲；CloudWatch Performance Insights 顯示 autovacuum 跑頻率比 self-managed 端高 3 倍。

根因：Aurora 預設 Parameter Group 的 autovacuum 配置跟 self-managed 不同 — autovacuum_vacuum_cost_limit 預設更低、vacuum_scale_factor 更激進；shared storage 上 vacuum 行為不一樣。

修法：

Parameter Group 對位：把 self-managed autovacuum tuning 配置複製到 Aurora Parameter Group
per-table tuning：hot table 的 ALTER TABLE SET (autovacuum_*) 可遷過去
接受差異：Aurora storage 設計讓 vacuum 不一定要跟 self-managed 同 cadence、SRE 心智模型要調

Case 4：IAM 認證強制、application 端改 connection logic

徵兆：production 切到 Aurora 後、application 仍用 password authentication、SOC team 要求改 IAM 認證（compliance）；application 連線 logic 大改、token rotation 邏輯也要加。

根因：self-managed 端用固定 username/password、Aurora 推薦（部分情境強制）IAM authentication；token 15 分鐘輪換、application 必須改連線 SDK。

修法：

Migration scope 內包含：authentication migration 是必要工作、不能事後補
SDK 整合：用 AWS SDK + RDS Proxy 抽象 token rotation、application 不直接管 token
Hybrid 期間：保留 password auth 直到 application 全切 IAM、再 disable password auth

Case 5：Cost model 預估錯、月底帳單炸

徵兆：第一個月 Aurora 帳單比預估高 50-80%；IOPS / backup storage / I/O cost 都比預期多。

根因：Aurora pricing 三層（compute instance / storage / I/O）—

Storage：actual data + backup × retention
I/O：每個 read / write block 都計費（self-managed 不算）
Backup：超過 backup retention 部分 charged as snapshot storage

self-managed 端習慣 fixed EC2 + EBS cost、Aurora I/O-based 計費對 high-IOPS workload 衝擊大。

修法：

Pre-migration cost estimate：用 self-managed pg_stat_database 估 I/O 量、套 Aurora pricing calc
I/O optimization：開 Aurora I/O-Optimized storage class（fixed monthly + 不算 I/O）、適合 high-IOPS workload
Backup retention 控制：不要 default 35 天、依 compliance 調整（7-14 天通常夠）
Reserved Instance：穩定 workload 預付 1-3 年、省 30-40%

Capacity / cost 對照

維度	Self-managed PostgreSQL（EC2 + EBS）	Aurora
Instance cost	EC2 + EBS（compute + storage 自管）	Aurora instance class + storage + I/O
HA cost	Patroni 跨 3 AZ + EBS 3 副本	Aurora 跨 3 AZ shared storage（內建）
Backup cost	pgBackRest + S3 archive	Aurora 自動 continuous backup（內建）
Operational FTE	0.5-2 FTE（HA / backup / patching）	0.1-0.3 FTE（application 端 + Parameter Group）
1TB / month cost	$400-800（含 HA）	$700-1500（含 HA）
10TB / month cost	$2K-4K	$4K-8K（I/O cost 顯著）
50TB+ cost	$10K-20K	$30K+（cost 反轉、self-managed 更便宜）

判讀：< 10TB workload Aurora 平攤 operational cost 後仍便宜；50TB+ workload Aurora cost 顯著高、要 reserved + I/O-Optimized 才有競爭力。

整合 / 下一步

跟 Patroni HA 對位

Patroni 在 Aurora migration 後退役 — Aurora 自家 failover 取代；但 SRE 心智模型要調：

Patroni 的 pg_rewind 概念不存在（shared storage）
Patroni 的 synchronous_commit 行為 Aurora 隱藏在 storage layer
Aurora 跨 region 用 Global Database、不是 Patroni cross-region setup

跟 PITR 對位

self-managed PITR rebuild 工作量大、Aurora PITR 是 native API call：

1aws rds restore-db-cluster-to-point-in-time \
2  --source-db-cluster-identifier myapp-prod \
3  --db-cluster-identifier myapp-prod-restored \
4  --restore-to-time 2026-05-19T14:30:00Z

完全不需要 base backup + WAL replay 思維、storage layer 自動處理。

跟 PgBouncer → RDS Proxy

PgBouncer 多數情境可換 RDS Proxy：

transaction pooling 等效
IAM authentication 整合
Connection pinning（Lambda / serverless workload）
限制：RDS Proxy 對某些 PG 14+ feature 仍 catching up、prepared statements 行為差異

下一步議題

Aurora Serverless v2 評估：variable workload 適合、steady workload 反而貴
Babelfish 評估：跑 SQL Server protocol on Aurora（多 source 遷移到 Aurora）
Cross-region DR：Aurora Global Database vs self-managed cross-region streaming + Patroni

PostgreSQL → Aurora DSQL Migration：PG wire-compatible Distributed SQL 的 Paradigm Shift

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 PostgreSQL（source）跟 Aurora（DSQL 也屬 Aurora family、但 paradigm 不同）。跟 migrate-to-aurora（PG → Aurora PG、protocol drop-in + operational redesign）跟 migrate-to-cockroachdb（PG → CRDB、Type E paradigm shift）對照、本篇是 Aurora 內 PG → DSQL 的 paradigm shift。每階段切換用 migration gate 把關。

時間錨點：Aurora DSQL 在 2024-12 re:Invent preview、2025-05-27 GA。本文 vendor claim 以 2025-2026 公開狀態為準、實際 migration 前請以 AWS docs 為準（feature 持續演進中）。

為什麼遷：Global Write / Operational Zero-touch / Region Resiliency 三條 driver

PG → DSQL 不是「自然演進」、是 application 需求超出 single-primary 模型 時的 paradigm 換軌。三條典型 driver 各自對應一種 application 約束、不是「三選一」、而是「至少其中一條剛性、其他兩條是 bonus」：

Driver	觸發場景
Global write	Application 需要多 region active-active write（不是 Aurora PG 的 single-writer + read replica）
Operational zero-touch	不想管 Patroni / PgBouncer / autovacuum / failover / backup retention、Aurora PG 已減一半、DSQL 進一步零接觸
Region resiliency	整 region 失效時應用無感切換（Aurora PG 是 cross-region replica 異步、DSQL 是 strong consistency 多 region）

反向 driver（DSQL → Aurora PG）也存在：

需要 PG extension（pgvector / TimescaleDB / PostGIS / pg_repack）— DSQL 不支援
Cost：DSQL 比 Aurora PG 貴 2-5x（依 region 數量）
Single-region OLTP 不需 distributed transaction 的 overhead

結構：Protocol Drop-in + Paradigm Shift

DSQL 是 PG wire-compatible（用 psql 連得上）、但內部是 distributed SQL engine：

維度	self-managed PG	Aurora PG	Aurora DSQL
Wire protocol	PG	PG	PG（subset）
Architecture	Single primary	Single primary + shared storage	Active-active distributed
Multi-region write	不支援（async replica）	不支援（async replica）	Strong consistency 多 region
Transaction model	MVCC + snapshot isolation	MVCC + snapshot isolation	OCC + strong snapshot isolation
Extension	任意	AWS whitelist	無 extension 支援
Operational	全部自管	AWS 管 storage / failover	AWS 管全部、零接觸
Failover	Patroni 15-60s	Aurora 30s	N/A（永遠 active-active、無 failover 概念）
Cost model	Self-managed instance	Instance hour + storage	Per-DPU + multi-AZ replication

Paradigm shift 的核心：

Transaction semantic：DSQL 用 OCC（Optimistic Concurrency Control）+ strong snapshot isolation、跟 PG 預設 read committed / repeatable read snapshot 不同 — 同 row 有 concurrent write 時、commit 階段才偵測衝突 + abort、application 要 handle 40001 serialization_failure
No extension：PostGIS / pgvector / TimescaleDB / pg_partman 都不能用、依賴這些 feature 的 application 要拆出去
No connection pool stateful：DSQL 內建 connection pool、application 不能依賴 session state（temp table / prepared statement / advisory lock）

Schema gap：PG 對 DSQL 限制

DSQL 是 PG-compatible subset、有幾類功能不支援：

類別	PG 支援	DSQL 支援
Extension	是	否（沒 `CREATE EXTENSION`）
Foreign key constraint	是	否（application 維護 referential integrity）
View / Materialized view	是	View 部分 / Materialized view 否
JSON / JSONB	是	部分（無 GIN index 加速）
Foreign data wrapper	是	否
Stored procedure（PL/pgSQL）	是	部分（限制多）
Trigger	是	部分
LISTEN / NOTIFY	是	否
`SELECT ... FOR UPDATE`	是	部分（DSQL OCC semantic）
Sequence（serial / identity）	是	支援、但高吞吐有 coordination overhead
Table partition	是	部分
Logical replication slot	是	否

Migration 必做 schema audit：

 1-- 找所有 extension 依賴
 2SELECT * FROM pg_extension;
 3
 4-- 找 materialized view
 5SELECT schemaname, matviewname FROM pg_matviews;
 6
 7-- 找 sequence
 8SELECT * FROM pg_sequences;
 9
10-- 找 FDW
11SELECT * FROM pg_foreign_server;
12
13-- 找 trigger
14SELECT * FROM pg_trigger WHERE NOT tgisinternal;

任何項目命中、都是 migration blocker。

Operational Redesign

跟 self-managed PG 或 Aurora PG 比、DSQL operational model 大幅簡化但語意不同：

Operational concept	self-managed PG	Aurora PG	Aurora DSQL
Storage	Local / EBS	Shared 6 副本	Distributed log + replicated state
HA	Patroni	Aurora failover	永遠 HA（無 failover 概念）
Backup	pgBackRest / WAL-G	內建 continuous	內建 continuous（更深整合）
Connection pool	PgBouncer / PgCat	RDS Proxy 推薦	內建（無需配置）
Major version upgrade	手動 + 停機	Aurora blue/green	完全 transparent（AWS 升）
Read replica	Streaming replication	Reader endpoint	無分（每 region 都讀寫）
Monitoring	Prometheus / pg_stat_*	CloudWatch + Performance Insights	CloudWatch（簡化）
預期 SRE FTE	0.5-2	0.2-0.5	< 0.1

Migration 流程：Type E Phased Plan

Type E paradigm shift 的 phased plan、跟 migrate-to-cockroachdb 結構類似：

Phase 1：Schema / Application Audit

跑 schema audit（extension / MV / FDW / sequence / trigger）
識別 application 哪些 query / transaction pattern 需重設計
估算 能直接遷的 % vs 需重寫的 %、典型 60-80% / 20-40%

Phase 2：Application 改造（不上 DSQL、先在 PG 跑）

加 transaction retry middleware（攔截 40001、exponential backoff）
用 UUID 替代 serial / bigserial
移除依賴 LISTEN/NOTIFY 的功能（改 SQS / EventBridge）
移除 materialized view（改 application-side cache 或 incremental ETL）
Stored procedure 改 application code
在 PG 上跑 staging、確認新 application code 還對

Phase 3：DSQL Cluster 建立 + Schema 遷

DSQL cluster create
DDL apply（subset of PG schema、無 extension）
DMS（Database Migration Service）initial load + ongoing replication
兩邊跑 shadow traffic、比對 query 結果

Phase 4：Cutover

Application 切 connection string 到 DSQL
保留 PG read-only 一週、出狀況 rollback
Monitor 40001 retry rate、scaling event 行為

Phase 5：多 region 拓展（如適用）

加第二 region endpoint
Application 改 multi-region routing（latency-based）
Test region failure / network partition 行為

5 個 Production 踩雷

Case 1：Transaction Retry 沒處理

情境：PG 上「兩個 transaction 都 update 同 row」走 lock + wait；DSQL 同情境一個會收 40001 serialization_failure、application 沒 catch、user 看到 500 error。

修法：

DAO 層加 retry middleware：catch 40001 + exponential backoff（jitter）
Retry 上限 3-5 次、超過回 4xx 給 user
Transaction 內不要做 side effect（API call / message send）、retry 會重做

1def with_retry(fn, max_attempts=5):
2    for attempt in range(max_attempts):
3        try:
4            return fn()
5        except SerializationError:
6            if attempt == max_attempts - 1:
7                raise
8            time.sleep((2 ** attempt) * 0.05 + random.random() * 0.05)

Case 2：Extension 缺位、Feature 整段掉

情境：production PG 用 pgvector 做 RAG search、PostGIS 做 store locator、TimescaleDB 做 metrics — 切 DSQL 後三 feature 全沒。

修法：

不要直接遷、評估 which extension is load-bearing
pgvector → 外掛 Pinecone / Weaviate 或保留 PG 跑 vector workload
PostGIS → 保留 PG 跑 GIS workload
TimescaleDB → 切 Amazon Timestream 或保留 PG
DSQL 只放 不依賴 extension 的 transactional core

實務常見拓撲：DSQL 跑 transactional core、附 PG（vector） + PG（GIS） + Timestream（metrics）。

Case 3：Sequence 高吞吐撞 Coordination Overhead

情境：SERIAL / GENERATED AS IDENTITY PK 在 DSQL 用、insert 量 1000+/s 時 sequence nextval 變成 bottleneck、insert latency 從 5ms 跳到 80-100ms+。

DSQL 有支援 sequence、但不是「local atomic counter」、是分散式 counter — 每次 nextval 需跨 region coordination 保證唯一性。低吞吐 OK、高吞吐撞牆。

修法：

高吞吐表 PK 換 UUID v7（time-sortable、無 coordination）：gen_random_uuid() 或 application-side UUID v7 library
或 application-side ULID（time-sortable、12-byte 緊湊）
完全避免依賴「連續 integer PK」的 application 邏輯（reporting / paging 改用 ORDER BY created_at, id）

1-- 換 UUID PK
2CREATE TABLE orders (
3    id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
4    ...
5);

低吞吐表（settings / config）保留 sequence OK；high-volume transactional 表（orders / events）建議 UUID。

Case 4：Aurora PG 直升 DSQL 想當 in-place

情境：team 以為「Aurora PG 跟 Aurora DSQL 都是 Aurora、應該能直升」、申請 cluster modify、發現完全是兩個 service。

修法：

不是 in-place upgrade、是 full migration（DMS + cutover）
把 DSQL 當完全新的 cluster type、走 Phase 1-4 完整流程
Aurora PG → Aurora DSQL 不比 PG → CRDB 容易、wire-compatible 只解 application connect 問題、不解 schema / paradigm 差異

Case 5：Region Failover Semantic

情境：team 以為「DSQL multi-region 等於高可用」、設計時假設「整 region 掛還是能寫」、實測發現「網絡分割時 DSQL 走 quorum、可能 reject write」。

DSQL 是 strong consistency 多 region、CAP 取 CP（不是 AP）— network partition 時部分 region 會拒絕 write、不是「永遠可寫」。

修法：

設計 application 要 handle write reject（partition recovery 後 retry）
不要把 DSQL 當「永遠可寫」的 cache 或 queue 用
真要 AP 行為、用 DynamoDB（global table）

Capacity 規劃

DSQL 計費跟 Aurora PG 差很多：

計費項目	Aurora PG	Aurora DSQL
Instance	Per-instance hour	無（serverless）
Storage	Per-GB-month	Per-GB-month（多副本價）
IO	Per-million IO	每 transaction 計費
Backup	Per-GB-month	內建（無額外）
Multi-region	Cross-region replica（額外）	每 region 全費 × N

實務 cost：Aurora PG db.r6g.4xlarge multi-AZ 月 ~$2000 → DSQL 同 workload ~$5000-10000（依 region 數）。

何時 DSQL cost 划算：

多 region active-active 需求剛性（不是 nice-to-have）
Operational FTE 節省超過 cost 差
Burst workload（DSQL 自動 scale、Aurora PG 預配置 idle 期浪費）

跟既有 Migration Playbook 對比

Migration	Type	主結構
→ Aurora PG	C	Protocol drop-in + operational redesign
→ CockroachDB	E	Paradigm shift（distributed SQL）
→ Aurora DSQL（本篇）	E	Paradigm shift（PG-compatible distributed）

Aurora DSQL vs CockroachDB 選擇：

維度	Aurora DSQL	CockroachDB
PG compatibility	Wire-compatible 較完整	高、但有差異
Vendor lock-in	AWS only	跨雲 / on-prem
Cost	AWS pricing	自管或 CockroachDB Cloud
Multi-region 模型	Strong consistency 內建	可配置（regional / global table）
Extension	完全沒	部分（CDC / changefeed）
Operational	Zero-touch	自管或 managed

選 DSQL：已綁 AWS、不想管基礎設施、需 PG semantic。選 CRDB：跨雲、有自管 SRE、需要 fine-grained control。

下一步

看 Aurora overview 認識 Aurora family
看 migrate-to-cockroachdb 對比另一個 Type E migration
回 PostgreSQL overview 看全圖

PostgreSQL → CockroachDB：三維皆 High 的多重歸類 migration

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 PostgreSQL 跟 CockroachDB。本文是 #127 多重歸類跟 tie-breaking 規則的實證 — 三維皆 High 配對的處理方式不是「選 type A 或 type C 或 type E」、是 主導維度走 Type E、其他高維度獨立加段。每階段切換用 migration gate 把關。

三維皆 High：決策矩陣

跑 diff dimension audit 對 PostgreSQL → CockroachDB：

維度	評估	等級
Schema / API	PostgreSQL wire protocol 兼容、但 SQL feature set 部分缺（CTE recursive 部分 / window function 部分 / extension 完全缺）	High
Operational model	Single-node + Patroni → distributed Raft + 自動 rebalance；HA / backup / topology 全換	High
Abstraction / paradigm	Single-node MVCC + transaction → distributed Serializable Snapshot Isolation (SSI)	High
Number of components	同 1 個 DB cluster	Low
Application change	Transaction retry pattern 必須改、ORM 可能需 patch	Medium

3 維 High + 1 維 Medium。按 methodology audit Step 5 的多重歸類處理規則：

1主導維度判讀 (優先序): Schema > Paradigm > Operational > Components
2
3實際應用: Schema High + Paradigm High + Operational High
4- Schema 是 High、但 CRDB 提供 PostgreSQL wire protocol 兼容
5- Paradigm 是 High、是 *單機 → 分散式* 的根本轉變、讀者最關心
6- Operational 是 High、但很大程度是 Paradigm 的 downstream
7
8→ 主結構選 Paradigm（Type E）、Schema + Operational 抽獨立段補充

不強迫單一 type 標籤 — 本文是 Type E 為主 + Type A / C 高維度增補 的 multi-axis 形態。

結構 differentiator：Type E 主結構 + 多軸增補段

跟前批 5 個 migration playbook 對照：

結構元素	Type A Splunk → Elastic	Type B Redis → DragonflyDB	Type C PostgreSQL → Aurora	Type D Datadog → Grafana	Type E Kafka ↔ NATS	本文（三維 High）
Phased translation	yes	-	-	-	-	partial
Compatibility audit	-	yes	-	-	-	yes
Operational redesign 對位	-	-	yes	-	-	yes（獨立段）
Schema gap 對位	-	-	-	-	-	yes（獨立段）
Parallel streams	-	-	-	yes	-	-
Paradigm contrast	-	-	-	-	yes	yes
Application 重設計	-	-	-	-	yes	yes
混合架構 long-term	-	-	-	-	yes	partial（部分 workload）

本文是「Type E 為主 + Type A schema gap 段 + Type C operational redesign 段」混合形態、9-10 章節、260-300 行。

維度 1：Paradigm shift（主導）

CRDB 是 distributed SQL DB、不是「PostgreSQL 多節點版」。核心差異：

概念	PostgreSQL	CockroachDB
Transaction isolation	MVCC、Read Committed default	Serializable Snapshot Isolation (SSI)、強一致
Transaction conflict	First writer wins	Retry-on-conflict、application 必須處理 `40001` retry code
Replication	Streaming replication + standby	Raft consensus、每筆寫 quorum + 自動 rebalance
Partition	Declarative partitioning（手動）	Automatic range-based + locality-aware
Latency p99	1-10ms（單 region）	5-50ms（cross-AZ Raft quorum）
Throughput limit	單 primary 上限 ~10-50K TPS	Linear scale by adding node、~5K TPS / node

關鍵 paradigm 改變：transaction 是 retry-able 操作、不是 atomic guaranteed。所有 transaction code 需要包 retry loop（CRDB 提供 cockroach_restart savepoint）。

維度 2：Schema gap（PostgreSQL features CRDB 不支援）

CRDB 號稱 PostgreSQL-compatible、但 covergence rate 80-90%；常見 gap：

PostgreSQL feature	CRDB 狀態	影響
Stored procedure / function (PL/pgSQL)	Limited（CRDB 22.2+ 部分支援）	Migration scope 內必須 audit + 改寫
Common Table Expression (CTE) recursive	Limited (depth + structure)	複雜 CTE 可能跑不通、必須 query refactor
Window function 全集	Partial	報表 query 需逐 case 驗證
Extensions (pg_repack / pgaudit / TimescaleDB)	不支援	用 CRDB 自家 alternative 或自管 application 層
Triggers	Limited	Audit / data integrity 邏輯遷到 application 層
Custom types / domain	Partial	用 CHECK constraint 替代
Geographic types (PostGIS)	CRDB native geo support（語法不同）	Spatial query 改寫
`SELECT FOR UPDATE` semantics	對等但底層機制不同（distributed lock）	注意 deadlock pattern 差異
Advisory locks	不支援	Application 端用其他 distributed lock（Redis / Consul）

Migration 必須 先 audit 完整 SQL feature 使用、列出 gap、評估解法或退役。

維度 3：Operational redesign

CRDB operational model 完全不同：

Operational concept	PostgreSQL self-managed	CRDB
Cluster bootstrap	Patroni / Stolon + manual	`cockroach init` + 自動 Raft formation
HA	Patroni + DCS + watchdog	內建 Raft、無 single primary
Failover	Patroni-managed、15-60s	透明 Raft re-election、< 5s
Backup	pgBackRest + WAL archive	`BACKUP TO` (incremental + full)
Restore	`pgBackRest restore` + PITR	`RESTORE FROM`
Replication	Streaming + logical	Built-in、無 logical replication 對等概念
Schema migration	`pg_dump` / Flyway / Liquibase	`cockroach sql` + online schema change（無 lock）
Monitoring	pg_stat_* views + Prometheus exporter	CRDB admin UI + Prometheus（schema 不同）
Sizing	Vertical scale（單 node big spec）	Horizontal scale（多 node 小 spec）

SRE 心智模型完全重訓：無 primary 概念 / 無 streaming lag 概念 / 無 standby promote 概念。

Migration 流程（混合形態）

不是線性 phased、是 phased + parallel + partial 混合：

 1Phase 0: scope 判讀
 2  - 列 application、區分「適合 CRDB」vs「保留 PostgreSQL」
 3  - SQL feature audit
 4  - Application transaction pattern audit
 5
 6Phase 1: schema port + application 改寫
 7  - DDL 轉成 CRDB syntax
 8  - 不支援 extension 找 alternative
 9  - Application transaction code 加 retry loop
10
11Phase 2: 雙寫期（部分 application 開始走 CRDB）
12  - 新 application 走 CRDB
13  - 舊 application 持續 PostgreSQL
14  - CDC bridge（Debezium → Kafka → CRDB consumer）
15
16Phase 3: cutover 適合的 application
17  - 每個 application 獨立 cutover
18  - 不是「全 DB 一次切」
19
20Phase 4: 長期混合架構
21  - 某些 workload 永遠保留 PostgreSQL（不適合分散式）
22  - CRDB 跑 distributed 適配 workload

整體 3-6 個月、不收斂到全 CRDB。

Production 故障演練

Case 1：Transaction retry 沒處理、application 大量 `40001` error

徵兆：cutover 後 application 5-10% transaction 報 restart transaction: TransactionRetryWithProtoRefreshError、業務 fail。

根因：PostgreSQL Read Committed 不要求 application 處理 conflict、CRDB Serializable Isolation 必須 retry-on-conflict；application code 沒 retry loop。

修法：

 1// CRDB transaction with retry
 2for retries := 0; retries < 10; retries++ {
 3    tx, _ := db.Begin()
 4    // ... transaction logic ...
 5    err := tx.Commit()
 6    if err != nil && strings.Contains(err.Error(), "40001") {
 7        time.Sleep(backoff(retries))
 8        continue
 9    }
10    break
11}

framework-level：用 CRDB-provided client lib（go-cockroachdb / crdb-jdbc）有 retry helper。

Case 2：Extension 缺位、application feature 整段掉

徵兆：cutover 後 application 某個地理計算功能直接報錯、PostGIS 函數不存在；migrate 計畫漏看。

根因：CRDB native geo 不同 syntax / API、PostGIS extension 不能直接搬。

修法：

Pre-migration 必跑 extension audit：列所有 pg_extension、找對應 CRDB feature 或退役
PostGIS 替代：CRDB native ST_* functions、部分 syntax 對齊但 spatial index 不同
退役不能換的 feature：評估保留 PostgreSQL（混合架構）

Case 3：Sequential PK 撞 Raft quorum 瓶頸

徵兆：cutover 後寫入吞吐量 / latency 不如預期、CRDB cluster CPU < 30% 但 write latency p99 high。

根因：application 用 AUTO_INCREMENT / SERIAL 連續 PK；CRDB 把連續 key 放 同一 range / 同一 Raft group、寫入串行化、無法平行 scale。

修法：

改 UUID v7 / unique_rowid()：時序排序但散佈跨 range、自動 partition by hash
PRIMARY KEY (region, id)：multi-region 場景 multi-tenancy 自然拆分
不適合的 workload 留 PostgreSQL：不是所有 schema 都適合 distributed

Case 4：Long transaction 對 Raft 衝擊

徵兆：跨 1 分鐘+ 的 transaction（batch processing / 大 ETL）大量 retry、最後失敗；同期間其他短 transaction 也 retry rate 上升。

根因：CRDB long transaction holds intent on touched ranges、阻塞其他 transaction；SSI conflict 機率隨 transaction 時間平方增長。

修法：

Long transaction 拆短：batch 用多個 short transaction、checkpoint 在 application 層
Heavy ETL 不跑 CRDB：用 CRDB CDC export 到 OLAP（Snowflake / BigQuery）跑 batch
Read-only long transaction 用 follower read：AS OF SYSTEM TIME 不 hold intent、適合 reporting

Case 5：Backup / restore 行為跟 PostgreSQL 不同、SRE runbook 失效

徵兆：DBA 嘗試 pg_restore 失敗、CRDB 端 backup format 完全不同；incident response 卡關 1-2 小時。

根因：CRDB backup 是 cluster-internal format、不能用 PostgreSQL tooling；SRE runbook 仍是 PostgreSQL world、應急時心智模型錯位。

修法：

Runbook 重寫：CRDB-specific backup / restore 流程、SRE training
DR drill：cutover 前跑完整 DR drill、用 CRDB tooling 完成、不依賴 PostgreSQL 經驗
Multi-region backup：CRDB 跨 region backup 配置、避免單 region 故障

Capacity 規劃

維度	PostgreSQL self-managed	CockroachDB
Single-node 上限	~10-50K TPS（vertical scale 到 32-128 vCPU）	~5K TPS / node（horizontal scale by adding node）
跨 region	高 latency 跨區 streaming	設計 native、Locality-aware queries
Sharding	手動 partition / pg_partman	自動 range-based
Storage / TPS ratio	不變	Storage 跨 node 3x（Raft quorum 3-replica default）
Total cost (10TB)	$2-4K USD / month（self-managed）	$5-10K USD / month（CRDB Cloud + 3x storage）

判讀：CRDB cost 顯著高、選 CRDB 必須是 paradigm 需求（distributed transaction / multi-region / linear scale）；單純成本 / availability 改善走 Aurora 更划算。

整合 / 下一步

跟 PostgreSQL → Aurora migration 對比

兩條 PostgreSQL 出路：

Aurora：operational simplification、protocol drop-in、cost 中等漲；適合 不需 distributed transaction 的 production
CRDB：distributed paradigm shift、application 必須改、cost 顯著漲；適合 真的需要 distributed 的 workload

多數 application 不需要 distributed transaction、Aurora 更合理；真正需要 cross-region 強一致 / linear scale by adding node 才走 CRDB。

跟 application transaction pattern 重設計

CRDB 強制 application 改 transaction code、retry loop 必加。團隊心智模型轉換是 migration 主要 effort、技術部分相對少。

下一步議題

CRDB → PostgreSQL reverse migration：當業務 simplify 後 distributed 不必要、reverse migration cost 高、實務上 CRDB 是 single-direction lock-in
CRDB Serverless：cost 起點低、burst workload 適合；steady workload 仍是 dedicated cluster
Multi-region active-active：CRDB 真正強項、但網路成本爆、僅金融 / 政府客戶 ROI 合理

PostgreSQL Partition Redesign：當 monthly partition 越跑越慢

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。對應 #127 Type F「Topology re-layout」第 2 個 dogfood（第 1 個是 Redis cluster re-sharding）— 驗證 Type F anatomy 在不同 vendor 上的通用性。

為什麼 monthly partition 越跑越慢

上線時 monthly range partition 設計很合理 — 每月一個 partition、12 個月一年、partition_pruning 在 WHERE event_time >= '2026-05-01' 時跑單 partition、查詢快。但業務跑了 18 個月後：

每月 partition size 從 50GB 漲到 500GB（流量 10x）
單月查詢 WHERE event_time BETWEEN '2026-05-01' AND '2026-05-15' 仍掃整月 500GB（partition_pruning 粒度只到 month）
Vacuum 一個月 partition 需要 6-8 小時、跑不進 maintenance window
DROP 老 partition 釋放 storage 是 monthly cadence、但 retention policy 要求 daily granularity

partition 設計需要 redesign、不是「optimize」 — 從 monthly range partition 改成 daily range partition、partition 數量從 36 個（3 年 retention）變 1095 個。

diff dimension audit 結果：

維度	評估	等級
Schema / API	同 PostgreSQL、同 table 定義、partition key 不變	Low
Operational model	同 PostgreSQL operational stack	Low
Paradigm	同 OLTP RDBMS	Low
Components	同 1 個 DB	Low
Application change	不改（partition_pruning 透明）	Low
Data topology	Partition strategy 從 monthly → daily	High

6 維皆 Low + topology High = Type F「Topology re-layout」。

Pre-layout analysis：partition 不平衡偵測

執行 redesign 前必須先量化當前 topology：

 1-- 1. 每 partition size + row count
 2SELECT
 3  child.relname AS partition_name,
 4  pg_size_pretty(pg_relation_size(child.oid)) AS size,
 5  child.reltuples::bigint AS estimated_rows,
 6  pg_stat_get_last_vacuum_time(child.oid) AS last_vacuum
 7FROM pg_inherits
 8JOIN pg_class parent ON pg_inherits.inhparent = parent.oid
 9JOIN pg_class child ON pg_inherits.inhrelid = child.oid
10WHERE parent.relname = 'events'
11ORDER BY pg_relation_size(child.oid) DESC;
12
13-- 2. partition_pruning 命中率
14EXPLAIN (ANALYZE, BUFFERS)
15SELECT count(*) FROM events
16WHERE event_time BETWEEN '2026-05-01' AND '2026-05-15';
17-- 期望: 只 scan 1 partition (target: daily) 或 1 partition (current: monthly)
18-- 觀察: monthly 設計下、即使 query 只跨 15 天、planner 仍 scan 整月 partition (~500GB)
19
20-- 3. 找 partition imbalance
21SELECT
22  to_char(event_time, 'YYYY-MM') AS month,
23  count(*) AS row_count
24FROM events
25GROUP BY 1
26ORDER BY 2 DESC;
27-- 找 hot month / cold month、判斷 redesign 後分佈

Pre-layout 階段的 output：

當前 topology 量化：36 monthly partition、總 size 1.8TB、最大 partition 500GB、最小 50GB
Hot key 分佈：80% 流量集中最近 3 個月
Redesign 目標：daily partition、最近 3 個月 hot daily / 3 個月 + 之前 cold weekly / 1 年 + 之前 monthly（sub-partition strategy）
Migration scope：1095 個 partition 不直接全建、按 retention policy 階段性

Re-layout 機制：ATTACH / DETACH 線上重劃

PostgreSQL 不支援「直接改 partition strategy」、必須走 新 partition tree + 資料搬遷：

 1-- 1. 建新 daily partition table (parallel to events)
 2CREATE TABLE events_daily (
 3  id bigint,
 4  event_time timestamptz NOT NULL,
 5  payload jsonb
 6) PARTITION BY RANGE (event_time);
 7
 8-- 2. 預建未來 90 天 daily partition
 9SELECT
10  format(
11    'CREATE TABLE events_daily_%s PARTITION OF events_daily FOR VALUES FROM (%L) TO (%L)',
12    to_char(d, 'YYYY_MM_DD'), d, d + interval '1 day'
13  )
14FROM generate_series(current_date, current_date + interval '90 days', interval '1 day') AS d;
15
16-- 3. dual-write phase: application 同寫 events + events_daily
17-- (用 trigger 或 application-side)
18CREATE OR REPLACE FUNCTION dual_write_events() RETURNS TRIGGER AS $$
19BEGIN
20  INSERT INTO events_daily VALUES (NEW.*);
21  RETURN NEW;
22END;
23$$ LANGUAGE plpgsql;
24
25CREATE TRIGGER events_dual_write
26AFTER INSERT ON events
27FOR EACH ROW EXECUTE FUNCTION dual_write_events();
28
29-- 4. backfill historical data per partition
30INSERT INTO events_daily
31SELECT * FROM events
32WHERE event_time >= '2026-05-01' AND event_time < '2026-05-02';
33-- ... 每天跑一個 day partition、avoid long transaction
34
35-- 5. cutover: rename swap
36BEGIN;
37ALTER TABLE events RENAME TO events_old;
38ALTER TABLE events_daily RENAME TO events;
39DROP TRIGGER events_dual_write ON events_old;
40COMMIT;
41
42-- 6. 觀察 1-2 週、DROP events_old

關鍵：rename swap 是 single transaction、cutover 瞬間發生；application connection 不需重連、但 prepared statement cache 可能要刷新。

Execution flow per-step

5 段、每段含 rollback boundary：

Step	動作	Rollback boundary
1 預建 partition	建 events_daily + 90 天 partition、不影響 production	DROP events_daily、無 impact
2 Dual-write	加 trigger 同寫兩端、observe diff	DROP trigger、events_daily 留作 cleanup
3 Backfill	逐日 backfill 歷史資料、用 CHECK constraint 確保完整性	DROP backfilled partition、不影響 source events
4 Verify	對 sample query 跑 events vs events_daily、確認 row count 一致	仍在 dual-write、發現 diff 可暫停 cutover
5 Cutover	Rename swap	不可逆、回退需 reverse rename + dual-write restart

Step 5 是不可逆邊界、應該排在 低流量 maintenance window 跑、且 cutover 前必須有 backup checkpoint。

Production 故障演練

Case 1：Backfill 期間 long transaction 阻塞 vacuum

徵兆：backfill 跑 6 小時的 INSERT INTO events_daily SELECT * FROM events WHERE ...、期間 events 表的 autovacuum 完全不跑、dead tuple 累積、production query 變慢。

根因：PostgreSQL transaction 期間 xmin horizon 鎖死、vacuum 只能回收「不會被任何 active transaction 看到」的 dead tuple；long backfill = long open transaction、vacuum 失效。

修法：

拆 batch INSERT：每日 backfill 拆成 small batch（10 萬 row 一個 transaction）、每個 commit 釋放 xmin
用 COPY 不用 INSERT：COPY events_daily FROM (SELECT * FROM events WHERE ...) 是 PG 對 batch 最快 + 對 vacuum 影響小
Backfill 跑在 standby：用 logical replication 從 standby 拉資料、不在 primary 跑長 transaction

Case 2：Trigger dual-write 對 application 造成 latency

徵兆：加 trigger 後 application 寫入 latency p99 從 5ms 漲到 25-50ms；high-throughput batch job 直接 timeout。

根因：每筆 INSERT 都觸發 trigger function 跑一次 INSERT 到 events_daily、IO 雙倍、index 也雙倍維護。

修法：

改 application-side dual-write：application code 顯式寫兩端、用 connection pool batch 攤平 IO
用 logical replication slot：events → events_daily 用 logical replication 取代 trigger、降 IO 衝擊
dual-write 時間最小化：trigger 只在 backfill + verify 期間打開、cutover 前關掉

Case 3：Partition_pruning 沒命中、planner 仍掃所有 partition

徵兆：cutover 完成後、application 端某些 query latency 從 200ms 跳到 5000ms；EXPLAIN 顯示 Append 下面所有 1095 個 partition 都被 scan。

根因：partition 數量爆到 1000+、planner planning_time 對某些 query 變長（含 prepared statement 沒帶 partition key bound）；或 query 用了 WHERE event_time = some_function(now())、planning-time pruning 不觸發。

修法：

enable_partition_pruning = on 預設、確認沒被 disable
PG 11+ runtime pruning：prepared statement 用 generic plan、runtime pruning 補位
Sub-partition strategy：1095 個 daily 太多、改 最近 90 天 daily / 之前 monthly 混合 strategy、減 partition count
Planner statistics：跑 ANALYZE 重建 statistics、partition 樹太大時 planner 需新 stats

Case 4：Constraint exclusion 失敗、跨 partition unique 不 enforce

徵兆：cutover 後發現某 user 的 event 在多個 partition 都有、unique constraint (user_id, event_id) 沒 enforce；data audit 抓到 duplicate。

根因：PostgreSQL partition table 的 UNIQUE constraint 必須包含 partition key；本來 monthly partition 下 UNIQUE (user_id, event_id) 加上 event_time（partition key）變 UNIQUE (user_id, event_id, event_time)、實際語意是「同月同 user 同 event_id 唯一」；改 daily 後變「同日同 user 同 event_id 唯一」— unique scope 從月變天、原本月內跨日 dedup 失效。

修法：

Pre-redesign：明示 unique constraint 的 時間 scope、redesign 後 scope 縮小是否可接受
Application-side dedup：跨 partition 唯一性走 application 層 lookup（用 Redis SETEX 暫存 key）
退到 non-partitioned dedup 表：建獨立 user_events_dedup 表、application 寫入前先 lookup

Case 5：DROP 老 partition 太頻繁、shared_buffers cache miss 爆

徵兆：daily partition 上線後、每天凌晨 cron DROP events_2025_05_18（90 天前）；DROP 後 shared_buffers 大量 invalidate、application 端 query latency p99 從 10ms 跳到 100-200ms 持續 30 分鐘。

根因：PostgreSQL shared_buffers cache 對被 DROP 表的 page 全部 invalidate；DROP 大 partition（10GB+）後 cache hit rate 從 99% 掉到 60%、application 等 disk IO。

修法：

DROP 跑在 off-peak：凌晨 3-4 點 cron、避開業務高峰
預熱 next partition：DROP 前用 pg_prewarm 主動 load 熱 partition 進 cache
改 DETACH + DROP TABLE delayed：DETACH 是 fast、DROP TABLE 排到 weekly batch、降頻率

Capacity / cost

維度	Monthly partition (current)	Daily partition (target)	Trade-off
Partition count	36 (3 年 retention)	1095 (3 年 retention)	30x partition count、planner cost 略升
Single partition size	50-500GB	1-20GB	Daily 更易 vacuum
DROP old data	Monthly cadence	Daily cadence	更細 retention 控制
Query latency	跨 partition 多時 50-200ms	跨 partition 少時 5-50ms	Daily 多數 query 更快
Planning time	5-10ms	50-100ms (對 generic plan)	Planning overhead + 1 order
Maintenance window	Vacuum 1 partition 6 小時	Vacuum 1 partition 5-30 分鐘	維護視窗更小、可日跑

判讀：daily partition 適合 高流量 + 跨日查詢多 + retention 細的場景；超大 partition (TB 級單日) 仍要 sub-partition 拆。

整合 / 下一步

跟 autovacuum tuning 整合

Daily partition 後 autovacuum 行為：

每 daily partition 獨立 autovacuum、scale_factor + threshold per-partition tuning
autovacuum_max_workers 要從 3 拉到 6-10（partition 數爆）
Cold partition (> 30 天) autovacuum_enabled = false、不浪費 CPU

跟 Patroni HA 整合

Failover 期間 partition migration 不能跑、必須在 stable cluster state 執行；Patroni promote 後重新評估 partition health。

跟 Logical Replication + Debezium 整合

publish_via_partition_root = true 讓 publication 從 parent 角度看；CDC consumer 不需要對每個 partition 設 subscription。

下一步議題

跨 daily partition 的 archive strategy：archive 到 S3 cold storage、daily granularity 給更細 retention 控制
pg_partman extension：自動建 daily partition、不用 cron；但要先確認 Aurora / RDS 支援
Sub-partitioning：未來流量爆時用「daily by time + list by tenant」雙軸 partition

PostgreSQL Multi-Region GDPR Rollout：政策驅動的 migration 屬本 methodology 嗎

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。同時是 #128 self-aware limitation 第 1 點「6 維仍可能漏類（identity / consistency / residency 三軸候選）」的 residency 軸驗證、跟 migration playbook methodology「何時不該套」段對「政策合規驅動」是否在 methodology scope 的反思。

政策驅動的 migration 屬本 methodology 嗎

Migration playbook methodology 「何時不該套」段曾把「compliance-driven migration」歸為排除情境、後來改寫為「不在排除範圍 — 法規驅動只是 driver、資料層仍走 type A-E 之一」。本文是該改寫的 正面實證 — GDPR EU residency 強制需求驅動 single-region → multi-region rollout、本文是 政策驅動但仍走 audit + type 對映流程 的 case study。

但 reviewer D 在第三輪 audit 提出：residency 不只是 driver、本身是 cross-cutting constraint、反向約束 topology + operational + schema；該不該升 獨立 audit 軸？本文是該議題的 dogfood。

三層約束：driver / topology / contract

GDPR 對 PostgreSQL multi-region rollout 的影響在三個層次：

Driver layer：EU 客戶資料必須 物理上儲存在 EU（GDPR Article 44-49）— 觸發 multi-region migration 的根本理由
Topology layer：跨 region replication 不能 自由跨 region 複製 EU 客戶資料、必須按 GDPR scope 分區；topology 設計受合規約束
Contract layer：審計能 demonstrate 「EU 資料在 EU」、操作日誌 + replication evidence 必須可追溯；application + ops contract 多出合規 obligation

跑 6 維 diff dimension audit 對「single us-east → us-east + eu-west」：

維度	評估	等級
Schema / API	同 PostgreSQL、可能加 region column	Low
Operational model	HA / backup / monitoring 跨 region 重設計	High
Paradigm	同 OLTP RDBMS	Low
Components	同 PostgreSQL instance + Patroni	Low
Application change	Routing logic by user region、必改	Medium
Data topology	Single → multi-region replication	High
Residency contract	EU 資料禁止離開 EU、log + replication 範圍受約束	High

6 維 audit 抓不到「Residency contract = High」這軸。用既有 6 維歸類、會走 Type F multi-axis（topology + operational + application change 多 High）+ 政策合規補強段；但這個歸類 漏掉合規對 topology / operational / application 的反向約束：

Topology layer：6 維只 audit 「topology 是否變動」、漏 audit 「topology 範圍是否受合規約束」
Operational layer：6 維只 audit 「operational 是否重設計」、漏 audit 「audit log / encryption / access control 是否符合合規要求」
Application layer：6 維只 audit 「application code 是否改」、漏 audit 「資料 routing 是否符合 residency rule」

Residency 不只是 driver、是 cross-cutting constraint、會反向約束其他 3-4 維、且帶獨立工作量（合規 evidence collection / DPIA / audit prep）。

Residency axis 是否獨立：3 個論據

Yes、residency 是獨立軸：

可獨立發生：原本 multi-region setup、新增「PCI 強制信用卡資料只能 us-east」、是 純 residency 變更、其他 6 維皆 Low（topology 不重設計、operational 不重設計、application 加 routing rule 即可）；但 residency 約束 routing + log 範圍
驅動工作量分佈：本文 multi-region GDPR rollout 工作量分佈：
- Topology setup（logical replication / region setup）：~25%
- Operational redesign（HA / backup / monitoring）：~20%
- Application routing change（region detection / data filter）：~15%
- Residency compliance（DPIA / audit log / access control / encryption / evidence）：~40%
Cross-cutting nature：residency 不只影響「資料放哪」、影響：
- Backup 可不可以 cross-region store（多數 GDPR 不允許）
- Audit log 是否包含 EU PII（需 EU 端 log + 跨 region log filter）
- Encryption key 是否可 cross-region share（多數情境不允許）
- Application access logs 是否含 EU IP / user ID

No、residency 可塞 operational + driver：

反論：residency 是 operational 子議題、加 audit + replication scope 規則就好
拒絕：residency 反向約束 topology / application / operational、且帶獨立合規工作量（DPIA / cross-border transfer agreement / data subject rights）；不是單純 operational 子議題

實證：本文 migration 工作量 40% 在 compliance、確認 residency 是 獨立工作量主軸。

結構：Type F multi-axis + residency compliance 獨立段

本文結構是 Type F 為主（topology high + operational high）+ residency compliance 獨立段（不在 6 維任一個）：

11. 政策驅動的 migration 屬本 methodology 嗎（meta-reflection 開頭）
22. 三層約束：driver / topology / contract
33. Residency axis 是否獨立的論據
44. 結構 differentiator（Type F multi-axis + residency compliance 段）
55. EU residency 對 topology / operational / application 的反向約束
66. Migration 流程（含 DPIA 跟 evidence collection 階段）
77. Production 故障演練
88. Capacity / cost（含合規 audit cost）
99. 整合 / 下一步

9 章節、240-270 行。比標準 Type F 多 1 段（residency compliance）+ 1 段（meta-reflection）。

EU residency 對其他維度的反向約束

 1Residency rule → Topology constraint:
 2- EU customer data 不能 replicate to us-east
 3- Backup of EU table 不能 store in non-EU region
 4- Logical replication subscriber 在 us-east 必須 filter out EU data
 5
 6Residency rule → Operational constraint:
 7- Cross-region monitoring 不能 export EU PII to global SaaS (Datadog)
 8- Audit log 含 EU user_id 必須 store 在 EU
 9- Encryption key (KMS) 不能 share 跨 region（EU 端用 EU KMS）
10- DBA / SRE access EU data 必須 from EU jurisdiction + 記 audit trail
11
12Residency rule → Application constraint:
13- Application 必須 detect user region + route 對應 DB endpoint
14- Cross-region join / aggregate 對 EU user 必須走 EU 端 query
15- Data export feature 必須 reject 跨 region export request

每條反向約束都是 新工作量、不在 6 維 audit 內。

Migration 流程（含 DPIA + evidence collection）

10 step、跨 5 個月：

Phase	Step	對應 6 維 / 合規
0 Pre-migration	1. DPIA（Data Protection Impact Assessment）	Compliance pre-requisite
0	2. 法務 review 跨境傳輸 agreement	Compliance
1 Setup	3. EU PostgreSQL cluster build + Patroni	Operational + Topology
1	4. EU KMS + audit log + monitoring stack	Operational + Residency
2 Data	5. Logical replication 設 filter（exclude EU table from us-east）	Topology + Residency
2	6. Initial sync EU table 到 EU cluster	Topology
3 App	7. Application 端加 region detection + routing	Application change
3	8. Cross-region query banning（cross-region join 拒絕 EU table）	Application + Residency
4 Verify	9. Compliance audit + evidence package	Residency
4	10. DPO sign-off + DR drill	Residency + Operational

Step 1 + 9 + 10 是 residency-specific、不在既有 6 維內。

Production 故障演練

Case 1：Replication filter 漏 table、EU 資料 leak 到 us-east

徵兆：6 個月後 internal audit 發現 us-east 端 customers table 含 EU 客戶資料；replication filter 設定漏改、新加的 eu_customer_extensions table 被自動 replicate 到 us-east。

根因：PostgreSQL logical replication publication 預設 FOR ALL TABLES、新加的 table 自動納入；應該明示 FOR TABLE list... 並 GDPR review。

修法：

Publication 改 explicit table list：CREATE PUBLICATION xxx FOR TABLE users, orders, ...、不用 FOR ALL TABLES
Schema change review 加 GDPR check：每個 DDL PR 必須答「新 table 是否含 EU PII、是否該 filter」
Replication monitor：定期跑 SELECT * FROM pg_publication_tables 對照 expected list、漂移立刻 alert
Evidence collection：filter 配置 + audit log 留檔、出事 DPO 知道何時 leak

Case 2：Backup 跨 region store、合規違規

徵兆：跑 1 年後 GDPR audit 抓到 EU table 的 backup 存在 us-west S3 bucket；違反 Article 44-49 限制。

根因：pgBackRest 預設用 global S3 bucket（在 us-east-1）；EU PostgreSQL cluster backup 跑去 us-east、跨境傳輸無 transfer mechanism。

修法：

Per-region backup config：EU cluster 用 EU S3 bucket（eu-west-1）、寫進 pgBackRest config
Backup test：每月跑一次 backup restore drill、validate backup 是 from EU region
Bucket policy 強 enforce：EU bucket 加 aws:RequestedRegion=eu-west-1 強制 region match
Audit log archive 同理：log shipping 也必須 region-respect

Case 3：Monitor SaaS 收集 EU PII、合規 alert

徵兆：Datadog APM 收集了 EU customer 端 request 含 user_email 在 trace、被 DPO catch、required to delete 過去 90 天的 Datadog data。

根因：APM trace 預設收集 application context、含 PII；Datadog 是 us-east SaaS、PII 跨境到 Datadog us-east、違規。

修法：

APM scrub PII：application 端在 trace 前 scrub user_email / user_id 替換成 hash
EU-specific monitor stack：EU PostgreSQL + APM 用 Grafana on EU EKS、不送 Datadog
跨 region SaaS use 必須 audit：所有外部 SaaS（Datadog / Sentry / NewRelic）必須 GDPR-friendly 配置
Privacy by design：log / trace 預設 scrub PII、不是 opt-in

Case 4：Cross-region query 跑 EU + US 資料、residency 違規

徵兆：BI dashboard 跑跨 region aggregation query（EU sales + US sales）、PostgreSQL FDW 從 us-east cluster query EU cluster、EU 端 server log 顯示「PII export to us-east」。

根因：開發者用 PostgreSQL Foreign Data Wrapper（FDW）方便跑跨 region query、不知道這在 GDPR 視為跨境 PII export。

修法：

Architecture: aggregate at edge：BI 跑 per-region aggregate、再在 BI layer compose（無 PII）；不直接跨 region join
FDW 限制：disable FDW from us-east → EU cluster、enforce one-way data flow
DBA access policy：DBA 不能直接 query EU cluster 從 us-east jumpbox
Query audit：production query log 跑 PII detection（regex / NER）、發現跨境 export 立即 alert

Case 5：DR drill 跨 region failover、暴露 residency assumption 失敗

徵兆：DR drill「EU 完全不可用、切到 us-east」執行後、發現 us-east 端 沒 EU 資料 — 因為一直 strict residency filter；business 端 EU 客戶 24 小時無法服務。

根因：strict GDPR residency 跟 strict DR availability 衝突 — 要 跨 region DR 就要 跨 region 持有資料、要 strict residency 就 DR 範圍受限。

修法：

DR strategy revision：EU 端 multi-AZ within EU、不靠跨 region；EU region 全不可用情境接受 longer RTO
Compliance + DR negotiation：跟 DPO / 法務談 DR 跨境 short-window 是否可接受、簽 cross-border transfer agreement
Backup recovery 在 EU 內：EU 端 backup 跨 AZ store、不跨 region；EU AZ 災難用 EU 另一個 AZ 重建
明示 RTO trade-off：EU customer SLA 寫「regional DR 內 RTO 1 小時、global DR 24-48 小時」、residency 跟 DR 是 互斥取捨

Capacity / cost

維度	Single region	Multi-region GDPR-compliant
Infrastructure cost	baseline	+60-100%（雙 cluster + cross-region replication）
Operational FTE	0.5-1	1-2 FTE（雙 region SRE + compliance）
Compliance cost	0	$50-200K USD setup（DPIA / audit / DPO time）+ ongoing
Egress cost	Low	High（cross-region replication 流量）
Application latency	Single AZ	EU customer 連 EU、低；US customer 連 US、低
DR RTO	30 分鐘 (single region)	EU regional 1 小時 / global 24-48 小時
Audit cost	Minimal	季度 DPIA + 年度 compliance audit

判讀：GDPR multi-region 成本 1.5-2.5x、但合規是 必要 spend、用 cost optimization 的框架看會誤判；多數歐洲業務 7+ 年回本（避免 4% revenue fine）。

整合 / 下一步

跟 PostgreSQL → Aurora 對位

Aurora Global Database 可簡化跨 region setup、但 residency filter 仍需 application 端；不是「Aurora 就解決 GDPR」。

跟 Multi-DC MongoDB 對位

兩篇都是 multi-region rollout、但本文加合規維度；MongoDB 篇純 capacity + DR driver、本文加 residency constraint、結構不同。

跟 #128 self-aware limitation 第 1 點對位

本文驗證 residency axis 候選：

Yes 軸獨立：reverse-constrain topology + operational + application、且帶獨立 compliance 工作量（DPIA / evidence collection / DPO sign-off）
作為 driver 不夠：methodology 把 residency 歸為 driver 太窄、忽略 cross-cutting constraint 性質

未來 audit 可能擴 7 維（加 residency / compliance contract）；累積 PCI / HIPAA / SOX 等不同合規 case 後再評估。

下一步議題

Identity + Consistency + Residency 三軸候選統合：本批 3 篇分別驗證、未來累積 evidence 後考慮獨立 #129 卡 / 擴 audit 到 7-8 維
Schrems II + new EU data transfer rules：跨大西洋資料傳輸法規變動快、playbook 半衰期短
Data localization in China / Russia / India：類似 GDPR 但細節不同、未來 case 累積後評估

從自管 PostgreSQL / MySQL 遷到 Aurora：operational redesign migration playbook

Wed, 27 May 2026 00:00:00 +0000

從自管 PostgreSQL / MySQL 遷到 Aurora 是 operational redesign hybrid（Type C migration）— wire protocol 相容、application 不改、但 HA / backup / monitoring / capacity 模型完全不同。本 playbook 走 migration playbook 6 規格面（Driver / Diff audit / Phase plan / Evidence / Cutover / Cleanup）、補三個 Aurora-specific 議題：(1) 合規禁止跨境複製的 no-go condition、(2) 合規驅動遷移的時程模型（市場數 × 平均審查月份）、(3) Aurora 不是 all-purpose store 邊界。每階段進入下一步前都要過 migration gate — Evidence 段列出的證據是 gate 條件、不是 nice-to-have。

本 playbook 不重複 Aurora overview（請看 Aurora vendor 頁）— 前置閱讀建議 Aurora storage architecture（理解為什麼 operational redesign）、Aurora cross-AZ failover RTO（HA redesign 主項）、Aurora read replica scaling（fleet 治理 SSoT、含合規 driver）。

Migration type 判定

本 playbook 是 Type C：Operational redesign hybrid：

PostgreSQL / MySQL → Aurora wire protocol 相容、application 多數不改
但 operational model（HA / backup / monitoring / capacity）完全不同、需要 redesign
跟 Type A schema translation 差：不需要翻譯 application SQL
跟 Type B drop-in 差：HA / backup / monitoring / capacity 模型需要 redesign
跟 Type E paradigm shift 差：保留 single-primary SQL 跟 ACID transaction 語意

對照其他 Aurora-related migration playbook：

PG → Aurora DSQL 是 Type E paradigm shift（distributed SQL、multi-region active-active）
PG → CockroachDB 是 Type E paradigm shift + cross-cloud

Driver：為什麼遷

主要 driver

團隊規模成長、DBA bandwidth 飽和、backup / failover / patch 操作負擔超過產品價值
Read replica scaling 需求（傳統 streaming replication lag 秒級、Aurora 10-30ms — 詳見 Aurora read replica scaling）
Storage growth 痛點（local SSD 上限、resize 要 downtime、Aurora 自動 grow 到 128 TB）

次要 driver

HA model 簡化（Patroni / Orchestrator → Aurora cluster endpoint、見 cross-AZ failover RTO）
Backup 自動化（pgBackRest / xtrabackup → Aurora automated backup + PITR）
Multi-region DR 需求（Aurora Global Database、但合規場景例外）

No-go condition（嚴格遵守）

跨雲 / on-prem 需求觸動 vendor lock-in — Aurora storage layer 是 AWS 專屬、wire protocol 相容不代表退出成本低、long-term 跨雲策略未定時 self-managed PG / MySQL 反而保留路徑。

條件	為什麼是 no-go
跨雲 / on-prem 需求	Aurora AWS-only、wire protocol 相容但 storage 是 AWS 專屬
需要 latest upstream 特性	Aurora 通常落後 upstream PostgreSQL / MySQL 1-2 major version
預算極敏感	Aurora 比 self-managed PostgreSQL / MySQL 貴 20-30%
合規禁止跨境複製	受監管市場 Data Residency 禁止跨境複製、Aurora Global Database 在這種場景違反合規 — 要改用每市場獨立 cluster
客製化 storage / I/O	Aurora storage 是 AWS managed、不能客製化（vs self-managed 可以做 cgroup / quota / 自訂 storage 配置）

合規禁止跨境複製 no-go（9.C14 Standard Chartered 揭露）：

受監管市場資料不能跨境複製、Aurora Global Database 在這種場景違反合規。讀者規劃 Aurora migration 時不能假設「Aurora 一定有 Global Database 選項」— 要改用每市場獨立 cluster（fleet 拓樸吸收合規邊界、見 Aurora read replica scaling fleet SSoT）。

替代方案

RDS PostgreSQL / MySQL：更接近 upstream、單 AZ 便宜、不重寫 storage
自管 + Patroni HA + pgBackRest：保留控制、跨雲可用
CockroachDB / Aurora DSQL：multi-region active-active write 需求

Case anchor

9.C23 Netflix Aurora consolidation：多套 RDBMS 統一到 Aurora、driver 是 operational consolidation、不是純效能
9.C4 DraftKings：200 個 cluster、按業務切分（不是一個大 cluster + 200 schema）
9.C14 Standard Chartered：受監管場景、合規 lead time 是時程主項

Netflix scope warning（必引用）：

case「需要警惕」段第 2 點原文：「Netflix 數據層遠不止 Aurora — 還有 Cassandra（playback metadata）、EVCache（cache layer）、Iceberg（data warehouse）。Aurora 主要是『需要 ACID 的 OLTP 工作負載』、不是『all-purpose store』」
工程含義：consolidation 是 ACID OLTP 整合到 Aurora、不是 所有 store 整合到 Aurora
讀者規劃整合範圍時要明示什麼 workload 不在範圍（cache、analytics、time-series、search、KV 高峰）
「+75% performance improvement 是跨多 workload 的最大改善幅度、不是『每個 workload 都 +75%』。實際每個 workload 改善幅度從 10% 到 75% 不等」（case「需要警惕」段第 1 點）

Diff audit：6 維 source / target 差異盤點

維度	差異	主導程度
Schema	PostgreSQL extension 相容性（pg_cron 改 Lambda / Step Functions、pg_partman 改 manual / native partitioning、TimescaleDB 不支援、PostGIS 支援）；MySQL plugin（HandlerSocket 不支援、audit plugin 改 CloudTrail）	中
Operational	HA model、backup、monitoring、parameter management（postgresql.conf → DB parameter group / cluster parameter group）	高（主導）
Paradigm	保留（single-primary SQL、ACID transaction、wire protocol）	無變動
Components	connection pool（PgBouncer → RDS Proxy 或保留 PgBouncer in front of Aurora）、logical replication（pglogical / Debezium → Aurora 原生支援、但有版本限制）	中
Application	保留（connection string 改 endpoint、SSL config 改 RDS CA、driver 不改）	低
Topology	保留（single-region scaling、若要 multi-region 走另一條 playbook to DSQL）；fleet 拓樸決策（拆幾個 cluster）詳見 read replica scaling fleet SSoT	中-高

主導差異：Operational layer（HA / backup / monitoring）、不是 schema 或 application。

Schema diff 細節

PostgreSQL → Aurora PostgreSQL：

Extension	Aurora 支援	Migration 策略
pg_cron	不支援	改 Lambda 排程 + RDS event 或 Step Functions
pg_partman	不支援	改 native declarative partitioning（PostgreSQL 11+）
TimescaleDB	不支援	改 native partition + materialized view、或保留 self-managed
PostGIS	支援	直接遷
pgvector	支援（新版）	確認 Aurora PostgreSQL version、可能需要升級
pglogical	不支援	改 Aurora 原生 logical replication（有版本限制）

MySQL → Aurora MySQL：

Plugin	Aurora 支援	Migration 策略
HandlerSocket	不支援	改 SQL access 或 Aurora-specific KV cache
Vault audit	不支援	改 AWS CloudTrail + RDS audit log
MyRocks engine	不支援	改 InnoDB（Aurora 預設）、評估 storage 成本
MaxScale	不支援	改 Aurora reader endpoint 或 RDS Proxy

Operational diff 細節

元素	Self-managed	Aurora
HA	Patroni / Orchestrator + etcd / ZooKeeper	Cluster endpoint + 自動 cross-AZ failover
Backup	pgBackRest / xtrabackup + S3 lifecycle	Automated backup + manual snapshot + PITR
Monitoring	Prometheus exporter + Grafana	CloudWatch + Performance Insights
Parameter	postgresql.conf / my.cnf	DB parameter group / cluster parameter group
Failover testing	Patroni `patronictl failover`	`aws rds failover-db-cluster`
WAL / binlog 觀測	`pg_stat_wal` / `SHOW MASTER STATUS`	CloudWatch + Performance Insights wait events

Application diff 細節

1# Self-managed PostgreSQL
2jdbc:postgresql://primary.internal:5432/mydb?ssl=true&sslmode=verify-full&sslrootcert=/etc/ssl/postgresql.crt
3
4# Aurora PostgreSQL
5jdbc:postgresql://my-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:5432/mydb?ssl=true&sslmode=verify-full&sslrootcert=rds-ca.pem

Application 改動量小：connection string 換 endpoint、SSL CA 換 RDS CA、driver 不變。

對應 knowledge card：failover、replication-lag。

Phase plan：階段切換

Phase 0：Pre-migration audit（2-4 週）

工作：

Extension audit：SELECT * FROM pg_extension / SHOW PLUGINS、列出 source 使用的 extension
Parameter audit：postgresql.conf vs Aurora parameter group、列差異
Application connection string audit：所有服務的 DB connection 點位
Benchmark baseline：write QPS / read QPS / p99 latency
Cost baseline：current self-managed monthly cost vs Aurora estimate

Output：

Migration feasibility report（含 no-go condition check）
Aurora cluster sizing 估算
Extension migration plan（each extension 對應的策略）

Phase 1：Aurora infra 準備（1-2 週）

工作：

Aurora cluster 開設（dev / staging / prod）
Parameter group 對位（從 source postgresql.conf / my.cnf 翻譯到 Aurora parameter group）
SG / subnet / IAM 設定
RDS Proxy 配置（如需要）
CloudWatch dashboard + Performance Insights baseline
Backup retention 設定（1-35 天）

Output：

Aurora cluster 待 data load
Monitoring 已 ready、能對照 source 跟 target

Phase 2：Data migration（2-8 週、依資料量）

三條 path、依場景選：

Path A：AWS DMS full load + CDC

適合：< 1 TB、可接受 read-only 短窗口
流程：DMS full load → DMS CDC → application cutover
優點：managed、validation 工具齊全
缺點：CDC lag 受 DMS task config 影響、bulk DDL 不友善

Path B：pg_dump / mysqldump + logical replication catch-up

適合：> 1 TB、要長 CDC 期、預算敏感
流程：snapshot → pg_dump / mysqldump → restore to Aurora → logical replication catch-up → application cutover
優點：成本低、可控性高
缺點：手動步驟多、要自己管 CDC lag

Path C：Snapshot restore

適合：已在 RDS PostgreSQL / MySQL
流程：RDS snapshot → Aurora restore-from-snapshot → catch-up → application cutover
優點：最快、AWS-internal 操作
缺點：只適用 RDS source、不適用 self-managed

Phase 3：Dual-read validation（1-2 週）

工作：

Application read 50/50 split source / target
比對 query 結果（per-table checksum + sampling）
量測 latency（Aurora p99 ≤ source × 1.2）
確認 stale read 比例 < 0.01%

Output：

Validation report：query 結果差異、latency 對照
Go/no-go decision for cutover

Phase 4：Cutover（< 1 小時 window）

工作：

Source set read-only
CDC catch-up final（lag → 0）
Application switch endpoint（DNS / service discovery / config flag）
Smoke test（critical path query + write）
Monitor error rate + latency 1 小時

Output：

Cutover complete
Source 切到 read-only、保留作為 rollback 餘地

Phase 5：Cleanup（4-8 週）

工作：

Source 保留 1 個月 read-only（rollback window）
確認穩定後 snapshot → S3 archive → decommission
舊 monitoring / backup / runbook archive

Output：

Source decommissioned
新 runbook + monitoring 為 SSoT

本 phase plan 適用範圍

Non-regulated workload（一般 SaaS / e-commerce / 內部系統）。受監管場景（銀行 / 保險 / 醫療）請見下方「合規驅動遷移的時程模型」段、技術 phase 不變但 lead time 完全不同。

合規驅動遷移的時程模型

受監管產業遷移的關鍵時程是 合規審查 lead time、不是技術遷移時間 — 本段是補充給銀行 / 保險 / 醫療讀者、避免照本 playbook 走嚴重低估時程。

Standard Chartered 揭露的時程模型

9.C14 Standard Chartered case 「判讀」段第 3 點 + 「策略」段第 3 點原文：「每個受監管市場的審查可能 3-12 個月、合計遷移時程是『市場數 × 平均審查月份』、不是『技術遷移月份』」。

工程含義：

技術 phase plan 假設 2-8 週 data migration + < 1 小時 cutover
合規 lead time 是 獨立軸、可能比技術時程長一個數量級
不同市場合規進度不同步、可能要分批上線

合規時程組合

軸	時程估算	不可壓縮原因
技術遷移	2-8 週 data migration + < 1 小時 cutover	工程可控
單市場合規審查	3-12 個月（Standard Chartered case 揭露）	監管機構 lead time、不是技術問題
多市場合規 lead time	市場數 × 平均審查月份（7 市場 × 6 個月 ≈ 3.5 年最壞情況）	各市場各自審、平行度受監管機構文化影響
跨境複製禁令審查	包含在合規審查內、可能讓 Global Database 從候選變反指標	監管要求 data residency、無 cross-region replication option

讀者判讀

受監管場景不能用本 playbook 的「2-8 週 data migration + < 1 小時 cutover」估時程交付給管理層 — 合規 lead time 是時程主項
受監管場景不能假設 Aurora Global Database 是 multi-region DR 選項 — 合規禁止跨境複製場景下 Global Database 違反合規（見 global-database-multi-region），要改用每市場獨立 cluster
合規場景的 phase plan 要把每市場當成獨立 mini-migration、用 市場批次 推進、不是一次 big bang

scope warning（必明示、case 自承）：Standard Chartered case 未公開是 PostgreSQL 還是 MySQL、未公開具體 cost 數字 — 引用時不能擴寫「Standard Chartered 用 Aurora PostgreSQL」這類細節（case 用「相關 case study」匿名標明）。

合規時程 scope 警示：「3-12 個月、7 市場 × 6 個月 ≈ 3.5 年」是 Standard Chartered case 揭露範圍。實際合規 lead time 隨產業（銀行 / 保險 / 醫療）跟國家（東南亞 / 歐盟 / 北美 / 中東）差異大、不是恆定數字。讀者要把自家對應監管框架的實際 lead time 算進來、不是直接套 Standard Chartered 數字。

Evidence：每階段驗證資料

Phase	Evidence
Phase 0	extension list、parameter diff、application SQL 抽樣 test on Aurora dev cluster
Phase 1	Aurora cluster ready、monitoring dashboard 跟 source 對照
Phase 2	DMS row count match、checksum（per-table MD5）、CDC replication lag < 5 秒
Phase 3	query result diff < 0.01%、p99 latency Aurora ≤ source × 1.2、application error rate baseline
Phase 4	cutover 完成後 1 小時內 error rate < baseline × 2、write success rate 100%
Phase 5	30 天無 rollback trigger、cost 月帳對齊預估

受監管追加 evidence：

每市場合規 sign-off 文件（central bank / 金融監管機關）
跨境複製禁令審查記錄
Data residency 驗證測試（資料未流出受監管市場 boundary）
Audit log 連續性驗證（source / target audit log 銜接）

回路徑：4.20 Observability Evidence Package 抽 CDC / latency evidence。

Cutover：切流決策

Cutover window：

建議 4 AM local time（lowest traffic）
預留 4 小時 buffer
受監管場景可能要在合規規定的 maintenance window（例如某些央行規定週日凌晨）

Rollback condition：

error rate > baseline × 5
write latency p99 > baseline × 3 持續 10 分鐘
data corruption signal（checksum mismatch、unexpected row count drop）

Rollback path：

Application connection string 切回 source
Source 仍 read-write（cutover 前留 read-write 路徑、若已 read-only 要先解凍）
CDC 反向同步（Aurora → source）catch-up

Decision owner：

DBA lead + service owner + on-call SRE 三方 sign-off
受監管場景追加 compliance officer sign-off
Cutover decision log 記錄（rollback window / rollback condition 文件化）

對應 knowledge card：rollback-window、rollback-condition。

Cleanup：雙軌退役

元素	Cleanup 策略
Source database	read-only 1 個月、確認穩定後 snapshot → S3 archive → decommission
舊 monitoring	Prometheus exporter 拆、Grafana dashboard archive、CloudWatch dashboard 為 SSoT
舊 backup chain	pgBackRest / xtrabackup retention 保留至合規邊界（金融 7 年、一般 90 天）
舊 runbook	Patroni / Orchestrator runbook archive、新 runbook 對 Aurora cluster endpoint
舊 CDC connector	DMS task 留 7 天觀察期 → delete；自管 Debezium / pglogical 在 source decommission 同時退役

不可逆 cleanup 邊界：

Source decommission 後資料只能從 backup restore
確保 backup 可用性測試通過再 decommission
受監管場景要保留 source backup 到合規 retention（金融 7 年、可能更長）

案例對照

Netflix Aurora consolidation：operational consolidation 的價值

9.C23 Netflix 多套 RDBMS（PostgreSQL / MySQL / Oracle）→ Aurora、+75% 效能 / -28% 成本。

驗證的 driver：

DB 種類太多本身是規模化的成本（每多一種 DB 多一套 DBA 知識 / backup / monitoring）
整合到 Aurora 釋放工程資源、不是純效能改善

case 自帶警示（必引用）：

「+75% 是跨多 workload 最大改善幅度、不是每 workload 都 +75%」（case「需要警惕」段第 1 點）
Aurora 非 all-purpose store 邊界：「Netflix 數據層遠不止 Aurora — 還有 Cassandra（playback metadata）、EVCache（cache layer）、Iceberg（data warehouse）。Aurora 主要是『需要 ACID 的 OLTP 工作負載』」（case「需要警惕」段第 2 點）

工程含義：consolidation 是「ACID OLTP 整合到 Aurora」、不是「所有 store 整合到 Aurora」。讀者規劃整合範圍時要明示什麼 workload 不在範圍：

Workload	是否在 Aurora consolidation 範圍	替代
ACID OLTP	是	-
Playback metadata	否（Netflix 用 Cassandra）	Cassandra / ScyllaDB
Cache layer	否（Netflix 用 EVCache）	EVCache / Redis / Memcached
Data warehouse	否（Netflix 用 Iceberg）	Iceberg / Snowflake / Redshift
Time-series	否（性能不適合）	InfluxDB / TimescaleDB self-managed
Search	否（無 inverted index 優化）	Elasticsearch / OpenSearch

DraftKings：fleet 拓樸 redesign

9.C4 DraftKings 200 個獨立 Aurora cluster、按業務切分（不是一個大 cluster + 200 schema）。

驗證的 driver：

Migration 不只是技術切換、也是 cluster 拓樸 redesign
業務本身可切分（每體育類別 / 每地理 / 每產品線）就在 migration 時順便拆 cluster
Blast radius 隔離跟容量規劃分散一起獲得

Fleet 拓樸決策：詳見 Aurora read replica scaling 邊界段 SSoT。本 playbook 提醒 migration 是拆 cluster 的好時機、不展開拓樸決策本身。

Standard Chartered：合規 lead time + 跨境複製禁令

9.C14 Standard Chartered 受監管場景揭露：

合規 lead time 是時程主項（3-12 個月 / 市場）
跨境複製禁止讓 Global Database 變反指標
每市場獨立 cluster + cross-AZ failover 是合規場景的標準解

反例：Aurora 不適合的場景

Multi-region active-active write：見 PG → Aurora DSQL Migration
跨雲：見 PG → CockroachDB Migration
極端寫入吞吐（> 100K WPS）：考慮 sharding、CockroachDB、或 DynamoDB

邊界與整合 / 下一步

Sibling playbook：

PG → Aurora DSQL — paradigm shift、Type E、multi-region active-active
PG → CockroachDB — cross-cloud、paradigm shift
PG → Aurora — 既有 PG-specific playbook、可對照本 playbook 的 vendor-neutral 版本

Sibling deep article：

Aurora storage architecture — 理解 storage 設計才知道為什麼 operational redesign
Aurora cross-AZ failover RTO — HA redesign 主項
Aurora read replica scaling — fleet 治理 SSoT、含合規 driver
Aurora Global Database — 合規禁止跨境複製的 anti-recommendation

1.x 章節互引：

1.12 大規模 DB 遷移實戰 — migration 上游 framework

何時不用本 playbook：

從 Aurora 遷到別處（反向、走對應的反向 playbook）
從 RDS PostgreSQL 升 Aurora PostgreSQL 是 in-place upgrade、用 RDS console「Convert to Aurora」即可、不需要這套 playbook
跨雲遷移：本 playbook 不涵蓋 GCP / Azure SQL → Aurora 流程

Cosmos DB for PostgreSQL：基於 Citus 的分散式 PostgreSQL、跟核心 Cosmos DB 是不同產品、何時選它而非核心 Cosmos 或一般 PG

Tue, 02 Jun 2026 00:00:00 +0000

本文是 Cosmos DB overview 的 deep article、寫作參照 vendor deep article methodology。Cosmos DB for PostgreSQL 是 Azure 在 2022 把 Citus（PostgreSQL 的分散式 extension）納入後推出的 分散式 PostgreSQL 託管服務 — 它跑真正的 PostgreSQL engine、支援標準 SQL / JOIN / ACID 交易、把單表水平分片到多個 worker node。它跟本 vendor 頁主講的核心 Cosmos DB（NoSQL、multi-model、RU/s 計費）是 兩個不同產品、只是共用品牌名稱。本文的主責任是釐清這個定位混淆、再講它的架構與選型判準：何時選它、何時該回核心 Cosmos DB、何時一般 PostgreSQL 就夠。

本文沒有專屬 production case anchor：Cosmos DB for PostgreSQL 的公開 case 覆蓋稀薄、機制以 Azure / Citus vendor 規格與分散式 PostgreSQL 通用工程展開、選型判準用「scale-out PG vs NoSQL vs single-node PG」這個具體決策驅動。

Scope warning：本文涉及的服務命名、node 規格上限、Citus 版本、PostgreSQL major version 支援屬時間敏感、Azure 服務命名歷史上有變動、實作前以 Cosmos DB for PostgreSQL 官方文件 cross-verify。

問題情境

典型觸發場景：team 在 Azure 上跑 PostgreSQL、單機 primary 撐到上限 — write throughput、資料量、或單表太大導致 index / vacuum / query 變慢。看到「Cosmos DB」以為是要把資料搬進 NoSQL、重寫 application 成 document model；或反過來、看到「Cosmos DB for PostgreSQL」以為它就是核心 Cosmos DB 的一個 PostgreSQL API、結果發現它是完全不同的東西。命名混淆讓選型從一開始就走偏。

讀者徵兆：

「單機 PostgreSQL 撐不住、但 application 是 SQL / JOIN / 交易重、不想重寫成 NoSQL」
「Cosmos DB for PostgreSQL 跟核心 Cosmos DB 是同一個東西嗎」
「它跟一般 Azure Database for PostgreSQL 差在哪、什麼時候才需要它」
「跟 CockroachDB / Aurora / Spanner 這些 distributed SQL 怎麼選」

真實壓力：SQL workload 撐到單機上限時、選錯方向的成本是年級的。誤以為要遷 NoSQL 而重寫 application 是浪費；誤以為核心 Cosmos DB 有「PostgreSQL 相容」而選錯產品也是浪費。正確的選型要先把這個服務放回它真正的分類 — 分散式 SQL、見 distributed SQL。

核心機制：Citus-based coordinator-worker 分散式 PostgreSQL

Cosmos DB for PostgreSQL 的底層是 Citus、把 PostgreSQL 從單機擴展成 coordinator + worker 的分散式叢集。它的關鍵概念有幾個。

它跑 真正的 PostgreSQL。不是 wire-compat、不是 PostgreSQL API on top of NoSQL — 是 PostgreSQL engine 加 Citus extension。標準 SQL、JOIN、ACID 交易、PostgreSQL extension 生態（含部分如 PostGIS）都在。這跟核心 Cosmos DB（自己的 query language、SQL-like 但無 JOIN、RU/s 計費）是根本不同的東西。

架構是 coordinator-worker。coordinator node 接 query、根據 distribution column 把 query 路由 / 拆分到 worker node、worker 存實際的 shard。application 連 coordinator、看起來像連一個 PostgreSQL。

distribution column 是核心設計決策、類比核心 Cosmos DB 的 partition key 之於 NoSQL、也類比 partition-key-design 講的分散原則。表按 distribution column 的值分片到 worker；同一 distribution column 值的 row 落在同一 shard。JOIN 與交易若在同一 distribution column 值內、可以下推到單一 worker 高效執行（co-location）；跨 distribution column 的 JOIN / 交易要跨 worker 協調、較貴。

表分三種：distributed table（按 distribution column 分片、大表用）、reference table（每個 worker 全複本、小的維度表用、讓 JOIN co-locate）、local table（只在 coordinator）。建模的關鍵是把常一起 JOIN 的大表用 同一 distribution column 分片、達成 co-location。

選型判準：三方對照

這是本文主判讀段。Cosmos DB for PostgreSQL 的正確位置是「single-node PG 不夠、但 workload 仍是 SQL 範式」的中間地帶。

選 Cosmos DB for PostgreSQL 的條件：

workload 是 SQL 範式（關聯 schema、JOIN、交易）、不想 / 不能重寫成 NoSQL
single-node PostgreSQL 已達上限（write throughput / 資料量 / 單表大小）、且資料有好的 distribution column（多租戶的 tenant_id、time-series 的某維度）
工作負載偏向多租戶 SaaS 或 real-time analytics over fresh data — Citus 的典型適配場景
想留在 PostgreSQL 生態（SQL、extension、既有 tooling）而非進 NoSQL

回核心 Cosmos DB（NoSQL）的條件：

資料形狀已是 document / KV、access pattern 固定、不需要 JOIN 與複雜 SQL
需要 multi-model（document + graph + KV）、5 個 consistency level、turnkey multi-region active-active write
RU/s 容量抽象與 serverless 計費更符合 workload — 見 ru-cost-model-sizing

一般 Azure Database for PostgreSQL（single-node managed PG）就夠的條件：

single-node 還沒到上限 — 多數 OLTP baseline 用 vertical scaling + read replica 就夠、不需要分散式
沒有好的 distribution column — 分散式 PostgreSQL 沒有均勻 distribution column 會 hot worker、好處拿不到、複雜度卻全付
不想承擔 distributed SQL 的複雜度（distribution column 設計、co-location 規劃、跨 shard query 成本）

判讀句：先確認 single-node PG 真的到上限、再確認 workload 是 SQL 範式（否則考慮 NoSQL）、最後確認有好的 distribution column。三個都成立、Cosmos DB for PostgreSQL 才是對的；缺任一個、回 single-node PG 或核心 Cosmos DB。

跟其他 distributed SQL 的位置

Cosmos DB for PostgreSQL 是 Azure 上、PostgreSQL-native、scale-out（co-location 設計驅動）的 distributed SQL。跟 Spanner（全球 external consistency、自己的 SQL 方言）、CockroachDB（跨雲、PostgreSQL wire、自動 range 分散）、Aurora DSQL（AWS、全球 active-active）位置不同：Cosmos DB for PostgreSQL 強在「真 PostgreSQL engine + extension 生態 + co-location 控制」、弱在它的分散需要 distribution column 設計（不像 CockroachDB / Spanner 自動分 range）、且綁 Azure。

操作流程

建叢集與設定 distribution column

 1-- 建 distributed table、按 tenant_id 分片（多租戶 SaaS 典型）
 2CREATE TABLE events (
 3    tenant_id   bigint NOT NULL,
 4    event_id    bigint NOT NULL,
 5    payload     jsonb,
 6    created_at  timestamptz DEFAULT now()
 7);
 8SELECT create_distributed_table('events', 'tenant_id');
 9
10-- 維度小表設 reference table、讓 JOIN co-locate
11CREATE TABLE tenants (tenant_id bigint PRIMARY KEY, name text);
12SELECT create_reference_table('tenants');

驗證：SELECT * FROM citus_tables; 看每張表的 distribution column 與 shard 分布；對 distributed table 的查詢若帶 distribution column filter、EXPLAIN 顯示下推到單一 shard、不帶則 fan-out 到所有 worker。

驗證 co-location

1-- 同 distribution column 的兩張 distributed table JOIN 應 co-located
2SELECT colocation_id, count(*)
3FROM citus_tables GROUP BY colocation_id;

驗證：常一起 JOIN 的大表落在同一 colocation group、JOIN 在 worker 本地完成、不跨 worker shuffle。

加 worker 擴容

加 worker node 後 rebalance shard。驗證：rebalance 後 shard 在新舊 worker 間分布均勻、單一 worker 不再是 hot spot。

Rollback boundary

Cosmos DB for PostgreSQL 是叢集級服務、scale worker 是運維操作、可逆（縮回去）。但 distribution column 一旦選定、改它要重建表 + 重灌資料 — 跟核心 Cosmos DB 的 partition key 不可改是同一類不可逆設計、見 partition-key-design。

失敗模式

把它跟核心 Cosmos DB 當同一產品選

選型時把「Cosmos DB for PostgreSQL」當成「核心 Cosmos DB 的 PostgreSQL 介面」、規劃用 RU/s、找 consistency level 設定、結果整套 mental model 對不上 — 因為它是分散式 PostgreSQL、用 node 規格計費、用 PostgreSQL 的交易隔離級別。修法是選型第一步就確認「這是分散式 SQL、不是 NoSQL」、規劃按 PostgreSQL + Citus 的模型走、不要套核心 Cosmos DB 的概念。

沒有好的 distribution column 硬上分散式

workload 沒有均勻的 distribution column（例如資料天然集中在少數 tenant）、硬分片後變 hot worker、分散式的好處拿不到、複雜度全付。徵兆是少數 worker CPU / IO 飽和、其他 worker 閒置。修法是選型階段就評估 distribution column 的 cardinality 與均勻度；不均勻時、要嘛留 single-node PG（垂直擴 + read replica）、要嘛重新設計 distribution column（如多租戶用 composite 或對 hot tenant 特殊處理）。

大量跨 shard query / 非 co-located JOIN

application query 大多不帶 distribution column filter、或常做跨 distribution column 的 JOIN、每個 query fan-out 到所有 worker + shuffle、latency 與成本都差。徵兆是 EXPLAIN 顯示 query 打所有 worker、p99 latency 高。修法是重新設計 schema 讓常一起查的表 co-located、把 distribution column 放進熱 query 的 filter；改不動時、這個 workload 可能不適合 scale-out PG、回 single-node 或考慮其他方案。

該用 NoSQL 卻選了分散式 PG（或反之）

document / KV、固定 access pattern、不需要 JOIN 的 workload 選了 Cosmos DB for PostgreSQL、付了 SQL / distribution column 設計的複雜度卻沒用到關聯能力 — 這類 workload 核心 Cosmos DB（NoSQL）更自然。反過來、SQL / JOIN / 交易重的 workload 被推去核心 Cosmos DB（NoSQL）要重寫成 document model 也是錯。修法是回到「workload 是 SQL 範式還是 document / KV 範式」的根本判斷、見本文選型判準段與 mongodb-api-vs-sql-api 的範式判讀。

Anti-recommendation：single-node PG 沒到上限不要上

分散式 PostgreSQL 帶來 distribution column 設計、co-location 規劃、跨 shard query 成本、rebalance 運維。single-node managed PostgreSQL 加 vertical scaling 與 read replica 能撐的 OLTP baseline 比多數團隊以為的大。沒有觸及 single-node 真實上限（write throughput 飽和、單表大到 maintenance 困難、資料量超出單機）就上分散式、是用複雜度換不存在的容量需求。

容量與觀測

必看 metric：各 worker node 的 CPU / IO / 連線（找 hot worker）、shard 在 worker 間的分布均勻度、跨 shard query 比例、coordinator 連線數
容量單位：node 規格（不是 RU/s）— 規劃是 coordinator + N worker 的 vCPU / memory / storage、跟核心 Cosmos DB 的 RU 思維完全不同、不要混用 ru-cost-model-sizing 的 RU 模型來估這個服務
distribution column 均勻度是容量上限的真實決定因素 — 跟 Hot Partition 同模型、hot worker 讓名義叢集容量達不到
回 9.6 容量規劃模型：scale-out 的有效容量 = node 數 × 單 node 容量 × distribution 均勻度
Alert：單一 worker 飽和（distribution skew）、跨 shard query 比例上升、rebalance 後仍不均

邊界與整合

定位釐清：本服務是 分散式 PostgreSQL、不是核心 Cosmos DB（NoSQL）— 共用品牌名稱、產品不同、選型不要混淆
跟核心 Cosmos DB 的分界：SQL / JOIN / 交易 + 到單機上限 → 本服務；document / KV / multi-model / multi-region active-active → 核心 Cosmos DB、見 mongodb-api-vs-sql-api
跟 PostgreSQL vendor 的分界：single-node 沒到上限 → Azure Database for PostgreSQL / 一般 PG；PostgreSQL 既有的 Specialized PostgreSQL Variants 段已把 Cosmos DB for PostgreSQL 列為 Citus-based 變體之一
跟其他 distributed SQL：Spanner（全球強一致）、CockroachDB（跨雲、自動 range）— 本服務強在真 PostgreSQL engine + co-location 控制、弱在需 distribution column 設計 + 綁 Azure
distribution column 不可改：跟 partition-key-design 的 partition key 不可改是同類不可逆設計
Knowledge card：distributed SQL / Hot Partition

PostgreSQL pgBouncer 配置 + 連線池治理

Mon, 18 May 2026 00:00:00 +0000

PostgreSQL 的 connection 是 昂貴的 process、每個 connection ~10MB RAM、idle connection 也吃 backend slot。當 application instance 數量爆炸（K8s replica × 多 deployment × pool size）、直接連 PostgreSQL 會把 backend slot 耗盡、新 connection 全 refuse — 即使 active query 不多。pgBouncer 是 connection pool proxy、把幾千個 application connection 收斂成幾百個 PostgreSQL backend connection、production-grade PostgreSQL 部署的標配。

本文不是 pgBouncer overview（請看 PostgreSQL vendor 頁中 connection pool 段）— 而是 production 部署 + 故障演練 的實作層教學。覆蓋三層 pool（application → pgBouncer → PostgreSQL）的對齊、transaction pooling 跟 session pooling 的選擇陷阱、跟 HA failover 的整合、容量規劃。

問題情境

典型觸發場景：團隊規模從 50 人爬到 200 人、microservice 從 20 個爬到 100 個、K8s replica 從 3 個爬到每服務 5-10 個。直連 PostgreSQL 的 connection 計算：

1100 service × 6 replica × 30 application pool = 18000 connection

PostgreSQL 預設 max_connections = 100、production 設 max_connections = 500-1000 已經是上限（每多一個都加 memory + context switch cost）。18000 連線打 PostgreSQL 直接打爆。

進一步問題：

一半 connection 是 idle（application pool 預留、實際沒查詢）— 浪費 backend slot
Cold start 時所有 replica 同時建 connection、瞬間 spike
DB failover 時所有 application 同時 reconnect、prod-test pattern 跑不通
DNS-based failover 時 application connection pool 不知道 backend 換了

pgBouncer 解這四個問題。但 引入 pgBouncer 後又會引入新的問題層（pgBouncer 跟 application pool 不對齊、transaction pooling 的 session state 限制、HA 故障時 pgBouncer 也要 failover）— 本文討論這些。

核心概念：pool mode + sizing

pgBouncer 的 first-class concept 是 pool mode、決定 application connection 跟 PostgreSQL backend connection 的綁定方式：

Session pooling：application connection 拿到 backend connection 後、整個 session 期間都綁同一個 backend。tear-down 才釋放。語義跟「直連」一樣、不破壞 session state。但 idle connection 仍占 backend slot、收斂效率低、適合 連線數不多但要保留 session state（用了 prepared statement、temporary table、advisory lock 等）的場景。
Transaction pooling：application connection 在 transaction 邊界 才綁 backend、commit / rollback 後立即釋放。同一個 application connection 不同 transaction 可能拿到不同 backend。收斂效率高（idle connection 完全不占 backend slot）、但 session state 限制嚴 — 不能用 SET 改 session-level setting、不能用 prepared statement（除非 application 端禁用）、不能用 advisory lock 跨 transaction。
Statement pooling：每個 statement 完就釋放 backend。極端高收斂但 連 transaction 都不能跨 statement、絕大多數 application 用不了、只在 batch query 場景。

Production 預設選 transaction pooling、application 端禁用 prepared statement（或用 PgBouncer-supported prepared statement、需 pgBouncer 1.21+）。例外場景才開 session pooling。

Pool sizing 公式：

1PostgreSQL max_connections     = pgBouncer N × default_pool_size + reserve
2pgBouncer default_pool_size    = per-database backend connection 上限
3Application pool size          = 每 application instance 拿幾個 pgBouncer connection

實例：50 個 application replica、每 instance pool 30 個、pgBouncer 後 default_pool_size = 20（per database）、3 個 database。

1Total application → pgBouncer = 50 × 30 = 1500 connection
2pgBouncer → PostgreSQL        = 3 × 20 = 60 connection
3PostgreSQL max_connections    = 60 + reserve (50 預留 admin / migration) = 110

1500 → 110 收斂 13.6 倍、PostgreSQL 還在合理上限內。

Step-by-step 配置

pgBouncer.ini：

 1[databases]
 2mydb = host=postgres-primary.internal port=5432 dbname=mydb auth_user=pgbouncer
 3
 4[pgbouncer]
 5listen_port = 6432
 6listen_addr = 0.0.0.0
 7auth_type = scram-sha-256
 8auth_file = /etc/pgbouncer/userlist.txt
 9auth_query = SELECT usename, passwd FROM pg_shadow WHERE usename=$1
10
11pool_mode = transaction
12default_pool_size = 20
13min_pool_size = 5
14reserve_pool_size = 10
15reserve_pool_timeout = 5
16
17max_client_conn = 2000
18max_db_connections = 100
19
20server_idle_timeout = 600
21server_lifetime = 3600
22server_connect_timeout = 15
23server_login_retry = 5
24
25client_idle_timeout = 0
26client_login_timeout = 60
27
28stats_period = 60
29log_connections = 0
30log_disconnections = 0
31log_pooler_errors = 1
32
33admin_users = pgbouncer_admin
34stats_users = pgbouncer_stats

關鍵欄位解釋：

pool_mode = transaction：絕大多數 production 場景
default_pool_size = 20：每 database 對 PostgreSQL 的 backend connection 上限、調整時要算進 PostgreSQL max_connections
reserve_pool_size = 10 + reserve_pool_timeout = 5：當 default_pool_size 用滿、等 5 秒還拿不到 connection 才用 reserve pool — 是 突發 spike 的 buffer、不是 baseline
max_client_conn = 2000：application 端能連 pgBouncer 的最大數
server_lifetime = 3600：每 1 小時強制 recycle backend connection、避免 long-lived connection 累積 memory bloat（PostgreSQL pg_stat_activity 看 connection age）
auth_query：pgBouncer 直接從 PostgreSQL pg_shadow 拉密碼、不需要在 pgBouncer 本地維護 userlist — production 推薦做法

Application 端 pool 設定：

 1# 例：Spring Boot HikariCP
 2spring.datasource.url: jdbc:postgresql://pgbouncer.internal:6432/mydb
 3spring.datasource.hikari.maximum-pool-size: 30
 4spring.datasource.hikari.minimum-idle: 5
 5spring.datasource.hikari.connection-timeout: 30000
 6spring.datasource.hikari.idle-timeout: 600000
 7spring.datasource.hikari.max-lifetime: 1800000  # 30 min < pgBouncer server_lifetime 60 min
 8
 9# 例：SQLAlchemy
10engine = create_engine(
11    "postgresql://pgbouncer.internal:6432/mydb",
12    pool_size=30,
13    max_overflow=5,
14    pool_pre_ping=True,        # 必開、檢測 stale connection
15    pool_recycle=1800,         # 30 min、跟 pgBouncer server_lifetime 對齊
16)

Application 跟 pgBouncer 對齊：

application max-lifetime < pgBouncer server_lifetime：避免 application 拿到已被 pgBouncer recycle 的 connection
pool_pre_ping = True：每次 checkout 前 send SELECT 1、檢測 stale connection — 對 transaction pooling 是必要的
application 端不要用 prepared statement（除非 pgBouncer 1.21+ 設 max_prepared_statements）

故障演練 / 邊界 case

Case 1：Pool exhaustion（default_pool_size 用滿）

徵兆：application log ERROR: no more connections allowed、pgBouncer log pool is full、pgBouncer admin console SHOW POOLS 顯示 cl_waiting > 0。

Debug：

1-- 連 pgBouncer admin
2\c pgbouncer
3SHOW POOLS;
4-- 看 cl_active / cl_waiting / sv_active / sv_idle
5SHOW SERVERS;
6-- 看 server connection state（active / idle / used）

修：

短期：調高 default_pool_size 跟 PostgreSQL max_connections、配合 reserve pool
中期：找 long-running query（PostgreSQL pg_stat_activity 看 query_start、kill 過長 query）
長期：拆 database / 改 read replica / 移 OLAP query 到 data warehouse

Case 2：Transaction pooling 下 session state 漏洞

徵兆：random 失敗 prepared statement "S_3" does not exist、relation "tmp_xxx" does not exist、advisory lock 不釋放。

原因：application 用了 prepared statement / temporary table / advisory lock、但 transaction commit 後 backend connection 釋放、下一個 transaction 拿到不同 backend、session state 不存在。

修：

Application 框架禁用 prepared statement（JDBC prepareThreshold=0、SQLAlchemy use_native_prepared_statements=False）
temporary table 改 unlogged table + cleanup
advisory lock 改 row-level lock 或 application-level lock（Redis）
或：切到 session pooling、犧牲收斂效率

Case 3：DNS-based failover 後 application 連到舊 master

徵兆：PostgreSQL 切換 master 後、application 寫操作 時好時壞（看連到哪台）。

原因：pgBouncer 在 application 跟 PostgreSQL 之間、application 不知道 backend 換了；pgBouncer 自己也需要 reload config 才會連新 master。

修：

pgBouncer 用 RECONNECT admin command 強制 close all backend connection、重連
配 Patroni / Stolon 等 HA 工具自動 trigger pgBouncer reconnect
application 端 pool_pre_ping 開啟、stale connection 自動踢

Case 4：Server lifetime recycle 跟 in-flight transaction 衝突

徵兆：偶發 server closed the connection unexpectedly、跟 long-running transaction 重疊。

原因：pgBouncer server_lifetime = 3600 強制 recycle、但有 transaction 在跑時 pgBouncer 不會切、超過時間後仍會切。

修：

確認沒有 超過 1 小時 的 transaction（PostgreSQL pg_stat_activity 看 xact_start）
必要時調高 server_lifetime、但 memory bloat 風險上升
application 端做 transaction timeout

Case 5：pgBouncer 自己 crash / OOM

徵兆：所有 application 同時失去 PostgreSQL 連線。

原因：pgBouncer 是 single-process（除非 1.21+ 用 so_reuseport 多 process）、memory leak / OOM / 部署事件都會打掉整個 connection layer。

修：

多 pgBouncer instance + load balancer（HAProxy / Envoy）前置、application 連 LB
so_reuseport = 1（1.21+）讓多個 pgBouncer process 共用 port
Resource limit 跟 alert：RSS > N、connection count > M
HA mode：active-passive 配 keepalived

容量 / cost 規劃

單一 pgBouncer 容量上限：

max_client_conn：實務 < 5000 per instance（再高 CPU 跟 file descriptor 緊）
default_pool_size × database 數：實務 < 200 per instance
single process CPU bound：在 10K QPS 等級已經是瓶頸、要橫向 scale

何時加 pgBouncer instance：

application connection 數突破 3000 / pgBouncer instance
pgBouncer CPU usage > 60%（baseline、不算 spike）
跨 region application 需要 region-local pgBouncer

何時改架構（pgBouncer 不夠用）：

PostgreSQL backend connection 數突破 500（即使有 pgBouncer 也撐不住）→ 改 read replica / partitioning / sharding
write 量太大（每秒 50K+ TPS）→ 改 sharding（Vitess / Citus）或全球分散式 SQL（1.11 全球分散式 OLTP）
application 大量 prepared statement / session state 需求 → 改 PgCat（Rust 寫、支援更完整的 session feature）或回 session pooling

整合 / 下一步

跟 HA failover 整合（Patroni）：

Patroni 切換 master 後 trigger pgBouncer RECONNECT
pgBouncer 透過 service discovery（Consul / etcd）拿新 master 位址、不是寫死在 config
application 不需感知 failover、connection 從 pgBouncer 拿到新 master 的 backend

跟監控整合：

pgBouncer admin console SHOW STATS / SHOW POOLS / SHOW SERVERS 拉到 Prometheus（pgbouncer_exporter）
必看 metric：cl_waiting（等 backend 的 client 數）、sv_active（active backend 數）、avg_query_time、avg_xact_time
Alert：cl_waiting > 0 持續 30s、server connection error rate > 0

跟 application observability 整合：

Application APM（Datadog / Honeycomb / OpenTelemetry）的 DB span 顯示 application 看到的 latency、pgBouncer metric 顯示 pgBouncer ↔ PostgreSQL latency — 兩者差異揭露 connection wait time

何時 revisit 這個配置：

application 數量倍增（trigger pool sizing 重算）
PostgreSQL 升級（pgBouncer 跟 PostgreSQL 版本相容性）
跨 region 部署（要不要 region-local pgBouncer）
切換到 RDS Proxy / Aurora Cluster Endpoint（managed alternative）

Aurora PostgreSQL I/O-Optimized Cost

Fri, 22 May 2026 00:00:00 +0000

Aurora PostgreSQL I/O-Optimized cost 的核心責任是把 Aurora storage configuration 從定價選項轉成 workload 決策。AWS 官方文件將 Aurora cluster storage configuration 分成 Aurora Standard 與 Aurora I/O-Optimized；前者適合一般 I/O 分布，後者針對 I/O 密集 workload 提供不同成本結構。

本文的判讀錨點是：I/O-Optimized 是成本與 workload profile 決策，而非效能保證。要看的是 read / write I/O charge、storage、instance、backup、replica、query pattern、maintenance 與未來成長。

官方文件路由的核心責任是固定時間敏感 claim。實作前先查 Aurora storage configurations 與 supported engines / regions；本文最後檢查日是 2026-05-22。

Cost Model

Cost model 的核心責任是拆解 Aurora bill 的來源。Aurora 成本通常包含 instance、storage、I/O request、backup、replica、data transfer 與 support / operation。

成本項	Standard 判讀	I/O-Optimized 判讀
Instance	仍依 instance / capacity 計費	仍依 instance / capacity 計費
Storage	依儲存使用量	依 I/O-Optimized storage 設定
I/O requests	I/O 成本可成為主要變動項	I/O charge 結構改變，適合高 I/O workload
Backup / snapshot	依保留與使用量	仍需納入總成本
Data transfer	跨 AZ / region / service 需審查	仍需納入總成本

成本評估要用真實帳單和 CloudWatch 指標。只用平均 QPS 估算會漏掉 batch job、vacuum、index build、replica、backfill 與報表查詢帶來的 I/O 尖峰。

Workload Signals

Workload signals 的核心責任是找出 I/O 是否為主要成本與瓶頸。

訊號	意義
I/O request 成本占比高	Standard 可能受 I/O charge 影響大
Buffer cache hit ratio 低	工作集超過 memory 或 query 掃描過重
大量 random read / write	storage I/O 壓力明顯
ETL / backfill 經常跑	短期 I/O spike 可能影響帳單與 latency
Index / query 設計已優化	成本切換更能反映真實 workload

先做 query 與 index review。若 I/O 來自缺 index、全表掃描、過度 eager loading 或不必要 backfill，直接切 I/O-Optimized 只會把浪費制度化。

Evaluation Process

Evaluation process 的核心責任是讓切換決策可回溯。

收集 30 到 90 天成本：instance、storage、I/O、backup、transfer。
收集 workload 指標：read/write IOPS、cache hit、slow query、top SQL。
標記特殊事件：migration、backfill、incident、seasonality。
建立 Standard vs I/O-Optimized 成本試算。
在 staging / canary 確認 application behavior。
設定切換後 7 / 14 / 30 天回顧點。

試算要包含季節性。月初結算、年度促銷、批次報表與資料重整都可能讓 I/O profile 和普通週不同。

Migration and Rollback

Migration and rollback 的核心責任是把 storage configuration change 放進變更流程。Aurora storage configuration 是 cluster-level decision，應先確認支援區域、engine version、切換限制、維護窗口與回退條件。

Step	Evidence
Pre-check	engine version、region support、current bill
Cost baseline	近期成本與 I/O 指標
Change window	application traffic、maintenance
Post-check	latency、I/O、error、bill trend
Review	7 / 14 / 30 天成本與效能

Rollback 條件要明確。若切換後成本下降未達目標、latency 沒改善、或 workload profile 改變，應重新評估 Standard 與 query optimization。

Anti-Patterns

Anti-pattern 的核心責任是避免把計費選項當成效能調校。

反模式	風險	修正方向
未看 top SQL 直接切換	把壞 query 的成本包進新方案	先做 query / index review
用單日帳單推估全年	忽略 seasonality	至少看完整業務週期
忽略 backup / transfer	總成本估算失真	全 bill component 一起比較
切換後無 review	成本漂移無 owner	設定 7 / 14 / 30 天 tripwire

I/O-Optimized 的價值來自成本結構對齊 workload。它應該是 FinOps 與 database operation 的共同決策。

下一步路由

Aurora I/O-Optimized cost 完成後，Aurora 遷移讀 PostgreSQL to Aurora Migration；query 成本讀 Query Optimization；capacity 與瓶頸判斷讀 Bottleneck Localization。

Managed PostgreSQL Comparison

Fri, 22 May 2026 00:00:00 +0000

Managed PostgreSQL comparison 的核心責任是把「都是 PostgreSQL」拆成不同的操作責任邊界。Managed service 可能代管 backup、patch、replica、minor upgrade、monitoring、connection proxy、serverless scaling 或 branch workflow；但 application schema、query、migration、role、cost 與 incident decision 仍需要 team 承擔。

本文的判讀錨點是：managed PostgreSQL 是 operation trade-off，而非 vendor-neutral checkbox。選型要看 workload、合規、extension、HA / DR、connection、cost visibility、exit route 與 team skill。

官方文件路由的核心責任是固定 provider claim。實作前分別查 AlloyDB docs、Cloud SQL for PostgreSQL、Azure Database for PostgreSQL Flexible Server 與 Supabase branching docs；本文最後檢查日是 2026-05-22。

Provider Boundary

Provider boundary 的核心責任是定義 vendor 接手哪些資料庫操作。

類型	代表選項	適合情境
Cloud managed PostgreSQL	RDS PostgreSQL、Cloud SQL、Azure PG	標準 PostgreSQL、雲平台整合
Aurora PostgreSQL-compatible	Amazon Aurora PostgreSQL	AWS 生態、高可用 storage layer、read scaling
Serverless / branching PG	Neon、Supabase 部分能力	dev preview、稀疏 workload、快速分支
Specialist managed PG	Crunchy Bridge 等	PostgreSQL 專業支援、extension 需求
Self-managed	VM / K8s 上自管	需要完整控制、具備 DBA 能力

Provider boundary 要寫成 responsibility matrix。誰負責 backup restore、major upgrade、extension enable、failover、connection proxy、audit export、encryption key、support ticket 與 incident decision。

Serverless / branching PG 這一列的 Neon 與 Supabase 不在同一個外包深度。Neon 是純 serverless PostgreSQL（managed 基礎設施）；Supabase 是把 Postgres 當其中一塊的 BaaS bundle（同時含 Auth、Storage、Realtime）。只需要資料庫、兩者皆可比較且 Neon 更輕；要連認證、儲存一起到位、才是 Supabase 的賣點。這個外包深度差異與「該買整個 bundle 還是只用它的 Postgres」的判讀、見 0.22 能力級買 vs 建。

Evaluation Dimensions

Evaluation dimensions 的核心責任是讓比較避免只看價格或品牌。

維度	審查問題
PostgreSQL fidelity	engine version、extension、parameter、superuser 限制
HA / DR	AZ failover、cross-region replica、PITR、restore drill
Connection	max connection、pooler、proxy、serverless cold start
Migration	import/export、logical replication、downtime window
Observability	logs、metrics、slow query、audit、SIEM export
Security	network、IAM、KMS、TLS、RLS / pgAudit support
Cost	instance、storage、I/O、backup、egress、support
Exit	dump、logical replication、snapshot portability

PostgreSQL fidelity 是第一關。若服務依賴 extension、logical decoding、superuser function、custom parameter 或 filesystem access，managed provider 的限制會直接影響可行性。

Workload Fit

Workload fit 的核心責任是把 provider 能力和產品需求對齊。

Workload	優先考量
SaaS OLTP	HA、PITR、connection pool、online migration
Analytics-heavy OLTP	read replica、I/O cost、work_mem、warehouse boundary
Dev / preview env	branching、fast restore、low idle cost
Regulated workload	audit、KMS、network isolation、retention
Extension-heavy app	PostGIS、pgvector、TimescaleDB、logical decoding support

Serverless / branching PG 適合 preview 與稀疏 workload，但 sustained high-throughput production 要審查 cold start、connection、storage separation latency 與 cost curve。

Aurora PostgreSQL 適合 AWS-heavy 架構與高可用 storage layer，但要審查 PostgreSQL compatibility、parameter 限制、I/O cost 與 migration / exit。

Migration and Exit

Migration and exit 的核心責任是避免 managed service 變成單向門。導入前要先知道如何進去、如何出來。

流程	Evidence
Import	dump / restore、logical replication、DMS
Cutover	freeze window、replica catch-up、validation
Rollback	source snapshot、write replay、DNS switch
Exit	pg_dump、logical replication、snapshot export
Rehearsal	staging restore、row count、checksum

Exit route 要比口頭承諾更具體。至少要能在 staging 將資料匯出到 vanilla PostgreSQL 或下一個 managed provider，並跑 application smoke test。

Cost Review

Cost review 的核心責任是把 managed convenience 轉成總成本。總成本包含 instance、storage、I/O、backup、replica、egress、support、observability、operation labor 與 incident cost。

Cost driver	常見誤判
I/O	只看 instance price
Backup retention	長 retention 被忽略
Cross-region replica	data transfer / storage 增加
Observability export	log volume 與 SIEM 成本
Serverless idle	idle 低但 sustained workload 成本不同

Cost review 要設 tripwire。當 I/O 成本占比提高、backup retention 變長、replica 增加或 serverless workload 變成常駐，重新評估方案。

Decision Route

Decision route 的核心責任是把 provider 選型導向具體路線。

需求	優先路由
標準雲平台 PostgreSQL	RDS / Cloud SQL / Azure PG
AWS 生態 + HA storage layer	Aurora PostgreSQL
Preview branch / dev env	Neon / Supabase branch workflow
Extension / PG 專業支援	specialist managed PG
完整控制與特殊 extension	self-managed PostgreSQL

Managed provider 的最終選擇要回到 team skill。少維護元件是價值；把尚未理解的限制外包給 vendor，會在 incident 和 migration 時回來。

下一步路由

Managed PostgreSQL comparison 完成後，Aurora 遷移讀 PostgreSQL to Aurora Migration；Aurora DSQL 讀 PostgreSQL to Aurora DSQL；serverless / specialized variant 讀 Specialized PostgreSQL Variants。

PostgreSQL Connection Pool Lab

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL connection pool lab 的核心責任是讓讀者看到 connection pressure 如何從 application pool 傳到 PostgreSQL backend process。這篇承接 Connection Scaling 與 PgBouncer Config。

本文的驗收標準是：你能比較 direct connection 與 PgBouncer transaction pooling，取得 pg_stat_activity、PgBouncer SHOW POOLS、latency / error sample 與 failure note。

Baseline Direct Connections

Baseline direct connections 的核心責任是先看 application 直連 PostgreSQL 時的 backend 數。

1export DATABASE_URL="postgres://lab_admin:lab_admin_pw@localhost:54329/appdb?sslmode=disable"
2psql "$DATABASE_URL" -c "SELECT count(*) FROM pg_stat_activity WHERE datname = current_database();"

用多個 terminal 或簡單 workload 產生 idle connection：

1for i in 1 2 3 4 5; do
2  psql "$DATABASE_URL" -c "SELECT pg_sleep(10);" &
3done
4psql "$DATABASE_URL" -c "SELECT state, count(*) FROM pg_stat_activity WHERE datname = current_database() GROUP BY state;"

這一步證明每個 client session 會占用 PostgreSQL backend process。

Add PgBouncer

Add PgBouncer 的核心責任是把 client connection 與 server connection 拆開。以下 compose fragment 可加入 local lab：

 1  pgbouncer:
 2    image: edoburu/pgbouncer:latest
 3    environment:
 4      DB_HOST: postgres
 5      DB_USER: lab_admin
 6      DB_PASSWORD: lab_admin_pw
 7      DB_NAME: appdb
 8      POOL_MODE: transaction
 9      MAX_CLIENT_CONN: 100
10      DEFAULT_POOL_SIZE: 5
11    ports:
12      - "64329:5432"

啟動後設定 pooler URL：

1export POOL_URL="postgres://lab_admin:lab_admin_pw@localhost:64329/appdb?sslmode=disable"

Compare Pool Behavior

Compare pool behavior 的核心責任是觀察 client 多、server 少的效果。

1for i in $(seq 1 20); do
2  psql "$POOL_URL" -c "SELECT pg_sleep(1);" &
3done
4psql "$DATABASE_URL" -c "SELECT state, count(*) FROM pg_stat_activity WHERE datname = current_database() GROUP BY state;"

再進 PgBouncer admin console，實際命令依 image 設定調整：

1psql "postgres://lab_admin:lab_admin_pw@localhost:64329/pgbouncer?sslmode=disable" -c "SHOW POOLS;"

驗收重點是：client workload 增加時，PostgreSQL backend 數量被 pool size 控制，排隊發生在 pooler 層。

Pool Exhaustion

Pool exhaustion 的核心責任是看過載時的錯誤與等待。

1for i in $(seq 1 50); do
2  psql "$POOL_URL" -c "BEGIN; SELECT pg_sleep(5); COMMIT;" &
3done

觀察：

1psql "$DATABASE_URL" -c "SELECT count(*) FROM pg_stat_activity WHERE datname = current_database();"
2psql "postgres://lab_admin:lab_admin_pw@localhost:64329/pgbouncer?sslmode=disable" -c "SHOW POOLS;"

Pool exhaustion 的 evidence 包含 waiting clients、timeout、application latency 與 error message。這些要接到 production alert。

Failure Note

Failure note 的核心責任是把 lab 結果轉成 runbook。記錄三件事：

Direct connection baseline backend 數。
PgBouncer transaction pooling 下 server connection 數。
Pool exhaustion 時的 latency / error / queue。

若 application 使用 session state、prepared statement、temp table 或 advisory lock，還要補 transaction pooling compatibility matrix。

下一步路由

完成本篇後，回到 Connection Pooler Comparison 做選型；要看 PgBouncer production 設定讀 PgBouncer Config。

PostgreSQL Connection Pooler Comparison

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL connection pooler comparison 的核心責任是把連線數壓力、transaction 語意與維運責任拆開判讀。PostgreSQL backend process 成本高，application instance 擴張後，connection pooler 常成為保護資料庫的第一層容量控制。

本文的判讀錨點是：pooler 解決的是 connection fan-out 與 queueing，而非查詢本身變快。查詢慢、lock wait、transaction 過長、index 錯誤仍要回到 Query Optimization 與 MVCC / lock model。

Pooling Models

Pooling model 的核心責任是決定 client connection 和 server connection 的綁定時間。PgBouncer 代表最常見的 PostgreSQL pooler 模型；官方文件將 pool mode 分成 session、transaction 與 statement。

模式	Server connection 綁定	適合情境	主要風險
Session	client session 全程	使用 session state、temp table	壓縮率低
Transaction	transaction 期間	Web API、短交易、Stateless query	session variable、prepared statement 語意受限
Statement	single statement	特殊 read-only workload	transaction workflow 受限
App pool	application process 內	單服務、低 fan-out	多 instance 後總連線失控

Transaction pooling 的價值在於把大量 idle client connection 收斂成少量 active server connection。它要求 application 把 session state 放回 request / transaction boundary，例如 timezone、role、search_path、prepared statement 與 advisory lock 都要明確管理。

Session pooling 的價值在於相容性。若 application 大量使用 temp table、LISTEN / NOTIFY、session-level setting 或 server-side prepared statement，session pooling 能降低行為差異，但連線壓縮效果較弱。

Product Boundary

Product boundary 的核心責任是把 pooler 放在正確的維運位置。不同選項的責任邊界差異很大。

選項	主要責任	適合情境
PgBouncer	輕量 PostgreSQL connection pooling	自管 VM / K8s、transaction pooling 標準路線
Odyssey	多租戶與複雜 routing pooler	大型部署、需要進階 routing / auth
RDS Proxy	AWS managed connection proxy	RDS / Aurora 生態、希望降低 proxy 維運
Application pool	服務內部連線池	instance 數少、連線總量可控
No pooler	直接連 PostgreSQL	小型服務、低併發、連線數遠低於上限

PgBouncer 的操作重點是 mode、pool size、server reset query、auth、TLS 與 metrics。它很適合放在 application 與 database 中間，承擔連線排隊與 backpressure。

Managed proxy 的操作重點是平台限制、failover behavior、credential integration、latency overhead 與 observability。若 team 想少維護一個 pooler process，managed proxy 可以降低操作成本，但要接受雲平台邊界。

Decision Signals

Decision signals 的核心責任是判斷何時導入 pooler，以及導入哪一種。連線數壓力要用 evidence 說明。

訊號	代表問題	建議路由
`max_connections` 接近上限	application fan-out 過高	PgBouncer transaction pooling
大量 idle connection	client 連線長期閒置	transaction pooling 或 app pool 調整
failover 後 reconnect storm	client 同時重連衝擊 primary	pooler queue + jitter
query latency 高但 connection 不高	查詢 / lock / index 問題	query optimization
session state 依賴多	transaction pooling 相容性風險	session pooling 或 refactor session state

Connection pooler 的成功訊號是 database backend count 下降、queue 可觀測、error rate 穩定、tail latency 受控。若導入後只是把 timeout 從 DB 移到 pooler，代表 capacity model 仍需調整。

Transaction Pooling Compatibility

Transaction pooling compatibility 的核心責任是找出 application 對 session state 的隱性依賴。這些依賴要在 staging 先測出來。

依賴類型	風險	修正策略
`SET search_path`	下一個 transaction 可能換連線	每個 transaction 明確設定或固定 schema
temp table	transaction 後 server connection 釋放	改 permanent staging table 或 session mode
prepared statement	server-side state 不穩定	使用 client-side prepare 或 session mode
advisory lock	lock ownership 混亂	transaction-scoped lock 或移出 pooler path
LISTEN / NOTIFY	session channel 需要持續連線	專用 direct connection

Compatibility review 要在 repository / migration / background job 三個層面跑。Web request 通常容易改成 transaction-safe；migration tool、CDC job、worker queue 常有長連線與 session state，要分開配置。

Sizing and Evidence

Sizing and evidence 的核心責任是用 workload 設定 pool size。Pooler 設太大會把壓力直接傳到 PostgreSQL；設太小會造成 queue 與 timeout。

基本 sizing 步驟：

量測 active query concurrency，而非只看 request concurrency。
設定 database 保留連線給 admin、replication、migration 與 emergency access。
每個 service 設定 pool quota，避免單一服務吃掉全部 backend。
觀測 wait time、server utilization、client timeout、query latency。
用 load test 驗證 failover / reconnect storm。

Pooler dashboard 至少要有 client connections、server connections、waiting clients、pool wait time、server reuse、timeout count 與 authentication failure。

Anti-Patterns

Anti-pattern 的核心責任是把 pooler 常見誤用提前排除。

反模式	風險	修正方向
把 pool size 設到 DB 上限	DB 失去保護層	每個服務配額 + 保留 admin capacity
transaction pooling 直接上線	session state 依賴在 production 爆出	staging compatibility matrix
pooler 沒有 metrics	queueing 事故難以判讀	pooler dashboard + alert
migration 共用 web pool	長 DDL 卡住 web request	migration 專用連線與維護窗口
retry 無 jitter	reconnect storm 放大	exponential backoff + jitter

Pooler 是 backpressure 元件。它要讓系統在過載時可排隊、可拒絕、可觀測，而非把所有請求推進 database。

下一步路由

Connection pooler comparison 完成後，實作層讀 PgBouncer config；要觀察連線壓力讀 Connection Scaling；需要演練讀 Connection Pool Lab。

PostgreSQL Cross-region DR

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL cross-region DR 的核心責任是把區域性事故下的資料恢復、服務切換與資料一致性風險寫成可演練流程。跨區 DR 通常由法規、業務連續性、雲區故障、區域隔離或高可用承諾觸發。

本文的判讀錨點是：cross-region DR 是恢復策略，而非自動等同 multi-region active-active。PostgreSQL 可以透過 backup / WAL archive、physical standby、logical replication、managed service replica 或 application-level replication 支援不同 RPO / RTO；每種路線都有資料延遲、切換與回切成本。

DR Strategy

DR strategy 的核心責任是把恢復目標和技術路線對齊。

策略	RPO / RTO 型態	適合情境
Backup + WAL archive	RPO 依 WAL archive，RTO 依 restore	成本敏感、低頻災難復原
Cross-region standby	RPO 接近 replication lag，RTO 較短	需要較快啟動 read / promote
Logical replication	table-level / selective DR	跨版本、跨 schema、局部資料同步
Managed global DB	雲平台提供跨區 replica	希望降低自管複製與 promote 維運
Application replay	event / queue 重建狀態	domain event 已是 source of truth

RPO 要由業務定義。若付款、訂單、庫存只允許秒級遺失，backup-only 路線通常成本不足；若是內部報表或可重建資料，backup + WAL archive 可能足夠。

Physical vs Logical

Physical vs logical 的核心責任是區分 byte-level recovery 與 row-level replication。Physical replica 保留 PostgreSQL cluster 層級狀態；logical replication 提供 table / publication 層級彈性。

面向	Physical standby	Logical replication
粒度	cluster / database	table / publication
版本彈性	通常要求版本與系統相容	可支援跨版本 / selective migration
DDL	跟隨 WAL / 需相容	需要 schema coordination
Failover	promote standby	application / target DB 切換
風險	replication lag、timeline	slot lag、schema drift、missing key

Physical standby 適合整體 DR。它的 runbook 要處理 WAL archive、replication lag、promotion、timeline、DNS / connection string 切換與回切。

Logical replication 適合局部資料或跨版本轉換。它的 runbook 要處理 publication、subscription、replication slot、schema migration ordering 與資料 diff。

Failover Runbook

Failover runbook 的核心責任是把災難切換變成可演練步驟。最小流程包含 incident declare、source freeze、replica health check、promote、traffic switch、data validation 與 rollback / rebuild。

Step	操作	Evidence
Declare incident	確認 primary region 事故範圍	incident decision log
Freeze source	停止寫入或確認 source 已不可用	last known LSN / timestamp
Check replica	lag、WAL received、read health	replica status snapshot
Promote	promote standby 或啟用 target	new timeline / role
Switch traffic	DNS、secret、connection string	app smoke test
Validate	row count、critical invariant	validation report
Rebuild	重建舊 primary 或新 standby	follow-up runbook

Failover 決策要有 owner。自動化可以執行步驟，但是否接受資料遺失、是否凍結寫入、是否 promote，仍需要明確責任人與 tripwire。

Data Reconciliation

Data reconciliation 的核心責任是處理 cross-region 切換後的資料差異。只要 replication lag 存在，failover 後就可能有未套用交易。

差異類型	處理方式
已提交但未複製	從 source WAL / app log / event 補償
client retry 重複寫入	idempotency key / natural key 去重
sequence / identity	target sequence reset / collision check
external side effect	payment、email、queue 需對帳

Reconciliation 要先定義 critical table。所有表都做 full diff 成本高；付款、訂單、權限、ledger、mutation log 等高風險資料要有專用 validation query。

Drill Design

Drill design 的核心責任是定期驗證 RPO / RTO。DR 文件只有在演練後才可信。

演練至少包含：

從 backup + WAL 還原到指定時間。
Promote standby 到 isolated environment。
Application 使用 DR endpoint 跑 smoke test。
計算實際 RPO / RTO。
記錄失敗點、人工步驟與下一次修正。

演練應避開 production destructive action。使用 isolated VPC、staging app、read-only validation 與 mock external side effect。

No-Go Conditions

No-go conditions 的核心責任是指出 PostgreSQL cross-region DR 的邊界。

訊號	建議路由
多區同時交易寫入是核心需求	CockroachDB / Spanner / YugabyteDB 類 distributed SQL
RPO 接近零且跨區距離大	synchronous replication latency 成本評估
Team 缺少 DR 演練能力	managed service + vendor runbook
數據 residency 限制跨區複製	regional shard / policy-driven replication

Cross-region DR 要誠實面對延遲。把每個 region 都變成 writer 需要 distributed transaction 模型；PostgreSQL DR 路線主要提供恢復與切換。

下一步路由

Cross-region DR 完成後，恢復實作讀 PITR / WAL Archiving；replication 架構讀 Replication Topology；跨區 rollout 的資料政策讀 Multi-region GDPR Rollout。

PostgreSQL Developer / DBA Responsibility Split

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL developer / DBA responsibility split 的核心責任是把資料庫決策拆成 application ownership、database operation 與 platform governance。PostgreSQL 功能深，事故常跨 query、schema、connection、backup、replication 與 capacity；若責任分工模糊，問題會在 release 與 incident 時放大。

本文的判讀錨點是：developer 和 DBA 分工要讓每個決策有清楚 owner、evidence、review gate 與 rollback，而非把資料庫丟給某一方。

Ownership Map

Ownership map 的核心責任是定義誰能改什麼、誰要驗證什麼。

面向	Developer owner	DBA / platform owner	Shared gate
Schema design	domain model、constraint、query	naming、storage、partition、extension	migration review
Query performance	repository SQL、query shape	index、planner、statistics、capacity	explain evidence
Migration	app compatibility、rollback	lock impact、DDL strategy、PITR	release gate
Connection	pool usage、transaction length	pooler、max connection、proxy	load test
Backup / DR	restore smoke test	WAL archive、PITR、replica	restore drill
Security	tenant / workflow intent	role、RLS、audit、grant	access review

這張表的重點是 shared gate。Developer 最懂產品語意，DBA / platform 最懂資料庫風險；正式變更需要兩邊的 evidence 合併。

Schema and Migration

Schema and migration 的核心責任是讓 application release 與 database change 同步。Developer 應提供 business invariant、compatibility window、read/write path；DBA / platform 應審查 lock、index build、table rewrite、replica lag 與 rollback。

Migration 類型	Developer evidence	DBA / platform evidence
Add nullable column	app read/write compatibility	DDL lock time、replica impact
Add NOT NULL	backfill plan、default behavior	table rewrite / validation strategy
Index build	query contract、expected selectivity	concurrent build、disk、bloat
Partition change	routing logic、retention behavior	detach / attach、maintenance window
Type change	serialization、API compatibility	cast risk、rewrite duration

Migration review 要從 failure mode 開始。若 migration 卡住，誰停止 rollout；若 backfill 造成 lag，誰降速；若 app 新舊版本同時存在，哪個 schema 能兼容兩者。

Query and Capacity

Query and capacity 的核心責任是把 query shape 和 database resource 對齊。Developer 負責避免 N+1、長交易、無界查詢與錯誤 pagination；DBA / platform 負責 index、statistics、vacuum、work_mem、connection 與 storage。

Query review 的最小 evidence：

SQL text 或 repository method。
Expected cardinality 與資料量。
EXPLAIN / EXPLAIN ANALYZE 結果。
Index 依賴與 fallback plan。
Timeout、pagination、transaction boundary。

Capacity review 要把 query 放進 workload。單一 query 快不代表整體穩定；高頻 query、batch job、migration backfill、CDC consumer 都會共享 I/O、CPU、lock 與 WAL。

Incident Roles

Incident roles 的核心責任是讓資料庫事故有分工。Incident 發生時，developer 看 workflow、feature flag、traffic 與 recent deploy；DBA / platform 看 lock、replica、WAL、disk、pooler 與 backup。

Incident	Developer 第一反應	DBA / platform 第一反應
Lock storm	暫停相關 workflow、停 rollout	查 blocking PID、DDL、transaction
Connection exhaustion	降低 app concurrency、停 retry storm	pooler queue、max connection、admin access
Replica lag	暫停 heavy write / backfill	WAL sender、slot、standby apply
Bad migration	block release、保留 failed state	restore point、rollback / PITR
Slow query spike	feature flag、query owner	plan regression、statistics、index

Incident command 要保留決策紀錄。資料庫事故常有高壓操作，例如 kill session、promote replica、drop slot、restore backup；每個操作都要記錄原因與回復路線。

Review Cadence

Review cadence 的核心責任是把資料庫品質納入日常。建議節奏如下：

節奏	Review 內容
每個 release	migration diff、new query、role / grant
每週	slow query、lock wait、replica lag、pool
每月	backup restore drill、index bloat、vacuum
每季	DR drill、major version plan、extension review

Review cadence 要跟服務風險對齊。高交易量或合規服務需要更短週期；內部工具可以更輕量，但仍要保留 backup / restore evidence。

Handoff Artifact

Handoff artifact 的核心責任是讓下一位維護者能接手。

最小內容：

Database owner、application owner、platform owner。
Schema migration process 與 rollback route。
Query review checklist。
Connection / pooler policy。
Backup / PITR / DR evidence。
Security / role / audit owner。
Incident escalation route。

這份 artifact 應連回 PostgreSQL overview、Schema Migration Evidence Lab 與 PITR Restore Drill。

下一步路由

責任分工建立後，migration gate 讀 Online Schema Change；連線責任讀 Connection Pooler Comparison；安全責任讀 Security / RLS / Audit Logging。

PostgreSQL HA Failover Drill

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL HA failover drill 的核心責任是讓讀者觀察 primary promotion 對 application、pooler 與 incident decision 的影響。這篇承接 Patroni HA 與 Cross-region DR。

本文的驗收標準是：你能記錄 failover timeline、replication lag snapshot、client error sample、data validation query 與 incident decision log entry。實際觸發方式依 Patroni、managed PostgreSQL 或雲平台而異；lab 重點是 evidence。

Pre-Failover Baseline

Pre-failover baseline 的核心責任是確認 primary / standby 狀態與 client route。

1SELECT pg_is_in_recovery();
2SELECT now(), pg_current_wal_lsn();
3SELECT application_name, state, sync_state, replay_lag
4FROM pg_stat_replication;

在 standby 查：

1SELECT pg_is_in_recovery();
2SELECT now(), pg_last_wal_receive_lsn(), pg_last_wal_replay_lsn();

Baseline 要保存 primary host、standby host、replication lag、application connection string、pooler route 與 current timeline。

Client Workload

Client workload 的核心責任是讓 failover 對 application 的影響可見。

1while true; do
2  date -u
3  psql "$DATABASE_URL" -c "INSERT INTO restore_markers(marker) VALUES ('failover-drill') RETURNING id, created_at;"
4  sleep 1
5done

這個 loop 會在 failover 期間產生成功、timeout、connection reset 或 read-only error。正式演練要用 synthetic workload，避免影響真實使用者。

Trigger Failover

Trigger failover 的核心責任是以受控方式促成 promotion。Patroni lab 可以用 patronictl failover；managed service 則用 provider failover / reboot with failover 功能。

1failover_start_time:
2trigger_method:
3old_primary:
4candidate:
5operator:
6reason:

Failover 觸發前要先確認這是演練，並且 workload、backup、rollback 與 stakeholder 都已對齊。

Observe Promotion

Observe promotion 的核心責任是記錄資料庫與 client 的時間線。

時間點	Evidence
Trigger issued	command / provider event
Old primary down	connection error / health check
New primary promoted	`pg_is_in_recovery() = false`
Client reconnect	first successful write
Pooler stable	pool queue / server connection
Validation complete	row count / marker sequence

Promotion timeline 要保留秒級時間戳。這是評估 RTO、client retry 與 pooler behavior 的基礎。

Data Validation

Data validation 的核心責任是確認 failover 後資料一致性。

1SELECT count(*) FROM restore_markers WHERE marker = 'failover-drill';
2SELECT max(created_at) FROM restore_markers;
3SELECT status, count(*) FROM accounts GROUP BY status;

若 workload 有 idempotency key，還要檢查 duplicate。若外部 side effect 參與交易，例如 payment 或 queue，必須有 reconciliation query。

Pooler and Client Behavior

Pooler and client behavior 的核心責任是確認 failover 後連線能重新指向新 primary。

檢查項目：

Application retry 是否有 backoff / jitter。
PgBouncer / proxy 是否清掉舊 server connection。
DNS / endpoint TTL 是否符合 RTO。
Read-only error 是否被正確分類。
Migration / background job 是否暫停。

Failover 的完成標準包含 database promote、client reconnect 與 pooler stable。若 client 長時間連到舊 primary 或 pooler 卡住，服務仍處於 unavailable 狀態。

Incident Decision Log

Incident decision log 的核心責任是把演練變成可審查紀錄。

1Incident / drill id:
2Decision: promote standby
3Reason:
4Accepted data loss:
5RTO observed:
6Client impact:
7Validation result:
8Follow-up:

每次 drill 都要產生 follow-up。常見 follow-up 是調整 retry、降低 DNS TTL、補 pooler command、增加 validation query 或改善 monitoring。

下一步路由

完成本篇後，HA 架構讀 Patroni HA；跨區災難復原讀 Cross-region DR；connection retry 與 pooler 行為讀 Connection Pool Lab。

PostgreSQL Hands-on 操作路線

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL hands-on 操作路線的核心責任是把 overview 與 deep article 的判讀轉成可演練的操作流程。這一層對齊 LLM hands-on/ 的功能：讀者不只知道 PostgreSQL 的機制，也能在 local lab 或 staging 產出可驗證 artifact。

章節列表

章節	主題	產出 artifact
Local lab quickstart	Docker Compose 啟動 PostgreSQL、建立 schema、跑 sample workload	local DSN、schema migration log、basic metric snapshot
Connection pool lab	application pool → pgBouncer → PostgreSQL 的連線壓力演練	pool config、connection count evidence、failure note
PITR restore drill	base backup + WAL archive + restore target time 的恢復演練	restore record、RPO / RTO evidence、validation query
Schema migration evidence lab	expand / contract migration、validation query、rollback condition	migration plan、row count、rollback note
HA failover drill	Patroni / managed failover 的 application impact 演練	failover timeline、client error sample、decision log

設計原則

PostgreSQL hands-on 章節只收錄能產出 evidence 的操作。純安裝指令留給官方文件；本路線要教讀者如何知道設定生效、失敗時看到什麼、以及 evidence 要交給 04 / 06 / 08 的哪個 artifact。

引用路徑

上游：PostgreSQL overview
Deep article：pgBouncer Config、PITR + WAL Archiving、Patroni HA
跨模組：Observability Evidence Package、Migration Safety、Incident Decision Log

PostgreSQL Local Lab Quickstart

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL local lab quickstart 的核心責任是建立後續 connection、migration、backup 與 failover 演練共用的本地環境。這個 lab 提供一個可重建的 PostgreSQL instance、app-facing user、baseline schema、seed data 與 basic evidence。

本文的驗收標準是：你能啟動本地 PostgreSQL，套用 schema，跑 sample workload，取得 pg_stat_activity / pg_stat_database snapshot，最後 teardown 並重建。

Docker Compose

Docker Compose 的核心責任是讓 lab 環境可重建。建立 docker-compose.yml：

 1services:
 2  postgres:
 3    image: postgres:16
 4    environment:
 5      POSTGRES_USER: lab_admin
 6      POSTGRES_PASSWORD: lab_admin_pw
 7      POSTGRES_DB: appdb
 8    ports:
 9      - "54329:5432"
10    command:
11      - "postgres"
12      - "-c"
13      - "log_min_duration_statement=100"
14      - "-c"
15      - "shared_preload_libraries=pg_stat_statements"

啟動：

1docker compose up -d
2export DATABASE_URL="postgres://lab_admin:lab_admin_pw@localhost:54329/appdb?sslmode=disable"

Baseline Schema

Baseline schema 的核心責任是建立可測 transaction、index、lock 與 migration 的資料模型。

 1psql "$DATABASE_URL" <<'SQL'
 2CREATE EXTENSION IF NOT EXISTS pg_stat_statements;
 3
 4CREATE TABLE accounts (
 5  id bigserial PRIMARY KEY,
 6  tenant_id uuid NOT NULL,
 7  owner_name text NOT NULL,
 8  status text NOT NULL CHECK (status IN ('active', 'closed')),
 9  created_at timestamptz NOT NULL DEFAULT now()
10);
11
12CREATE TABLE ledger_entries (
13  id bigserial PRIMARY KEY,
14  account_id bigint NOT NULL REFERENCES accounts(id),
15  amount_cents bigint NOT NULL CHECK (amount_cents <> 0),
16  idempotency_key text NOT NULL UNIQUE,
17  created_at timestamptz NOT NULL DEFAULT now()
18);
19
20CREATE INDEX idx_ledger_entries_account_created
21ON ledger_entries(account_id, created_at DESC);
22SQL

這組 schema 後續可用於 migration、lock、PITR 與 pool lab。

Seed and Workload

Seed and workload 的核心責任是產生可觀察的資料與查詢。

 1psql "$DATABASE_URL" <<'SQL'
 2INSERT INTO accounts(tenant_id, owner_name, status)
 3VALUES
 4  ('00000000-0000-0000-0000-000000000001', 'Ada', 'active'),
 5  ('00000000-0000-0000-0000-000000000002', 'Lin', 'active');
 6
 7INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key)
 8SELECT 1, 100, 'seed-ada-' || g
 9FROM generate_series(1, 100) AS g;
10
11SELECT a.owner_name, SUM(l.amount_cents) AS balance_cents
12FROM accounts a
13JOIN ledger_entries l ON l.account_id = a.id
14GROUP BY a.owner_name;
15SQL

Sample workload 要保留 SQL 與輸出，作為後續 migration / restore validation 的 baseline。

Basic Evidence

Basic evidence 的核心責任是把 lab 狀態保存成可比較 snapshot。

 1psql "$DATABASE_URL" <<'SQL'
 2SELECT current_database(), current_user, version();
 3SELECT relname, n_live_tup FROM pg_stat_user_tables ORDER BY relname;
 4SELECT datname, numbackends, xact_commit, xact_rollback
 5FROM pg_stat_database
 6WHERE datname = current_database();
 7SELECT pid, state, wait_event_type, query
 8FROM pg_stat_activity
 9WHERE datname = current_database();
10SQL

這些查詢是 PostgreSQL lab 的最小 evidence。正式服務要再加入 slow query、lock wait、replica lag、backup status 與 pooler metrics。

Teardown

Teardown 的核心責任是讓 lab 可重跑。

1docker compose down -v

重建後應能重新套用 schema 與 seed。若 lab 需要跨章節沿用資料，先用 pg_dump 保存 fixture，再 teardown。

下一步路由

完成本篇後，連線壓力進入 Connection Pool Lab；migration evidence 進入 Schema Migration Evidence Lab；backup / PITR 進入 PITR Restore Drill。

PostgreSQL Logical Decoding Plugins

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL logical decoding plugins 的核心責任是把 WAL 中的變更轉成外部消費者可理解的事件格式。PostgreSQL 官方 logical decoding 文件說明，logical decoding 透過 replication slot 將 WAL 變更解碼成 plugin output；output plugin 決定外部看到的是 PostgreSQL protocol、JSON、測試文字或自訂格式。

本文的判讀錨點是：plugin 選型是 CDC contract 決策。它影響 schema evolution、事件欄位、delete 表示、transaction boundary、consumer compatibility、slot lag 與故障復原。

Plugin Boundary

Plugin boundary 的核心責任是定義 database 變更如何離開 PostgreSQL。常見選項包含內建 pgoutput、測試用 test_decoding、JSON-oriented plugin，以及 Debezium connector 支援的 plugin / protocol。

Plugin / path	主要責任	適合情境
`pgoutput`	PostgreSQL logical replication protocol	built-in logical replication、Debezium 常見路線
`test_decoding`	人類可讀測試 output	lab、debug、教育用途
`wal2json`	JSON change event	自訂 consumer、legacy CDC
decoderbufs	Protobuf event	強 schema contract 的 pipeline
Native subscription	DB-to-DB replication	PostgreSQL 之間 table replication

pgoutput 適合標準化 CDC。它與 publication / subscription model 對齊，能保留 PostgreSQL logical replication 的主路線。

test_decoding 適合教學與排錯。它讓人看到 transaction 裡發生的 insert / update / delete，但它的定位是測試與理解，不應作為正式 event contract。

Replication Slot Responsibility

Replication slot responsibility 的核心責任是保護 consumer 進度，同時管理 WAL retention。Logical slot 會讓 PostgreSQL 保留尚未被 consumer 確認的 WAL；consumer 停住時，slot lag 會轉成 disk pressure。

Signal	意義	操作反應
`confirmed_flush_lsn`	consumer 已確認的位置	用來判斷 CDC 進度
retained WAL size	slot 造成的 WAL 保留量	alert、調整 consumer、drop / advance
inactive slot	consumer 離線	檢查 connector、暫停 release
publication table diff	CDC scope 與 schema 不一致	review publication / table ownership

Slot 是 production resource。每個 logical slot 都要有 owner、consumer、SLO、drop condition、backfill plan 與 alert。

Event Contract

Event contract 的核心責任是讓 downstream 知道每個變更代表什麼。CDC 事件至少要說明 key、before/after image、operation、commit timestamp、transaction ordering、schema version 與 delete representation。

Contract 面向	審查問題
Key	table 是否有 replica identity / primary key
Update image	是否需要 before value
Delete	tombstone、key-only delete、soft delete
Ordering	transaction order 是否要保留
Schema evolution	新欄位、rename、drop 欄位如何通知
Backfill	initial snapshot 與 streaming 如何銜接

Replica identity 是 CDC 的核心設定。沒有穩定 key 的 table 會讓 update / delete event 難以被 downstream 正確套用；這類 table 要先補 primary key 或明確設定 replica identity。

Connector Patterns

Connector patterns 的核心責任是把 plugin output 接到實際 pipeline。Debezium、custom consumer、DB native subscription 的維運責任不同。

Pattern	優點	風險
Debezium connector	成熟 snapshot + streaming workflow	connector state、Kafka / offset operation
Native subscription	PostgreSQL 原生 DB-to-DB	schema drift、DDL coordination
Custom consumer	可客製 event contract	slot management 與 error handling 自行負責
Batch export + CDC	backfill 與 streaming 分開	cutover LSN 與 duplication handling

Connector 要定義 backfill 與 streaming 的接點。最常見的事故是 snapshot 還沒完成就開始消費、或 cutover LSN 沒有被記錄，導致 downstream 重複或漏資料。

Failure Modes

Failure modes 的核心責任是把 CDC 事故分成 database、connector、schema 與 downstream 四層。

Failure mode	判讀訊號	第一反應
Slot lag growth	retained WAL 持續增加	暫停重型寫入、修 connector、評估 drop
Schema break	connector 解析失敗	停止 DDL rollout、補 schema evolution
Missing key	update / delete 缺少可套用 key	修 replica identity / key contract
Duplicate event	consumer 重啟或 offset 回退	idempotent consumer
Downstream slow	Kafka / sink lag 增加	擴 sink、調 batch、保護 slot

Slot lag 是最高優先訊號，因為它會占用 PostgreSQL WAL storage。Runbook 要有「何時暫停 producer」、「何時 drop slot」、「如何重建 snapshot」的明確門檻。

Selection Checklist

Selection checklist 的核心責任是讓 plugin 選型可審查。

Downstream 需要 DB-to-DB replication、JSON event、Protobuf event 還是 connector-managed event。
每張 table 是否有 stable key 與 replica identity。
Initial snapshot 如何銜接 streaming。
Schema evolution 如何通知 consumer。
Slot lag、connector lag、sink lag 如何告警。
Consumer 是否 idempotent。
Disaster recovery 後 slot / offset 如何重建。

完成這份 checklist 後，再決定 plugin 與 connector。CDC 的成功標準是 downstream 能長期維持正確資料，而不只是成功建立 slot。

下一步路由

Logical decoding plugins 完成後，實作 CDC pipeline 讀 Logical Replication / Debezium；slot 維運讀 Replication Slot Management；跨資料庫搬遷讀 Database Migration Playbook。

PostgreSQL pg_partman Advanced

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL pg_partman advanced 的核心責任是把 declarative partitioning 的日常維護自動化。pg_partman 可以協助建立未來 partition、管理 retention、執行 maintenance job，讓 time-based 或 serial-based partition 不再依賴人工 DDL。

本文的判讀錨點是：pg_partman 解決的是 partition lifecycle operation，而非 partition strategy 本身。Partition key、query pattern、retention、index、foreign key 與 migration 仍要先在 Declarative Partitioning 與 Partition Redesign 做對。

Responsibility Boundary

Responsibility boundary 的核心責任是區分 PostgreSQL 原生 partition 和 pg_partman。

層級	責任
PostgreSQL declarative partitioning	partition table、constraint、planner pruning
pg_partman	future partition premake、retention、maintenance
Scheduler / job runner	定期執行 maintenance
DBA / platform	monitoring、backup、DDL review
Application	query pattern、partition key 使用

pg_partman 的價值在於減少重複 DDL。它不會替 application 選出正確 partition key，也不會自動修復跨 partition query 設計。

Core Concepts

Core concepts 的核心責任是理解 pg_partman operation vocabulary。

概念	意義
Parent table	partitioned table 的入口
Child table	實際存放資料的 partition
Premake	預先建立未來 partition
Retention	自動 detach / drop 舊 partition
Maintenance	建立新 partition、處理 retention 的 job
Template	child partition 繼承 index / constraint 的模板

Premake 是防止 insert 打到不存在 partition 的保護。若 partition 建立落後於時間，application insert 會失敗或落到 default partition；production 要對 future partition count 設 alert。

Retention 是資料生命週期操作。Drop 舊 partition 速度快，但要先確認 legal retention、backup、analytics dependency 與 downstream CDC。

Setup Pattern

Setup pattern 的核心責任是把 pg_partman 導入流程放進 migration gate。

1CREATE EXTENSION IF NOT EXISTS pg_partman;
2
3CREATE TABLE events (
4  id bigserial,
5  tenant_id uuid NOT NULL,
6  created_at timestamptz NOT NULL,
7  payload jsonb NOT NULL
8) PARTITION BY RANGE (created_at);

實際建立 partman config 要依 pg_partman 版本與 provider 支援文件執行。Managed PostgreSQL 可能限制 extension version、background worker 或 scheduler，因此 setup 前要先確認 provider boundary。

最小 setup evidence：

Extension version。
Parent table DDL。
Partition key 與 interval。
Premake 數量。
Retention policy。
Maintenance job schedule。
Test insert 到 current / future partition。

Maintenance Runbook

Maintenance runbook 的核心責任是讓 partition lifecycle 可觀測。

Signal	意義	反應
future partition count	premake 是否足夠	手動跑 maintenance、修 scheduler
default partition rows	routing 失敗或 partition 缺漏	建 partition、搬資料、修 app timestamp
old partition count	retention 是否執行	檢查 policy、legal hold、job error
maintenance duration	DDL / lock / catalog 壓力	調整 schedule、拆 table
index build time	child index 建立成本	template / concurrent strategy review

Maintenance job 要有 owner。Cron、pg_cron、background worker、Kubernetes job 或 managed scheduler 都可以；重點是 job failure 會告警，並且有人處理。

Migration and Backfill

Migration and backfill 的核心責任是把既有大表轉成 partman-managed partition。這通常比新表導入更高風險。

Phase	Evidence
Audit	table size、query pattern、write rate
New schema	parent table、child partition、index
Backfill	batch size、lag、lock、checksum
Dual write	app compatibility
Cutover	rename / view / routing switch
Cleanup	old table retention、rollback

Backfill 要控制 WAL、replica lag、autovacuum、index bloat 與 lock。大型 table 應先用 shadow table 或 partition redesign playbook，避開 peak traffic 直接重建。

Failure Modes

Failure modes 的核心責任是列出 pg_partman 常見事故。

Failure mode	判讀訊號	修正方向
未建立未來 partition	insert 失敗或 default partition 增長	補 partition、修 maintenance schedule
retention drop 過早	查詢缺歷史資料	restore backup、調 policy、legal review
managed provider 不支援	extension / worker 限制	改 manual partition job 或 provider
index / constraint 漂移	child partition schema 不一致	template review、schema diff
planner pruning 失效	query 未帶 partition key	query rewrite、index review

pg_partman 事故通常是 lifecycle 事故。Runbook 要先看 maintenance job，再看 partition metadata 與 application query。

下一步路由

pg_partman advanced 完成後，partition 設計讀 Declarative Partitioning；重排策略讀 Partition Redesign；migration gate 讀 Online Schema Change。

PostgreSQL PITR Restore Drill

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL PITR restore drill 的核心責任是證明 backup 可以還原到指定時間點。這篇承接 PITR + WAL Archiving，把備份從存在狀態推進到可恢復證據。

本文的驗收標準是：你能記錄 base backup 時間、target time、restore duration、validation query 與 RPO / RTO note。實際命令會依 pgBackRest、Barman、cloud snapshot 或 managed service 而變；本文提供 vendor-neutral drill frame。

Prepare Recovery Point

Prepare recovery point 的核心責任是建立可辨識 transaction。先寫入一筆 marker，記錄時間。

 1psql "$DATABASE_URL" <<'SQL'
 2CREATE TABLE IF NOT EXISTS restore_markers (
 3  id bigserial PRIMARY KEY,
 4  marker text NOT NULL,
 5  created_at timestamptz NOT NULL DEFAULT clock_timestamp()
 6);
 7
 8INSERT INTO restore_markers(marker) VALUES ('before-bad-change');
 9SELECT id, marker, created_at FROM restore_markers ORDER BY id DESC LIMIT 1;
10SQL

把 created_at 記為 target time。正式 drill 要用 UTC，並記錄 timezone、operator、backup set 與 WAL archive status。

Create Bad Change

Create bad change 的核心責任是模擬需要 PITR 的錯誤。

1psql "$DATABASE_URL" <<'SQL'
2INSERT INTO restore_markers(marker) VALUES ('bad-change-after-target');
3UPDATE accounts SET status = 'closed';
4SELECT status, count(*) FROM accounts GROUP BY status;
5SQL

這一步在 lab 中代表誤操作。Production 事故中，bad change 可能是誤刪、錯誤 batch、壞 migration 或 application bug。

Restore Workflow

Restore workflow 的核心責任是把 backup tool 的操作轉成固定 evidence。不同工具命令不同，但流程一致：

選定 base backup。
設定 recovery target time。
套用 WAL 到 target time。
Promote restored instance。
跑 validation query。
啟動 application smoke test。

Example pseudo-runbook：

1restore_target_time = 2026-05-21T10:15:30Z
2base_backup = latest backup before target
3wal_archive = available through target
4restore_path = isolated environment

Restore 必須在隔離環境先完成。直接覆蓋 production 會讓 evidence 與 rollback 空間消失。

Validation Query

Validation query 的核心責任是確認 restore 到正確時間點。

1psql "$RESTORED_DATABASE_URL" <<'SQL'
2SELECT marker, created_at
3FROM restore_markers
4ORDER BY id;
5
6SELECT status, count(*)
7FROM accounts
8GROUP BY status;
9SQL

預期結果是存在 before-bad-change，且 bad-change-after-target 尚未出現。accounts 狀態應維持 target time 前的分布。

RPO / RTO Evidence

RPO / RTO evidence 的核心責任是把 drill 結果轉成服務語言。

Evidence	記錄內容
Backup timestamp	使用哪份 base backup
Target time	要恢復到哪一秒
WAL availability	target time 前後 WAL 是否完整
Restore duration	從開始 restore 到 validation 成功
Data gap	target time 後需補償的 transaction
Smoke test	application 核心 workflow 是否可用

PITR 的成功標準是資料與 application 都可用。只讓 PostgreSQL 啟動成功，還不足以交付服務。

Drill Retrospective

Drill retrospective 的核心責任是把演練缺口轉成下一步。

常見缺口：

找不到正確 base backup。
WAL archive 缺段。
target time timezone 混亂。
Restore 太慢，超過 RTO。
Application secret / config 指不到 restored DB。
Validation query 缺少 business invariant。

完成本篇後，跨區恢復讀 Cross-region DR；備份策略讀 PITR + WAL Archiving。

PostgreSQL Schema Migration Evidence Lab

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL schema migration evidence lab 的核心責任是把 schema change 轉成 release gate 可使用的 evidence。這篇承接 Online Schema Change 與 Database Migration Playbook。

本文的驗收標準是：你能設計 expand migration、量測 lock、跑 backfill validation、建立 contract migration 的 fail-forward / rollback 判準。

Expand Migration

Expand migration 的核心責任是先加入向後相容 schema。以下範例新增 accounts.email，先允許 null。

1psql "$DATABASE_URL" <<'SQL'
2\timing on
3BEGIN;
4ALTER TABLE accounts ADD COLUMN email text;
5COMMIT;
6SQL

新增 nullable column 通常是低風險操作，但仍要記錄 timing 與 lock。正式服務要在低流量窗口或 staging 上先測。

Lock Evidence

Lock evidence 的核心責任是讓 migration 的阻塞風險可見。開另一個 terminal，在 migration 前後查 lock。

1psql "$DATABASE_URL" <<'SQL'
2SELECT locktype, relation::regclass, mode, granted, pid
3FROM pg_locks
4WHERE relation IN ('accounts'::regclass, 'ledger_entries'::regclass)
5ORDER BY granted, mode;
6SQL

Release gate 要保存 lock mode、duration、blocked session 與 application impact。高風險 DDL 要先改成 expand / backfill / contract。

Backfill and Validation

Backfill and validation 的核心責任是把資料補齊並證明結果符合 domain。

1psql "$DATABASE_URL" <<'SQL'
2UPDATE accounts
3SET email = lower(owner_name) || '@example.test'
4WHERE email IS NULL;
5
6SELECT count(*) AS missing_email
7FROM accounts
8WHERE email IS NULL;
9SQL

大型表要分 batch backfill，避免 WAL、replica lag、autovacuum 與 lock 壓力。每個 batch 要記錄 row count、duration、error 與 lag。

Add Constraint Safely

Add constraint safely 的核心責任是把資料驗證和 constraint 生效拆開。

1psql "$DATABASE_URL" <<'SQL'
2ALTER TABLE accounts
3ADD CONSTRAINT accounts_email_present
4CHECK (email IS NOT NULL) NOT VALID;
5
6ALTER TABLE accounts
7VALIDATE CONSTRAINT accounts_email_present;
8SQL

NOT VALID 讓 constraint 先約束新資料，再用 validation 掃既有資料。這是 PostgreSQL online migration 常用技巧。

Query Plan Evidence

Query plan evidence 的核心責任是確認 migration 後 query 仍走正確路徑。

1psql "$DATABASE_URL" <<'SQL'
2EXPLAIN (ANALYZE, BUFFERS)
3SELECT *
4FROM accounts
5WHERE email = 'ada@example.test';
6SQL

若 email 查詢成為正式 path，要新增 index，並用 CREATE INDEX CONCURRENTLY 評估 lock 與時間。

Contract Migration

Contract migration 的核心責任是在 application 都改用新欄位後，收斂舊欄位或舊 constraint。Contract migration 要比 expand 更謹慎，因為 rollback 空間更小。

Contract release gate：

所有 app version 已停止讀舊欄位 / 舊行為。
Backfill validation 為零缺口。
Query plan 與 index evidence 已保存。
Rollback path 是 fail-forward 或 restore，兩者擇一寫清楚。
PITR / backup window 符合風險。

Release Gate Note

Release gate note 的核心責任是形成可交付 artifact。

1Migration: add accounts.email
2Expand DDL duration:
3Backfill rows:
4Validation query:
5Lock evidence:
6Query plan:
7Rollback / fail-forward:
8Owner:

完成本篇後，複雜 migration 回到 Online Schema Change；需要跨 DB 遷移則讀 Database Migration Playbook。

PostgreSQL Security / RLS / Audit Logging

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL security / RLS / audit logging 的核心責任是把資料庫安全拆成存取邊界、資料列可見性與操作證據。PostgreSQL role / grant 決定誰能連線與操作 schema；Row Level Security 決定同一張表中哪些 row 對某個 role 可見；audit logging 則把敏感操作轉成可查詢、可保留、可告警的證據。

本文的判讀錨點是：資料庫安全是 application auth 的下游防線。Application 仍要負責身份、session、租戶與 workflow；PostgreSQL security layer 負責在資料邊界補上 least privilege、tenant isolation 與 forensic evidence。

Role and Grant Baseline

Role and grant baseline 的核心責任是把人、服務、migration 與分析查詢分開。Production database 至少要區分 application role、migration role、read-only role、admin role 與 replication / CDC role。

Role 類型	權限責任	常見風險
Application	執行產品讀寫	權限過大、可 DDL、可讀所有 schema
Migration	變更 schema	和 app 共用 role，事故難以追蹤
Read-only	分析、debug、support	讀到 PII 或跨 tenant 資料
Replication / CDC	logical replication、slot access	權限與 WAL retention 風險
Admin	emergency operation	日常使用 admin role

Grant review 要以 schema ownership 開始。Tables、sequences、functions、views、extensions 都有權限面；只管 table grant 會漏掉 sequence update、function execution 與 extension 使用。

Row Level Security

Row Level Security 的核心責任是在資料庫層 enforce row visibility。PostgreSQL 官方 RLS 文件描述 policy 可限制 normal query 返回、insert、update、delete 的 row；這讓 tenant boundary 可以在 database 層多一道 guard。

RLS 使用情境	適合條件	審查問題
Multi-tenant SaaS	tenant_id 明確且每個 query 都可帶入	policy 是否覆蓋 SELECT / INSERT / UPDATE
Support access	support role 需受限查詢	break-glass 是否有 audit
Regional data	row 上有 region / residency	policy 是否和 GDPR / residency 對齊
Sensitive subset	PII row 需特別隔離	masking / tokenization 是否仍需存在

RLS policy 要有 positive allow rule。每張啟用 RLS 的 table 都要有測試：同 tenant 可讀、跨 tenant 隔離、insert tenant mismatch 被擋、admin / support 例外被記錄。

1ALTER TABLE invoices ENABLE ROW LEVEL SECURITY;
2
3CREATE POLICY tenant_isolation ON invoices
4USING (tenant_id = current_setting('app.tenant_id')::uuid)
5WITH CHECK (tenant_id = current_setting('app.tenant_id')::uuid);

這段 policy 依賴 application 在 transaction 內設定 app.tenant_id。使用 connection pooler 時，設定必須跟 transaction boundary 對齊，避免 session state 漂移。

Audit Logging

Audit logging 的核心責任是把敏感資料操作轉成可查詢證據。PostgreSQL 原生日誌可以記錄連線、DDL、錯誤與慢查詢；pgAudit 這類 extension 則補強 session / object audit。

Audit 類型	目的	Evidence
DDL audit	schema 變更追蹤	migration id、role、statement、timestamp
Sensitive read	PII / payment / health data 查詢	role、tenant、operation、reason
Privilege change	grant / revoke / role 變更	actor、target role、approval
Failed access	權限錯誤與 RLS block	error code、role、relation
Break-glass	emergency admin access	ticket id、duration、review result

Audit log 要能進入 SIEM 或集中 log。只留在 database host 上，事故後查詢成本高；正式 runbook 要定義 retention、masking、access control 與 alert。

PII and Data Protection Boundary

PII and data protection boundary 的核心責任是把 database 權限和資料保護策略接起來。RLS 可以限制 row visibility，但 PII 的保護還需要 masking、tokenization、encryption、retention 與 deletion evidence。

資料類型	Database control	跨模組路由
Tenant data	RLS、tenant-scoped role	data access review
PII	column grant、masking view	Data Protection
Audit log	append-only storage、retention	SIEM / incident evidence
Deletion request	tombstone、cascade review	retention policy、legal hold

Column-level grant 和 masking view 適合 read-only analyst。Application role 通常需要明文處理 workflow；analyst / support role 則應走 restricted view。

Operational Evidence

Operational evidence 的核心責任是讓安全設定可驗證。每次 release 或權限變更後，要跑固定檢查。

Role matrix：每個 role 的 schema / table / sequence / function grant。
RLS test：tenant A / tenant B / support / admin 的可見性測試。
Audit sample：DDL、sensitive read、failed access 是否進 log。
Pooler compatibility：SET LOCAL app.tenant_id 是否跟 transaction 對齊。
Break-glass drill：emergency access 是否可申請、可回收、可審查。

Evidence 要保存在 release artifact。Security 設定只有文件描述時，incident 後難以證明它真的生效。

Failure Modes

Failure modes 的核心責任是把 database security 常見事故提前列出。

Failure mode	判讀訊號	修正方向
App role 權限過大	app 可 DDL / drop / grant	role split + least privilege
RLS bypass	owner / superuser / policy 漏洞	dedicated app role + RLS test
Pooler state drift	tenant setting 漂到下個 request	`SET LOCAL` + transaction pooling review
Audit gap	敏感操作查不到 actor	pgAudit / log schema / SIEM route
Support overread	support role 可讀全 tenant	masking view + ticket-scoped access

RLS bypass 要特別審查 table owner 與 superuser path。正式 application 連線應使用 dedicated role，並避免使用 table owner role 執行一般 request。

下一步路由

Security / RLS / audit logging 完成後，權限與 PII 治理讀 Data Protection；connection state 風險讀 Connection Pooler Comparison；實作演練可放進 Schema Migration Evidence Lab 的 release gate。

PostgreSQL to YugabyteDB / TiDB Migration

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL to YugabyteDB / TiDB migration 的核心責任是處理從 single-primary PostgreSQL 走向 distributed SQL 的資料拓撲變更。這條路線通常由 multi-region write、horizontal scale、tenant sharding、availability 或 single-node capacity ceiling 觸發；其中 YugabyteDB 走 PostgreSQL-compatible YSQL 路線，TiDB 走 MySQL-compatible distributed SQL 路線，兩者的 application diff audit 不同。

本文的判讀錨點是：API compatibility 只解決入口語法的一部分。YugabyteDB 要審查 PostgreSQL 相容與 distributed operation 差異；TiDB 要額外處理 PostgreSQL → MySQL dialect / driver / tooling 轉換。Distributed SQL 會改變 transaction latency、placement、index cost、DDL、sequence、lock、backup、observability 與 incident route。

Official Documentation Route

Official documentation route 的核心責任是把 compatibility claim 固定到可回查來源。YugabyteDB compatibility 先查 YugabyteDB PostgreSQL compatibility；TiDB compatibility 先查 TiDB MySQL compatibility；本文最後檢查日是 2026-05-22。

Driver Check

Driver check 的核心責任是確認 distributed SQL 解決的是核心問題。

Driver	代表需求	審查問題
Multi-region write	多地使用者都要低延遲寫入	consistency level、latency budget
Horizontal write scaling	單 primary CPU / I/O 到頂	shard key、hot key、cross-shard txn
Tenant distribution	tenant 可依 region / size 分布	tenant placement、rebalance
Availability	節點 / zone failure 容忍	quorum、failover、RPO / RTO
Operational consolidation	多 PG shard 想收斂	migration complexity、cost

若主要問題是 read scaling、connection 數或 query index，先評估 read replica、pooler、partition、Citus 或 Aurora；distributed SQL 適合資料拓撲問題。

Compatibility Audit

Compatibility audit 的核心責任是把 PostgreSQL behavior 逐項對照 target。

面向	審查問題
Protocol / API	YugabyteDB YSQL vs TiDB MySQL protocol
SQL dialect	function、extension、type、DDL support
Transaction	isolation、lock、deadlock、retry
Sequence / ID	global sequence latency、UUID policy
Index	secondary index placement、write cost
Foreign key	distributed FK cost / support
Extension	PostGIS、pgvector、custom extension；TiDB 路線需改寫或拆出
Tooling	migration tool、CDC、backup、monitoring

Compatibility audit 要用 application query suite。只看 schema import 會漏掉 transaction retry、query planner、distributed index、dialect rewrite 與 latency。TiDB 路線還要加 PostgreSQL driver / SQL / type / migration tool 轉 MySQL ecosystem 的審查。

Data Topology

Data topology 的核心責任是決定資料如何分布。Distributed SQL 的成敗常取決於 primary key、tenant key、region placement 與 hot key 控制。

拓撲決策	判讀問題
Distribution key	query 是否能 co-locate data
Region placement	資料是否需要 residency / low latency
Hot key	high-write tenant / account 是否集中
Secondary index	index write 是否跨 shard / region
Transaction span	交易是否常跨 tenant / region

Topology 設計要從最高頻 workflow 開始。若核心交易每次都跨 shard，distributed SQL 的 latency 與 conflict cost 會很高。

Migration Phases

Migration phases 的核心責任是降低跨拓撲遷移風險。

Phase	Evidence
Lab import	schema import、query suite、driver test
Topology design	key、placement、region、index review
Backfill	snapshot、batch、checksum
CDC catch-up	LSN / change stream、lag、idempotency
Shadow read	result diff、latency profile
Cutover	freeze、final sync、traffic switch
Rollback	source PG snapshot、write replay plan

CDC catch-up 要有 clear cutover LSN。Distributed SQL migration 最怕 source / target 同時有寫入後，缺少 reconciliation plan。

Application Changes

Application changes 的核心責任是讓程式接受 distributed system 的錯誤模式。

Transaction retry：serialization / conflict error 要可重試。
Idempotency：critical write 要有 natural key 或 idempotency key。
Latency budget：跨 region transaction 要進 SLO。
Pagination / ordering：distributed query 的排序成本要審查。
Connection / driver：target driver、TLS、pooling、load balancing 要測。

Application 若假設 single-node low-latency transaction，遷移後會在 tail latency 與 retry 行為上出現落差。TiDB 路線還會出現 driver、placeholder、SQL function、type mapping 與 error code 的轉換成本；這些要在 staging failure injection 先看到。

No-Go Conditions

No-go conditions 的核心責任是阻止把 distributed SQL 當成萬用擴容。

No-go 訊號	替代路由
主要瓶頸是少數 slow query	query optimization / index
多數交易跨全局資料	重設 bounded context 或保持 single primary
Team 缺少 distributed operation 能力	managed provider / simpler topology
PostgreSQL extension 依賴重	保留 PG 或拆出 specialized service
RPO / rollback 沒有演練	先完成 migration playbook
想保留 PostgreSQL driver / SQL surface	優先評估 YugabyteDB / CockroachDB / Citus

Distributed SQL 的價值來自拓撲匹配。若 workload 缺少自然分布邊界，導入後只是把單點瓶頸換成分散式複雜度。

下一步路由

PostgreSQL to YugabyteDB / TiDB migration 完成後，先讀 Global Distributed OLTP；若需求是 PostgreSQL 內分散式 table，讀 Citus Distributed；跨 vendor 流程讀 Database Migration Playbook。

Specialized PostgreSQL Variants

Fri, 22 May 2026 00:00:00 +0000

Specialized PostgreSQL variants 的核心責任是把 PostgreSQL ecosystem 裡的 specialized engines、extensions 與 managed variants 放到正確服務位置。PostgreSQL 的擴充性讓它能支援 geospatial、time-series、vector search、distributed table、serverless branch 與 managed acceleration；但每個變體都改變 operation、migration、cost 與 lock-in。

本文的判讀錨點是：PostgreSQL compatibility 是入口，不等於相同責任。選 variant 前，要先說清楚新增能力解決哪個 workload，並確認 exit route。

Variant Taxonomy

Variant taxonomy 的核心責任是把變體按資料模型與操作責任分類。

類型	代表	主要解決問題
Extension domain	PostGIS、pgvector、TimescaleDB	geospatial、vector、time-series
Distributed PG	Citus、Cosmos DB for PostgreSQL	sharding、distributed query
Managed accelerated PG	AlloyDB、Aurora PG	managed performance / HA / platform
Serverless / branching	Neon、Supabase workflow	preview、branch、稀疏 workload
Compatibility layer	YugabyteDB、部分 distributed SQL	PostgreSQL-like API + distributed storage

分類的重點是避免把不同變體視為同一種升級。Extension domain 強化單一資料模型；distributed PG 改變資料拓撲；managed accelerated PG 改變操作邊界；serverless PG 改變 lifecycle。

Workload Fit

Workload fit 的核心責任是判斷 variant 是否匹配資料形狀。

Workload	合適路線	審查問題
Geospatial query	PostGIS	index、SRID、資料量、query latency
Time-series retention	TimescaleDB / partition strategy	compression、chunk、retention
Vector search	pgvector / pgvectorscale	recall、latency、index build、hybrid search
Tenant sharding	Citus / distributed PG	distribution key、co-location、rebalance
Preview environment	serverless / branching PG	data privacy、branch lifecycle
Cloud-managed acceleration	AlloyDB / Aurora	compatibility、cost、exit

Variant 要先證明普通 PostgreSQL 加 index / partition / read replica 已到邊界。若基礎 query design 還沒成熟，導入 variant 會把複雜度提前。

Migration Gap

Migration gap 的核心責任是列出從 vanilla PostgreSQL 進入 variant 的差異。

差異面	審查問題
DDL	extension object、distributed table、chunk
Query	planner、function、operator、pushdown
Data movement	backfill、reshard、index build
Operation	backup、restore、upgrade、failover
Tooling	ORM、migration tool、CDC、monitoring
Exit	dump / restore 是否回到 vanilla PG

Migration 要有 compatibility test。每個核心 query 在 variant 上跑 explain、latency、result correctness；每個 migration step 都要有 rollback 或 rebuild path。

Lock-In and Exit

Lock-in and exit 的核心責任是把 variant-specific 能力和可攜性分開。

Lock-in 來源	控制方式
Extension-specific type	adapter layer、domain boundary
Managed-only feature	decision record、exit test
Distributed table DDL	topology doc、reshard runbook
Serverless branch API	dev workflow boundary
Proprietary index / function	fallback query / export strategy

Lock-in 可以接受，但要被命名。若 variant 能顯著降低成本或提高能力，採用是合理決策；工程責任是保留 exit evidence 與 migration plan。

Decision Matrix

Decision matrix 的核心責任是把 variant 路由接到 PostgreSQL 主章。

訊號	下一步
地理查詢是核心產品能力	PostGIS Deep Dive
時序資料與 retention 是主壓力	TimescaleDB Deep Dive
向量搜尋在 PG 內整合	pgvector Deep Dive
tenant sharding / distributed query	Citus Distributed
managed provider 選型	Managed PostgreSQL Comparison
分散式 SQL API 相容評估	PostgreSQL to YugabyteDB / TiDB

Decision matrix 要隨案例更新。Variant 選型最需要實際 workload：資料量、query pattern、SLO、team skill、合規與 exit 成本。

Review Checklist

Review checklist 的核心責任是避免 specialized variant 只被功能吸引。

Workload 是否真的需要 specialized capability。
Vanilla PostgreSQL 的 index / partition / replica 是否已評估。
Extension / managed feature 的版本與支援政策。
Backup / restore / upgrade runbook。
Migration tool、CDC、observability 是否支援。
Exit route 是否至少在 staging 演練。
成本模型是否包含 storage、compute、I/O、support、operation。

完成 checklist 後，variant 才能進入正式 proposal。這樣可以保留 PostgreSQL ecosystem 的彈性，也避免變體變成隱形平台遷移。

下一步路由

Specialized variants 完成後，回到 PostgreSQL overview 做服務定位；需要 managed provider 比較讀 Managed PostgreSQL Comparison；需要跨 vendor migration 讀 Database Migration Playbook。

PostgreSQL to SQLite Simplification

Thu, 21 May 2026 00:00:00 +0000

PostgreSQL to SQLite simplification 的核心責任是處理反向路線：服務責任縮小後，評估 SQLite 是否能降低操作成本。這條路線適合 single-user app、CLI、desktop app、內部工具、read-mostly artifact store、demo environment、local-first prototype 或 edge-local utility。

本文的判讀錨點是：降級到 SQLite 是責任縮小，也是讓資料模型回到 single-process / file-owned / local-state 的工程選擇。只要正式需求從 multi-user server DB 回到這個範圍，SQLite 可以提供更低元件數、更容易搬移與更低維護成本。

Simplification Drivers

Simplification drivers 的核心責任是確認 PostgreSQL 的能力已超過服務需求。若 server DB 的 HA、role、replica、pool、vacuum、PITR、schema governance 都變成維運負擔，而產品只需要單一 process 持有資料，就可以評估 SQLite。

Driver	代表情境	SQLite 帶來的收益
Single-user app	desktop、CLI、local admin tool	file portability、offline use
Read-mostly artifact	build metadata、catalog snapshot	deployment simple、低 runtime dependency
Internal tool	小團隊使用、資料量小、低寫入	降低 DB server operation
Demo / fixture	每個 environment 一份可重建資料	quick reset、deterministic seed
Edge-local utility	request-local / device-local state	low latency、local ownership

Driver 要連到 ownership。SQLite 適合「這份資料由某個 process / device / artifact 明確持有」；若資料仍屬於多服務共同真相，保留 PostgreSQL 或改成 managed SQL 會更穩定。

No-Go Conditions

No-go condition 的核心責任是保護仍需要 server DB 的服務。若 PostgreSQL 的核心能力仍被業務依賴，遷到 SQLite 會把風險轉移到 application code、file backup 與人工流程。

No-go 訊號	代表責任	保留路由
多 tenant 與 centralized permission	DB role、grant、audit 仍有價值	PostgreSQL
多 instance concurrent writer	SQLite writer boundary 壓力過高	PostgreSQL / MySQL
PITR / HA 是合約要求	server DB operation 是正式責任	Managed PostgreSQL / Aurora
Analyst / job 直接查 DB	access control 與 query isolation	PostgreSQL read replica / warehouse
Cross-service source of truth	單檔 ownership 與服務邊界衝突	保留 server DB 或拆 bounded context

No-go 條件要寫進 migration proposal。Simplification 的目標是降低操作成本；若降級後要用大量自製機制補回 role、audit、HA 與 concurrent write，成本會回到系統裡。

Diff Audit

Diff audit 的核心責任是把 PostgreSQL 語意縮到 SQLite 可以清楚承擔的範圍。PostgreSQL extension、function、type、index、constraint、sequence、view、trigger、role 與 transaction behavior 都要盤點。

PostgreSQL feature	SQLite 轉換策略	審查問題
`timestamptz`	UTC ISO text 或 integer epoch	timezone policy 是否固定
`jsonb` + GIN	JSON text + limited query / app filter	query 是否仍需 index
Sequence / identity	INTEGER PRIMARY KEY 或 app ID	id stability 與 import collision
Partial index	SQLite partial index	predicate 與 query planner 是否對齊
Role / grant	filesystem permission + app auth	權限是否可移到 application boundary
Extension	application logic 或放棄 feature	feature 是否仍是正式需求

Diff audit 的輸出是一份保留 / 移除 / 改寫清單。每個 PostgreSQL feature 都要回答：這是正式需求、歷史殘留，還是可以移到 application layer 的便利功能。

Phase Plan

Phase plan 的核心責任是把 server DB 退場變成可回復流程。反向 migration 要超過一次性 dump：先收斂寫入、建立 SQLite schema、匯入資料、跑 adapter test、演練 backup，再退役 PostgreSQL。

Phase	目的	Evidence
Scope reduction	確認資料責任已縮小	ownership doc、no-go review
Schema rewrite	建立 SQLite schema	migration dry run、STRICT / constraint
Data export	從 PostgreSQL 匯出 snapshot	row count、checksum、dump metadata
Data import	寫入 SQLite file	integrity check、foreign key check
Adapter switch	app 改用 SQLite repository	contract test、error mapping
Backup runbook	建立 file lifecycle evidence	backup restore drill
Server retirement	關閉 PostgreSQL 寫入與 credential	retention、credential removal、incident route

Scope reduction 是第一關。若資料仍被多個服務寫入，應先拆出 bounded context 或建立 event / export boundary；SQLite file 才能成為明確 owned artifact。

Data Movement

Data movement 的核心責任是把 PostgreSQL snapshot 轉成 SQLite file 並保留驗證。可用 COPY / CSV、application ETL 或 dedicated migration tool；選擇取決於 type conversion 與資料量。

1psql "$DATABASE_URL" -c "\\copy orders TO 'orders.csv' CSV HEADER"
2sqlite3 app.db ".mode csv" ".import --skip 1 orders.csv orders"
3sqlite3 app.db "PRAGMA integrity_check;"

這段命令是教學骨架。正式流程要處理 NULL、delimiter、timezone、numeric precision、FK order、transaction、temporary disk、sensitive data 與 import log。

Import 後要跑三種 evidence：database integrity、row count / checksum、business invariant。Business invariant 例如 active user count、total balance、latest event id、pending job count；這些比單純 row count 更能抓到語意錯誤。

Runbook Shift

Runbook shift 的核心責任是把 PostgreSQL operation 移轉成 SQLite file operation。Server DB 的 backup / role / monitoring 退場後，要補上 SQLite 的 backup、restore、file permission、WAL、migration 與 disk 觀測。

最小 SQLite runbook 包含：

Database file path、owner process、filesystem permission。
Journal mode、busy timeout、foreign key、schema version。
Backup command、restore drill、retention、checksum。
Migration command、pre-migration snapshot、rollback path。
Observability：busy、WAL size、disk free、backup age。
Incident route：disk full、bad migration、corruption signal。

Runbook shift 要同步移除 PostgreSQL credential。Server database 退役時，保留 read-only archive、刪除 application secret、關閉 scheduled job、更新 dashboard 與 incident routing。

Cleanup and Retention

Cleanup and retention 的核心責任是讓舊 PostgreSQL 不再成為影子真相。Migration 後若舊 DB 長期可寫，團隊會在事故中分不清哪份資料有效。

Cleanup 項目	操作
Write disable	PostgreSQL role 改 read-only 或關閉 app access
Archive snapshot	保存最後 dump、checksum、schema
Credential removal	移除 app secret、CI secret、admin token
Dashboard update	停用 PostgreSQL alert、啟用 SQLite alert
Documentation	更新 source-of-truth 與 restore route

Retention 要和 data protection 對齊。若 PostgreSQL 內有 PII、audit log 或 legal retention，退役流程要依 retention policy 保存或銷毀，而非直接刪除。

Decision Route

Decision route 的核心責任是讓 simplification 保持可逆。若未來 concurrent writer、central audit、PITR 或 multi-service source-of-truth 回來，系統要能沿 SQLite to PostgreSQL migration 重新升級。

現況	建議
Single-user / local artifact	SQLite simplification
Small internal tool + low write	SQLite + restore drill
Read-mostly dataset for app bundle	SQLite artifact + release version
Multi-user SaaS	保留 PostgreSQL
Audit / HA / role 是正式要求	保留 managed PostgreSQL

Simplification 的完成標準是：SQLite file 可以被重建、備份、恢復、升級與交接。只要這些 evidence 完整，從 PostgreSQL 退到 SQLite 是清楚的工程決策。

下一步路由

PostgreSQL to SQLite simplification 完成後，先讀 file lifecycle / backup boundary 建立 file operation；再讀 SQLite observability / runbook 補 evidence；若之後需求再成長，回到 SQLite to PostgreSQL migration。

SQLite to PostgreSQL Migration

Thu, 21 May 2026 00:00:00 +0000

SQLite to PostgreSQL migration 的核心責任是把 embedded single-file state 升級成 server SQL operational model。這條路線通常由 multi-user access、HA、central audit、permission、online schema governance、write concurrency 或 team handoff 壓力觸發。

本文的判讀錨點是：升級到 PostgreSQL 是服務責任擴大，而非單純換 driver。Migration 要同時處理 schema 語意、資料搬遷、application adapter、backup / PITR、role、observability、cutover 與 rollback。

Migration Drivers

Migration drivers 的核心責任是確認 PostgreSQL 真的承擔新增責任。SQLite 在 single-node、single-file、low-concurrency 場景很強；PostgreSQL 的價值出現在 server database governance。

Driver	代表需求	PostgreSQL 承擔的責任
Concurrent writers	多 instance / 多使用者同時寫入	MVCC、connection management、lock insight
HA / PITR	需要時間點恢復與 managed backup	WAL archiving、replica、restore drill
Central audit	需要查詢與變更證據	role、log、extension、SIEM integration
Permission boundary	app / analyst / job 權限分離	DB role、grant、row / schema boundary
Schema governance	migration 要 online 且可審查	migration tool、lock review、rollback
Shared data platform	多服務共用正式資料	connection pool、capacity、ownership

Driver 要被量化。若問題只是單一 CLI 檔案變大，先改善 backup、VACUUM、index 與 WAL runbook；若問題是多 instance 同時寫、權限分離、audit 與 PITR，PostgreSQL 才是正確路由。

Diff Audit

Diff audit 的核心責任是把 SQLite 語意轉成 PostgreSQL 語意。SQLite 的 type affinity、date / time convention、auto-increment、foreign key、index、JSON、transaction 與 extension 都要逐項審查。

面向	SQLite source 問題	PostgreSQL target 決策
Type	dynamic typing、STRICT usage	integer / bigint / numeric / timestamptz
Primary key	rowid、INTEGER PRIMARY KEY	identity、sequence、UUID
Date/time	TEXT / INTEGER convention	timestamptz、timezone policy
JSON	JSON text / function usage	jsonb、GIN index、query rewrite
Constraint	FK pragma、check、unique collation	enforced FK、deferrable、collation
Index	partial / expression / covering index	equivalent index + explain
Transaction	single writer、savepoint	isolation level、deadlock retry

Type mapping 要先保護 domain invariant。金額欄位用 integer cents 或 numeric、時間欄位用 timestamptz 或明確 UTC text、boolean 用 boolean；每個轉換都要有 invalid sample 與 round-trip test。

Index mapping 要用 production query 重跑 explain。SQLite 的 EXPLAIN QUERY PLAN 只能說明 SQLite planner；PostgreSQL 需要自己的 EXPLAIN (ANALYZE, BUFFERS)，並使用接近真實分布的資料量。

Phase Plan

Phase plan 的核心責任是降低一次性 cutover 風險。SQLite to PostgreSQL migration 通常可以分成 schema 建模、資料匯出、adapter 切換、shadow read、freeze / cutover 與 cleanup。

Phase	目的	Evidence
Schema rewrite	建立 PostgreSQL target schema	migration dry run、schema review
Data export	從 SQLite 取出穩定 snapshot	source checksum、row count、export log
Data import	寫入 PostgreSQL	target checksum、constraint validation
Adapter layer	將 repository 改為可切換	dual test suite、error mapping
Shadow read	比對新舊 query result	mismatch report、latency profile
Cutover	切正式寫入	freeze window、rollback snapshot
Cleanup	退役 SQLite write path	retention、credential、runbook update

Adapter layer 是風險控制點。Repository 應把 SQLite 與 PostgreSQL driver 差異藏在 infrastructure layer，domain 不直接依賴 vendor-specific SQL exception 或 connection object。

Shadow read 適合先驗證 read contract。正式寫入仍留在 SQLite 時，background job 可以把相同 query 跑到 PostgreSQL mirror，記錄 row count、field diff、排序差異與 latency。

Data Movement

Data movement 的核心責任是讓搬遷結果可驗證。SQLite database file 可以透過 .dump、CSV export、application-level export 或 custom ETL 搬入 PostgreSQL；選擇取決於資料量、型別轉換、FK order 與 downtime window。

1sqlite3 app.db ".mode csv" ".headers on" ".once orders.csv" "SELECT * FROM orders ORDER BY id;"
2psql "$DATABASE_URL" -c "\\copy orders FROM 'orders.csv' CSV HEADER"

這段命令是教學骨架。正式 migration 要處理 quoting、NULL、timezone、large object、FK order、batch size、transaction size、retry、import log 與 sensitive data handling。

Row count 是基本證據，checksum 是更強證據。可以針對每張表計算穩定排序後的 hash，或在 application layer 對 domain key 與重要欄位做 checksum。

1SELECT COUNT(*) FROM orders;
2SELECT SUM(total_cents) FROM orders;

Aggregate checksum 適合快速抓大錯。正式驗證還要補抽樣 row diff、edge case row、foreign key check 與 business invariant。

Cutover

Cutover 的核心責任是控制最後一次寫入切換。SQLite source 在 cutover 前應進入 read-only 或 writer freeze，確保最後 snapshot、import 與 validation 對齊。

Cutover step	操作	Rollback 條件
Freeze writers	停止背景 job、API write、admin tool	source 寫入仍持續或 freeze 失敗
Final snapshot	SQLite backup / export	checksum 失敗
Final import	PostgreSQL transaction / batch import	constraint error、row mismatch
Smoke test	核心 read/write workflow	error rate、latency、permission failure
Switch traffic	更新 config / secret / deployment	application error rate 超過 tripwire
Monitor	query latency、lock、connection pool	pool exhaustion、deadlock spike、data diff

Rollback 要保存 source snapshot。若 cutover 後發現 PostgreSQL error mapping、permission 或 performance 問題，可以切回 SQLite read/write snapshot；前提是 cutover window 內所有新寫入都能回放或被阻擋。

PostgreSQL Operation Gate

PostgreSQL operation gate 的核心責任是確認團隊準備好接手 server DB。Migration 成功要包含資料進入 target 與 operation readiness；PostgreSQL 需要 connection pool、backup / PITR、vacuum、index bloat、role、migration lock review 與 alert。

最小 operation checklist：

Connection pool 設計：max connections、pool size、timeout、transaction pooling policy。
Backup / PITR：restore drill、retention、RPO / RTO。
Role / grant：application role、migration role、read-only role。
Migration lock review：DDL impact、online migration strategy。
Observability：slow query、lock wait、deadlock、replica lag、disk。
Incident route：rollback、restore、read-only mode、on-call owner。

這個 gate 要在 cutover 前完成。SQLite 讓 operation surface 很小；PostgreSQL 擴大能力的同時，也擴大維護責任。

No-Go Conditions

No-go condition 的核心責任是阻止過早升級。若服務仍是 single-user、local-first、low-write、可用簡單 backup 解決，PostgreSQL 可能引入比問題更大的 operation cost。

No-go 訊號	更合適路由
Single-user app 或 desktop app	保留 SQLite + backup / migration runbook
主要壓力是備份	Litestream / LiteFS
主要壓力是 edge locality	D1 / Turso route
Team 尚未準備 server DB operation	先補 observability / restore drill
Schema / query 還在快速探索	先穩定 domain model，再做正式 migration

No-go 條件要轉成 tripwire。當 writer concurrency、audit、PITR、role 或 HA 需求跨過明確門檻，再啟動 migration。

下一步路由

SQLite to PostgreSQL migration 完成後，下一步要看 target operation。PostgreSQL 能力讀 PostgreSQL；migration 方法讀 Database Migration Playbook；若需求只是 edge platform，改讀 SQLite to D1 / Turso migration。