PostgreSQL on Tarragon

PostgreSQL Patroni HA：從 leader 失聯到 client 重連的 5 段 failover lifecycle

Mon, 18 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PostgreSQL 在 OLTP 譜系的定位、本文聚焦 Patroni-based HA 的 lifecycle 設計 — 從正常運作到 failover 完成的 5 段、每段配置 + failure mode + recovery。

Failover lifecycle：5 段不是一條曲線

PostgreSQL 原生沒有 auto-failover；primary 掛了、application 卡死、SRE 手動 promote standby — 整個過程通常 5-30 分鐘。Patroni 把這條鏈拆成 自動化的 5 段 lifecycle、每段有自己的 trigger、配置、失敗模式：

段	觸發	動作	失敗模式
1. Detection	Leader heartbeat 在 DCS（etcd / Consul）失聯	Standby 們開始觀察、累積失聯時間到 TTL	DCS 本身分裂 → false detection 啟動失敗 failover
2. Election	TTL 過、DCS 開放 leader lock	Standby 競爭寫 leader key（DCS quorum-based）	Network partition → 兩邊都自認 leader（split-brain）
3. Promotion	新 leader 寫 DCS key 成功	跑 `pg_ctl promote`、停 streaming replication、開始接寫	Standby 落後太多 → 拒 promote 或承接時資料缺
4. Reconfiguration	Patroni REST API 通知 routing 層	HAProxy / PgBouncer 切流量到新 leader	Routing 層 health check 慢 → 流量持續打舊 leader
5. Recovery	舊 leader 恢復（手動 / 自動）	跑 `pg_rewind` + 重接 streaming replication 為 standby	WAL divergence 太大 → 必須重 base backup

每段都有獨立配置、不是「設一個 timeout 就好」。後面分段展開。

Stage 1：Detection — DCS heartbeat 跟 TTL

 1# patroni.yml 核心配置
 2scope: myapp-pg-cluster
 3namespace: /db/
 4name: pg-node-1                                # 跟 hostname 一致
 5
 6etcd:
 7  hosts: etcd1:2379,etcd2:2379,etcd3:2379       # DCS quorum
 8  protocol: https
 9
10bootstrap:
11  dcs:
12    ttl: 30                                     # leader lock TTL
13    loop_wait: 10                               # patroni 主循環間隔
14    retry_timeout: 10                           # DCS retry 上限
15    maximum_lag_on_failover: 1048576            # standby 落後 1MB 內才能 promote
16    synchronous_mode: false                     # async / sync 取捨

關鍵直覺：

TTL (30s) = leader 失聯多久才被視為 dead。設太短（< 15s）會把 transient network jitter 當 dead；設太長（> 60s）unavailability 拖長
loop_wait + retry_timeout < TTL：Patroni 必須在 TTL 內成功跟 DCS 互動 N 次、loop_wait=10 + retry_timeout=10 給每個循環 20s buffer
maximum_lag_on_failover：standby WAL 落後超過這個閾值就 不參與 election；防止「promote 一個落後 5 分鐘的 standby」資料丟失

Stage 2：Election — DCS quorum + watchdog 防 split-brain

1watchdog:
2  mode: required                                # required / automatic / off
3  device: /dev/watchdog
4  safety_margin: 5

Election 期間最大風險是 split-brain — network partition 下、舊 leader 還活著但跟 DCS 斷線；新 leader 從 standby 升上來、application 同時連兩個 PostgreSQL 寫。資料 divergence 後 無法自動 reconcile。

防護機制兩層：

DCS quorum：etcd / Consul 至少 3 node、過半 quorum 才能寫 leader key — 少數派 partition 無法 elect 新 leader
Watchdog (Linux kernel)：required mode 強制 — Patroni 必須定期 poke /dev/watchdog、若 Patroni 自己掛或被 OS 凍結、kernel 自動 reboot 整台機器、避免舊 leader 在 DCS 失聯後繼續接寫

Watchdog required 是 production-grade 的硬要求 — automatic / off 在 split-brain 場景下無法防護。

Stage 3：Promotion — pg_ctl + replication slot 切換

新 leader 寫 DCS key 成功後、Patroni 自動執行：

1# Patroni 內部、不要手動跑
2pg_ctl promote -D /var/lib/postgresql/data
3# postgresql.auto.conf 移除 primary_conninfo
4# postgresql.auto.conf 重新計算 timeline ID
5# 啟動接寫

Promotion 期間關鍵議題：

timeline divergence：新 leader 開新 timeline ID（從 leader 失聯時的 LSN 開始）；其他 standby 需要 pg_rewind 把自己的 WAL fork 點對齊新 timeline
replication slot 處理：舊 leader 上的 replication slot 在 DCS 中已 stale、新 leader 重建 slot；如果 logical replication consumer 沒 idempotent、會 replay 部分訊息
promotion latency：通常 3-10 秒（pg_ctl 本身 < 5s、加 DCS 寫確認）

Stage 4：Reconfiguration — client routing 切換

PostgreSQL 自己升 leader 還不夠、application 不知道；要靠前端 routing 層轉發。三種典型 pattern：

1[client] → [HAProxy / pgBouncer] → [pg-node-1 (leader)]
2                                 → [pg-node-2 (standby, read)]
3                                 → [pg-node-3 (standby, read)]

Patroni REST API 暴露 /leader / /replica / /health endpoint、HAProxy 用 health check 跑這些 endpoint：

1# haproxy.cfg
2backend pg-write
3  option httpchk OPTIONS /leader
4  http-check expect status 200
5  server pg-node-1 pg-node-1:5432 check port 8008
6  server pg-node-2 pg-node-2:5432 check port 8008 backup
7  server pg-node-3 pg-node-3:5432 check port 8008 backup

Reconfiguration 期間關鍵延遲：

HAProxy health check 間隔（預設 2s）+ failure threshold（預設 3 次）= ~6s 切換感應
PgBouncer 不主動 health check、要靠 application 端 retry 跟 connection drop 觸發重連
整個 reconfiguration 端到端通常 10-20s（含 PostgreSQL promotion 時間）

Stage 5：Recovery — pg_rewind 跟 base backup 取捨

舊 leader 恢復後變 standby，但 WAL 已 divergence — 必須選一條 recovery path：

pg_rewind：rewind 舊 leader WAL 到分歧點、重新接 streaming replication；條件 = 分歧 WAL 量小（< 幾 GB）且 timeline 可對齊
重 base backup：用 pg_basebackup 從新 leader 拉完整 base + WAL；條件 = 任何時候都可、但時間長（TB 級 1-4 小時）

Patroni 預設嘗試 pg_rewind、失敗才退 base backup。production 配置：

1postgresql:
2  use_pg_rewind: true
3  remove_data_directory_on_rewind_failure: true   # rewind 失敗自動清 data dir、再 base backup
4  remove_data_directory_on_diverged_timelines: true

Production 故障演練

Case 1：Split-brain due to DCS partition

徵兆：兩個 PostgreSQL node 都在接寫、application 大量寫入 conflict / unique constraint violation。

根因：DCS（etcd）partition — 兩個 etcd node 在 partition 兩側、都自認 quorum；其實是 split-vote、兩邊都不應該。Patroni 在兩邊各 elect 一個 leader。

修法：

DCS 必須奇數 node（3 / 5 / 7）、過半 quorum 嚴格 enforce
DCS 部署跨 AZ / region 時、quorum size 要考慮 partition 機率（3 AZ 各 1 node 是 production 最低標）
Watchdog required mode 是最後一道閘門 — DCS partition 加 quorum 失靈時、watchdog 強制 reboot 失聯 node

Case 2：Standby 落後太多、無法 failover

徵兆：primary 失聯後、Patroni log 顯示 Following members have lag greater than maximum_lag_on_failover、所有 standby 都被拒 promote、cluster unavailable。

根因：maximum_lag_on_failover 設 1MB、但 standby replication lag 累積到 50MB（write-heavy workload + slow disk on standby）。安全機制觸發、但代價是 無 standby 可升、需要人工降低門檻或等 standby catch up。

修法：

預防：standby 容量 / IO 對齊 primary、避免 lag 累積；prometheus alert pg_replication_lag_bytes > 10MB 觸發前 catch
臨時：手動 patronictl edit-config 把 maximum_lag_on_failover 暫時拉到 50MB、接受可能丟 50MB worth of writes、換 availability
長期：sync replication（一個 standby 強制同步）、保證至少一個 standby zero-lag

Case 3：Promotion 後 application connection storm

徵兆：failover 完成後 30-120 秒內、application log 大量 connection refused / password authentication failed、application 自己 retry storm。

根因：新 leader 剛 promote、PostgreSQL max_connections 容量還在 warm up（shared memory / cache 未 prime）、application 同時湧入大量 connection request；應用 retry 不夠 jitter、queue 堆積。

修法：

Application 用 exponential backoff with jitter、不要 immediate retry
PgBouncer / connection pool 限制每 application instance 對 PG 的 connection 上限、不直連 PG
預先在 standby 跑 pg_prewarm 把熱表 cache 預熱、promotion 後 cache miss 不爆

Case 4：pg_rewind 失敗、退到 base backup 沒做

徵兆：舊 leader 恢復後、Patroni log 顯示 pg_rewind failed、舊 leader 一直 STARTING、無法重接 cluster；SRE 手動跑 pg_basebackup 才恢復。

根因：remove_data_directory_on_rewind_failure: false（預設）— rewind 失敗時 Patroni 不主動清 data dir、需要 SRE 手動處理；運維沒 runbook、卡在這步幾小時。

修法：

Production 設 remove_data_directory_on_rewind_failure: true + remove_data_directory_on_diverged_timelines: true、讓 Patroni 自動 fallback
data dir 跑在獨立 PV / disk、清掉風險可控（不要跑 root disk）
容量規劃：base backup 時間預估納入 RTO（TB 級 base backup 1-4 小時、不是 RTO 30 分鐘所能承受）

Case 5：Watchdog 觸發整機 reboot、誤殺

徵兆：production server 在無故障時 unexpected reboot、dmesg 顯示 watchdog: BUG: soft lockup。

根因：Patroni 主循環因 etcd 短暫慢回應卡住 60+ 秒、kernel watchdog 觸發 reboot；但實際 PostgreSQL 沒 hang、是 Patroni-watchdog 鏈過敏。

修法：

safety_margin 設大一點（10-15）、給 Patroni loop_wait 抖動空間
etcd 跟 Patroni 部署在低延遲 network 內（同 AZ < 5ms）、跨 region etcd 不建議
watchdog device 用 softdog（軟體模擬）vs 硬體 watchdog、debug 時 softdog 容易觀察

容量規劃

維度	估算	警戒
Cluster size	3-5 node（含 leader + 2-4 standby）	< 3 不能 HA（單 standby 失敗整 cluster 掛）
DCS size	3 / 5 / 7 node（奇數 quorum）	etcd 5 node 是 prod standard
TTL	30s（default 30、production 20-60）	< 15s 過敏、> 60s 過鈍
maximum_lag_on_failover	1MB（default）	大表 write-heavy 可放 10-100MB
Synchronous standby	1 個 sync + N 個 async 是 production 預設	全 async 容易丟資料、全 sync write latency 爆
RTO	10-30 秒（detection 30s 內 + promotion 5-10s + reconfig 5s）	> 60s 要 audit 鏈路
RPO	sync mode 接近 0、async mode 跟 lag 同數量級	async 在 disk IO 慢時 lag 可能 MB-GB level

整合 / 下一步

跟 PgBouncer 整合

PgBouncer 不主動感知 Patroni failover、要靠：

HAProxy 在 PgBouncer 上層：HAProxy 跑 Patroni health check、PgBouncer connection 重新路由
PgBouncer reload：failover 後 SRE / automation 跑 pgbouncer -R、強制重連 backend
Connection pool drain：application 端 connection pool 設 pool_lifetime_max=5min、舊 connection 自然汰換

跟 cert-manager（TLS rotation）

Patroni REST API 跟 PostgreSQL streaming replication 都用 TLS、cert rotation 不能停服務：

cert-manager 自動換證後、Patroni 跟 PostgreSQL 都需要 reload（不是 restart）
patronictl reload 不會觸發 failover、只 reload config
PostgreSQL pg_ctl reload 是 SIGHUP、平滑載入新 cert

跟 backup / PITR

Patroni 不管 backup — 但 standby promotion 後、WAL archive 必須跟新 leader 的 timeline 對齊：

WAL archive 命令模板含 %t（timeline）：archive_command = 'wal-g wal-push %p'
Backup tool（pgBackRest / WAL-G）支援 timeline 切換、archive 不會中斷
詳見 PITR + WAL archiving deep article

下一步議題

Multi-region Patroni：跨 region 部署的 DCS quorum 設計、跟單 region 的取捨完全不同
PostgreSQL 16+ streaming replication slot 持久化：簡化 standby promotion 後 logical consumer 重連
跟 Kubernetes operator 整合：Patroni 跑在 K8s 時、StatefulSet + pod identity + DCS 部署模式

PostgreSQL Replication Topology：async / sync / quorum 三模式跟 LSN + replication slot 的三軸組合

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 streaming replication topology — 從 single primary 到 multi-standby 部署的 3 個 trade-off 軸 + LSN + replication slot 機制。

Replication 的 3 個 trade-off 軸 + mode 選擇

PG streaming replication mode 選擇看起來是「async 還是 sync」、實際是 3 個獨立 trade-off 軸的組合、async / sync / quorum-based sync 是這些軸的常見組合名稱：

軸	端 A	端 B	PG 旋鈕
Durability	primary 寫完就 commit	至少一個 standby 收到才 commit	`synchronous_commit` / `synchronous_standby_names`
Latency	client 等 primary 寫完 OK	client 等 standby ack（額外 RTT）	同上
Consistency	standby 隨時可能 stale	standby 跟 primary 保證讀到一致	application read routing rule（不是 replication 旋鈕）

跟這三軸獨立的、是 replication 機制本身的可維護性：

LSN（Log Sequence Number）：PG 用全域 byte offset 標 WAL 進度、所有 standby 同步用 LSN 對齊、不像 MySQL 早期 binlog position + file 雙欄
Replication slot：primary 紀錄每個 standby 已接收的 LSN、防 standby 失聯期間 WAL 被清掉、是 streaming replication 的 持久化進度追蹤

跟 MySQL Replication Topology 對比、PG 的 LSN + replication slot 直接內建 standby 進度追蹤、不像 MySQL 5.7- 要靠 binlog position + GTID 雙機制；但 slot 是 primary 紀錄、orphan slot 是 PG-specific 議題（slot 留 WAL 直到 standby 重連、standby 永久失聯 → primary disk 爆）。

Async streaming：default + 高 throughput 的代價

Async 是 PG 預設、行為：

Primary 寫 WAL 進 pg_wal/ 目錄、commit、回應 client OK
WAL sender process 把 WAL stream 給 standby
Standby WAL receiver 寫 standby 的 pg_wal/、startup 進程 redo 套用

Trade-off：

Durability：primary commit 後 standby 還沒收 → primary 永久故障 → data loss（已 commit 的 transaction 在 standby 不存在）
Latency：client 寫入延遲 = primary 自身 fsync WAL 的時間（fsync=on + synchronous_commit=on 預設、通常 < 1ms 在 SSD / NVMe）
Consistency：standby 可能 lag、application 讀 standby 會 stale；用 pg_stat_replication.write_lag / flush_lag / replay_lag 看

配置：

1# postgresql.conf on primary
2wal_level = replica          # 至少 replica（logical 是 superset）
3max_wal_senders = 10         # 並行 WAL sender process 數（依 standby 數量）
4wal_keep_size = 1024MB       # WAL 保留量（slot 為主、但 backup buffer）
5synchronous_commit = on      # 預設、primary 自己 fsync WAL
6# synchronous_standby_names 留空 = async

適用：

主流選擇（90% 場景）
Failover loss 在容忍範圍（多數 web 應用容忍 1-2 秒 data loss）
Read scaling 為主要 driver、絕對 durability 非首要

Sync streaming：至少一個 standby flush WAL 才 commit

Sync mode 在 async 基礎上加 primary 等指定 standby flush WAL 才回 client：

Primary 寫 WAL、send to standby
Standby 收到 WAL、寫進 pg_wal/、fsync、回 ack
Primary 等 ack → commit → 回 client

synchronous_commit 有 5 個 level、不是 binary：

Level	行為	Latency 影響	Crash data loss
`off`	primary 不等自己 fsync、background flush	+0	primary crash 丟 0-1 秒
`local`	primary fsync own WAL（不等 standby）	baseline	primary crash 0、standby 丟
`remote_write`	primary fsync + standby 收到（不必 standby fsync）	+1 RTT 大致	OS crash on standby 丟
`on` (預設)	primary fsync + standby fsync（standby 收進 disk）	+1 RTT + fsync	全 crash 都不丟
`remote_apply`	primary fsync + standby fsync + standby 已 replay（visible to read）	+1 RTT + fsync + replay	全 crash 都不丟 + replica 立刻可讀

配置（synchronous）：

1synchronous_commit = on
2synchronous_standby_names = 'FIRST 1 (standby1, standby2)'
3# 'FIRST 1' = 第一個 active standby ack 即可
4# 'ANY 2 (s1, s2, s3)' = 任 2 個 ack 即可（quorum-based）

Quorum-based sync：用 ANY N 語法、達到 N 個 ack 就 commit、提高 latency stability（不依賴特定 standby）：

1synchronous_standby_names = 'ANY 2 (standby1, standby2, standby3)'
2# 3 個 standby 中任 2 個 ack 即 commit

適用：

金融交易 / 訂單 / payment ledger（不允許 data loss）
已有 multi-AZ deploy、replica 物理上可靠
可接受寫入延遲 +1-3ms (跨 AZ)

不適用：

跨 region sync（RTT 50-200ms）— 寫吞吐砍半、改用 region-local sync + cross-region async
寫吞吐 > 50K WPS + 容忍 sub-second loss — async 即可

LSN + Replication Slot：PG 的進度追蹤機制

PG 每個 WAL 寫入都標 LSN（64-bit byte offset）。Standby 紀錄 已收到 / 已 flush / 已 replay 的 LSN、primary 透過 streaming protocol 知道每個 standby 進度。

Replication slot 是 primary 端的 standby 進度紀錄：

1-- 建 physical replication slot（給 streaming replication 用）
2SELECT * FROM pg_create_physical_replication_slot('standby1_slot');
3
4-- 查 slot 狀態
5SELECT slot_name, active, restart_lsn, confirmed_flush_lsn,
6       pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) AS lag
7FROM pg_replication_slots;

Slot 的核心責任：

防 WAL premature deletion：standby 失聯（restart / network blip）、primary 仍保留 slot 對應 LSN 之後的 WAL、standby 重連可繼續 stream
無需 base backup re-build：跟沒 slot 的 standby 對比、有 slot 的 standby 失聯後重連、不用重建

Slot 跟 wal_keep_size：

wal_keep_size（PG 13+）/ wal_keep_segments（< 13）：minimum WAL 保留量、不依賴 slot
Slot 是 動態保留：直到 slot 的 standby 推進 LSN 才釋放對應 WAL
兩者組合：wal_keep_size 是底線、slot 是 standby-specific 動態保留

Standby 配置（用 slot）：

1# standby1 postgresql.conf
2primary_conninfo = 'host=primary.example.com port=5432 user=replication password=...'
3primary_slot_name = 'standby1_slot'   # 用 primary 上預先建的 slot
4hot_standby = on                       # 讓 standby 接受 read query

standby.signal 空檔案在 PG_DATA 內、告訴 PG 這是 standby、進入 recovery mode。

配置 step-by-step（sync streaming + slot）

實務最常見組合：sync streaming + replication slot + cross-AZ replica。

Step 1：Primary 配置

 1# postgresql.conf
 2wal_level = replica
 3max_wal_senders = 10
 4max_replication_slots = 10
 5synchronous_commit = on
 6synchronous_standby_names = 'FIRST 1 (standby1, standby2)'
 7wal_keep_size = 1024MB
 8
 9# pg_hba.conf — 允許 replication 連線
10host replication replication 10.0.0.0/16 scram-sha-256

Restart primary 套用。

Step 2：建 replication user + slot

1CREATE USER replication WITH REPLICATION PASSWORD '...';
2SELECT * FROM pg_create_physical_replication_slot('standby1_slot');
3SELECT * FROM pg_create_physical_replication_slot('standby2_slot');

Step 3：Standby base backup

1# 在 standby 上跑
2pg_basebackup -h primary.example.com -D /var/lib/postgresql/data \
3  -U replication -P -X stream \
4  -S standby1_slot -R
5# -R: 自動生成 standby.signal + primary_conninfo
6# -X stream: 邊 backup 邊 stream 增量 WAL（避免 backup 期間 WAL gap）

Step 4：Standby 啟動

1# standby /var/lib/postgresql/data/postgresql.auto.conf 已有：
2# primary_conninfo = 'host=primary.example.com user=replication password=... application_name=standby1'
3# primary_slot_name = 'standby1_slot'
4
5pg_ctl -D /var/lib/postgresql/data start

Step 5：驗證

1-- Primary: 確認 standby 連上
2SELECT application_name, state, sync_state, write_lag, flush_lag, replay_lag
3FROM pg_stat_replication;
4-- 應顯示 standby1 / streaming / sync / 各 lag
5
6-- Standby: 確認在 recovery + 收到 WAL
7SELECT pg_is_in_recovery(), pg_last_wal_receive_lsn(), pg_last_wal_replay_lsn();

5 個 Production 踩雷

1. Standby lag 暴衝 — Single replay process bottleneck

PG standby 是 single startup process 套用 WAL（不像 MySQL multi-thread replication）、primary 高並發寫入時 standby 跟不上、lag 從 < 100ms 飆到分鐘級。常見觸發：批次 UPDATE / DELETE、大 transaction、index 建立、autovacuum 大量 dead tuple cleanup。

修法：

Parallel WAL apply（PG 14+）：max_parallel_workers_per_gather 增加 background worker、但仍受 startup process 主導
對 read scaling 場景接受 standby lag、application 用 primary read 對 latency-critical query
Cascading replication 對 high-fan-out 解決 sender CPU bottleneck、但 standby replay 仍 single-thread

監控：pg_stat_replication.replay_lag 是 最後一個 commit 到 standby replay 的時間差、超過 threshold 即告警。

2. Sync standby 失聯時 primary commit 卡住

synchronous_standby_names = 'FIRST 1 (standby1)' + standby1 down → primary commit 等永遠。Application 全部 timeout。

修法：

用 ANY N quorum：synchronous_standby_names = 'ANY 1 (standby1, standby2)' — 任一 standby ack 即可
設多 standby、防單一失聯
監控 sync standby 健康、自動 failover 切 sync mode 到其他 standby（Patroni 自動做）
緊急情況：在 primary 跑 ALTER SYSTEM SET synchronous_standby_names = ''; SELECT pg_reload_conf(); 暫時退 async（接受 data loss risk）

3. Orphan replication slot — Primary disk 爆

Standby 失聯（永久故障 / 重 decommission 但忘了 drop slot）、primary slot 持續保留 WAL、pg_wal/ 累積到 disk 滿、primary 也掛。

修法：

監控 pg_replication_slots.active — false 持續 > N 小時是警訊

監控 slot lag：

1SELECT slot_name, active,
2       pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) AS retained_wal
3FROM pg_replication_slots WHERE retained_wal > 10GB;

設 max_slot_wal_keep_size（PG 13+）— slot 對應 WAL 超過 limit 自動 invalidate slot（standby 之後要 base backup 重來）
DR runbook 紀錄 standby 退役流程 必須包含 pg_drop_replication_slot('xxx')

4. Cascading replication 雪崩

Topology primary → standby1 → standby2 → ...（每層遞迴 stream）。Standby1 startup process 卡住、後續 standby 都被 block、整條 chain 雪崩。

修法：

避免超過 2 層 cascade（primary → tier1 → tier2 是上限）
跨 region 用 region-local tier1 + cross-region tier2、不是長 chain
真的大規模、改用 binlog server style：Citus / PgCat 等中介、或 logical replication 解耦

5. Failover 後 timeline 分歧

Primary 失敗、standby1 promote 為新 primary、其他 standby（standby2 / 3）原本連舊 primary、必須重新連 standby1。但 PG 用 timeline（每次 promotion 增 1）標 WAL 分支、原 standby 的 timeline 跟新 primary 不同。重連時看到 timeline mismatch、報錯。

修法：

pg_rewind 工具：對比新 primary 跟舊 standby 的 timeline 分歧點、把舊 standby 上 新 primary 沒有的 WAL 倒退、然後從分歧點重新跟新 primary 同步
Base backup re-build：對舊 standby 重建 — 慢但保證乾淨
Patroni 自動處理 pg_rewind / base backup 選擇

容量 / cost 對照

配置	寫吞吐影響	Standby overhead	適合 workload
Async streaming + slot	baseline	低（WAL receive + startup）	高吞吐、容忍 sub-second loss
Sync `remote_write` + 1 standby	-5% ~ -10%	同上 + RTT	一般 production、可接受 OS crash 丟
Sync `on` + 1 standby	-10% ~ -20%	同上 + fsync	金融、訂單、不容忍 data loss
Sync `on` + ANY 2 quorum	-15% ~ -30%	同上、跨 AZ	強 durability + multi-AZ HA
Sync `remote_apply` + 1 standby	-20% ~ -40%	同上 + replay	強一致 read on standby（少用、成本高）

跨 AZ sync 通常加 1-3ms、跨 region 加 50-200ms — 寫密集 workload 跨 region sync 通常不划算、改用 region-local sync + cross-region async chain。

整合 / 下一步

Patroni HA

Patroni 是 PG HA 自動 failover 標準、依賴 DCS（etcd / Consul）+ 本文 replication topology。Patroni 自動：

偵測 primary 失聯、promote 適合 standby
處理 timeline 分歧（pg_rewind）
重配 sync standby（避免 sync standby 失聯卡 primary）

Logical Replication + Debezium

Logical replication + Debezium 是 跟 streaming replication 共用 WAL 但不同 abstraction — logical decoding output event、streaming replication output physical bytes。Logical replication slot 跟 physical slot 共存、各自獨立 retention。

PITR + WAL Archiving

PITR + WAL Archiving 用 archive_command 把 WAL ship 到 S3、跟 streaming replication 並行：

Streaming：給 活的 standby（real-time read scaling / HA）
Archive：給 PITR + 新 standby base backup source

兩者使用同一 WAL stream、不衝突。

Connection 路由（PgBouncer + read/write split）

PgBouncer 不做 read/write split（transaction pool 不看 SQL）。Read replica routing 通常用 application-level 或 HAProxy 監控 standby health。

跟 MySQL Replication Topology 對比

維度	PG streaming replication	MySQL replication
進度追蹤	LSN（單一 byte offset）	GTID 或 binlog (file, position)
標準工具	streaming replication（physical）+ logical	binlog ROW format
Sync 機制	`synchronous_commit` + standby names	semi-sync plugin
Quorum	`ANY N` syntax	`rpl_semi_sync_master_wait_for_slave_count`
Replay parallelism	Single startup process	Multi-thread (logical clock / writeset)
Replica routing	PgBouncer 不看 SQL、需外接	ProxySQL 內建 query routing

兩者 high-level 對等、低層機制有顯著差異。詳見 MySQL Replication Topology。

PostgreSQL Online Schema Change：先用 ALTER 內建特性、不能解才 pg_repack / pg-osc

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 online schema change — 先看 PG ALTER 哪些已 fast catalog-only、再看 pg_repack / pg-osc 何時必要。

跟 MySQL 不同：PG 大量 schema change 內建 fast catalog-only 行為、不必走 ghost table tool。MySQL 對應的 gh-ost / pt-online-schema-change 之於 PG 是 少數場景才需要的 escape hatch、不是 standard practice。

寫作 OSC 時必須 先看 PG 自身 ALTER 行為、確認真的需要再上 pg_repack / pg-osc — 否則徒增複雜度。

PG ALTER TABLE 的 fast / slow 分類

1-- ALTER TABLE 的操作大致三類

類 A：Fast catalog-only（< 1 秒、metadata 改）

PG 9.4+ / 11+ 多數 ALTER 已 catalog-only：

ADD COLUMN col TYPE NULL DEFAULT NULL — 直接 metadata、不 rewrite
ADD COLUMN col TYPE NOT NULL DEFAULT （PG 11+）— optimizer 把 default 存在 metadata、舊 row read 時動態返回 default、不 rewrite
DROP COLUMN — metadata 標 dropped、實際 row 不 rewrite（VACUUM 之後逐步清理）
ALTER COLUMN ... SET DEFAULT — metadata
RENAME COLUMN / RENAME TABLE — metadata
ADD CONSTRAINT ... NOT VALID — 標記 constraint 不 validate、之後 VALIDATE CONSTRAINT 才 scan
ALTER COLUMN ... TYPE 同 binary-compat 類型（VARCHAR(10) → VARCHAR(20)、TEXT → VARCHAR 等）— catalog-only

這類 ALTER 直接跑、不必任何工具。

類 B：Lock heavy（rewrites table、production 慎用）

需要 rewrite 整張 table、ACCESS EXCLUSIVE lock 整個 ALTER 期間：

ALTER COLUMN ... TYPE binary 不相容類型（INT → BIGINT 永遠 rewrite、TEXT → INT 也是）— 雖然語意「擴大」、底層 4-byte 跟 8-byte storage 不同、全表 rewrite + ACCESS EXCLUSIVE 不可省
ALTER COLUMN ... SET NOT NULL 對既有 nullable column（要 scan 整 table）
ALTER COLUMN ... DROP IDENTITY
ALTER TABLE ... SET TABLESPACE

這類 ALTER 對大表 production 不能直接跑、要 ghost table tool。

類 C：Concurrent index / online operation（無 table lock）

CREATE INDEX CONCURRENTLY — 不 lock 寫入、background build、慢但安全
REINDEX INDEX CONCURRENTLY（PG 12+） — 同上
DROP INDEX CONCURRENTLY — 短 ACCESS EXCLUSIVE lock 只在最後 swap

何時需要 ghost table tool

只在以下場景才需要 pg_repack / pg-osc：

Rewrite-required type change（類 B ALTER COLUMN TYPE）對大表
VACUUM FULL 替代：pg_repack 比 VACUUM FULL 安全（不 lock 整表）
Bloat 重組：大表 dead tuple 累積、想完整 rewrite

對「add column」「drop column」「create index」等場景 PG 內建 fast 已夠、不必 ghost table tool。

Tool 1：pg_repack — Trigger-based + 雙 table swap

pg_repack 是 PG community 標準 online table rewrite 工具：

1pg_repack -h primary.example.com -p 5432 -d production -U postgres \
2  --table=orders --no-superuser-check

Mechanism：

CREATE repack.table_ 跟原表同 schema
在原表加 3 個 trigger：INSERT / UPDATE / DELETE → 寫入 log table repack.log_
從原表 INSERT INTO repack.table_ SELECT * FROM original 複製 row
邊複製邊 apply log table 紀錄的變更
切換：rename 原表 → original_old、rename repack.table_ → original（atomic）
Drop 舊原表跟 trigger / log

Trade-off：

Trigger overhead：每個 primary 寫入加 trigger 執行（10-30% 寫吞吐降）
FK 處理：需要 drop & re-create FK referencing original table（pg_repack 自動處理但有 lock window）
適用 PG-version 綁定 — pg_repack 13 不能對 PG 14 cluster 跑

配置：

1-- Primary 安裝
2CREATE EXTENSION pg_repack;

1# Repack orders
2pg_repack -d production --table=orders
3# 監控 lock：另一 session 跑 SELECT * FROM pg_stat_activity

Tool 2：pg-osc / pg-online-schema-change — WAL-shipping style

pg-osc（Shayon Mukherjee、2023）是較新的工具、模仿 gh-ost mechanism：

Mechanism：

用 logical replication slot 從 primary WAL stream 變更
CREATE shadow table + 套 ALTER 變更
Stream WAL event 同步 shadow table（不靠 trigger）
完成後 swap

Trade-off：

Primary 寫入 overhead：0（WAL 已存在）
比 pg_repack 較新（社群驗證度低）
適合 trigger overhead 不可接受 的高吞吐 production

配置：

1# 用 gem install
2gem install pg_online_schema_change
3
4# Run
5pg-online-schema-change perform \
6  --alter-statement="ALTER TABLE orders ADD COLUMN status VARCHAR(20)" \
7  --schema=public \
8  --dbname=production \
9  --host=primary.example.com

配置 step-by-step（pg_repack 為主）

實務多數 PG OSC 用 pg_repack。pg-osc 是 high-write-throughput escape hatch。

Step 1：安裝 + 確認版本

1-- 安裝 pg_repack（versioned）
2CREATE EXTENSION pg_repack;
3SELECT * FROM pg_available_extensions WHERE name = 'pg_repack';
4-- 確認 installed_version 跟 PG major version 對齊

Step 2：跑 pg_repack

1pg_repack -h primary -d production -U postgres \
2  --table=orders \
3  --jobs=4 \                       # 並行 worker
4  --wait-timeout=60 \              # 等 lock 超時（秒）
5  --no-kill-backend                # 不主動 kill 卡 lock 的 query

Step 3：監控

1-- 看 pg_repack 進度
2SELECT pid, query, state, wait_event_type, wait_event
3FROM pg_stat_activity
4WHERE query LIKE '%repack%';
5
6-- 看 lock 狀態
7SELECT * FROM pg_locks WHERE relation IN (
8  SELECT oid FROM pg_class WHERE relname IN ('orders', 'repack.table_xxx')
9);

Step 4：驗證

1-- 跑完後對比 row count + 抽樣 query
2SELECT count(*) FROM orders;
3-- 跟 pg_repack 之前 count 對比

5 個 Production 踩雷

1. ALTER 直接跑沒看是不是 fast 變 lock heavy

ALTER TABLE orders ADD COLUMN status VARCHAR(20) NOT NULL DEFAULT 'pending' — 預期 catalog-only（PG 11+）、但若 PG 10 跑這個就會 rewrite 整表、ACCESS EXCLUSIVE lock 幾小時。

修法：

寫 schema migration 前 確認 PG version
看 PG ALTER doc、each subcommand 標 Note 段是否 fast
Production 跑前 staging 測 + 監控 pg_stat_activity lock wait

2. VACUUM FULL 誤用 — Production downtime

VACUUM FULL 等於「rewrite 整表 + ACCESS EXCLUSIVE lock」。Production 跑 = 表變 unavailable 幾分鐘到幾小時。

修法：

永遠用 pg_repack 取代 VACUUM FULL（除非 maintenance window）
對 bloat 議題、定期跑 pg_repack
autovacuum tuning 第一優先（autovacuum-tuning 詳細）

3. pg_repack version mismatch

PG cluster 升 14、但 pg_repack extension 還是 13 版本。試 ALTER 跑 pg_repack 命令、ERROR: program "pg_repack 14.x" does not match installed extension "pg_repack 13.x"。

修法：

升 PG cluster 後 立即 ALTER EXTENSION pg_repack UPDATE
若 pg_repack 還沒釋出對應 PG 版本（早期升級）、暫時用 pg-osc 替代或等待
升級 runbook 紀錄 pg_repack 是 必同步升級的 extension

4. CREATE INDEX CONCURRENTLY 失敗清理

CREATE INDEX CONCURRENTLY 跑到一半被 cancel（用戶 Ctrl-C / connection drop）、產生 invalid index：

1SELECT indexrelid::regclass FROM pg_index WHERE NOT indisvalid;
2-- 顯示一個 idx_orders_status_invalid

Invalid index 仍佔 disk、但 optimizer 不會用。

修法：

跑 DROP INDEX CONCURRENTLY idx_orders_status_invalid
之後重新 CREATE INDEX CONCURRENTLY
避免在 connection 不穩的 session 跑長時間 CREATE INDEX CONCURRENTLY、改用 cron 或 deploy pipeline

5. Generated stored column 不能 online ADD

ADD COLUMN total NUMERIC GENERATED ALWAYS AS (price * qty) STORED — stored generated column 必須 rewrite 整表計算 column value、不是 catalog-only。

修法：

用 GENERATED ALWAYS AS (...) VIRTUAL（PG 18+）— 不存實際 value、catalog-only

或 先加 nullable column + backfill + 加 NOT NULL constraint：

1ALTER TABLE orders ADD COLUMN total NUMERIC;
2UPDATE orders SET total = price * qty WHERE id BETWEEN ...;  -- chunked
3ALTER TABLE orders ALTER COLUMN total SET NOT NULL;
4-- 之後加 trigger 或 application 層維護 total

或用 pg_repack 跑 rewrite ADD GENERATED STORED

容量 / 時間估算

對 100 GB 表、ADD COLUMN 加 index 為例：

操作	時間	Lock 影響
`ADD COLUMN col TYPE NULL` (PG 11+)	< 1 秒	ACCESS EXCLUSIVE（毫秒級）
`ADD COLUMN col TYPE NOT NULL DEFAULT 0` (PG 11+)	< 1 秒	ACCESS EXCLUSIVE（毫秒級）
`CREATE INDEX CONCURRENTLY`	2-6 小時	無 table lock
`pg_repack table`	4-8 小時	短 ACCESS EXCLUSIVE（swap）
`ALTER COLUMN TYPE` rewrite	4-8 小時	ACCESS EXCLUSIVE 全程
`VACUUM FULL`	同 pg_repack	ACCESS EXCLUSIVE 全程（不要跑）

跟 MySQL gh-ost / pt-osc 對照

維度	PG pg_repack	PG pg-osc	MySQL gh-ost	MySQL pt-osc
機制	Trigger + log table	WAL logical stream	Binlog stream	Trigger + log table
Primary 寫 overhead	中（trigger）	0（WAL 已存在）	0（binlog 已存在）	中（trigger）
Throttle 支援	部分	支援	強	部分
Pause / Resume	不支援	不支援	支援	不支援
工具成熟度	高	中（2023+）	高	高
Use case 比例	PG 主流（90% case）	高吞吐 escape hatch	MySQL 主流（dev）	MySQL legacy + FK

PG OSC tool 使用頻率比 MySQL 低 — 因為 PG 內建 fast ALTER 已 cover 90% schema change、ghost table tool 只對 少數 rewrite-required 場景。

詳見 MySQL Online Schema Change Tools — sibling、不同 use case mix。

跟其他模組整合

跟 Replication topology

ALTER TABLE / pg_repack / pg-osc 都產生 WAL、會 replicate 到 standby。Standby 上的 long-running query 可能跟 ALTER 衝突、被 hot_standby_feedback 影響 primary autovacuum。詳見 Replication Topology。

跟 Autovacuum Tuning

Schema change 後常產生 dead tuple、autovacuum 需要重新 cover。詳見 Autovacuum Tuning。

跟 Logical Replication

logical replication 透過 publication / subscription 同步 — DDL 不會 logical replicate（PG 16 之前）、必須 在 publisher / subscriber 各自跑 DDL。詳見 Logical Replication + Debezium。

跟 Patroni HA

Patroni promote 新 primary 後、pg_repack extension state（slot / catalog）跟著走、新 primary 仍可繼續 pg_repack。詳見 Patroni HA。

何時用哪個

情境	選擇
ADD COLUMN nullable / DROP COLUMN / RENAME 等	直接 ALTER（fast catalog-only）
CREATE INDEX 大表	`CREATE INDEX CONCURRENTLY`
ALTER COLUMN TYPE rewrite（大表）	pg_repack
Bloat 重組	pg_repack
高吞吐 + trigger overhead 不可接受	pg-osc
ADD GENERATED STORED column	nullable + backfill + constraint
Cluster on Cloud（RDS / Aurora）	RDS / Aurora 內建 fast DDL 多數已 cover、pg_repack 視 vendor 支援

PostgreSQL Connection Scaling：process-per-connection model 跟為什麼 pooler 是必裝

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 connection scaling 的根因 — 為什麼 PG 比多數 DB 更需要 pooler、跟 pgbouncer-config 是 根因 vs 配置 的關係。

Connection-per-Process Model 是 PG 的結構性選擇

PG 接受 client connection 時的行為跟多數現代 DB 不同：每個 connection 由 postmaster fork() 一個獨立的 OS process（backend）來服務。這個 process 在 connection lifetime 內專屬該 client、不跟其他 client 共享。

對比常見 DB 的 connection model：

Vendor	Connection model	每 connection 資源
PostgreSQL	Process-per-connection（fork）	5-15MB RAM、獨立 PID
MySQL	Thread-per-connection	256KB-2MB RAM、共享 process
Oracle	Shared server / dedicated 可選	配置決定
SQL Server	Thread-per-connection（pooled）	~512KB
MongoDB	Thread-per-connection	~1MB

PG 選 process 不選 thread 是 1990s 設計決定 — 當時 thread library 在多 UNIX 平台不穩定、process 隔離性更好（一個 backend crash 不會帶倒整個 DB）。這個 trade-off 一路保留到今天、是 PG 在 high-connection-count workload 的 結構性負擔。

量化：connection 數量對 RAM 跟 CPU 的壓力

一個 PG backend process 的 RAM footprint 由三部分組成：

1backend_rss ≈ shared_buffers_attach + process_private + work_mem 高水位

shared_buffers 是所有 backend 共享的、不重複計、但 process_private（catalog cache / plan cache / temp buffer）跟 work_mem 是 per-backend：

Workload 類型	process_private	work_mem 高水位	單 backend RAM
Idle / 簡單 OLTP	3-5MB	4MB	7-9MB
中等 query（join / sort）	5-8MB	16-64MB	21-72MB
Heavy analytical（CTE / window）	8-15MB	256MB+	264MB+

500 個 connection、平均 30MB 各 ≈ 15GB RAM 給 backend processes（還沒算 shared_buffers）。這是 PG 在 cloud instance 上很快撞到 RAM ceiling 的根因。

CPU 層面、fork() 系統呼叫在 Linux 通常 1-3ms、context switch ~3-5μs。100 connection burst 在 1 秒內進來、accumulated fork cost 100-300ms、加 query 本身的 CPU 跟 scheduler latency、平均 query 延遲會跳 2-5x。

三個 GUC 互動：max_connections / shared_buffers / work_mem

PG 的 memory 規劃由這三個 GUC 互動決定、不能獨立調：

1total_RAM ≈ shared_buffers + (max_connections × work_mem 高水位) + OS overhead

實務 sizing 規則（16GB instance、OLTP workload）：

GUC	建議值	理由
`shared_buffers`	25% RAM（4GB）	太大 OS file cache 收益遞減、< 25% wastes RAM
`work_mem`	8-32MB	每 query operation 用一份、不是每 connection 一份
`max_connections`	100-200	超過 200 需 pooler、不是調更大
`effective_cache_size`	50-75% RAM	planner 估 cost 用、不是實際配置
`maintenance_work_mem`	64-512MB	VACUUM / CREATE INDEX 用

max_connections = 1000 是常見 anti-pattern — 真實 active query 可能只 50-100、剩下都 idle、但每個還是吃 RAM 跟 process slot、context switch overhead 還在。

Pooler 為什麼是 production prerequisite

本段是「為什麼必裝」、實際 PgBouncer 配置看 pgbouncer-config。

Pooler 的核心責任是 把 N 個 application connection multiplex 成 M 個 PG backend（M ≪ N）：

1Application (3000 connection)
2   ↓
3Pooler（PgBouncer / PgCat）
4   ↓
5PostgreSQL (50 backend process)

Application 看到的是 無限 connection 池、PG 看到的是 穩定 50 個 backend。三個層次的效益：

RAM 節省：3000 connection × 30MB = 90GB → 50 backend × 30MB = 1.5GB
Fork() cost 攤平：backend 重用、不是每個 client 都 fork
Connection storm 緩衝：application 重啟 / scaling event 不會直接打到 PG

Pooler 有三種 pool mode、各有 application 層相容性 trade-off：

Pool mode	Session 隔離	適用 application	PG feature 限制
Session	每 client 獨佔 1 backend	用 prepared statement、SET、temp table	等同沒 pool、僅救 fork cost
Transaction	每 transaction 換 backend	多數 stateless API（最常用）	不能用 session-level state
Statement	每 statement 換 backend	Read-only / analytical	不能用 transaction

Production 多數選 transaction pool — 救 RAM 又保留 transaction semantics、代價是 application 不能用 session-level SET、LISTEN/NOTIFY、prepared statement（部分 pooler 已支援）。

Application-side Pool vs Middleware Pool vs RDS Proxy

三層 pool 都能解 connection 問題、但解的問題不同：

層級	代表	解的問題	限制
Application-side（driver）	HikariCP（Java）/ pgx pool（Go）/ asyncpg / Sequelize	Connection 重用 + lifecycle 管理	仍每 app instance 開 N 個到 PG、總量沒收斂
Middleware pooler	PgBouncer / PgCat	Multiplex 所有 application instance 到少數 backend	多一跳 latency 0.1-1ms、需自管 HA
Cloud-managed proxy	RDS Proxy / Cloud SQL Proxy	Multiplex + IAM auth + Secrets Manager integration	Latency 1-3ms、cost premium、PG feature 受限

典型 production 拓撲：

1Application (HikariCP pool 10/instance × 50 instance = 500)
2   ↓
3PgBouncer transaction pool（50 backend）
4   ↓
5PostgreSQL primary

Application pool 救 fork cost、PgBouncer 救 backend 總量、兩層各做各的事不衝突。

雙層 pool 配置容易出錯：application pool size 5 + PgBouncer default_pool_size 50 + 100 個 app instance、application 願意開 500 connection、PgBouncer 只給 50 個 backend — 多 450 個 application connection wait、看起來像「DB 慢」但實際是 pool 不足。

5 個 Production 踩雷

Case 1：Connection storm（重啟 / autoscale 同時打進來）

情境：Kubernetes rolling restart、200 個 pod 同時重連、每 pod 開 20 個 connection、瞬間 4000 個 connection 嘗試打到 PG。

PG max_connections = 500 直接拒絕 3500 個、application 看到 FATAL: sorry, too many clients already、retry storm 雪上加霜。

修法：

PgBouncer 在前面、application 連 PgBouncer 不直連 PG
reserve_pool_size = 5 給管理流量留 buffer
Application 端加 jittered exponential backoff、避免 retry 同步

Case 2：fork() cost 在 burst 流量

情境：Cron job 每分鐘整點觸發、500 個 worker 同時開 short-lived connection 跑 30ms query、結束關閉。

每分鐘 500 次 fork() + 500 次 exit()、fork cost 500-1500ms、CPU spike、其他 OLTP query 延遲飆。

修法：

Worker 改 connect 到 PgBouncer transaction pool、backend 重用、fork 只在 PgBouncer 首次拓展時
或 worker 改成 long-lived process + 內部 task queue、避免每分鐘重 fork

Case 3：shared_buffers 跟 max_connections 互相壓縮

情境：16GB instance、shared_buffers = 8GB（50%）、max_connections = 800、work_mem = 16MB。

預估 RAM：8GB + 800 × ~30MB = 32GB ≫ 16GB instance、OOM kill 來訪。

修法（重新分配）：

1shared_buffers = 4GB           # 25%
2max_connections = 200          # 透過 PgBouncer multiplex
3work_mem = 16MB
4effective_cache_size = 12GB
5maintenance_work_mem = 512MB

關鍵：max_connections 不是調更大救 connection 不足、是調 PgBouncer pool size 拓展 application 容量。

Case 4：Double-pool 配置失敗

情境：Application HikariCP pool size = 50、50 個 instance、PgBouncer default_pool_size = 20、PG max_connections = 100。

Application 願意開 2500 個 connection、PgBouncer 只給 20 個 backend、application thread 大量 block 在 PgBouncer 等 backend 釋出。

修法：

計算 application 願意的並發 vs PgBouncer 允許的 backend vs PG max_connections 三層匹配
通常 application_total_connection ≪ pgbouncer_max_client_conn + pgbouncer_default_pool_size + reserve ≪ pg_max_connections
Monitor PgBouncer SHOW POOLS 的 cl_waiting、長期 > 0 表示 pool 不足

Case 5：max_connections 設太大反而慢

情境：team 看到 connection refused、把 max_connections 從 200 調到 2000、想說「給更多 connection 應該更好」。

調完 throughput 反而降 30% — context switch overhead、planner cache 競爭、lock manager 競爭都跟 connection 數線性放大。

修法：

max_connections 上限通常 200-500、超過要靠 pooler multiplex
用 pg_stat_activity 看真實 active connection（state != ‘idle’）、通常 < 100
真實上限 = active 高水位 × 安全係數 1.5、不是「未來可能會用到的數量」

跟 MySQL connection model 對比

維度	PostgreSQL	MySQL
Connection 模型	Process-per-connection（fork）	Thread-per-connection
單 connection RAM	5-15MB（idle）/ 30-200MB（heavy）	256KB-2MB
Fork / spawn cost	1-3ms	< 100μs
Pooler 必要性	強烈必要（300+ connection 必裝）	中等（ProxySQL 對特定 case 有用）
主流 pooler	PgBouncer / PgCat	ProxySQL / MySQL Router

MySQL thread-per-connection model 讓它在 high-connection-count workload 上 看起來 更省 — 但 PG 透過 PgBouncer 達到的 application 看到的容量跟 MySQL 直連是一樣的、只是多一層 indirection。

實務影響：

MySQL 直連 1000 connection 還 OK、PG 直連 1000 connection 通常 OOM
PG + PgBouncer 1000 application connection、後端 50 backend、表現跟 MySQL 1000 直連相當
沒有 PG 更耗 RAM 的本質結論、是 PG 預設不 multiplex、需要外掛 multiplex 層

PG 17+ 的 connection 進展

PG 17（2024）對 connection 仍維持 process-per-connection、但有幾個減壓改進：

Per-process memory 降低：catalog cache 改 generational allocator、idle backend RAM 降 ~20%
Subscriber-side parallel apply：logical replication 減少 connection 開銷
io_combine_limit：buffered read 合併、降 syscall overhead

但 process-per-connection model 本身 沒換 — 短期內 PG 仍需 pooler。長期方向（PG 18+ 討論）可能引入 thread-based backend、但目前是 experimental patch。

下一步

連到 pgbouncer-config 學配置細節
看 PostgreSQL overview 回到全圖

PostgreSQL Index Selection：B-tree / GIN / GiST / BRIN / Hash 對應 workload 的決策樹

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 index 選型 — 何時用哪種 index、跟 query-optimization 的「為什麼這個 plan 慢」互補。

6 種 Index Method 對應 Workload

PG 有 6 種 index access method、各有自己擅長的 query pattern：

Index method	適用 query pattern	典型 column type	儲存成本
B-tree	`=` / `<` / `>` / `BETWEEN` / `IS NULL` / `LIKE 'prefix%'`	任何 scalar、最常用	中
Hash	純 `=` 比對	scalar、不常用	低
GIN	`@>` / `?` / `?	` / FTS / array 包含	JSONB / tsvector / array	高（write 慢）
GiST	範圍 / 空間 / 自訂 operator	geometry / tsvector / range	中
SP-GiST	Non-balanced 樹結構	IP / phone prefix / quad-tree	中
BRIN	大表的 range scan、physical order 跟 logical order 相關	timestamp / id（append-only）	極低

選錯 index 的代價：

Write workload：每 write 都更新所有相關 index、5 個 unused index = 5x write 放大
Storage：JSONB 加 GIN 可能比表本身還大
Plan misjudge：planner 看到 index 不一定用、EXPLAIN 才確認

B-tree：預設選擇、95% workload 適用

B-tree 是 PG 預設 index、CREATE INDEX 不指定 method 就是 B-tree：

1CREATE INDEX idx_orders_user_id ON orders (user_id);
2CREATE INDEX idx_orders_created_at ON orders (created_at);

B-tree 擅長的 query：

 1-- 等值
 2SELECT * FROM orders WHERE user_id = 42;
 3
 4-- 範圍
 5SELECT * FROM orders WHERE created_at BETWEEN '2025-01-01' AND '2025-01-31';
 6
 7-- IS NULL
 8SELECT * FROM orders WHERE shipped_at IS NULL;
 9
10-- Prefix LIKE
11SELECT * FROM products WHERE sku LIKE 'ABC%';

B-tree 不擅長：

LIKE '%suffix'（前綴 wildcard）→ 改 trigram + GIN
column @> array（包含）→ 改 GIN
JSON 內部 path query → 改 GIN on JSONB

Multi-column B-tree 的順序很重要：

1-- 假設常 query: WHERE user_id = ? AND status = ?
2CREATE INDEX idx_orders_user_status ON orders (user_id, status);  -- 對
3CREATE INDEX idx_orders_status_user ON orders (status, user_id);  -- 錯（status 選擇性低）

順序原則：

等值 column 在前（高選擇性）
範圍 column 在後（B-tree leftmost 規則）
selectivity 高的在前（filter 更多 row）

GIN：JSONB / FTS / Array 的標配

GIN（Generalized Inverted Index）對「一個 value 內含多個 sub-element」的 column 高效：

 1-- JSONB
 2CREATE INDEX idx_products_metadata ON products USING GIN (metadata);
 3
 4-- Array
 5CREATE INDEX idx_articles_tags ON articles USING GIN (tags);
 6
 7-- Full-text search
 8CREATE INDEX idx_articles_content ON articles USING GIN (to_tsvector('english', content));
 9
10-- Trigram（fuzzy match）
11CREATE EXTENSION pg_trgm;
12CREATE INDEX idx_products_name_trgm ON products USING GIN (name gin_trgm_ops);

GIN 代價：

Write 慢 2-10x：每個 sub-element 都要更新 inverted index
Storage 大：可能比表還大
Vacuum 沉重：bloat 累積快

Operator class 選擇影響大：

Op class	適用	索引大小	支援 operator
`jsonb_ops`（預設）	通用	大	`@>` / `?` / `?	`/`?&`
`jsonb_path_ops`	只 `@>` containment	1/3-1/2	只 `@>`

只用 @> query 時、jsonb_path_ops 救大量 storage。

GiST：範圍 / 空間 / 自訂

GiST（Generalized Search Tree）擅長範圍跟空間：

1-- 範圍 type（PostgreSQL 內建 int4range / tsrange 等）
2CREATE INDEX idx_bookings_period ON bookings USING GiST (period);
3
4-- 空間（PostGIS）
5CREATE INDEX idx_locations_geom ON locations USING GiST (geom);
6
7-- Exclusion constraint（範圍不重疊）
8ALTER TABLE bookings ADD CONSTRAINT no_overlap
9EXCLUDE USING GiST (room_id WITH =, period WITH &&);

GiST vs GIN 對 FTS 的選擇：

維度	GIN	GiST
Lookup 速度	快 3x	慢
Update 速度	慢 3x	快
索引大小	大	小
適合場景	Read-heavy FTS	Write-heavy / 即時更新

多數 FTS workload 選 GIN — read 占多、index size 換 query latency 划算。

BRIN：大表 + Physical Order Correlated

BRIN（Block Range Index）對 physical 儲存順序跟 logical 順序強相關 的 column 高效：

1-- timestamp column（append-only insert、physical 順序 = 時間順序）
2CREATE INDEX idx_events_created_at ON events USING BRIN (created_at);

BRIN 機制：每個 block range（預設 128 page）記 min/max、query 時跳過 range 外的 block。

適用場景：

append-only 表：log、metrics、events
大表（10GB+）：B-tree 太貴、BRIN 1/1000 大小
column physical order 跟 query 一致：時間欄、自增 id

BRIN 失效情境：

UPDATE 破壞 physical order（row 被 vacuum 移到別 block）→ BRIN 失效
隨機 insert（uuid / hash id）→ BRIN range 完全沒選擇性

何時不該用 BRIN：表 < 1GB（沒省 storage 收益）、column 沒 physical order correlation（CLUSTER 後可能改善）。

Partial Index：條件式 index 救 storage

對 只 query 部分 row 的 column、partial index 救大量 storage：

 1-- 只 index unshipped order
 2CREATE INDEX idx_orders_unshipped ON orders (created_at)
 3WHERE shipped_at IS NULL;
 4
 5-- 只 index active user
 6CREATE INDEX idx_users_active ON users (email)
 7WHERE status = 'active';
 8
 9-- 只 index 高金額 transaction
10CREATE INDEX idx_orders_high_value ON orders (user_id)
11WHERE total > 1000;

Partial index 的 query 要 完全匹配 WHERE 條件 才用得到：

1-- 用得到 partial index
2SELECT * FROM orders WHERE shipped_at IS NULL AND created_at > '2025-01-01';
3
4-- 用不到（planner 不 prove WHERE 包含 partial 條件）
5SELECT * FROM orders WHERE created_at > '2025-01-01';

實務 size 救法：unshipped order 只 1% 總量、partial index 1/100 大小。

Expression Index：對函式結果 index

 1-- 對 lowercased email index（case-insensitive search）
 2CREATE INDEX idx_users_email_lower ON users (lower(email));
 3SELECT * FROM users WHERE lower(email) = lower('USER@example.com');
 4
 5-- 對 JSONB 內部欄位
 6CREATE INDEX idx_products_category ON products ((metadata->>'category'));
 7SELECT * FROM products WHERE metadata->>'category' = 'shoes';
 8
 9-- 對日期截斷
10CREATE INDEX idx_orders_day ON orders (date_trunc('day', created_at));

Expression 必須 IMMUTABLE — now() / random() 不能用、timezone('UTC', ts) 可以。

Covering Index（INCLUDE）：避免回表

PG 11+ 支援 INCLUDE column：

1-- 只 index user_id、但 query 常要 email
2CREATE INDEX idx_users_user_id_covering ON users (user_id) INCLUDE (email);
3
4-- Index-only scan：不用回表
5SELECT email FROM users WHERE user_id = 42;

INCLUDE column 不參與 sorting / equality、只放 leaf node、救 IO。

Index 選擇決策樹

 1Query pattern 是什麼？
 2
 3├─ 等值 / 範圍 / prefix LIKE / IS NULL
 4│  └─ B-tree（90% 場景）
 5│     ├─ 只 query 部分 row？→ Partial B-tree
 6│     ├─ 對函式結果？→ Expression B-tree
 7│     └─ 需要回表更多 column？→ Covering（INCLUDE）
 8│
 9├─ JSONB 內部 query / array 包含 / FTS
10│  └─ GIN
11│     ├─ 只用 @>？→ jsonb_path_ops 救 storage
12│     └─ FTS write-heavy？→ 改 GiST
13│
14├─ 範圍 type（int4range / tsrange）/ 空間
15│  └─ GiST
16│
17├─ 大表 + append-only + physical order correlated
18│  └─ BRIN
19│
20├─ 純 equality + 簡單 column
21│  └─ Hash（很少用、B-tree 通常更好）
22│
23└─ Non-balanced 樹（IP prefix / quad-tree）
24   └─ SP-GiST（罕見）

5 個 Production 踩雷

Case 1：過度 index（write 放大）

情境：team「為了 query 快」對 20 個 column 各建 index、寫入量大時 INSERT 慢 10x。

每個 INSERT 要更新 20 個 index、WAL volume 也跟著放大、replication lag 拉長。

修法：

用 pg_stat_user_indexes 找 idx_scan = 0 的 index、可能根本沒用
用 pg_stat_statements 找實際被執行的 query、反推真正需要的 index
同 column 多 index（user_id 單欄 + (user_id, status) 多欄）通常可拆掉單欄

Case 2：Partial index 條件跟 query 不匹配

情境：建 WHERE status = 'active' partial index、application query 寫 WHERE status IN ('active')、planner 不 prove 等價、不用 index。

修法：

Partial 條件用最 generic form（避免 IN / OR 跟 = 的差異）
寫完用 EXPLAIN 驗證 query 真的用到 partial index
Application 統一 query 寫法、不要混 = 跟 IN 跟 ANY

Case 3：B-tree 對 JSONB 內部欄位無效

情境：對 metadata JSONB column 建 B-tree、query metadata->>'category' = 'shoes' 不用 index。

B-tree 對 整個 JSONB 排序、但 path query 不是整個 JSONB 的比對。

修法：

對固定 path 建 expression index：CREATE INDEX ... ON products ((metadata->>'category'))
對動態 path 建 GIN index：CREATE INDEX ... USING GIN (metadata)
兩者並存可、EXPLAIN 看 planner 選哪個

Case 4：BRIN 對非 correlated 資料無效

情境：對 user_id 建 BRIN index（user_id 是隨機 UUID）、query 完全跑 seq scan。

UUID 沒 physical order correlation、每個 block range 的 min/max 涵蓋整個 ID space、BRIN 完全沒 prune 效果。

修法：

BRIN 只用 timestamp / 自增 id / 其他自然 correlate 的 column
用 pg_stats 看 correlation value、< 0.1 就不適合 BRIN
真要對 random column 加 index、回 B-tree

Case 5：Multi-column index 順序錯

情境：常見 query WHERE status = 'pending' AND user_id = 42、建 index (status, user_id)、效能差。

status 只 5 個 distinct value、選擇性 1/5；user_id 1M distinct、選擇性 1/1M。Index leftmost 是 status、scan range 太大。

修法：

1-- 拆兩個或調順序
2CREATE INDEX idx_user_status ON orders (user_id, status);
3
4-- 或加 partial 限定低選擇性 column
5CREATE INDEX idx_orders_pending ON orders (user_id) WHERE status = 'pending';

跟 MySQL Index 差異

維度	PostgreSQL	MySQL
Index method	6 種（B-tree / Hash / GIN / GiST / SP-GiST / BRIN）	主要 B-tree、空間另算 R-tree
預設	B-tree	B-tree（InnoDB clustered）
Clustered index	沒有原生（CLUSTER 一次性）	InnoDB primary key 永遠 clustered
Covering	INCLUDE（PG 11+）	自然支援（secondary index 帶 PK）
JSON index	GIN on JSONB（強）	functional index on JSON（弱）
Partial index	原生支援	8.0+ 支援（受限）
Expression index	原生支援	5.7+ functional index
BRIN-like	原生	沒有
Spatial	GiST / PostGIS	R-tree（基本）

PG index 系統比 MySQL 表達力高、但代價是 選對 index method 是 application 責任、MySQL 預設 B-tree 多數場景夠用。

下一步

看 query-optimization 驗證 index 有沒有被 plan 用到
回 PostgreSQL overview 看全圖

PostgreSQL Citus Distributed：用 extension 把 PG 變成 sharded cluster

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 Citus distributed extension — 把 PG 變成 sharded cluster 的方式。

當 PG single-primary 寫吞吐撞上單機極限（50K-100K WPS）、選項三條：

Application 層 sharding：應用層自管 shard routing
Citus：PG extension、自動 routing + cross-shard query
Distributed SQL（CockroachDB / Aurora DSQL / Spanner）：不同 engine

選 Citus 的核心 driver：保留 PG SQL syntax + extension 生態。但「應用層幾乎不必改」是樂觀說法 — 實際上 application 必須圍繞 distribution column 重設計（query 加 filter / transaction 限定同 shard / reference table 量控制）、跟 Vitess 比 cross-shard query 自動化弱。代價是 coordinator / worker 部署複雜度 + cross-shard query 限制 + application schema 改造工作量。

閱讀本文前可先對齊 Database Sharding 的 shard key、routing、resharding 與 cross-shard query 語意；容量失衡時再接 Hot Partition。

跟 MySQL Vitess sharding 的核心差異：Citus 是 PG extension（PG 自己跑）、Vitess 是 獨立 proxy + tablet 系統（包 MySQL）。Citus 用 PG 原生機制（FDW / extension hook）、Vitess 是 外部包裝。

Citus 架構：Coordinator + Worker

 1                ┌─────────────────┐
 2   Application  │   Coordinator   │  ← 對外 PG wire protocol、planner、routing
 3                │   (Citus + PG)  │
 4                └────┬─────┬──────┘
 5                     │     │
 6              ┌──────┘     └──────┐
 7              ▼                   ▼
 8        ┌──────────┐         ┌──────────┐
 9        │ Worker 1 │         │ Worker 2 │  ← 各跑 PG + Citus extension
10        │  (PG)    │         │  (PG)    │
11        │ shard 1,3│         │ shard 2,4│
12        └──────────┘         └──────────┘

Coordinator：

對 application 看起來像 PG（同 port / 同 wire protocol）
接 SQL → Citus planner 把 query 分解 + route 給 worker
不存 data（distributed table 的 shard 在 worker 上）
存 metadata（哪個 shard 在哪個 worker）

Worker：

標準 PG instance + Citus extension
各存若干 shard
接 coordinator 來的 query、跑 local execute、回結果

Shard：

Distributed table 拆成 N 個 shard（預設 32）
每 shard 是 worker 上的 physical PG table（含 _ 後綴）
行為跟一般 PG table 一樣、可以直接連 worker 用 PG 工具 access

3 種 Table Type

Distributed table — 跨 shard 切分

 1-- 建一般 PG table
 2CREATE TABLE orders (
 3    id BIGSERIAL,
 4    user_id BIGINT NOT NULL,
 5    amount DECIMAL(10,2),
 6    created_at TIMESTAMP,
 7    PRIMARY KEY (user_id, id)  -- PK 必須含 distribution column
 8);
 9
10-- 用 Citus 把它變 distributed
11SELECT create_distributed_table('orders', 'user_id');

user_id 是 distribution column — Citus 用它的 hash 決定 row 屬哪個 shard。PK 必須含 distribution column（跟 MySQL partitioning 同要求）。

跟 Vitess Vindex 對比：

Citus：hash distribution column → shard（單一 hash function、不可選 algorithm）
Vitess：Vindex 可選多種（hash / lookup_hash / xxhash / null）

Reference table — 全 shard 共有

1CREATE TABLE products (
2    id SERIAL PRIMARY KEY,
3    name VARCHAR(100),
4    price DECIMAL
5);
6
7SELECT create_reference_table('products');

products 在 每個 worker 都有完整 copy、寫入 coordinator 廣播給所有 worker。

用途：

小 lookup table（country code / product category 等）
跨 distributed table JOIN 時、reference table 在每 worker 上、不必 cross-shard
寫入頻率低（廣播 cost 跟 worker 數 linear）

Local table — Coordinator 上的 PG table

1CREATE TABLE audit_log (
2    id SERIAL PRIMARY KEY,
3    event JSONB
4);
5-- 不調用 Citus function、預設留在 coordinator

行為跟一般 PG table 一樣。用於 不需 distribute 的 table（如 admin metadata）。

Colocation：跨 distributed table 同 shard 對齊

當兩個 distributed table 都用 同 distribution column（例如 user_id）+ 同 shard count、Citus 自動 colocate：

1SELECT create_distributed_table('orders', 'user_id');
2SELECT create_distributed_table('user_addresses', 'user_id', colocate_with => 'orders');

Colocate 後：

user_id = 100 的 orders 跟 user_addresses 在 同一 worker shard
JOIN 不跨 worker、效率高
可用 PG 原生 FK constraint（cross-table 但同 shard）

Colocate 是 Citus 設計的核心 跨 table 一致性 機制。沒 colocate 的 cross-table query 變 cross-worker、效率大降。

配置 step-by-step（local cluster）

Production 用 Citus Cloud（Microsoft 託管）或 Azure Cosmos DB for PostgreSQL（同 engine）。Self-hosted：

Step 1：Coordinator + worker 都裝 PG + Citus

1# 在每個 node（coordinator + 2 worker）
2apt install postgresql-14
3apt install postgresql-14-citus-12.0
4
5# postgresql.conf
6shared_preload_libraries = 'citus'
7
8systemctl restart postgresql

1-- 在每個 node 跑
2CREATE EXTENSION citus;

Step 2：Coordinator 註冊 worker

1-- 在 coordinator 跑
2SELECT citus_add_node('worker1.example.com', 5432);
3SELECT citus_add_node('worker2.example.com', 5432);
4
5-- 確認
6SELECT * FROM citus_get_active_worker_nodes();

Step 3：建 distributed table

1CREATE TABLE orders (
2    id BIGSERIAL,
3    user_id BIGINT NOT NULL,
4    amount DECIMAL(10,2),
5    created_at TIMESTAMP,
6    PRIMARY KEY (user_id, id)
7);
8
9SELECT create_distributed_table('orders', 'user_id');

Citus 自動把 orders 拆成 32 個 shard（orders_102008 等）、分配到 worker。

Step 4：Application 連 coordinator

Application connection string 連 coordinator IP / port（不必知道 worker 存在）。

1-- 從 application 跑 query、Citus 透明 route
2INSERT INTO orders (user_id, amount) VALUES (12345, 50);
3-- → Citus 看 user_id=12345 hash 屬 shard 17、route 給對應 worker
4
5SELECT * FROM orders WHERE user_id = 12345;
6-- → Single-shard query、極快
7
8SELECT count(*) FROM orders;
9-- → Cross-shard aggregation、Citus 並行跑、合併結果

5 個 Production 踩雷

1. Distribution column 選錯 — Cross-shard query 變主流

選 created_at 或 id（auto increment）作 distribution column、看起來均勻、實際 application query 多以 user_id 為主、變成 每個 query 都 cross-shard、performance 雪崩。

修法：

Distribution column 選 application 最常 filter / join 的 column（通常是 tenant_id / user_id）
Audit application top query、確認 distribution column 對齊 query pattern
改 distribution column 要 rewrite 所有 shard、像 resharding、大工程

2. Cross-shard transaction 限制

跨多 shard 的 transaction（如：UPDATE 兩個 user_id 不同的 row）Citus 用 2PC（two-phase commit）但有限制：

Multi-statement transaction 跨 shard 需明確開 SET citus.multi_shard_modify_mode = 'sequential'
部分 isolation level 不保證 serializable across shards
DDL 跨 shard 是 sequential

修法：

Schema design 避免 cross-shard transaction（同 colocation group 內 transaction 沒問題）
必要 cross-shard 場景明確設 multi-shard mode
對 strict cross-shard consistency、考慮 distributed SQL（CockroachDB / Aurora DSQL）

3. Reference table 過大 — 寫入廣播 cost 爆

Reference table 在每 worker 都有 copy、寫入 廣播給所有 worker。Reference table 100K row + 高頻寫入 → 寫一次寫 N worker、cost N x。

修法：

Reference table 限 小 + 寫入頻率低 的 lookup data
超大表不該是 reference table、考慮 distributed
監控 reference table 寫入 rate、超 threshold 重新評估

4. Colocate 沒對齊 — 隱性 cross-shard JOIN

1-- 看似可以、實際 cross-shard 慢
2SELECT * FROM orders o JOIN user_addresses ua ON o.user_id = ua.user_id;

若 user_addresses 沒 colocate_with => 'orders'、兩表 shard 分配獨立、JOIN 跨 worker。

修法：

建相關 table 時 colocate_with 對齊
用 SELECT * FROM citus_tables 看 colocation_id、確認對齊
跨非 colocate table 的 JOIN 用 materialized view 或 application 層拆 query 避開

5. Worker failover — Coordinator 必須知道

Worker 故障、Citus 預設 coordinator 看到 query 失敗、不自動 failover。

修法（Citus 11+）：

用 shard replication（citus.shard_replication_factor = 2）— 每 shard 在 2 個 worker 有 copy
配 PG streaming replication 在 worker 層、外加 Patroni 管 failover
Coordinator 失敗 → 整個 cluster 失能、coordinator 也要 HA（Patroni）

跟 Vitess 對比 Citus 的 HA story 較弱、production 必須認真規劃。

何時用 Citus

條件	建議
Multi-tenant SaaS、tenant_id 為自然 distribution	是
寫吞吐 > 50K WPS、單 PG 撐不住	是
需要保留 PG SQL + extension（pgvector / TimescaleDB）	是
應用 query pattern 80% 都用同一 distribution column	是
應用大量 ad-hoc cross-tenant aggregation	否（cross-shard 慢）
強 cross-shard consistency 需求	否（用 CockroachDB）
想 zero-ops managed	Azure Cosmos DB for PostgreSQL（同 engine）

容量規劃

Coordinator: 中等 CPU + RAM、metadata 不大、不存 data
Worker: per-worker spec 同 single PG production
Shard count: 預設 32、實務常設 worker count × 4-8
Replication factor: production 至少 2

跟其他模組整合

跟 Replication topology

Coordinator + worker 各跑 PG streaming replication、Citus 不取代 PG replication。Worker failover 用 Patroni / streaming replication。詳見 Replication Topology。

跟 PG Extensions

Citus 跟其他 PG extension 多數兼容（pgvector / TimescaleDB / pg_stat_statements）— 它維持 extension 形態，保留 PostgreSQL 生態接點。詳見 PG Extension Ecosystem 篇（待寫）。

跟 MySQL Vitess

維度	Citus	Vitess
部署模型	PG extension	獨立 proxy + tablet
主要場景	Multi-tenant SaaS	超大規模分片
Cross-shard JOIN	colocate 對齊 + reference table	VTGate 自動 split + aggregate
FK	同 colocation 內可用	Vitess 18+ 支援、cross-shard 限制
HA	依賴 Patroni + replication factor	VTOrc + replication
學習曲線	中（PG ops 經驗夠）	高（4 component）

Citus 對 PG-native 場景更平順、Vitess 對 MySQL-native 場景更平順、不直接競爭。詳見 MySQL Vitess Sharding。

PostgreSQL SQL Features：PG 早就有的、MySQL 8.0 才補的、PG 仍領先的

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 SQL features baseline — PG 早期就有的、MySQL 8.0 才補的、PG 仍領先的、給從 MySQL 評估 PG 的讀者 reference。

PG SQL 工程深度的歷史錨點

PG 在 SQL feature 上長期領先 MySQL：

2009 (PG 8.4)：CTE / window function / recursive query
2013 (PG 9.3)：lateral derived table / materialized view
2014 (PG 9.4)：JSONB / partial index 早就有 / GIN index
2015 (PG 9.5)：UPSERT (ON CONFLICT)
2017 (PG 10)：declarative partitioning / logical replication / multi-column statistics

MySQL 8.0（2018）才補 CTE / window / lateral / JSON_TABLE / hash join — PG 早 9 年起步。

對 從 MySQL 評估 PG 的讀者來說、PG 的 SQL 工程深度不只是「該有的都有」、更多是「PG 結構性領先的特性 + MySQL 8.0 補了哪些 + PG 仍領先哪些」。

跟 MySQL Modern SQL Features 對比視角：

MySQL 8.0 視角：「我終於補齊 + 跟 PG 對比」
PG 視角：「我長期領先 + MySQL 8.0 才追上某些、其他我仍領先」

PG 結構性領先特性（MySQL 沒對應 / 弱對應）

1. Materialized View

PG 9.3+ 內建 materialized view：

1CREATE MATERIALIZED VIEW orders_summary AS
2SELECT user_id, COUNT(*) AS order_count, SUM(amount) AS total
3FROM orders GROUP BY user_id;
4
5-- 手動 refresh
6REFRESH MATERIALIZED VIEW orders_summary;
7-- 或 concurrent refresh（PG 9.4+、不 lock read）
8REFRESH MATERIALIZED VIEW CONCURRENTLY orders_summary;

用途：

預計算複雜 aggregation、查詢時極快
Concurrent refresh 不 lock read
可建 index on materialized view

MySQL 對應：沒原生 materialized view。常見替代：

Trigger + summary table（手動維護）
Application 層 caching layer
用 view + cache layer（不是 materialization）

MySQL 8.0+ 仍無原生 materialized view。

2. Partial Index

PG 預設支援 partial index — 對 滿足條件的 row 才建 index：

1-- 只對 active user 建 index
2CREATE INDEX idx_users_active_email ON users(email) WHERE status = 'active';
3
4-- Index size 比 full index 小很多、query 性能跟 full index 一樣
5SELECT * FROM users WHERE status = 'active' AND email = 'x@y.com';

用途：

Soft-delete 場景：對 deleted_at IS NULL 建 partial index
Hot subset 場景：對 status = 'pending' 等熱資料建 partial
Index 大小 / 寫入成本大降

MySQL 對應：MySQL 沒原生 partial index。MySQL 8.0+ 有 functional index 但跟 partial 不同。MySQL 替代：

Generated column + index（接近、但維護複雜）
或接受 full index cost

3. Foreign Data Wrapper (FDW)

PG FDW 讓 query 跨外部資料源：

 1CREATE EXTENSION postgres_fdw;
 2
 3CREATE SERVER remote_db FOREIGN DATA WRAPPER postgres_fdw
 4OPTIONS (host 'remote.example.com', dbname 'analytics');
 5
 6CREATE USER MAPPING FOR localuser SERVER remote_db
 7OPTIONS (user 'remoteuser', password '...');
 8
 9CREATE FOREIGN TABLE remote_orders (id INT, ...) SERVER remote_db OPTIONS (table_name 'orders');
10
11-- 在 local PG query remote table
12SELECT * FROM remote_orders WHERE id = 100;

支援 FDW：postgres_fdw / mysql_fdw / oracle_fdw / mongo_fdw / file_fdw / redis_fdw 等。

MySQL 對應：MySQL 8.0+ 有 FEDERATED engine（受限、不推薦）。實務上 MySQL 跨 DB query 用 application 層處理。

4. JSONB + GIN Index（PG 結構性優勢）

PG JSONB 是 binary 儲存 + 可 直接 GIN index：

 1CREATE TABLE products (
 2    id SERIAL PRIMARY KEY,
 3    metadata JSONB
 4);
 5
 6-- GIN index over JSONB
 7CREATE INDEX idx_products_metadata ON products USING GIN (metadata);
 8
 9-- 快 query
10SELECT * FROM products WHERE metadata @> '{"category": "shoes"}';
11SELECT * FROM products WHERE metadata @? '$.variants[*].price > 100';

MySQL 對應：MySQL 8.0 JSON_TABLE 是 SQL standard、但 index 必須 generated column workaround（不能 GIN index over JSON）。

詳見 MySQL Modern SQL Features JSON_TABLE vs PG JSONB 對比段。

5. Range Types + Exclusion Constraints

PG range types + exclusion constraints 防止 時間範圍重疊：

 1CREATE TABLE reservations (
 2    id SERIAL PRIMARY KEY,
 3    room_id INT,
 4    during TSRANGE,
 5    EXCLUDE USING GIST (room_id WITH =, during WITH &&)
 6);
 7
 8-- INSERT 重疊 booking 自動 reject
 9INSERT INTO reservations (room_id, during)
10VALUES (1, '[2026-05-19 10:00, 2026-05-19 12:00)');
11INSERT INTO reservations (room_id, during)
12VALUES (1, '[2026-05-19 11:00, 2026-05-19 13:00)');
13-- ERROR: conflicting key value violates exclusion constraint

MySQL 對應：完全沒對應、必須 application 層 enforce。

6. CHECK Constraint + Domain Type

PG CHECK constraint 真執行（MySQL 8.0 才補）+ user-defined DOMAIN：

1CREATE DOMAIN positive_int AS INT CHECK (VALUE > 0);
2CREATE TABLE orders (
3    id SERIAL PRIMARY KEY,
4    quantity positive_int NOT NULL,
5    amount DECIMAL CHECK (amount >= 0)
6);

MySQL 對應：8.0+ 有 CHECK constraint enforcement（5.7 可寫但不執行）。沒 user-defined DOMAIN。

7. Extension Ecosystem

PG extension 是 結構優勢：

pg_partman：自動 partition lifecycle
pg_repack：online table rewrite
pg_stat_statements：query stats
pgvector：vector similarity search
pg_cron：scheduled job
PostGIS：GIS
TimescaleDB：time-series
Citus：sharding

MySQL 對應：MySQL plugin 機制有、生態遠遠不如。詳見 PG Extension Ecosystem 篇（待寫）。

MySQL 8.0 補齊的 PG 既有特性

特性	PG 推出	MySQL 推出	差異後說明
CTE	8.4 (2009)	8.0 (2018)	MySQL 補語法、行為 PG 12+ 跟 MySQL 接近
Window function	8.4 (2009)	8.0 (2018)	兩家都標準、frame spec 細節有差
Lateral derived table	9.3 (2013)	8.0.14 (2019)	MySQL 後加、planner 不如 PG 成熟
Hash join	早就有	8.0.18 (2019)	MySQL 受限（equality on indexed column）
JSON_TABLE	17 (2024)	8.0 (2018)	MySQL 較早、PG 17+ 補進、PG 自己有 JSONB 路線
CHECK constraint	早就有	8.0 (2018)	MySQL 5.7 可寫但不執行
Role-based auth	早就有	8.0 (2018)	-
Atomic DDL	早就有	8.0 (2018)	-
Common keyword	完整	8.0 補	MySQL 5.7 缺很多 (window/rank/lateral 等)

MySQL 8.0 是 補齊 9 年 SQL standard 落後、不是 新領先 PG。

PG 仍領先的特性

對應「MySQL 8.0 補了 → PG 仍沒輸」的視角。以下 14 條中、production 影響最大 的是 Materialized view / Partial index / JSONB GIN / Full-text search 跟 Range / Exclusion constraints（schema-level expressiveness）；次要但常用 的是 Multi-column statistics 跟 Procedural language；非典型但 niche 重要 的是 User-defined DOMAIN / Generic table inheritance（讀者不必然知道、但 ORM 跟 schema migration 工具會用）：

PG 領先特性	MySQL 對應狀態	補充
Materialized view	無原生	application-side 重算成本高
Partial index	無（functional index 不等同）	對 boolean / status column 救 storage
FDW	弱（FEDERATED engine 不推薦）	跨 DB query escape hatch
JSONB GIN index	無（generated column workaround）	JSON workload 結構性差
Range types	無	booking / availability schema 救命
Exclusion constraints	無	range overlap 防護
User-defined DOMAIN	無	column-level type constraint
Extension ecosystem	弱	pgvector / TimescaleDB / PostGIS
Full-text search 成熟	InnoDB FTS 較弱	tsvector + GIN + pg_trgm 三層
Multi-column statistics	8.0 histograms 部分對應、PG 更廣	planner 更準
Procedural language	PL/pgSQL + 多語言（PL/Python / PL/Perl 等）	Stored procedure（不擴語言）
Recursive CTE 深度	Unlimited	1000（cte_max_recursion_depth）
LSN-based replication	簡潔	binlog file+position（GTID 緩解）
Generic table inheritance	早就有	無（multi-tenant schema 結構用）

對「從 MySQL 評估 PG」的讀者

讀者通常從 MySQL 8.0 過來、問題是 「PG 比 MySQL 強在哪、弱在哪」：

PG 比 MySQL 強

SQL 工程深度：上面列的 7 個結構優勢
Extension ecosystem：pgvector / TimescaleDB / Citus / pg_partman 等
Optimizer：planner 對複雜 query 更成熟
Concurrency model：MVCC + 少 lock（MVCC + Lock Model）

PG 比 MySQL 弱

Replication 機制簡潔度：MySQL GTID 比 PG WAL + replication slot 配置簡單（Replication Topology）
Sharding ecosystem：Vitess / PlanetScale 比 Citus 規模驗證高
Operational tooling 廣度：pt-toolkit / gh-ost / Orchestrator 等
VACUUM 維護：PG MVCC 必須 VACUUM、autovacuum 配錯議題多（Autovacuum Tuning）

選 PG 的核心 driver

對 SQL 工程深度、extension、複雜 query / OLAP-style workload 的場景、PG 仍是首選。對純簡單 OLTP + 大規模 sharding、MySQL + Vitess 仍 competitive。

跟其他模組整合

MVCC + Lock Model：PG MVCC 是 SQL feature 的並行控制基礎
Query Optimization：PG planner 對 window / CTE / hash join 成熟
Citus Distributed：extension 之一、體現 extension 生態
Autovacuum Tuning：MVCC 代價、跟 SQL feature 並行控制相關

PostgreSQL BDR / Multi-Master：active-active 寫入的 3 種路徑跟 conflict 治理

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 multi-master / active-active replication — 不是 PG 預設、需要 extension。

PG 預設沒 multi-master、得用 extension

PG core 是 single-primary streaming replication：

寫入只能進 primary
Standby 接受 read（hot_standby）但拒絕 write
Failover 後新 primary 接管、不能多入口

對需要 active-active（多 region 各自接受 local write）的場景、PG 提供 3 條 extension 路徑：

方案	來源	機制	License
BDR	EDB（Enterprise）	Logical replication-based、雙向	商業（EDB 訂閱）
pgEdge	pgEdge Inc.	基於 BDR、開源、加 Spock extension	開源（Spock）
Bucardo	community	Trigger-based、async、Perl 寫	開源（BSD）

每條路徑有不同 trade-off。對 99% PG production case、不需要 multi-master — single-primary streaming replication + read replica scaling 已夠。Multi-master 是 特殊需求（跨 region active-active write / 不可中斷 maintenance）才上。

跟 MySQL Group Replication 對比：MySQL GR 是 官方內建（5.7+）、PG 沒對應內建選項。MySQL 用戶 GR / InnoDB Cluster 直接套、PG 用戶要選 extension + license trade-off。

Multi-master 三方案對比

方案 1：BDR (EDB Postgres Distributed)

EDB 商業 distributed 方案、跑在 EDB Postgres Advanced Server 或 PG community 上。

特性：

雙向 logical replication、N-way active-active
Built-in conflict detection + resolution（LWW / column-level / user-defined）
Eager（sync）跟 async 兩種 mode
Tightly integrated with EDB tooling

Trade-off：

商業 license、EDB 訂閱
對 cross-region multi-master 成熟（北美 enterprise 廣用）
對 新 PG version 通常滯後幾個月

方案 2：pgEdge（基於 Spock extension）

pgEdge 開源 multi-master、基於 Spock extension（從 BDR 衍生）：

特性：

開源、可自管
跟 BDR 架構接近、無 license fee
Conflict resolution 用 LWW + column-level
對 edge / 地理分散 場景設計

Trade-off：

較新（2023+）、社群驗證度低於 BDR
Conflict resolution policy 比 BDR 簡單
部分 EDB 商業 feature 沒對應

方案 3：Bucardo

PG community async multi-master、Perl 寫、trigger-based：

特性：

完全開源
Trigger-based（不依賴 logical replication）
支援 multi-source replication（fan-in / fan-out）

Trade-off：

Async only — higher latency conflict
Trigger overhead（影響 primary 寫吞吐）
維護 Perl + tools chain 不普及
對 Sync 一致性 需求不適用

Multi-Master Conflict Model

任何 multi-master 方案都要解決 同一 row 兩地同時改 的 conflict：

Conflict 來源

1Region A (primary 1)          Region B (primary 2)
2UPDATE orders                 UPDATE orders
3SET status='shipped'          SET status='cancelled'
4WHERE id=100                  WHERE id=100
5     ↓                              ↓
6   合併？哪個贏？

跨 region 兩地各自 commit、replication lag 期間發現 conflict、必須 自動 resolve（不能丟給 application）。

Conflict Resolution Strategies

1. Last-Write-Wins (LWW) — 最常見：

比較 transaction commit timestamp、晚的贏
簡單但 data loss（前一個 commit 的變更被覆蓋）
需要 clock 同步（NTP）— clock skew 造成不可預測

2. Column-level conflict resolution：

不同 column 各自 LWW（status column 跟 amount column 獨立解）
比 row-level LWW 細、但需 application semantics 配合

3. User-defined trigger：

寫 PG function 解 conflict
對 特殊 business logic（如：金額相加、不是覆蓋）有用
維護成本高

4. Manual reconciliation：

Conflict 寫進 log table、application / DBA 手動處理
對 無法自動 resolve 場景（如金融）
高 ops cost

對 99% case 用 LWW、接受 small data loss、application 設計 idempotent / commutative 操作避免衝突。

Conflict 機率取決於 application pattern

Tenant-isolated application（user_id 各自寫自己的 row）：基本無 conflict
Shared counter / inventory application：高 conflict、multi-master 不適合
Append-only event log：conflict 低、適合 multi-master

配置 step-by-step（pgEdge 為主）

pgEdge 開源、最常見的 self-hosted 選擇。

Step 1：在每個 region node 裝 pgEdge

1# Install pgEdge CLI
2curl -fsSL https://pgedge-upstream.s3.amazonaws.com/REPO/install.py | python3
3
4# Setup PG + Spock + pgEdge
5./pgedge install pg16
6./pgedge install spock

Step 2：配置每個 node

1-- 在 node1（us-east） 跑
2SELECT spock.node_create(node_name := 'node1', dsn := 'host=node1.example.com port=5432 dbname=production');
3
4-- 在 node2（eu-west）跑
5SELECT spock.node_create(node_name := 'node2', dsn := 'host=node2.example.com port=5432 dbname=production');

 1-- 在 node1 建 default replication set + 加 tables
 2SELECT spock.repset_add_all_tables('default');
 3
 4-- 在 node1 subscribe node2
 5SELECT spock.sub_create(
 6    subscription_name := 'sub_n1_n2',
 7    provider_dsn := 'host=node2.example.com port=5432 dbname=production'
 8);
 9
10-- 在 node2 subscribe node1（雙向）
11SELECT spock.sub_create(
12    subscription_name := 'sub_n2_n1',
13    provider_dsn := 'host=node1.example.com port=5432 dbname=production'
14);

Step 4：設 conflict resolution

1-- 設 LWW（預設）
2SELECT spock.conflict_resolution_setting_set(
3    conflict_type := 'update_origin_change',
4    resolution_setting := 'apply_remote'
5);

Step 5：驗證

1-- 看 subscription 狀態
2SELECT * FROM spock.subscription;
3
4-- 看 replication lag
5SELECT * FROM pg_stat_replication;

5 個 Production 踩雷

1. LWW data loss — Application 沒設計 commutative

LWW 預設、兩 region 同時 UPDATE 同 row → 晚的 commit 贏、早的丟失。Application 看不到「我寫的不見了」、debug 困難。

修法：

Application schema 設計 tenant-isolated（user_id 各自寫自己 row）
對 shared counter / inventory 用 commutative operation（INCREMENT not SET）
重要寫入加 audit log — conflict 仍寫到 audit、application 看 audit 知道發生過
真的需要 strict consistency 別用 multi-master、用 single-primary + reader 或 distributed SQL

2. Sequence collision — Two region 各自 next 同號

SERIAL / IDENTITY 用 sequence、兩 region 各自 nextval 可能拿到同 number、INSERT 衝突（PK duplicate）。

修法：

用 staggered sequence range：node1 用 1-1M、node2 用 1M+1 到 2M（用 setval）
或用 UUID（v4 / v7）作 PK、跨 node 無 collision
或 sequence per-node namespace：CREATE SEQUENCE orders_id_node1 START 1 INCREMENT 2（odd vs even）

3. DDL replication 不自動

PG logical replication（pgEdge / BDR 基礎）不自動 replicate DDL。每 node CREATE TABLE / ALTER TABLE 必須 分別跑。

修法：

用 deployment automation（Ansible / Terraform）對所有 node 同時跑 DDL
pgEdge 提供 spock.replicate_ddl(...) 把 DDL 轉成可 replicate event
BDR Enterprise 有 DDL replication（商業 feature）
DDL 變更前確認 所有 node 都健康、減少 partial state

4. Conflict log 治理 — Log table 爆滿

每個 conflict 寫進 spock.conflict_log / bdr.conflict_history 等 table、log 累積 disk 爆。

修法：

設 log retention：cron 定期 archive + delete 老 conflict log
監控 conflict rate — 高 conflict rate 是 application 設計問題（不是 ops 問題）
對 strict business conflict 寫進 application-level audit table、不只 system log

5. Failover 後 timeline 分歧

Multi-master 設計上 每 region 是 primary、Region A 掛了 Region B 接管 — 但 Region A 復活後 仍認為自己是 primary。如果 Region A 復活前已有寫入沒 replicate 出去、resolution 跟 LWW 衝突。

修法：

Fence Region A 復活：物理 fence（network firewall）+ 手動 unfence 流程
用 etcd / Consul 跟 BDR / Spock 整合 leader election（避免 split-brain）
對 cross-region multi-master、必須有 runbook 處理 region 復活流程、不靠自動

何時用 multi-master vs 不用

情境	建議
真正 cross-region active-active write 需求	BDR / pgEdge
不可中斷 maintenance（zero downtime upgrade）	BDR / pgEdge
高 conflict rate（shared counter / inventory）	不要 multi-master、用 distributed SQL
Read scaling 為主、可接受 stale read	streaming replication + read replica（更簡單）
Strict consistency 需求	single-primary + sync replication 或 Aurora DSQL / Spanner
預算敏感 + 不想養 BDR / pgEdge ops	不要 multi-master、用 managed distributed SQL

跟 MySQL Group Replication 對比

維度	PG Multi-Master	MySQL Group Replication
內建？	否、需 extension	是、5.7+ 內建
商業 vs 開源	BDR 商業 / pgEdge 開源	Oracle 商業 / community 都行
Sync mode	可（BDR eager）	是（certification-based）
Conflict resolution	LWW / column / user-defined	Certification-based（distributed transaction）
Production maturity	BDR 高、pgEdge 中	高（Oracle 推）
Use case 比例	少（PG 多用 single-primary）	較多（MySQL 推 InnoDB Cluster）

MySQL GR 內建 + Oracle 推、PG 沒對應內建。對 multi-master 需求重的 org、MySQL 走 GR 路徑更直接。

跟其他模組整合

跟 Replication Topology

Multi-master 是 streaming replication 之上的 logical replication 加雙向、不取代 streaming。Streaming 仍給 standby / failover、multi-master 給 active-active write。詳見 Replication Topology。

跟 Logical Replication

pgEdge / BDR 都基於 logical replication slot、跟 Logical Replication + Debezium 共用 PG logical decoding infrastructure、但 配置 + tooling 不同。

跟 MVCC

Multi-master 的 conflict 在 commit 後 偵測（async）、不在 transaction 內。跟單機 MVCC（同 cluster 內 transaction snapshot）不同層。詳見 MVCC + Lock Model。

PostgreSQL Query Optimization：EXPLAIN ANALYZE / pg_hint_plan / auto_explain 三層工具跟 4 個 case

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 query optimization — EXPLAIN ANALYZE / auto_explain / pg_hint_plan 三層工具跟 4 個實際 case。

4 個常見 production case

PG query 慢的 root cause 多數是 planner 選錯 plan。從以下 4 個 case 進入 query optimization：

Case 1：5 秒 → 50ms — Seq scan vs index

1-- 慢 (5 秒)
2SELECT o.id, o.amount, c.name
3FROM orders o JOIN customers c ON o.customer_id = c.id
4WHERE c.region = 'TW' AND o.created_at > '2026-05-01';

EXPLAIN (ANALYZE, BUFFERS)：

1Hash Join  (cost=20000..50000 rows=100 width=...) (actual time=4900..5000 rows=10000)
2  ->  Seq Scan on customers c  (cost=0..20000 rows=1000000 width=...)
3      Filter: (region = 'TW')
4      Rows Removed by Filter: 900000
5  ->  Hash  (cost=...)
6      ->  Index Scan on orders_created_idx

問題：customers.region 沒 index、planner 選 seq scan、實際 region=TW 只 10% row。修法：

1CREATE INDEX CONCURRENTLY idx_customers_region ON customers(region);
2ANALYZE customers;  -- 更新 statistics、讓 planner 看到新 index

加完 5 秒降 50ms。

Case 2：30 秒 → 200ms — Hash join 沒觸發、用 nested loop

1SELECT u.name, count(o.id)
2FROM users u LEFT JOIN orders o ON o.user_id = u.id
3GROUP BY u.name;

EXPLAIN ANALYZE 顯示 Nested Loop 跑 1M 次 inner loop、執行 30 秒。Planner 估錯 row count、選 nested loop。Hash join 應該 < 200ms。

修法：

1ANALYZE users;
2ANALYZE orders;
3-- 提高 default_statistics_target 對 critical column
4ALTER TABLE orders ALTER COLUMN user_id SET STATISTICS 1000;
5ANALYZE orders;

統計精度提升、planner 估 row count 準、自動切 hash join。

Case 3：8 秒 → 100ms — Multi-column 統計缺

1SELECT * FROM orders WHERE status = 'pending' AND region = 'TW';

status = 'pending' 5% row、region = 'TW' 10% row。Planner 假設兩 column 獨立、估 0.5% (5K row)。實際 status=‘pending’ 跟 region=‘TW’ 強相關（TW 訂單多 pending）、實際 4% (40K row)。Planner 估錯 8x、選錯 plan。

修法（PG 10+）：

1CREATE STATISTICS stats_orders_status_region (dependencies, ndistinct, mcv)
2ON status, region FROM orders;
3ANALYZE orders;
4-- 之後 planner 知道 status+region 相關度、估準

Case 4：20 秒 → 5 秒 — Parallel query 沒觸發

1SELECT region, count(*), sum(amount) FROM orders GROUP BY region;

orders 100M row、預期 PG parallel scan + parallel aggregate、實際 single worker 跑 20 秒。

EXPLAIN：Workers Planned: 0。

修法：

1# postgresql.conf
2max_parallel_workers_per_gather = 4
3max_parallel_workers = 8
4max_worker_processes = 16
5parallel_setup_cost = 100        # 預設 1000、降低讓 planner 更敢 parallel
6parallel_tuple_cost = 0.01       # 預設 0.1

並行後 5 秒。

EXPLAIN 三層工具

Tool 1：EXPLAIN — Plan preview

1EXPLAIN SELECT ...;

輸出每個 node 的估計 cost / row count / width。用於 quick plan check。

關鍵欄位：

Plan node 類型：Seq Scan < Index Scan < Index Only Scan、警訊看 unexpected node type
cost=START..END：planner 估的 cost、START 是 startup cost、END 是 total
rows：估計 output row 數
width：每 row average byte（影響 sort / hash memory）

Tool 2：EXPLAIN ANALYZE — 實際執行 + 對比 estimate

1EXPLAIN (ANALYZE, BUFFERS, VERBOSE) SELECT ...;

差別：實際 跑 query、輸出實際 row count / time、跟 estimate 對比：

1Hash Join  (cost=20000..50000 rows=100) (actual time=400..500 rows=10000 loops=1)

rows=100 (estimate) vs rows=10000 (actual) — 估錯 100x、planner 可能選錯 plan。BUFFERS 顯示 disk read vs buffer cache hit。

注意：EXPLAIN ANALYZE 實際跑 query、修改性 query（UPDATE / DELETE）會真的改 data。讀 query 安全。修改性 query 包 transaction：

1BEGIN;
2EXPLAIN ANALYZE UPDATE orders SET status = 'x' WHERE ...;
3ROLLBACK;

Tool 3：auto_explain — Production query 自動 capture

auto_explain extension 自動 log slow query 的 plan：

1# postgresql.conf
2shared_preload_libraries = 'auto_explain'
3auto_explain.log_min_duration = '1s'    # 超過 1 秒 log plan
4auto_explain.log_analyze = on            # 含 ANALYZE 統計
5auto_explain.log_buffers = on
6auto_explain.log_format = 'json'         # JSON 格式給工具消費

Production slow query 自動進 log、不必手動 EXPLAIN。組合 pg_stat_statements + auto_explain 是 PG 標準 query observability。

pg_hint_plan vs Planner GUC

PG 兩種方式 nudge planner：

Planner GUC（global）

postgresql.conf 內：

enable_seqscan = off — 禁用 seq scan（force index）
enable_nestloop = off — 禁用 nested loop（force hash/merge join）
random_page_cost = 1.1 — SSD 設低（預設 4 是 HDD assumption）
effective_cache_size = '16GB' — buffer pool + OS cache 估、影響 planner

GUC 是 global — 影響所有 query。對 單一 query 用 hint：

pg_hint_plan extension（per-query hint）

1-- 強制特定 plan
2/*+ IndexScan(orders idx_orders_status) NestLoop(orders customers) */
3SELECT ... FROM orders JOIN customers ON ...;

Hint 形態：

IndexScan(t1 idx_name) — 強制 index scan
SeqScan(t1) — 強制 seq scan
HashJoin(t1 t2) / NestLoop(t1 t2) / MergeJoin(t1 t2)
Leading(t1 t2 t3) — 強制 join order
Rows(t1 t2 #100) — 強制 row 估計

5 個 Production 踩雷

1. Statistics 過時 — Planner 估錯 row count

ANALYZE 是 autovacuum 一部分、預設 autovacuum_analyze_scale_factor=0.1（10% row 變動才 analyze）。對 快速 grow 的表（log / event）、ANALYZE 跟不上、planner 用過時 statistics。

修法：

對 critical table 設 較 aggressive autovacuum_analyze_scale_factor：

1ALTER TABLE events SET (autovacuum_analyze_scale_factor = 0.02);

對 大批量寫入後、手動 ANALYZE events;
監控 pg_stat_user_tables.last_analyze — 跟 row count 比、判定是否需手動 trigger

2. Multi-column statistics — Planner 假設 column 獨立

如 Case 3、單 column statistics 對 相關 column 估錯。

修法：

對 常一起 query 的 column 組合、建 CREATE STATISTICS（PG 10+）
3 種 type：dependencies（functional dependency）、ndistinct（multi-column distinct count）、mcv（most common value combinations）
設完 必須跑 ANALYZE 才生效

3. Cost-base setting 不對齊硬體 — Planner 偏 seq scan

預設 random_page_cost = 4、seq_page_cost = 1 是 HDD assumption（random IO 比 sequential 慢 4x）。SSD / NVMe random / seq IO 差別小、planner 不該 4x penalty random。

修法：

1-- SSD
2ALTER SYSTEM SET random_page_cost = 1.1;
3
4-- NVMe
5ALTER SYSTEM SET random_page_cost = 1.0;
6
7SELECT pg_reload_conf();

random_page_cost 改了 planner 對 index scan 的 cost 估計更準、自動選 index 更積極。

4. `effective_cache_size` 不對齊實際 RAM

effective_cache_size 預設 4 GB、planner 假設 buffer pool + OS cache 共 4 GB。實際 server 64 GB RAM、shared_buffers = 16GB、OS page cache ~30 GB、實際可用 cache 46 GB。

修法：

1ALTER SYSTEM SET effective_cache_size = '46GB';  -- shared_buffers + OS cache 估

提升後 planner 估 query 多數 page 在 cache、降低 估計 random IO cost、選 index 更積極。

5. Parallel query 不觸發

預設 max_parallel_workers_per_gather = 2、有些 workload 不夠。或 table size 太小、min_parallel_table_scan_size = 8MB 預設、小表不 parallel。

修法：

1ALTER SYSTEM SET max_parallel_workers_per_gather = 4;
2ALTER SYSTEM SET parallel_setup_cost = 100;
3ALTER SYSTEM SET parallel_tuple_cost = 0.01;
4ALTER SYSTEM SET min_parallel_table_scan_size = '0';  -- 任何 size 都 parallel

監控 EXPLAIN 的 Workers Planned 數量、看是否真 parallel。

觀測 metric

Production 持續 monitor：

pg_stat_statements：每個 query digest 累計 calls / time / rows / IO
auto_explain log：slow query 的實際 plan + ANALYZE 統計
pg_stat_user_tables.last_analyze / last_autoanalyze：statistics 新鮮度
pg_stat_user_indexes.idx_scan：每個 index 使用次數 — 0 表示沒用、可考慮 drop

把這些丟進 Datadog / Prometheus（用 postgres_exporter / pg_exporter）做 trend analysis。

跟 MySQL Query Optimization 對照

維度	PG	MySQL
Query plan preview	`EXPLAIN`	`EXPLAIN`
實際執行統計	`EXPLAIN ANALYZE`	`EXPLAIN ANALYZE` (8.0+)
Auto-capture	`auto_explain` extension	`slow_query_log` + `pt-query-digest`
Optimizer trace	log_planner_stats / log_executor_stats	`optimizer_trace` (JSON)
Per-query hint	`pg_hint_plan` extension	optimizer hint comment (`/+ /`)
Multi-column statistics	`CREATE STATISTICS`	無原生（依賴 index 統計）
Parallel query	Full (scan / agg / join, PG 9.6+)	受限 (8.0 hash join)
Cost-base setting	random_page_cost / effective_cache_size	隱性、optimizer 預設

PG planner 整體成熟、複雜 OLAP-style query 處理較好。MySQL 8.0 補了不少（histograms / hash join）但複雜 query 仍弱於 PG。詳見 MySQL Query Optimization。

跟其他模組整合

跟 Autovacuum Tuning

ANALYZE 是 autovacuum 一部分、autovacuum 跟不上 → statistics 過時 → planner 估錯。詳見 Autovacuum Tuning。

跟 Replication Topology

Standby 上跑 query 用同 statistics（streaming replication copy 整個 system catalog）、planner 行為一致。但 standby 有 hot_standby_feedback 影響 primary autovacuum / ANALYZE 行為。詳見 Replication Topology。

跟 Partitioning

Partition pruning 跟 query plan 緊密 — EXPLAIN 看是否 prune 對的 partition。詳見 Declarative Partitioning。

何時用 pg_hint_plan vs GUC

情境	選擇
全 cluster 行為（如 SSD random_page_cost）	GUC
單一 critical query 強制特定 plan	pg_hint_plan
暫時 disable 某類 plan 給 debug	`SET enable_xxx=off` per-session
Production stable use	GUC + multi-column statistics 為主、hint 為 last resort

PostgreSQL MVCC + Lock Model：為什麼 PG 比 MySQL 少 deadlock、但 vacuum 是別的代價

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 MVCC + lock model — PG 並行控制機制跟跟 MySQL lock-based 不同。

PG MVCC：每次更新都新增 tuple、不改舊版

PG 的並行控制核心是 Multi-Version Concurrency Control — UPDATE 不修改原 row、是新增一個 tuple version、舊 version 留在 table 直到 VACUUM 清理：

1原 row:    (id=1, status='pending', xmin=100, xmax=NULL)
2                 ↓ UPDATE status='shipped'
3新 tuple:  (id=1, status='shipped', xmin=200, xmax=NULL)
4舊 tuple 標 xmax=200（不刪、給其他 transaction 看舊 version）

xmin / xmax 是 creator transaction id / destroyer transaction id。每個 SELECT 用 snapshot（含當下 active transaction list）判斷哪些 tuple 對自己可見：

自己 transaction id > tuple.xmin 且 (tuple.xmax = NULL 或自己 transaction id < tuple.xmax) → 可見
否則 → 看不到（過去 / 未來版本）

結果：

Readers 不 lock writers：SELECT 看 snapshot、不 block UPDATE
Writers 不 lock readers：UPDATE 寫新 tuple、不影響正在跑的 SELECT snapshot
Writers 只 lock 同一 row 的 writers：兩個 UPDATE 同 row 才 conflict

跟 MySQL InnoDB lock-based（Lock Contention）對比：

MySQL：SELECT FOR UPDATE 用 gap lock 防 phantom、deadlock 機率高
PG：MVCC + snapshot 自然防 phantom（read 看 snapshot）、deadlock 少

但 PG 代價是 VACUUM 治理 — dead tuple 不清理會佔 disk + 影響 query 效率。詳見 Autovacuum Tuning。

PG 4 種 lock

PG 仍有 lock、但場景跟 MySQL 不同：

1. Row-level lock — 主要由 UPDATE / DELETE / SELECT FOR UPDATE 取

1BEGIN;
2SELECT * FROM orders WHERE id = 100 FOR UPDATE;
3-- 對 id=100 row 加 ROW EXCLUSIVE lock
4-- 其他 transaction 試 UPDATE / DELETE id=100 必須等

Row-level lock 不 block reader（SELECT 看 snapshot、不檢查 lock）。

2. Table-level lock — DDL 跟少數 SELECT FOR 場景

PG 有 8 種 table lock mode、嚴重程度遞增：

Mode	行為	衝突
ACCESS SHARE	SELECT 跑	跟 ACCESS EXCLUSIVE 衝突
ROW SHARE	SELECT FOR UPDATE / FOR SHARE	跟 EXCLUSIVE 衝突
ROW EXCLUSIVE	UPDATE / DELETE / INSERT	跟 SHARE 衝突
SHARE UPDATE EXCLUSIVE	VACUUM / ANALYZE / CREATE INDEX CONCURRENTLY	跟同 mode + 高 mode 衝突
SHARE	CREATE INDEX（non-concurrent）	跟 ROW EXCLUSIVE 衝突
SHARE ROW EXCLUSIVE	CREATE TRIGGER / 某些 ALTER	跟 ROW EXCLUSIVE 衝突
EXCLUSIVE	REFRESH MATERIALIZED VIEW	跟所有 + 自身衝突
ACCESS EXCLUSIVE	DROP / ALTER TABLE / VACUUM FULL	跟所有衝突

DDL（ALTER / DROP）拿 ACCESS EXCLUSIVE、跟所有衝突。Production 跑 ALTER 必須短時間或走 Online Schema Change。

3. Advisory lock — Application 自己控

PG 提供 advisory lock 給 application 用、不關 row / table 結構：

1-- Session 1
2SELECT pg_advisory_lock(12345);
3-- 跑 critical section
4SELECT pg_advisory_unlock(12345);
5
6-- Session 2
7SELECT pg_try_advisory_lock(12345);  -- 試取、不阻塞、返回 false

用途：

Application-level 互斥（如：cron job 同時只跑一個）
跨 connection 同步（PG-managed mutex）
Distributed transaction coordinator（lightweight）

跟 row lock 不同：advisory lock 不關 row、application 自定義 lock ID 語義。

4. Predicate lock — SERIALIZABLE isolation 才用

PG SERIALIZABLE 用 Serializable Snapshot Isolation (SSI)、追蹤 predicate（query 條件）而不是 row：

1SET TRANSACTION ISOLATION LEVEL SERIALIZABLE;
2BEGIN;
3-- Predicate lock 紀錄這個 query 看了哪些 predicate
4SELECT * FROM orders WHERE status = 'pending';
5-- 其他 transaction INSERT pending order
6-- 提交時：PG 偵測 anomaly、rollback 之一
7COMMIT;

跟 MySQL gap lock 不同：

MySQL gap lock：pre-lock、防 phantom 在 query 期間
PG predicate lock：post-detect、commit 時偵測 anomaly、退回 transaction

PG SSI 對 寫入吞吐影響低（不 pre-lock）、但 transaction rollback 機率高（要 application retry）。

PG 預設 isolation：READ COMMITTED

PG 預設 READ COMMITTED、跟 MySQL InnoDB 預設 REPEATABLE READ 不同：

Isolation	PG 行為	MySQL InnoDB 對應
READ UNCOMMITTED	PG 視為 READ COMMITTED（不真的支援 dirty read）	MySQL 真支援
READ COMMITTED	每 statement 看當下 committed snapshot（PG 預設）	一致
REPEATABLE READ	Transaction 內 fixed snapshot（純 MVCC）	MVCC snapshot + gap lock 防 phantom（兩者都 MVCC、差在 phantom 防護機制：PG 靠 snapshot version visibility、InnoDB 加 gap lock pre-lock 範圍）
SERIALIZABLE	SSI、commit 時偵測 anomaly	強 lock + gap

對 application code 含意：

PG REPEATABLE READ 對 寫入吞吐 影響低（不 pre-lock、只 retry）
沒 gap lock → INSERT 不被 lock-induced 阻塞
Deadlock 機率比 MySQL 低數量級

實務 PG production：用預設 READ COMMITTED 即可、SERIALIZABLE 留給 strict consistency 需求（金融 / 訂單）但接受 retry。

5 個 Production 踩雷

1. Idle transaction 卡 vacuum — Bloat 暴增

PG MVCC 仰賴 VACUUM 清理 dead tuple。VACUUM 只清理 沒 active transaction 看得到的 dead tuple。如果有 idle in transaction session 持續開著（application connection pool 連線忘關 transaction）、VACUUM 看不到 該 transaction snapshot 之後的 dead tuple、累積 bloat。

修法：

監控 pg_stat_activity 看 state = 'idle in transaction' 持續時間
設 idle_in_transaction_session_timeout = '5min' — 超時 PG 自動 kill 該 session
Application connection pool 配置 不留 transaction 開著（如：pgBouncer transaction pool 自動 commit / rollback）

2. SELECT FOR UPDATE 跨 transaction — Application retry 麻煩

跟 MySQL 不同：PG SELECT FOR UPDATE 不會 block 其他 SELECT（讀仍可繼續）、但 block 其他 UPDATE / FOR UPDATE。若 application 在 transaction 內 SELECT FOR UPDATE、其他 transaction 等。

如果 application 設計 跨 transaction 持 lock（如：取 lock + return UI + 等用戶操作 + commit）、容易撞 idle in transaction 跟其他 transaction wait。

修法：

Transaction 短：取 FOR UPDATE → 立刻處理 → commit、不跨 user interaction
跨 user interaction 用 advisory lock 或 application-level state machine、不依賴 row lock

3. Advisory lock 沒釋放 — Session 結束才自動釋放

pg_advisory_lock() 拿了、沒 pg_advisory_unlock()、lock 直到 session 結束 才自動釋放。Connection pool 重複使用同 connection、可能繼承前面留的 lock。

修法：

用 pg_advisory_lock 必 try/finally pg_advisory_unlock
或用 session-level 用 transaction-scoped：pg_advisory_xact_lock() — commit / rollback 自動釋放
監控 pg_locks 看 advisory lock count、長期累積是警訊

4. Bloat 不只是 vacuum 沒跑、是 active transaction 阻擋 vacuum

第 #1 點延伸：vacuum 已跑、但 bloat 仍持續成長、原因不是 vacuum 不夠、是 active transaction 阻擋 vacuum 看 dead tuple。

修法：

不只看 last_vacuum、看 VACUUM 跑了但沒收回多少
SELECT * FROM pg_stat_progress_vacuum 看 VACUUM 進度
SELECT * FROM pg_stat_activity WHERE backend_xmin IS NOT NULL ORDER BY backend_xmin — 看誰阻擋 vacuum
詳見 Autovacuum Tuning

5. SERIALIZABLE 下 transaction rollback — Application 必須 retry

SET TRANSACTION ISOLATION LEVEL SERIALIZABLE 後、PG SSI 偵測到 anomaly 會 rollback transaction、application 看到 serialization failure、必須 retry。

對 不知道要 retry 的 application、SERIALIZABLE 變 production bug。

修法：

Application code 加 retry middleware：catch SQLSTATE 40001 (serialization_failure) → exponential backoff retry
不必所有 transaction 走 SERIALIZABLE — 只對 strict consistency 需求 場景 set
高並發 SERIALIZABLE workload 容易 rollback storm、考慮拆 transaction 縮短時間

觀測 metric

Production 監控：

pg_stat_activity：active session / idle in transaction / wait_event
pg_locks：當前 lock 列表、用 join 看誰 block 誰
pg_stat_database.deadlocks：deadlock 計數（PG 較低、但仍要監控）
pg_stat_user_tables.n_dead_tup / n_live_tup：dead tuple 比例 — bloat 指標
pg_stat_progress_vacuum：VACUUM 進度

跟 MySQL Lock Model 對比

維度	PG MVCC	MySQL InnoDB Lock
主要機制	MVCC + snapshot	Lock-based + MVCC mixed
Readers vs Writers	不互 block	預設 RR 下 gap lock 影響
Deadlock 機率	低（無 gap lock）	中-高（gap lock 主要來源）
Phantom 防護	Snapshot 自然防 + SSI predicate lock	Gap lock 預先 lock
預設 isolation	READ COMMITTED	REPEATABLE READ
成本	Dead tuple + VACUUM 治理	Lock contention 治理
Application code	SERIALIZABLE 需 retry	寫得不錯多數時 OK

兩者解決同一問題（並行控制）、用不同策略。PG 用 空間換時間（保留多版本 tuple、讀寫不互鎖、但需 VACUUM 清理）、MySQL 用 時間換空間（lock 等待、但不必清舊版本）。

選擇判讀：

High 並發 OLTP、寫 / 讀都重：PG MVCC 通常更好（讀不 block 寫）
簡單 OLTP + 不想管 VACUUM：MySQL InnoDB 對 ops 簡單
需要 SERIALIZABLE 強一致：PG SSI 對寫吞吐影響低
已有 MySQL 生態 / 工具鏈：MySQL Lock 知識可繼續用

詳見 MySQL Lock Contention — 完整 MySQL lock 機制。

跟其他模組整合

跟 Autovacuum Tuning

MVCC 仰賴 VACUUM、autovacuum 是 PG 並行控制的 維護成本。VACUUM 跑慢 / 沒跑 → bloat → query 慢。詳見 Autovacuum Tuning。

跟 Replication Topology

hot_standby_feedback = on 讓 standby 上 long-running query 不被 vacuum 取消、但 standby 把 oldest xmin 推回 primary、primary autovacuum 變保守、增加 bloat。詳見 Replication Topology。

跟 Connection Pool

pgBouncer transaction pooling 模式下、advisory lock / SELECT FOR UPDATE 跨 transaction 行為 broken（不同 transaction 可能進不同 backend connection）。詳見 pgBouncer Config。

跟 Query Optimization

長 transaction 跑慢 query 期間、其他 transaction 看到 snapshot bloat、planner 估錯 dead tuple ratio。詳見 Query Optimization。

PostgreSQL JSONB Deep Dive：Binary Storage + GIN Index 為什麼是結構性優勢

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 JSONB deep dive — binary storage + GIN index 的結構性優勢。

JSON vs JSONB：選 JSONB

PG 9.2 加 JSON type、9.4 加 JSONB。99% 場景用 JSONB：

維度	JSON	JSONB
儲存	純文字（原樣保存）	Binary decomposed format
Parse cost	每次 query parse	Insert 時 parse 一次
Index 支援	Limited（functional index）	GIN / functional / partial 都行
Operator 支援	有限（→ / →>）	完整（@> / ? / @? / ? 等）
Duplicate key	保留（原樣）	只保留最後一個（normalize）
Key order	保留	不保留
Whitespace	保留	不保留

JSONB 唯一缺點是 binary 儲存（不保留 key order / whitespace / duplicate）。99% application 不在意這些。

從 application semantics 視角、JSONB 是 PG JSON 的 the right type、JSON 是 legacy / niche。

JSONB GIN Index：核心結構性優勢

PG GIN（Generalized Inverted Index）可以對 JSONB 內所有 key/value pair 建 inverted index：

1CREATE TABLE products (
2    id SERIAL PRIMARY KEY,
3    metadata JSONB
4);
5
6-- GIN index
7CREATE INDEX idx_products_metadata ON products USING GIN (metadata);

加完後、JSONB query 用 GIN index 加速：

1-- @> (contains) 用 GIN
2SELECT * FROM products WHERE metadata @> '{"category": "shoes"}';
3
4-- ? (has key) 用 GIN
5SELECT * FROM products WHERE metadata ? 'discount';
6
7-- ?| (has any of these keys) 用 GIN
8SELECT * FROM products WHERE metadata ?| array['discount', 'promotion'];

跟 MongoDB index 對比、PG 不必 預先 define JSON path index、USING GIN (metadata) 對 整個 JSONB document 任意 path 都有效。

`jsonb_ops` vs `jsonb_path_ops`

PG GIN 對 JSONB 有兩種 operator class：

維度	`jsonb_ops`（預設）	`jsonb_path_ops`
索引內容	Key + value 都索引	只索引 path → value pair
Index size	大	小（約一半）
支援 operator	`@> / ? / ?\| / ?&`	只 `@>` (containment)
適用	多種 query pattern	只用 `@>` 的場景

1-- jsonb_ops（預設）
2CREATE INDEX idx_meta_default ON products USING GIN (metadata);
3
4-- jsonb_path_ops（小、快、但只支援 @>）
5CREATE INDEX idx_meta_path ON products USING GIN (metadata jsonb_path_ops);

選擇：

只跑 @> containment query → jsonb_path_ops（index 小、快）
跑 ? / ?| / ?& key existence query → jsonb_ops（預設）

Operator + Path Query

JSONB 提供豐富 operator + jsonpath：

Operator

 1-- Extract value（returns jsonb）
 2SELECT metadata -> 'name' FROM products;
 3
 4-- Extract text（returns text）
 5SELECT metadata ->> 'name' FROM products;
 6
 7-- Path extract
 8SELECT metadata #> '{variants, 0, price}' FROM products;
 9SELECT metadata #>> '{variants, 0, price}' FROM products;  -- 返回 text
10
11-- Containment（用 GIN index）
12SELECT * FROM products WHERE metadata @> '{"category": "shoes", "active": true}';
13
14-- Reverse containment
15SELECT * FROM products WHERE '{"sub": "value"}' <@ metadata;
16
17-- Key existence
18SELECT * FROM products WHERE metadata ? 'discount';
19SELECT * FROM products WHERE metadata ?| array['a', 'b'];  -- 任一 key
20SELECT * FROM products WHERE metadata ?& array['a', 'b'];  -- 全部 key

jsonpath（PG 12+）

SQL/JSON jsonpath 是 SQL standard、PG 12+ 支援：

 1-- jsonb_path_query：展開 path 結果
 2SELECT jsonb_path_query(metadata, '$.variants[*].price')
 3FROM products WHERE id = 1;
 4
 5-- jsonb_path_exists：返 boolean
 6SELECT * FROM products
 7WHERE jsonb_path_exists(metadata, '$.variants[*] ? (@.price > 100)');
 8
 9-- jsonb_path_query_array：返 array of result
10SELECT jsonb_path_query_array(metadata, '$.tags[*]')
11FROM products;

jsonpath 比 PG-specific operator 標準化、跨 vendor portable。

Partial JSONB Index

對 只 query subset row 的場景、建 partial index：

1-- 只對 active product 建 metadata index
2CREATE INDEX idx_active_products_metadata
3ON products USING GIN (metadata)
4WHERE status = 'active';
5
6-- Query active products + JSONB filter
7SELECT * FROM products
8WHERE status = 'active' AND metadata @> '{"category": "shoes"}';
9-- → planner 用 partial GIN index

Partial index 比 full GIN 小很多、write cost 低、index hit rate 高。

5 個 Production 踩雷

1. 大 JSONB + TOAST — 性能崩潰

JSONB > 2 KB 自動進 TOAST（PG 內外部 storage）、每次 query read 該 row 都要 de-TOAST（拉外部 storage 再合併）。大 JSONB（> 50 KB）每次 query 慢 10-100x。

修法：

把 大 attribute 拆獨立 column（如 description TEXT 不放 metadata）
用 JSON path index 對 hot path 加速、不必每次讀整個 JSONB
用 pg_column_size(metadata) 監控 JSONB size 分布、找 outlier
對 truly 大 document（> 1 MB）考慮 separate table 或 object storage

2. Nested update — 整個 JSONB 重寫

PG 沒 atomic partial update。修改 nested key 必須讀整個 JSONB → 修改 → 寫回：

1UPDATE products
2SET metadata = jsonb_set(metadata, '{discount}', '0.2'::jsonb)
3WHERE id = 100;
4-- 等同於：讀 metadata、改 discount、寫回整個 metadata

對 大 JSONB + 高頻 update 場景、寫吞吐受限。跟 MongoDB $set operator 對應 partial document update 不同。

修法：

對 high-update nested key 拆獨立 column
Application 層 batch update（攢一批一次 update）
接受 PG JSONB 是 immutable-replace 心智模型、不是 mutable in-place

3. Index 選錯 op class — `?` query 走 full scan

對 jsonb_path_ops index、? key existence query 走 full scan（不用 index）。Application 看 query 慢、查 EXPLAIN 才發現 index 沒用。

修法：

設計階段確認 application query pattern：只用 @> 還是會用 ?
多 query pattern → jsonb_ops（預設）
純 containment → jsonb_path_ops（省 index size）
不確定先用預設、production 觀察後再優化

4. `jsonb_path_query` 跟 `jsonb_path_exists` 行為差

jsonb_path_query(metadata, '$.variants[*].price') — 展開、每個 match return 一 row
jsonb_path_exists(metadata, '$.variants[*]') — return boolean（true if any match）

Application 想要「過濾 row」用前者寫成：

1-- 錯：返多 row 給每個 product、結果 row count 暴增
2SELECT id, jsonb_path_query(metadata, '$.variants[*].price') FROM products;

應該：

1-- 對：只過濾 product
2SELECT * FROM products WHERE jsonb_path_exists(metadata, '$.variants[*] ? (@.price > 100)');

修法：

區分 exists 過濾 row vs query 展開 row
過濾用 jsonb_path_exists 或 @> operator
展開用 jsonb_path_query + 配合 LATERAL 或 subquery

5. Partial index 條件不對齊 query

1CREATE INDEX idx_active_metadata ON products USING GIN (metadata) WHERE status = 'active';
2
3-- Application query 但 status 沒 explicit
4SELECT * FROM products WHERE metadata @> '{"category": "shoes"}';
5-- → 不用 partial index（planner 不知道 status='active' 條件）

修法：

Application query 必須包含 partial index 的 WHERE 條件：

1SELECT * FROM products WHERE status = 'active' AND metadata @> '...';

確認 planner 用 partial index：EXPLAIN 看 Index Scan using idx_active_metadata
不對齊 query pattern 的 partial index = waste

何時用 JSONB vs 拆 column

場景	選擇
不規則 schema（user-generated metadata / customization）	JSONB
半結構化 + 5-10 個常 query key	JSONB + GIN partial index
規則 schema、column 數量穩定	拆 column（更快 / index 易）
Nested 結構 + 經常需要展開 query	JSONB + jsonb_path_query
大 document（> 1 KB）+ 高頻 update	拆 column 或 separate table
完全 schemaless workload	考慮 MongoDB 而非 PG

JSONB 是 PG 適合 semi-structured data 的工具、不是 MongoDB 替代品。對 主要結構化 + 少量 JSON 場景 JSONB 完美；對 主要 JSON / 複雜 nested aggregation 場景 MongoDB 仍是專業選擇。

跟其他模組整合

跟 Query Optimization

JSONB query 的 planner 行為：

@> containment 對 jsonb_ops / jsonb_path_ops 都用 GIN
? 只對 jsonb_ops 用 GIN
jsonb_path_exists 用 functional index（不是 GIN）
看 EXPLAIN 確認用對 index、詳見 Query Optimization

跟 SQL Features Baseline

JSONB 是 PG 結構性領先特性之一、詳見 SQL Features Baseline。

跟 MVCC + Lock Model

JSONB UPDATE 整個 column 重寫、每次 update 創新 tuple、跟 row update 相同 MVCC behavior。詳見 MVCC + Lock Model。

跟 MySQL JSON_TABLE

MySQL 8.0 JSON_TABLE 跟 PG jsonpath 類似（都 SQL standard）、但 index 機制 完全不同：

PG：JSONB + GIN index over 整個 column
MySQL：JSON column + generated column + index over generated

PG JSONB GIN 是 結構性領先、MySQL 短期內難對應。詳見 MySQL Modern SQL Features。

觀測 metric

pg_column_size(metadata) — 每 row JSONB size 分布
pg_relation_size('idx_name') — JSONB GIN index 大小
pg_stat_user_indexes.idx_scan — JSONB index 使用次數
TOAST table size：SELECT pg_relation_size(reltoastrelid) FROM pg_class WHERE relname='products'

PostgreSQL Extension Ecosystem：把 PG 變成 vector DB / time-series / sharded 的 plugin 生態

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 extension ecosystem — PG 結構性產品線擴張的機制。

Extension 不只是 plugin、是產品線擴張

PG extension 機制讓 第三方加新 type / function / operator / index access method / planner hook、深度整合到 PG core。對比其他 DB 的 plugin model（MySQL plugin / MongoDB plugin）、PG extension 是 更深的 SPI。

結果：

pgvector → PG 變 vector similarity search DB（取代 Pinecone / Weaviate）
TimescaleDB → PG 變 time-series DB（取代 InfluxDB）
Citus → PG 變 sharded cluster
PostGIS → PG 變 GIS DB
pg_cron → PG 變 scheduled job runner
pgvectorscale → 大規模 vector index

對 vendor lock-in 敏感 / 想統一 stack 的 org、PG extension 提供 用 PG 取代多個 specialized DB 的可能。

但 統一 stack 的代價：PG 主庫 ops 風險集中（一個 PG 掛 = vector / time-series / GIS / cron 全掛）、extension 跟 PG version 對齊矩陣多一道升級顧慮、規模上限通常比專業 DB 低（pgvector 100M+ vs Pinecone 10B+ / TimescaleDB 100K rows/s vs InfluxDB 500K+）。決策框架：中小規模 + 已用 PG + 不想多管系統 → extension；大規模 + 純該 workload + 有專業 team → specialized DB。

Extension Lifecycle

 1-- 看可用 extension
 2SELECT * FROM pg_available_extensions;
 3
 4-- 安裝（在 OS 層、要有對應 package）
 5-- apt install postgresql-14-pg-stat-statements
 6
 7-- Enable in DB
 8CREATE EXTENSION pg_stat_statements;
 9
10-- 確認
11SELECT * FROM pg_extension;
12
13-- 升級 extension
14ALTER EXTENSION pg_stat_statements UPDATE;
15
16-- 移除
17DROP EXTENSION pg_stat_statements;

每個 extension 有：

Version — 跟 PG version 綁定（如 pg_stat_statements 14 / 15 / 16）
Schema — 安裝到 public 或專屬 schema
Dependencies — 部分 extension 依賴其他（如 PostGIS 依賴 pg_trgm）
Trusted vs untrusted — trusted 可以 non-superuser 安裝（PG 13+）

6 個 Production-Critical Extension

1. pg_stat_statements — Query stats（必裝）

任何 production PG cluster 都該裝：

1# postgresql.conf
2shared_preload_libraries = 'pg_stat_statements'
3pg_stat_statements.max = 5000
4pg_stat_statements.track = all

1CREATE EXTENSION pg_stat_statements;
2
3-- Top 10 query by total time
4SELECT query, calls, total_exec_time, mean_exec_time, rows
5FROM pg_stat_statements
6ORDER BY total_exec_time DESC LIMIT 10;

對應 MySQL events_statements_summary_by_digest。詳見 Query Optimization。

2. pg_partman — 自動 partition lifecycle

PG declarative partitioning 需要 手動建 / drop partition。pg_partman 自動化：

 1CREATE EXTENSION pg_partman SCHEMA partman;
 2
 3-- 設 events 表自動 monthly partition
 4SELECT partman.create_parent(
 5    p_parent_table => 'public.events',
 6    p_control => 'created_at',
 7    p_type => 'range',
 8    p_interval => '1 month',
 9    p_premake => 6  -- 預先建 6 個未來 partition
10);
11
12-- 跑 maintenance（建未來 partition + drop 老 partition）
13SELECT partman.run_maintenance(p_analyze => false);
14-- 預設用 pg_cron 排程

對 time-series partition workload 必裝。詳見 Declarative Partitioning。

3. pg_repack — Online table rewrite

詳見 Online Schema Change。

4. pgvector — Vector similarity search

LLM embedding / semantic search 場景必裝：

 1CREATE EXTENSION vector;
 2
 3CREATE TABLE documents (
 4    id SERIAL PRIMARY KEY,
 5    content TEXT,
 6    embedding VECTOR(1536)  -- OpenAI text-embedding-3-small 1536-dim
 7);
 8
 9-- HNSW index（pgvector 0.5+）
10CREATE INDEX ON documents USING HNSW (embedding vector_cosine_ops);
11
12-- 找最相似的 5 個
13SELECT * FROM documents
14ORDER BY embedding <=> '[0.1, 0.2, ...]'::vector
15LIMIT 5;

對 中小規模 RAG / semantic search workload、pgvector 在 PG 內跑、不必跨 Pinecone / Weaviate / Qdrant 等獨立服務。

對 超大規模 vector workload（> 1 億 vector）考慮 pgvectorscale（pgvector 的 streaming variant）或專業 vector DB。

5. TimescaleDB — Time-series 擴展

把 PG 變 time-series DB：

 1CREATE EXTENSION timescaledb;
 2
 3CREATE TABLE metrics (
 4    time TIMESTAMPTZ NOT NULL,
 5    device_id INT,
 6    value DOUBLE PRECISION
 7);
 8
 9-- 轉成 hypertable（auto-partition by time）
10SELECT create_hypertable('metrics', 'time');
11
12-- Continuous aggregate（materialized view 自動 refresh）
13CREATE MATERIALIZED VIEW metrics_5min
14WITH (timescaledb.continuous) AS
15SELECT time_bucket('5 minutes', time) AS bucket,
16       device_id, avg(value)
17FROM metrics
18GROUP BY bucket, device_id;

對 IoT / monitoring / financial tick data 場景、TimescaleDB 比純 PG 寫吞吐高 10x+。

6. PostGIS — GIS extension

地理 / 空間 query 業界標準：

 1CREATE EXTENSION postgis;
 2
 3CREATE TABLE stores (
 4    id SERIAL PRIMARY KEY,
 5    name TEXT,
 6    location GEOGRAPHY(POINT, 4326)
 7);
 8
 9CREATE INDEX ON stores USING GIST (location);
10
11-- 找 1 km 內的 store
12SELECT * FROM stores
13WHERE ST_DWithin(location, ST_MakePoint(121.5, 25.05)::geography, 1000);

PostGIS 是 GIS workload 業界標準、其他 DB GIS 能力都對標 PostGIS。

其他常用 extension

除 6 個 production-critical 之外、以下是 特定場景常用 的 extension — 分四類：排程跟 utility（pg_cron / pg_trgm / uuid-ossp）、type 擴展（hstore / citext / pgcrypto）、跨 DB 整合（postgres_fdw / mysql_fdw）、observability / debug 工具（pg_buffercache / pg_visibility / auto_explain）：

Extension	用途
`pg_cron`	排程 SQL job（不必外部 cron）
`pg_trgm`	Fuzzy string match / similarity
`uuid-ossp`	UUID 產生
`hstore`	Key-value pair type
`citext`	Case-insensitive text type
`pgcrypto`	加密 / hash function
`postgres_fdw`	PG → PG foreign table
`mysql_fdw`	PG → MySQL foreign table
`pg_buffercache`	Buffer pool 內容檢視
`pg_visibility`	Visibility map 檢視（debug bloat）
`auto_explain`	Slow query 自動 log plan
`wal2json`	Logical decoding output 為 JSON
`Citus`	Distributed PG
`pgvector`	Vector similarity
`pglogical`	Logical replication（功能比 native 強）
`pg_squeeze`	pg_repack 替代

實務組合：observability 三件套（pg_stat_statements + auto_explain + pg_buffercache）幾乎是 production 標配；FDW 是「跨 DB query」的 escape hatch、但 cross-DB query 效能差、適合 reporting 不適合 OLTP。

5 個 Production 踩雷

1. Extension version 跟 PG version 對齊

PG cluster 升 14 → 15 後、extension（pg_stat_statements / pg_partman / pgvector 等）必須有對應 15 版本。早期升級 / niche extension 可能還沒釋出。

修法：

升 PG cluster 前 先確認所有 extension 都有對應 PG version 釋出版本
升完 PG cluster 立即跑 ALTER EXTENSION xxx UPDATE
Upgrade runbook 紀錄每個 extension 的版本兼容狀態

2. Managed PG 限制 extension 列表

AWS RDS / Aurora PG / Cloud SQL / Azure DB for PostgreSQL 各自有 支援 extension 白名單：

不在白名單的 extension 不能 install
部分 extension 限定特定 PG version
Untrusted extension 通常不允許

常見 managed 不支援 的 extension：

pg_repack（Aurora 有限支援、RDS 部分 version 支援）
pglogical（部分 cloud 不支援）
pg_cron（cloud 通常用 managed scheduler 取代）
Custom extension（自寫 .so）

修法：

評估 managed PG 之前、先查 vendor 支援 extension 列表
Self-hosted vs managed 的 跨雲 portability 議題：extension 是 lock-in source
如果 application 強依賴某 extension（如 PostGIS），確認 cloud 支援

3. Extension upgrade order

pg_upgrade 升 PG major version 後、extension 也要升。順序：

pg_upgrade PG binary + cluster
對每個 DB 跑 ALTER EXTENSION xxx UPDATE
部分 extension（如 PostGIS）需要 特殊升級程序（SELECT postgis_extensions_upgrade()）

修法：

升 PG 後 先測 staging cluster 確認 extension upgrade 流程
PostGIS / TimescaleDB / Citus 有自己 upgrade 程序、必須遵循 vendor doc
升完跑 \dx 看每個 extension 版本

4. `shared_preload_libraries` 衝突

部分 extension（pg_stat_statements / auto_explain / TimescaleDB / Citus / pg_cron）必須在 shared_preload_libraries 加進去、需要 重啟 PG。

衝突情境：

pg_partman + TimescaleDB 都用 background worker、worker 上限不夠
max_worker_processes 預設 8、不夠時某些 extension 起不起來

修法：

列出所有 shared_preload extension、確認 order（部分有 dependency）
提高 max_worker_processes = 16 / max_parallel_workers = 8 等
重啟 PG 才生效、計入 maintenance window

5. Extension 跟 logical replication 互動

Logical replication（pglogical / native）不自動 replicate extension state（function / type definition）。Subscriber 沒裝對應 extension、replicate event 失敗。

修法：

Subscriber 必須 先安裝 publisher 用的 extension
Extension 版本 publisher / subscriber 對齊
對 extension-heavy schema、考慮用 streaming replication（physical）而非 logical

Cloud Vendor 對 Extension 的支援

Vendor	常見 extension 支援	限制
AWS RDS PostgreSQL	pg_stat_statements / pg_partman / pgvector / pg_repack	部分 version 限制 / 不能 install custom
AWS Aurora PostgreSQL	同 RDS、加 Aurora-specific	pg_repack 限版本
GCP Cloud SQL	標準 extension 廣支援	pg_cron / pgvector OK
Azure DB for PostgreSQL	廣泛支援 + Azure 整合	Citus（managed 即 Cosmos DB for PG）
Self-hosted	全部	自己維護

對 extension-heavy application、self-hosted PG 仍是必要選擇。Managed PG 適合 標準 extension workload。

何時用 PG extension 取代專業 DB

場景	用 extension 還是專業 DB
< 100M vector + RAG / semantic search	pgvector（單一 stack 省 ops）
大規模 vector search > 10M with high QPS	專業 vector DB（Pinecone / Qdrant）
Time-series < 100 TB	TimescaleDB
Time-series > 100 TB + high cardinality	專業 TS DB（InfluxDB / VictoriaMetrics）
GIS	PostGIS（業界標準）
Sharded < 10 TB + multi-tenant	Citus
Sharded > 100 TB	distributed SQL（CockroachDB / TiDB）
Scheduled job	pg_cron（簡單）/ Airflow（複雜）

對中小規模、PG + extension 是 簡化 stack 的有效路徑。規模超過時、專業 DB 仍是首選。

跟其他模組整合

Citus Distributed：extension 一例、可看 extension model
Query Optimization：pg_stat_statements + auto_explain 必用
Online Schema Change：pg_repack 是 extension
Declarative Partitioning：pg_partman 是 extension
SQL Features Baseline：extension 是 PG 結構性領先之一

PostgreSQL Full-Text Search：tsvector / tsquery / GIN index 跟 pg_trgm fuzzy 三層搜尋

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 full-text search — 內建 tsvector / tsquery + pg_trgm fuzzy match。

PG FTS 機制：tsvector + tsquery + GIN index

PG 內建 full-text search 三件組：

tsvector：document 轉成 lexeme（字根 + position）vector、normalized 後存
tsquery：搜尋字串 parse 成 query 形式
GIN index：對 tsvector 加 inverted index

 1-- Document
 2SELECT to_tsvector('english', 'The quick brown fox jumps over the lazy dog');
 3-- 結果：'brown':3 'dog':9 'fox':4 'jump':5 'lazi':8 'quick':2
 4-- The/over 是 stop word 被過濾、jumps/lazy 轉字根、保留 position
 5
 6-- Query
 7SELECT to_tsquery('english', 'fox & dog');
 8-- 結果：'fox' & 'dog'
 9
10-- Match
11SELECT to_tsvector('english', 'The quick brown fox') @@ to_tsquery('english', 'fox & quick');
12-- → true

Index：

 1CREATE TABLE articles (
 2    id SERIAL PRIMARY KEY,
 3    title TEXT,
 4    body TEXT
 5);
 6
 7-- GIN index over tsvector (動態 cast)
 8CREATE INDEX idx_articles_fts ON articles
 9USING GIN (to_tsvector('english', title || ' ' || body));
10
11-- Query 用 index
12SELECT * FROM articles
13WHERE to_tsvector('english', title || ' ' || body) @@ to_tsquery('english', 'postgres & index');

跟 JSONB GIN index 同 GIN access method、不同 indexed expression。

Generated column 加速

每次 query 都跑 to_tsvector(...) 浪費 CPU。用 generated column 預存：

1ALTER TABLE articles ADD COLUMN fts tsvector
2GENERATED ALWAYS AS (to_tsvector('english', coalesce(title, '') || ' ' || coalesce(body, ''))) STORED;
3
4CREATE INDEX idx_articles_fts ON articles USING GIN (fts);
5
6-- Query 簡化
7SELECT * FROM articles WHERE fts @@ to_tsquery('english', 'postgres');

Stored generated column 是 PG 12+、自動跟 row update 同步。

Ranking + 加權

PG FTS 提供 ts_rank / ts_rank_cd 給結果排序：

1-- 簡單 ranking
2SELECT id, title, ts_rank(fts, query) AS rank
3FROM articles, to_tsquery('english', 'postgres & index') AS query
4WHERE fts @@ query
5ORDER BY rank DESC LIMIT 10;

加權（A > B > C > D）：

 1-- Title 比 body 重要
 2UPDATE articles SET fts =
 3    setweight(to_tsvector('english', coalesce(title, '')), 'A') ||
 4    setweight(to_tsvector('english', coalesce(body, '')), 'B');
 5
 6-- Query 用加權 ranking
 7SELECT id, title,
 8       ts_rank(fts, query, 32 /* normalize by document length */) AS rank
 9FROM articles, to_tsquery('english', 'postgres') AS query
10WHERE fts @@ query
11ORDER BY rank DESC;

ts_rank 第三 parameter 是 normalization flag：

0：no normalization
1：divide by document length
32：divide by uniqueness（避免短 doc 一律 rank 高）

Multi-language Support

PG 內建多種語言 dictionary：english / french / german / spanish / simple（不做 stemming）等。

對 中文 / 日文 / 韓文、PG 預設無支援、需要 extension：

zhparser（中文、用 SCWS 分詞）
pgroonga（多語言、支援中日韓）
RUM index（PG 自己 + 可選 dictionary）

1-- 中文用 zhparser
2CREATE EXTENSION zhparser;
3CREATE TEXT SEARCH CONFIGURATION chinese (PARSER = zhparser);
4ALTER TEXT SEARCH CONFIGURATION chinese
5ADD MAPPING FOR n,v,a,i,e,l WITH simple;
6
7-- 使用
8SELECT to_tsvector('chinese', '我愛 PostgreSQL 資料庫');

對 主要英文 search 場景 PG built-in 夠用、對 主要 CJK search 需要 extension。

pg_trgm — Fuzzy String Match

PG FTS 對 精確字根 match 強、對 拼錯 / similar string 弱。pg_trgm extension 提供 trigram-based fuzzy match：

 1CREATE EXTENSION pg_trgm;
 2
 3-- 對 column 建 GIN trigram index
 4CREATE INDEX idx_users_name_trgm ON users USING GIN (name gin_trgm_ops);
 5
 6-- Fuzzy match（similarity threshold 預設 0.3）
 7SELECT * FROM users WHERE name % 'jhon';
 8-- → 找到 'John'、'Johan'、'Johnny' 等 similar string
 9
10-- 顯式 similarity score
11SELECT name, similarity(name, 'jhon') FROM users
12ORDER BY similarity(name, 'jhon') DESC LIMIT 5;

用途：

Autocomplete / typeahead suggestion
拼錯容錯（user 輸入 typo）
ILIKE 加速（name ILIKE '%jhon%' 走 GIN trigram index）

跟 FTS 互補：

FTS：full document search、tokenize / stemming / ranking
pg_trgm：short string similarity、typo tolerance

5 個 Production 踩雷

1. Dictionary 選錯 — 中文搜不到

對中文 column 用 to_tsvector('english', text)、不分詞、整段當一個 token、搜不到任何結果。

修法：

中文用 zhparser / pgroonga
多語言 column 拆 per-language column 或用 simple dictionary（不 stemming、字元級 match）
確認 dictionary 選對：SELECT to_tsvector('chinese', '...') 看分詞結果

2. GIN vs GiST 取捨選錯

PG FTS 有兩種 index access method：

GIN：read fast、write slow、size 大、適合 read-heavy
GiST：read 慢、write fast、size 小、適合 write-heavy 或 small doc

預設選 GIN、適合 90% search workload。對 寫入頻繁 + 文件小 場景 GiST。

修法：

預設 GIN
寫吞吐 > 10K WPS 場景考慮 GiST 或 bulk index（先 disable index、bulk insert、重建 index）
GIN 有 fastupdate option、buffering 加速寫入（trade-off：read 慢）

3. Ranking 評分權重不對齊 business

ts_rank 預設不考慮 field weight、ts_rank_cd 考慮 cover density、兩者結果不同。Application 不知道 自己 query 對應哪個 rank function、結果隨機。

修法：

顯式選 ranking function：ts_rank 一般用、ts_rank_cd 對 proximity 重要 場景
設 field weight（A > B > C > D）反映 business priority（title > body > tags）
對 搜尋結果 用 A/B test 評估 ranking 質量、不靠直覺

4. Multi-language column 處理

Application 同表存多語言 row（user-generated content、不同 language）、用單一 to_tsvector('english', ...) 對中文 row 搜不到、對 french row 也 stem 錯。

修法：

加 language column 標每 row 語言

用 dynamic dictionary：

1ALTER TABLE articles ADD COLUMN fts tsvector
2GENERATED ALWAYS AS (
3    to_tsvector(
4        CASE WHEN language = 'zh' THEN 'chinese'::regconfig
5             WHEN language = 'fr' THEN 'french'::regconfig
6             ELSE 'english'::regconfig END,
7        coalesce(title, '') || ' ' || coalesce(body, '')
8    )
9) STORED;

Query 時用對應語言 to_tsquery

5. 何時不該用 PG FTS — 應該換 Elasticsearch / OpenSearch

PG FTS 適合 中小規模搜尋、不適合：

> 100M document high-QPS search
需要 complex aggregation（faceted search）
需要 advanced ranking（BM25 / learning to rank）
需要 分散式 search（PG FTS 是 single-node）
需要 near-real-time indexing（PG GIN update 較慢）

對這些場景、用 Elasticsearch / OpenSearch / Meilisearch / Typesense 等專業 search engine。

PG FTS 優勢是 跟 OLTP data 同 transaction — 不需要 ETL 同步 search index、application 寫 PG 立即 searchable。對 application data + search 是同源的場景 PG FTS 比較適合。

何時用 PG FTS

場景	選擇
Application internal search（admin / dashboard）	PG FTS
< 10M document、低 QPS（< 100/s）	PG FTS
Search 跟 OLTP data 同 transaction needed	PG FTS
Fuzzy / typo tolerance	PG FTS + pg_trgm
> 100M document + high QPS	Elasticsearch / OpenSearch
Faceted aggregation	Elasticsearch / OpenSearch
Vector similarity（semantic search）	pgvector（同 PG）

PG FTS + pgvector 組合對 中小規模 hybrid keyword + semantic search 是強選擇。

跟其他模組整合

JSONB Deep Dive：JSONB 跟 FTS 都用 GIN
Extension Ecosystem：pg_trgm / pgroonga / zhparser 都是 extension
Query Optimization：FTS query 的 EXPLAIN
Replication Topology：FTS GIN index 在 standby 自動 replicate

PostgreSQL Replication Slot Management：Physical / Logical / Failover Slot 治理

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 replication slot management — physical / logical / failover slot 三類治理。

Replication Slot 兩大類

PG 兩種 replication slot：

Physical Replication Slot

對應 streaming replication（physical WAL byte-level）：

1SELECT pg_create_physical_replication_slot('standby1_slot');

用於：

Streaming replication standby（Replication Topology）
pg_basebackup 用 slot 防 WAL 清理
高 lag standby 防 WAL premature deletion

Logical Replication Slot

對應 logical replication / logical decoding：

1SELECT pg_create_logical_replication_slot('my_slot', 'pgoutput');
2-- 或用 wal2json plugin
3SELECT pg_create_logical_replication_slot('debezium_slot', 'wal2json');

用於：

PG-to-PG logical replication（publication / subscription）
CDC（Debezium / Maxwell / pg_logical_emitter）
Multi-master replication（BDR / pgEdge / Spock）

logical slot 跟 physical slot 共存、各自獨立 retention。

Slot Lifecycle

1建立 → active（有 consumer）→ inactive（consumer 失聯）→ drop
2                                    ↓
3                              WAL 持續累積（直到推進 LSN 或 drop）

狀態查詢：

1SELECT slot_name,
2       slot_type,
3       active,
4       restart_lsn,
5       confirmed_flush_lsn,
6       pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) AS retained_wal
7FROM pg_replication_slots;

關鍵欄位：

slot_type：physical / logical
active：true / false（consumer 是否連著）
restart_lsn：slot 起點 LSN、primary 必須保留這以後的 WAL
confirmed_flush_lsn：logical slot 已 confirm flush 的 LSN
retained_wal：當前因 slot 累積的 WAL

Failover Slot Synchronization (PG 17+)

PG 17 之前的痛點：logical replication slot 是 primary 上的 state、failover 後 新 primary 沒這個 slot、CDC consumer 失聯、需要重建（大工程）。

PG 17 加 failover slot synchronization：

 1-- PG 17+：標 slot 為 failover-tracked
 2-- signature: pg_create_logical_replication_slot(slot_name, plugin, temporary, two_phase, failover)
 3SELECT pg_create_logical_replication_slot('my_slot', 'pgoutput', false, false, true);
 4--                                                                          ↑
 5--                                                                     failover=true（第 5 個參數）
 6-- 注意：第 4 個參數是 two_phase（這裡 false）、第 5 個才是 failover
 7
 8-- Standby 上 enable sync_replication_slots
 9ALTER SYSTEM SET sync_replication_slots = on;
10SELECT pg_reload_conf();

sync_replication_slots = on 後、physical replication 同步 slot state 到 standby。Failover promote standby 後、logical slot 仍可用、CDC consumer 重連即可。

PG 17 之前用 pgEdge / pglogical 等 extension 提供類似功能、現在 PG core 內建。

Orphan Slot 治理

active = false 的 slot 持續累積 WAL、disk 爆是 PG production 經典事故。

監控 orphan slot

1-- 找 inactive 太久的 slot
2SELECT slot_name, active, restart_lsn,
3       pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) AS retained_wal
4FROM pg_replication_slots
5WHERE NOT active
6  AND pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn) > 1024 * 1024 * 1024;  -- > 1 GB

自動 invalidate slot（PG 13+）

1-- postgresql.conf
2ALTER SYSTEM SET max_slot_wal_keep_size = '50GB';  -- slot 累積 > 50GB 自動 invalidate

當 slot 累積 WAL 超過 max_slot_wal_keep_size、PG 自動 invalidate slot（active=false 且不再保留 WAL）。Consumer 重連會 fail、必須重建（base backup + new slot）。

這是 trade-off：

設 limit → 保護 disk、但 consumer 失聯 → 大重建工作
不設 limit → consumer 失聯 OK、但 disk 爆

實務多數設 max_slot_wal_keep_size 給 disk capacity 50%、避免徹底 disk full。

手動 drop orphan slot

1-- 確認 slot 真的不需要
2SELECT * FROM pg_replication_slots WHERE slot_name = 'old_standby_slot';
3
4-- Drop
5SELECT pg_drop_replication_slot('old_standby_slot');

DR runbook 必須包含 standby 退役流程：先 standby fence、再 primary drop slot。

5 個 Production 踩雷

1. Orphan slot disk 爆

最經典 PG 事故：standby decomission 沒 drop slot、primary 持續保留 WAL、pg_wal/ 累積到 disk full、primary 也掛。

修法：

監控 pg_replication_slots + pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) retained_wal
設 max_slot_wal_keep_size（PG 13+）— hard limit
Standby 退役 runbook 強制 先 fence、再 drop slot
Cron job 自動 alert orphan slot

2. Logical slot lag — CDC consumer 跟不上

Logical decoding 比 physical replication 慢（per-transaction logical event 重組）。CDC consumer（Debezium）跟不上 → slot lag 累積。

修法：

監控 pg_replication_slots.confirmed_flush_lsn 跟 primary pg_current_wal_lsn() 對比
CDC consumer 性能調整（throughput / batch size）
Throttle source writes（如果不能升 consumer）
對 hot table 拆 publication / subscription、避免單 slot 處理所有變更

詳見 Logical Replication + Debezium。

3. Failover 後 logical slot 丟（PG 16 之前）

PG 16 之前、failover promote standby、新 primary 沒有原 logical slot。CDC consumer 試連、ERROR: replication slot "xxx" does not exist。

修法（PG 17+）：

用 failover slot synchronization（如上）
pg_create_logical_replication_slot(..., failover := true)
Standby sync_replication_slots = on

修法（PG 16-）：

用 pglogical 或 pgEdge extension
Failover runbook 包含 新 primary 重建 logical slot（CDC consumer 重 snapshot）
Pre-create slot on standby + manual sync（早期 workaround）

4. `wal_keep_size` 跟 slot 衝突

wal_keep_size（PG 13+）/ wal_keep_segments（< 13）跟 slot 都會保留 WAL：

wal_keep_size：固定 minimum WAL 保留量
Slot：動態保留直到 consumer 推進

兩者一起 set 時：實際保留 WAL = max(wal_keep_size, slot 需要的量)。

修法：

wal_keep_size 設小（如 1-2 GB）作 minimum backup
主要靠 slot 動態保留 — 給 active consumer
監控 pg_wal/ 大小 + 拆解 retention source（wal_keep_size vs slot 各佔多少）

5. Slot 數量上限

max_replication_slots 預設 10、不夠時新 slot 建不出來、報錯。

修法：

Production 大 cluster 設 max_replication_slots = 50 或更多
對 standby + logical replication + CDC consumer 同時跑、計算需要的 slot 數
監控 SELECT count(*) FROM pg_replication_slots 接近 limit 時告警

Slot Naming Convention

Production 大 cluster 多 slot、命名 convention 重要：

1__
2例：
3- physical_standby1_replication
4- physical_standby2_replication
5- logical_debezium_orders_cdc
6- logical_pgedge_node2_subscription
7- physical_pgbasebackup_temp（base backup 用、completed 後 drop）

清楚命名讓 看 slot 名 就知道用途、誰負責、能不能 drop。

跟其他模組整合

Replication Topology：physical slot 給 streaming replication 用
Logical Replication + Debezium：logical slot 給 CDC
BDR / Multi-Master：multi-master 大量用 logical slot
PITR + WAL Archiving：WAL archive 跟 slot 是兩種 WAL retention 機制、可並行

監控 metric

Production 持續監控：

pg_replication_slots.active — 失聯 slot
pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn) — slot 累積 WAL
pg_replication_slots.confirmed_flush_lsn vs pg_current_wal_lsn() — logical slot lag
pg_ls_waldir() 看 pg_wal/ 目錄大小
count(*) FROM pg_replication_slots 對 max_replication_slots 比例

把這些丟進 Datadog / Prometheus + alert。

TimescaleDB Deep Dive：Hypertable / Continuous Aggregate / Compression 把 PG 變 Time-Series DB

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 TimescaleDB extension — 用 PG 解 time-series workload 的路徑、跟 extension-ecosystem 是 單一 extension 細節 vs ecosystem 全景 的關係。

TimescaleDB 是 PG 的 Time-Series Specialization

TimescaleDB 不是獨立 DB、是 PG extension：

1CREATE EXTENSION timescaledb;

加完後、PG 多三個 time-series 專屬機制：

Hypertable：對 time column 自動 partition、應用層看是一張表
Continuous aggregate：incremental refresh 的 materialized view
Compression：對舊 chunk 壓縮（columnar-like format）

跟專業 time-series DB（InfluxDB / Prometheus / VictoriaMetrics）對比、TimescaleDB 的賣點不是「最快」而是「PG ecosystem 一致」：

維度	TimescaleDB	InfluxDB	Prometheus
Query 語言	標準 SQL	InfluxQL / Flux	PromQL
寫入效能	中（10-100K rows/s）	高（500K+ rows/s）	中（pull-based scrape）
壓縮	90%+（columnar compression）	高	高
Join	完整 SQL join	弱	不支援
跟既有 PG schema	同一個 DB、可 join	獨立	獨立
生態	完整 PG ecosystem	自家 ecosystem	自家 ecosystem
Open source	Apache 2.0（部分功能 TSL license）	MIT	Apache 2.0

何時選 TimescaleDB：

Application 已用 PG、不想多管一套 time-series DB
需要 join time-series 跟 application 表（user / device metadata）
不需 InfluxDB 級寫入速度（< 100K rows/s）
Team SQL 熟、PromQL / Flux 學習成本不想付

何時選 InfluxDB / Prometheus（不選 TimescaleDB）：

High-cardinality metric（10M+ unique series）— TSDB-purpose-built engine 在 cardinality 跟 retention 上比 hypertable 高效
Pull-based scrape model（Prometheus）跟 alerting / Grafana 生態深整合
PromQL operator（rate() / histogram_quantile()）對 metric query 比 SQL 直覺
TSL license 不能接受（TimescaleDB 部分功能在 Timescale License、不是純 Apache 2.0）
Operational team 已熟 InfluxDB / Prometheus、不想多學 PG 維運

Hypertable：自動 Time-based Partitioning

普通 PG 表變 hypertable：

1CREATE TABLE sensor_data (
2    time        TIMESTAMPTZ NOT NULL,
3    sensor_id   INTEGER NOT NULL,
4    temperature DOUBLE PRECISION,
5    humidity    DOUBLE PRECISION
6);
7
8-- 變 hypertable、按 time 自動 partition
9SELECT create_hypertable('sensor_data', 'time');

Hypertable 機制：

後台自動拆 chunk（child partition）by time interval（預設 7 天）
Application 看到的是 sensor_data 一張表、實際資料分散在 _timescaledb_internal._hyper_*_chunk 表
Query 自動 chunk pruning（只掃命中時間範圍的 chunk）

Chunk interval 選擇很關鍵：

Chunk interval	適用	問題
1 小時	高頻 metrics（每秒 100+ row）	Chunk 太多、catalog 膨脹
1 天	中高頻（每秒 10-100 row）	OK
7 天（預設）	中頻（每分鐘 row）	OK
30 天	低頻（每小時 row）	OK

通用原則：每個 chunk 25% RAM、超過退化 disk IO。Production 監控 chunk_size 跟 shared_buffers ratio 自動調。

Multi-dimensional hypertable（time + space partition）：

1-- 按 time + device_id 雙維 partition
2SELECT create_hypertable('sensor_data', 'time',
3    partitioning_column => 'sensor_id',
4    number_partitions => 16
5);

適用 sensor 數 1000+ 的 IoT workload、單 chunk 太大時用 space partition 拆。

Continuous Aggregate（CAGG）：Incremental Materialized View

普通 PG materialized view 是 全量重算、TimescaleDB CAGG 是 incremental refresh：

 1-- 1 小時粒度聚合
 2CREATE MATERIALIZED VIEW sensor_hourly
 3WITH (timescaledb.continuous) AS
 4SELECT
 5    time_bucket('1 hour', time) AS hour,
 6    sensor_id,
 7    avg(temperature) AS avg_temp,
 8    max(temperature) AS max_temp,
 9    min(temperature) AS min_temp,
10    count(*) AS sample_count
11FROM sensor_data
12GROUP BY hour, sensor_id;
13
14-- 加 refresh policy（每 30 分鐘 refresh 過去 1 天）
15SELECT add_continuous_aggregate_policy('sensor_hourly',
16    start_offset => INTERVAL '1 day',
17    end_offset => INTERVAL '30 minutes',
18    schedule_interval => INTERVAL '30 minutes'
19);

CAGG 機制：

記錄哪些 time bucket 已 materialize、哪些 stale
Refresh 時只重算 stale bucket、不全量
Query CAGG 自動 fallback 到原 hypertable 補最新資料（real-time aggregation）

CAGG vs 普通 MV 對比：

維度	TimescaleDB CAGG	普通 PG MV
Refresh 模式	Incremental	全量重算
Refresh 時間	秒級	表大時數十分鐘
Real-time fallback	自動補最新	不支援、需手動 union
Storage	多一份 aggregated	多一份 aggregated
Policy	內建排程	需 pg_cron / 外部排程

CAGG hierarchy（多層聚合）：

1-- 從 1 hour CAGG 再聚合到 1 day
2CREATE MATERIALIZED VIEW sensor_daily
3WITH (timescaledb.continuous) AS
4SELECT
5    time_bucket('1 day', hour) AS day,
6    sensor_id,
7    avg(avg_temp) AS daily_avg
8FROM sensor_hourly
9GROUP BY day, sensor_id;

Application query 不同時間範圍時自動命中對應粒度、不必每次掃原始資料。

Compression：把舊 Chunk 壓 90%+

舊 chunk 可以開啟 compression：

1-- 開啟 compression（必須先設定 segment by）
2ALTER TABLE sensor_data SET (
3    timescaledb.compress,
4    timescaledb.compress_segmentby = 'sensor_id',
5    timescaledb.compress_orderby = 'time DESC'
6);
7
8-- 自動壓縮 policy：7 天前 chunk 壓
9SELECT add_compression_policy('sensor_data', INTERVAL '7 days');

Compression 機制：

把 chunk 內 row 按 segmentby 分組
每組內按 orderby 排序後、把每 column 變成 columnar array
對 array 用 type-specific 壓縮（Gorilla for float / delta-of-delta for timestamp / dictionary for string）

實際壓縮率：

Workload	壓縮率
IoT sensor（重複值多）	95-98%
Application metrics	90-95%
Trade tick（隨機浮點）	70-85%
Log line（高 cardinality string）	50-70%

Compression 限制（重要）：

壓縮後 chunk 不能 UPDATE / DELETE 單 row（要先 decompress）
壓縮後 chunk 不能加 column（要 decompress 所有 chunk）
壓縮後 chunk 只能 append new row、不能改舊 row
DDL 變更（加 column / 改 index）需 decompress

實務：compression 是 write-once cold data 的工具、active OLTP chunk 不開。

Retention Policy：自動刪舊資料

1-- 1 年前 chunk 自動刪
2SELECT add_retention_policy('sensor_data', INTERVAL '1 year');

Retention drop 整個 chunk（不是 DELETE row）、O(1) 操作、不產生 bloat。

CAGG 有獨立 retention：

1-- 原始資料只留 30 天、aggregated 留 5 年
2SELECT add_retention_policy('sensor_data', INTERVAL '30 days');
3SELECT add_retention_policy('sensor_hourly', INTERVAL '5 years');

這是 TimescaleDB 跟普通 PG partitioning 最大的價值差 — 普通 PG 要自己寫 cron drop partition、TimescaleDB policy 內建。

5 個 Production 踩雷

Case 1：Chunk size 不對、catalog 膨脹

情境：sensor 每秒寫 10 row、chunk_interval 設 1 小時、一年產 8760 chunk、pg_class 撐到 200 萬 row、planner 變慢。

修法：

Chunk 數量上限 ~10000、超過 catalog overhead 出現
重設 chunk_interval：SELECT set_chunk_time_interval('sensor_data', INTERVAL '1 day');
已存在 chunk 不會自動 merge、要靠 retention drop 自然消化

Case 2：CAGG refresh 落後 real-time

情境：CAGG refresh policy 每 1 小時跑、application 期待「即時 dashboard」、看到的數字落後 1 小時。

修法：

縮短 schedule_interval（5 分鐘）
用 real-time aggregation（預設 ON、CAGG 自動 union 原始資料）
確認 materialized_only = false（real-time aggregation 開啟）

1ALTER MATERIALIZED VIEW sensor_hourly SET (timescaledb.materialized_only = false);

Case 3：Compression 後想 UPDATE

情境：發現某個歷史 row 數值錯、想 UPDATE、報錯 cannot update/delete from compressed chunk。

修法：

1-- 找到該 chunk 並 decompress
2SELECT decompress_chunk(c) FROM show_chunks('sensor_data',
3    older_than => INTERVAL '7 days') c WHERE c::text LIKE '%_5_chunk';
4
5-- UPDATE 完再 compress 回去
6UPDATE sensor_data SET temperature = 22.5 WHERE ...;
7SELECT compress_chunk(...);

或設計階段就避免 — compression 用在 immutable data、有可能改的留未壓。

Case 4：Hypertable 不能加 FK 到 non-hypertable

情境：想對 sensor_data 加 FK 到 sensors 表、報錯 foreign key constraints with hypertables are not supported。

修法：

Application 層維護 referential integrity
或反過來：sensors 可以 FK 到 hypertable（特定方向支援）
TimescaleDB 2.11+ 部分支援 FK from hypertable、但限制多

Case 5：TimescaleDB 跟 PG 主版本對齊

情境：PG 升級 14 → 16、TimescaleDB extension 沒對應升級、PG 啟動 fail。

TimescaleDB 跟 PG 版本對齊矩陣：

TimescaleDB	支援 PG version	備註
2.11+	13, 14, 15
2.13+	13, 14, 15, 16	加 PG 16 支援
2.15.x	13, 14, 15, 16	最後支援 PG 13 的 minor
2.16+	14, 15, 16	PG 13 drop
2.17+	14, 15, 16, 17	PG 17 加入（需 17.2+ binary 對齊）
2.18+	14, 15, 16, 17	PG 17 完整支援
2.23+	14, 15, 16, 17, 18	PG 18 加入

修法：

升 PG 前先升 TimescaleDB 到支援目標 PG 版本的 extension
Production 升級順序：TimescaleDB minor upgrade → PG major upgrade → TimescaleDB final upgrade
Cloud managed（Timescale Cloud）自動處理

跟 PG 原生 Partitioning 對比

PG 10+ 有 declarative partitioning、不一定要 TimescaleDB：

維度	TimescaleDB hypertable	PG declarative partitioning
自動建 chunk	是	否（需手動或 pg_partman）
Chunk pruning	自動	自動（需 partition key）
Retention 內建	是	否（pg_partman 或自寫 cron）
Compression	內建 columnar	否
Continuous aggregate	內建	否（自寫 incremental refresh）
跨 chunk index	統一 management	Per-partition index
Cardinality limit	10000+ chunk OK	1000+ partition 就慢

何時用原生 partitioning（不用 TimescaleDB）：

不需要 compression / CAGG
Partition 數 < 1000
已用 pg_partman 不想換
公司禁用 TSL license（TimescaleDB 部分功能受限）

何時用 TimescaleDB：

高頻 time-series（compression 必要）
需要 CAGG（手寫 incremental MV 成本高）
Partition 數 > 1000
IoT / metrics / observability workload

詳細 partitioning 機制看 declarative-partitioning。

下一步

看 extension-ecosystem 了解其他 PG 擴展選項
回 PostgreSQL overview 看全圖

pgvector Deep Dive：HNSW / IVFFlat 取捨跟跟專業 Vector DB 對比

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 pgvector extension — 用 PG 解 vector search workload 的路徑、是 extension-ecosystem 內最受關注的 extension。

pgvector 是 PG 變 Vector DB 的最短路徑

pgvector 加兩件事：

 1CREATE EXTENSION vector;
 2
 3-- 加 vector column（dimension 必須事先決定）
 4CREATE TABLE documents (
 5    id SERIAL PRIMARY KEY,
 6    content TEXT,
 7    embedding vector(1536)  -- OpenAI ada-002 維度
 8);
 9
10-- 三種 distance operator
11SELECT * FROM documents ORDER BY embedding <-> '[0.1, 0.2, ...]' LIMIT 10;  -- L2
12SELECT * FROM documents ORDER BY embedding <#> '[0.1, 0.2, ...]' LIMIT 10;  -- inner product
13SELECT * FROM documents ORDER BY embedding <=> '[0.1, 0.2, ...]' LIMIT 10;  -- cosine

Operator 對應：

Operator	意義	適用
`<->`	L2 distance	通用、空間距離
`<#>`	Negative inner product	normalized vector、cosine 等價
`<=>`	Cosine distance	embedding 比較最常用

對 OpenAI / Cohere / sentence-transformers embedding、通常用 <=>（cosine）— embedding model 訓練時是 cosine objective。

ANN Index 是 Vector Search 的核心

不加 index 的 ORDER BY embedding <=> ? 是 full scan：

100K row、1536 dim、每 query ~2-5s（不可用）
1M row 直接超時

pgvector 提供兩種 Approximate Nearest Neighbor（ANN）index：

Index	Build 時間	Query 時間	Recall@10	Memory cost	Update 行為
IVFFlat	快（分鐘級）	中（10-100ms）	90-95%	中（lists 數量）	Insert OK、需重建保持 recall
HNSW	慢（小時級）	快（1-10ms）	95-99%	高（2-4x 資料）	Insert OK、graph 漸進維護

選 IVFFlat 的場景：

Embedding 量 < 1M
Build 時間敏感（CI / batch 環境）
Memory 緊
接受重建 cost（每月 / 每季）

選 HNSW 的場景：

Embedding 量 1M-100M
Query latency < 50ms 要求
Memory 充足
Insert 量穩定（不會爆炸性增長）

IVFFlat：分 Cluster 找鄰居

IVFFlat 機制：

Build：跑 k-means 把所有 vector 分 lists 個 cluster
Query：先找最近的 probes 個 cluster、再在這些 cluster 內找 nearest neighbor

1-- Build（lists 數量重要）
2CREATE INDEX ON documents USING ivfflat (embedding vector_cosine_ops) WITH (lists = 100);
3
4-- Query 時調 probes 換 recall vs latency
5SET ivfflat.probes = 10;
6SELECT * FROM documents ORDER BY embedding <=> ? LIMIT 10;

Lists 跟 probes sizing 規則（pgvector 官方建議）：

Row count	lists 建議	probes 建議
< 1M	`rows / 1000`	`sqrt(lists)`
> 1M	`sqrt(rows)`	`sqrt(lists)`

實務：100K row → lists=100 / probes=10、1M row → lists=1000 / probes=32。

IVFFlat 的 recall drift：cluster 是 build 時固定的、新 insert 的 vector 進入「最近 cluster」、但隨資料分布改變、cluster center 可能不再代表性、recall 隨時間下降。

修法：定期 REINDEX INDEX CONCURRENTLY ...（每月 / 每 100K 新 row）。

HNSW：Multi-level Graph 找鄰居

HNSW（Hierarchical Navigable Small World）機制：

多層 graph、上層稀疏、下層密集
Query 從上層 entry point 開始、逐層找近鄰、最後在底層精細搜尋
Insert 漸進維護 graph、不必重建

1-- Build（兩個關鍵參數）
2CREATE INDEX ON documents USING hnsw (embedding vector_cosine_ops)
3WITH (m = 16, ef_construction = 64);
4
5-- Query 時調 ef_search
6SET hnsw.ef_search = 100;
7SELECT * FROM documents ORDER BY embedding <=> ? LIMIT 10;

參數含義：

參數	含義	預設	Trade-off
`m`	每 node 最多鄰居數	16	大 → recall 高、memory 多
`ef_construction`	Build 時 graph 質量參數	64	大 → build 慢、graph 質量好
`ef_search`	Query 時搜尋範圍	40	大 → recall 高、latency 高

Build cost 真實量級（1M vector × 1536 dim）：

配置	Build 時間	Memory	Recall@10
m=8, ef_construction=32	30 min	4GB	92%
m=16, ef_construction=64	2 hour	8GB	96%
m=32, ef_construction=200	8 hour	16GB	98%

Production 多數選中間 m=16, ef_construction=64、recall / cost 平衡。

Hybrid Search：Vector + Filter 一起

Vector search 加 SQL filter 是 pgvector 比專業 vector DB 強的場景：

1-- Vector + metadata filter
2SELECT * FROM documents
3WHERE category = 'tech' AND created_at > '2025-01-01'
4ORDER BY embedding <=> '[0.1, 0.2, ...]'
5LIMIT 10;

但這裡有個 pgvector 的踩雷：filter 跟 ANN index 互動有兩種模式：

Pre-filter（planner 選）：先 filter 出符合條件的 row、再對 subset 跑 vector ordering → 不用 ANN index、可能慢
Post-filter：用 ANN index 找 top-N、再 filter、可能 N 不夠補

pgvector 0.8+（2024-10 release）加入 iterative index scan：HNSW / IVFFlat 一邊掃 graph 一邊 filter、效能比 pre-filter 好 5-10x。0.7+（2024-07）加 halfvec / binary quantization / parallel HNSW build。

實務：filter selectivity 高（< 10%）時、考慮對 filter column 加 index 走 pre-filter；selectivity 低（> 50%）走 iterative scan。

Quantization 跟 Dimension Reduction

1536 dim float32 vector 一筆 6KB、1M row 6GB、加 HNSW index 後 ~20GB。Memory 緊時的省法：

Half-precision（pgvector 0.7+）

1CREATE TABLE documents (
2    embedding halfvec(1536)
3);

halfvec 是 float16、storage 減半、recall 損失通常 < 1%。

Binary quantization

1-- 把每維壓成 1 bit
2CREATE INDEX ON documents USING hnsw (embedding bit_hamming_ops);

Recall 下降明顯（85-90%）、但 storage 1/32、適合「先粗篩再 rerank」hybrid pipeline。

Dimension reduction

訓練 PCA / Matryoshka model 把 1536 dim 降到 256-512 dim、recall 通常損失 < 3%、storage 1/3-1/6。

5 個 Production 踩雷

Case 1：Dimension 超 2000 限制

情境：要用 OpenAI text-embedding-3-large（3072 dim）、CREATE TABLE ... embedding vector(3072) 報錯。

pgvector vector type 上限 2000 dim（IVFFlat / HNSW index 限制）。

修法：

改用 halfvec（pgvector 0.7+ 支援 4000 dim）
用 Matryoshka 截斷到 2000 dim 以下
換 embedding model（OpenAI text-embedding-3-small 1536 dim / 可截斷到 256-1024）

Case 2：HNSW build 太慢

情境：1M row build HNSW、跑 8 小時、blocking production。

修法：

1-- 用 CONCURRENTLY 不 block
2CREATE INDEX CONCURRENTLY ON documents USING hnsw (...);
3
4-- 開 maintenance_work_mem
5SET maintenance_work_mem = '8GB';
6
7-- 開 parallel
8SET max_parallel_maintenance_workers = 7;

仍慢的話、考慮：

切分 batch insert + index（適合 read-heavy）
用 IVFFlat 短期上線、之後再切 HNSW
改用 cloud managed pgvector（提供更大 instance）

Case 3：IVFFlat 不重建 recall 漂移

情境：IVFFlat build 時資料 100K、現在 500K、新資料 recall 從 92% 降到 75%、user 抱怨「找不到相關文件」。

修法：

Monitor recall：定期跑 ground-truth eval（brute-force 對比）
設定 reindex policy：每 100K 新 row 或每月 reindex
換 HNSW：insert 漸進維護、不需 reindex（trade-off：build 更慢）

情境：query WHERE user_id = ? ORDER BY embedding <=> ?、user_id 高選擇性（1/1M）、planner 選 vector index scan、掃到 top-K 全不符 user_id、補抓無止盡。

修法：

EXPLAIN 看 planner 選 pre-filter 還是 vector-first
對 user_id 加 B-tree index、強 planner pre-filter（hint 不容易、用 statistics）
pgvector 0.8+ 用 iterative scan、自動處理
設計 schema：高選擇性 filter（user_id）建議走 pre-filter；低選擇性（category）走 iterative

Case 5：Memory budget 沒抓

情境：1M vector × 1536 dim × HNSW（m=16）= ~12GB index、shared_buffers 8GB、index 不在 cache、每 query disk IO、latency 100ms+。

修法：

算 vector + index memory：row × dim × 4 bytes × (1 + index_overhead)
shared_buffers 至少能放 hot index portion
不行就降 dim（halfvec）/ 升 instance / 拆 sharded

跟專業 Vector DB 對比

維度	pgvector	Pinecone	Weaviate	Milvus
Query 介面	SQL	REST/gRPC API	GraphQL / REST	gRPC
Recall	95-99%（HNSW）	95-99%	95-99%	95-99%
Throughput	中（PG 限制）	高	高	高
Hybrid search	強（完整 SQL）	中（metadata filter）	中	中
跟既有 PG 整合	完美（同 DB join）	需 sync	需 sync	需 sync
Multi-tenant	row-level（PG 一致）	內建	內建	partition
Open source	是	否	是	是
Operational cost	跟 PG 一樣（管 PG 即可）	Managed-only	需自管或 cloud	需自管或 cloud
Scale 上限	10M-100M vector	10B+	1B+	10B+

選 pgvector 的場景：

Application 已用 PG、不想多管系統
Vector 量 < 100M
需要 join vector + relational
Team SQL 熟、不想學 API SDK
Cost 敏感（managed Pinecone 1M vector 月 ~$70+）

選專業 vector DB 的場景：

Vector 量 > 5-20M（依 dim / QPS / recall 要求、pgvector 在這個級別 + 高 QPS 已開始痛、不必撐到 100M 才換）
純 vector workload（沒 relational integration）
需要 multi-tenant SaaS
Throughput 要求極高（> 10K QPS）
不想自管 HNSW build / memory budget / recall drift（managed Pinecone 把這層 ops 轉嫁、cost 換 ops 時間）
需要 dim > 2000（pgvector vector type 限制、halfvec 可到 4000、再大需 dimension reduction）

下一步

看 extension-ecosystem 探索其他 PG 擴展可能
回 PostgreSQL overview 看全圖

PostGIS Deep Dive：Geometry / Geography 型別、GiST 空間索引跟 ST_* 函式生態

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 PostGIS extension — PG 變 GIS DB 的標配、跟 extension-ecosystem 是 單一 extension 細節 vs ecosystem 全景 的關係。

PostGIS 是 PG 的 GIS Specialization

PostGIS 是 PG 最成熟的 extension 之一（2001 年起、25 年歷史）、產業地位等同 OracleSpatial / SQL Server geography：

1CREATE EXTENSION postgis;

加完後 PG 多兩件事：

空間型別：geometry（平面）/ geography（地球曲面）/ raster（柵格）
1000+ 函式：ST_Distance / ST_Within / ST_Buffer / ST_Intersects 等

用 PostGIS 解的典型 workload：

「離我最近的 N 家店」（k-NN）
「半徑 1km 內的所有 POI」（radius query）
「兩個 polygon 是否重疊」（intersection）
「polyline 總長度」（measurement）
「行政區包含哪些 point」（containment）

Geometry vs Geography：選錯付學費

PostGIS 提供兩種空間型別、用途完全不同：

維度	`geometry`	`geography`
座標系統	平面（笛卡兒）	地球曲面（spheroid）
距離單位	座標系統決定（meter / degree）	永遠 meter
跨經度 180°	不處理	自動處理
適用範圍	小區域（單一城市 / 國家）	全球
函式覆蓋	1000+ 函式	約 300 函式
效能	快（平面計算）	慢 2-5x（球面計算）
Index 行為	GiST 直接	GiST 直接

選 geography 的場景：

全球範圍 application（跨國 / 跨大陸）
距離精準度要求高（球面比平面誤差小）
不需要複雜空間運算（geography 函式較少）

選 geometry 的場景：

單一城市 / 國家內 application
需要完整 ST_* 函式（90% 函式只支援 geometry）
效能敏感

實務多數 production 選 geometry + 適合的 SRID（用 local projection）— 既快又精準。

SRID 跟 Projection：為什麼 4326 vs 3857 是 GIS 第一課

SRID（Spatial Reference System Identifier）定義「座標數字怎麼解讀」：

SRID	名稱	適用
4326	WGS 84（GPS）	經緯度、最常見、Google Maps API
3857	Web Mercator	Web tile map（OpenStreetMap）
3826	TWD97 / TM2 zone 121	台灣 local projection、米為單位
2272	NAD83 / Pennsylvania	美國 state plane（各州不同）

為什麼選 local projection（3826）而不是經緯度（4326）：

經緯度單位是度、不是距離 — ST_Distance 直接算出來是「度」、不是「米」
距離計算需 ST_DistanceSphere 或 geography cast、計算 cost 高
Local projection 是「平面投影」、ST_Distance 直接是米、ST_Area 直接是平方米

 1-- 4326 經緯度直接算 → 結果不是米
 2SELECT ST_Distance(
 3    ST_SetSRID(ST_MakePoint(121.5654, 25.0330), 4326),  -- 台北 101
 4    ST_SetSRID(ST_MakePoint(121.5170, 25.0478), 4326)   -- 台北車站
 5);  -- ~0.05（這是「度」）
 6
 7-- 轉 3826（台灣本地投影）才是米
 8SELECT ST_Distance(
 9    ST_Transform(ST_SetSRID(ST_MakePoint(121.5654, 25.0330), 4326), 3826),
10    ST_Transform(ST_SetSRID(ST_MakePoint(121.5170, 25.0478), 4326), 3826)
11);  -- ~5300（米）
12
13-- 或用 geography cast
14SELECT ST_Distance(
15    ST_SetSRID(ST_MakePoint(121.5654, 25.0330), 4326)::geography,
16    ST_SetSRID(ST_MakePoint(121.5170, 25.0478), 4326)::geography
17);  -- ~5300（米）

典型 schema 設計（台灣 application）：

 1CREATE TABLE pois (
 2    id SERIAL PRIMARY KEY,
 3    name TEXT,
 4    -- 儲存 4326（跟 Google Maps API 對齊）
 5    location_4326 geometry(Point, 4326),
 6    -- 預計算 3826（給距離 / 面積 query 用）
 7    location_3826 geometry(Point, 3826) GENERATED ALWAYS AS
 8        (ST_Transform(location_4326, 3826)) STORED
 9);
10
11CREATE INDEX idx_pois_location_3826 ON pois USING GIST (location_3826);

GiST 空間索引：R-tree 的 PG 實作

PostGIS 用 PG 內建 GiST 做空間索引（內部是 R-tree 變體）：

1CREATE INDEX idx_pois_geom ON pois USING GIST (location_3826);

GiST 對空間 query 加速的場景：

 1-- 範圍 query（box overlap）
 2SELECT * FROM pois
 3WHERE location_3826 && ST_MakeEnvelope(290000, 2760000, 305000, 2775000, 3826);
 4
 5-- 半徑 query（用 ST_DWithin 才走 index）
 6SELECT * FROM pois
 7WHERE ST_DWithin(location_3826, ST_SetSRID(ST_MakePoint(300000, 2770000), 3826), 1000);
 8
 9-- k-NN（PostGIS 2.0+ <-> operator）
10SELECT id, name, location_3826 <-> ST_SetSRID(ST_MakePoint(300000, 2770000), 3826) AS dist
11FROM pois
12ORDER BY location_3826 <-> ST_SetSRID(ST_MakePoint(300000, 2770000), 3826)
13LIMIT 10;

index 用沒用到的關鍵：

Query 寫法	走 index？
`ST_DWithin(a, b, dist)`	是
`ST_Distance(a, b) < dist`	否（必 full scan）
`a && bbox`	是
`ST_Intersects(a, bbox)`	是
`a <-> b ORDER BY ... LIMIT n`	是（k-NN）
`ST_Equals(a, b)`	否

Production 寫法守則：能用 ST_DWithin 就不用 ST_Distance(...) < ?、語意一樣但 index 行為差很多。

ST_* 函式生態：產業級全套

PostGIS 1000+ 函式分類（典型用到的）：

類別	代表函式
建構	`ST_MakePoint` / `ST_MakeLine` / `ST_MakePolygon`
關係判定	`ST_Intersects` / `ST_Within` / `ST_Contains` / `ST_Touches`
距離 / 大小	`ST_Distance` / `ST_DWithin` / `ST_Length` / `ST_Area`
變換	`ST_Buffer` / `ST_Union` / `ST_Difference` / `ST_Intersection`
投影	`ST_Transform` / `ST_SetSRID`
格式轉換	`ST_AsGeoJSON` / `ST_AsKML` / `ST_AsText` / `ST_GeomFromGeoJSON`
路徑 / 拓樸	`ST_ShortestLine` / `ST_LineMerge`
聚合	`ST_Collect` / `ST_ConvexHull` / `ST_Centroid`
簡化	`ST_Simplify` / `ST_SimplifyPreserveTopology`

Web tile 場景典型 query：

1-- 給定 z/x/y tile、找這個 tile 內的所有 POI
2SELECT id, name, ST_AsMVTGeom(location_3857, ST_TileEnvelope(z, x, y)) AS geom
3FROM pois
4WHERE location_3857 && ST_TileEnvelope(z, x, y);

ST_AsMVTGeom + ST_AsMVT 直接產 Mapbox Vector Tile binary、給前端 Leaflet / Mapbox GL JS 用。

5 個 Production 踩雷

Case 1：Geometry 用錯 SRID

情境：app 寫入時用 4326、query 時用 3826 ST_Transform、忘記給某個 column 設 SRID、index 失效。

修法：

 1-- 確認 SRID
 2SELECT ST_SRID(location) FROM pois LIMIT 1;
 3
 4-- 強 type 約束（column type 寫死 SRID）
 5ALTER TABLE pois ALTER COLUMN location TYPE geometry(Point, 4326)
 6USING ST_SetSRID(location, 4326);
 7
 8-- Check constraint 防錯
 9ALTER TABLE pois ADD CONSTRAINT chk_location_srid
10CHECK (ST_SRID(location) = 4326);

Case 2：Geography 不能用所有 ST_* 函式

情境：用 geography 想跑 ST_Buffer、報錯或結果不對。

ST_Buffer 對 geography 走 spheroid 近似、邊界 case 結果跟 geometry 不一致；很多函式（ST_Voronoi / ST_Delaunay 等）只支援 geometry。

修法：

簡單距離 query 用 geography
複雜空間運算用 geometry + 適合 projection
不確定哪些函式支援 geography、看 PostGIS docs Geography Support Functions 清單

Case 3：GiST index 不對 ST_Distance 生效

情境：query ST_Distance(location, ?) < 1000、EXPLAIN 顯示 full scan、加 index 也沒用。

ST_Distance 算完才 filter、planner 沒辦法用 GiST。

修法：

改 ST_DWithin(location, ?, 1000) — 語意一樣、會走 GiST
確認 index 是對 被 query 的 column 建的（不是 transform 後的 expression）

Case 4：CLUSTER on geom 後 BRIN 失效

情境：對 pois 跑 CLUSTER pois USING idx_pois_geom 想加速空間查、但同時對 created_at 用 BRIN index、BRIN 完全失效。

CLUSTER 重組 physical order 跟 GiST 對齊、created_at physical order correlation 從 1.0 變 0.0、BRIN range 沒選擇性。

修法：

不要 CLUSTER 大表（一次性、影響其他 column）
換 partition by time + GiST per-partition（取兩者）
看 index-selection 的 BRIN 段

Case 5：EWKB vs WKB 跨工具相容

情境：用 PostGIS export 給其他 GIS 工具（QGIS / Shapely / ogr2ogr）、resort 抱怨格式不對。

PostGIS 內部用 EWKB（Extended Well-Known Binary）— 多帶 SRID。多數 GIS 工具讀 WKB（標準）。

修法：

1-- Export 標準 WKB
2SELECT ST_AsBinary(geom) FROM pois;
3
4-- 或 GeoJSON（跨工具最相容）
5SELECT ST_AsGeoJSON(geom) FROM pois;
6
7-- 或 Shapefile via ogr2ogr
8-- ogr2ogr -f "ESRI Shapefile" output.shp PG:"..." -sql "SELECT * FROM pois"

跟專業 GIS DB 對比

維度	PostGIS	Oracle Spatial	SQL Server geography	MongoDB GeoJSON
函式覆蓋	1000+	800+	200+	~20
Raster 支援	是	是	否	否
Topology	是（PostGIS Topology）	是	否	否
3D 支援	是（PostGIS SFCGAL）	是	部分	否
License	GPL	商業	商業	開源
Tile generation	內建（ST_AsMVT）	否	否	否
跟 PG 整合	完美	跟 Oracle 一體	跟 SQL Server 一體	獨立
工業界使用	OpenStreetMap / 各國國土測繪	大型企業	Microsoft 生態	簡單 location app

選 PostGIS 的場景（90% GIS workload）：

Application 已用 PG
需要完整 GIS 函式生態（路網 / 等高線 / 流域分析）
開源 / cost 敏感
跟 OGR / GDAL / QGIS 互通

選專業 GIS DB 的場景：

已綁定 Oracle / SQL Server license
極專業 GIS（3D 城市模型 / LIDAR / GPU 加速）
純 location app 不需 relational（MongoDB GeoJSON 足夠）

下一步

看 extension-ecosystem 探索其他 PG 擴展可能
回 PostgreSQL overview 看全圖

PostgreSQL autovacuum tuning：為什麼你的 autovacuum 永遠追不上 bloat

Mon, 18 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PostgreSQL MVCC 的 vacuum 必要性、本文聚焦 autovacuum 在 production write-heavy workload 為什麼追不上 的根因 + 各維度 tuning。

你的 autovacuum 永遠追不上 bloat — 為什麼

write-heavy table 的常見故事：上線時表 10GB、3 個月後 30GB、6 個月 80GB；DBA 看 pg_stat_user_tables 發現 n_dead_tup 比 n_live_tup 還多、pg_stat_progress_vacuum 顯示 autovacuum 一直在跑、但 dead tuple 從沒清乾淨。表本身才 5M row、實際磁碟卻佔 80GB。

這不是 PostgreSQL bug、是 autovacuum cost-based throttling 預設保守 的設計意圖 — autovacuum 不該影響 OLTP query 性能、所以每跑一段就 sleep。預設 autovacuum_vacuum_cost_limit=200 + autovacuum_vacuum_cost_delay=2ms 在 write-heavy 表（每秒幾千 UPDATE）下、清理速度 永遠慢於 dead tuple 產生速度。預設配置適合 read-heavy / write-light workload；OLTP write-heavy 必須調。

MVCC 跟 dead tuple：vacuum 在解什麼

PostgreSQL MVCC：每次 UPDATE 都是 insert new row + mark old row as deleted；DELETE 是 mark as deleted、不立刻釋放空間。dead tuple 在 disk 上佔位、但不能被 query 讀到。autovacuum 的責任：

回收 dead tuple 空間 供新 row reuse（不縮 table 大小、是 free space map）
更新 visibility map 讓 index-only scan 跳過 heap fetch
凍結老 row 的 xid（freeze）避免 xid wraparound 災難
重整 index B-tree 標記 dead pointer（不刪 index page）

Vacuum 不縮表 — 真要縮要跑 VACUUM FULL（全表 exclusive lock、production 不能跑）或 pg_repack（online repack tool）。預期 vacuum 只能 讓表停止長大、不能 讓表變小。

Tuning：cost-based throttle 跟 trigger threshold

Cost-based throttle（全 instance）

1# postgresql.conf
2autovacuum_vacuum_cost_limit = 2000          # 預設 200、production 拉 5-10 倍
3autovacuum_vacuum_cost_delay = 2ms            # 預設 2ms、不太需要動
4autovacuum_max_workers = 6                    # 預設 3、CPU 多時拉到 6-10
5maintenance_work_mem = 1GB                    # 預設 64MB、單一 vacuum 用的記憶體

直覺：

cost_limit 是每個 cycle 能消費多少「cost」、cost 由 page read / dirty / hit 加總；拉高 = 每次 cycle 處理更多 page
拉 cost_limit 比 cost_delay 直接 — delay 太低（< 1ms）OS scheduler 抖動就無效
max_workers 限同時跑的 vacuum；partition 多時容易爆滿、要拉
maintenance_work_mem 影響 index vacuum 速度、SSD 環境 1-2GB 是 sweet spot

Per-table override（精準到 hot table）

 1-- 對 hot write-heavy 表加強
 2ALTER TABLE events SET (
 3  autovacuum_vacuum_scale_factor = 0.05,      -- 預設 0.2、5% dead 就觸發
 4  autovacuum_vacuum_threshold = 1000,          -- 預設 50、絕對值底線
 5  autovacuum_vacuum_cost_limit = 5000,         -- 該表獨立 cost_limit
 6  autovacuum_analyze_scale_factor = 0.05,      -- analyze 也跟著
 7  autovacuum_freeze_max_age = 100000000        -- anti-wraparound 提前
 8);
 9
10-- 對 append-only 表（log table）降頻
11ALTER TABLE audit_log SET (
12  autovacuum_vacuum_scale_factor = 0.5,        -- 50% dead 才觸發（極少 UPDATE / DELETE）
13  autovacuum_freeze_max_age = 1000000000       -- freeze 延後
14);

關鍵：hot table 比 default 緊、cold table 比 default 鬆、不要把所有表用同套配置。Production cluster 通常 5-20 個 hot table 需要 per-table tuning。

Production 故障演練

Case 1：write-heavy hot table，autovacuum 永遠跑不完

徵兆：pg_stat_user_tables.n_dead_tup 持續高於 n_live_tup、pg_stat_progress_vacuum 顯示某表 vacuum 跑了 6+ 小時還在 scanning heap、表 size 持續長大。

根因：default cost_limit=200 對該表 write rate（~5000 UPDATE/s）下、vacuum 處理速度 < dead tuple 產生速度；單次 autovacuum 跑完整表要 12 小時、但表 5% bloat 觸發又啟動下一輪。

修法：

對該表 ALTER TABLE ... SET (autovacuum_vacuum_cost_limit = 10000) — 該表 vacuum 不受全 instance 限制
maintenance_work_mem 拉到 2GB（單 vacuum）
短期：手動 VACUUM (VERBOSE, ANALYZE) events; 在 maintenance window 跑、catch up
長期：考慮 partitioning — partition 後 vacuum 只動最近 partition、不掃整表

Case 2：長 transaction 卡住 vacuum 的 xmin horizon

徵兆：autovacuum 看似有跑、但 n_dead_tup 不降；pg_stat_activity 看到一個跑了 8 小時的 SELECT（report query 或 idle in transaction）。

根因：vacuum 只能回收「不會被任何 active transaction 看到」的 dead tuple；長 transaction 的 xmin 鎖死 vacuum 能回收的範圍、即使 autovacuum 不停跑、能回收的 row 數為 0。

修法：

預防：application 端用 statement_timeout + idle_in_transaction_session_timeout（30 分鐘）強制終止 long transaction
偵測：SELECT pid, now() - xact_start FROM pg_stat_activity WHERE state = 'idle in transaction' 定期掃
臨時：kill 長 transaction（pg_cancel_backend(pid) / pg_terminate_backend(pid)）、autovacuum 下次跑就能回收
架構：報表 query 跑在 standby、不要在 primary 開 long transaction

Case 3：Anti-wraparound vacuum 在 peak 觸發

徵兆：production 流量高峰時 PostgreSQL CPU 100%、pg_stat_progress_vacuum 顯示 anti-wraparound vacuum 正在跑、application latency 暴漲；log 出現 database "myapp" must be vacuumed within X transactions。

根因：autovacuum_freeze_max_age（預設 200M）到了、PostgreSQL 強制跑 anti-wraparound vacuum（即使在 peak）；這個 vacuum 不受 cost_limit 限制、跑到完才停、表大時要幾小時、跟 OLTP query 搶 IO。

修法：

預防：autovacuum_freeze_max_age 拉到 1B（10 億）、給 freeze 更多時間在 off-peak 自然發生
per-table freeze：hot table 設 autovacuum_freeze_max_age = 100M（提前在 off-peak freeze）、cold table 設 800M（避免不必要 freeze）
緊急：手動跑 VACUUM (FREEZE, VERBOSE) table_name; 在 maintenance window 預先 freeze
監測：SELECT relname, age(relfrozenxid) FROM pg_class WHERE relkind = 'r' ORDER BY age(relfrozenxid) DESC LIMIT 20; 看哪些表逼近 wraparound

Case 4：Partition table 把 autovacuum_max_workers 跑滿

徵兆：partition 後（時間 partition、12 個月分區）、autovacuum 跑很慢、pg_stat_activity 看到 3 個 autovacuum worker 都在跑 partition 表、其他 hot table queue 等很久。

根因：autovacuum_max_workers=3 預設、每個 partition 算獨立 table；100 個 partition 中 50 個都需要 vacuum、worker 滿、其他 table 排隊。

修法：

拉 autovacuum_max_workers 到 6-10（依 CPU core 數）
cold partition 設 autovacuum_enabled = false（已不寫的舊 partition）、減少 worker 競爭
partition 數量本身要克制 — 100+ partition 是訊號該重新評估 partition strategy

Case 5：Index bloat 沒被 vacuum 處理

徵兆：表 vacuum 跑完了、n_dead_tup 為 0、但 index size 持續長大；query 用該 index 越來越慢、跟 sequential scan 差不多。

根因：autovacuum 只處理 heap（table data）跟 index leaf pages；index B-tree 內部結構 fragmentation 不被 vacuum 處理。dead pointer 留在 index leaf page、查詢仍 traverse 過、IO 多。

修法：

REINDEX CONCURRENTLY 線上重建 index（PG 12+）、不鎖表
監測 index bloat：pgstattuple_approx extension 或 pg_repack
預防：B-tree index 設計避免 high cardinality + 大量 UPDATE 同欄位（typical 場景：status column update）；考慮 partial index 或 hash index（PG 10+ logged）
大量 bloat index 用 pg_repack 重建（不需要 superuser、不鎖表）

容量規劃

vacuum capacity 用 跟得上 dead tuple 產生速度 衡量：

維度	估算方式	警戒
dead tuple 產生 rate	`UPDATE/s + DELETE/s + ~10% INSERT/s（HOT update miss）`	跟 vacuum rate 對比
vacuum 處理 rate	`cost_limit / cost_delay × page_size`、~MB/s 數量級	跟 dead tuple rate 對比
autovacuum_max_workers	partition 數 + hot table 數 / 3-5	100+ partition 必須拉 worker
maintenance_work_mem	1-2GB / vacuum worker	全 worker 跑時的記憶體上限要 sizing
anti-wraparound 觸發頻率	預設 200M xid、write-heavy ~ 1-2 週觸發一次	拉到 1B 後 ~ 2-3 月一次
Bloat ratio	`pg_stat_user_tables.n_dead_tup / n_live_tup`	> 50% 表示 vacuum 追不上

實務 default：

OLTP write-heavy（事件 / 訂單）：cost_limit 2000-5000、scale_factor 0.05、freeze_max_age 100M
OLTP read-heavy（user / config）：default 即可
Append-only log：scale_factor 0.5、freeze_max_age 800M、autovacuum_enabled = false for cold partition

整合 / 下一步

跟 partitioning 整合

partitioning 是 vacuum 問題的長期解：

大表（> 100GB）vacuum 時間隨 size 線性、partition 後 vacuum 只動最近 partition
Cold partition autovacuum_enabled = false 完全停掉、新數據只在 hot partition
缺點：partition 數量爆炸時、autovacuum_max_workers 也要拉

跟 monitoring 整合

關鍵 metric：

 1-- bloat 比例
 2SELECT relname, n_dead_tup, n_live_tup,
 3       round(n_dead_tup::numeric / nullif(n_live_tup, 0) * 100, 1) AS dead_pct
 4FROM pg_stat_user_tables
 5WHERE n_live_tup > 1000
 6ORDER BY n_dead_tup DESC LIMIT 20;
 7
 8-- vacuum 進度
 9SELECT * FROM pg_stat_progress_vacuum;
10
11-- xid wraparound 距離
12SELECT datname, age(datfrozenxid) FROM pg_database ORDER BY age DESC;

Prometheus alert 三條：dead_pct > 30、vacuum_running_seconds > 3600、xid_age > 500000000。

跟 backup window

VACUUM FREEZE 在 backup 前跑能減少 backup size（freeze tuple 不需要 special handling）：

每週 maintenance window 跑 VACUUM (FREEZE, ANALYZE) hot_table — 預先 freeze + 更新 stats
backup 前避免長 transaction、確保 vacuum 能跑

下一步議題

HOT update 跟 fillfactor：UPDATE 同頁可重用空間、fillfactor 80 為 hot table 留 20% buffer
pg_repack vs VACUUM FULL：online vs offline、長期維護工具選擇
PostgreSQL 14+ parallel vacuum：index vacuum 平行化、大表受益明顯

PostgreSQL declarative partitioning：partition 不是切表、是讓 planner pruning

Mon, 18 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明大表（> 1TB）需要 partitioning、本文聚焦 partition 真實價值在哪、為什麼多數人第一次 partition 都做錯。

Partition 不是「把大表切小」、是「讓 planner pruning + 縮小 maintenance scope」

剛開始學 partitioning 的人多半從「表太大、切小一點」直覺出發；切了之後發現 — query 變慢（planner 還在看所有 partition）、INSERT 變慢（trigger / partition routing overhead）、backup 沒變短（總資料量沒變）。直覺錯了：partition 的工程價值來自兩個機制、跟「切小」沒直接關係：

Query planner pruning：planner 在 planning 階段跳過不可能命中 partition key 的 partition、查詢只 scan 相關 partition；前提是 WHERE 條件含 partition key、否則 planner 看完所有 partition、效能反而比單表差
Maintenance scope 縮小：vacuum / index rebuild / DROP / archive 只動單一 partition、不掃整表；vacuum 12 小時變 30 分鐘 / DROP 老資料 0.01 秒、是 partition 真正回本的地方

partition 是 為了 maintenance 跟 planner pruning 設計、不是「表變小」設計。漏掉這個 framing、partition 配置會錯。

RANGE / LIST / HASH：partition 策略對應業務形狀

 1-- RANGE: 時間序列、log、event（最常見）
 2CREATE TABLE events (
 3  id bigint,
 4  event_time timestamptz NOT NULL,
 5  payload jsonb
 6) PARTITION BY RANGE (event_time);
 7
 8CREATE TABLE events_2026_05 PARTITION OF events
 9  FOR VALUES FROM ('2026-05-01') TO ('2026-06-01');
10
11-- LIST: tenant ID / region / status enum
12CREATE TABLE orders (
13  id bigint,
14  tenant_id int NOT NULL,
15  ...
16) PARTITION BY LIST (tenant_id);
17
18CREATE TABLE orders_tenant_premium PARTITION OF orders
19  FOR VALUES IN (1001, 1002, 1003);
20
21-- HASH: 均勻散落（無自然 partition key）
22CREATE TABLE users (
23  user_id bigint NOT NULL,
24  ...
25) PARTITION BY HASH (user_id);
26
27CREATE TABLE users_0 PARTITION OF users
28  FOR VALUES WITH (MODULUS 4, REMAINDER 0);

策略選擇關鍵：

RANGE 適合 時間 / 有序值 — query 多半帶 WHERE event_time >= X、prune 效率最高；archive / drop 老資料是 DROP PARTITION 0.01 秒
LIST 適合 離散 enum / tenant — query 帶 WHERE tenant_id = X prune；缺點是 tenant 增長要手動 ALTER ADD PARTITION
HASH 適合 均勻分散、沒自然 key — query 多半 by-PK lookup、HASH 讓單 partition 大小均勻；prune 只在 WHERE hash_key = X 等值查詢觸發

選錯 partition key 是最常見的錯誤

例：events 表用 user_id HASH partition、但 query 多半 WHERE event_time BETWEEN ...、user_id 不在 WHERE — planner 沒法 prune、掃所有 partition、效能比單表更差（多了 partition routing overhead）。

partition key 必須對應 query 最常用的 WHERE filter；錯了就退化成 維護面有好處、查詢面有壞處 的尷尬狀態。

Partition pruning：planner 怎麼決定跳過

1EXPLAIN (ANALYZE, BUFFERS)
2SELECT * FROM events
3WHERE event_time >= '2026-05-01' AND event_time < '2026-05-15';
4
5-- 期望輸出包含：
6--  Append (cost=...)
7--    -> Seq Scan on events_2026_05  (cost=...)
8-- (只 scan 一個 partition、其他 partition pruned)

pruning 觸發條件：

WHERE 含 partition key 的 constant expression（WHERE x = 5 觸發；WHERE x = some_function() 不觸發 planning-time prune、但 PG 11+ execution-time prune 可救）
PG 11+ 支援 execution-time pruning — query plan 內含 partition key、runtime 才知道值（prepared statement / NestedLoop join）
partition key 不在 WHERE 時 — 全部 partition 掃、是反指標、表示 partition strategy 不對

Partition-wise join / aggregate (PG 11+)

1SET enable_partitionwise_join = on;
2SET enable_partitionwise_aggregate = on;
3
4-- 兩個同 partition 策略的表 JOIN 時、planner 可 partition-wise 平行做
5SELECT * FROM events e JOIN events_metadata m
6  ON e.event_time = m.event_time
7  WHERE e.event_time >= '2026-05-01';

需要兩個表 partition strategy 完全一致（同 partition key + 同 partition boundary）— 設計時對齊、後期不容易調整。

Production 故障演練

Case 1：partition key 選錯，query 變慢

徵兆：partition 後特定查詢從 200ms 變成 2000ms；EXPLAIN 顯示 Append 下面所有 partition 都被 scan、沒 partition 被 prune。

根因：partition by user_id HASH、但 query 多用 WHERE created_at BETWEEN X AND Y；planner 不知道 user 在哪個 partition、必須掃全部。

修法：

驗證 step：partition 前先 pg_stat_statements 看 top 10 query 的 WHERE pattern、partition key 必須對應其中 80% 流量的 filter
修正：DROP partition strategy、改 partition by created_at RANGE；遷移用 pg_dump --section=data per-partition 重灌
避免：partitioning 不可逆、設計階段 query pattern 沒看清楚不要動

Case 2：cross-partition unique constraint 不 enforce

徵兆：partition 後發現 application code 寫死 duplicate user_email、但 unique constraint 沒擋；DB 內有同 email 多筆。

根因：PostgreSQL partition table 的 UNIQUE constraint 必須包含 partition key — UNIQUE (email) 在 partition by tenant_id 的表上 無法 enforce（PostgreSQL 拒建）；workaround 用 UNIQUE (email, tenant_id)、但業務語意是「email 全域唯一」、PG 無法保證。

修法：

架構：跨 partition 唯一性必須在 application 層 enforce（lock + check 模式）
替代：用 non-partitioned 表存唯一性目標（user_email_registry）、做寫入前 lookup
設計階段檢查：partition by X、unique constraint 必須含 X；若業務要求 unique 不含 X、partition strategy 錯

Case 3：ATTACH PARTITION 鎖表太久

徵兆：新 month partition ATTACH PARTITION 跑 30 秒、期間整個 events 表 read 阻塞、application timeout 大量。

根因：ATTACH PARTITION 預設加 ACCESS EXCLUSIVE lock 在 parent table、scan 整個新 partition 驗證 CHECK constraint；大 partition + 沒 CHECK constraint 預先驗證 → 鎖時間爆。

修法：

 1-- 1. 先把要 attach 的 partition 加 CHECK constraint，用 NOT VALID 不掃描
 2ALTER TABLE events_2026_06 ADD CONSTRAINT events_2026_06_range
 3  CHECK (event_time >= '2026-06-01' AND event_time < '2026-07-01') NOT VALID;
 4
 5-- 2. VALIDATE 用 SHARE UPDATE EXCLUSIVE lock、允許讀寫
 6ALTER TABLE events_2026_06 VALIDATE CONSTRAINT events_2026_06_range;
 7
 8-- 3. ATTACH 不再需要 scan（CHECK 已 VALIDATE 過）
 9ALTER TABLE events ATTACH PARTITION events_2026_06
10  FOR VALUES FROM ('2026-06-01') TO ('2026-07-01');
11-- ATTACH 變 instant

Case 4：partition 數爆炸，planner planning time 爆

徵兆：partition 累積到 500+（daily partition 跑 1-2 年）、簡單 query EXPLAIN 顯示 planning_time 從 1ms 漲到 200ms、application response 變慢。

根因：partition 越多 planner 要評估的 partition 越多、即使有 pruning、planning 階段也要 walk 全部 partition table；500+ partition 是 planning overhead 明顯的閾值。

修法：

架構：partition granularity 對應 retention — 不要 daily partition 留 2 年（→ weekly / monthly）
archive 老 partition：DETACH 老 partition、轉成 cold storage 表、planner 不再看
enable_partition_pruning 預設 on、確保啟用
PG 12+：planner 對 partition table 的 list 處理優化、planning time 上限拉高、但仍要控

Case 5：DETACH 後磁碟空間沒回收

徵兆：DETACH PARTITION 後 pg_database_size 沒下降、預期釋放 50GB；磁碟仍滿。

根因：DETACH 只是把 partition 從 parent table 分離、partition 自己仍是獨立表存在；要真釋放需要 DROP TABLE detached_partition。SRE 以為 DETACH = 刪掉。

修法：

1-- 完整流程
2ALTER TABLE events DETACH PARTITION events_2024_01;
3-- events_2024_01 仍存在、佔磁碟
4
5-- 確認沒 query 在用後
6DROP TABLE events_2024_01;
7-- 才釋放磁碟

Routine：archive workflow

1-- 月底跑：
2-- 1. detach 13 個月前的 partition
3ALTER TABLE events DETACH PARTITION events_2025_04;
4
5-- 2. dump 到 cold storage
6\COPY events_2025_04 TO '/cold/events_2025_04.csv' (FORMAT CSV);
7
8-- 3. drop 釋放磁碟
9DROP TABLE events_2025_04;

容量規劃

維度	估算	警戒
單 partition size	跟單表 vacuum 上限對齊（10-100GB sweet spot）	> 200GB 時考慮 sub-partition 或細化 granularity
Partition 數量	對應 retention × granularity	> 200 partition 時 planning time 開始浮現
Partition key cardinality	LIST：< 100 / HASH：自定 modulus / RANGE：時間 + 維度	太多獨立 partition value 用 HASH
Cross-partition query 比例	EXPLAIN 看 partition scan 數	> 30% query 掃 > 50% partition 表示 key 選錯
Maintenance window	DROP / DETACH / ATTACH 各 partition 各自管	hot partition 維護仍在 maintenance window

實務 default：

時間序列（events / log）：monthly RANGE partition、retention 12-24 個月
Multi-tenant（orders / records）：tenant_id LIST partition + 大 tenant 各自獨立 partition
均勻散落（user / metric）：8-16 個 HASH partition、單 partition 50-100GB

整合 / 下一步

跟 autovacuum tuning 整合

partitioning 是 autovacuum 問題的長期解：

Hot partition autovacuum 緊（scale_factor 0.05、cost_limit 5000）
Cold partition autovacuum_enabled = false
但 partition 數爆會把 autovacuum_max_workers 跑滿、需要拉

跟 index 設計整合

partition table 的 index 處理：

PG 11+ 全域 index：CREATE INDEX ON partitioned_table (...) 自動在每 partition 建 local index
不存在跨 partition unique — 只能 partition-local
partition-wise index scan：PG 11+ 跟 partition-wise join 一起、index lookup 平行

跟 backup / PITR

partition 不是 backup 替代品 — 但能加速 partial restore：

只 restore 特定時段的 partition、不用 restore 整個表
對應 PITR + WAL archiving 的 partial recovery scenario

下一步議題

Sub-partitioning：partition 內再 partition（時間 + tenant）、適合 multi-tenant + 時間序列
pg_partman extension：自動建月 partition、不用 cron
Foreign key to partitioned table (PG 12+)：跨 partition FK enforce、但 cascade 限制多

PostgreSQL Logical Replication + Debezium CDC：replication slot × failure × recovery 對照

Mon, 18 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 提到 logical decoding / Debezium CDC、本文聚焦 replication slot 生命週期 + 5 個 production failure mode 跟 recovery 的對照。

Replication slot × Failure × Recovery 對照

Logical replication 跟 Debezium CDC 的 production 議題集中在 replication slot — 它是 PostgreSQL 內保證 WAL 不被回收的 anchor point；slot 設不對、整個 CDC pipeline 失效。各 failure mode 對 slot 的影響跟 recovery 路徑：

Failure mode	對 slot 影響	Primary 端徵兆	Recovery 路徑
Consumer 卡住 / lag	slot LSN 不前進、WAL 留著	`pg_wal` 目錄持續長大、disk 撐爆	修 consumer / 加 throttle / 必要時 drop slot
Consumer crash 無 restart	slot 留在 active state	跟 lag 同、不會自動清	手動 `SELECT pg_drop_replication_slot('name')`
Schema change（ADD COLUMN）	多數 plugin 自動處理、無感	通常無感	-
Schema change（DROP / RENAME COLUMN）	多數 plugin 直接斷	Consumer log 報錯、slot active 卻不前進	重建 publication / 重 init load
Initial COPY	slot 建立時跑 snapshot、long-running tx	大表 COPY 期間鎖跟 WAL 都受影響	用 `CREATE_REPLICATION_SLOT ... NOEXPORT_SNAPSHOT` 分階段
Promotion (failover)	physical slot 跟 logical slot 處理不同	logical slot 在 PG 16- 不跨 failover	PG 16+ logical slot 持久化、或 consumer 重 init load
Replay storm（offset 重置）	slot 不變、consumer 重讀	Kafka 端流量爆、application 看 duplicate	Idempotent consumer 設計、或 transactional outbox

每個 failure mode 對應的詳細配置 + recovery 步驟、下面分段展開。

Logical replication 基礎：publication + subscription + slot

1-- Primary：建 publication
2CREATE PUBLICATION app_changes FOR TABLE orders, events;
3
4-- Subscriber：建 subscription（自動建 replication slot）
5CREATE SUBSCRIPTION app_sub
6  CONNECTION 'host=primary user=replicator dbname=app'
7  PUBLICATION app_changes
8  WITH (slot_name = 'app_sub_slot', copy_data = true);

關鍵物件：

publication（primary 端）：宣告 哪些表 + 哪些操作（INSERT/UPDATE/DELETE/TRUNCATE） 對外暴露
subscription（subscriber 端、若是 PG-to-PG）：訂閱 + 自動建 slot + 自動 initial COPY
replication slot：primary 端、保證 consumer 還沒消費的 WAL 不被回收

copy_data = true 觸發 initial COPY（snapshot）+ 後續 streaming；copy_data = false 只 streaming、適合 already-in-sync 場景。

Debezium CDC：用 logical replication slot 但繞過 subscription

Debezium 不是 PostgreSQL subscriber、是 直接讀 replication slot 的外部 consumer：

 1# Debezium PostgreSQL connector
 2connector.class=io.debezium.connector.postgresql.PostgresConnector
 3database.hostname=primary
 4database.dbname=app
 5plugin.name=pgoutput                            # 內建、PG 10+ 推薦
 6slot.name=debezium_app
 7publication.name=app_changes
 8publication.autocreate.mode=filtered            # debezium 自動建 publication
 9table.include.list=public.orders,public.events
10snapshot.mode=initial                            # 起始 snapshot 後 streaming

差異：

Debezium 用 pgoutput（PG 10+ 內建）或 wal2json（外掛 plugin）解 WAL、轉成結構化事件送 Kafka
不像 PG-to-PG subscription、Debezium 沒 subscription object、是 外部 consumer 自管 replication slot
Failure mode 上 consumer 端是 Debezium 自己、所以 lag 來源是 Debezium 處理速度 / Kafka 寫入速度

Production 故障演練

Case 1：consumer lag、slot LSN 不前進、primary disk 爆

徵兆：primary pg_wal 目錄持續長大、df -h 看磁碟 90%+；pg_replication_slots 看 confirmed_flush_lsn 卡在某 LSN、pg_wal_lsn_diff(pg_current_wal_lsn(), confirmed_flush_lsn) 數十 GB。

根因：consumer（Debezium / subscriber）處理慢於 primary 寫入；replication slot 保證 WAL 不回收、但 consumer 沒消費 → WAL 堆積。

修法：

監測：Prometheus alert pg_replication_slot_lag_bytes > 5GB 觸發前 catch
修 consumer：throttle primary 寫入 OR scale Debezium / subscriber 處理能力
緊急：SELECT pg_drop_replication_slot('debezium_app') 釋放 WAL — 但 consumer 必須重 init load（資料缺一塊）
架構：用 max_slot_wal_keep_size（PG 13+）設 slot 能保留 WAL 上限、超出自動 invalidate slot、保護 primary disk

Case 2：consumer crash 後 slot 變 zombie

徵兆：Debezium pod OOM crash、新 pod 起來時報 slot is active for PID X、無法 attach；primary 端 pg_replication_slots.active = true、active_pid 指向已經死掉的 process。

根因：PostgreSQL 把 slot 標 active 是基於 當下有 connection；consumer crash 但 connection 沒被 server 端發現（network 沒 RST）、slot 留在 active state。

修法：

1-- 手動清 zombie slot
2SELECT pg_terminate_backend(active_pid) FROM pg_replication_slots
3  WHERE slot_name = 'debezium_app' AND active;
4
5-- 或直接 drop（會丟資料、consumer 要重 init）
6SELECT pg_drop_replication_slot('debezium_app');

預防：

PostgreSQL tcp_keepalives_idle / interval / count 設較短（300 / 60 / 6）、network drop 較快被發現
Consumer 端用 graceful shutdown + pg_terminate_backend(active_pid) 在 startup 前主動清 stale connection

Case 3：schema change（DROP / RENAME COLUMN）斷流

徵兆：Debezium consumer 突然停 produce 訊息、log 報 column XYZ does not exist；primary 端 slot 還 active、但 confirmed_flush_lsn 不前進。

根因：pgoutput plugin 把 WAL 解成 row event 時、用的 schema 是 當下 catalog；如果中間 DROP COLUMN、之前 WAL 內的 row event 含已不存在欄位、解析失敗。

修法：

預防：schema change 走 expand-contract pattern
- Phase 1: ADD COLUMN new_col（不影響 logical replication）
- Phase 2: application 雙寫 old + new
- Phase 3: 等 consumer catch up old column 訊息
- Phase 4: DROP COLUMN old_col（此時無 in-flight WAL 帶 old_col）
緊急：DROP existing slot、重建 publication 跟 slot、consumer 重 init load
長期：用 Debezium snapshot.mode=schema_only_recovery 在 schema 變動時不重灌資料、只 reset schema

Case 4：initial COPY 大表鎖太久

徵兆：對 1TB 表跑 CREATE SUBSCRIPTION ... WITH (copy_data=true) 後、application 對該表 query / write 阻塞 30+ 分鐘；application timeout 大量。

根因：initial COPY 默認跑在 single transaction、整個 snapshot LSN 鎖住、長 transaction 跟 vacuum 衝突；同時對 subscriber 端鎖表寫入。

修法：

分階段 init：

 1-- Primary：建 publication 不 copy
 2CREATE PUBLICATION app_changes FOR TABLE big_table;
 3
 4-- Subscriber：建 subscription 不 copy
 5CREATE SUBSCRIPTION app_sub
 6  CONNECTION '...'
 7  PUBLICATION app_changes
 8  WITH (copy_data = false);
 9
10-- 手動跑 partition-by-partition COPY（若是 partition table）
11-- 或用 pg_dump / pg_basebackup 拿 snapshot

PG 16+ parallel init：max_sync_workers_per_subscription = 4 平行 COPY 多個表
Debezium replacement：用 incremental snapshot（Debezium 1.6+）、background trickle copy、不鎖長 transaction

Case 5：replay storm 後 consumer offset reset

徵兆：Debezium 修 bug / 重 deploy 後、snapshot.mode=initial 觸發整個資料重灌；Kafka topic 流量爆 10x、下游 application 看到大量 duplicate event。

根因：Debezium offset store（Kafka topic 或 file）被誤刪 / corruption；重啟時不知道從哪 LSN 開始、預設 fall back 到 initial snapshot。

修法：

預防：Debezium offset store 跟 Kafka cluster backup 一起做、不要單獨依賴 Kafka topic
架構：consumer side 設計 idempotent — 用 event 自帶的 (source LSN + transaction ID) 當 dedupe key
transactional outbox pattern：CDC 只 capture outbox 表、application 主動寫 outbox + business data 在同 transaction；duplicate 由 application 自己 dedupe

容量規劃

維度	估算	警戒
Replication slot lag	`pg_wal_lsn_diff(pg_current_wal_lsn(), confirmed_flush_lsn)`	> 1GB lag 訊號 consumer 跟不上
Primary `pg_wal` size	retention × peak WAL rate	預留 disk 容量 = max_slot_wal_keep_size + 30% buffer
Debezium throughput	~5-10K row/s 單 connector、多表平行可拉	跟 primary write rate 對比
Initial COPY time	100GB ~ 10-30 分鐘（看 network + subscriber IO）	TB 級必須分階段
Slot 數量	每 slot 佔 primary 一份 WAL 保留 buffer	5+ slot 同時跑 disk 壓力倍增
max_replication_slots	預設 10、production 跑 CDC + standby 各佔 slot 要拉到 20-50	達上限會拒新 slot 建立

實務 default：

Debezium production：1 connector per source schema、不要 1 connector 跨 50 個表
Slot retention：max_slot_wal_keep_size = 100GB、超出 invalidate slot 保護 primary
Monitor cadence：1 分鐘 sample lag + 5 分鐘 alert threshold

整合 / 下一步

跟 Patroni HA 整合

logical slot 在 PG 16- 不跨 failover、是長期痛點：

PG 16-：failover 後 logical consumer 必須重 init（slot 在新 leader 上不存在）
PG 16+：failover parameter 讓 logical slot 在 standby 同步、failover 後 consumer 直接接
Patroni 16+ 支援 logical slot persistence 配置、配合用

跟 Kafka outbox pattern

production-grade CDC 不直接 read business table、是 read outbox table：

1-- Application transaction
2BEGIN;
3  INSERT INTO orders (...) VALUES (...);
4  INSERT INTO outbox (event_type, payload, created_at) VALUES ('order_created', '...', now());
5COMMIT;

Debezium 只 capture outbox table、event payload 已是 application-shaped JSON、不用解 row event。好處：

Schema change 不影響 CDC（outbox table schema 穩定）
跨表 transaction 對應到單 event（outbox 是業務語意層）
Replay 可靠 — outbox 是 append-only、可重讀

跟 partitioning 整合

partitioned table 的 logical replication：

PG 13+ publish_via_partition_root = true — publication 從 parent 角度看、不是 per-partition
Subscriber 端可 partition 不同 strategy（甚至不 partition）
Schema change 對 partition table 更複雜、走 expand-contract 嚴格

下一步議題

Logical replication conflict：subscriber 端寫衝突的處理（PG 17+ 加 conflict resolution）
bi-directional replication（pg_active）：多 region active-active、衝突解決設計
Decoder plugin 對比：pgoutput / wal2json / decoderbufs 效能跟易用性

PostgreSQL PITR + WAL archiving：從 base backup 到 point-in-time recovery 的完整鏈

Mon, 18 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 backup / recovery 是 OLTP 必備能力、本文聚焦 PITR（Point-In-Time Recovery）的雙軌資料設計 + production 5 個 failure mode。

問題情境

Logical bug 在 production 部署、執行 6 小時後才發現 — 某個 batch job 把 50 萬筆 user.email 改成 NULL。此時：

還原最新 daily backup（昨晚）→ 丟掉今天所有正常寫入（訂單、註冊）
從 standby promote → standby 已同步 bug、跟 primary 同狀態
從 application log 重建 → 部分操作不可逆（已寄出 email）

PITR 是這類 logical disaster 的標準解 — 不還原到 backup 時間點、而是 還原到 bug 發生前一刻（例：1 分鐘前）。需要 base backup + WAL archive 雙軌資料：base backup 是 snapshot、WAL archive 是 snapshot 之後的所有寫入；recovery 時 replay WAL 到指定 timestamp / LSN / transaction ID。

核心概念：base backup + WAL archive 的雙軌設計

1[Base backup t0]  +  [WAL archive t0 → now]
2     ↓                       ↓
3  全量 snapshot          incremental log
4     ↓                       ↓
5     └────── recover to t_target ──→ [restored cluster at t_target]

兩個軌道各自獨立但必須對齊：

Base backup：某時刻整個 data dir 的 snapshot。pg_basebackup / pgBackRest / WAL-G 都產這個；通常 每天 / 每週 跑一次
WAL archive：base backup 之後每段 WAL 都 push 到外部 storage（S3 / GCS / NFS）。archive_command 觸發、PostgreSQL 等到 archive 成功才回收那段 WAL

兩者組合決定 RPO（recovery point objective）：

RPO ≈ WAL archive frequency（streaming 即時、archive_timeout 預設 1 分鐘）
RPO 不是 base backup frequency — daily base backup + 每分鐘 archive WAL → RPO 1 分鐘

RTO（recovery time objective）跟 base backup size + WAL replay 量 相關：

Restore base backup ~ 1-4 小時（TB 級）
WAL replay 時間 ~ archive 累積量 / replay throughput

Step-by-step 配置

Primary：archive_command 設好

1# postgresql.conf
2wal_level = replica                          # 預設 replica、PITR 需要
3archive_mode = on                            # 啟用 archive
4archive_command = 'wal-g wal-push %p'        # 或 pgBackRest / 自寫 script
5archive_timeout = 60                         # 60s 無 WAL 時強制切 segment
6max_wal_size = 4GB
7checkpoint_timeout = 15min

archive_command 必須 回 exit code 0 才算成功；非 0 PostgreSQL retry、retry 失敗會在 pg_wal 堆積 WAL 直到 disk 滿。critical：archive_command 不能寫成 silent-fail。

用 pgBackRest 取代手寫 script

production 強烈不建議自寫 archive script — pgBackRest / WAL-G / Barman 處理過所有 edge case：

 1# pgbackrest.conf
 2[global]
 3repo1-type=s3
 4repo1-s3-bucket=mybucket
 5repo1-s3-region=us-east-1
 6repo1-retention-full=4                       # 留 4 個 full backup
 7repo1-retention-diff=8                       # 留 8 個 differential
 8repo1-cipher-type=aes-256-cbc                # encrypt at rest
 9process-max=8                                # parallel restore
10
11[main]
12pg1-path=/var/lib/postgresql/16/main

1# 跑 full backup
2pgbackrest --stanza=main backup --type=full
3
4# archive_command 用 pgbackrest 內建
5archive_command = 'pgbackrest --stanza=main archive-push %p'

pgBackRest 處理：parallel push、compression、encryption、checksum、archive replay timing、backup catalog、retention 自動清理。

Restore：recovery_target_time

1# 1. 從 S3 / repo 拉 base backup
2pgbackrest --stanza=main --type=time \
3  --target="2026-05-18 14:30:00+00" restore
4
5# 2. PostgreSQL 進 recovery mode、自動 replay WAL 到 target time
6# (pgBackRest 寫好 recovery.signal + postgresql.auto.conf)
7
8# 3. 確認到目標 timestamp 後、promote
9pg_ctl promote

Recovery target 三種：

recovery_target_time：到某 timestamp
recovery_target_xid：到某 transaction ID（log 有 xid 才好定位）
recovery_target_lsn：到某 WAL LSN（最精確、但需要事先記下 LSN）

production 多用 timestamp、application log 有時間戳容易定位。

故障演練 / 邊界 case

Case 1：archive_command 靜默失敗

徵兆：DBA 發現某 PITR test 時、最近 3 天的 WAL 在 S3 上沒有；但 PostgreSQL 沒 alert、pg_wal 也沒堆積（早就被回收？）。

根因：archive_command 寫成 aws s3 cp %p s3://bucket/... 2>/dev/null — 錯誤訊息被吞、exit code 卻是 0（cp 失敗但 redirect 後 shell wrapper 不傳 fail code）；PostgreSQL 以為成功、繼續 advance WAL pointer、舊 WAL 已回收、archive 上實際沒有。

修法：

絕對不要靜默 exit code：archive_command 必須 fail loud、exit code 非 0
用 pgBackRest / WAL-G、不自寫 shell 腳本
monitoring：對 archive lag 寫 alert

1SELECT pg_last_archived_xact_time(), now() - pg_last_archived_xact_time() AS lag;

alert if lag > 5 minutes

定期測試 restore：每月跑一次 PITR drill、實際從 archive restore + 驗證 timestamp

Case 2：WAL archive lag、primary disk 壓力

徵兆：pg_wal 目錄持續長大、df -h 90%+；pg_stat_archiver 顯示 failed_count 累積、last_failed_time 是 30 分鐘前；archive_command 寫不出去（S3 throttle / network 慢）。

根因：archive_command 寫到 S3、但 S3 rate limit / connection timeout、PostgreSQL retry；WAL 一直在 pg_wal 不能回收、disk 持續長。

修法：

預防：archive_command 內部 retry + parallel push（pgBackRest 自帶 process-max）
alert：pg_stat_archiver.failed_count 增長 + primary disk usage > 80%
緊急：暫時改 archive_command 寫 local NFS / 其他 storage、等 S3 恢復再同步；不要直接 disable archive（會丟資料）
架構：archive storage 至少跨 region 兩份、單一 storage 故障不影響 archive

Case 3：recovery 跑到 wrong target time

徵兆：PITR 還原後資料看起來 缺一塊；DBA 後悔 — target time 設早了 30 分鐘、recovery 已 promote、後續 WAL 在新 timeline 上、回不去。

根因：recovery 過程不可逆 — 一旦 promote 開新 timeline、舊 WAL 在新 timeline 上不會被 replay；想還原到更晚 timestamp 必須 重新 restore base backup + WAL。

修法：

recovery_target_action = pause（PG 13+）：到 target time 後暫停、不自動 promote；DBA 手動 query 確認資料對才 promote

1recovery_target_time = '2026-05-18 14:30:00+00'
2recovery_target_action = pause

多次 PITR 試錯：用 獨立 staging cluster restore、驗證 target time 對、再對 production 跑
記錄 target time 來源：application log / event timestamp 多比對、避免時區錯亂（+00 UTC 跟 local time 差）

Case 4：base backup 過期未清、storage 爆

徵兆：S3 backup bucket size 半年內從 200GB 漲到 5TB；DBA 才發現 retention 沒設、daily base backup 留 180 天。

根因：archive_command 自寫腳本沒 retention 邏輯、或 pgBackRest 設了 repo1-retention-full=180 漏看；DB 容量本來就成長 + 每日 full backup 累積。

修法：

1# pgBackRest retention：4 full + auto-expire archive
2repo1-retention-full=4                         # 留 4 個 full backup
3repo1-retention-diff=8                         # 留 8 個 differential
4repo1-retention-archive=4                      # WAL archive 跟 full 對齊
5repo1-retention-archive-type=full

storage budgeting：

daily full + diff + WAL archive ≈ 1-2x DB size / day
4-week retention → ~30-60x DB size storage
跨 region replication → 2-3x

Case 5：timeline 分歧後 recovery 模糊

徵兆：production 經歷一次 failover（Patroni promote）+ 之後又 PITR 一次；現在要再 PITR 到 failover 前一刻、archive 上有兩個 timeline、recovery target 搞不清要哪個。

根因：每次 promote 開新 timeline ID（.history 檔）；archive storage 上同 LSN 可能對應不同 timeline；recovery target time 在分歧點附近、ambiguous。

修法：

recovery_target_timeline 明示要 follow 哪個 timeline

1recovery_target_time = '2026-05-15 10:00:00+00'
2recovery_target_timeline = '3'                 # 要 follow timeline 3

熟悉 .history 檔：/wal_archive/000000XX.history 記錄 timeline 切換點、PITR 前先看
預防：每次 promote 後立刻跑新的 base backup、簡化未來 PITR 流程（不用跨 timeline）

容量 / cost 規劃

維度	估算	警戒
Base backup size	跟 DB data dir 大小成正比（PostgreSQL 內部 compression 後）	每 backup ~ 0.5-1x DB size
WAL archive size	~5-50GB / day depending on write volume	1TB DB / write-heavy 可能 100GB+ / day
Storage retention	4-12 weeks 典型	30-60x DB size budget
Base backup time	TB 級 1-4 小時	跑在 maintenance window
Restore time	base backup restore + WAL replay	TB 級 PITR 通常 2-6 小時
Network bandwidth	full backup 期間 100-500 Mbps	跨 region 注意 egress cost

實務 default：

Daily full backup + 4 weeks retention
WAL archive every 60s（archive_timeout = 60）
跨 region replication（S3 → S3 cross-region）
月度 restore drill 驗證可用

整合 / 下一步

跟 Patroni HA 整合

Patroni 不管 backup，但 promotion 後 timeline 切換影響 archive：

archive_command 用 %t（timeline）+ %f（filename）路徑、避免不同 timeline WAL 覆蓋
Patroni recovery_conf 包含 restore_command、standby clone 從 archive 拉
每次 Patroni failover 後跑 full backup、簡化未來 PITR

跟 logical replication 對位

PITR 跟 logical replication 服務不同 use case：

PITR 是 災難恢復（logical bug / corruption）— 全量還原到某時刻
Logical replication 是 連續 sync — Kafka / 跨 DB 即時複製

兩者 都依賴 WAL、但目標不同；同 PostgreSQL 可同時跑、互不衝突。

跟 monitoring + alert

關鍵 metric：

1-- archive 健康度
2SELECT * FROM pg_stat_archiver;
3-- archived_count, failed_count, last_archived_wal, last_archived_time
4
5-- WAL 在 pg_wal 等待 archive 量
6SELECT count(*) FROM pg_ls_waldir() WHERE name ~ '^[0-9A-F]{24}$';
7
8-- base backup 上次跑時間
9-- (pgBackRest API 或 backup catalog)

Prometheus alert 三條：archive failed_count 增、archive lag > 5min、base backup > 25h 沒跑。

下一步議題

Incremental backup（PG 17+）：base backup 不全量、只 base + incremental
Block-level differential：pgBackRest 已支援
Cloud-native 替代：RDS / Aurora 用 storage-layer snapshot、不走 PITR 鏈
pg_dump vs PITR：pg_dump 是 logical backup（resume to different schema OK）、PITR 是 physical（必須同 version + same arch）

PostgreSQL major version upgrade (14 → 17)：為什麼這篇不套 5 type migration

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。寫作前判讀 不適用 Migration playbook methodology 的 5 type — 本文是該 methodology 「何時不該套」段的第 2 項實證（同 vendor major version upgrade）。

為什麼這篇不套 5 type migration

跑 diff dimension audit 對 PostgreSQL 14 → 17：

維度	評估	等級
Schema / API	同 PostgreSQL wire protocol、SQL syntax 99%+ 相容	Low
Operational model	同 PostgreSQL operational stack、tooling 不變	Low
Abstraction / paradigm	同 OLTP RDBMS	Low
Number of components	同 1 個	Low
Application change	多數 application 不改	Low

5 維皆 Low — 對映 Type B drop-in。但 實際工作量 跟 drop-in 完全不同：

Extension 相容性：pg14 的 extension 不一定能在 pg17 直接用（API 變動 / ABI break）
Breaking change：每個 major version 有 release-specific behavior change（pg17 移除 relation/oid 隱性 type、pg15 公開 pg_role 規則變嚴）
Storage format：major version 之間 data dir 不向後相容、必須 pg_upgrade 或 dump-restore
Statistics 重建：upgrade 後 pg_statistic 失效、必須跑 ANALYZE、否則 query plan 退化
Replication slot：logical replication slot 不跨 major version

5 type 對映 跨 vendor process、漏了 同 vendor 內升級 的 upgrade-specific dimension。本文採用 deep article methodology 的 6-section + 額外 upgrade audit 段 結構、不是 5 type 的任一個。

結構 differentiator：deep article + upgrade audit

跟 single feature deep article（如 pgBouncer config / Patroni HA）對照、本文多一段 upgrade audit；跟 migration playbook 對照、本文 沒 phased translation / parallel run / cutover routing：

1問題情境（為什麼升）
2→ Upgrade audit（extension / breaking change / dependency）
3→ 升級方法選擇（pg_upgrade / logical / blue-green）
4→ Step-by-step 執行
5→ 故障演練
6→ Capacity / downtime trade-off
7→ 整合 / 下一步

7 段、220-280 行。比 single feature deep article 多 1 段 audit、比 migration playbook 少 phased translation 章節。

問題情境：major version 不只是 minor bump

PostgreSQL major version（14 / 15 / 16 / 17）一年一版、每版含 breaking change、不是 minor bump。常見升級驅動：

EOL pressure：PostgreSQL 每版 maintained 5 年、pg14 EOL 2026-11；pg13 EOL 2025-11 已過、production 仍跑 pg13 是 risk
新 feature 需求：pg15 MERGE / pg16 parallel hash join / pg17 incremental backup
Cloud provider 強制：Aurora / RDS 對 EOL 版本停 minor patch、planned upgrade 不能拖

不升級的代價：security patch 停發、新功能不能用、跟新 client / extension 漸增不相容。

Upgrade audit

升級前的硬閘門 audit、跳過任一個 production 必踩：

Audit 1：Extension 相容性

1SELECT extname, extversion FROM pg_extension WHERE extname != 'plpgsql';

對每個 extension 跑：

對應 target version (pg17) 是否有 release？
ABI break？（如 PostGIS major version 對應 PG major version）
是否有 maintainer 持續更新？（TimescaleDB 已不 cover pg17 部分 feature）

常見 pg14 → pg17 需要 先升 extension 的：PostGIS / TimescaleDB / pgaudit / pg_partman / pg_repack。

Audit 2：Breaking change pull

1# 查 release note 累積 breaking change（pg14 → pg17 跨 3 個 major）
2# pg15: deprecated public schema 預設 write 權限變嚴
3# pg16: regrole removed implicit casts
4# pg17: removed several deprecated columns from system catalogs

對每個 breaking change：

用 SQL grep / static analysis 找 application code 影響範圍
評估修改工作量（通常 50-95% 是 false alarm、5-10% 真實影響）
列出無法立刻修的、規劃 逐 major 升 而不是 一次升 3 major

Audit 3：Replication / logical slot

1SELECT slot_name, plugin, slot_type, active FROM pg_replication_slots;

major version upgrade 後：

Physical replication slot：standby 必須先升級到 相同 major version 才能跟新 primary
Logical replication slot：不跨 major version、必須在 upgrade 前 drop、之後重建（消費者重 init load）
對應 Debezium CDC consumer 必須重 init

Audit 4：Config 參數變更

1# diff postgresql.conf default 14 vs 17
2# 重點: shared_preload_libraries / autovacuum_* / wal_level / synchronous_commit

新 major version 預設值常變（pg14 → 17：max_worker_processes 預設變 / unix_socket_directories 行為差異）；自定 config 需逐項 review。

Audit 5：Statistics 重建計畫

pg_upgrade 後 pg_statistic 重置、第一次跑 query plan 用空 stats、production 性能會塌；upgrade 計畫必須含：

ANALYZE 跑全 DB（小 DB ~10 分鐘、大 DB 1-3 小時）
多 stage vacuumdb --analyze-in-stages 先快速跑 baseline、再跑 full
Maintenance window 內預留 statistics 重建時間

升級方法選擇

三種主流方法、依 downtime 容忍跟 DB 大小：

方法	Downtime	風險	適用
`pg_upgrade --link`	10-30 分鐘	data dir 跟 OS package 同 host、回退複雜	< 500GB、可接受 30 分鐘 downtime
Logical replication	切換瞬間（< 1 分鐘）	設定複雜、long-running migration window	TB 級、低 downtime 需求
Blue-green deployment	切換瞬間	雙倍硬體、cutover 期間需嚴格 traffic shifting	Cloud-managed（Aurora / RDS 內建）

`pg_upgrade --link` 流程

 1# 1. install pg17 binary（不啟動）
 2# 2. stop pg14
 3sudo systemctl stop postgresql@14
 4
 5# 3. 跑 pg_upgrade（hard link、不複製資料）
 6sudo -u postgres /usr/lib/postgresql/17/bin/pg_upgrade \
 7  --old-bindir=/usr/lib/postgresql/14/bin \
 8  --new-bindir=/usr/lib/postgresql/17/bin \
 9  --old-datadir=/var/lib/postgresql/14/main \
10  --new-datadir=/var/lib/postgresql/17/main \
11  --link \
12  --jobs=8
13
14# 4. 啟動 pg17
15sudo systemctl start postgresql@17
16
17# 5. 跑 pg_upgrade 產出的 analyze script
18sudo -u postgres /tmp/analyze_new_cluster.sh

--link 用 hard link、不複製 data dir、適合大 DB；缺點是 回退到 pg14 不可能（data dir 已被新 pg 修改）— 必須有完整 backup + tested restore。

故障演練

Case 1：Extension 相容性沒先 audit、upgrade 後啟動失敗

徵兆：pg_upgrade 跑完、pg_ctl start 失敗、log 顯示 could not load library "timescaledb-2.13.so"。

根因：TimescaleDB 對應 pg14、pg17 需要 TimescaleDB 2.16+；pg_upgrade 階段沒 check、library path 找不到。

修法：

Pre-upgrade audit：每個 extension 列出 target version 對應、預先升 extension（在 pg14 上跑、用 ALTER EXTENSION ... UPDATE）
回退：data dir 用 --link 已不可逆、必須從 backup restore + 重試
預防：staging 環境完整 dry-run、production upgrade 前已知 path 都驗證過

Case 2：Application 用 deprecated SQL、跑壞

徵兆：upgrade 後某些 application query 直接 error ERROR: type "regtype" does not have a cast。

根因：pg16 移除了某些隱性 cast、application code 用了 implicit cast、現在 explicit cast 才能跑。

修法：

Pre-upgrade：跑 application test suite 對 pg17 staging、catch 不相容 query
緊急：staging 找到的 query 在 production 改 application code、deploy 後再 upgrade DB
長期：application code 用 ORM / query builder、避免 raw SQL 對 PG version-specific behavior 依賴

Case 3：`ANALYZE` 沒跑、production query 性能崩

徵兆：upgrade 後 5 分鐘、application latency p99 從 50ms 衝到 5000ms；query plan 從 index scan 退化到 seq scan。

根因：pg_upgrade 重置 pg_statistic、planner 用空 stats 跑 plan、無法估 selectivity、保守選 seq scan。

修法：

1# upgrade 完立刻跑 (順序)
2vacuumdb --all --analyze-in-stages --jobs=4
3# Stage 1: 最少 stats（快、~5 分鐘）
4# Stage 2: 中 stats（~30 分鐘）
5# Stage 3: 完整 stats（1-3 小時）

--analyze-in-stages 分 3 階段、第 1 階段就能讓 planner 做大致正確的決策；可在 maintenance window 內接受 stage 3 仍在跑。

Case 4：Logical replication slot 漏 drop、Debezium 卡死

徵兆：upgrade 完開機後、Debezium connector log 顯示 slot not found、消費停滯；Kafka downstream 訊息斷流。

根因：logical replication slot 不跨 major version、pg_upgrade 不自動處理 logical slot；upgrade 前沒 drop、新 cluster 上 slot 不存在。

修法：

Pre-upgrade：列所有 logical replication slot、Debezium 暫停 consumer + drop slot
Upgrade 後重建：用新 LSN starting position 建 slot、Debezium snapshot.mode=schema_only_recovery 取代 initial（避免重 init load）
架構：未來考慮用 outbox pattern、CDC 只追 outbox 表、降低 logical slot 重建成本

Case 5：Standby 沒同步升、replication 斷

徵兆：primary 升 pg17 後、standby 仍 pg14、replication 不通；pg_stat_replication 沒 standby connection。

根因：streaming replication 不跨 major version；standby 必須先升或 upgrade 後重 base backup。

修法：

兩種策略：

In-place upgrade standby：standby 也跑 pg_upgrade、但要先 stop streaming、升完重接（standby 端 archive_command + restore_command 對齊）
Rebuild standby：upgrade primary 完、standby 跑 pg_basebackup 重建（適合 standby 容量小、network 快）

Patroni HA 環境：用 rolling upgrade — 先升 sync standby、failover 過去、再升舊 primary 變新 standby。複雜度高、需要 staging 演練。

Capacity / downtime trade-off

方法	Downtime 估算（500GB DB）	硬體成本	風險
`pg_upgrade --link`	15-30 分鐘（含 ANALYZE 1st stage）	同當前	高（不可逆）
`pg_upgrade --clone`	1-3 小時	暫時 2x storage	中
Logical replication	< 1 分鐘 cutover	暫時 2x compute + storage	中（複雜）
Blue-green	切換瞬間（< 30 秒）	持續 2x（cutover 後可拆）	低（cloud managed）

實務 default：

< 100GB、可接受 30 分鐘 downtime：pg_upgrade --link
100GB - 1TB、要求 < 5 分鐘 downtime：logical replication（標準 PostgreSQL）
1TB+ 或 SLA 嚴格：blue-green via Aurora / RDS（cloud managed）

整合 / 下一步

跟 Patroni HA 整合

HA cluster upgrade 流程：

升新 standby（不在 cluster 中、physical / logical replicate 過去）
Promote 新 standby、舊 cluster failover 過去
重建剩餘 standby

Patroni 17+ 支援 logical slot 跨 failover — major version upgrade 期間 logical consumer 影響降低。

跟 monitoring 整合

upgrade 期間特別關注的 metric：

1-- Pre-upgrade baseline
2SELECT pg_database_size('myapp'), version();
3
4-- Post-upgrade verification
5SELECT pg_database_size('myapp'), version();
6SELECT count(*) FROM pg_stat_user_tables WHERE last_analyze IS NULL;
7-- 應該 = 0、若有未 analyze 表、ANALYZE 沒跑完

Prometheus alert 三條：pg_database_size upgrade 後差異 < 1%、pg_stat_replication lag < 10s、pg_query_p99_latency 對 baseline < 1.5x。

下一步議題

Aurora major version upgrade：blue-green deployment 是 default、流程跟 self-managed 完全不同、見 PostgreSQL → Aurora migration 對位段
Cross-major version skip upgrade：pg13 → pg17 跨 4 major、breaking change 累積、建議 逐 major 升 而不是 single hop
Extension lifecycle 管理：自動 audit extension 跟 PG version compatibility、每 quarter 跑 dry-run

PostgreSQL → Aurora Migration：protocol 相容、operational 重設計

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 PostgreSQL（self-managed source）跟 Aurora（cloud-managed target）。跟前兩篇 migration（Splunk → Elastic 高 schema 差 / Redis → DragonflyDB drop-in）對照、本篇是 middle ground：wire protocol drop-in、但 operational model 重設計。每階段切換用 migration gate 把關。

為什麼遷：operational cost / HA / DR 三條 driver

Driver	觸發場景
Operational cost	self-managed PostgreSQL + Patroni HA + pgBackRest backup + monitoring 需 0.5-2 FTE；Aurora 把這層責任轉嫁 AWS、SRE 專注 application
HA reliability	Patroni split-brain / DCS quorum 偶爾踩雷、production failover 4-15s；Aurora 自動 multi-AZ failover < 30s、shared storage 不丟資料
DR / backup	自管 PITR + cross-region replication 複雜；Aurora 內建 PITR + global database + backup retention 簡化

反向 driver（Aurora → self-managed）也存在 — 主要是 cost 在 10TB+ 規模時 Aurora 反而更貴、或 需要 PostgreSQL extension Aurora 不支援（pg_partman / pg_repack / TimescaleDB 等）。

結構：protocol 相容 + operational phased 的混合

跟前兩篇對照、Aurora migration 結構是 protocol drop-in（application 不改 SQL）+ operational redesign（HA / backup / monitoring 全換）：

維度	Splunk → Elastic（高 schema 差）	Redis → DragonflyDB（drop-in）	PostgreSQL → Aurora（middle）
Wire protocol	完全不同（SPL vs KQL）	完全相同（RESP）	完全相同（PostgreSQL wire）
Schema / data model	高差異（CIM vs ECS）	完全相同	完全相同
Application code	必改	不改	不改
Operational model	不同	相似	大差
HA / replication	不同	相似	完全重設計
Backup model	不同	簡化	完全換 AWS-native
Migration 週期	4-9 個月	1-4 週	6-12 週
Phased 結構需要	6-phase 明顯	不需要	混合（3 operational phase + drop-in cutover）

Hypothesis 驗證：migration playbook 結構由 最大差異維度 決定 — Splunk → Elastic 是 schema 差導向 phased、Aurora migration 是 operational 差導向局部 phased。

Operational redesign 對位

跟 self-managed PostgreSQL 比、Aurora 的 operational 模型差異：

Operational concept	Self-managed PostgreSQL	Aurora
Storage	Local disk / EBS、跟 compute 一體	Shared storage 跨 AZ 6 副本、跟 compute 解耦
HA	Patroni + DCS quorum + watchdog	Aurora 自家 failover、shared storage 不重 promote
Read replica	Streaming replication + Patroni 管理	Aurora reader endpoint、cluster 自動 routing
Backup	pgBackRest / WAL-G + S3	自動 continuous backup + PITR（內建）
Failover time	15-60s（Patroni）	< 30s（同 AZ）/ 1-2 min（跨 AZ）
Connection management	PgBouncer 必裝	RDS Proxy 推薦、Aurora 自家 connection pool
Major version upgrade	手動 + 停機	Aurora 自家 blue/green deployment
Monitoring	Prometheus + grafana-postgresql	CloudWatch + Performance Insights
Extension support	自由安裝	白名單、限 AWS 認可 extension
Custom config	postgresql.conf 全控	Parameter Group（限制）
OS / kernel access	完全控	無（fully managed）

每一條 operational concept 都需要 migration plan、application code 不變但 運維知識體系全換。

Migration 流程：3 phase operational + drop-in cutover

Phase 0：Pre-migration audit（1-2 週）

Extension 清單對位：

1SELECT extname, extversion FROM pg_extension;
2-- 對照 Aurora supported extensions list
3-- 不支援的（pg_repack / pg_partman 部分 / TimescaleDB / Citus）需替代方案

Custom config 清單：

1SELECT name, setting FROM pg_settings WHERE source != 'default';
2-- 對照 Aurora Parameter Group 可調項目

Capacity 評估：

當前 IOPS / connection / storage / WAL rate
對應 Aurora instance class（db.r6g.large to db.r6g.32xlarge）
估算 cost（vCPU + IOPS + storage + backup retention）

Application connection pool audit：

PgBouncer 配置是否能直接搬到 RDS Proxy
Connection string + IAM 認證準備

Phase 1：Operational infrastructure 準備（2-3 週）

建 Aurora cluster（Terraform / CloudFormation）
設 Parameter Group、對位 self-managed 配置
設 Security Group + IAM role
設 RDS Proxy（推薦、connection 集中管理）
CloudWatch alert + Performance Insights baseline
Backup retention + PITR window 設定

Phase 2：Data migration（取決於 dataset 大小）

兩條路：

路線 A：AWS DMS（推薦中等規模 < 5TB）

1self-managed Postgres ──(DMS)──→ Aurora
2                         |
3                  full load + CDC continuous

DMS task 設 Full Load + Ongoing Replication
跑 full load 估算（100GB ~ 1-3 小時依 instance class）
CDC 持續直到 cutover

路線 B：Logical replication（推薦 5TB+ 或要精準控制）

1-- Source：建 publication
2CREATE PUBLICATION migrate_pub FOR ALL TABLES;
3
4-- Aurora：建 subscription
5CREATE SUBSCRIPTION migrate_sub
6  CONNECTION 'host= dbname= user='
7  PUBLICATION migrate_pub;

Initial COPY 跑完後 streaming
詳見 Logical Replication + Debezium

Phase 3：Cutover 跟 verification

11. Application 端設 maintenance mode（block writes）
22. 等 replication lag → 0
33. 確認 Aurora 端 row count + checksum 對齊
44. Application connection string 切到 Aurora endpoint
55. 解除 maintenance mode
66. Self-managed 端 read-only 保留 1-2 週 standby

Cutover window 視 dataset 大小：

< 100GB：1-2 小時
100GB - 1TB：2-4 小時
1TB+：考慮 zero-downtime cutover via blue-green deployment

Production 故障演練

Case 1：Extension 不支援、application 直接壞

徵兆：cutover 後 application 某些 query 報 extension "pg_repack" not available、batch job 壞。

根因：Phase 0 audit 漏掉 application 用 pg_repack 做 maintenance；Aurora 不支援、self-managed 端的 cron job 改不過去。

修法：

Pre-migration audit 必做：SELECT extname FROM pg_extension 對照 Aurora extension whitelist
替代方案：
- pg_repack → Aurora 自家 vacuum + storage auto-resize
- TimescaleDB → 改 declarative partitioning 或換 Timestream
- Citus → 評估保留 self-managed 或重設計 schema
退役策略：Extension 是 application 必要的、評估暫不遷或選 alternative cloud（如 AlloyDB / Citus on Azure）

Case 2：Replication slot 不直通

徵兆：self-managed 端有 Debezium CDC 接 application 事件、cutover 後 CDC pipeline 直接壞、Kafka 端訊息斷流。

根因：Aurora 對 logical replication slot 有限制 — 不直接支援 external consumer（如 Debezium）讀 slot；要走 RDS Database Events 或 DMS CDC。

修法：

Pre-migration audit：列所有 logical consumer（Debezium / Kafka Connect / 自家 CDC）
替代方案：
- DMS CDC 取代 Debezium（Aurora 原生支援）
- 評估 RDS Database Activity Streams（newer feature）
- 重設計 CDC：application 寫 outbox 表、Aurora trigger 發 SNS → Lambda → Kafka
接受代價：CDC pipeline 重建是 2-4 週工作、納入 migration scope

Case 3：Autovacuum 行為跟 self-managed 不同

徵兆：cutover 後幾天、特定 hot table 的 bloat 數據異常、application 端 query latency p99 漲；CloudWatch Performance Insights 顯示 autovacuum 跑頻率比 self-managed 端高 3 倍。

根因：Aurora 預設 Parameter Group 的 autovacuum 配置跟 self-managed 不同 — autovacuum_vacuum_cost_limit 預設更低、vacuum_scale_factor 更激進；shared storage 上 vacuum 行為不一樣。

修法：

Parameter Group 對位：把 self-managed autovacuum tuning 配置複製到 Aurora Parameter Group
per-table tuning：hot table 的 ALTER TABLE SET (autovacuum_*) 可遷過去
接受差異：Aurora storage 設計讓 vacuum 不一定要跟 self-managed 同 cadence、SRE 心智模型要調

Case 4：IAM 認證強制、application 端改 connection logic

徵兆：production 切到 Aurora 後、application 仍用 password authentication、SOC team 要求改 IAM 認證（compliance）；application 連線 logic 大改、token rotation 邏輯也要加。

根因：self-managed 端用固定 username/password、Aurora 推薦（部分情境強制）IAM authentication；token 15 分鐘輪換、application 必須改連線 SDK。

修法：

Migration scope 內包含：authentication migration 是必要工作、不能事後補
SDK 整合：用 AWS SDK + RDS Proxy 抽象 token rotation、application 不直接管 token
Hybrid 期間：保留 password auth 直到 application 全切 IAM、再 disable password auth

Case 5：Cost model 預估錯、月底帳單炸

徵兆：第一個月 Aurora 帳單比預估高 50-80%；IOPS / backup storage / I/O cost 都比預期多。

根因：Aurora pricing 三層（compute instance / storage / I/O）—

Storage：actual data + backup × retention
I/O：每個 read / write block 都計費（self-managed 不算）
Backup：超過 backup retention 部分 charged as snapshot storage

self-managed 端習慣 fixed EC2 + EBS cost、Aurora I/O-based 計費對 high-IOPS workload 衝擊大。

修法：

Pre-migration cost estimate：用 self-managed pg_stat_database 估 I/O 量、套 Aurora pricing calc
I/O optimization：開 Aurora I/O-Optimized storage class（fixed monthly + 不算 I/O）、適合 high-IOPS workload
Backup retention 控制：不要 default 35 天、依 compliance 調整（7-14 天通常夠）
Reserved Instance：穩定 workload 預付 1-3 年、省 30-40%

Capacity / cost 對照

維度	Self-managed PostgreSQL（EC2 + EBS）	Aurora
Instance cost	EC2 + EBS（compute + storage 自管）	Aurora instance class + storage + I/O
HA cost	Patroni 跨 3 AZ + EBS 3 副本	Aurora 跨 3 AZ shared storage（內建）
Backup cost	pgBackRest + S3 archive	Aurora 自動 continuous backup（內建）
Operational FTE	0.5-2 FTE（HA / backup / patching）	0.1-0.3 FTE（application 端 + Parameter Group）
1TB / month cost	$400-800（含 HA）	$700-1500（含 HA）
10TB / month cost	$2K-4K	$4K-8K（I/O cost 顯著）
50TB+ cost	$10K-20K	$30K+（cost 反轉、self-managed 更便宜）

判讀：< 10TB workload Aurora 平攤 operational cost 後仍便宜；50TB+ workload Aurora cost 顯著高、要 reserved + I/O-Optimized 才有競爭力。

整合 / 下一步

跟 Patroni HA 對位

Patroni 在 Aurora migration 後退役 — Aurora 自家 failover 取代；但 SRE 心智模型要調：

Patroni 的 pg_rewind 概念不存在（shared storage）
Patroni 的 synchronous_commit 行為 Aurora 隱藏在 storage layer
Aurora 跨 region 用 Global Database、不是 Patroni cross-region setup

跟 PITR 對位

self-managed PITR rebuild 工作量大、Aurora PITR 是 native API call：

1aws rds restore-db-cluster-to-point-in-time \
2  --source-db-cluster-identifier myapp-prod \
3  --db-cluster-identifier myapp-prod-restored \
4  --restore-to-time 2026-05-19T14:30:00Z

完全不需要 base backup + WAL replay 思維、storage layer 自動處理。

跟 PgBouncer → RDS Proxy

PgBouncer 多數情境可換 RDS Proxy：

transaction pooling 等效
IAM authentication 整合
Connection pinning（Lambda / serverless workload）
限制：RDS Proxy 對某些 PG 14+ feature 仍 catching up、prepared statements 行為差異

下一步議題

Aurora Serverless v2 評估：variable workload 適合、steady workload 反而貴
Babelfish 評估：跑 SQL Server protocol on Aurora（多 source 遷移到 Aurora）
Cross-region DR：Aurora Global Database vs self-managed cross-region streaming + Patroni

PostgreSQL → Aurora DSQL Migration：PG wire-compatible Distributed SQL 的 Paradigm Shift

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 PostgreSQL（source）跟 Aurora（DSQL 也屬 Aurora family、但 paradigm 不同）。跟 migrate-to-aurora（PG → Aurora PG、protocol drop-in + operational redesign）跟 migrate-to-cockroachdb（PG → CRDB、Type E paradigm shift）對照、本篇是 Aurora 內 PG → DSQL 的 paradigm shift。每階段切換用 migration gate 把關。

時間錨點：Aurora DSQL 在 2024-12 re:Invent preview、2025-05-27 GA。本文 vendor claim 以 2025-2026 公開狀態為準、實際 migration 前請以 AWS docs 為準（feature 持續演進中）。

為什麼遷：Global Write / Operational Zero-touch / Region Resiliency 三條 driver

PG → DSQL 不是「自然演進」、是 application 需求超出 single-primary 模型 時的 paradigm 換軌。三條典型 driver 各自對應一種 application 約束、不是「三選一」、而是「至少其中一條剛性、其他兩條是 bonus」：

Driver	觸發場景
Global write	Application 需要多 region active-active write（不是 Aurora PG 的 single-writer + read replica）
Operational zero-touch	不想管 Patroni / PgBouncer / autovacuum / failover / backup retention、Aurora PG 已減一半、DSQL 進一步零接觸
Region resiliency	整 region 失效時應用無感切換（Aurora PG 是 cross-region replica 異步、DSQL 是 strong consistency 多 region）

反向 driver（DSQL → Aurora PG）也存在：

需要 PG extension（pgvector / TimescaleDB / PostGIS / pg_repack）— DSQL 不支援
Cost：DSQL 比 Aurora PG 貴 2-5x（依 region 數量）
Single-region OLTP 不需 distributed transaction 的 overhead

結構：Protocol Drop-in + Paradigm Shift

DSQL 是 PG wire-compatible（用 psql 連得上）、但內部是 distributed SQL engine：

維度	self-managed PG	Aurora PG	Aurora DSQL
Wire protocol	PG	PG	PG（subset）
Architecture	Single primary	Single primary + shared storage	Active-active distributed
Multi-region write	不支援（async replica）	不支援（async replica）	Strong consistency 多 region
Transaction model	MVCC + snapshot isolation	MVCC + snapshot isolation	OCC + strong snapshot isolation
Extension	任意	AWS whitelist	無 extension 支援
Operational	全部自管	AWS 管 storage / failover	AWS 管全部、零接觸
Failover	Patroni 15-60s	Aurora 30s	N/A（永遠 active-active、無 failover 概念）
Cost model	Self-managed instance	Instance hour + storage	Per-DPU + multi-AZ replication

Paradigm shift 的核心：

Transaction semantic：DSQL 用 OCC（Optimistic Concurrency Control）+ strong snapshot isolation、跟 PG 預設 read committed / repeatable read snapshot 不同 — 同 row 有 concurrent write 時、commit 階段才偵測衝突 + abort、application 要 handle 40001 serialization_failure
No extension：PostGIS / pgvector / TimescaleDB / pg_partman 都不能用、依賴這些 feature 的 application 要拆出去
No connection pool stateful：DSQL 內建 connection pool、application 不能依賴 session state（temp table / prepared statement / advisory lock）

Schema gap：PG 對 DSQL 限制

DSQL 是 PG-compatible subset、有幾類功能不支援：

類別	PG 支援	DSQL 支援
Extension	是	否（沒 `CREATE EXTENSION`）
Foreign key constraint	是	否（application 維護 referential integrity）
View / Materialized view	是	View 部分 / Materialized view 否
JSON / JSONB	是	部分（無 GIN index 加速）
Foreign data wrapper	是	否
Stored procedure（PL/pgSQL）	是	部分（限制多）
Trigger	是	部分
LISTEN / NOTIFY	是	否
`SELECT ... FOR UPDATE`	是	部分（DSQL OCC semantic）
Sequence（serial / identity）	是	支援、但高吞吐有 coordination overhead
Table partition	是	部分
Logical replication slot	是	否

Migration 必做 schema audit：

 1-- 找所有 extension 依賴
 2SELECT * FROM pg_extension;
 3
 4-- 找 materialized view
 5SELECT schemaname, matviewname FROM pg_matviews;
 6
 7-- 找 sequence
 8SELECT * FROM pg_sequences;
 9
10-- 找 FDW
11SELECT * FROM pg_foreign_server;
12
13-- 找 trigger
14SELECT * FROM pg_trigger WHERE NOT tgisinternal;

任何項目命中、都是 migration blocker。

Operational Redesign

跟 self-managed PG 或 Aurora PG 比、DSQL operational model 大幅簡化但語意不同：

Operational concept	self-managed PG	Aurora PG	Aurora DSQL
Storage	Local / EBS	Shared 6 副本	Distributed log + replicated state
HA	Patroni	Aurora failover	永遠 HA（無 failover 概念）
Backup	pgBackRest / WAL-G	內建 continuous	內建 continuous（更深整合）
Connection pool	PgBouncer / PgCat	RDS Proxy 推薦	內建（無需配置）
Major version upgrade	手動 + 停機	Aurora blue/green	完全 transparent（AWS 升）
Read replica	Streaming replication	Reader endpoint	無分（每 region 都讀寫）
Monitoring	Prometheus / pg_stat_*	CloudWatch + Performance Insights	CloudWatch（簡化）
預期 SRE FTE	0.5-2	0.2-0.5	< 0.1

Migration 流程：Type E Phased Plan

Type E paradigm shift 的 phased plan、跟 migrate-to-cockroachdb 結構類似：

Phase 1：Schema / Application Audit

跑 schema audit（extension / MV / FDW / sequence / trigger）
識別 application 哪些 query / transaction pattern 需重設計
估算 能直接遷的 % vs 需重寫的 %、典型 60-80% / 20-40%

Phase 2：Application 改造（不上 DSQL、先在 PG 跑）

加 transaction retry middleware（攔截 40001、exponential backoff）
用 UUID 替代 serial / bigserial
移除依賴 LISTEN/NOTIFY 的功能（改 SQS / EventBridge）
移除 materialized view（改 application-side cache 或 incremental ETL）
Stored procedure 改 application code
在 PG 上跑 staging、確認新 application code 還對

Phase 3：DSQL Cluster 建立 + Schema 遷

DSQL cluster create
DDL apply（subset of PG schema、無 extension）
DMS（Database Migration Service）initial load + ongoing replication
兩邊跑 shadow traffic、比對 query 結果

Phase 4：Cutover

Application 切 connection string 到 DSQL
保留 PG read-only 一週、出狀況 rollback
Monitor 40001 retry rate、scaling event 行為

Phase 5：多 region 拓展（如適用）

加第二 region endpoint
Application 改 multi-region routing（latency-based）
Test region failure / network partition 行為

5 個 Production 踩雷

Case 1：Transaction Retry 沒處理

情境：PG 上「兩個 transaction 都 update 同 row」走 lock + wait；DSQL 同情境一個會收 40001 serialization_failure、application 沒 catch、user 看到 500 error。

修法：

DAO 層加 retry middleware：catch 40001 + exponential backoff（jitter）
Retry 上限 3-5 次、超過回 4xx 給 user
Transaction 內不要做 side effect（API call / message send）、retry 會重做

1def with_retry(fn, max_attempts=5):
2    for attempt in range(max_attempts):
3        try:
4            return fn()
5        except SerializationError:
6            if attempt == max_attempts - 1:
7                raise
8            time.sleep((2 ** attempt) * 0.05 + random.random() * 0.05)

Case 2：Extension 缺位、Feature 整段掉

情境：production PG 用 pgvector 做 RAG search、PostGIS 做 store locator、TimescaleDB 做 metrics — 切 DSQL 後三 feature 全沒。

修法：

不要直接遷、評估 which extension is load-bearing
pgvector → 外掛 Pinecone / Weaviate 或保留 PG 跑 vector workload
PostGIS → 保留 PG 跑 GIS workload
TimescaleDB → 切 Amazon Timestream 或保留 PG
DSQL 只放 不依賴 extension 的 transactional core

實務常見拓撲：DSQL 跑 transactional core、附 PG（vector） + PG（GIS） + Timestream（metrics）。

Case 3：Sequence 高吞吐撞 Coordination Overhead

情境：SERIAL / GENERATED AS IDENTITY PK 在 DSQL 用、insert 量 1000+/s 時 sequence nextval 變成 bottleneck、insert latency 從 5ms 跳到 80-100ms+。

DSQL 有支援 sequence、但不是「local atomic counter」、是分散式 counter — 每次 nextval 需跨 region coordination 保證唯一性。低吞吐 OK、高吞吐撞牆。

修法：

高吞吐表 PK 換 UUID v7（time-sortable、無 coordination）：gen_random_uuid() 或 application-side UUID v7 library
或 application-side ULID（time-sortable、12-byte 緊湊）
完全避免依賴「連續 integer PK」的 application 邏輯（reporting / paging 改用 ORDER BY created_at, id）

1-- 換 UUID PK
2CREATE TABLE orders (
3    id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
4    ...
5);

低吞吐表（settings / config）保留 sequence OK；high-volume transactional 表（orders / events）建議 UUID。

Case 4：Aurora PG 直升 DSQL 想當 in-place

情境：team 以為「Aurora PG 跟 Aurora DSQL 都是 Aurora、應該能直升」、申請 cluster modify、發現完全是兩個 service。

修法：

不是 in-place upgrade、是 full migration（DMS + cutover）
把 DSQL 當完全新的 cluster type、走 Phase 1-4 完整流程
Aurora PG → Aurora DSQL 不比 PG → CRDB 容易、wire-compatible 只解 application connect 問題、不解 schema / paradigm 差異

Case 5：Region Failover Semantic

情境：team 以為「DSQL multi-region 等於高可用」、設計時假設「整 region 掛還是能寫」、實測發現「網絡分割時 DSQL 走 quorum、可能 reject write」。

DSQL 是 strong consistency 多 region、CAP 取 CP（不是 AP）— network partition 時部分 region 會拒絕 write、不是「永遠可寫」。

修法：

設計 application 要 handle write reject（partition recovery 後 retry）
不要把 DSQL 當「永遠可寫」的 cache 或 queue 用
真要 AP 行為、用 DynamoDB（global table）

Capacity 規劃

DSQL 計費跟 Aurora PG 差很多：

計費項目	Aurora PG	Aurora DSQL
Instance	Per-instance hour	無（serverless）
Storage	Per-GB-month	Per-GB-month（多副本價）
IO	Per-million IO	每 transaction 計費
Backup	Per-GB-month	內建（無額外）
Multi-region	Cross-region replica（額外）	每 region 全費 × N

實務 cost：Aurora PG db.r6g.4xlarge multi-AZ 月 ~$2000 → DSQL 同 workload ~$5000-10000（依 region 數）。

何時 DSQL cost 划算：

多 region active-active 需求剛性（不是 nice-to-have）
Operational FTE 節省超過 cost 差
Burst workload（DSQL 自動 scale、Aurora PG 預配置 idle 期浪費）

跟既有 Migration Playbook 對比

Migration	Type	主結構
→ Aurora PG	C	Protocol drop-in + operational redesign
→ CockroachDB	E	Paradigm shift（distributed SQL）
→ Aurora DSQL（本篇）	E	Paradigm shift（PG-compatible distributed）

Aurora DSQL vs CockroachDB 選擇：

維度	Aurora DSQL	CockroachDB
PG compatibility	Wire-compatible 較完整	高、但有差異
Vendor lock-in	AWS only	跨雲 / on-prem
Cost	AWS pricing	自管或 CockroachDB Cloud
Multi-region 模型	Strong consistency 內建	可配置（regional / global table）
Extension	完全沒	部分（CDC / changefeed）
Operational	Zero-touch	自管或 managed

選 DSQL：已綁 AWS、不想管基礎設施、需 PG semantic。選 CRDB：跨雲、有自管 SRE、需要 fine-grained control。

下一步

看 Aurora overview 認識 Aurora family
看 migrate-to-cockroachdb 對比另一個 Type E migration
回 PostgreSQL overview 看全圖

PostgreSQL → CockroachDB：三維皆 High 的多重歸類 migration

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 PostgreSQL 跟 CockroachDB。本文是 #127 多重歸類跟 tie-breaking 規則的實證 — 三維皆 High 配對的處理方式不是「選 type A 或 type C 或 type E」、是 主導維度走 Type E、其他高維度獨立加段。每階段切換用 migration gate 把關。

三維皆 High：決策矩陣

跑 diff dimension audit 對 PostgreSQL → CockroachDB：

維度	評估	等級
Schema / API	PostgreSQL wire protocol 兼容、但 SQL feature set 部分缺（CTE recursive 部分 / window function 部分 / extension 完全缺）	High
Operational model	Single-node + Patroni → distributed Raft + 自動 rebalance；HA / backup / topology 全換	High
Abstraction / paradigm	Single-node MVCC + transaction → distributed Serializable Snapshot Isolation (SSI)	High
Number of components	同 1 個 DB cluster	Low
Application change	Transaction retry pattern 必須改、ORM 可能需 patch	Medium

3 維 High + 1 維 Medium。按 methodology audit Step 5 的多重歸類處理規則：

1主導維度判讀 (優先序): Schema > Paradigm > Operational > Components
2
3實際應用: Schema High + Paradigm High + Operational High
4- Schema 是 High、但 CRDB 提供 PostgreSQL wire protocol 兼容
5- Paradigm 是 High、是 *單機 → 分散式* 的根本轉變、讀者最關心
6- Operational 是 High、但很大程度是 Paradigm 的 downstream
7
8→ 主結構選 Paradigm（Type E）、Schema + Operational 抽獨立段補充

不強迫單一 type 標籤 — 本文是 Type E 為主 + Type A / C 高維度增補 的 multi-axis 形態。

結構 differentiator：Type E 主結構 + 多軸增補段

跟前批 5 個 migration playbook 對照：

結構元素	Type A Splunk → Elastic	Type B Redis → DragonflyDB	Type C PostgreSQL → Aurora	Type D Datadog → Grafana	Type E Kafka ↔ NATS	本文（三維 High）
Phased translation	yes	-	-	-	-	partial
Compatibility audit	-	yes	-	-	-	yes
Operational redesign 對位	-	-	yes	-	-	yes（獨立段）
Schema gap 對位	-	-	-	-	-	yes（獨立段）
Parallel streams	-	-	-	yes	-	-
Paradigm contrast	-	-	-	-	yes	yes
Application 重設計	-	-	-	-	yes	yes
混合架構 long-term	-	-	-	-	yes	partial（部分 workload）

本文是「Type E 為主 + Type A schema gap 段 + Type C operational redesign 段」混合形態、9-10 章節、260-300 行。

維度 1：Paradigm shift（主導）

CRDB 是 distributed SQL DB、不是「PostgreSQL 多節點版」。核心差異：

概念	PostgreSQL	CockroachDB
Transaction isolation	MVCC、Read Committed default	Serializable Snapshot Isolation (SSI)、強一致
Transaction conflict	First writer wins	Retry-on-conflict、application 必須處理 `40001` retry code
Replication	Streaming replication + standby	Raft consensus、每筆寫 quorum + 自動 rebalance
Partition	Declarative partitioning（手動）	Automatic range-based + locality-aware
Latency p99	1-10ms（單 region）	5-50ms（cross-AZ Raft quorum）
Throughput limit	單 primary 上限 ~10-50K TPS	Linear scale by adding node、~5K TPS / node

關鍵 paradigm 改變：transaction 是 retry-able 操作、不是 atomic guaranteed。所有 transaction code 需要包 retry loop（CRDB 提供 cockroach_restart savepoint）。

維度 2：Schema gap（PostgreSQL features CRDB 不支援）

CRDB 號稱 PostgreSQL-compatible、但 covergence rate 80-90%；常見 gap：

PostgreSQL feature	CRDB 狀態	影響
Stored procedure / function (PL/pgSQL)	Limited（CRDB 22.2+ 部分支援）	Migration scope 內必須 audit + 改寫
Common Table Expression (CTE) recursive	Limited (depth + structure)	複雜 CTE 可能跑不通、必須 query refactor
Window function 全集	Partial	報表 query 需逐 case 驗證
Extensions (pg_repack / pgaudit / TimescaleDB)	不支援	用 CRDB 自家 alternative 或自管 application 層
Triggers	Limited	Audit / data integrity 邏輯遷到 application 層
Custom types / domain	Partial	用 CHECK constraint 替代
Geographic types (PostGIS)	CRDB native geo support（語法不同）	Spatial query 改寫
`SELECT FOR UPDATE` semantics	對等但底層機制不同（distributed lock）	注意 deadlock pattern 差異
Advisory locks	不支援	Application 端用其他 distributed lock（Redis / Consul）

Migration 必須 先 audit 完整 SQL feature 使用、列出 gap、評估解法或退役。

維度 3：Operational redesign

CRDB operational model 完全不同：

Operational concept	PostgreSQL self-managed	CRDB
Cluster bootstrap	Patroni / Stolon + manual	`cockroach init` + 自動 Raft formation
HA	Patroni + DCS + watchdog	內建 Raft、無 single primary
Failover	Patroni-managed、15-60s	透明 Raft re-election、< 5s
Backup	pgBackRest + WAL archive	`BACKUP TO` (incremental + full)
Restore	`pgBackRest restore` + PITR	`RESTORE FROM`
Replication	Streaming + logical	Built-in、無 logical replication 對等概念
Schema migration	`pg_dump` / Flyway / Liquibase	`cockroach sql` + online schema change（無 lock）
Monitoring	pg_stat_* views + Prometheus exporter	CRDB admin UI + Prometheus（schema 不同）
Sizing	Vertical scale（單 node big spec）	Horizontal scale（多 node 小 spec）

SRE 心智模型完全重訓：無 primary 概念 / 無 streaming lag 概念 / 無 standby promote 概念。

Migration 流程（混合形態）

不是線性 phased、是 phased + parallel + partial 混合：

 1Phase 0: scope 判讀
 2  - 列 application、區分「適合 CRDB」vs「保留 PostgreSQL」
 3  - SQL feature audit
 4  - Application transaction pattern audit
 5
 6Phase 1: schema port + application 改寫
 7  - DDL 轉成 CRDB syntax
 8  - 不支援 extension 找 alternative
 9  - Application transaction code 加 retry loop
10
11Phase 2: 雙寫期（部分 application 開始走 CRDB）
12  - 新 application 走 CRDB
13  - 舊 application 持續 PostgreSQL
14  - CDC bridge（Debezium → Kafka → CRDB consumer）
15
16Phase 3: cutover 適合的 application
17  - 每個 application 獨立 cutover
18  - 不是「全 DB 一次切」
19
20Phase 4: 長期混合架構
21  - 某些 workload 永遠保留 PostgreSQL（不適合分散式）
22  - CRDB 跑 distributed 適配 workload

整體 3-6 個月、不收斂到全 CRDB。

Production 故障演練

Case 1：Transaction retry 沒處理、application 大量 `40001` error

徵兆：cutover 後 application 5-10% transaction 報 restart transaction: TransactionRetryWithProtoRefreshError、業務 fail。

根因：PostgreSQL Read Committed 不要求 application 處理 conflict、CRDB Serializable Isolation 必須 retry-on-conflict；application code 沒 retry loop。

修法：

 1// CRDB transaction with retry
 2for retries := 0; retries < 10; retries++ {
 3    tx, _ := db.Begin()
 4    // ... transaction logic ...
 5    err := tx.Commit()
 6    if err != nil && strings.Contains(err.Error(), "40001") {
 7        time.Sleep(backoff(retries))
 8        continue
 9    }
10    break
11}

framework-level：用 CRDB-provided client lib（go-cockroachdb / crdb-jdbc）有 retry helper。

Case 2：Extension 缺位、application feature 整段掉

徵兆：cutover 後 application 某個地理計算功能直接報錯、PostGIS 函數不存在；migrate 計畫漏看。

根因：CRDB native geo 不同 syntax / API、PostGIS extension 不能直接搬。

修法：

Pre-migration 必跑 extension audit：列所有 pg_extension、找對應 CRDB feature 或退役
PostGIS 替代：CRDB native ST_* functions、部分 syntax 對齊但 spatial index 不同
退役不能換的 feature：評估保留 PostgreSQL（混合架構）

Case 3：Sequential PK 撞 Raft quorum 瓶頸

徵兆：cutover 後寫入吞吐量 / latency 不如預期、CRDB cluster CPU < 30% 但 write latency p99 high。

根因：application 用 AUTO_INCREMENT / SERIAL 連續 PK；CRDB 把連續 key 放 同一 range / 同一 Raft group、寫入串行化、無法平行 scale。

修法：

改 UUID v7 / unique_rowid()：時序排序但散佈跨 range、自動 partition by hash
PRIMARY KEY (region, id)：multi-region 場景 multi-tenancy 自然拆分
不適合的 workload 留 PostgreSQL：不是所有 schema 都適合 distributed

Case 4：Long transaction 對 Raft 衝擊

徵兆：跨 1 分鐘+ 的 transaction（batch processing / 大 ETL）大量 retry、最後失敗；同期間其他短 transaction 也 retry rate 上升。

根因：CRDB long transaction holds intent on touched ranges、阻塞其他 transaction；SSI conflict 機率隨 transaction 時間平方增長。

修法：

Long transaction 拆短：batch 用多個 short transaction、checkpoint 在 application 層
Heavy ETL 不跑 CRDB：用 CRDB CDC export 到 OLAP（Snowflake / BigQuery）跑 batch
Read-only long transaction 用 follower read：AS OF SYSTEM TIME 不 hold intent、適合 reporting

Case 5：Backup / restore 行為跟 PostgreSQL 不同、SRE runbook 失效

徵兆：DBA 嘗試 pg_restore 失敗、CRDB 端 backup format 完全不同；incident response 卡關 1-2 小時。

根因：CRDB backup 是 cluster-internal format、不能用 PostgreSQL tooling；SRE runbook 仍是 PostgreSQL world、應急時心智模型錯位。

修法：

Runbook 重寫：CRDB-specific backup / restore 流程、SRE training
DR drill：cutover 前跑完整 DR drill、用 CRDB tooling 完成、不依賴 PostgreSQL 經驗
Multi-region backup：CRDB 跨 region backup 配置、避免單 region 故障

Capacity 規劃

維度	PostgreSQL self-managed	CockroachDB
Single-node 上限	~10-50K TPS（vertical scale 到 32-128 vCPU）	~5K TPS / node（horizontal scale by adding node）
跨 region	高 latency 跨區 streaming	設計 native、Locality-aware queries
Sharding	手動 partition / pg_partman	自動 range-based
Storage / TPS ratio	不變	Storage 跨 node 3x（Raft quorum 3-replica default）
Total cost (10TB)	$2-4K USD / month（self-managed）	$5-10K USD / month（CRDB Cloud + 3x storage）

判讀：CRDB cost 顯著高、選 CRDB 必須是 paradigm 需求（distributed transaction / multi-region / linear scale）；單純成本 / availability 改善走 Aurora 更划算。

整合 / 下一步

跟 PostgreSQL → Aurora migration 對比

兩條 PostgreSQL 出路：

Aurora：operational simplification、protocol drop-in、cost 中等漲；適合 不需 distributed transaction 的 production
CRDB：distributed paradigm shift、application 必須改、cost 顯著漲；適合 真的需要 distributed 的 workload

多數 application 不需要 distributed transaction、Aurora 更合理；真正需要 cross-region 強一致 / linear scale by adding node 才走 CRDB。

跟 application transaction pattern 重設計

CRDB 強制 application 改 transaction code、retry loop 必加。團隊心智模型轉換是 migration 主要 effort、技術部分相對少。

下一步議題

CRDB → PostgreSQL reverse migration：當業務 simplify 後 distributed 不必要、reverse migration cost 高、實務上 CRDB 是 single-direction lock-in
CRDB Serverless：cost 起點低、burst workload 適合；steady workload 仍是 dedicated cluster
Multi-region active-active：CRDB 真正強項、但網路成本爆、僅金融 / 政府客戶 ROI 合理

PostgreSQL Partition Redesign：當 monthly partition 越跑越慢

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。對應 #127 Type F「Topology re-layout」第 2 個 dogfood（第 1 個是 Redis cluster re-sharding）— 驗證 Type F anatomy 在不同 vendor 上的通用性。

為什麼 monthly partition 越跑越慢

上線時 monthly range partition 設計很合理 — 每月一個 partition、12 個月一年、partition_pruning 在 WHERE event_time >= '2026-05-01' 時跑單 partition、查詢快。但業務跑了 18 個月後：

每月 partition size 從 50GB 漲到 500GB（流量 10x）
單月查詢 WHERE event_time BETWEEN '2026-05-01' AND '2026-05-15' 仍掃整月 500GB（partition_pruning 粒度只到 month）
Vacuum 一個月 partition 需要 6-8 小時、跑不進 maintenance window
DROP 老 partition 釋放 storage 是 monthly cadence、但 retention policy 要求 daily granularity

partition 設計需要 redesign、不是「optimize」 — 從 monthly range partition 改成 daily range partition、partition 數量從 36 個（3 年 retention）變 1095 個。

diff dimension audit 結果：

維度	評估	等級
Schema / API	同 PostgreSQL、同 table 定義、partition key 不變	Low
Operational model	同 PostgreSQL operational stack	Low
Paradigm	同 OLTP RDBMS	Low
Components	同 1 個 DB	Low
Application change	不改（partition_pruning 透明）	Low
Data topology	Partition strategy 從 monthly → daily	High

6 維皆 Low + topology High = Type F「Topology re-layout」。

Pre-layout analysis：partition 不平衡偵測

執行 redesign 前必須先量化當前 topology：

 1-- 1. 每 partition size + row count
 2SELECT
 3  child.relname AS partition_name,
 4  pg_size_pretty(pg_relation_size(child.oid)) AS size,
 5  child.reltuples::bigint AS estimated_rows,
 6  pg_stat_get_last_vacuum_time(child.oid) AS last_vacuum
 7FROM pg_inherits
 8JOIN pg_class parent ON pg_inherits.inhparent = parent.oid
 9JOIN pg_class child ON pg_inherits.inhrelid = child.oid
10WHERE parent.relname = 'events'
11ORDER BY pg_relation_size(child.oid) DESC;
12
13-- 2. partition_pruning 命中率
14EXPLAIN (ANALYZE, BUFFERS)
15SELECT count(*) FROM events
16WHERE event_time BETWEEN '2026-05-01' AND '2026-05-15';
17-- 期望: 只 scan 1 partition (target: daily) 或 1 partition (current: monthly)
18-- 觀察: monthly 設計下、即使 query 只跨 15 天、planner 仍 scan 整月 partition (~500GB)
19
20-- 3. 找 partition imbalance
21SELECT
22  to_char(event_time, 'YYYY-MM') AS month,
23  count(*) AS row_count
24FROM events
25GROUP BY 1
26ORDER BY 2 DESC;
27-- 找 hot month / cold month、判斷 redesign 後分佈

Pre-layout 階段的 output：

當前 topology 量化：36 monthly partition、總 size 1.8TB、最大 partition 500GB、最小 50GB
Hot key 分佈：80% 流量集中最近 3 個月
Redesign 目標：daily partition、最近 3 個月 hot daily / 3 個月 + 之前 cold weekly / 1 年 + 之前 monthly（sub-partition strategy）
Migration scope：1095 個 partition 不直接全建、按 retention policy 階段性

Re-layout 機制：ATTACH / DETACH 線上重劃

PostgreSQL 不支援「直接改 partition strategy」、必須走 新 partition tree + 資料搬遷：

 1-- 1. 建新 daily partition table (parallel to events)
 2CREATE TABLE events_daily (
 3  id bigint,
 4  event_time timestamptz NOT NULL,
 5  payload jsonb
 6) PARTITION BY RANGE (event_time);
 7
 8-- 2. 預建未來 90 天 daily partition
 9SELECT
10  format(
11    'CREATE TABLE events_daily_%s PARTITION OF events_daily FOR VALUES FROM (%L) TO (%L)',
12    to_char(d, 'YYYY_MM_DD'), d, d + interval '1 day'
13  )
14FROM generate_series(current_date, current_date + interval '90 days', interval '1 day') AS d;
15
16-- 3. dual-write phase: application 同寫 events + events_daily
17-- (用 trigger 或 application-side)
18CREATE OR REPLACE FUNCTION dual_write_events() RETURNS TRIGGER AS $$
19BEGIN
20  INSERT INTO events_daily VALUES (NEW.*);
21  RETURN NEW;
22END;
23$$ LANGUAGE plpgsql;
24
25CREATE TRIGGER events_dual_write
26AFTER INSERT ON events
27FOR EACH ROW EXECUTE FUNCTION dual_write_events();
28
29-- 4. backfill historical data per partition
30INSERT INTO events_daily
31SELECT * FROM events
32WHERE event_time >= '2026-05-01' AND event_time < '2026-05-02';
33-- ... 每天跑一個 day partition、avoid long transaction
34
35-- 5. cutover: rename swap
36BEGIN;
37ALTER TABLE events RENAME TO events_old;
38ALTER TABLE events_daily RENAME TO events;
39DROP TRIGGER events_dual_write ON events_old;
40COMMIT;
41
42-- 6. 觀察 1-2 週、DROP events_old

關鍵：rename swap 是 single transaction、cutover 瞬間發生；application connection 不需重連、但 prepared statement cache 可能要刷新。

Execution flow per-step

5 段、每段含 rollback boundary：

Step	動作	Rollback boundary
1 預建 partition	建 events_daily + 90 天 partition、不影響 production	DROP events_daily、無 impact
2 Dual-write	加 trigger 同寫兩端、observe diff	DROP trigger、events_daily 留作 cleanup
3 Backfill	逐日 backfill 歷史資料、用 CHECK constraint 確保完整性	DROP backfilled partition、不影響 source events
4 Verify	對 sample query 跑 events vs events_daily、確認 row count 一致	仍在 dual-write、發現 diff 可暫停 cutover
5 Cutover	Rename swap	不可逆、回退需 reverse rename + dual-write restart

Step 5 是不可逆邊界、應該排在 低流量 maintenance window 跑、且 cutover 前必須有 backup checkpoint。

Production 故障演練

Case 1：Backfill 期間 long transaction 阻塞 vacuum

徵兆：backfill 跑 6 小時的 INSERT INTO events_daily SELECT * FROM events WHERE ...、期間 events 表的 autovacuum 完全不跑、dead tuple 累積、production query 變慢。

根因：PostgreSQL transaction 期間 xmin horizon 鎖死、vacuum 只能回收「不會被任何 active transaction 看到」的 dead tuple；long backfill = long open transaction、vacuum 失效。

修法：

拆 batch INSERT：每日 backfill 拆成 small batch（10 萬 row 一個 transaction）、每個 commit 釋放 xmin
用 COPY 不用 INSERT：COPY events_daily FROM (SELECT * FROM events WHERE ...) 是 PG 對 batch 最快 + 對 vacuum 影響小
Backfill 跑在 standby：用 logical replication 從 standby 拉資料、不在 primary 跑長 transaction

Case 2：Trigger dual-write 對 application 造成 latency

徵兆：加 trigger 後 application 寫入 latency p99 從 5ms 漲到 25-50ms；high-throughput batch job 直接 timeout。

根因：每筆 INSERT 都觸發 trigger function 跑一次 INSERT 到 events_daily、IO 雙倍、index 也雙倍維護。

修法：

改 application-side dual-write：application code 顯式寫兩端、用 connection pool batch 攤平 IO
用 logical replication slot：events → events_daily 用 logical replication 取代 trigger、降 IO 衝擊
dual-write 時間最小化：trigger 只在 backfill + verify 期間打開、cutover 前關掉

Case 3：Partition_pruning 沒命中、planner 仍掃所有 partition

徵兆：cutover 完成後、application 端某些 query latency 從 200ms 跳到 5000ms；EXPLAIN 顯示 Append 下面所有 1095 個 partition 都被 scan。

根因：partition 數量爆到 1000+、planner planning_time 對某些 query 變長（含 prepared statement 沒帶 partition key bound）；或 query 用了 WHERE event_time = some_function(now())、planning-time pruning 不觸發。

修法：

enable_partition_pruning = on 預設、確認沒被 disable
PG 11+ runtime pruning：prepared statement 用 generic plan、runtime pruning 補位
Sub-partition strategy：1095 個 daily 太多、改 最近 90 天 daily / 之前 monthly 混合 strategy、減 partition count
Planner statistics：跑 ANALYZE 重建 statistics、partition 樹太大時 planner 需新 stats

Case 4：Constraint exclusion 失敗、跨 partition unique 不 enforce

徵兆：cutover 後發現某 user 的 event 在多個 partition 都有、unique constraint (user_id, event_id) 沒 enforce；data audit 抓到 duplicate。

根因：PostgreSQL partition table 的 UNIQUE constraint 必須包含 partition key；本來 monthly partition 下 UNIQUE (user_id, event_id) 加上 event_time（partition key）變 UNIQUE (user_id, event_id, event_time)、實際語意是「同月同 user 同 event_id 唯一」；改 daily 後變「同日同 user 同 event_id 唯一」— unique scope 從月變天、原本月內跨日 dedup 失效。

修法：

Pre-redesign：明示 unique constraint 的 時間 scope、redesign 後 scope 縮小是否可接受
Application-side dedup：跨 partition 唯一性走 application 層 lookup（用 Redis SETEX 暫存 key）
退到 non-partitioned dedup 表：建獨立 user_events_dedup 表、application 寫入前先 lookup

Case 5：DROP 老 partition 太頻繁、shared_buffers cache miss 爆

徵兆：daily partition 上線後、每天凌晨 cron DROP events_2025_05_18（90 天前）；DROP 後 shared_buffers 大量 invalidate、application 端 query latency p99 從 10ms 跳到 100-200ms 持續 30 分鐘。

根因：PostgreSQL shared_buffers cache 對被 DROP 表的 page 全部 invalidate；DROP 大 partition（10GB+）後 cache hit rate 從 99% 掉到 60%、application 等 disk IO。

修法：

DROP 跑在 off-peak：凌晨 3-4 點 cron、避開業務高峰
預熱 next partition：DROP 前用 pg_prewarm 主動 load 熱 partition 進 cache
改 DETACH + DROP TABLE delayed：DETACH 是 fast、DROP TABLE 排到 weekly batch、降頻率

Capacity / cost

維度	Monthly partition (current)	Daily partition (target)	Trade-off
Partition count	36 (3 年 retention)	1095 (3 年 retention)	30x partition count、planner cost 略升
Single partition size	50-500GB	1-20GB	Daily 更易 vacuum
DROP old data	Monthly cadence	Daily cadence	更細 retention 控制
Query latency	跨 partition 多時 50-200ms	跨 partition 少時 5-50ms	Daily 多數 query 更快
Planning time	5-10ms	50-100ms (對 generic plan)	Planning overhead + 1 order
Maintenance window	Vacuum 1 partition 6 小時	Vacuum 1 partition 5-30 分鐘	維護視窗更小、可日跑

判讀：daily partition 適合 高流量 + 跨日查詢多 + retention 細的場景；超大 partition (TB 級單日) 仍要 sub-partition 拆。

整合 / 下一步

跟 autovacuum tuning 整合

Daily partition 後 autovacuum 行為：

每 daily partition 獨立 autovacuum、scale_factor + threshold per-partition tuning
autovacuum_max_workers 要從 3 拉到 6-10（partition 數爆）
Cold partition (> 30 天) autovacuum_enabled = false、不浪費 CPU

跟 Patroni HA 整合

Failover 期間 partition migration 不能跑、必須在 stable cluster state 執行；Patroni promote 後重新評估 partition health。

跟 Logical Replication + Debezium 整合

publish_via_partition_root = true 讓 publication 從 parent 角度看；CDC consumer 不需要對每個 partition 設 subscription。

下一步議題

跨 daily partition 的 archive strategy：archive 到 S3 cold storage、daily granularity 給更細 retention 控制
pg_partman extension：自動建 daily partition、不用 cron；但要先確認 Aurora / RDS 支援
Sub-partitioning：未來流量爆時用「daily by time + list by tenant」雙軸 partition

PostgreSQL Multi-Region GDPR Rollout：政策驅動的 migration 屬本 methodology 嗎

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。同時是 #128 self-aware limitation 第 1 點「6 維仍可能漏類（identity / consistency / residency 三軸候選）」的 residency 軸驗證、跟 migration playbook methodology「何時不該套」段對「政策合規驅動」是否在 methodology scope 的反思。

政策驅動的 migration 屬本 methodology 嗎

Migration playbook methodology 「何時不該套」段曾把「compliance-driven migration」歸為排除情境、後來改寫為「不在排除範圍 — 法規驅動只是 driver、資料層仍走 type A-E 之一」。本文是該改寫的 正面實證 — GDPR EU residency 強制需求驅動 single-region → multi-region rollout、本文是 政策驅動但仍走 audit + type 對映流程 的 case study。

但 reviewer D 在第三輪 audit 提出：residency 不只是 driver、本身是 cross-cutting constraint、反向約束 topology + operational + schema；該不該升 獨立 audit 軸？本文是該議題的 dogfood。

三層約束：driver / topology / contract

GDPR 對 PostgreSQL multi-region rollout 的影響在三個層次：

Driver layer：EU 客戶資料必須 物理上儲存在 EU（GDPR Article 44-49）— 觸發 multi-region migration 的根本理由
Topology layer：跨 region replication 不能 自由跨 region 複製 EU 客戶資料、必須按 GDPR scope 分區；topology 設計受合規約束
Contract layer：審計能 demonstrate 「EU 資料在 EU」、操作日誌 + replication evidence 必須可追溯；application + ops contract 多出合規 obligation

跑 6 維 diff dimension audit 對「single us-east → us-east + eu-west」：

維度	評估	等級
Schema / API	同 PostgreSQL、可能加 region column	Low
Operational model	HA / backup / monitoring 跨 region 重設計	High
Paradigm	同 OLTP RDBMS	Low
Components	同 PostgreSQL instance + Patroni	Low
Application change	Routing logic by user region、必改	Medium
Data topology	Single → multi-region replication	High
Residency contract	EU 資料禁止離開 EU、log + replication 範圍受約束	High

6 維 audit 抓不到「Residency contract = High」這軸。用既有 6 維歸類、會走 Type F multi-axis（topology + operational + application change 多 High）+ 政策合規補強段；但這個歸類 漏掉合規對 topology / operational / application 的反向約束：

Topology layer：6 維只 audit 「topology 是否變動」、漏 audit 「topology 範圍是否受合規約束」
Operational layer：6 維只 audit 「operational 是否重設計」、漏 audit 「audit log / encryption / access control 是否符合合規要求」
Application layer：6 維只 audit 「application code 是否改」、漏 audit 「資料 routing 是否符合 residency rule」

Residency 不只是 driver、是 cross-cutting constraint、會反向約束其他 3-4 維、且帶獨立工作量（合規 evidence collection / DPIA / audit prep）。

Residency axis 是否獨立：3 個論據

Yes、residency 是獨立軸：

可獨立發生：原本 multi-region setup、新增「PCI 強制信用卡資料只能 us-east」、是 純 residency 變更、其他 6 維皆 Low（topology 不重設計、operational 不重設計、application 加 routing rule 即可）；但 residency 約束 routing + log 範圍
驅動工作量分佈：本文 multi-region GDPR rollout 工作量分佈：
- Topology setup（logical replication / region setup）：~25%
- Operational redesign（HA / backup / monitoring）：~20%
- Application routing change（region detection / data filter）：~15%
- Residency compliance（DPIA / audit log / access control / encryption / evidence）：~40%
Cross-cutting nature：residency 不只影響「資料放哪」、影響：
- Backup 可不可以 cross-region store（多數 GDPR 不允許）
- Audit log 是否包含 EU PII（需 EU 端 log + 跨 region log filter）
- Encryption key 是否可 cross-region share（多數情境不允許）
- Application access logs 是否含 EU IP / user ID

No、residency 可塞 operational + driver：

反論：residency 是 operational 子議題、加 audit + replication scope 規則就好
拒絕：residency 反向約束 topology / application / operational、且帶獨立合規工作量（DPIA / cross-border transfer agreement / data subject rights）；不是單純 operational 子議題

實證：本文 migration 工作量 40% 在 compliance、確認 residency 是 獨立工作量主軸。

結構：Type F multi-axis + residency compliance 獨立段

本文結構是 Type F 為主（topology high + operational high）+ residency compliance 獨立段（不在 6 維任一個）：

11. 政策驅動的 migration 屬本 methodology 嗎（meta-reflection 開頭）
22. 三層約束：driver / topology / contract
33. Residency axis 是否獨立的論據
44. 結構 differentiator（Type F multi-axis + residency compliance 段）
55. EU residency 對 topology / operational / application 的反向約束
66. Migration 流程（含 DPIA 跟 evidence collection 階段）
77. Production 故障演練
88. Capacity / cost（含合規 audit cost）
99. 整合 / 下一步

9 章節、240-270 行。比標準 Type F 多 1 段（residency compliance）+ 1 段（meta-reflection）。

EU residency 對其他維度的反向約束

 1Residency rule → Topology constraint:
 2- EU customer data 不能 replicate to us-east
 3- Backup of EU table 不能 store in non-EU region
 4- Logical replication subscriber 在 us-east 必須 filter out EU data
 5
 6Residency rule → Operational constraint:
 7- Cross-region monitoring 不能 export EU PII to global SaaS (Datadog)
 8- Audit log 含 EU user_id 必須 store 在 EU
 9- Encryption key (KMS) 不能 share 跨 region（EU 端用 EU KMS）
10- DBA / SRE access EU data 必須 from EU jurisdiction + 記 audit trail
11
12Residency rule → Application constraint:
13- Application 必須 detect user region + route 對應 DB endpoint
14- Cross-region join / aggregate 對 EU user 必須走 EU 端 query
15- Data export feature 必須 reject 跨 region export request

每條反向約束都是 新工作量、不在 6 維 audit 內。

Migration 流程（含 DPIA + evidence collection）

10 step、跨 5 個月：

Phase	Step	對應 6 維 / 合規
0 Pre-migration	1. DPIA（Data Protection Impact Assessment）	Compliance pre-requisite
0	2. 法務 review 跨境傳輸 agreement	Compliance
1 Setup	3. EU PostgreSQL cluster build + Patroni	Operational + Topology
1	4. EU KMS + audit log + monitoring stack	Operational + Residency
2 Data	5. Logical replication 設 filter（exclude EU table from us-east）	Topology + Residency
2	6. Initial sync EU table 到 EU cluster	Topology
3 App	7. Application 端加 region detection + routing	Application change
3	8. Cross-region query banning（cross-region join 拒絕 EU table）	Application + Residency
4 Verify	9. Compliance audit + evidence package	Residency
4	10. DPO sign-off + DR drill	Residency + Operational

Step 1 + 9 + 10 是 residency-specific、不在既有 6 維內。

Production 故障演練

Case 1：Replication filter 漏 table、EU 資料 leak 到 us-east

徵兆：6 個月後 internal audit 發現 us-east 端 customers table 含 EU 客戶資料；replication filter 設定漏改、新加的 eu_customer_extensions table 被自動 replicate 到 us-east。

根因：PostgreSQL logical replication publication 預設 FOR ALL TABLES、新加的 table 自動納入；應該明示 FOR TABLE list... 並 GDPR review。

修法：

Publication 改 explicit table list：CREATE PUBLICATION xxx FOR TABLE users, orders, ...、不用 FOR ALL TABLES
Schema change review 加 GDPR check：每個 DDL PR 必須答「新 table 是否含 EU PII、是否該 filter」
Replication monitor：定期跑 SELECT * FROM pg_publication_tables 對照 expected list、漂移立刻 alert
Evidence collection：filter 配置 + audit log 留檔、出事 DPO 知道何時 leak

Case 2：Backup 跨 region store、合規違規

徵兆：跑 1 年後 GDPR audit 抓到 EU table 的 backup 存在 us-west S3 bucket；違反 Article 44-49 限制。

根因：pgBackRest 預設用 global S3 bucket（在 us-east-1）；EU PostgreSQL cluster backup 跑去 us-east、跨境傳輸無 transfer mechanism。

修法：

Per-region backup config：EU cluster 用 EU S3 bucket（eu-west-1）、寫進 pgBackRest config
Backup test：每月跑一次 backup restore drill、validate backup 是 from EU region
Bucket policy 強 enforce：EU bucket 加 aws:RequestedRegion=eu-west-1 強制 region match
Audit log archive 同理：log shipping 也必須 region-respect

Case 3：Monitor SaaS 收集 EU PII、合規 alert

徵兆：Datadog APM 收集了 EU customer 端 request 含 user_email 在 trace、被 DPO catch、required to delete 過去 90 天的 Datadog data。

根因：APM trace 預設收集 application context、含 PII；Datadog 是 us-east SaaS、PII 跨境到 Datadog us-east、違規。

修法：

APM scrub PII：application 端在 trace 前 scrub user_email / user_id 替換成 hash
EU-specific monitor stack：EU PostgreSQL + APM 用 Grafana on EU EKS、不送 Datadog
跨 region SaaS use 必須 audit：所有外部 SaaS（Datadog / Sentry / NewRelic）必須 GDPR-friendly 配置
Privacy by design：log / trace 預設 scrub PII、不是 opt-in

Case 4：Cross-region query 跑 EU + US 資料、residency 違規

徵兆：BI dashboard 跑跨 region aggregation query（EU sales + US sales）、PostgreSQL FDW 從 us-east cluster query EU cluster、EU 端 server log 顯示「PII export to us-east」。

根因：開發者用 PostgreSQL Foreign Data Wrapper（FDW）方便跑跨 region query、不知道這在 GDPR 視為跨境 PII export。

修法：

Architecture: aggregate at edge：BI 跑 per-region aggregate、再在 BI layer compose（無 PII）；不直接跨 region join
FDW 限制：disable FDW from us-east → EU cluster、enforce one-way data flow
DBA access policy：DBA 不能直接 query EU cluster 從 us-east jumpbox
Query audit：production query log 跑 PII detection（regex / NER）、發現跨境 export 立即 alert

Case 5：DR drill 跨 region failover、暴露 residency assumption 失敗

徵兆：DR drill「EU 完全不可用、切到 us-east」執行後、發現 us-east 端 沒 EU 資料 — 因為一直 strict residency filter；business 端 EU 客戶 24 小時無法服務。

根因：strict GDPR residency 跟 strict DR availability 衝突 — 要 跨 region DR 就要 跨 region 持有資料、要 strict residency 就 DR 範圍受限。

修法：

DR strategy revision：EU 端 multi-AZ within EU、不靠跨 region；EU region 全不可用情境接受 longer RTO
Compliance + DR negotiation：跟 DPO / 法務談 DR 跨境 short-window 是否可接受、簽 cross-border transfer agreement
Backup recovery 在 EU 內：EU 端 backup 跨 AZ store、不跨 region；EU AZ 災難用 EU 另一個 AZ 重建
明示 RTO trade-off：EU customer SLA 寫「regional DR 內 RTO 1 小時、global DR 24-48 小時」、residency 跟 DR 是 互斥取捨

Capacity / cost

維度	Single region	Multi-region GDPR-compliant
Infrastructure cost	baseline	+60-100%（雙 cluster + cross-region replication）
Operational FTE	0.5-1	1-2 FTE（雙 region SRE + compliance）
Compliance cost	0	$50-200K USD setup（DPIA / audit / DPO time）+ ongoing
Egress cost	Low	High（cross-region replication 流量）
Application latency	Single AZ	EU customer 連 EU、低；US customer 連 US、低
DR RTO	30 分鐘 (single region)	EU regional 1 小時 / global 24-48 小時
Audit cost	Minimal	季度 DPIA + 年度 compliance audit

判讀：GDPR multi-region 成本 1.5-2.5x、但合規是 必要 spend、用 cost optimization 的框架看會誤判；多數歐洲業務 7+ 年回本（避免 4% revenue fine）。

整合 / 下一步

跟 PostgreSQL → Aurora 對位

Aurora Global Database 可簡化跨 region setup、但 residency filter 仍需 application 端；不是「Aurora 就解決 GDPR」。

跟 Multi-DC MongoDB 對位

兩篇都是 multi-region rollout、但本文加合規維度；MongoDB 篇純 capacity + DR driver、本文加 residency constraint、結構不同。

跟 #128 self-aware limitation 第 1 點對位

本文驗證 residency axis 候選：

Yes 軸獨立：reverse-constrain topology + operational + application、且帶獨立 compliance 工作量（DPIA / evidence collection / DPO sign-off）
作為 driver 不夠：methodology 把 residency 歸為 driver 太窄、忽略 cross-cutting constraint 性質

未來 audit 可能擴 7 維（加 residency / compliance contract）；累積 PCI / HIPAA / SOX 等不同合規 case 後再評估。

下一步議題

Identity + Consistency + Residency 三軸候選統合：本批 3 篇分別驗證、未來累積 evidence 後考慮獨立 #129 卡 / 擴 audit 到 7-8 維
Schrems II + new EU data transfer rules：跨大西洋資料傳輸法規變動快、playbook 半衰期短
Data localization in China / Russia / India：類似 GDPR 但細節不同、未來 case 累積後評估

PostgreSQL pgBouncer 配置 + 連線池治理

Mon, 18 May 2026 00:00:00 +0000

PostgreSQL 的 connection 是 昂貴的 process、每個 connection ~10MB RAM、idle connection 也吃 backend slot。當 application instance 數量爆炸（K8s replica × 多 deployment × pool size）、直接連 PostgreSQL 會把 backend slot 耗盡、新 connection 全 refuse — 即使 active query 不多。pgBouncer 是 connection pool proxy、把幾千個 application connection 收斂成幾百個 PostgreSQL backend connection、production-grade PostgreSQL 部署的標配。

本文不是 pgBouncer overview（請看 PostgreSQL vendor 頁中 connection pool 段）— 而是 production 部署 + 故障演練 的實作層教學。覆蓋三層 pool（application → pgBouncer → PostgreSQL）的對齊、transaction pooling 跟 session pooling 的選擇陷阱、跟 HA failover 的整合、容量規劃。

問題情境

典型觸發場景：團隊規模從 50 人爬到 200 人、microservice 從 20 個爬到 100 個、K8s replica 從 3 個爬到每服務 5-10 個。直連 PostgreSQL 的 connection 計算：

1100 service × 6 replica × 30 application pool = 18000 connection

PostgreSQL 預設 max_connections = 100、production 設 max_connections = 500-1000 已經是上限（每多一個都加 memory + context switch cost）。18000 連線打 PostgreSQL 直接打爆。

進一步問題：

一半 connection 是 idle（application pool 預留、實際沒查詢）— 浪費 backend slot
Cold start 時所有 replica 同時建 connection、瞬間 spike
DB failover 時所有 application 同時 reconnect、prod-test pattern 跑不通
DNS-based failover 時 application connection pool 不知道 backend 換了

pgBouncer 解這四個問題。但 引入 pgBouncer 後又會引入新的問題層（pgBouncer 跟 application pool 不對齊、transaction pooling 的 session state 限制、HA 故障時 pgBouncer 也要 failover）— 本文討論這些。

核心概念：pool mode + sizing

pgBouncer 的 first-class concept 是 pool mode、決定 application connection 跟 PostgreSQL backend connection 的綁定方式：

Session pooling：application connection 拿到 backend connection 後、整個 session 期間都綁同一個 backend。tear-down 才釋放。語義跟「直連」一樣、不破壞 session state。但 idle connection 仍占 backend slot、收斂效率低、適合 連線數不多但要保留 session state（用了 prepared statement、temporary table、advisory lock 等）的場景。
Transaction pooling：application connection 在 transaction 邊界 才綁 backend、commit / rollback 後立即釋放。同一個 application connection 不同 transaction 可能拿到不同 backend。收斂效率高（idle connection 完全不占 backend slot）、但 session state 限制嚴 — 不能用 SET 改 session-level setting、不能用 prepared statement（除非 application 端禁用）、不能用 advisory lock 跨 transaction。
Statement pooling：每個 statement 完就釋放 backend。極端高收斂但 連 transaction 都不能跨 statement、絕大多數 application 用不了、只在 batch query 場景。

Production 預設選 transaction pooling、application 端禁用 prepared statement（或用 PgBouncer-supported prepared statement、需 pgBouncer 1.21+）。例外場景才開 session pooling。

Pool sizing 公式：

1PostgreSQL max_connections     = pgBouncer N × default_pool_size + reserve
2pgBouncer default_pool_size    = per-database backend connection 上限
3Application pool size          = 每 application instance 拿幾個 pgBouncer connection

實例：50 個 application replica、每 instance pool 30 個、pgBouncer 後 default_pool_size = 20（per database）、3 個 database。

1Total application → pgBouncer = 50 × 30 = 1500 connection
2pgBouncer → PostgreSQL        = 3 × 20 = 60 connection
3PostgreSQL max_connections    = 60 + reserve (50 預留 admin / migration) = 110

1500 → 110 收斂 13.6 倍、PostgreSQL 還在合理上限內。

Step-by-step 配置

pgBouncer.ini：

 1[databases]
 2mydb = host=postgres-primary.internal port=5432 dbname=mydb auth_user=pgbouncer
 3
 4[pgbouncer]
 5listen_port = 6432
 6listen_addr = 0.0.0.0
 7auth_type = scram-sha-256
 8auth_file = /etc/pgbouncer/userlist.txt
 9auth_query = SELECT usename, passwd FROM pg_shadow WHERE usename=$1
10
11pool_mode = transaction
12default_pool_size = 20
13min_pool_size = 5
14reserve_pool_size = 10
15reserve_pool_timeout = 5
16
17max_client_conn = 2000
18max_db_connections = 100
19
20server_idle_timeout = 600
21server_lifetime = 3600
22server_connect_timeout = 15
23server_login_retry = 5
24
25client_idle_timeout = 0
26client_login_timeout = 60
27
28stats_period = 60
29log_connections = 0
30log_disconnections = 0
31log_pooler_errors = 1
32
33admin_users = pgbouncer_admin
34stats_users = pgbouncer_stats

關鍵欄位解釋：

pool_mode = transaction：絕大多數 production 場景
default_pool_size = 20：每 database 對 PostgreSQL 的 backend connection 上限、調整時要算進 PostgreSQL max_connections
reserve_pool_size = 10 + reserve_pool_timeout = 5：當 default_pool_size 用滿、等 5 秒還拿不到 connection 才用 reserve pool — 是 突發 spike 的 buffer、不是 baseline
max_client_conn = 2000：application 端能連 pgBouncer 的最大數
server_lifetime = 3600：每 1 小時強制 recycle backend connection、避免 long-lived connection 累積 memory bloat（PostgreSQL pg_stat_activity 看 connection age）
auth_query：pgBouncer 直接從 PostgreSQL pg_shadow 拉密碼、不需要在 pgBouncer 本地維護 userlist — production 推薦做法

Application 端 pool 設定：

 1# 例：Spring Boot HikariCP
 2spring.datasource.url: jdbc:postgresql://pgbouncer.internal:6432/mydb
 3spring.datasource.hikari.maximum-pool-size: 30
 4spring.datasource.hikari.minimum-idle: 5
 5spring.datasource.hikari.connection-timeout: 30000
 6spring.datasource.hikari.idle-timeout: 600000
 7spring.datasource.hikari.max-lifetime: 1800000  # 30 min < pgBouncer server_lifetime 60 min
 8
 9# 例：SQLAlchemy
10engine = create_engine(
11    "postgresql://pgbouncer.internal:6432/mydb",
12    pool_size=30,
13    max_overflow=5,
14    pool_pre_ping=True,        # 必開、檢測 stale connection
15    pool_recycle=1800,         # 30 min、跟 pgBouncer server_lifetime 對齊
16)

Application 跟 pgBouncer 對齊：

application max-lifetime < pgBouncer server_lifetime：避免 application 拿到已被 pgBouncer recycle 的 connection
pool_pre_ping = True：每次 checkout 前 send SELECT 1、檢測 stale connection — 對 transaction pooling 是必要的
application 端不要用 prepared statement（除非 pgBouncer 1.21+ 設 max_prepared_statements）

故障演練 / 邊界 case

Case 1：Pool exhaustion（default_pool_size 用滿）

徵兆：application log ERROR: no more connections allowed、pgBouncer log pool is full、pgBouncer admin console SHOW POOLS 顯示 cl_waiting > 0。

Debug：

1-- 連 pgBouncer admin
2\c pgbouncer
3SHOW POOLS;
4-- 看 cl_active / cl_waiting / sv_active / sv_idle
5SHOW SERVERS;
6-- 看 server connection state（active / idle / used）

修：

短期：調高 default_pool_size 跟 PostgreSQL max_connections、配合 reserve pool
中期：找 long-running query（PostgreSQL pg_stat_activity 看 query_start、kill 過長 query）
長期：拆 database / 改 read replica / 移 OLAP query 到 data warehouse

Case 2：Transaction pooling 下 session state 漏洞

徵兆：random 失敗 prepared statement "S_3" does not exist、relation "tmp_xxx" does not exist、advisory lock 不釋放。

原因：application 用了 prepared statement / temporary table / advisory lock、但 transaction commit 後 backend connection 釋放、下一個 transaction 拿到不同 backend、session state 不存在。

修：

Application 框架禁用 prepared statement（JDBC prepareThreshold=0、SQLAlchemy use_native_prepared_statements=False）
temporary table 改 unlogged table + cleanup
advisory lock 改 row-level lock 或 application-level lock（Redis）
或：切到 session pooling、犧牲收斂效率

Case 3：DNS-based failover 後 application 連到舊 master

徵兆：PostgreSQL 切換 master 後、application 寫操作 時好時壞（看連到哪台）。

原因：pgBouncer 在 application 跟 PostgreSQL 之間、application 不知道 backend 換了；pgBouncer 自己也需要 reload config 才會連新 master。

修：

pgBouncer 用 RECONNECT admin command 強制 close all backend connection、重連
配 Patroni / Stolon 等 HA 工具自動 trigger pgBouncer reconnect
application 端 pool_pre_ping 開啟、stale connection 自動踢

Case 4：Server lifetime recycle 跟 in-flight transaction 衝突

徵兆：偶發 server closed the connection unexpectedly、跟 long-running transaction 重疊。

原因：pgBouncer server_lifetime = 3600 強制 recycle、但有 transaction 在跑時 pgBouncer 不會切、超過時間後仍會切。

修：

確認沒有 超過 1 小時 的 transaction（PostgreSQL pg_stat_activity 看 xact_start）
必要時調高 server_lifetime、但 memory bloat 風險上升
application 端做 transaction timeout

Case 5：pgBouncer 自己 crash / OOM

徵兆：所有 application 同時失去 PostgreSQL 連線。

原因：pgBouncer 是 single-process（除非 1.21+ 用 so_reuseport 多 process）、memory leak / OOM / 部署事件都會打掉整個 connection layer。

修：

多 pgBouncer instance + load balancer（HAProxy / Envoy）前置、application 連 LB
so_reuseport = 1（1.21+）讓多個 pgBouncer process 共用 port
Resource limit 跟 alert：RSS > N、connection count > M
HA mode：active-passive 配 keepalived

容量 / cost 規劃

單一 pgBouncer 容量上限：

max_client_conn：實務 < 5000 per instance（再高 CPU 跟 file descriptor 緊）
default_pool_size × database 數：實務 < 200 per instance
single process CPU bound：在 10K QPS 等級已經是瓶頸、要橫向 scale

何時加 pgBouncer instance：

application connection 數突破 3000 / pgBouncer instance
pgBouncer CPU usage > 60%（baseline、不算 spike）
跨 region application 需要 region-local pgBouncer

何時改架構（pgBouncer 不夠用）：

PostgreSQL backend connection 數突破 500（即使有 pgBouncer 也撐不住）→ 改 read replica / partitioning / sharding
write 量太大（每秒 50K+ TPS）→ 改 sharding（Vitess / Citus）或全球分散式 SQL（1.11 全球分散式 OLTP）
application 大量 prepared statement / session state 需求 → 改 PgCat（Rust 寫、支援更完整的 session feature）或回 session pooling

整合 / 下一步

跟 HA failover 整合（Patroni）：

Patroni 切換 master 後 trigger pgBouncer RECONNECT
pgBouncer 透過 service discovery（Consul / etcd）拿新 master 位址、不是寫死在 config
application 不需感知 failover、connection 從 pgBouncer 拿到新 master 的 backend

跟監控整合：

pgBouncer admin console SHOW STATS / SHOW POOLS / SHOW SERVERS 拉到 Prometheus（pgbouncer_exporter）
必看 metric：cl_waiting（等 backend 的 client 數）、sv_active（active backend 數）、avg_query_time、avg_xact_time
Alert：cl_waiting > 0 持續 30s、server connection error rate > 0

跟 application observability 整合：

Application APM（Datadog / Honeycomb / OpenTelemetry）的 DB span 顯示 application 看到的 latency、pgBouncer metric 顯示 pgBouncer ↔ PostgreSQL latency — 兩者差異揭露 connection wait time

何時 revisit 這個配置：

application 數量倍增（trigger pool sizing 重算）
PostgreSQL 升級（pgBouncer 跟 PostgreSQL 版本相容性）
跨 region 部署（要不要 region-local pgBouncer）
切換到 RDS Proxy / Aurora Cluster Endpoint（managed alternative）

Aurora PostgreSQL I/O-Optimized Cost

Fri, 22 May 2026 00:00:00 +0000

Aurora PostgreSQL I/O-Optimized cost 的核心責任是把 Aurora storage configuration 從定價選項轉成 workload 決策。AWS 官方文件將 Aurora cluster storage configuration 分成 Aurora Standard 與 Aurora I/O-Optimized；前者適合一般 I/O 分布，後者針對 I/O 密集 workload 提供不同成本結構。

本文的判讀錨點是：I/O-Optimized 是成本與 workload profile 決策，而非效能保證。要看的是 read / write I/O charge、storage、instance、backup、replica、query pattern、maintenance 與未來成長。

官方文件路由的核心責任是固定時間敏感 claim。實作前先查 Aurora storage configurations 與 supported engines / regions；本文最後檢查日是 2026-05-22。

Cost Model

Cost model 的核心責任是拆解 Aurora bill 的來源。Aurora 成本通常包含 instance、storage、I/O request、backup、replica、data transfer 與 support / operation。

成本項	Standard 判讀	I/O-Optimized 判讀
Instance	仍依 instance / capacity 計費	仍依 instance / capacity 計費
Storage	依儲存使用量	依 I/O-Optimized storage 設定
I/O requests	I/O 成本可成為主要變動項	I/O charge 結構改變，適合高 I/O workload
Backup / snapshot	依保留與使用量	仍需納入總成本
Data transfer	跨 AZ / region / service 需審查	仍需納入總成本

成本評估要用真實帳單和 CloudWatch 指標。只用平均 QPS 估算會漏掉 batch job、vacuum、index build、replica、backfill 與報表查詢帶來的 I/O 尖峰。

Workload Signals

Workload signals 的核心責任是找出 I/O 是否為主要成本與瓶頸。

訊號	意義
I/O request 成本占比高	Standard 可能受 I/O charge 影響大
Buffer cache hit ratio 低	工作集超過 memory 或 query 掃描過重
大量 random read / write	storage I/O 壓力明顯
ETL / backfill 經常跑	短期 I/O spike 可能影響帳單與 latency
Index / query 設計已優化	成本切換更能反映真實 workload

先做 query 與 index review。若 I/O 來自缺 index、全表掃描、過度 eager loading 或不必要 backfill，直接切 I/O-Optimized 只會把浪費制度化。

Evaluation Process

Evaluation process 的核心責任是讓切換決策可回溯。

收集 30 到 90 天成本：instance、storage、I/O、backup、transfer。
收集 workload 指標：read/write IOPS、cache hit、slow query、top SQL。
標記特殊事件：migration、backfill、incident、seasonality。
建立 Standard vs I/O-Optimized 成本試算。
在 staging / canary 確認 application behavior。
設定切換後 7 / 14 / 30 天回顧點。

試算要包含季節性。月初結算、年度促銷、批次報表與資料重整都可能讓 I/O profile 和普通週不同。

Migration and Rollback

Migration and rollback 的核心責任是把 storage configuration change 放進變更流程。Aurora storage configuration 是 cluster-level decision，應先確認支援區域、engine version、切換限制、維護窗口與回退條件。

Step	Evidence
Pre-check	engine version、region support、current bill
Cost baseline	近期成本與 I/O 指標
Change window	application traffic、maintenance
Post-check	latency、I/O、error、bill trend
Review	7 / 14 / 30 天成本與效能

Rollback 條件要明確。若切換後成本下降未達目標、latency 沒改善、或 workload profile 改變，應重新評估 Standard 與 query optimization。

Anti-Patterns

Anti-pattern 的核心責任是避免把計費選項當成效能調校。

反模式	風險	修正方向
未看 top SQL 直接切換	把壞 query 的成本包進新方案	先做 query / index review
用單日帳單推估全年	忽略 seasonality	至少看完整業務週期
忽略 backup / transfer	總成本估算失真	全 bill component 一起比較
切換後無 review	成本漂移無 owner	設定 7 / 14 / 30 天 tripwire

I/O-Optimized 的價值來自成本結構對齊 workload。它應該是 FinOps 與 database operation 的共同決策。

下一步路由

Aurora I/O-Optimized cost 完成後，Aurora 遷移讀 PostgreSQL to Aurora Migration；query 成本讀 Query Optimization；capacity 與瓶頸判斷讀 Bottleneck Localization。

Managed PostgreSQL Comparison

Fri, 22 May 2026 00:00:00 +0000

Managed PostgreSQL comparison 的核心責任是把「都是 PostgreSQL」拆成不同的操作責任邊界。Managed service 可能代管 backup、patch、replica、minor upgrade、monitoring、connection proxy、serverless scaling 或 branch workflow；但 application schema、query、migration、role、cost 與 incident decision 仍需要 team 承擔。

本文的判讀錨點是：managed PostgreSQL 是 operation trade-off，而非 vendor-neutral checkbox。選型要看 workload、合規、extension、HA / DR、connection、cost visibility、exit route 與 team skill。

官方文件路由的核心責任是固定 provider claim。實作前分別查 AlloyDB docs、Cloud SQL for PostgreSQL、Azure Database for PostgreSQL Flexible Server 與 Supabase branching docs；本文最後檢查日是 2026-05-22。

Provider Boundary

Provider boundary 的核心責任是定義 vendor 接手哪些資料庫操作。

類型	代表選項	適合情境
Cloud managed PostgreSQL	RDS PostgreSQL、Cloud SQL、Azure PG	標準 PostgreSQL、雲平台整合
Aurora PostgreSQL-compatible	Amazon Aurora PostgreSQL	AWS 生態、高可用 storage layer、read scaling
Serverless / branching PG	Neon、Supabase 部分能力	dev preview、稀疏 workload、快速分支
Specialist managed PG	Crunchy Bridge 等	PostgreSQL 專業支援、extension 需求
Self-managed	VM / K8s 上自管	需要完整控制、具備 DBA 能力

Provider boundary 要寫成 responsibility matrix。誰負責 backup restore、major upgrade、extension enable、failover、connection proxy、audit export、encryption key、support ticket 與 incident decision。

Serverless / branching PG 這一列的 Neon 與 Supabase 不在同一個外包深度。Neon 是純 serverless PostgreSQL（managed 基礎設施）；Supabase 是把 Postgres 當其中一塊的 BaaS bundle（同時含 Auth、Storage、Realtime）。只需要資料庫、兩者皆可比較且 Neon 更輕；要連認證、儲存一起到位、才是 Supabase 的賣點。這個外包深度差異與「該買整個 bundle 還是只用它的 Postgres」的判讀、見 0.22 能力級買 vs 建。

Evaluation Dimensions

Evaluation dimensions 的核心責任是讓比較避免只看價格或品牌。

維度	審查問題
PostgreSQL fidelity	engine version、extension、parameter、superuser 限制
HA / DR	AZ failover、cross-region replica、PITR、restore drill
Connection	max connection、pooler、proxy、serverless cold start
Migration	import/export、logical replication、downtime window
Observability	logs、metrics、slow query、audit、SIEM export
Security	network、IAM、KMS、TLS、RLS / pgAudit support
Cost	instance、storage、I/O、backup、egress、support
Exit	dump、logical replication、snapshot portability

PostgreSQL fidelity 是第一關。若服務依賴 extension、logical decoding、superuser function、custom parameter 或 filesystem access，managed provider 的限制會直接影響可行性。

Workload Fit

Workload fit 的核心責任是把 provider 能力和產品需求對齊。

Workload	優先考量
SaaS OLTP	HA、PITR、connection pool、online migration
Analytics-heavy OLTP	read replica、I/O cost、work_mem、warehouse boundary
Dev / preview env	branching、fast restore、low idle cost
Regulated workload	audit、KMS、network isolation、retention
Extension-heavy app	PostGIS、pgvector、TimescaleDB、logical decoding support

Serverless / branching PG 適合 preview 與稀疏 workload，但 sustained high-throughput production 要審查 cold start、connection、storage separation latency 與 cost curve。

Aurora PostgreSQL 適合 AWS-heavy 架構與高可用 storage layer，但要審查 PostgreSQL compatibility、parameter 限制、I/O cost 與 migration / exit。

Migration and Exit

Migration and exit 的核心責任是避免 managed service 變成單向門。導入前要先知道如何進去、如何出來。

流程	Evidence
Import	dump / restore、logical replication、DMS
Cutover	freeze window、replica catch-up、validation
Rollback	source snapshot、write replay、DNS switch
Exit	pg_dump、logical replication、snapshot export
Rehearsal	staging restore、row count、checksum

Exit route 要比口頭承諾更具體。至少要能在 staging 將資料匯出到 vanilla PostgreSQL 或下一個 managed provider，並跑 application smoke test。

Cost Review

Cost review 的核心責任是把 managed convenience 轉成總成本。總成本包含 instance、storage、I/O、backup、replica、egress、support、observability、operation labor 與 incident cost。

Cost driver	常見誤判
I/O	只看 instance price
Backup retention	長 retention 被忽略
Cross-region replica	data transfer / storage 增加
Observability export	log volume 與 SIEM 成本
Serverless idle	idle 低但 sustained workload 成本不同

Cost review 要設 tripwire。當 I/O 成本占比提高、backup retention 變長、replica 增加或 serverless workload 變成常駐，重新評估方案。

Decision Route

Decision route 的核心責任是把 provider 選型導向具體路線。

需求	優先路由
標準雲平台 PostgreSQL	RDS / Cloud SQL / Azure PG
AWS 生態 + HA storage layer	Aurora PostgreSQL
Preview branch / dev env	Neon / Supabase branch workflow
Extension / PG 專業支援	specialist managed PG
完整控制與特殊 extension	self-managed PostgreSQL

Managed provider 的最終選擇要回到 team skill。少維護元件是價值；把尚未理解的限制外包給 vendor，會在 incident 和 migration 時回來。

下一步路由

Managed PostgreSQL comparison 完成後，Aurora 遷移讀 PostgreSQL to Aurora Migration；Aurora DSQL 讀 PostgreSQL to Aurora DSQL；serverless / specialized variant 讀 Specialized PostgreSQL Variants。

PostgreSQL Connection Pooler Comparison

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL connection pooler comparison 的核心責任是把連線數壓力、transaction 語意與維運責任拆開判讀。PostgreSQL backend process 成本高，application instance 擴張後，connection pooler 常成為保護資料庫的第一層容量控制。

本文的判讀錨點是：pooler 解決的是 connection fan-out 與 queueing，而非查詢本身變快。查詢慢、lock wait、transaction 過長、index 錯誤仍要回到 Query Optimization 與 MVCC / lock model。

Pooling Models

Pooling model 的核心責任是決定 client connection 和 server connection 的綁定時間。PgBouncer 代表最常見的 PostgreSQL pooler 模型；官方文件將 pool mode 分成 session、transaction 與 statement。

模式	Server connection 綁定	適合情境	主要風險
Session	client session 全程	使用 session state、temp table	壓縮率低
Transaction	transaction 期間	Web API、短交易、Stateless query	session variable、prepared statement 語意受限
Statement	single statement	特殊 read-only workload	transaction workflow 受限
App pool	application process 內	單服務、低 fan-out	多 instance 後總連線失控

Transaction pooling 的價值在於把大量 idle client connection 收斂成少量 active server connection。它要求 application 把 session state 放回 request / transaction boundary，例如 timezone、role、search_path、prepared statement 與 advisory lock 都要明確管理。

Session pooling 的價值在於相容性。若 application 大量使用 temp table、LISTEN / NOTIFY、session-level setting 或 server-side prepared statement，session pooling 能降低行為差異，但連線壓縮效果較弱。

Product Boundary

Product boundary 的核心責任是把 pooler 放在正確的維運位置。不同選項的責任邊界差異很大。

選項	主要責任	適合情境
PgBouncer	輕量 PostgreSQL connection pooling	自管 VM / K8s、transaction pooling 標準路線
Odyssey	多租戶與複雜 routing pooler	大型部署、需要進階 routing / auth
RDS Proxy	AWS managed connection proxy	RDS / Aurora 生態、希望降低 proxy 維運
Application pool	服務內部連線池	instance 數少、連線總量可控
No pooler	直接連 PostgreSQL	小型服務、低併發、連線數遠低於上限

PgBouncer 的操作重點是 mode、pool size、server reset query、auth、TLS 與 metrics。它很適合放在 application 與 database 中間，承擔連線排隊與 backpressure。

Managed proxy 的操作重點是平台限制、failover behavior、credential integration、latency overhead 與 observability。若 team 想少維護一個 pooler process，managed proxy 可以降低操作成本，但要接受雲平台邊界。

Decision Signals

Decision signals 的核心責任是判斷何時導入 pooler，以及導入哪一種。連線數壓力要用 evidence 說明。

訊號	代表問題	建議路由
`max_connections` 接近上限	application fan-out 過高	PgBouncer transaction pooling
大量 idle connection	client 連線長期閒置	transaction pooling 或 app pool 調整
failover 後 reconnect storm	client 同時重連衝擊 primary	pooler queue + jitter
query latency 高但 connection 不高	查詢 / lock / index 問題	query optimization
session state 依賴多	transaction pooling 相容性風險	session pooling 或 refactor session state

Connection pooler 的成功訊號是 database backend count 下降、queue 可觀測、error rate 穩定、tail latency 受控。若導入後只是把 timeout 從 DB 移到 pooler，代表 capacity model 仍需調整。

Transaction Pooling Compatibility

Transaction pooling compatibility 的核心責任是找出 application 對 session state 的隱性依賴。這些依賴要在 staging 先測出來。

依賴類型	風險	修正策略
`SET search_path`	下一個 transaction 可能換連線	每個 transaction 明確設定或固定 schema
temp table	transaction 後 server connection 釋放	改 permanent staging table 或 session mode
prepared statement	server-side state 不穩定	使用 client-side prepare 或 session mode
advisory lock	lock ownership 混亂	transaction-scoped lock 或移出 pooler path
LISTEN / NOTIFY	session channel 需要持續連線	專用 direct connection

Compatibility review 要在 repository / migration / background job 三個層面跑。Web request 通常容易改成 transaction-safe；migration tool、CDC job、worker queue 常有長連線與 session state，要分開配置。

Sizing and Evidence

Sizing and evidence 的核心責任是用 workload 設定 pool size。Pooler 設太大會把壓力直接傳到 PostgreSQL；設太小會造成 queue 與 timeout。

基本 sizing 步驟：

量測 active query concurrency，而非只看 request concurrency。
設定 database 保留連線給 admin、replication、migration 與 emergency access。
每個 service 設定 pool quota，避免單一服務吃掉全部 backend。
觀測 wait time、server utilization、client timeout、query latency。
用 load test 驗證 failover / reconnect storm。

Pooler dashboard 至少要有 client connections、server connections、waiting clients、pool wait time、server reuse、timeout count 與 authentication failure。

Anti-Patterns

Anti-pattern 的核心責任是把 pooler 常見誤用提前排除。

反模式	風險	修正方向
把 pool size 設到 DB 上限	DB 失去保護層	每個服務配額 + 保留 admin capacity
transaction pooling 直接上線	session state 依賴在 production 爆出	staging compatibility matrix
pooler 沒有 metrics	queueing 事故難以判讀	pooler dashboard + alert
migration 共用 web pool	長 DDL 卡住 web request	migration 專用連線與維護窗口
retry 無 jitter	reconnect storm 放大	exponential backoff + jitter

Pooler 是 backpressure 元件。它要讓系統在過載時可排隊、可拒絕、可觀測，而非把所有請求推進 database。

下一步路由

Connection pooler comparison 完成後，實作層讀 PgBouncer config；要觀察連線壓力讀 Connection Scaling；需要演練讀 Connection Pool Lab。

PostgreSQL Cross-region DR

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL cross-region DR 的核心責任是把區域性事故下的資料恢復、服務切換與資料一致性風險寫成可演練流程。跨區 DR 通常由法規、業務連續性、雲區故障、區域隔離或高可用承諾觸發。

本文的判讀錨點是：cross-region DR 是恢復策略，而非自動等同 multi-region active-active。PostgreSQL 可以透過 backup / WAL archive、physical standby、logical replication、managed service replica 或 application-level replication 支援不同 RPO / RTO；每種路線都有資料延遲、切換與回切成本。

DR Strategy

DR strategy 的核心責任是把恢復目標和技術路線對齊。

策略	RPO / RTO 型態	適合情境
Backup + WAL archive	RPO 依 WAL archive，RTO 依 restore	成本敏感、低頻災難復原
Cross-region standby	RPO 接近 replication lag，RTO 較短	需要較快啟動 read / promote
Logical replication	table-level / selective DR	跨版本、跨 schema、局部資料同步
Managed global DB	雲平台提供跨區 replica	希望降低自管複製與 promote 維運
Application replay	event / queue 重建狀態	domain event 已是 source of truth

RPO 要由業務定義。若付款、訂單、庫存只允許秒級遺失，backup-only 路線通常成本不足；若是內部報表或可重建資料，backup + WAL archive 可能足夠。

Physical vs Logical

Physical vs logical 的核心責任是區分 byte-level recovery 與 row-level replication。Physical replica 保留 PostgreSQL cluster 層級狀態；logical replication 提供 table / publication 層級彈性。

面向	Physical standby	Logical replication
粒度	cluster / database	table / publication
版本彈性	通常要求版本與系統相容	可支援跨版本 / selective migration
DDL	跟隨 WAL / 需相容	需要 schema coordination
Failover	promote standby	application / target DB 切換
風險	replication lag、timeline	slot lag、schema drift、missing key

Physical standby 適合整體 DR。它的 runbook 要處理 WAL archive、replication lag、promotion、timeline、DNS / connection string 切換與回切。

Logical replication 適合局部資料或跨版本轉換。它的 runbook 要處理 publication、subscription、replication slot、schema migration ordering 與資料 diff。

Failover Runbook

Failover runbook 的核心責任是把災難切換變成可演練步驟。最小流程包含 incident declare、source freeze、replica health check、promote、traffic switch、data validation 與 rollback / rebuild。

Step	操作	Evidence
Declare incident	確認 primary region 事故範圍	incident decision log
Freeze source	停止寫入或確認 source 已不可用	last known LSN / timestamp
Check replica	lag、WAL received、read health	replica status snapshot
Promote	promote standby 或啟用 target	new timeline / role
Switch traffic	DNS、secret、connection string	app smoke test
Validate	row count、critical invariant	validation report
Rebuild	重建舊 primary 或新 standby	follow-up runbook

Failover 決策要有 owner。自動化可以執行步驟，但是否接受資料遺失、是否凍結寫入、是否 promote，仍需要明確責任人與 tripwire。

Data Reconciliation

Data reconciliation 的核心責任是處理 cross-region 切換後的資料差異。只要 replication lag 存在，failover 後就可能有未套用交易。

差異類型	處理方式
已提交但未複製	從 source WAL / app log / event 補償
client retry 重複寫入	idempotency key / natural key 去重
sequence / identity	target sequence reset / collision check
external side effect	payment、email、queue 需對帳

Reconciliation 要先定義 critical table。所有表都做 full diff 成本高；付款、訂單、權限、ledger、mutation log 等高風險資料要有專用 validation query。

Drill Design

Drill design 的核心責任是定期驗證 RPO / RTO。DR 文件只有在演練後才可信。

演練至少包含：

從 backup + WAL 還原到指定時間。
Promote standby 到 isolated environment。
Application 使用 DR endpoint 跑 smoke test。
計算實際 RPO / RTO。
記錄失敗點、人工步驟與下一次修正。

演練應避開 production destructive action。使用 isolated VPC、staging app、read-only validation 與 mock external side effect。

No-Go Conditions

No-go conditions 的核心責任是指出 PostgreSQL cross-region DR 的邊界。

訊號	建議路由
多區同時交易寫入是核心需求	CockroachDB / Spanner / YugabyteDB 類 distributed SQL
RPO 接近零且跨區距離大	synchronous replication latency 成本評估
Team 缺少 DR 演練能力	managed service + vendor runbook
數據 residency 限制跨區複製	regional shard / policy-driven replication

Cross-region DR 要誠實面對延遲。把每個 region 都變成 writer 需要 distributed transaction 模型；PostgreSQL DR 路線主要提供恢復與切換。

下一步路由

Cross-region DR 完成後，恢復實作讀 PITR / WAL Archiving；replication 架構讀 Replication Topology；跨區 rollout 的資料政策讀 Multi-region GDPR Rollout。

PostgreSQL Developer / DBA Responsibility Split

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL developer / DBA responsibility split 的核心責任是把資料庫決策拆成 application ownership、database operation 與 platform governance。PostgreSQL 功能深，事故常跨 query、schema、connection、backup、replication 與 capacity；若責任分工模糊，問題會在 release 與 incident 時放大。

本文的判讀錨點是：developer 和 DBA 分工要讓每個決策有清楚 owner、evidence、review gate 與 rollback，而非把資料庫丟給某一方。

Ownership Map

Ownership map 的核心責任是定義誰能改什麼、誰要驗證什麼。

面向	Developer owner	DBA / platform owner	Shared gate
Schema design	domain model、constraint、query	naming、storage、partition、extension	migration review
Query performance	repository SQL、query shape	index、planner、statistics、capacity	explain evidence
Migration	app compatibility、rollback	lock impact、DDL strategy、PITR	release gate
Connection	pool usage、transaction length	pooler、max connection、proxy	load test
Backup / DR	restore smoke test	WAL archive、PITR、replica	restore drill
Security	tenant / workflow intent	role、RLS、audit、grant	access review

這張表的重點是 shared gate。Developer 最懂產品語意，DBA / platform 最懂資料庫風險；正式變更需要兩邊的 evidence 合併。

Schema and Migration

Schema and migration 的核心責任是讓 application release 與 database change 同步。Developer 應提供 business invariant、compatibility window、read/write path；DBA / platform 應審查 lock、index build、table rewrite、replica lag 與 rollback。

Migration 類型	Developer evidence	DBA / platform evidence
Add nullable column	app read/write compatibility	DDL lock time、replica impact
Add NOT NULL	backfill plan、default behavior	table rewrite / validation strategy
Index build	query contract、expected selectivity	concurrent build、disk、bloat
Partition change	routing logic、retention behavior	detach / attach、maintenance window
Type change	serialization、API compatibility	cast risk、rewrite duration

Migration review 要從 failure mode 開始。若 migration 卡住，誰停止 rollout；若 backfill 造成 lag，誰降速；若 app 新舊版本同時存在，哪個 schema 能兼容兩者。

Query and Capacity

Query and capacity 的核心責任是把 query shape 和 database resource 對齊。Developer 負責避免 N+1、長交易、無界查詢與錯誤 pagination；DBA / platform 負責 index、statistics、vacuum、work_mem、connection 與 storage。

Query review 的最小 evidence：

SQL text 或 repository method。
Expected cardinality 與資料量。
EXPLAIN / EXPLAIN ANALYZE 結果。
Index 依賴與 fallback plan。
Timeout、pagination、transaction boundary。

Capacity review 要把 query 放進 workload。單一 query 快不代表整體穩定；高頻 query、batch job、migration backfill、CDC consumer 都會共享 I/O、CPU、lock 與 WAL。

Incident Roles

Incident roles 的核心責任是讓資料庫事故有分工。Incident 發生時，developer 看 workflow、feature flag、traffic 與 recent deploy；DBA / platform 看 lock、replica、WAL、disk、pooler 與 backup。

Incident	Developer 第一反應	DBA / platform 第一反應
Lock storm	暫停相關 workflow、停 rollout	查 blocking PID、DDL、transaction
Connection exhaustion	降低 app concurrency、停 retry storm	pooler queue、max connection、admin access
Replica lag	暫停 heavy write / backfill	WAL sender、slot、standby apply
Bad migration	block release、保留 failed state	restore point、rollback / PITR
Slow query spike	feature flag、query owner	plan regression、statistics、index

Incident command 要保留決策紀錄。資料庫事故常有高壓操作，例如 kill session、promote replica、drop slot、restore backup；每個操作都要記錄原因與回復路線。

Review Cadence

Review cadence 的核心責任是把資料庫品質納入日常。建議節奏如下：

節奏	Review 內容
每個 release	migration diff、new query、role / grant
每週	slow query、lock wait、replica lag、pool
每月	backup restore drill、index bloat、vacuum
每季	DR drill、major version plan、extension review

Review cadence 要跟服務風險對齊。高交易量或合規服務需要更短週期；內部工具可以更輕量，但仍要保留 backup / restore evidence。

Handoff Artifact

Handoff artifact 的核心責任是讓下一位維護者能接手。

最小內容：

Database owner、application owner、platform owner。
Schema migration process 與 rollback route。
Query review checklist。
Connection / pooler policy。
Backup / PITR / DR evidence。
Security / role / audit owner。
Incident escalation route。

這份 artifact 應連回 PostgreSQL overview、Schema Migration Evidence Lab 與 PITR Restore Drill。

下一步路由

責任分工建立後，migration gate 讀 Online Schema Change；連線責任讀 Connection Pooler Comparison；安全責任讀 Security / RLS / Audit Logging。

PostgreSQL Logical Decoding Plugins

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL logical decoding plugins 的核心責任是把 WAL 中的變更轉成外部消費者可理解的事件格式。PostgreSQL 官方 logical decoding 文件說明，logical decoding 透過 replication slot 將 WAL 變更解碼成 plugin output；output plugin 決定外部看到的是 PostgreSQL protocol、JSON、測試文字或自訂格式。

本文的判讀錨點是：plugin 選型是 CDC contract 決策。它影響 schema evolution、事件欄位、delete 表示、transaction boundary、consumer compatibility、slot lag 與故障復原。

Plugin Boundary

Plugin boundary 的核心責任是定義 database 變更如何離開 PostgreSQL。常見選項包含內建 pgoutput、測試用 test_decoding、JSON-oriented plugin，以及 Debezium connector 支援的 plugin / protocol。

Plugin / path	主要責任	適合情境
`pgoutput`	PostgreSQL logical replication protocol	built-in logical replication、Debezium 常見路線
`test_decoding`	人類可讀測試 output	lab、debug、教育用途
`wal2json`	JSON change event	自訂 consumer、legacy CDC
decoderbufs	Protobuf event	強 schema contract 的 pipeline
Native subscription	DB-to-DB replication	PostgreSQL 之間 table replication

pgoutput 適合標準化 CDC。它與 publication / subscription model 對齊，能保留 PostgreSQL logical replication 的主路線。

test_decoding 適合教學與排錯。它讓人看到 transaction 裡發生的 insert / update / delete，但它的定位是測試與理解，不應作為正式 event contract。

Replication Slot Responsibility

Replication slot responsibility 的核心責任是保護 consumer 進度，同時管理 WAL retention。Logical slot 會讓 PostgreSQL 保留尚未被 consumer 確認的 WAL；consumer 停住時，slot lag 會轉成 disk pressure。

Signal	意義	操作反應
`confirmed_flush_lsn`	consumer 已確認的位置	用來判斷 CDC 進度
retained WAL size	slot 造成的 WAL 保留量	alert、調整 consumer、drop / advance
inactive slot	consumer 離線	檢查 connector、暫停 release
publication table diff	CDC scope 與 schema 不一致	review publication / table ownership

Slot 是 production resource。每個 logical slot 都要有 owner、consumer、SLO、drop condition、backfill plan 與 alert。

Event Contract

Event contract 的核心責任是讓 downstream 知道每個變更代表什麼。CDC 事件至少要說明 key、before/after image、operation、commit timestamp、transaction ordering、schema version 與 delete representation。

Contract 面向	審查問題
Key	table 是否有 replica identity / primary key
Update image	是否需要 before value
Delete	tombstone、key-only delete、soft delete
Ordering	transaction order 是否要保留
Schema evolution	新欄位、rename、drop 欄位如何通知
Backfill	initial snapshot 與 streaming 如何銜接

Replica identity 是 CDC 的核心設定。沒有穩定 key 的 table 會讓 update / delete event 難以被 downstream 正確套用；這類 table 要先補 primary key 或明確設定 replica identity。

Connector Patterns

Connector patterns 的核心責任是把 plugin output 接到實際 pipeline。Debezium、custom consumer、DB native subscription 的維運責任不同。

Pattern	優點	風險
Debezium connector	成熟 snapshot + streaming workflow	connector state、Kafka / offset operation
Native subscription	PostgreSQL 原生 DB-to-DB	schema drift、DDL coordination
Custom consumer	可客製 event contract	slot management 與 error handling 自行負責
Batch export + CDC	backfill 與 streaming 分開	cutover LSN 與 duplication handling

Connector 要定義 backfill 與 streaming 的接點。最常見的事故是 snapshot 還沒完成就開始消費、或 cutover LSN 沒有被記錄，導致 downstream 重複或漏資料。

Failure Modes

Failure modes 的核心責任是把 CDC 事故分成 database、connector、schema 與 downstream 四層。

Failure mode	判讀訊號	第一反應
Slot lag growth	retained WAL 持續增加	暫停重型寫入、修 connector、評估 drop
Schema break	connector 解析失敗	停止 DDL rollout、補 schema evolution
Missing key	update / delete 缺少可套用 key	修 replica identity / key contract
Duplicate event	consumer 重啟或 offset 回退	idempotent consumer
Downstream slow	Kafka / sink lag 增加	擴 sink、調 batch、保護 slot

Slot lag 是最高優先訊號，因為它會占用 PostgreSQL WAL storage。Runbook 要有「何時暫停 producer」、「何時 drop slot」、「如何重建 snapshot」的明確門檻。

Selection Checklist

Selection checklist 的核心責任是讓 plugin 選型可審查。

Downstream 需要 DB-to-DB replication、JSON event、Protobuf event 還是 connector-managed event。
每張 table 是否有 stable key 與 replica identity。
Initial snapshot 如何銜接 streaming。
Schema evolution 如何通知 consumer。
Slot lag、connector lag、sink lag 如何告警。
Consumer 是否 idempotent。
Disaster recovery 後 slot / offset 如何重建。

完成這份 checklist 後，再決定 plugin 與 connector。CDC 的成功標準是 downstream 能長期維持正確資料，而不只是成功建立 slot。

下一步路由

Logical decoding plugins 完成後，實作 CDC pipeline 讀 Logical Replication / Debezium；slot 維運讀 Replication Slot Management；跨資料庫搬遷讀 Database Migration Playbook。

PostgreSQL pg_partman Advanced

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL pg_partman advanced 的核心責任是把 declarative partitioning 的日常維護自動化。pg_partman 可以協助建立未來 partition、管理 retention、執行 maintenance job，讓 time-based 或 serial-based partition 不再依賴人工 DDL。

本文的判讀錨點是：pg_partman 解決的是 partition lifecycle operation，而非 partition strategy 本身。Partition key、query pattern、retention、index、foreign key 與 migration 仍要先在 Declarative Partitioning 與 Partition Redesign 做對。

Responsibility Boundary

Responsibility boundary 的核心責任是區分 PostgreSQL 原生 partition 和 pg_partman。

層級	責任
PostgreSQL declarative partitioning	partition table、constraint、planner pruning
pg_partman	future partition premake、retention、maintenance
Scheduler / job runner	定期執行 maintenance
DBA / platform	monitoring、backup、DDL review
Application	query pattern、partition key 使用

pg_partman 的價值在於減少重複 DDL。它不會替 application 選出正確 partition key，也不會自動修復跨 partition query 設計。

Core Concepts

Core concepts 的核心責任是理解 pg_partman operation vocabulary。

概念	意義
Parent table	partitioned table 的入口
Child table	實際存放資料的 partition
Premake	預先建立未來 partition
Retention	自動 detach / drop 舊 partition
Maintenance	建立新 partition、處理 retention 的 job
Template	child partition 繼承 index / constraint 的模板

Premake 是防止 insert 打到不存在 partition 的保護。若 partition 建立落後於時間，application insert 會失敗或落到 default partition；production 要對 future partition count 設 alert。

Retention 是資料生命週期操作。Drop 舊 partition 速度快，但要先確認 legal retention、backup、analytics dependency 與 downstream CDC。

Setup Pattern

Setup pattern 的核心責任是把 pg_partman 導入流程放進 migration gate。

1CREATE EXTENSION IF NOT EXISTS pg_partman;
2
3CREATE TABLE events (
4  id bigserial,
5  tenant_id uuid NOT NULL,
6  created_at timestamptz NOT NULL,
7  payload jsonb NOT NULL
8) PARTITION BY RANGE (created_at);

實際建立 partman config 要依 pg_partman 版本與 provider 支援文件執行。Managed PostgreSQL 可能限制 extension version、background worker 或 scheduler，因此 setup 前要先確認 provider boundary。

最小 setup evidence：

Extension version。
Parent table DDL。
Partition key 與 interval。
Premake 數量。
Retention policy。
Maintenance job schedule。
Test insert 到 current / future partition。

Maintenance Runbook

Maintenance runbook 的核心責任是讓 partition lifecycle 可觀測。

Signal	意義	反應
future partition count	premake 是否足夠	手動跑 maintenance、修 scheduler
default partition rows	routing 失敗或 partition 缺漏	建 partition、搬資料、修 app timestamp
old partition count	retention 是否執行	檢查 policy、legal hold、job error
maintenance duration	DDL / lock / catalog 壓力	調整 schedule、拆 table
index build time	child index 建立成本	template / concurrent strategy review

Maintenance job 要有 owner。Cron、pg_cron、background worker、Kubernetes job 或 managed scheduler 都可以；重點是 job failure 會告警，並且有人處理。

Migration and Backfill

Migration and backfill 的核心責任是把既有大表轉成 partman-managed partition。這通常比新表導入更高風險。

Phase	Evidence
Audit	table size、query pattern、write rate
New schema	parent table、child partition、index
Backfill	batch size、lag、lock、checksum
Dual write	app compatibility
Cutover	rename / view / routing switch
Cleanup	old table retention、rollback

Backfill 要控制 WAL、replica lag、autovacuum、index bloat 與 lock。大型 table 應先用 shadow table 或 partition redesign playbook，避開 peak traffic 直接重建。

Failure Modes

Failure modes 的核心責任是列出 pg_partman 常見事故。

Failure mode	判讀訊號	修正方向
未建立未來 partition	insert 失敗或 default partition 增長	補 partition、修 maintenance schedule
retention drop 過早	查詢缺歷史資料	restore backup、調 policy、legal review
managed provider 不支援	extension / worker 限制	改 manual partition job 或 provider
index / constraint 漂移	child partition schema 不一致	template review、schema diff
planner pruning 失效	query 未帶 partition key	query rewrite、index review

pg_partman 事故通常是 lifecycle 事故。Runbook 要先看 maintenance job，再看 partition metadata 與 application query。

下一步路由

pg_partman advanced 完成後，partition 設計讀 Declarative Partitioning；重排策略讀 Partition Redesign；migration gate 讀 Online Schema Change。

PostgreSQL Security / RLS / Audit Logging

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL security / RLS / audit logging 的核心責任是把資料庫安全拆成存取邊界、資料列可見性與操作證據。PostgreSQL role / grant 決定誰能連線與操作 schema；Row Level Security 決定同一張表中哪些 row 對某個 role 可見；audit logging 則把敏感操作轉成可查詢、可保留、可告警的證據。

本文的判讀錨點是：資料庫安全是 application auth 的下游防線。Application 仍要負責身份、session、租戶與 workflow；PostgreSQL security layer 負責在資料邊界補上 least privilege、tenant isolation 與 forensic evidence。

Role and Grant Baseline

Role and grant baseline 的核心責任是把人、服務、migration 與分析查詢分開。Production database 至少要區分 application role、migration role、read-only role、admin role 與 replication / CDC role。

Role 類型	權限責任	常見風險
Application	執行產品讀寫	權限過大、可 DDL、可讀所有 schema
Migration	變更 schema	和 app 共用 role，事故難以追蹤
Read-only	分析、debug、support	讀到 PII 或跨 tenant 資料
Replication / CDC	logical replication、slot access	權限與 WAL retention 風險
Admin	emergency operation	日常使用 admin role

Grant review 要以 schema ownership 開始。Tables、sequences、functions、views、extensions 都有權限面；只管 table grant 會漏掉 sequence update、function execution 與 extension 使用。

Row Level Security

Row Level Security 的核心責任是在資料庫層 enforce row visibility。PostgreSQL 官方 RLS 文件描述 policy 可限制 normal query 返回、insert、update、delete 的 row；這讓 tenant boundary 可以在 database 層多一道 guard。

RLS 使用情境	適合條件	審查問題
Multi-tenant SaaS	tenant_id 明確且每個 query 都可帶入	policy 是否覆蓋 SELECT / INSERT / UPDATE
Support access	support role 需受限查詢	break-glass 是否有 audit
Regional data	row 上有 region / residency	policy 是否和 GDPR / residency 對齊
Sensitive subset	PII row 需特別隔離	masking / tokenization 是否仍需存在

RLS policy 要有 positive allow rule。每張啟用 RLS 的 table 都要有測試：同 tenant 可讀、跨 tenant 隔離、insert tenant mismatch 被擋、admin / support 例外被記錄。

1ALTER TABLE invoices ENABLE ROW LEVEL SECURITY;
2
3CREATE POLICY tenant_isolation ON invoices
4USING (tenant_id = current_setting('app.tenant_id')::uuid)
5WITH CHECK (tenant_id = current_setting('app.tenant_id')::uuid);

這段 policy 依賴 application 在 transaction 內設定 app.tenant_id。使用 connection pooler 時，設定必須跟 transaction boundary 對齊，避免 session state 漂移。

Audit Logging

Audit logging 的核心責任是把敏感資料操作轉成可查詢證據。PostgreSQL 原生日誌可以記錄連線、DDL、錯誤與慢查詢；pgAudit 這類 extension 則補強 session / object audit。

Audit 類型	目的	Evidence
DDL audit	schema 變更追蹤	migration id、role、statement、timestamp
Sensitive read	PII / payment / health data 查詢	role、tenant、operation、reason
Privilege change	grant / revoke / role 變更	actor、target role、approval
Failed access	權限錯誤與 RLS block	error code、role、relation
Break-glass	emergency admin access	ticket id、duration、review result

Audit log 要能進入 SIEM 或集中 log。只留在 database host 上，事故後查詢成本高；正式 runbook 要定義 retention、masking、access control 與 alert。

PII and Data Protection Boundary

PII and data protection boundary 的核心責任是把 database 權限和資料保護策略接起來。RLS 可以限制 row visibility，但 PII 的保護還需要 masking、tokenization、encryption、retention 與 deletion evidence。

資料類型	Database control	跨模組路由
Tenant data	RLS、tenant-scoped role	data access review
PII	column grant、masking view	Data Protection
Audit log	append-only storage、retention	SIEM / incident evidence
Deletion request	tombstone、cascade review	retention policy、legal hold

Column-level grant 和 masking view 適合 read-only analyst。Application role 通常需要明文處理 workflow；analyst / support role 則應走 restricted view。

Operational Evidence

Operational evidence 的核心責任是讓安全設定可驗證。每次 release 或權限變更後，要跑固定檢查。

Role matrix：每個 role 的 schema / table / sequence / function grant。
RLS test：tenant A / tenant B / support / admin 的可見性測試。
Audit sample：DDL、sensitive read、failed access 是否進 log。
Pooler compatibility：SET LOCAL app.tenant_id 是否跟 transaction 對齊。
Break-glass drill：emergency access 是否可申請、可回收、可審查。

Evidence 要保存在 release artifact。Security 設定只有文件描述時，incident 後難以證明它真的生效。

Failure Modes

Failure modes 的核心責任是把 database security 常見事故提前列出。

Failure mode	判讀訊號	修正方向
App role 權限過大	app 可 DDL / drop / grant	role split + least privilege
RLS bypass	owner / superuser / policy 漏洞	dedicated app role + RLS test
Pooler state drift	tenant setting 漂到下個 request	`SET LOCAL` + transaction pooling review
Audit gap	敏感操作查不到 actor	pgAudit / log schema / SIEM route
Support overread	support role 可讀全 tenant	masking view + ticket-scoped access

RLS bypass 要特別審查 table owner 與 superuser path。正式 application 連線應使用 dedicated role，並避免使用 table owner role 執行一般 request。

下一步路由

Security / RLS / audit logging 完成後，權限與 PII 治理讀 Data Protection；connection state 風險讀 Connection Pooler Comparison；實作演練可放進 Schema Migration Evidence Lab 的 release gate。

PostgreSQL to YugabyteDB / TiDB Migration

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL to YugabyteDB / TiDB migration 的核心責任是處理從 single-primary PostgreSQL 走向 distributed SQL 的資料拓撲變更。這條路線通常由 multi-region write、horizontal scale、tenant sharding、availability 或 single-node capacity ceiling 觸發；其中 YugabyteDB 走 PostgreSQL-compatible YSQL 路線，TiDB 走 MySQL-compatible distributed SQL 路線，兩者的 application diff audit 不同。

本文的判讀錨點是：API compatibility 只解決入口語法的一部分。YugabyteDB 要審查 PostgreSQL 相容與 distributed operation 差異；TiDB 要額外處理 PostgreSQL → MySQL dialect / driver / tooling 轉換。Distributed SQL 會改變 transaction latency、placement、index cost、DDL、sequence、lock、backup、observability 與 incident route。

Official Documentation Route

Official documentation route 的核心責任是把 compatibility claim 固定到可回查來源。YugabyteDB compatibility 先查 YugabyteDB PostgreSQL compatibility；TiDB compatibility 先查 TiDB MySQL compatibility；本文最後檢查日是 2026-05-22。

Driver Check

Driver check 的核心責任是確認 distributed SQL 解決的是核心問題。

Driver	代表需求	審查問題
Multi-region write	多地使用者都要低延遲寫入	consistency level、latency budget
Horizontal write scaling	單 primary CPU / I/O 到頂	shard key、hot key、cross-shard txn
Tenant distribution	tenant 可依 region / size 分布	tenant placement、rebalance
Availability	節點 / zone failure 容忍	quorum、failover、RPO / RTO
Operational consolidation	多 PG shard 想收斂	migration complexity、cost

若主要問題是 read scaling、connection 數或 query index，先評估 read replica、pooler、partition、Citus 或 Aurora；distributed SQL 適合資料拓撲問題。

Compatibility Audit

Compatibility audit 的核心責任是把 PostgreSQL behavior 逐項對照 target。

面向	審查問題
Protocol / API	YugabyteDB YSQL vs TiDB MySQL protocol
SQL dialect	function、extension、type、DDL support
Transaction	isolation、lock、deadlock、retry
Sequence / ID	global sequence latency、UUID policy
Index	secondary index placement、write cost
Foreign key	distributed FK cost / support
Extension	PostGIS、pgvector、custom extension；TiDB 路線需改寫或拆出
Tooling	migration tool、CDC、backup、monitoring

Compatibility audit 要用 application query suite。只看 schema import 會漏掉 transaction retry、query planner、distributed index、dialect rewrite 與 latency。TiDB 路線還要加 PostgreSQL driver / SQL / type / migration tool 轉 MySQL ecosystem 的審查。

Data Topology

Data topology 的核心責任是決定資料如何分布。Distributed SQL 的成敗常取決於 primary key、tenant key、region placement 與 hot key 控制。

拓撲決策	判讀問題
Distribution key	query 是否能 co-locate data
Region placement	資料是否需要 residency / low latency
Hot key	high-write tenant / account 是否集中
Secondary index	index write 是否跨 shard / region
Transaction span	交易是否常跨 tenant / region

Topology 設計要從最高頻 workflow 開始。若核心交易每次都跨 shard，distributed SQL 的 latency 與 conflict cost 會很高。

Migration Phases

Migration phases 的核心責任是降低跨拓撲遷移風險。

Phase	Evidence
Lab import	schema import、query suite、driver test
Topology design	key、placement、region、index review
Backfill	snapshot、batch、checksum
CDC catch-up	LSN / change stream、lag、idempotency
Shadow read	result diff、latency profile
Cutover	freeze、final sync、traffic switch
Rollback	source PG snapshot、write replay plan

CDC catch-up 要有 clear cutover LSN。Distributed SQL migration 最怕 source / target 同時有寫入後，缺少 reconciliation plan。

Application Changes

Application changes 的核心責任是讓程式接受 distributed system 的錯誤模式。

Transaction retry：serialization / conflict error 要可重試。
Idempotency：critical write 要有 natural key 或 idempotency key。
Latency budget：跨 region transaction 要進 SLO。
Pagination / ordering：distributed query 的排序成本要審查。
Connection / driver：target driver、TLS、pooling、load balancing 要測。

Application 若假設 single-node low-latency transaction，遷移後會在 tail latency 與 retry 行為上出現落差。TiDB 路線還會出現 driver、placeholder、SQL function、type mapping 與 error code 的轉換成本；這些要在 staging failure injection 先看到。

No-Go Conditions

No-go conditions 的核心責任是阻止把 distributed SQL 當成萬用擴容。

No-go 訊號	替代路由
主要瓶頸是少數 slow query	query optimization / index
多數交易跨全局資料	重設 bounded context 或保持 single primary
Team 缺少 distributed operation 能力	managed provider / simpler topology
PostgreSQL extension 依賴重	保留 PG 或拆出 specialized service
RPO / rollback 沒有演練	先完成 migration playbook
想保留 PostgreSQL driver / SQL surface	優先評估 YugabyteDB / CockroachDB / Citus

Distributed SQL 的價值來自拓撲匹配。若 workload 缺少自然分布邊界，導入後只是把單點瓶頸換成分散式複雜度。

下一步路由

PostgreSQL to YugabyteDB / TiDB migration 完成後，先讀 Global Distributed OLTP；若需求是 PostgreSQL 內分散式 table，讀 Citus Distributed；跨 vendor 流程讀 Database Migration Playbook。

Specialized PostgreSQL Variants

Fri, 22 May 2026 00:00:00 +0000

Specialized PostgreSQL variants 的核心責任是把 PostgreSQL ecosystem 裡的 specialized engines、extensions 與 managed variants 放到正確服務位置。PostgreSQL 的擴充性讓它能支援 geospatial、time-series、vector search、distributed table、serverless branch 與 managed acceleration；但每個變體都改變 operation、migration、cost 與 lock-in。

本文的判讀錨點是：PostgreSQL compatibility 是入口，不等於相同責任。選 variant 前，要先說清楚新增能力解決哪個 workload，並確認 exit route。

Variant Taxonomy

Variant taxonomy 的核心責任是把變體按資料模型與操作責任分類。

類型	代表	主要解決問題
Extension domain	PostGIS、pgvector、TimescaleDB	geospatial、vector、time-series
Distributed PG	Citus、Cosmos DB for PostgreSQL	sharding、distributed query
Managed accelerated PG	AlloyDB、Aurora PG	managed performance / HA / platform
Serverless / branching	Neon、Supabase workflow	preview、branch、稀疏 workload
Compatibility layer	YugabyteDB、部分 distributed SQL	PostgreSQL-like API + distributed storage

分類的重點是避免把不同變體視為同一種升級。Extension domain 強化單一資料模型；distributed PG 改變資料拓撲；managed accelerated PG 改變操作邊界；serverless PG 改變 lifecycle。

Workload Fit

Workload fit 的核心責任是判斷 variant 是否匹配資料形狀。

Workload	合適路線	審查問題
Geospatial query	PostGIS	index、SRID、資料量、query latency
Time-series retention	TimescaleDB / partition strategy	compression、chunk、retention
Vector search	pgvector / pgvectorscale	recall、latency、index build、hybrid search
Tenant sharding	Citus / distributed PG	distribution key、co-location、rebalance
Preview environment	serverless / branching PG	data privacy、branch lifecycle
Cloud-managed acceleration	AlloyDB / Aurora	compatibility、cost、exit

Variant 要先證明普通 PostgreSQL 加 index / partition / read replica 已到邊界。若基礎 query design 還沒成熟，導入 variant 會把複雜度提前。

Migration Gap

Migration gap 的核心責任是列出從 vanilla PostgreSQL 進入 variant 的差異。

差異面	審查問題
DDL	extension object、distributed table、chunk
Query	planner、function、operator、pushdown
Data movement	backfill、reshard、index build
Operation	backup、restore、upgrade、failover
Tooling	ORM、migration tool、CDC、monitoring
Exit	dump / restore 是否回到 vanilla PG

Migration 要有 compatibility test。每個核心 query 在 variant 上跑 explain、latency、result correctness；每個 migration step 都要有 rollback 或 rebuild path。

Lock-In and Exit

Lock-in and exit 的核心責任是把 variant-specific 能力和可攜性分開。

Lock-in 來源	控制方式
Extension-specific type	adapter layer、domain boundary
Managed-only feature	decision record、exit test
Distributed table DDL	topology doc、reshard runbook
Serverless branch API	dev workflow boundary
Proprietary index / function	fallback query / export strategy

Lock-in 可以接受，但要被命名。若 variant 能顯著降低成本或提高能力，採用是合理決策；工程責任是保留 exit evidence 與 migration plan。

Decision Matrix

Decision matrix 的核心責任是把 variant 路由接到 PostgreSQL 主章。

訊號	下一步
地理查詢是核心產品能力	PostGIS Deep Dive
時序資料與 retention 是主壓力	TimescaleDB Deep Dive
向量搜尋在 PG 內整合	pgvector Deep Dive
tenant sharding / distributed query	Citus Distributed
managed provider 選型	Managed PostgreSQL Comparison
分散式 SQL API 相容評估	PostgreSQL to YugabyteDB / TiDB

Decision matrix 要隨案例更新。Variant 選型最需要實際 workload：資料量、query pattern、SLO、team skill、合規與 exit 成本。

Review Checklist

Review checklist 的核心責任是避免 specialized variant 只被功能吸引。

Workload 是否真的需要 specialized capability。
Vanilla PostgreSQL 的 index / partition / replica 是否已評估。
Extension / managed feature 的版本與支援政策。
Backup / restore / upgrade runbook。
Migration tool、CDC、observability 是否支援。
Exit route 是否至少在 staging 演練。
成本模型是否包含 storage、compute、I/O、support、operation。

完成 checklist 後，variant 才能進入正式 proposal。這樣可以保留 PostgreSQL ecosystem 的彈性，也避免變體變成隱形平台遷移。

下一步路由

Specialized variants 完成後，回到 PostgreSQL overview 做服務定位；需要 managed provider 比較讀 Managed PostgreSQL Comparison；需要跨 vendor migration 讀 Database Migration Playbook。

PostgreSQL on Tarragon

PostgreSQL Patroni HA：從 leader 失聯到 client 重連的 5 段 failover lifecycle

Failover lifecycle：5 段不是一條曲線

Stage 1：Detection — DCS heartbeat 跟 TTL

Stage 2：Election — DCS quorum + watchdog 防 split-brain

Stage 3：Promotion — pg_ctl + replication slot 切換

Stage 4：Reconfiguration — client routing 切換

Stage 5：Recovery — pg_rewind 跟 base backup 取捨

Production 故障演練

Case 1：Split-brain due to DCS partition

Case 2：Standby 落後太多、無法 failover

Case 3：Promotion 後 application connection storm

Case 4：pg_rewind 失敗、退到 base backup 沒做

Case 5：Watchdog 觸發整機 reboot、誤殺

容量規劃

整合 / 下一步

跟 PgBouncer 整合

跟 cert-manager（TLS rotation）

跟 backup / PITR

下一步議題

相關連結

PostgreSQL Replication Topology：async / sync / quorum 三模式跟 LSN + replication slot 的三軸組合

Replication 的 3 個 trade-off 軸 + mode 選擇

Async streaming：default + 高 throughput 的代價

Sync streaming：至少一個 standby flush WAL 才 commit

LSN + Replication Slot：PG 的進度追蹤機制

配置 step-by-step（sync streaming + slot）

Step 1：Primary 配置

Step 2：建 replication user + slot

Step 3：Standby base backup

Step 4：Standby 啟動

Step 5：驗證

5 個 Production 踩雷

1. Standby lag 暴衝 — Single replay process bottleneck

2. Sync standby 失聯時 primary commit 卡住

3. Orphan replication slot — Primary disk 爆

4. Cascading replication 雪崩

5. Failover 後 timeline 分歧

容量 / cost 對照

整合 / 下一步

Patroni HA

Logical Replication + Debezium

PITR + WAL Archiving

Connection 路由（PgBouncer + read/write split）

跟 MySQL Replication Topology 對比

相關連結

PostgreSQL Online Schema Change：先用 ALTER 內建特性、不能解才 pg_repack / pg-osc

PG ALTER TABLE 的 fast / slow 分類

類 A：Fast catalog-only（< 1 秒、metadata 改）

類 B：Lock heavy（rewrites table、production 慎用）

類 C：Concurrent index / online operation（無 table lock）

何時需要 ghost table tool

Tool 1：pg_repack — Trigger-based + 雙 table swap

Tool 2：pg-osc / pg-online-schema-change — WAL-shipping style

配置 step-by-step（pg_repack 為主）

Step 1：安裝 + 確認版本

Step 2：跑 pg_repack

Step 3：監控

Step 4：驗證

5 個 Production 踩雷

1. ALTER 直接跑沒看是不是 fast 變 lock heavy

2. VACUUM FULL 誤用 — Production downtime

3. pg_repack version mismatch

4. CREATE INDEX CONCURRENTLY 失敗清理

5. Generated stored column 不能 online ADD

容量 / 時間估算

跟 MySQL gh-ost / pt-osc 對照

跟其他模組整合

跟 Replication topology

跟 Autovacuum Tuning

跟 Logical Replication

跟 Patroni HA

何時用哪個

相關連結

PostgreSQL Connection Scaling：process-per-connection model 跟為什麼 pooler 是必裝

Connection-per-Process Model 是 PG 的結構性選擇

量化：connection 數量對 RAM 跟 CPU 的壓力

三個 GUC 互動：max_connections / shared_buffers / work_mem

Pooler 為什麼是 production prerequisite

Application-side Pool vs Middleware Pool vs RDS Proxy