MySQL on Tarragon

MySQL → PostgreSQL：從 SQL dialect diff 跑出來的 Type A 6-phase migration

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 MySQL 跟 PostgreSQL。本文是 Migration playbook methodology Type A 的標準形態實證。

三類 SQL dialect diff sample：先看具體差距

 1-- 1. Auto increment / sequence
 2-- MySQL
 3CREATE TABLE users (id INT AUTO_INCREMENT PRIMARY KEY);
 4-- PostgreSQL
 5CREATE TABLE users (id SERIAL PRIMARY KEY);
 6-- 或 PG 10+:
 7CREATE TABLE users (id INT GENERATED ALWAYS AS IDENTITY PRIMARY KEY);
 8
 9-- 2. String concatenation
10-- MySQL: CONCAT(a, b) 或 a || b 在 ANSI mode
11SELECT CONCAT(first_name, ' ', last_name) FROM users;
12-- PostgreSQL: a || b 或 CONCAT(a, b)
13SELECT first_name || ' ' || last_name FROM users;
14-- 注意: PostgreSQL 對 NULL || x = NULL、MySQL CONCAT 對 NULL 處理不同
15
16-- 3. UPSERT
17-- MySQL
18INSERT INTO users (id, name) VALUES (1, 'Alice')
19ON DUPLICATE KEY UPDATE name = VALUES(name);
20-- PostgreSQL (9.5+)
21INSERT INTO users (id, name) VALUES (1, 'Alice')
22ON CONFLICT (id) DO UPDATE SET name = EXCLUDED.name;
23
24-- 4. Index hint / FORCE INDEX
25-- MySQL
26SELECT * FROM orders FORCE INDEX (idx_created_at) WHERE created_at > '2025-01-01';
27-- PostgreSQL: 沒對應 syntax、依賴 planner + statistics
28-- 必要時用 enable_seqscan=off 或 pg_hint_plan extension
29
30-- 5. JSON path
31-- MySQL 5.7+
32SELECT data->'$.name' FROM events;
33-- PostgreSQL
34SELECT data->'name' FROM events;
35SELECT data->>'name' FROM events;  -- 取出 text

5 個 sample 看出 MySQL → PostgreSQL 主要工作是 SQL dialect translation；不是 5-10 個函數差、是 跨整個 application SQL surface 的 audit + 改寫。對應 diff dimension audit 結果：

維度	評估	等級
Schema / API	SQL dialect 差大、CREATE TABLE / INDEX / function 都差	High
Operational model	兩者都 OLTP RDBMS、replication 概念對等但語法不同	Medium
Abstraction / paradigm	同 SQL RDBMS	Low
Number of components	同 1 個	Low
Application change	ORM 多數能 cover、raw SQL 必改	Medium

主導維度 Schema = High、走 Type A 6-phase playbook 標準結構。

Phase 0：rule audit + SQL surface 盤點

 1-- 1. 列所有 stored procedure
 2SELECT routine_schema, routine_name, routine_type
 3FROM information_schema.routines
 4WHERE routine_schema NOT IN ('mysql', 'sys', 'information_schema', 'performance_schema');
 5
 6-- 2. 列所有 trigger
 7SELECT trigger_name, event_object_table, action_statement
 8FROM information_schema.triggers;
 9
10-- 3. 列所有 view
11SELECT table_name, view_definition
12FROM information_schema.views;
13
14-- 4. 列所有 index 含 prefix length
15SHOW INDEX FROM users;
16-- PostgreSQL 對 prefix index 處理不同、要逐個 audit

Audit 主要產出三類清單：

Direct port：標準 SQL feature、PG 直接接受
Translate：MySQL-specific syntax、需要改寫（UPSERT / CONCAT NULL 行為 / index hint）
Refactor：MySQL-specific behavior（auto_increment session-level / SELECT FOUND_ROWS / GROUP BY 寬鬆 / TEXT 隱性 cast）— 不能直接 port、application code 也要改

Phase 1：schema 對位

MySQL	PostgreSQL
`INT AUTO_INCREMENT`	`INT GENERATED ALWAYS AS IDENTITY` 或 `SERIAL`
`TINYINT(1)` (boolean usage)	`BOOLEAN`
`DATETIME`	`TIMESTAMP WITHOUT TIME ZONE`
`DATETIME(6)` (microsecond)	`TIMESTAMP(6)`
`VARCHAR(N)` with charset	`VARCHAR(N)` (UTF-8 always)
`TEXT`	`TEXT` (no length limit)
`LONGTEXT`	`TEXT`
`JSON`	`JSONB` (推薦、indexed) 或 `JSON`
`ENUM('a','b','c')`	自定 `TYPE foo AS ENUM('a','b','c')` 或 `VARCHAR + CHECK`
`SET('a','b')`	Array `TEXT[]` + CHECK
`BINARY(N)`	`BYTEA`
Index prefix `KEY (col(10))`	Functional index `CREATE INDEX ON t (LEFT(col, 10))`
`FULLTEXT INDEX`	`tsvector` + GIN index
Geographic types	PostGIS extension（必須先裝）

Schema 對位表存版控、application code refactor 時對照。

Phase 2：Translation pipeline（3-tier 跟 Splunk → Elastic 類似）

Tier 1：vendor / community tool

1# pgloader：成熟工具、cover ~70-80% schema + data
2pgloader mysql://user:pass@mysql-host/dbname \
3         postgresql://user:pass@pg-host/dbname
4
5# 或 AWS DMS（managed、適合 RDS / Aurora target）
6# DMS task: Full Load + CDC

Tier 2：自家 SQL refactor

對 ORM 不能 cover 的 raw SQL：

Manual grep application code 找 auto_increment / ON DUPLICATE KEY / FORCE INDEX / FOUND_ROWS() / CONCAT NULL
寫 codemod / lint rule、CI 強制 check（PG-incompatible SQL block PR）

Tier 3：tricky case manual

例：MySQL SELECT * FROM t1, t2 WHERE t1.id = t2.id GROUP BY t1.id（implicit GROUP BY 寬鬆）— PG 嚴格 GROUP BY 必須 list 所有 non-aggregate column；application code refactor 必要。

Phase 3：Parallel run

雙寫 + 雙讀比對 1-2 個月：

1Application ──→ MySQL (write + read primary)
2            └─→ PostgreSQL (write only + read shadow)
3                                    ↓
4                            Diff checker (latency / result diff)

pt-table-checksum (MySQL) + 自家 checksum scanner 對 sample table 跑 daily checksum、找 schema 對位錯。

Phase 4：Cutover

設 application maintenance window（30 分鐘）
Drain MySQL write、等 last LSN propagated to PG
Application switch connection string → PG
解除 maintenance、monitor 24-48 hours

Phase 5：Cleanup

MySQL read-only 1-2 週（fallback window）
之後 stop replication、decommission MySQL

Production 故障演練

Case 1：Auto_increment vs SERIAL 跨 transaction 行為差

徵兆：cutover 後某 batch job 跑得比 MySQL 慢 5-10x、PG log 顯示 sequence 競爭。

根因：MySQL AUTO_INCREMENT 取值受 innodb_autoinc_lock_mode 控制（8.0 預設 mode=2 interleaved 可並行、mode=0 才是 table-level lock；詳見 Lock contention）、PG SERIAL 是 sequence-level non-transactional；mode=0 場景跟 PG SERIAL 差異最大、mode=2 跟 PG SERIAL 行為較接近（皆可亂號、皆可並行）。

修法：

改 UUID v7 / bigserial：消除 sequence 競爭
bigserial + cache：CREATE SEQUENCE ... CACHE 100、batch 預取 100 個 ID 降 contention
批量 insert 改 COPY：COPY t FROM STDIN 是 PG 對 batch 最快路徑

Case 2：Charset / collation 跑出 unicode 異常

徵兆：cutover 後某些用戶名 / 中文文字 query 對不到結果、SELECT * WHERE name = '張三' 返回空。

根因：MySQL default utf8mb3（3-byte UTF-8、不能存 emoji / 部分 unicode）、PG default UTF8 全 unicode；資料遷移時 MySQL 端的 utf8mb3 column 帶到 PG 後 bytes 不變 但 collation rule 變；string comparison 結果差。

修法：

Pre-migration audit：MySQL 強制 utf8mb4、avoid utf8mb3 data
Collation 對位：MySQL utf8mb4_unicode_ci → PG LC_COLLATE = 'C.utf8' 或 ICU collation
Application encoding contract：明示 UTF-8 全範圍、不接受 utf8mb3-only client

Case 3：Case sensitivity 反轉

徵兆：cutover 後 application query SELECT * FROM users 報錯 relation does not exist；但 SELECT * FROM "Users" works。

根因：MySQL Linux default table name case-sensitive、Windows case-insensitive、配置 lower_case_table_names 影響；PG all identifier folded to lowercase unless quoted。MySQL on macOS 開發環境是 case-insensitive、PG 嚴格 case-sensitive、application code 端可能用 mixed case。

修法：

Schema migration 階段強制 lowercase：所有 table / column name 統一 lowercase
Application code refactor：grep raw SQL 找 mixed case identifier、改 lowercase
ORM 端設定 naming_strategy：JPA / Hibernate 等明示 lowercase mapping

Case 4：Replication 行為差、CDC pipeline 失效

徵兆：MySQL 端 binlog-based CDC（Debezium MySQL connector）跑得好好的、cutover 後 PG 端要重建 CDC pipeline、初期 1-2 週 message 模式異常。

根因：MySQL binlog row format vs PG logical replication slot 完全不同 protocol；Debezium 對兩家連接器是獨立 binary、message schema 部分對等但不直通。

修法：

Pre-cutover 建 PG 端 CDC：Debezium PG connector 提前部署、初期跟 MySQL CDC 並存比對
Schema registry 同步：Avro schema 從 MySQL 端 export、註冊 PG 端 connector 用同 schema
Consumer 端 idempotent：cutover 期間 dual-source、consumer 必須 idempotent 避免 duplicate

Case 5：FULLTEXT INDEX 對應 tsvector、application search broken

徵兆：cutover 後 application 全文搜尋功能失效、MATCH(name) AGAINST('xxx') 不被 PG 認；application 端 raw SQL 對 search 寫死。

根因：MySQL FULLTEXT INDEX + MATCH ... AGAINST syntax PG 不支援；PG 用 tsvector + ts_rank + to_tsquery、概念對等但 syntax 完全不同。

修法：

Pre-migration：列 application 用到的 fulltext search 場景、改寫成 tsvector pattern
大型 search 改 Elasticsearch / Meilisearch：fulltext 是專門 search engine 的本職、不該用 RDBMS 解
降級為 LIKE：簡單 case WHERE name ILIKE '%xxx%'、performance 較差但相容性好

Capacity / cost

維度	MySQL	PostgreSQL
Instance cost	對等（同 EC2 / RDS spec）	對等
Operational FTE	對等	對等
Connection pooling	proxysql / mysql-proxy	PgBouncer（更成熟）
Index performance	對等	對等
JSON performance	Improving	JSONB 領先
Replication	Async binlog	Async streaming + logical
Extension ecosystem	少	大（PostGIS / TimescaleDB / pgvector）
Migration cost (one-time)	-	2-6 FTE 月 × project length（含 application）

Migration 主要 cost 在 application code refactor + dual-write window operational、不是 DB itself。

整合 / 下一步

跟 PostgreSQL → Aurora migration 串接

部分組織走 MySQL → PostgreSQL → Aurora 兩段：

先 MySQL → self-managed PostgreSQL（schema 對位 + application 改）
穩定後 self-managed PostgreSQL → Aurora（operational simplification）

不要一次跑 MySQL → Aurora PostgreSQL compat、認知負擔太大、failure mode 互相干擾。

跟 Logical Replication + Debezium 對位

PG 端 CDC pipeline 在 cutover 完成後立刻可用；可作為 downstream CDC 重建 的契機、設計 outbox pattern 更穩。

下一步議題

MySQL 8 vs PostgreSQL 16 feature gap：MySQL 8 加了 CTE / window function / generated column；2025+ feature parity 漸高、migration ROI 評估會變
Reverse migration（PG → MySQL）：少見、通常是 application 端 dependency lock-in（用了 MySQL-specific stored procedure）
MariaDB → PostgreSQL：跟 MySQL → PG 類似、MariaDB 部分 syntax 略接近 PG（如 RETURNING）

MySQL Replication Topology：async / semi-sync / GTID 不是三選一、是三個 trade-off 軸的疊加

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 replication topology — 從 single primary 到 multi-replica 部署的 3 個 trade-off 軸跟 5 段配置。

Replication 的 3 個 trade-off 軸 + mode 選擇

Replication mode 選擇看起來是「選 async 還是 semi-sync」、但決策實際是 3 個獨立 trade-off 軸的權衡、async / semi-sync 是這些軸的兩個常見組合名稱：

軸	端 A	端 B	MySQL 旋鈕
Durability	primary 寫完就 commit	至少一個 standby 收到才 commit	`rpl_semi_sync_master_enabled` / sync ack count
Latency	client 等 primary 寫完 OK	client 等 standby ack（額外 RTT）	`rpl_semi_sync_master_timeout`
Consistency	replica 隨時可能 stale	replica 跟 primary 保證讀到一致	application read routing rule（不是 replication 旋鈕）

「async vs semi-sync」實際上是 durability + latency 兩軸 的選擇、不影響 consistency 軸（consistency 在 read routing 層決定）。Group Replication / MySQL Cluster（synchronous multi-primary）會同時改三軸、是另一個故事、不在本文 scope。

跟這三軸獨立的、是 replication 機制本身的可維護性。binlog position-based replication 用 (file, position) 標 replica 進度、failover 時要對齊 position 容易出錯；GTID（Global Transaction Identifier）用全域 transaction ID 標進度、failover / re-pointing 不必算 position。GTID 是 跨 mode 的 infrastructure、不是第三種 mode。

Async replication：default + 高 throughput 的代價

Async 是 MySQL 預設、行為：

Primary 寫 binlog、立刻 commit、回應 client OK
Replica 的 IO thread 從 primary pull binlog event 到 local relay log
Replica 的 SQL thread apply relay log（單 thread 或 multi-thread parallel）

Trade-off：

Durability：primary 寫完 commit、replica 還沒 pull = primary 在這瞬間 crash + 永久故障 → data loss（已 commit 的 transaction 在 replica 不存在）
Latency：client 不等 replica、寫入延遲 = primary 自身寫 binlog 的時間（通常 < 1ms with innodb_flush_log_at_trx_commit=1）
Consistency：replica 可能 lag、application 讀 replica 會 stale；用 SHOW SLAVE STATUS 看 Seconds_Behind_Master

適用：

主流選擇（90% 場景）
Failover loss 在容忍範圍（多數 web 應用容忍 1-2 秒 data loss）
Read scaling 為主要 driver、絕對 durability 非首要

不適用：

金融交易 / 訂單系統、不允許 any data loss
Compliance 要求 zero data loss（PCI-DSS / 部分監管場景）

Semi-sync replication：至少一個 standby ack 才 commit

Semi-sync 在 async 基礎上加 primary 等至少 N 個 replica ack 才 commit 的步驟：

Primary 寫 binlog
Primary 發送 binlog event 到所有 replica
Primary 等至少 N 個 replica 回 ack（N 是 rpl_semi_sync_master_wait_for_slave_count、預設 1）
Primary commit、回應 client

Trade-off：

Durability：至少 N 個 replica 收到 binlog（不一定 apply）、primary crash 後 replica 還有 binlog 可 promote、保證 zero data loss（但是 binlog-level、不是 applied-level）
Latency：client 等 primary + 一輪 replica ack RTT；跨 AZ 通常 +1-3ms、跨 region 可能 +50-200ms
Consistency：跟 async 一樣、replica apply 仍 async、application 讀 replica 仍可能 stale

MySQL 5.7+ 區分 standard 跟 Loss-Less semi-sync：

Standard semi-sync（5.5-5.6）：primary 先 commit 再等 ack、ack 超時 fallback 成 async — 仍可能 lose data
Loss-Less semi-sync（5.7+、rpl_semi_sync_master_wait_point=AFTER_SYNC）：primary 寫完 binlog 但 先等 ack 再 commit、ack 超時 fallback async 之前已寫 binlog 仍保證 durable

Production 場景必須用 Loss-Less semi-sync、不是 standard。

適用：

金融交易 / 訂單 / payment ledger
不允許 data loss、可接受寫入延遲 +1-3ms
已有 multi-AZ / multi-region 部署、replica 物理上可靠

不適用：

跨 region semi-sync（RTT 50-200ms）通常不划算 — 寫吞吐砍半、改用 region-local sync replica + cross-region async chain
寫吞吐 > 50K WPS 且容忍 sub-second loss — async 即可

GTID-based replication：機制升級、跨 mode 都需要

GTID 把每個 transaction 標一個全域 ID：:。Replica 紀錄「已 apply 的 GTID set」、不再用 (binlog_file, position)。

為什麼 GTID 比 binlog position 好：

Failover re-pointing 簡單：promote 新 primary 後、其他 replica 重新 attach 不必算 MASTER_LOG_FILE + MASTER_LOG_POS、用 CHANGE MASTER TO MASTER_AUTO_POSITION=1 即可
Multi-source replication 可行：一個 replica 從多個 primary 拉、各 primary 的 GTID set 獨立 track
Consistency check 容易：兩個 server 對 GTID set、就知道誰落後、有無 gap
跟 group replication / MySQL Cluster 必需：5.7+ 多 primary 場景 GTID 是前提

設定流程（兩階段、不能直接開）：

Phase 1 (預備、所有 server 同 mode)：

1gtid_mode = ON_PERMISSIVE  -- 接受 GTID 跟 non-GTID transaction
2enforce_gtid_consistency = ON  -- 拒絕無法用 GTID 表達的 statement（CREATE TABLE...SELECT 等）

Phase 2 (rolling、全部 server 都 Phase 1 後)：
```
1gtid_mode = ON  -- 只接受 GTID transaction
```

跳 phase 直接 gtid_mode=ON 會讓 replication break（既有 non-GTID transaction 無法處理）。Production 啟用 GTID 要排 maintenance window、跑完 phase 1 觀察 1-2 天再進 phase 2。

配置 step-by-step（Loss-Less semi-sync + GTID 組合）

實務最常見組合：Loss-Less semi-sync + GTID。配置順序：

Step 1：Primary + replica 都開 GTID（兩 phase 跑完）

1# my.cnf on primary AND replica
2gtid_mode = ON
3enforce_gtid_consistency = ON
4log_bin = mysql-bin
5log_slave_updates = 1  -- replica 也記 binlog (chained replication 需要)
6binlog_format = ROW    -- ROW 比 STATEMENT 安全
7sync_binlog = 1        -- 每次 commit fsync binlog
8innodb_flush_log_at_trx_commit = 1  -- 每次 commit fsync InnoDB log

Step 2：Primary 安裝 semi-sync plugin

1INSTALL PLUGIN rpl_semi_sync_master SONAME 'semisync_master.so';
2SET GLOBAL rpl_semi_sync_master_enabled = 1;
3SET GLOBAL rpl_semi_sync_master_wait_for_slave_count = 1;  -- 至少 1 個 ack
4SET GLOBAL rpl_semi_sync_master_wait_point = AFTER_SYNC;   -- Loss-Less
5SET GLOBAL rpl_semi_sync_master_timeout = 10000;           -- 10s timeout、超時 fallback async

Step 3：Replica 安裝 semi-sync plugin

1INSTALL PLUGIN rpl_semi_sync_slave SONAME 'semisync_slave.so';
2SET GLOBAL rpl_semi_sync_slave_enabled = 1;
3STOP SLAVE IO_THREAD;
4START SLAVE IO_THREAD;  -- 重啟 IO thread 啟用 semi-sync

Step 4：Replica attach primary

1CHANGE MASTER TO
2  MASTER_HOST='primary.example.com',
3  MASTER_PORT=3306,
4  MASTER_USER='repl',
5  MASTER_PASSWORD='...',
6  MASTER_AUTO_POSITION=1;  -- 用 GTID auto-position
7START SLAVE;

Step 5：驗證

 1-- Primary: 確認 semi-sync 啟用 + 有 active client
 2SHOW STATUS LIKE 'Rpl_semi_sync_master_status';      -- ON
 3SHOW STATUS LIKE 'Rpl_semi_sync_master_clients';     -- ≥ 1
 4SHOW STATUS LIKE 'Rpl_semi_sync_master_yes_tx';      -- > 0 (有 transaction 走 semi-sync)
 5SHOW STATUS LIKE 'Rpl_semi_sync_master_no_tx';       -- 應該 = 0 (沒有 fallback 成 async)
 6
 7-- Replica: 確認 GTID + IO thread 正常
 8SHOW SLAVE STATUS\G
 9-- Slave_IO_Running: Yes
10-- Slave_SQL_Running: Yes
11-- Retrieved_Gtid_Set: 跟 primary Executed_Gtid_Set 接近
12-- Seconds_Behind_Master: 觀察 lag

5 個 Production 踩雷

1. Replication lag 暴衝 — 單 SQL thread bottleneck

預設 replica 的 SQL thread 是 單 thread apply、primary 多 thread 寫入時 replica 跟不上、lag 從 < 100ms 飆到分鐘級。常見觸發：批次 UPDATE / DELETE、大 transaction、index rebuild。

修法：

啟用 multi-thread replication：slave_parallel_workers = 8（per database 或 per logical clock parallel）
5.7+ 用 slave_parallel_type = LOGICAL_CLOCK：依 primary 上的 group commit 並行度自動 parallel
8.0+ 的 writeset-based parallel：binlog_transaction_dependency_tracking = WRITESET、更細粒度並行

監控：Seconds_Behind_Master 是 表面指標、實際看 Executed_Gtid_Set 跟 primary 對比的 GTID gap 更準。

2. Semi-sync timeout fallback 成 async（沒監控就看不見）

rpl_semi_sync_master_timeout 預設 10000ms（10 秒）、超時後 自動 fallback async、直到 replica 重連。Application 視角看不到任何 error、但 durability guarantee 已失效。

修法：

監控 Rpl_semi_sync_master_status — fallback 後變 OFF
監控 Rpl_semi_sync_master_no_tx — fallback 期間每個 transaction 都計數
Alert 規則：5 分鐘內 no_tx 增加 > 0 即告警
Timeout 設太短（< 5s）容易 false positive、設太長（> 30s）crash 時 data loss 風險增

3. GTID gap — replica 無法 attach

Replica 重新 attach primary 時報 ERROR 1236: ... transactions you need from master are purged、原因是 primary 的 binlog_expire_logs_seconds 過短、需要的 binlog 已被清掉。GTID 模式下這個錯誤更明顯（直接看 GTID gap）、但 binlog position 模式下也一樣。

修法：

binlog_expire_logs_seconds = 604800（7 天）作為 baseline
大流量 server 確認 disk 容量能撐 7 天 binlog（一個高峰小時 binlog 可能 GB 級）
真的 gap 太大時用 base backup + replay binlog 重建 replica、不要硬 reset GTID

4. Loss-Less semi-sync 不一定真的 loss-less

AFTER_SYNC 模式 primary 寫 binlog → 等 ack → commit、看起來 zero loss。但 primary 寫完 binlog 還沒等 ack 時 crash + replica 剛好沒收到那個 binlog event + replica promote — 這個 binlog event 在新 primary 不存在、但舊 primary 的 binlog 仍紀錄為 已寫 binlog 未 commit。client 收到 connection lost、不知道 transaction 是否成功。

修法：

接受這個 edge case unknown state、application 用 idempotency key + retry 處理
Loss-Less semi-sync 保證的是 已 commit transaction 不會丟、不是 所有寫入都 ack-and-tell
真的 zero unknown state 需要 group replication / Galera Cluster / MySQL Cluster（synchronous multi-primary）

5. Chained replication 雪崩

Topology 是 primary → replica1 → replica2 → ...（hub-and-spoke 之外的選擇、節省 primary 出口頻寬）。Replica1 SQL thread 卡住、replica2 跟 replica3 都被 block、整條 chain 雪崩。

修法：

避免超過 2 層 chain（primary → tier1 replica → tier2 replica 是上限）
用 parallel binary log relay（5.7+ slave_pending_jobs_size_max + parallel workers）讓 chain 中段不阻塞
規模真的大、改用 binlog server（如 Maxwell / MaxScale）解耦 chain dependency
跨 region 用 region-local hub + cross-region async、不是長 chain

容量 / cost 對照

配置	寫吞吐影響	Replica overhead	適合 workload
Async + binlog position	baseline	低（IO + SQL thread）	高吞吐、容忍 sub-second loss
Async + GTID	baseline	同上、failover 容易	大多數 production 預設
Loss-Less semi-sync + GTID（1 ack）	-10% ~ -20%	同上 + ack RTT	金融、訂單、不容忍 data loss
Loss-Less semi-sync + GTID（2 ack）	-15% ~ -30%	同上、跨 AZ	強 durability + multi-AZ HA
Group Replication（synchronous）	-30% ~ -50%	高（每 transaction quorum）	不允許 single-primary、multi-primary 寫入

跨 AZ semi-sync 通常加 1-3ms、跨 region 加 50-200ms — 寫密集 workload 跨 region semi-sync 通常不划算、改用 region-local sync + cross-region async chain。

整合 / 下一步

Aurora MySQL

Aurora MySQL 用 AWS-managed storage layer、storage 自動 replicate 6 份跨 3 AZ、不需要應用層配 semi-sync。從自管 MySQL 遷 Aurora 時、上方所有 semi-sync 配置消失、改成 Aurora storage quorum（4 of 6 write、3 of 6 read）。

trade-off 軸的 durability 完全交給 Aurora、application 只關心 latency + consistency。詳見 Aurora vendor page。

Vitess（sharding layer）

Vitess shard 內部仍用 MySQL replication（async or semi-sync）、Vitess 不取代 replication topology、是 上層 routing。Vitess vttablet 每個 shard 有自己的 primary + replica、跟本文 topology 設計一致。

Vitess 比較大議題在 cross-shard transaction（VReplication 跨 shard binlog stream）、不是 replication topology — 詳見 MySQL backlog 中 Vitess sharding 設計 篇（待寫）。

ProxySQL（read replica routing）

ProxySQL 是 MySQL 生態的 connection pool + query routing 標準、按 query type（SELECT vs DML）跟 replica lag 自動 route。寫入路 primary、讀走 replica、replica lag > N 秒時暫時退路 primary 維持 consistency。

ProxySQL 跟本文 replication topology 是 互補不重疊 — replication 設定哪些 server 有什麼資料、ProxySQL 設定 query 怎麼分配。詳見 MySQL backlog 中 ProxySQL 配置 篇（待寫）。

Orchestrator（HA failover）

Orchestrator 是 MySQL HA topology 管理 + 自動 failover 工具、用 GTID 偵測 replica 進度、failover 時自動 promote 最新 replica。對比 PostgreSQL 的 Patroni（詳見 Patroni HA）— 兩者角色相同、Orchestrator 需要 GTID + 對 MySQL 行為熟、Patroni 需要 DCS（etcd / Consul）+ 對 PG 行為熟。

詳見 MySQL backlog 中 Orchestrator failover 設計 篇（待寫）。

CDC（Maxwell / Debezium）

Maxwell（Zendesk 出品、MySQL-only）跟 Debezium（Red Hat、MySQL / PG / MongoDB 都支援）都讀 MySQL binlog 轉成 event stream（Kafka / Kinesis / Pulsar）。Binlog 必須 ROW format、GTID 啟用後 exactly-once delivery 更好維護（不需算 binlog position）。

跟 PG logical replication + Debezium 對比、MySQL 用 binlog（physical / row-level）不是 logical decoding、所以 schema change 時 CDC consumer 要 schema-aware 處理。詳見 MySQL backlog 中 Binary log + Maxwell / Debezium CDC 篇（待寫）。

MySQL Online Schema Change：gh-ost 跟 pt-online-schema-change 兩條完全不同的 ghost table 路徑

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 online schema change — gh-ost 跟 pt-online-schema-change 兩條工具路徑的機制對比。

機制	pt-online-schema-change（Percona）	gh-ost（GitHub）
同步機制	MySQL trigger（原表 INSERT/UPDATE/DELETE 觸發寫 ghost）	Binlog stream（讀 primary binlog 寫 ghost）
Primary 寫入 overhead	trigger 觸發成本（同 transaction 內）	0（binlog 已存在）
Replica lag 影響	trigger 在 primary 跑、replica 自然 lag	從 replica 讀 binlog、可主動 throttle
Foreign key	部分支援（drop/recreate strategy）	不支援（必須先 drop FK）
Roll back（過程中）	困難（trigger 已建、要清乾淨）	容易（drop ghost table 即可）
暫停 / resume	不支援	支援（gh-ost interactive command）
切換時 lock 持續	rename 期間 metadata lock（毫秒級）	rename 期間 metadata lock（毫秒級）
工具 binary	Perl 腳本（Percona Toolkit）	Go binary（單一可執行檔）
推出年份	2011	2016

兩工具最終結果一樣（ghost table 取代原表）、但 過程中對 production 的影響非常不同。選哪個取決於：trigger overhead 可不可接受、是否有 foreign key、是否需要 resume/throttle 能力、團隊熟悉哪條工具鏈。

為什麼 ALTER TABLE 需要 online path

MySQL 8.0 之前的 ALTER TABLE 多數情況下 rebuild 整張表 — 過程中 primary key 之外的 read/write 都 block。100 GB 表 ALTER 跑 hours、production write 全部失敗。

MySQL 8.0 加 Instant DDL（部分 ALTER 不 rebuild、只改 metadata、毫秒級完成）、但 能用 instant 的 ALTER 是 subset：

支援：ADD COLUMN（末尾）、DROP COLUMN（部分情境）、RENAME COLUMN
不支援：ADD INDEX、CHANGE COLUMN type、ADD/DROP PRIMARY KEY、ADD FOREIGN KEY

不支援 instant 的場景仍要走 ghost table。Percona 跟 GitHub 各自從 production 痛點出發、產出 pt-osc（2011）跟 gh-ost（2016）。

pt-online-schema-change：用 trigger 同步寫入

pt-osc 流程：

CREATE ghost table（跟原表同 schema + 你要的 ALTER）
在原表上 建 3 個 trigger：INSERT / UPDATE / DELETE
任何寫入原表的 transaction 同時觸發 trigger 寫對應 ghost
背景 chunk-by-chunk copy 既有 row 到 ghost
全部 copy 完後 RENAME TABLE：原表 → archive、ghost → 原表名（atomic、metadata lock 毫秒級）
Drop trigger、drop archive

Trade-off：

寫入 overhead：每個 primary 寫入 transaction 都多一次 trigger 執行、寫吞吐降 10-30%
Replica lag：trigger 跟原寫入同 transaction、replica 上每個 row 也跑 trigger、replica lag 可能暴增（缺少主動 throttle）
Roll back 困難：tool 跑到一半失敗、trigger 已建、要手動清掉才能 retry
FK 處理：原表有 FK 指向時、ghost table 要先 drop FK 再 recreate、操作複雜

適用：

寫吞吐 < 50% capacity（有 buffer 撐 trigger overhead）
無 FK 或 FK 簡單
沒有 replica lag 敏感的 read（trigger 在 replica 也跑）

不適用：

高寫吞吐（> 80% capacity）— trigger overhead 直接 saturate
大量 FK 結構
需要 throttle / pause / resume

gh-ost：用 binlog stream 同步寫入

gh-ost 流程：

CREATE ghost table
從 replica 讀 binlog（不在 primary 加 trigger）
同步 primary 上的寫入 透過 binlog event 寫到 ghost
背景 chunk-by-chunk copy 既有 row 到 ghost
全部 copy 完後 swap：RENAME TABLE
Drop archive

Trade-off：

寫入 overhead：0（binlog 已經寫了、gh-ost 只是 consumer）
Replica lag 影響：gh-ost 可監測 replica lag、超過 threshold 自動 throttle copy（不影響 primary 寫入）
Roll back 容易：取消時直接 drop ghost table、原表完全沒被改動
FK 不支援：gh-ost 設計上不處理 FK、有 FK 必須先 drop / restructure

適用：

高寫吞吐 production（trigger overhead 不可接受）
需要 throttle / pause / resume（gh-ost interactive command 可動態調 chunk size、cut-over 時點）
已用 GitHub-flavored MySQL operations workflow

不適用：

有複雜 FK 結構、不想動 schema
Replica 跑不了 binlog（極少數場景）

配置 step-by-step（gh-ost）

實務 production 多用 gh-ost（GitHub / Slack / Booking.com 等）。pt-osc 用於有 FK 或舊系統。

gh-ost 一個 ALTER 命令

 1gh-ost \
 2  --host=replica.example.com \           # 從 replica 讀 binlog
 3  --user=ghost \
 4  --password=... \
 5  --database=production \
 6  --table=orders \
 7  --alter='ADD COLUMN status VARCHAR(20) DEFAULT NULL, ADD INDEX idx_status (status)' \
 8  --allow-on-master=false \              # 不直接連 primary 讀 binlog
 9  --chunk-size=1000 \                    # 每批 copy 1000 row
10  --max-load='Threads_running=50' \      # primary load 限制
11  --critical-load='Threads_running=200' \ # 超過直接 abort
12  --max-lag-millis=1500 \                # replica lag 限制
13  --throttle-additional-flag-file=/tmp/throttle \  # touch 此檔 throttle
14  --postpone-cut-over-flag-file=/tmp/postpone \    # touch 此檔延後 cut-over
15  --execute                              # 真的執行（沒這個只 dry-run）

Interactive command（gh-ost 跑起來後）

1# 連 gh-ost socket（同 directory）
2echo "status" | nc -U /tmp/gh-ost.production.orders.sock
3# 動態調 chunk size
4echo "chunk-size=500" | nc -U /tmp/gh-ost.production.orders.sock
5# 立即觸發 cut-over（不再等）
6echo "unpostpone" | nc -U /tmp/gh-ost.production.orders.sock
7# Abort 並 drop ghost
8echo "panic" | nc -U /tmp/gh-ost.production.orders.sock

配置 step-by-step（pt-osc）

對比 gh-ost 的 binlog reader、pt-osc 命令更短但配置義務同樣多：

 1pt-online-schema-change \
 2  --host=primary.example.com \
 3  --user=ghost \
 4  --password=... \
 5  --alter='ADD COLUMN status VARCHAR(20) DEFAULT NULL, ADD INDEX idx_status (status)' \
 6  D=production,t=orders \
 7  --chunk-size=1000 \
 8  --max-load='Threads_running=50' \
 9  --critical-load='Threads_running=200' \
10  --max-lag=1.5 \
11  --check-replication-filters \           # 防 binlog filter 漏 trigger
12  --alter-foreign-keys-method=auto \      # auto / rebuild_constraints / drop_swap / none
13  --execute

--alter-foreign-keys-method 是 pt-osc 對 FK 處理的策略選項、四種選擇對 production 影響非常不同（rebuild 重建 FK / drop_swap 用更快但少了 atomic、none 是不處理）。

5 個 Production 踩雷

1. pt-osc trigger overhead 不可預期

--max-load='Threads_running=50' 看起來保護了 server、但 trigger 在 transaction 內、production 的 每個寫入 都加 trigger 開銷。Threads_running 是當下數字、看不到 trigger 累積 latency。常見場景：高峰時段下 pt-osc、預期 30% overhead、實際 60%、p99 飆 5x。

修法：

高峰時段不跑 pt-osc、排 off-peak window
用 staging environment 跑 production-like load 預估 trigger overhead
對寫吞吐 > 50% capacity 的 server 改用 gh-ost

2. gh-ost binlog lag 跟 primary 寫入率追不上

gh-ost 從 replica 讀 binlog、binlog event 進來速度有上限。如果 primary 寫入率超過 gh-ost binlog consume 速度（每秒幾千 transaction 對某些 server 已是 ceiling）、gh-ost 永遠追不上、cut-over 會長時間卡住。

修法：

gh-ost 預設用 replica binlog、改用 --allow-on-master 直接從 primary 讀（如果 primary 容量夠）
提高 --chunk-size 加快 copy（同時用 --max-load 防過載）
真的追不上、考慮 暫停部分寫入流量（throttle traffic，而非 throttle tool）

3. Foreign key constraint — 兩工具都尷尬

原表有 FK 指向（其他 table FK references 這張表）、ghost table 切換時 新 ghost 沒有那些 FK 指向。Cut-over 一瞬間、FK 從指向「原表」變成指向「archive 表」、外部 constraint 失效。

修法（pt-osc）：

用 --alter-foreign-keys-method=rebuild_constraints：先 ALTER 外部 table FK 指向 ghost、再 cut-over
或 drop_swap：cut-over 前 drop FK、cut-over 後 recreate（更快但 cut-over 期間 FK 失效）

修法（gh-ost）：

gh-ost 不支援 — 手動 drop FK / 重 setup FK
或維護 schema 改 FK 結構（FK 改在 application 層 enforce）

4. pt-osc trigger 跟 application 既有 trigger 衝突

原表上已經有 application 自建 trigger、pt-osc 在原表 再加 3 個 trigger、新舊 trigger 執行順序 MySQL 不保證（多 trigger 同事件按 未定義順序）。Application 行為可能 subtly broken。

修法：

跑 pt-osc 前 audit 原表 trigger（SHOW TRIGGERS FROM production LIKE 'orders'）
如果有 application trigger、考慮 暫時 disable 再 ALTER 或改 gh-ost
gh-ost 不在原表加 trigger、不會碰到這個問題

5. Cut-over 瞬間 deadlock — 兩工具都有但表現不同

Cut-over 用 RENAME TABLE original TO archive, ghost TO original（atomic operation）。但 cut-over 瞬間需要 metadata lock、跟 進行中的 long-running transaction 衝突會 wait。Long-running transaction 持續、cut-over 永遠 wait、最後 timeout 失敗。

修法（gh-ost）：

--cut-over-lock-timeout-seconds=3、超時 abort、稍後 retry
--postpone-cut-over-flag-file：先把 copy 跑完、等流量空檔再觸發 cut-over

修法（pt-osc）：

--set-vars="lock_wait_timeout=60"、cut-over 等更久（風險：long transaction 撐住更久 server 更多 lock wait）
或排在 long transaction 已知不會跑的時段（nightly backup 後）

容量 / 時間估算

對 100 GB 表、ALTER 加 column + 加 index 為例：

維度	pt-osc	gh-ost
估算總時間	6-12 小時（依 chunk size + load）	5-10 小時（同上、可動態調整）
寫吞吐影響	-10% ~ -30%（trigger overhead）	< 5%（binlog 已存在）
Replica lag	1-10 秒（trigger 在 replica 跑）	自動 throttle 在 threshold 內
Disk 額外需求	~原表大小 + index（ghost 用）	同左
Rollback 成本	中（清 trigger）	低（drop ghost）

兩工具總時間接近、影響 production 的差異大。

跟其他模組整合

跟 GTID / Replication topology

兩工具都 依賴 replication — pt-osc 透過 trigger 確保 replica 同步、gh-ost 直接從 replica 讀 binlog。Pre-requisite：

Binlog ROW format（兩工具都要）
GTID 啟用（gh-ost 更需要、binlog re-pointing 容易）
詳見 Replication Topology

跟 Vitess

Vitess 有自己的 VReplication-based online DDL、不用 gh-ost 或 pt-osc。Vitess online DDL 在 shard 內部用類似 gh-ost 的 binlog stream 機制、但有 Vitess-aware schema management。詳見 Vitess sharding 設計 篇（待寫）。

跟 Aurora MySQL

Aurora MySQL 仍支援 gh-ost / pt-osc、但 Aurora 自己的 fast DDL（部分 ALTER）比 8.0 Instant DDL 更廣。先檢查 Aurora 文件、能用 native fast DDL 就不用 ghost table tool。詳見 Aurora vendor page。

跟 PlanetScale

PlanetScale（managed Vitess）走 branch-based schema migration — 建 schema branch、跑 schema change、deploy 時 atomic merge。schema change 由 PlanetScale 內建流程承擔。詳見 PlanetScale migration playbook。

Production case：gh-ost operation workflow

Online schema change 的 production 責任是把大表 DDL 拆成可暫停、可節流、可切換的資料搬移流程。gh-ost 作為 GitHub 開源工具，把 schema change 轉成 ghost table copy、binlog tailing 與 controlled cutover；這讓 operator 可以在 replica lag、application load 或部署窗口變化時調整速度。

這個案例要回收到三個操作判準。第一，throttle 指標要接 production SLO，例如 replica lag、thread running、application latency 或錯誤率，而非只看 copy rows/sec。第二，pause / resume 是變更治理能力，代表 schema change 可以配合 incident response、deploy freeze 與商業尖峰窗口。第三，cutover 要設 rollback window 與 owner，因為 rename table 的瞬間仍是高風險控制點。

gh-ost workflow 的 sibling 路由是 PostgreSQL Online Schema Change。PostgreSQL 常靠 fast ALTER、MVCC 與 extension 工具解決同類需求；MySQL 的 ghost table tool 更常成為標準路徑，主因是大表 DDL、metadata lock 與 replication event 的組合壓力不同。

何時用哪一個

情境	選擇	原因
標準 production write < 50% capacity	gh-ost（預設）	寫入 overhead 0、控制更細
高寫吞吐 (> 80% capacity)	gh-ost（必須）	pt-osc trigger overhead 直接 OOM
有 FK constraint 需要保留	pt-osc	gh-ost 不處理 FK
有 application-side trigger 在原表	gh-ost	pt-osc trigger 跟既有 trigger 不可預期
需要 pause / resume 能力	gh-ost	pt-osc 不支援
已用 Percona Toolkit 整套（pt-table-checksum / pt-archiver）	pt-osc	工具鏈一致
已用 Vitess	Vitess online DDL	維持 Vitess schema workflow
已用 PlanetScale	branch-based	維持 PlanetScale schema workflow
已用 Aurora MySQL + native fast DDL OK	不用 ghost table	直接 ALTER

MySQL ProxySQL 配置：connection / query / route / response 四段 lifecycle 跟 query rule 設計

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 ProxySQL 配置 — connection pool + query routing 的 4 段 lifecycle 跟 rule chain 設計。

ProxySQL Lifecycle：每個 query 走 4 段

從 application 連 ProxySQL 到拿到 response、每個 query 都走完整 4 段：

11. Connection 接入        →  application connect 到 ProxySQL（不是 MySQL）
22. Query parse + rule match  → ProxySQL 解析 query、match query rule chain
33. Backend route          →  決定走哪個 hostgroup（primary / replica）+ 哪個 server
44. Response 返回          →  將 result set 回 application、connection 可被 reuse

每段都有獨立配置 + failure mode + 觀測 metric。ProxySQL 不是 簡單的 connection pool、是 query-aware proxy — 看得到 SQL 內容才能做 read/write split、replica lag-aware routing、query mirroring。

跟 PostgreSQL pgBouncer 比、pgBouncer 是 transaction-level pool（只看連線、不看 SQL）、ProxySQL 是 query-level proxy（看 SQL、做 routing decision）。能力不同、target use case 不同。

Stage 1：Connection 接入 — Hostgroup / Server / User 三層 schema

ProxySQL 不直接 expose backend MySQL、用 hostgroup 作為 routing 抽象。Application 不知道有幾個 backend、只知道 ProxySQL。

核心 table（在 main database）：

Table	角色
`mysql_servers`	列每個 backend MySQL server、屬於哪個 hostgroup
`mysql_replication_hostgroups`	定義 writer hostgroup ↔ reader hostgroup 配對、自動偵測 primary 切換
`mysql_users`	列允許連 ProxySQL 的 application user、預設 hostgroup
`mysql_query_rules`	Query rule chain、決定哪個 query 走哪個 hostgroup

典型部署：

 1-- 進 ProxySQL admin (6032 port)
 2mysql -uadmin -padmin -h127.0.0.1 -P6032
 3
 4-- 設 2 個 hostgroup：10=writer、20=reader
 5INSERT INTO mysql_servers(hostgroup_id, hostname, port, weight, max_connections)
 6VALUES
 7  (10, 'primary.example.com', 3306, 1000, 200),
 8  (20, 'replica1.example.com', 3306, 1000, 100),
 9  (20, 'replica2.example.com', 3306, 1000, 100);
10
11-- 自動偵測 primary（用 read_only flag）
12INSERT INTO mysql_replication_hostgroups(writer_hostgroup, reader_hostgroup, comment)
13VALUES (10, 20, 'production cluster');
14
15-- 設 application user、預設走 reader（保守）
16INSERT INTO mysql_users(username, password, default_hostgroup, max_connections)
17VALUES ('app', 'app_password', 20, 1000);
18
19-- 套用設定到 runtime
20LOAD MYSQL SERVERS TO RUNTIME;
21LOAD MYSQL USERS TO RUNTIME;
22
23-- 持久化到 disk（重啟保留）
24SAVE MYSQL SERVERS TO DISK;
25SAVE MYSQL USERS TO DISK;

注意 ProxySQL 的 三層 state：disk（持久化）→ memory（編輯區）→ runtime（實際運作）。每次改完要 LOAD ... TO RUNTIME 才生效、SAVE ... TO DISK 才能 reboot 保留。沒 SAVE 重啟後 config 消失是新手最常踩的雷。

Stage 2：Query Parse + Rule Match — query rule engine

ProxySQL 不只 forward connection、看 SQL 內容 決定怎麼 route。Query rule 是 ordered chain、match 第一個符合的 rule。

Query rule 核心欄位：

欄位	意義
`rule_id`	排序（越小越先 match）
`match_pattern`	regex 比對 SQL（支援 `^SELECT` / `FOR UPDATE` 等）
`destination_hostgroup`	match 後送哪個 hostgroup
`apply`	match 後是否停 chain（1=stop、0=繼續看後面 rule）
`cache_ttl`	result cache TTL（毫秒）— ProxySQL 內建 query cache
`mirror_hostgroup`	query 鏡像送到第二個 hostgroup（不等 response、用於 shadow test）

典型讀寫分離 rule：

 1-- Rule 100: SELECT ... FOR UPDATE 必須走 primary
 2INSERT INTO mysql_query_rules(rule_id, active, match_pattern, destination_hostgroup, apply)
 3VALUES (100, 1, '^SELECT.*FOR UPDATE$', 10, 1);
 4
 5-- Rule 200: 一般 SELECT 走 replica（reader）
 6INSERT INTO mysql_query_rules(rule_id, active, match_pattern, destination_hostgroup, apply)
 7VALUES (200, 1, '^SELECT', 20, 1);
 8
 9-- Rule 300: BEGIN / START TRANSACTION 走 primary
10INSERT INTO mysql_query_rules(rule_id, active, match_pattern, destination_hostgroup, apply)
11VALUES (300, 1, '^(BEGIN|START TRANSACTION)', 10, 1);
12
13-- 其他（INSERT / UPDATE / DELETE）預設走 default_hostgroup（user 設的）
14-- application user default 設 10 (writer)、所以寫入自動走 primary
15
16LOAD MYSQL QUERY RULES TO RUNTIME;
17SAVE MYSQL QUERY RULES TO DISK;

Rule 順序很重要：rule_id 100 先 match、200 再 match、依此類推。Rule 200 比 100 寬鬆（任何 SELECT）、所以 FOR UPDATE 必須先 match rule 100 才不會誤送 replica。

Stage 3：Backend Route — replica lag-aware + circuit breaker

Rule match 後 ProxySQL 從 hostgroup 內挑一個 server。Backend selection 不是 pure round-robin、考慮：

Weight：每個 server weight 比例分配（典型用於 replica capacity 不同）
Replica lag：若 hostgroup 設 max_replication_lag、lag 超過 threshold 的 replica 自動暫時退出
Connection count：避免某個 server connection 滿
Server status：mysql_servers.status (ONLINE / SHUNNED / OFFLINE_SOFT / OFFLINE_HARD) 決定是否可用

Replica lag-aware routing 配置：

1-- 給整個 reader hostgroup 設 lag threshold
2UPDATE mysql_servers
3SET max_replication_lag = 5  -- 秒
4WHERE hostgroup_id = 20;
5
6LOAD MYSQL SERVERS TO RUNTIME;

ProxySQL 內部用 monitor module 定期跑 SHOW SLAVE STATUS、lag 超過 5 秒 → 該 replica 暫時退出 reader hostgroup。讀 query 自動避開 lagging replica。

Circuit breaker（自動 shun）：server 連續失敗 → ProxySQL 自動 SHUNNED、避免持續打 broken server。但 application 層仍要處理 retry、ProxySQL 不保證 query 100% 成功。

Stage 4：Response 返回 — connection multiplexing

ProxySQL 對 application connection 跟 backend connection 是 N:M 多工：

Application connection 跟 ProxySQL 1:1
ProxySQL 跟 backend MySQL connection 共用 pool（multiplexing）

Multiplexing 條件：

Transaction 內：connection 綁定特定 backend（保 transaction atomicity）
跨 transaction：connection 可以換 backend
SET statement 改 session variable：connection 黏死 backend（防 session state leak）
User variable（@var）：connection 黏死 backend

結果：application 看到的是「自己有 1000 個 connection」、ProxySQL 後端可能只有 100 connection 到 MySQL。對 connection-bound MySQL（max_connections 限制）是關鍵 cost saving。

5 個 Production 踩雷

1. Query rule 順序錯亂 — `FOR UPDATE` 被 SELECT route 到 replica

Rule 200（^SELECT）寫在 rule 100（^SELECT.*FOR UPDATE$）之前、ProxySQL match 第一個 rule（rule 200）就停、SELECT ... FOR UPDATE 被送 replica、replica 沒 lock、application 假設有 lock 跑 race condition。

修法：

rule_id 排序：精確 rule（多條件 regex）放小、寬鬆 rule 放大
用 apply=1 強制停 chain、不要讓 query 繼續往下 match
跑 ProxySQL SHOW PROCESSLIST + audit log 確認 routing 正確

2. Connection 漂移 — Multiplexing 把 session variable 弄丟

Application 跑 SET sql_mode=...、ProxySQL 把這 connection 暫時黏死 backend 1。下個 query ProxySQL forget、把 connection unstick、實際 forward 到 backend 2（沒 SET sql_mode）、SQL 解析行為不同、application bug。

修法：

用 mysql-multiplexing=false 全 disable（最簡單但浪費 connection pool 效率）
或在 application init 連線後跑的 SET 全列在 mysql_users.connect_init（每個 connection ProxySQL 自動跑、不會漂移）
避免 application 中途改 session variable、改成全部走 ProxySQL connect_init

3. Write 不小心 route 到 replica — `default_hostgroup` 設錯

Application user default_hostgroup 設 20 (reader)、INSERT / UPDATE / DELETE 沒 match 到任何 rule（沒寫 catch-all write rule）、走 default → 送 replica → replica 是 read-only → error。或更糟：replica 不是 read-only mode、寫入 寫到 replica 上、replication 反向不同步、data corruption。

修法：

Application user default_hostgroup 設 10 (writer) — 寫入預設走 primary
Replica MySQL 一定要 read_only=1（防 stale write 寫到 replica）
監控 mysql_query_rules match 率、寫入 query 應該大部分透過 default_hostgroup 路由、不是個別 rule

4. Runtime / disk schema drift — 改了 runtime 沒 save、重啟 config 消失

LOAD ... TO RUNTIME 跟 SAVE ... TO DISK 是兩個獨立操作。On-call 在事故中改 ProxySQL 配置（add server、調 query rule）、LOAD 套到 runtime 但忘記 SAVE、隔天 ProxySQL 重啟（OS update / crash）、config 回到 disk 版本、半夜 alert。

修法：

每次 LOAD ... TO RUNTIME 後立刻 SAVE ... TO DISK（變成 habit）
用 IaC（Terraform / Ansible）管 ProxySQL config、不要手動改 admin
監控：對比 runtime_mysql_servers 跟 mysql_servers（disk）、有 diff 即告警

5. Mirror traffic 副作用 — INSERT 鏡像到 staging 寫了兩次

mirror_hostgroup 把 query 鏡像送到第二個 hostgroup（不等 response、用於 shadow test 新 schema）。但 鏡像是真實執行、不是 dry-run。鏡像 INSERT 到 staging hostgroup → staging 真的多了 row。如果 staging hostgroup 接到 production 表（誤接）、production 寫入 doubled。

修法：

Mirror 只用於 獨立 staging cluster、不混用 production schema
Mirror 設定要 review（規則 match_pattern 跟 mirror_hostgroup 配對）
開 mirror 前在 staging 跑 dry-run、確認 schema 跟 production isolated

容量規劃要點

對 100 application instance × 50 connection / instance = 5000 application connection 場景：

配置	ProxySQL 設定	MySQL backend 配置
Application → ProxySQL	`mysql-max_connections=10000`	不影響
ProxySQL → MySQL primary	`max_connections=200`（per server）	MySQL `max_connections=300`（多 100 buffer for admin）
ProxySQL → MySQL replica	`max_connections=200`（per server）	同上
ProxySQL 數量（HA）	至少 2 instance（HAProxy / VIP）	-
Memory per ProxySQL	2-4 GB（query rule cache + connection pool）	-

ProxySQL 本身需要 HA：放兩個 instance 後面接 VIP（keepalived）或 HAProxy。Application 連 VIP / HAProxy、不直接連 ProxySQL hostname（單點失效）。

跟其他模組整合

跟 Replication topology

ProxySQL 透過 monitor module 自動偵測 primary（檢查 read_only flag）+ replica lag（檢查 Seconds_Behind_Master）。這個 monitor 依賴 MySQL replication 已配好（GTID + binlog ROW format）。詳見 Replication Topology。

跟 Orchestrator HA

Orchestrator 自動 failover 後新 primary 的 read_only flag 變 0、舊 primary 變 1。ProxySQL monitor 偵測到、自動把 hostgroup 10（writer）的 server 切換、application 不必改 connection string。

詳見 Orchestrator failover 設計 篇（待寫）。

跟 OSC tool（gh-ost / pt-osc）

ProxySQL 可以 暫時 throttle application 對某張表的寫入（query rule delay 欄位）、配合 OSC tool cut-over 時段降低 metadata lock 衝突。

詳見 Online Schema Change Tools。

跟 Aurora MySQL / RDS Proxy

Aurora MySQL 推 RDS Proxy（AWS managed proxy）取代 ProxySQL — 跟 IAM 整合、failover < 30 秒。但 RDS Proxy 沒有 query routing rule engine（只做 connection pool）、不能讀寫分離。Aurora user 仍可能用 ProxySQL 在前面、再用 RDS Proxy 作 backend connection pool。

詳見 Aurora vendor page。

跟 PostgreSQL pgBouncer 對比

維度	ProxySQL（MySQL）	pgBouncer（PostgreSQL）
抽象層	Query-level proxy	Transaction-level pool
Query routing	內建（rule engine）	無（不看 SQL）
Connection pool	內建	核心功能
Read/write split	內建（自動 + rule）	要 application 層或 HAProxy 配
Replica lag-aware	內建	無
Query cache	內建	無

ProxySQL 是 query 層中介、pgBouncer 是 connection 層中介。詳見 pgBouncer 配置。

MySQL Orchestrator Failover：HA 工具自己怎麼 HA？raft cluster + GTID-based promotion 的兩段 paradox

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 Orchestrator failover — 自動 HA 的工具雙層架構跟 5 段 decision tree。

用詞註：Orchestrator 工具命名與 MySQL 5.7- SQL 命令（SHOW SLAVE STATUS / CHANGE MASTER TO / STOP SLAVE 等）沿用 master / slave。MySQL 8.0+ 改採 primary / replica、但 SQL syntax 仍保留別名。本文出現 master / slave 處對應 8.0 primary / replica 概念。

讀者第一個會問的問題：「Orchestrator 自己會壞嗎？壞了誰 failover Orchestrator？」這個 paradox 是 任何 HA 工具 的核心議題、PostgreSQL 的 Patroni 用 DCS（etcd / Consul）解決、MySQL 的 Orchestrator 用 內建 raft cluster 解決：

1被管的 (Layer 1):       primary MySQL → replica MySQL → replica MySQL → ...
2管理者 (Layer 2):       orchestrator instance × 3 (or 5) — 用 raft 自己選 leader
3管理者狀態存放 (Layer 3): 每個 orchestrator instance 自己有 MySQL backend (state)

Orchestrator 3 個 instance 構成 raft cluster、自己選 leader。Leader 才有 寫入 state + 發起 failover 權限、其他 instance follower 同步 state。Leader 失聯 → raft 重新選 leader（< 10 秒）、新 leader 繼續 manage MySQL topology。

跟 PostgreSQL Patroni 不同：Patroni 需要 外部 DCS（etcd / Consul）作為 source of truth、Patroni 本身 stateless；Orchestrator 內建 raft、不需要外部 DCS、但每個 orchestrator instance 需要 自己的 MySQL backend 存 state。

Orchestrator 雙層架構：管 MySQL 的 Layer 2

Layer 1 是 被管的 MySQL cluster — primary + replica 群。Layer 2 是 管理者 — orchestrator instance 群。Layer 2 監視 Layer 1、Layer 2 自己用 raft 自管。

Layer 1 對 Orchestrator 的需求：

所有 MySQL server 啟用 binlog + log_slave_updates（讓 Orchestrator 看得到 binlog event）
啟用 GTID（Orchestrator failover decision 依賴 GTID 比較進度、不用算 binlog position）
每個 server 有 orchestrator user（GRANT SUPER, REPLICATION CLIENT, REPLICATION SLAVE, PROCESS ON *.* TO 'orchestrator'@'%'）

Layer 2 配置：

 1# /etc/orchestrator.conf.json (簡化)
 2{
 3  "MySQLOrchestratorHost": "orchestrator-backend.example.com",
 4  "MySQLOrchestratorPort": 3306,
 5  "MySQLOrchestratorDatabase": "orchestrator",
 6
 7  # 用 backend MySQL（每個 orchestrator instance 自己一個）+ raft 同步
 8  "RaftEnabled": true,
 9  "RaftDataDir": "/var/lib/orchestrator",
10  "RaftBind": "10.0.1.10:10008",
11  "RaftNodes": [
12    "orchestrator1.example.com:10008",
13    "orchestrator2.example.com:10008",
14    "orchestrator3.example.com:10008"
15  ],
16
17  # Topology discovery
18  "DiscoverByShowSlaveHosts": true,
19  "InstancePollSeconds": 5,
20
21  # Failover detection
22  "FailureDetectionPeriodBlockMinutes": 60,
23  "RecoveryPeriodBlockSeconds": 3600,
24
25  # Failover automation
26  "RecoverMasterClusterFilters": ["*"],
27  "RecoverIntermediateMasterClusterFilters": ["*"],
28  "PreFailoverProcesses": ["/usr/local/bin/orchestrator-fence-master.sh"],
29  "PostFailoverProcesses": ["/usr/local/bin/orchestrator-notify-proxysql.sh"]
30}

Stage 1：Topology Discovery — 自動發現 + manual seed

Orchestrator 啟動後 seed 一個或多個 MySQL server、自動發現整個 topology：

連 seed server → SHOW SLAVE HOSTS → 發現所有 replica
對每個 replica 跑 SHOW MASTER STATUS + SHOW SLAVE STATUS → 建立 父子關係 graph
持續 poll（InstancePollSeconds=5）每 5 秒更新 topology state

Topology graph 的 node：

Master：no slave status、被多個 replica 指
Intermediate master：有 slave status 也有下游 replica（chained replication）
Co-master：互相 replicate（罕見、active-passive failover 場景）
Replica：有 slave status、無下游

Topology 可視化：Orchestrator UI（web）顯示 cluster 樹狀圖、操作員可手動 drag-and-drop replica 重新 attach。

Stage 2：Failure Detection — 區分真壞跟假壞

Orchestrator 不是 單一 ping 失敗就 failover、有 holistic detection：

指標	解讀
Master `connect fail`	可能 network blip、不一定真壞
Master `timeout poll`	可能 master loaded、不一定真壞
Replica 全部 `IO error`	Master 真的對 replica 不可達、強訊號
Replica 看到 master 還活著	Master 對 orchestrator 不可達、可能是 orchestrator network 問題、不是 master
Replica lag 暴增	Master 可能還活著但 overload、不一定要 failover

Detection rule：Master 自己連不上 + 至少一個 replica 也看 master IO error → 判定 DeadMaster。單一 orchestrator 連不上 master 不觸發 — 防 orchestrator network 隔離造成的 false positive failover。

Stage 3：Failover Decision Tree — 選哪個 replica promote

判定 DeadMaster 後不是 選最近的 replica、用 decision tree：

GTID 最新的 replica：跟舊 master 同步最完整（用 Executed_Gtid_Set 對比）
同 DC / AZ 的 replica（如果有 multi-DC 配置）
手動指定的 promotion candidate（promote_rule=must 或 prefer）
Semi-sync ack 的 replica（如果 semi-sync 啟用）

GTID 最新是基本要求。其他規則是 tie-breaker。

Errant transaction 處理：選出的 candidate replica 如果有 errant GTID（master 沒有但 replica 有的 transaction）、Orchestrator 不會 promote 這個 replica（怕 errant transaction 變成 new master state）。改選次優 candidate。

Stage 4：Promote Action — 5 步 atomic（理想情況）

選好 candidate 後執行：

Fence 舊 master（pre-failover hook）：把舊 master 對外停掉、防 split-brain
STOP SLAVE on candidate：candidate 不再從舊 master pull binlog
RESET SLAVE ALL on candidate：candidate 清掉 slave 配置、變成獨立 master
Re-attach 其他 replica：用 CHANGE MASTER TO MASTER_HOST=, MASTER_AUTO_POSITION=1（GTID auto-position）
Post-failover hook：通知 ProxySQL / HAProxy / DNS 切流量

每步任一失敗、Orchestrator 可能停在中間狀態、需要 人工介入。

Stage 5：Recovery — Old master 怎麼處理

Failover 完、舊 master 可能：

真的死了：物理 server 故障 / region outage → 不必處理、未來修好作為新 replica re-attach
Network blip 後復活：舊 master 自己 仍認為自己是 master、再次接受寫入會造成 split-brain

修法：

Fencing（必須）：pre-failover hook 把舊 master 對外 firewall 掉、或 force read_only=1、防舊 master 復活後接受寫入
Manual reset：舊 master 復活後人工 confirm 是否變成新 master 的 replica（不要自動、自動容易誤判）

Orchestrator UI 在偵測到 errant master 時會標 warning、不會自動處理。

5 個 Production 踩雷

1. Split-brain — pre-failover hook 沒 fence 舊 master

舊 master network blip 後復活、orchestrator 已 promote 新 master、application 部分 instance 連舊 master、部分連新 master、雙寫造成 data divergence。

修法：

Pre-failover hook 必須 fence（不是可選）：
- 物理 fencing：透過 IPMI 重啟 / 關 server
- Network fencing：透過 firewall rule 切斷 server 對外連線
- MySQL fencing：SET GLOBAL read_only=1 + KILL 所有 active connection
用 VIP / DNS 配合：fence 完才切 VIP / DNS 到新 master、避免 application 連舊 IP
不依賴 application 連線 string 動態變更（DNS TTL 期間仍可能連舊 IP）

2. Pre-failover hook 失敗 — Orchestrator 該停還是該繼續

Pre-failover hook 跑失敗（fence script 因為 SSH 不通、IPMI 沒回應）。Orchestrator 有兩種策略：

PostponeReplicaRecoveryOnLagMinutes：等 hook 成功才繼續、可能永遠 stuck
FailMasterPromotionOnLagMinutes：放棄 promotion、留 cluster degraded（無 master）

兩者都不理想。多數 production 選 PostponeReplicaRecoveryOnLagMinutes=10：等 10 分鐘 hook 成功、超時則 alert 人工介入、不繼續 auto-promote（人工 review 才是正確選擇）。

3. Anti-flapping 窗口太短 — Master 抖動 vs 真死

FailureDetectionPeriodBlockMinutes=60：偵測一次 failure 後 60 分鐘內不再 trigger failover（即使再偵測到 failure）。預設 60 分鐘對 第一次 failover 後 master 仍不穩 的場景太長 — 60 分鐘內 master 真的死了第二次、orchestrator 不 failover。預設 60 分鐘對 網路抖動 的場景太短 — 60 分鐘內可能 multiple failover、cluster 一直在 promote。

修法：

評估自己 cluster 的 typical recovery time：1-2 小時、設 FailureDetectionPeriodBlockMinutes=120
監控 failover 頻率、單週 > 2 次表示底層問題（網路 / hardware）、不是調 anti-flapping window 解決

4. GTID errant transaction — Orchestrator 拒絕 promote 但沒講原因

Candidate replica 有 errant GTID（從別處 inject 的 transaction）、Orchestrator 拒絕 promote、log 訊息 errant GTID detected、但 沒寫實際是哪個 GTID。On-call 在事故中沒辦法 debug。

修法：

平時 監控 errant GTID：定期跑 pt-show-grants + GTID 比對、不要等 failover 才發現
Orchestrator 的 OrchestratorIssuesAGtidPurge 設 true：preview mode 看 errant GTID 的位置
Errant GTID 來源通常是 人為 inject（DBA 直接寫 replica 然後 binlog 出現）、教育 DBA 不要直接連 replica 寫

5. VIP / ProxySQL 整合斷層 — 切流量延遲

Post-failover hook 跑完 script 上報「我切完了」、但實際 VIP / DNS / ProxySQL 還沒看到變化。Application 連 stale endpoint 30 秒、寫入失敗。

修法：

Post-failover hook 不只 trigger 切換、要 wait 切換完成：
- VIP：等 arping 確認新 IP 已 propagate
- ProxySQL：等 mysql_servers runtime table 更新 + 確認 monitor module 看到新 primary
- DNS：先把 TTL 降到極短（5 秒）、再切 DNS、等 TTL 過
Orchestrator PostFailoverProcessesFailOnError=true：hook 失敗整個 failover 標記失敗、人工檢查
ProxySQL 用 mysql_replication_hostgroups 自動偵測 read_only flag、可不依賴 hook（推薦）

容量規劃要點

元件	配置建議
Orchestrator instance 數量	3（raft cluster 最小、odd number、容忍 1 個故障）
每個 instance MySQL backend	1 個獨立 MySQL（不要共用、不要用被管的 cluster）
Backend MySQL spec	t3.small 級別、Orchestrator state ~1 GB
Network latency	raft 同 region 內、跨 AZ 可接受（< 5ms）、跨 region 不推薦
InstancePollSeconds	5 秒（預設）— 越小越敏感、越大越省連線

3 instance raft cluster 容忍 1 instance 故障。5 instance 容忍 2 instance 故障但 quorum cost 高、99% 場景 3 個夠用。

跟其他模組整合

跟 Replication topology

Orchestrator 100% 依賴 GTID + binlog ROW format（Replication Topology）。沒 GTID 用 binlog position、failover 時 re-pointing 容易出錯、Orchestrator 強烈建議 GTID。

跟 ProxySQL

ProxySQL 用 mysql_replication_hostgroups 自動偵測 read_only flag — orchestrator 切完新 master 後、ProxySQL monitor module 自動看到新 master 的 read_only=0、自動更新 routing、application 不用改 connection string。

這個 無需 post-failover hook 通知 ProxySQL 的整合是 ProxySQL + Orchestrator 組合的最大優勢、比手動 hook 通知 VIP / DNS 可靠。

跟 Patroni（PostgreSQL 對應）

維度	Orchestrator	Patroni
DCS	內建 raft（不需外部）	外部（etcd / Consul / ZooKeeper）
State storage	每 instance 一個 MySQL backend	DCS 本身
Topology discovery	自動 + manual seed	自動（透過 DCS）
Fencing	Pre-failover hook（自實作）	Watchdog（內建）
5+ year 生產驗證	GitHub / Booking.com / Shopify	Zalando / 多個歐美企業

兩者角色相同、設計取捨不同。Patroni 對 DCS 高依賴、Orchestrator 對自己 backend MySQL 高依賴。

跟 RDS / Aurora MySQL

AWS RDS / Aurora 內建 multi-AZ failover、不用 Orchestrator。Aurora failover < 30 秒、RDS failover ~60-120 秒。Aurora 把 replication / failover 整套封進 storage layer、application 看到的是 reader endpoint + writer endpoint。

詳見 Aurora vendor page。

跟 Vitess

Vitess shard 內部用 VTOrc（Vitess fork of Orchestrator）— 概念跟 Orchestrator 一致、針對 Vitess topology metadata 適配。

詳見 Vitess sharding 設計 篇（待寫）。

MySQL InnoDB Tuning：為什麼一個 100 GB DB 在 64 GB RAM server 上 query 慢 5 倍

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 InnoDB engine tuning — 4 個影響最大的 knob 跟對應 production 行為。

開場：常見痛點

一個 100 GB MySQL DB、64 GB RAM 的 server、p99 query latency 從 5ms 飆到 50ms。第一直覺是 server overload — 但 CPU < 30%、disk IO 50 IOPS。為什麼慢？

打開 SHOW VARIABLES LIKE 'innodb_buffer_pool_size'：134217728（128 MB）。對 64 GB RAM server、buffer pool 只用了 128 MB、剩 99.9% 的 working set 每次 query 都要從 disk 讀。CPU 閒、disk 沒滿、是因為 MySQL 自己不用 RAM — 用 InnoDB 預設值跑 100 GB DB 等於 disk-only 模式。

這個案例展示 InnoDB tuning 的核心：MySQL 預設值是 為 16 GB RAM 設計、production server RAM 越大、預設值離 optimal 越遠。

4 個 critical knob

對 90% production case、調這 4 個就解決大部分 InnoDB 性能問題：

Knob	預設	對 production 建議	影響
`innodb_buffer_pool_size`	128 MB	系統 RAM 50-75%（dedicated server 75%）	讀效能（資料能否在 RAM）
`innodb_log_file_size`	48 MB（×2 file）	1-4 GB（依寫吞吐、8.0.30+ 改 `innodb_redo_log_capacity`）	寫效能（flush 頻率）
`innodb_flush_log_at_trx_commit`	1 (full ACID)	1（金融 / 訂單）/ 2（高吞吐可容 1 秒 loss）	寫吞吐 vs durability
`innodb_io_capacity` + `_max`	200 / 2000	SSD: 2000 / 20000; NVMe: 10000 / 40000	flush 速度（適配儲存）

其他 knob（innodb_thread_concurrency / innodb_buffer_pool_instances / innodb_read_io_threads 等）也有影響、但對多數 case 先把這 4 個調對 比微調其他 20 個重要。

Knob 1：Buffer pool — 把 working set 拉進 RAM

InnoDB buffer pool 是 page cache — 從 disk 讀過的 16 KB page 快取在 RAM、下次 query 直接 RAM 讀。Buffer pool 越大、cache hit ratio 越高、disk IO 越少。

Sizing：

Dedicated MySQL server：RAM 70-80%（剩 20-30% 給 OS / MySQL 其他結構 / connection buffer）
Shared server：RAM 30-50%（看其他 process 需求）
Container / Kubernetes：對 container memory limit 70%（不是 host RAM）

1# 64 GB RAM dedicated server
2innodb_buffer_pool_size = 48G
3innodb_buffer_pool_instances = 8  # 分 8 個 instance 降 mutex contention（每 instance 6 GB）

Buffer pool warm-up：MySQL 重啟後 buffer pool 是空的、要慢慢從 disk 把熱資料拉回 RAM。預設 5.7+ MySQL 啟動時 dump buffer pool LRU list 到 disk、重啟時 自動 restore：

1innodb_buffer_pool_dump_at_shutdown = 1
2innodb_buffer_pool_load_at_startup = 1
3innodb_buffer_pool_dump_pct = 75  # 只 dump 最 hot 的 75% page list

沒這個 warm-up、重啟後第 1 個小時 query latency 都偏高、application 看到 p99 spike。

Knob 2：Redo log — flush 頻率跟寫吞吐

InnoDB 寫入 先寫 redo log（順序寫）、再非同步寫到 data file（隨機寫）。Redo log 滿了強迫 flush data file、flush 期間寫吞吐降。

innodb_log_file_size 控制每個 log file 大小（預設 2 個 file）：

5.7：預設 48 MB × 2 = 96 MB total
8.0：預設仍是 48 MB × 2、8.0.30+ 改用動態 innodb_redo_log_capacity（default 100 MB total）

對 5K WPS server、預設容量可能 每分鐘 flush 一次、寫吞吐持續 stall。提高到 1-4 GB total、flush 改成每 30 分鐘一次、寫吞吐穩定。

1innodb_log_file_size = 2G       # 大寫吞吐 server 設 1-4 GB
2innodb_log_files_in_group = 2   # 預設 2 個就夠
3innodb_log_buffer_size = 64M    # log 寫 disk 前的 RAM buffer

Trade-off：log file 越大、recovery 時間越長（crash 後 InnoDB 要 replay 全部 log）。1 GB log 通常 < 1 分鐘 recovery、4 GB 可能 5 分鐘以上。SSD / NVMe 這個 trade-off 不嚴重、HDD 要注意。

MySQL 8.0+ 改進：log file 可動態調整（不用重啟）、且 automatic redo log writer threads 降低 mutex contention。

Knob 3：Flush method — ACID vs 吞吐

innodb_flush_log_at_trx_commit 控制 每個 transaction commit 時要不要 flush log 到 disk：

1（預設）：每次 commit fsync log file → zero data loss on crash
2：每次 commit 寫 log file（但 OS-level cache、不 fsync）→ server crash 不丟、OS crash 丟 1 秒
0：每秒 fsync 一次 → 任何 crash 丟 1 秒

sync_binlog 對應 binlog（不是 InnoDB log）：

1（建議）：每次 commit fsync binlog
0：依賴 OS sync、容易丟 binlog → replication / CDC 風險

Production 組合：

用途	`innodb_flush_log_at_trx_commit`	`sync_binlog`	寫吞吐	Crash data loss
金融 / 訂單 / 支付	1	1	baseline	0
一般 web 應用	1	1	baseline	0
高寫吞吐 + 容忍 1 sec loss	2	1	+30-50%	OS crash 丟 1 秒
Dev / test	2	0	+50-100%	不重要
不要這樣設	0	0	+100%	任意 crash 丟資料

多數 production 用 1 + 1、雖然慢但 簡單可預測。改成 2 + 1 之前要明確 能容忍 1 秒 data loss、且通常 review 過 Disaster Recovery Plan。

Knob 4：IO capacity — 適配儲存

InnoDB 後台 flush 速度受 innodb_io_capacity 限制：

innodb_io_capacity（一般）：後台 flush 目標 IOPS
innodb_io_capacity_max（突發）：emergency flush 上限

對應儲存類型：

儲存	IOPS 能力	`innodb_io_capacity`	`innodb_io_capacity_max`
7200 RPM HDD	~80 IOPS	100	200
SSD (SATA)	10K-50K IOPS	2000	20000
NVMe SSD	100K-500K IOPS	10000	40000
EBS gp3	3000-16000 IOPS	5000	16000
EBS io2	50K-256K IOPS	20000	60000

預設 200 / 2000 是 為 HDD 設計、SSD / NVMe server 用預設值 = InnoDB 自我限速、flush 慢、寫入瓶頸。

1# NVMe SSD server
2innodb_io_capacity = 10000
3innodb_io_capacity_max = 40000
4innodb_flush_neighbors = 0  # NVMe 不需要 group flush 相鄰 page

5 個 Production 踩雷

1. Buffer pool 沒 warm-up — 重啟後 1 小時 p99 飆

MySQL 重啟（OS upgrade / config change / failover）後、buffer pool 是空的、所有 query 第一次都 disk 讀、p99 latency 飆 5-10x、application 看到 timeout。

修法：

啟用 innodb_buffer_pool_dump_at_shutdown=1 + innodb_buffer_pool_load_at_startup=1
對 沒 graceful shutdown 的 crash（OOM / kernel panic）、buffer pool 沒 dump、warm-up 後第一個小時仍辛苦
重要 server 重啟前手動 dump：SET GLOBAL innodb_buffer_pool_dump_now=ON
對於不能容忍 cold cache 的場景、failover 前 先 pre-warm new primary（用 query replay 把 hot data 拉到 buffer pool）

2. Log file size 設太小 — checkpoint storm

innodb_log_file_size=48M 預設、高寫吞吐 server log 每分鐘 flush 一次、flush 期間 checkpoint storm — 寫吞吐降 50%、p99 暴增。錯誤訊號是 innodb_log_waits 持續 > 0。

修法：

監控 SHOW STATUS LIKE 'Innodb_log_waits' — 應該長期接近 0
提高 innodb_log_file_size 到 1-4 GB（依寫吞吐）
8.0+ 可動態調整、5.7 需要 正常 shutdown 後改、開啟前先 dump buffer pool（避免 cold cache）

3. `sync_binlog=0` 換速度 — replication 永久 broken 風險

開發 / staging 改 sync_binlog=0（加快寫入）、後來複製到 production 配置、production 同樣 sync_binlog=0。OS crash 後 binlog 缺最後幾秒 transaction、replica 跟 primary GTID set diverge、replication broken、要 重建 replica from base backup（小時級 recovery）。

修法：

Production 永遠用 sync_binlog=1、不要為了寫吞吐犧牲 binlog durability
開發 / staging 配置跟 production 隔離、不要直接 copy config
Replica 失聯後 用 GTID 自動 re-attach（不是 binlog position）— 仍然需要 binlog 完整、sync_binlog=0 仍是風險

4. IO scheduler — 不是 InnoDB tuning 但影響大

Linux noop / deadline / cfq IO scheduler 對 SSD / NVMe 影響大：

cfq（traditional spinning disk default）：對 SSD 嚴重 bottleneck
deadline：對 SSD 較好、但有 latency cap
noop / none：對 NVMe 最好（讓 device 自己處理 queue）

Production check：

1cat /sys/block/sda/queue/scheduler
2# 應該顯示： [none] mq-deadline (NVMe)
3# 或：         noop deadline [cfq] (cfq 是錯的)

不是 InnoDB knob、但影響 InnoDB IO behavior > 30%。InnoDB tuning 前先確認 OS-level IO scheduler 對。

5. Undo log 膨脹 — purge 跟不上

Undo log 紀錄 未來可能 rollback 需要的舊版本 row。長 transaction（hours-level）讓 undo log 持續累積、不能 purge、最後 InnoDB tablespace 膨脹幾 GB、disk 滿。

訊號：

SHOW ENGINE INNODB STATUS 看 History list length 持續成長（正常 < 1000、異常 millions）
information_schema.innodb_metrics 的 trx_rseg_history_len

修法：

找 long-running transaction：SELECT * FROM information_schema.innodb_trx WHERE trx_started < NOW() - INTERVAL 1 HOUR
KILL 該 transaction（謹慎、可能 application bug）
8.0+ 用 separate undo tablespace（innodb_undo_tablespaces）、不污染 main tablespace、且可以 truncate

容量規劃要點

對 64 GB RAM、NVMe SSD、5K WPS、100 GB DB 的 server：

 1# my.cnf production-ready baseline
 2[mysqld]
 3# Buffer pool (75% RAM)
 4innodb_buffer_pool_size = 48G
 5innodb_buffer_pool_instances = 8
 6innodb_buffer_pool_dump_at_shutdown = 1
 7innodb_buffer_pool_load_at_startup = 1
 8
 9# Redo log
10innodb_log_file_size = 2G
11innodb_log_files_in_group = 2
12innodb_log_buffer_size = 64M
13
14# Flush behavior
15innodb_flush_log_at_trx_commit = 1
16sync_binlog = 1
17innodb_flush_method = O_DIRECT  # 跳過 OS page cache 避免 double cache
18
19# IO capacity (NVMe)
20innodb_io_capacity = 10000
21innodb_io_capacity_max = 40000
22innodb_flush_neighbors = 0
23innodb_lru_scan_depth = 1024
24
25# Concurrency
26innodb_thread_concurrency = 0  # 0 = no limit (8.0+ 推薦)
27innodb_read_io_threads = 8
28innodb_write_io_threads = 8
29
30# 額外
31innodb_file_per_table = 1
32innodb_strict_mode = 1

跨不同 server spec、buffer_pool_size / io_capacity 隨硬體調整、其他 knob 變動小。

跟其他模組整合

跟 Replication topology

sync_binlog=1 + innodb_flush_log_at_trx_commit=1 是 durability baseline、影響 Replication Topology 的 primary durability。Semi-sync 加在這基礎上提供 跨 server durability。

跟 ProxySQL

ProxySQL connection pool 降低 MySQL connection 開銷、但 每個 connection 仍消耗 8-10 MB RAM（thread stack + session buffer）。Buffer pool 設 75% RAM 後、剩 25% 給 connection / temporary buffer / OS。Connection 太多會擠掉 buffer pool。

詳見 ProxySQL 配置。

跟 Aurora MySQL

Aurora 改寫 InnoDB storage layer、上方 knob 大多 Aurora 自動管理：

Buffer pool size：Aurora compute instance 自動配
Redo log：Aurora 自己的 distributed log、不用 innodb_log_file_size
sync_binlog / innodb_flush_log_at_trx_commit：Aurora storage layer 保證 durability、應用層 knob 影響小

Aurora user 仍可 tune innodb_buffer_pool_size 等、但操作面從 InnoDB 內部議題變成 Aurora instance class 選擇。詳見 Aurora vendor page。

跟 OSC tool

InnoDB tuning 不直接影響 OSC 工具行為、但 log file size 太小 時 gh-ost / pt-osc 寫 ghost table 容易 trigger checkpoint storm、放慢整個 schema migration。詳見 Online Schema Change Tools。

觀測 metric

SHOW STATUS LIKE + Performance Schema 提供：

Innodb_buffer_pool_read_requests / _reads → cache hit ratio = 1 - reads/read_requests、應該 > 99%
Innodb_log_waits → checkpoint pressure、應該 = 0
Innodb_log_write_requests / _writes → log buffer 效率
Innodb_rows_inserted / _updated / _read → workload 形狀
Innodb_row_lock_waits / _time → lock contention

把這些丟進 Datadog / Prometheus 透過 mysqld_exporter / Percona Monitoring 持續 trend。

MySQL Binary Log + CDC：Maxwell / Debezium 是 binlog 第二消費者

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 CDC — Maxwell / Debezium 怎麼讀 binlog 產生 event stream。

MySQL CDC 的核心定位是 binlog consumer。

這個誤解來自跟 PostgreSQL CDC（Logical Replication + Debezium）混用名詞。PG 的 logical decoding 是 MySQL 沒有的能力 — PG 有 logical event（INSERT / UPDATE / DELETE 加上欄位 metadata）、輸出格式是 logical（人可讀、schema-aware）。MySQL 的 binlog 是 physical — 紀錄的是 row 的 binary image、不帶 schema 資訊。

Maxwell / Debezium 對 MySQL 是 binlog 第二消費者：

1Primary MySQL → binlog
2              ├→ Replica 1（讀 binlog 同步）
3              ├→ Replica 2
4              └→ Maxwell / Debezium（讀 binlog 解析、發 Kafka）

跟 replica 同一份 binlog stream，並非 separate logical decoding output。這個結構決定 CDC consumer 的設計：必須 自己處理 schema（從 information_schema 拉、跟 binlog event 對齊）、必須 自己 track position（binlog file + position 或 GTID）。

Binlog format：STATEMENT / ROW / MIXED

MySQL binlog 有 3 種 format、CDC 只能用 ROW：

Format	紀錄內容	CDC 可用？
STATEMENT	原始 SQL statement	不可用（CDC 看不到實際改的 row）
ROW	每個改變的 row（before + after image）	CDC 標準
MIXED	預設 STATEMENT、特殊情況用 ROW	不推薦（CDC 行為不一致）

ROW 是 CDC 唯一選擇、production 強制：

1binlog_format = ROW
2binlog_row_image = FULL  # FULL (all columns) / MINIMAL (only changed) / NOBLOB
3log_bin_use_v1_row_events = 0  # 用新版 event format

binlog_row_image 取捨：

FULL：每個 row event 包含所有 column（before + after）、binlog 大、CDC 完整
MINIMAL：只包含 changed column + primary key、binlog 省 30-50% 空間、CDC 看不到 未變 column
NOBLOB：跟 FULL 一樣但 BLOB / TEXT column 只在 changed 時包含、平衡選擇

對 CDC 需要 full row payload（例如下游 search index 重建）必須 FULL。對 純 audit log 可以 MINIMAL。

ROW format 的 raw event 結構

Binlog ROW event 的資料形狀是 binary row image，而非 INSERT INTO orders VALUES (1, ‘foo’, 100)：

1TABLE_MAP_EVENT     - 對應 table schema metadata (table id + column type)
2                      ↓ 接續同一個 transaction 內所有 row event
3WRITE_ROWS_EVENT    - INSERT 的新 row image（column values）
4UPDATE_ROWS_EVENT   - UPDATE 的 before + after image
5DELETE_ROWS_EVENT   - DELETE 的 row image（被刪的 row）
6XID_EVENT           - transaction commit marker

CDC consumer（Maxwell / Debezium）必須：

接收 binlog event stream
看到 TABLE_MAP_EVENT 從中拿 table id → 對應 table name（cache 一份）
看到 WRITE/UPDATE/DELETE_ROWS_EVENT 用 table id 反查 schema、把 binary 解析成 column value
包成 JSON / Avro / Protobuf 推到 Kafka

關鍵：table schema 不在 binlog 內、CDC consumer 必須 獨立查 information_schema。如果 schema 變了（ALTER TABLE）、CDC 必須 invalidate cache、重新查、否則新 column 的 row event 解析錯亂。

Maxwell vs Debezium

兩個是 MySQL CDC 主流選擇、不同設計取捨：

維度	Maxwell	Debezium MySQL
開發者	Zendesk	Red Hat
語言	Java（單一 binary）	Java（Kafka Connect plugin）
部署模式	Standalone process	Kafka Connect cluster
支援 DB	MySQL only	MySQL / PostgreSQL / MongoDB / SQL Server / Oracle
Output format	JSON（內建）	JSON / Avro / Protobuf（Kafka Connect）
Producer	Kafka / Kinesis / RabbitMQ / Pub/Sub	Kafka（Kafka Connect 限制）
Schema registry	不支援	支援（Confluent Schema Registry / Apicurio）
Transformation	filter / stream-level（內建）	Single Message Transform (SMT)
Bootstrapping	一個 utility 從 `SELECT *` snapshot	Built-in snapshot mode
GTID 支援	支援	支援
簡單性	高（單一 binary）	中（Kafka Connect 框架成本）

選擇邏輯：

只用 MySQL + 想要 simple operations → Maxwell
已用 Kafka Connect、需要 schema registry、跨多種 DB → Debezium
需要 Avro / Protobuf schema 嚴格 governance → Debezium

配置 step-by-step（Debezium MySQL connector）

Debezium 是 Kafka Connect plugin、整套 stack：

 1# debezium-mysql.json - 部署到 Kafka Connect REST API
 2{
 3  "name": "orders-mysql-connector",
 4  "config": {
 5    "connector.class": "io.debezium.connector.mysql.MySqlConnector",
 6    "database.hostname": "primary.example.com",
 7    "database.port": "3306",
 8    "database.user": "debezium",
 9    "database.password": "...",
10    "database.server.id": "184054",          # 唯一 server ID (跟 MySQL replica 一樣)
11    "topic.prefix": "production",            # Debezium 2.x（舊 1.x 用 database.server.name）
12    "database.include.list": "orders_db",
13    "table.include.list": "orders_db.orders,orders_db.payments",
14
15    "database.history.kafka.bootstrap.servers": "kafka:9092",
16    "database.history.kafka.topic": "dbhistory.orders",
17    "include.schema.changes": "true",
18
19    "snapshot.mode": "initial",              # 或 schema_only / when_needed / never
20    "snapshot.locking.mode": "minimal",      # 避免 FLUSH TABLES WITH READ LOCK
21
22    "gtid.source.includes": "...",           # 可選 GTID filter
23    "tombstones.on.delete": "true",          # DELETE event 同 partition 跟一個 null tombstone
24    "decimal.handling.mode": "double"        # DECIMAL 處理: precise / string / double
25  }
26}

deploy：

1curl -X POST -H "Content-Type: application/json" \
2  --data @debezium-mysql.json \
3  http://kafka-connect:8083/connectors

Output topic：production.orders_db.orders / production.orders_db.payments 等 — 每張 table 一個 topic。

配置 step-by-step（Maxwell）

Maxwell 簡單很多：

 1maxwell \
 2  --host=primary.example.com \
 3  --user=maxwell \
 4  --password=... \
 5  --producer=kafka \
 6  --kafka.bootstrap.servers=kafka:9092 \
 7  --kafka_topic="maxwell.%{database}.%{table}" \
 8  --filter='exclude: *.*, include: orders_db.*' \
 9  --gtid_mode=true \
10  --output_ddl=true \
11  --output_xoffset=true

Maxwell event format：

 1{
 2  "database": "orders_db",
 3  "table": "orders",
 4  "type": "update",
 5  "ts": 1715000000,
 6  "xid": 12345,
 7  "commit": true,
 8  "data": { "id": 1, "status": "shipped", "amount": 100.50 },
 9  "old": { "status": "pending" }
10}

Debezium 對應的 event 格式更複雜（envelope + before + after + source + ts_ms 各 nested）、但跟 schema registry 整合好。

5 個 Production 踩雷

1. Binlog retention 太短 — CDC consumer 落後就 re-bootstrap

CDC consumer 失聯（Kafka Connect cluster down、network issue）超過 binlog retention（預設 binlog_expire_logs_seconds=2592000、30 天、但有些 production 縮短到 1 天）、需要的 binlog event 已被 purge、consumer error。

修法：

Production binlog retention >= 7 天（避免為了 disk 過度縮短）
監控 Master_Log_File 是否還在（如果 retention 設 7 天、確認當前 file 仍存在）
CDC consumer 失聯 alert 設 早於 retention 期（例如 6 天告警、給 24 小時修）
真的 missed binlog、必須 re-snapshot table（用 Debezium snapshot.new.tables）— 24 小時級工作

2. DDL event 處理 — schema change 跟 row event 對齊

ALTER TABLE orders ADD COLUMN status VARCHAR(20) 之後、UPDATE_ROWS_EVENT 多一個 column。CDC consumer 如果還用舊 schema cache、解析 row 時欄位數對不上、event 丟。

修法（Debezium）：

include.schema.changes=true：DDL 進獨立 topic、consumer 監聽更新自己的 schema cache
database.history.kafka.topic：Debezium 自己 track schema 歷史

修法（Maxwell）：

--output_ddl=true：DDL 也進 stream、downstream 看到 DDL event 自己更新
沒有內建 schema history、要 application 層處理

修法（兩者通用）：

用 Online Schema Change Tools 取代直接 ALTER — 工具操作的 DDL 對 CDC consumer 更可預期
Schema 改動 優先 add column 為 nullable、避免 backfill 期間 CDC consumer 看到 mid-state

3. `binlog_row_image=MINIMAL` 讓下游錯亂

MINIMAL 省 binlog 空間、但 row event 只含 changed column。下游 search index 重建 需要 full row payload 的場景下、MINIMAL 看不到未變的 column、index 缺欄位。

修法：

CDC 需要 full payload 的場景 必須 FULL、這項成本要納入容量規劃
如果空間真緊、考慮 NOBLOB（BLOB / TEXT 只在 changed 時包含、其他 column 仍 FULL）
統一設定：production 全部 server 同一 binlog_row_image 設定

4. Kafka producer 跟 binlog reader 速度差 — lag 累積

Binlog reader 從 MySQL 讀 1000 event/sec、Kafka producer 寫得只有 800 event/sec、CDC consumer 自身 lag 累積、最終 disk 滿（producer 內部 buffer）。

修法：

監控 CDC consumer lag：對 Debezium 看 Kafka Connect 的 source-record-poll-rate vs source-record-write-rate
Kafka producer tuning：batch.size / linger.ms / compression.type=snappy
Kafka broker capacity：partition 數量 ≥ Debezium task 數量、避免 partition 瓶頸
避免把 過多 table 給單一 Debezium connector — 用 table grouping（按 traffic 拆 connector）

5. Schema change 跟 downstream consumer 不同步

CDC producer（Debezium）正確處理了 schema change、但 downstream Kafka consumer 用舊 schema deserialize、新 column 看不到 / type 解析錯。

修法：

用 Schema Registry（Confluent / Apicurio）+ Avro：consumer 訂閱 schema、自動 evolve
不用 schema registry 時、CDC payload 設計 backward-compatible（新 column 為 optional）
Application 層 schema change protocol：Expand / Contract — 先加 column、deploy consumer 認 column、再 backfill、最後 application 寫新 column
大型 schema change 跨多服務、建議 先 freeze CDC stream、做 schema migration、resume stream（極端但確定）

容量規劃要點

元件	容量考量
MySQL binlog disk	retention × 寫吞吐 × event size（5K WPS × 1 KB × 7 天 ~= 3 GB / 天 = 21 GB）
Debezium / Maxwell process	1 vCPU + 2-4 GB RAM（per connector、視 throughput）
Kafka topic partition	每 table 1-10 partition（依寫吞吐）、保 key-based ordering
Kafka 保留期	7-30 天（讓 downstream consumer 有 recover window）
Schema Registry	< 100 MB storage、replicate 跨 3 broker

對 100K WPS server、CDC pipeline cost 大致是 MySQL infra 的 5-10%。

跟其他模組整合

跟 Replication topology

CDC 是 binlog 第二消費者、需要 GTID + binlog ROW format（Replication Topology）。Debezium / Maxwell 都偏好從 replica 讀 binlog（不增加 primary 負擔）、但要小心 replica lag 加在 CDC lag 上。

跟 OSC tool

gh-ost / pt-osc 跑 schema change 時、會在 binlog 留下大量 row event（copy 既有 row 到 ghost）。CDC consumer 看到這些 event 是 normal-looking INSERT、可能誤觸發 downstream side effect。

修法：

CDC consumer 過濾 ghost table prefix（_orders_new / _orders_gho）— 不發 downstream
或暫停 CDC 期間跑 OSC（用 Debezium pause API）

跟 PostgreSQL Logical Replication + Debezium

維度	MySQL（binlog）	PostgreSQL（logical decoding）
抽象層	Physical（row binary）	Logical（row + schema-aware）
Schema metadata	不在 event 內、要查 information_schema	在 event 內（plugin output）
DDL handling	DDL 本身是 binlog event	DDL 不在 logical decoding output（要 trigger 自己 capture）
啟用成本	binlog ROW + GTID（基本 MySQL replication setup）	logical replication slot + publication
Snapshot	`SELECT *` + binlog catchup	logical replication initial sync

詳見 PostgreSQL Logical Replication + Debezium — 這是 sibling 對照，用來區分不同 abstraction。

跟 Aurora MySQL

Aurora MySQL 5.7 / 8.0 都支援 binlog + GTID、CDC 可用。但 Aurora 推薦走 Aurora-native database activity streams（不同 abstraction）— 跟 Debezium 共存但有 overlapping。生產上 Debezium 仍是 cross-cloud 跟 vendor-neutral 選項、優先用 Debezium。

詳見 Aurora vendor page。

Production case：Shopify sharded MySQL CDC

Sharded MySQL CDC 的核心責任是把多個 shard 的 binlog 轉成可消費、可回放、可觀測的事件流。Shopify Debezium CDC over sharded MySQL 提供的工程訊號是 100+ shard、約 150 個 Debezium connector、BFCM 期間 100K records/sec，以及 snapshot lock 與 oversized payload 對 CDC pipeline 的壓力。

這個案例要回收到三個操作判準。第一，connector 數量應跟 shard 拓撲一起設計，避免單一 connector 變成跨 shard bottleneck。第二，snapshot window 要排進 schema migration 與 event consumer 的變更計畫，避免 initial snapshot 把 production read path 壓滿。第三，oversized payload 要在 schema / outbox / topic 分流階段處理，避免 Kafka partition 與 downstream consumer 同時承受大訊息。

Shopify 案例的下一步路由是把本篇和 Database Sharding 一起讀。若讀者關心 broker 層的 partition、consumer lag 與 replay 策略，接到 Kafka vendor；若關心資料庫端壓力，回到 Replication Topology 與 Online Schema Change Tools。

MySQL Vitess Sharding：VTGate / VTTablet / VReplication / VSchema 四件套協作

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 Vitess sharding — 4 個 component 協作的完整 sharding 系統。

問題情境：MySQL 寫吞吐撞上 single primary 上限

MySQL primary 單機極限大致 50K-100K WPS（依 schema / hardware）。超過這個級別、選項三條：

Application 層 sharding：每張 table 自己決定怎麼分片、application 寫 routing logic、跨 shard query / migration 都要自己處理
Vitess：proxy layer 自動 routing、cross-shard query 可選自動 split、resharding 自動化
Distributed SQL（CockroachDB / Spanner / Aurora DSQL）：跟 MySQL 不同 engine、application 改 driver

選 Vitess 的核心 driver：保留 MySQL wire protocol + 應用層幾乎不必改 + 透明分片。代價是 4 個 component 的 operational complexity — Vitess 的責任範圍是完整分散式系統，而非單純 proxy。

閱讀本文前可先對齊 Database Sharding 的 shard key、routing、resharding 與 cross-shard query 語意；容量失衡時再接 Hot Partition。

Vitess 四件套：每個 component 的責任

 1                        ┌─────────────────┐
 2   Application ────→    │     VTGate      │  ← 對外 MySQL wire protocol
 3                        │  (proxy + parse + route + aggregate)  │
 4                        └────┬─────┬──────┘
 5                             │     │
 6                ┌────────────┘     └──────────────┐
 7                ▼                                 ▼
 8        ┌──────────────┐                  ┌──────────────┐
 9        │   VTTablet   │                  │   VTTablet   │
10        │ (per-MySQL   │                  │ (per-MySQL   │
11        │  sidecar)    │                  │  sidecar)    │
12        └─────┬────────┘                  └─────┬────────┘
13              │                                 │
14              ▼                                 ▼
15        ┌──────────────┐                  ┌──────────────┐
16        │    MySQL     │                  │    MySQL     │
17        │  (Shard -80) │                  │  (Shard 80-) │
18        └──────────────┘                  └──────────────┘
19
20   Topology Service (etcd / Consul / ZooKeeper)
21   ↑↓ 所有 component 共享 metadata
22   VSchema：keyspace 結構、shard 範圍、Vindex 定義

VTGate — query routing layer

對 application 看起來像 MySQL（同樣 port、同樣 wire protocol、同樣 query 語法）、實際是 stateless proxy。每個 query VTGate：

Parse SQL → 找出 routing key（從 WHERE column 拿）
查 VSchema → 計算 routing key 對應的 shard
把 query 送該 shard 的 VTTablet
等 response、aggregate（如果是 cross-shard query）、回 application

Stateless 設計 → VTGate 可以隨意 scale、放 N 個前面接 LB。多數 production 部署 3-10 個 VTGate per region。

VTTablet — per-MySQL agent

每個 MySQL instance 旁邊都跑一個 VTTablet。VTTablet 責任：

把 MySQL primary 標記、上報給 topology
接 VTGate 的 query、轉發給 local MySQL
跑 connection pool（VTGate 跟 VTTablet 之間少量連線、VTTablet 跟 local MySQL 共享 connection）
跑 query plan cache / transactional consistency check
處理 online schema change（Vitess 內建 OSC）
跟 VTOrc（fork of Orchestrator）配合做 failover

VTTablet 是 Vitess 跟 MySQL 唯一連接點 — 沒 VTTablet 直接連 MySQL 不在 Vitess 管理下。

VReplication — 跨 shard 資料移動

VReplication 是 Vitess 跨 shard / 跨 keyspace / 跨 cluster 資料移動引擎、底層用 MySQL binlog。用途：

Resharding：把 shard -80 拆成 -40 + 40-80、VReplication 自動拆 binlog event 對應 shard
Materialized view：cross-shard aggregation 預計算
MoveTables：跨 keyspace 移 table（schema-level migration）
VStream：CDC、binlog event 對外輸出（可接 Kafka / Debezium）

VReplication 的主要使用者是 Vitess operator，它和 application 行為直接相關（resharding 期間有 write split 行為）。

VSchema — sharding metadata

VSchema 是 keyspace 內 哪張 table 怎麼 shard 的定義、JSON 格式存 topology service。例子：

 1{
 2  "sharded": true,
 3  "vindexes": {
 4    "hash": {
 5      "type": "hash"
 6    }
 7  },
 8  "tables": {
 9    "orders": {
10      "column_vindexes": [
11        {
12          "column": "user_id",
13          "name": "hash"
14        }
15      ]
16    },
17    "users": {
18      "column_vindexes": [
19        {
20          "column": "user_id",
21          "name": "hash"
22        }
23      ]
24    }
25  }
26}

orders.user_id 跟 users.user_id 用同一個 Vindex（hash）+ 同一個 column → 同 user_id 的 orders + users 落在同 shard、可以 JOIN 不跨 shard。

Vindex：Vitess 的 sharding function

Vindex 是 Vitess 的 shard key 計算函數。內建多種：

Vindex 類型	計算方式	適用
`hash`	3DES-based null hash（非 MD5）→ 對應 shard range	預設、均勻分布、適合 primary key
`binary_md5`	MD5(binary)	binary key
`unicode_loose_xxhash`	xxHash on lowercased unicode	string key
`numeric`	直接 numeric value	連續 numeric range（適合 time-based）
`numeric_static_map`	預定義 map	國家 code / region 等少 enum
`lookup_hash`	透過 lookup table 查 shard	多個 column 都要 shard、需要二級 index

最常用：hash（primary key）+ lookup_hash（secondary access pattern）。

Keyspace / Shard / Tablet 階層

 1Keyspace (邏輯 database)
 2   └── Shards
 3        ├── -80 (shard range 0-128)
 4        │     ├── Primary tablet (1 MySQL primary)
 5        │     ├── Replica tablet × 2
 6        │     └── RDOnly tablet × 1 (analytics)
 7        └── 80- (shard range 128-256)
 8              ├── Primary tablet
 9              ├── Replica tablet × 2
10              └── RDOnly tablet × 1

Shard range 用 binary hex prefix（-80 表示 0 到 0x80、80- 表示 0x80 到 max）— 給 resharding 留 split 餘地（-80 可切成 -40 + 40-80）。

Tablet type：

Primary：寫入入口
Replica：read traffic（Vitess query rules 控制）
RDOnly：純 analytics / backup / VReplication source、低 SLA、不上 production read traffic

配置 step-by-step（local cluster）

Production 通常用 Kubernetes operator（vitess-operator）部署、但理解概念用 local cluster 最快：

 1# 用 vtctldclient 操作（替代舊的 vtctlclient）
 2
 3# 1. 建 unsharded keyspace
 4vtctldclient CreateKeyspace --durability-policy=semi_sync commerce
 5
 6# 2. 從一個 MySQL primary 開始（unsharded）
 7vtctldclient ApplySchema --sql="CREATE TABLE orders (id INT PRIMARY KEY, user_id INT)" commerce
 8
 9# 3. 把 keyspace 改成 sharded、定義 VSchema
10vtctldclient ApplyVSchema --vschema='{
11  "sharded": true,
12  "vindexes": {"hash": {"type": "hash"}},
13  "tables": {
14    "orders": {
15      "column_vindexes": [{"column": "user_id", "name": "hash"}]
16    }
17  }
18}' commerce
19
20# 4. 觸發 resharding：unsharded → 2 shards (-80, 80-)
21vtctldclient Reshard --workflow=initial-shard create \
22  --source-shards="commerce/0" \
23  --target-shards="commerce/-80,commerce/80-"
24
25# 5. 等資料 copy 完（VReplication 跑）
26vtctldclient Workflow --keyspace=commerce show initial-shard
27
28# 6. SwitchTraffic：先切 RDOnly → 再切 Replica → 最後切 Primary
29vtctldclient Reshard --workflow=initial-shard switchtraffic \
30  --tablet-types="rdonly,replica"
31vtctldclient Reshard --workflow=initial-shard switchtraffic \
32  --tablet-types="primary"
33
34# 7. 完成、cleanup old shard
35vtctldclient Reshard --workflow=initial-shard complete

實際 production 走 Vitess Kubernetes operator、用 VitessCluster CRD 宣告 desired state、operator 自動操作上面這些 step。

5 個 Production 踩雷

1. Cross-shard transaction — Vitess 不支援 atomic（預設）

兩個 user 的 order 在不同 shard、BEGIN; UPDATE orders WHERE user_id=1; UPDATE orders WHERE user_id=2; COMMIT; 跨兩個 shard。Vitess 預設 不保證 atomic — 兩個 shard 各自 commit、可能一個成功一個失敗、application 看到 partial state。

修法：

避免 cross-shard transaction：schema design 讓 transaction boundary 落在單一 shard 內
啟用 atomic 2-phase commit（Vitess transaction_mode=TWOPC、實驗性、performance penalty 大）
大規模需要 atomic 的場景應該換 distributed SQL（CockroachDB / Spanner），讓資料庫層承擔跨節點一致性

2. VStream lag — Resharding 期間 CDC 落後

Resharding 過程 VReplication 大量寫 binlog event、application 本來在用 的 VStream（接 Kafka 等）共享同 binlog stream、可能 lag。Downstream consumer 看到 stale data 1-2 小時。

修法：

Resharding 期間 暫停非關鍵 VStream（analytics ETL 可暫停、real-time recommendation 需要保留）
確認 binlog disk capacity > resharding 期間預估 binlog 量 × 2（buffer）
Resharding 完成後 手動驗證 VStream offset 已 catch up，把驗證結果留成 cutover evidence

3. Vindex 不均勻 — Hot shard

Vindex 預設 hash 對 primary key 均勻分布、但對 natural key（country / region / company_id 等）可能不均勻。10 個 country、其中 1 個 country 佔 80% traffic、單一 shard 永遠 hot。

修法：

Composite Vindex：combine country + user_id 兩 column 作為 shard key、user-level 仍均勻
Synthetic shard key：application 層加 sharding_key=hash(actual_key) % N、控制分布
監控 per-shard QPS：vtctldclient ShowVDiff + Prometheus exporter
Hot shard 出現後 Vitess 可以 resharding 解（split hot shard 為 2 個小 shard）、但工作量大

4. Resharding 切流量瞬間 deadlock

Resharding 最後的 SwitchTraffic 切 primary 階段、舊 shard 仍接 write、Vitess 切 routing、Application 一瞬間連兩個 shard、相同 user_id 寫入可能跑兩邊、deadlock 或 lost update。

修法：

SwitchTraffic 用 ReverseTraffic 預備：先 switch、確認問題後可 reverse 回去
切流量 只在 known quiet period（夜間 / 週末早上）
VTGate --retry-count=2 + --track-vtgate-deadlock-events：deadlock 自動 retry、不暴露給 application
真的失敗用 Reshard cancel 回 old state，讓 workflow 回到可驗證狀態

5. VReplication workflow 卡住 — cancel 前需要保護狀態

VReplication workflow 跑到 50% 但 某個 row 解析錯誤（schema mismatch / blob 大小超過 limit）、workflow stuck、進度條卡住、無 timeout。整個 resharding flow halt。

修法：

平時跑 staging 資料 dry-run、發現 schema 跟 blob 邊界問題
Workflow 卡住時 vtctldclient Workflow show 看 last_message / row_state
手動修問題 row（直接 MySQL 改）後 resume workflow
大 cluster 建議 VReplication 跑前先 SchemaApply audit、確認 source / target schema 兼容

Vitess 跟自管 sharding 對照

維度	Vitess	Application-level sharding
Application 改動	幾乎不必（保留 MySQL wire）	大改（routing logic 寫 application）
Cross-shard query	VTGate 自動 split（受限）	Application 自己處理
Resharding	VReplication 自動	手寫腳本、操作複雜
Online schema change	Vitess 內建（VReplication-based）	用 gh-ost / pt-osc
Failover	VTOrc 整合	自管 Orchestrator
Operational cost	高（4 component 要懂）	中（fewer abstractions、但 application logic 多）
Cross-keyspace 共用 vindex	內建（lookup_hash 跨 keyspace）	自寫

Vitess 的 operational complexity 是它的代價。10-20 人 SRE 團隊撐得住、5 人團隊用 managed Vitess（PlanetScale） 更實際。

跟其他模組整合

跟 Replication topology

Vitess shard 內部仍用 MySQL replication（Replication Topology）— 每個 shard 有 primary + replica + rdonly。Vitess durability-policy 控制 primary 寫入是否等 replica ack（semi-sync）。

跟 OSC tool

Vitess 不用 gh-ost / pt-osc、用 VReplication-based online DDL。Vitess online DDL：

1vtctldclient ApplySchema --strategy=vitess \
2  --sql="ALTER TABLE orders ADD COLUMN status VARCHAR(20)" commerce

詳見 Online Schema Change Tools。

跟 ProxySQL

Vitess 取代 ProxySQL。VTGate 本身做 connection pool + query routing、不再需要 ProxySQL。混用會造成 routing 衝突（VTGate 期待自己決定 shard、ProxySQL 跟 VTGate 競爭）。詳見 ProxySQL 配置。

跟 Orchestrator

Vitess 用 VTOrc（fork of Orchestrator）作 failover、跟 Vitess topology metadata 整合。不用獨立 Orchestrator。詳見 Orchestrator failover 設計。

跟 PlanetScale（managed Vitess）

PlanetScale 是 Vitess managed service、隱藏 4 component operational complexity、加 branch-based schema workflow。詳見 PlanetScale migration playbook。

跟 Aurora MySQL

Aurora 跟 Vitess 是 不同 scale 路徑：

Aurora：single-region scaling（storage / compute 分離、最高 ~128 TB）
Vitess：horizontal sharding（無上限、靠加 shard scaling）

兩者承擔的容量與操作責任不同。超過 Aurora single-region 上限的場景才考慮 Vitess。詳見 Aurora vendor page。

Production case：YouTube / Vitess

Vitess 的 production 責任是把 MySQL shard 拓撲變成應用可查詢、可遷移、可操作的資料庫層。YouTube / Vitess 的公開歷史提供的工程訊號是 VTGate、VTTablet、VReplication 與 VSchema 這組元件分工：application query 進 VTGate、tablet 層包住 MySQL、VSchema 描述 routing / sharding 規則、VReplication 支援 resharding 與資料搬移。

這個案例要回收到三個操作判準。第一，Vitess 是一套 database control plane，而非單一 proxy；導入時要把 topology service、tablet lifecycle、backup、failover 與 schema workflow 一起納入 ownership。第二，VSchema 是 application contract，shard key、lookup vindex 與 cross-shard query 都會影響產品功能設計。第三，VReplication 讓 resharding 可操作，但它仍需要 capacity window、backfill 監控與 cutover plan。

Vitess 的 sibling 路由是 PostgreSQL Citus Distributed 與 1.11 全球分散式 OLTP。Citus 保留 PostgreSQL 生態並用 coordinator / worker 拆分資料；CockroachDB / Spanner 則用 distributed SQL 重新定義交易與一致性邊界。選型時要先判斷自己是在延伸 MySQL 投資，還是在重新選 global OLTP model。

何時用 Vitess

條件	評估
流量 > 50K WPS、單 primary 撐不住	是 Vitess scope
已有大量 MySQL 投資、不想換 distributed SQL	是
有 5-10 人 SRE / DBA 團隊	是
流量 < 10K WPS	否（過度設計、用單 MySQL + replica）
5 人團隊、不想養 DBA	否（用 PlanetScale managed）
必須 multi-region 強一致 transaction	否（CockroachDB / Spanner 才對）
需要複雜 cross-shard analytics	否（搭配 BigQuery / Snowflake）

MySQL 8.0 Modern SQL：CTE / window function / JSON_TABLE 不是「終於跟上 PG」、是進入 SQL 工程深度的入場券

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 8.0 modern SQL 特性 — 5 個關鍵能力 + 跟 PostgreSQL 對應特性的對比。

「MySQL 是 SQL 簡單版」是個過時觀念。

這個觀念的來源很合理：MySQL 5.x 時代沒 CTE、window function 要嗑 hack、recursive query 寫不出來、JSON 處理是字串 substring 拼接、複雜分析 query 只能丟去 PostgreSQL 或 Snowflake。整整 10 年 SQL 進階特性 MySQL 全缺、PostgreSQL 全有。

MySQL 8.0（2018 推出）改變這件事。CTE / window function / lateral derived table / JSON_TABLE / hash join / atomic DDL / role-based authentication / common table expression 全部進來。這不是「終於跟上 PG」、是 MySQL 第一次有資格進入 SQL 工程深度討論。但有 caveats：每個特性的 行為實現 跟 PostgreSQL 對應特性都有 微妙差異、不能假設 PG 經驗直接套用。

對從 PostgreSQL 過來評估 MySQL 的讀者：本文是 特性對等驗證 — 哪些 8.0 特性真的可以 production 用、哪些是 marketing 但實作有 gap。對既有 MySQL 5.7 user：本文是 upgrade 5.7 → 8.0 的具體 ROI — 從 SQL feature 角度看升級值不值得。

5 個關鍵特性 + PG 對比

特性 1：CTE（Common Table Expression）

MySQL 8.0 / PG 8.4+ 都支援。

 1-- MySQL 8.0 + PG 都 OK
 2WITH order_summary AS (
 3    SELECT user_id, SUM(amount) AS total
 4    FROM orders
 5    WHERE created_at > '2026-01-01'
 6    GROUP BY user_id
 7)
 8SELECT u.name, os.total
 9FROM users u JOIN order_summary os ON u.id = os.user_id
10WHERE os.total > 1000;

行為差異：

MySQL 8.0：CTE 不 materialize 為預設、optimizer 把 CTE 視為 inlined subquery、CTE 引用兩次以上會 重複計算
PostgreSQL（< 12）：CTE fence by default（materialize barrier）、optimizer 不 push predicate 進 CTE
PostgreSQL（12+）：CTE 行為跟 MySQL 接近、有 MATERIALIZED / NOT MATERIALIZED keyword 明示

對 PG 12+ user：可以套 MySQL 經驗。對 PG 11 以下 user：CTE 行為跟 MySQL 不一樣、要重看 query plan。

Recursive CTE：

1WITH RECURSIVE org_chart AS (
2    SELECT id, name, manager_id, 0 AS depth
3    FROM employees WHERE manager_id IS NULL
4    UNION ALL
5    SELECT e.id, e.name, e.manager_id, oc.depth + 1
6    FROM employees e JOIN org_chart oc ON e.manager_id = oc.id
7)
8SELECT * FROM org_chart WHERE depth <= 10;

兩家都支援、但 MySQL 8.0 有 深度上限（cte_max_recursion_depth=1000、預設 1000、PG 預設 unlimited）。複雜 hierarchical query（深度 > 1000）MySQL 需要顯式提高 limit。

特性 2：Window Function

MySQL 8.0 / PG 8.4+ 都支援、語法同 SQL standard。

1SELECT
2    order_id,
3    user_id,
4    amount,
5    SUM(amount) OVER (PARTITION BY user_id ORDER BY created_at) AS running_total,
6    RANK() OVER (PARTITION BY user_id ORDER BY amount DESC) AS rank_in_user
7FROM orders;

行為差異：

執行 plan：MySQL 8.0 用 window iterator、單 partition 內 sort、外加 in-memory window buffer。PostgreSQL 有更成熟的 WindowAgg node、複雜 frame spec 處理更好
Frame spec 支援度：兩家都支援 ROWS / RANGE / GROUPS、但 GROUPS frame MySQL 是 8.0.16+ 才補進、PG 11+ 才補
大資料量 spill behavior：MySQL window function 超過 sort_buffer_size（預設 256K）會 spill 到 disk、Performance 雪崩。PG 用 work_mem（預設 4MB）、寬裕些但也會 spill

對長期用 PG window function 寫複雜 reporting query 的 user：MySQL 8.0 可以做、但 效能 tune 工作量大、不是 drop-in。

特性 3：JSON_TABLE（PG 主要賣點對比）

這是 user 點到的對比重點。

MySQL 8.0 的 JSON_TABLE：

 1SELECT t.id, j.name, j.price
 2FROM products t,
 3     JSON_TABLE(
 4         t.metadata,
 5         '$.variants[*]' COLUMNS (
 6             name VARCHAR(50) PATH '$.name',
 7             price DECIMAL(10,2) PATH '$.price'
 8         )
 9     ) AS j
10WHERE t.category = 'shoes';

JSON_TABLE 把 JSON document 內的 array element 展開成 relational rows、然後可以 JOIN / WHERE / GROUP BY。SQL:2016 standard 規範。

PostgreSQL 對應：

PG 17+ 有 JSON_TABLE（SQL:2016 standard、跟 MySQL 同語法）、但歷史上 PG user 用兩條不同路線：

JSONB operator（PG 9.4+）：

1SELECT id, metadata->'variants' AS variants
2FROM products
3WHERE metadata @> '{"category": "shoes"}';

jsonb_path_query（PG 12+）：

1SELECT t.id, v.name, v.price
2FROM products t,
3     jsonb_path_query(t.metadata, '$.variants[*]') AS v;

核心差異：

維度	MySQL JSON_TABLE	PG JSONB operator	PG jsonb_path_query
Index	必須對 JSON column 建 generated column + 一般 index、不能直接 GIN index JSON path	GIN index 直接 over JSONB（業界唯一）	可以走 GIN expression index
Storage	JSON column = LONGTEXT 包裝	JSONB = binary、壓縮、index 友善	同左
Query 效率（複雜 path）	中等（需要 generated column 加速）	高（GIN index 直接）	高
SQL standard 對齊	高（JSON_TABLE 是 standard）	低（JSONB operator 是 PG 專有）	中（jsonpath 是 standard）
大 JSON（> 1 MB）	LONGTEXT 仍可、但 query 慢	JSONB 壓縮 + 部分 read	同左

選型結論：

MySQL 是 JSON-storage 角色（document 順手存進關聯 DB）：JSON_TABLE 夠用、配 generated column + index、production-ready
MySQL 是 document-heavy workload（大量 JSON-driven query / 複雜 path / 高 selectivity）：PG JSONB GIN index 仍是 clearly winner、或直接用 MongoDB
MySQL 8.0 JSON 不是 PG JSONB 替代：JSON_TABLE 是 SQL standard 對齊、好 portable、但 index 跟 storage 仍弱

對「JSON 是 PG 主要賣點」的判斷：JSONB binary storage + GIN index 是 PG 在 JSON workload 的 結構性優勢、MySQL 8.0 補了 SQL_TABLE 但 index 那層沒補。8.0 後 JSON 議題 不是 deal-breaker for MySQL（不像 5.7 時代直接 disqualify）、但仍不是 MySQL 主場。

特性 4：Lateral Derived Table

MySQL 8.0.14+ / PG 9.3+ 都支援。

1-- 對每個 user、找他最近 5 個 order
2SELECT u.id, recent.*
3FROM users u
4LEFT JOIN LATERAL (
5    SELECT order_id, amount
6    FROM orders o
7    WHERE o.user_id = u.id
8    ORDER BY created_at DESC LIMIT 5
9) recent ON true;

Lateral 讓 subquery 可以 引用外部 reference column（u.id）、不可能用 plain subquery 寫出來。

行為差異：

MySQL 8.0：lateral 後加、optimizer plan 仍在演進、複雜 lateral query 可能 plan 次優
PostgreSQL：lateral 早就成熟、plan 跟 join 直接 fuse、效率高

對 PG-experienced 使用 lateral 寫 reporting query 的 user：MySQL 8.0 可以、但有時候要 hint optimizer 達到最佳 plan。

特性 5：Hash Join

MySQL 8.0.18+ / PG 早已有。

MySQL 8.0 之前：只有 nested loop join、大表 JOIN 完全失控（n × m row scan）。8.0.18 加 hash join、optimizer 在預估 row count 大時自動切。

注意：MySQL 8.0 hash join 預設 不對所有 join 開、只在 optimizer_switch='hash_join=on' 且 join condition 是 equality on indexed column 時觸發。常見錯估：複雜 join 條件不觸發 hash join、optimizer fallback nested loop、query 永遠跑不完。

PG 對應：PG 一直有 hash join、optimizer 預設 cover 廣、且有 parallel hash join（PG 11+）大表 JOIN 並行加速。

MySQL hash join 是補洞、不是 並肩特性。複雜 OLAP query MySQL 仍弱於 PG。

其他 8.0 特性（一句話帶過）

Atomic DDL：CREATE TABLE / DROP / ALTER 變 transactional、crash recovery 不會留 orphan table（PG 早就 atomic）
Role-based authentication：role 取代 group-level grant、user 可繼承 role（PG 早就 role 系統）
CHECK constraint enforcement：5.7 可寫但不執行、8.0 真的 enforce（PG 一直執行）
invisible index：建 index 但 optimizer 暫不用、適合 staging query plan 測試（PG 沒原生對應）
Resource Group：query 跑時可分配 CPU thread 給特定 user group（PG 沒原生對應）
Generated column：MySQL 5.7 已有、8.0 強化、可作為 JSON path 加速的 workaround

配置 step-by-step（從 5.7 → 8.0 SQL feature 升級）

如果已經是 8.0、所有特性都可以用、不必額外配置。如果是 5.7 → 8.0、需要：

character_set_server=utf8mb4：8.0 預設 utf8mb4（5.7 預設 latin1）、character set 不一致導致 query 行為微差
default_authentication_plugin=mysql_native_password：8.0 預設 caching_sha2_password、舊 client 連不上、cluster upgrade 期間用 native_password 保兼容
optimizer_switch='hash_join=on'：確認 hash join 啟用、預設應該已 ON
cte_max_recursion_depth=10000：複雜 recursive CTE 需要時提高
重新 review 所有 ORM-generated SQL：8.0 keywords 變多（WINDOW、RANK、LATERAL 等變成 reserved word）、5.7 識別碼可能變 syntax error

5 個 Production 踩雷

1. CTE 引用兩次 = 跑兩次

1WITH expensive AS (SELECT ... heavy aggregation ...)
2SELECT * FROM expensive WHERE ...
3UNION ALL
4SELECT * FROM expensive WHERE other_condition;

預期 CTE 跑一次、實際 MySQL 跑兩次。Query 時間 doubled。

修法：

把 CTE 結果先 INSERT 進 temporary table、SELECT 兩次走 temp table（手動 materialize）
或 PG 用 MATERIALIZED keyword（MySQL 沒對應 hint、要手動 temp table）

2. Window function 大 partition spill 到 disk

1SELECT order_id,
2       SUM(amount) OVER (PARTITION BY user_id ORDER BY created_at)
3FROM orders;  -- 1 億 row

sort_buffer_size=256K 預設、單 partition > 256K row 開始 spill disk、執行從秒級變分鐘級。

修法：

提高 sort_buffer_size（per-connection、不要設太大、connection × buffer 會吃 RAM）
加 INDEX 包含 user_id, created_at、optimizer 可直接用 sorted index、不必額外 sort

3. JSON_TABLE 跟 generated column 取捨錯誤

直接 JSON_TABLE on every query：

1SELECT * FROM products,
2JSON_TABLE(metadata, '$.variants[*]' COLUMNS (...));

每次 query 跑 JSON parse、無 index 加速、大表 query 慢。

修法：

對 常 query 的 JSON path 建 generated column：

1ALTER TABLE products
2ADD COLUMN category VARCHAR(50)
3GENERATED ALWAYS AS (JSON_UNQUOTE(metadata->'$.category')) STORED,
4ADD INDEX idx_category (category);

JSON_TABLE 用於 ad-hoc query、不要當熱 path
跟 PG JSONB GIN 對比：PG 不必預先建 generated column、GIN index 直接 over JSONB

4. Hash join 沒觸發 — Optimizer 預估錯 row count

JOIN 大表預期 hash join、實際 MySQL 跑 nested loop、query 跑不完。常見原因：

Table statistics 過時（沒跑 ANALYZE TABLE）
Join condition 不是 pure equality（a.id = b.id + 1 等）
一邊有 LIMIT、optimizer 估 small set、選 nested loop

修法：

跑 ANALYZE TABLE 更新 statistics
用 EXPLAIN ANALYZE 看實際 row count vs 估計
用 optimizer_hint（如 /*+ HASH_JOIN(t1 t2) */）強制

5. Recursive CTE 深度上限 — Production query 突然 fail

cte_max_recursion_depth=1000 預設、organization hierarchy / tree query 超過 1000 層直接 fail（ER_CTE_MAX_RECURSION_DEPTH_EXCEEDED）。

修法：

評估真實 hierarchy 深度、設 cte_max_recursion_depth=10000 或更高
或 query 加 WHERE depth < N 提前停（不依賴 implicit limit）
對極大 hierarchy（社群 follow graph 等）改用 graph DB（Neo4j）— MySQL recursive CTE 不是 graph workload 主場

MySQL 8.0 vs PG SQL 特性 cross-reference

特性	MySQL 8.0	PostgreSQL	差異
CTE	8.0+	8.4+	PG 2009 即支援、MySQL 2018 才支援、約晚 9 年
Recursive CTE	8.0+（depth 限）	8.4+（unlimited）	PG 無深度上限
Window function	8.0+	8.4+	Frame spec 兩家略不同（GROUPS frame 推出時點）
Lateral	8.0.14+	9.3+	PG plan 較成熟
JSON_TABLE	8.0+	17+	MySQL 早 6 年（SQL:2016 standard）
JSONB index	無原生	GIN index over JSONB	PG 結構優勢
Hash join	8.0.18+	早	PG parallel hash join
Atomic DDL	8.0+	早	PG 一直 atomic
Common keyword	補齊	完整	-
Role-based auth	8.0+	早	-
Materialized view	無原生	9.3+	PG 結構優勢（MySQL 用 trigger / scheduled refresh 模擬）
Partial index	無	早	PG 結構優勢
Expression index	8.0.13+	早	MySQL 後加
Full-text search	內建（InnoDB 5.6+）	內建（tsvector）	PG full-text 更成熟
Foreign data wrapper	無原生	早（FDW）	PG 結構優勢

8.0 補了 語法層 大部分缺漏、storage / index / extensibility 層 仍是 PG 結構優勢。對「先選 SQL 工程深度」的 org、PG 仍領先；對「先選 ecosystem / replication / sharding」的 org、MySQL 已不是 disqualifier。

跟其他模組整合

跟 InnoDB Tuning

JSON column 在 InnoDB 是 LONGTEXT 包裝、大 JSON 進 off-page storage（innodb_default_row_format=DYNAMIC 才行、Antelope format 不支援）。Buffer pool 對 LONGTEXT 較不友善、大 JSON workload 可能要更大 buffer pool。詳見 InnoDB Tuning。

跟 Query Optimization

8.0 新 hash join + lateral derived 讓 EXPLAIN ANALYZE 結果更複雜。優化複雜 query 需要熟 新 plan node 類型。詳見 Query Optimization deep dive 篇（待寫）。

跟 Online Schema Change

JSON column 跟 generated column 的 schema change 走 gh-ost / pt-osc 沒問題、但 JSON 大表 ALTER 速度比一般 column 慢（每 row 重 serialize）。詳見 Online Schema Change Tools。

跟 Replication

Window function / CTE / JSON_TABLE 的 query 結果 replicate（row-level binlog 紀錄結果）、不 replicate query 本身。所以 replica apply 不會重新跑 window function、效率 OK。詳見 Replication Topology。

何時 SQL 特性是 MySQL 選型 driver

想要 SQL standard 對齊跨 vendor portable：MySQL 8.0 JSON_TABLE / window 都對齊 standard、PG 部分能力（JSONB operator）是 PG-only、portability MySQL 略好
JSON workload < 20% query：MySQL 8.0 + generated column 夠用、不必為 JSON 換 PG
JSON workload > 50% query + 複雜 path / aggregation：PG JSONB GIN 仍 winner、考慮 PG 或 MongoDB
需要 materialized view / FDW / partial index：PG 仍領先、不要因為 SQL feature parity 假設 MySQL 全 cover
既有 MySQL 投資 + SQL 工程深度上升：升 8.0 + 訓練團隊用新特性、不是換 vendor

MySQL Group Replication / InnoDB Cluster：single-primary vs multi-primary mode 對 transaction certification 的影響

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 Group Replication + InnoDB Cluster — synchronous multi-primary 的 transaction model + 部署模型。

把「Group Replication multi-primary mode」當成「multi-primary 直接線性 scale write」是常見誤解。

Single-primary 跟 multi-primary 共用同一套 GR 機制（GCE atomic broadcast + certification + applier）— 切換 mode 是 配置變更。但 性能效果 經常跟讀者預期不同：在 single-primary cluster 上加開 group_replication_single_primary_mode=OFF、預期 3 個 instance 都可以接受 write 帶來吞吐倍增、實際上每個寫入仍要全 cluster GCE broadcast + certification、寫吞吐沒爆增 / latency 飆高 / certification 衝突回退增加。

這篇 deep article 把 GR 的 certification 流程 講清楚 — 為什麼「multi-primary」聽起來像「線性 scale」、實際是「保 strong consistency 的 multi-entry」。然後展開 InnoDB Cluster（GR + MySQL Shell + MySQL Router）作為 production deployment 工具。

Group Replication 的 transaction model

GR 用 Group Communication Engine (GCE)（Paxos 變種）達成 atomic broadcast — 任何 write transaction 必須先 broadcast 到所有 member、所有 member 確認 certification pass 才 commit。

每個 transaction 的 GR lifecycle：

11. Client → Member A: BEGIN; UPDATE ...; COMMIT;
22. Member A: 先 local execute、收集 write_set（被改的 row + PK + transaction GTID）
33. Member A: write_set + binlog event → GCE broadcast to all members
44. GCE: Paxos consensus、所有 member 收到 broadcast、按 *相同順序*
55. Each Member: certification phase — 看 write_set 跟 *尚未 apply 的 incoming transactions* 是否有 PK 衝突
66. 若無衝突 → apply 該 transaction（local + remote member 都 apply）、回 client COMMIT OK
77. 若衝突 → certification fail、Member A 對 client 回 ERR_LOCK_DEADLOCK / GR_CONFLICT、application 必須 retry

核心結論：

Single-primary mode：只有指定 member 接受 write、其他 member 純 apply、certification 仍跑（但衝突極少、因只有一個寫入源）
Multi-primary mode：所有 member 都接受 write、certification 衝突常見、application 必須處理 conflict retry

「multi-primary 不會線性 scale write」的原因：

每個 write 仍要全 cluster GCE broadcast + certification
寫吞吐 ceiling 受 最慢 member + 網路延遲 限制（不是「N members × M throughput」）
多寫入源增加 certification 衝突機率、衝突 retry 反而拖 throughput

「multi-primary 真實價值」：

跨 region multi-active deploy（每個 region local member 接受 local write、無 cross-region write latency）— 但需求極少、多數場景 single-primary + Aurora DSQL / Spanner 更實際
零停機 maintenance（任一 member 下線、其他繼續接 write、不必 failover）— 但 single-primary mode 也提供同等 HA

對 99% production case：single-primary mode 才是正確選擇。Multi-primary 是 特殊 use case 工具、不是 預設 mode。

Group Communication Engine（GCE）

GR 內建 GCE、基於 XCom protocol（Paxos 變種）。GCE 責任：

Atomic broadcast：保證 message 到所有 member、按相同順序
Group membership：偵測 member join / leave / fail、reconfigure consensus
Network partition handling：minority partition 自動 fence（read-only）、majority 繼續服務

GCE 跟 Raft 對比：

維度	GR XCom (Paxos-like)	Raft
Leader	沒固定 leader、每個 message 選一個 sender	固定 leader、其他 follower
配置複雜度	高（cluster member 列表 + IP allowlist）	中（更易理解）
Member 數量	預設 3 (max 9)	預設 3-5
Performance	高吞吐、低延遲（不必每次選 leader）	Leader bottleneck 偶有
工程實作	XCom 在 MySQL 內部、不暴露 API	etcd / Consul / TiKV 等獨立工具

GR 的設計取捨：緊耦合 MySQL（不必外部 DCS）、Paxos-like consensus（不像 Raft 那麼簡單但效率更高）。trade-off 是 對 ops 的 transparency 較低 — XCom 內部行為對 DBA 是 black box。

InnoDB Cluster：GR + MySQL Shell + MySQL Router

純 GR 是 底層 replication mechanism、要組成 production deployment 需要：

MySQL Shell (mysqlsh)：CLI 工具、提供 dba.createCluster() / cluster.addInstance() 等 cluster 管理 API
MySQL Router：connection routing layer、自動發現 cluster topology、寫入 routing 給 primary、讀取 routing replica
MySQL Group Replication plugin：在每個 MySQL instance 啟用

InnoDB Cluster = GR + Shell + Router、是 Oracle 推薦的 production GR deployment 方式。

起始部署（3 member single-primary cluster）

 1# Step 1: 在每個 instance 啟 GR plugin + 配 my.cnf
 2[mysqld]
 3server_id = 1                          # 各 instance 不同
 4gtid_mode = ON
 5enforce_gtid_consistency = ON
 6log_bin = mysql-bin
 7binlog_format = ROW
 8master_info_repository = TABLE
 9relay_log_info_repository = TABLE
10transaction_write_set_extraction = XXHASH64
11plugin_load_add = 'group_replication.so'
12
13group_replication_group_name = "aaaaaaaa-bbbb-cccc-dddd-eeeeeeeeeeee"
14group_replication_start_on_boot = OFF
15group_replication_local_address = "node1.example.com:33061"
16group_replication_group_seeds = "node1:33061,node2:33061,node3:33061"
17group_replication_bootstrap_group = OFF
18group_replication_single_primary_mode = ON       # 99% 場景用 ON
19group_replication_enforce_update_everywhere_checks = OFF
20
21# Step 2: 用 MySQL Shell 從第一個 member bootstrap cluster
22mysqlsh --user=root --host=node1.example.com
23> dba.configureInstance('root@node1:3306')
24> var cluster = dba.createCluster('prodCluster')
25> cluster.addInstance('root@node2:3306')
26> cluster.addInstance('root@node3:3306')
27> cluster.status()  # 應該顯示 3 member、1 PRIMARY + 2 SECONDARY
28
29# Step 3: 部署 MySQL Router
30mysqlrouter --bootstrap root@node1:3306 --directory /etc/mysql-router --user=mysqlrouter
31systemctl start mysql-router
32
33# 完成 — application 連 mysql-router:6446 (R/W) 或 :6447 (R/O)

Application 連 Router、Router 自動發現 cluster topology + 自動 failover routing。Application 不必知道哪個 instance 是 primary。

5 個 Production 踩雷

1. Certification lag — Multi-primary 模式 retry storm

Multi-primary mode 下、3 個 instance 同時收到 相同 row 的 conflicting write、certification 階段必有 N-1 個 transaction 被退回。Application 看到 ER_GR_CONFLICT_TRANSACTION_ABORTED、retry、若不智能 retry（exponential backoff）會 retry storm、整個 cluster 寫吞吐暴降。

修法：

99% 場景用 single-primary mode、避開 conflict
真的需要 multi-primary：application 必須 sharding-aware（不同 entry 寫不同 row range）、本質上跟 Vitess sharding 同概念但用 GR 機制
Application retry 用 jitter exponential backoff、不直接 retry

2. Certification queue 爆炸 — Single-primary mode 仍受 cert backlog 影響

Single-primary mode 下 primary 接受 write、broadcast 到 secondary。Secondary 跟 primary network latency / 處理速度差時、cert queue 累積。Cert queue 滿 → primary write 也被卡（GR 設計：所有 member 同步前不接受新 write、保 consistency）。

修法：

監控 group_replication_member_stats view：COUNT_TRANSACTIONS_IN_QUEUE 持續 > 0 是警訊
提高 group_replication_message_cache_size（預設 1 GB）給 large transaction 緩衝
確認 所有 member 同 instance class、不要混 spec
跨 region GR：完全不推薦（network latency 殺 cert throughput）

3. Large transaction — 全 cluster 卡住

GR 必須把整個 transaction（含所有 write_set）一次 broadcast。10 GB transaction（大批量 UPDATE）必須一次塞滿 GCE buffer、cluster 內所有 member 都暫停接受新 transaction 直到 broadcast / apply 完成。常見場景：批次 archive / 大 backfill / INSERT ... SELECT 1 億 row。

修法：

group_replication_transaction_size_limit（預設 150 MB）超過直接 reject、不要設 unlimited
大批量寫入拆 chunk（每 chunk < 100 MB）、用 application 層 loop
對 archive / backfill 用 INSERT INTO archive SELECT ... LIMIT 10000 chunked、不是一個 transaction

4. Network partition — Minority partition 自動 read-only

3 member cluster、network partition 把 1 個 member 隔離。被隔離 member 是 minority、自動進入 read-only mode（不接受 write）、防 split-brain。Application 連到 minority member 寫入會失敗。

修法：

MySQL Router 自動發現 cluster topology、自動 route write 到 majority partition primary
Application 必須處理 connection error + retry（甚至 connection string 改成 Router endpoint 而非個別 instance）
監控 group_replication_primary_member UDF、確認哪個是真 primary

5. Member 加入 catch-up — 大量 binlog 阻擋 cluster service

新 member 加入 cluster（new instance / 復原 failed member）必須 catch-up — apply 從 GR cluster start 到當前所有 binlog 才能 join consensus。如果 cluster 已運作 1 個月、binlog 累積 100 GB、catch-up 可能 6-12 小時、catch-up 期間 該 member 不投票、其他 member 仍 service、但 majority 安全邊界縮小（3 → 2 member working）。

修法：

用 MySQL Shell clone plugin 直接 physical-snapshot 一個 existing member、跳過 binlog replay：
```
1> cluster.addInstance('root@node4:3306', {recoveryMethod: 'clone'})
```
Clone 期間原 member 暫不接 write traffic（用 Router temporarily 排除）
規劃 maintenance window 加 member、不要在 peak load 期間

何時用 GR / InnoDB Cluster

條件	建議
需要 zero-data-loss HA（不容忍任何 binlog gap）	GR single-primary
需要自動 failover 而不必 Orchestrator + fence script	GR / InnoDB Cluster
需要跨 region multi-active（且 conflict 可接受 / sharding-aware）	GR multi-primary
流量 < 50K WPS、無嚴格 zero-loss 需求	傳統 Orchestrator + Semi-sync 更簡單
已用 Aurora / Cloud SQL 等 managed	不用 GR、用 managed offering
需要分散式 SQL（跨 region linearizable）	Spanner / CockroachDB / Aurora DSQL（GR 不解決這個）

跟其他模組整合

跟 Replication topology

GR 取代傳統 async / semi-sync replication、不是 加在上面。啟用 GR 後不要再配 master-slave style replication。詳見 Replication Topology。

跟 Orchestrator

Orchestrator 跟 InnoDB Cluster 不該 同時用 — 兩者都會 trigger failover、會打架。GR / InnoDB Cluster 內建 failover、不需要 Orchestrator。詳見 Orchestrator Failover。

跟 ProxySQL / MySQL Router

ProxySQL 可以連 GR cluster（自動偵測 read_only flag）、但 MySQL Router 是 GR 原生的 routing layer、跟 InnoDB Cluster 緊耦合（透過 MySQL Shell metadata）。

選擇邏輯：

純 MySQL stack, 想 Oracle-supported 整套 → MySQL Router
已用 ProxySQL（包含其他非 GR cluster）+ 統一 routing → 仍用 ProxySQL

詳見 ProxySQL 配置。

跟 InnoDB Tuning

GR 對 innodb_flush_log_at_trx_commit / sync_binlog 行為更敏感 — GR 要求 binlog 必須 fsync to disk（sync_binlog=1）保 zero-loss、不能用 sync_binlog=0 換速度。詳見 InnoDB Tuning。

跟 PostgreSQL Patroni 對比

維度	InnoDB Cluster	Patroni + PostgreSQL
Consensus	GCE (Paxos-like) 內建	依賴外部 DCS (etcd / Consul)
Multi-primary	支援（但少用）	不支援（PG single-primary）
HA tooling	MySQL Shell + Router 整套	Patroni + HAProxy + pgBouncer
Setup 複雜度	中（MySQL Shell 帶很多 abstraction）	中（Patroni config + DCS）
5-year production maturity	Oracle-backed	community-driven、廣用

兩者角色相同、設計取捨不同。詳見 PostgreSQL Patroni HA。

容量規劃要點

元件	配置建議
Member 數量	3 (預設、容忍 1 failure)、5 (容忍 2 failure)
Member 間 network latency	< 5ms（同 region 同 AZ 或跨 AZ）
Network bandwidth	至少 1 Gbps、broadcast traffic 重
Transaction size limit	`group_replication_transaction_size_limit=150M`
Message cache	`group_replication_message_cache_size=1G`（預設）+ 看 lag 調
MySQL Router instance	至少 2 個（HA）、放 application 同 LB 後

Member 跨 region：不推薦。GR 對 latency 敏感、跨 region 50-200ms RTT 嚴重影響 cert throughput。multi-region 需求用 Aurora Global Database / Spanner 等專為跨 region 設計的方案。

MySQL Query Optimization：從 EXPLAIN 看到實際執行、5 條 query 從 5 秒變 50ms 的 anatomy

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 query optimization — EXPLAIN / optimizer trace / hint 三層工具跟 5 個實際 case。

5 個常見 production case

production 上 query 慢、root cause 幾乎都是 optimizer 選錯 plan。從以下 5 個 case 進入 query optimization：

Case 1：5 秒 → 50ms — JOIN 順序選錯

1-- 慢 (5 秒)：optimizer 選 customers 為 outer table、scan 全 1M row
2SELECT o.id, o.amount, c.name
3FROM orders o JOIN customers c ON o.customer_id = c.id
4WHERE o.created_at > '2026-05-01' AND c.region = 'TW';

EXPLAIN 顯示：

1+----+-------------+-------+------+---------------+--------+
2| id | select_type | table | type | possible_keys | rows   |
3+----+-------------+-------+------+---------------+--------+
4|  1 | SIMPLE      | c     | ALL  | NULL          | 1000000|
5|  1 | SIMPLE      | o     | ref  | idx_cust_id   | 100    |
6+----+-------------+-------+------+---------------+--------+

c table type=ALL（full scan）、rows=1M。問題：customers 沒在 region 上的 index、optimizer 預估「region=TW filter 沒效率、就 full scan」、但 region=TW 只佔 10% row（100K row）。

修法：

1ALTER TABLE customers ADD INDEX idx_region (region);
2ANALYZE TABLE customers;  -- 更新 statistics

加 index 後 optimizer 切 plan：先 scan customers 用 idx_region 篩 100K row、再 join orders。從 5 秒降到 50ms。

Case 2：30 秒 → 200ms — Range scan 退化 ALL

1SELECT * FROM events
2WHERE created_at BETWEEN '2026-05-01' AND '2026-05-02'
3AND user_id = 12345;

events 有 idx_user_id 跟 idx_created_at 兩個 index、optimizer 應該選一個 + 二級 filter、但實際 type=ALL（full scan）。

EXPLAIN ANALYZE 顯示：

1-> Filter: ((events.user_id = 12345) and (events.created_at between ...))  (cost=2M rows=100)
2    -> Table scan on events  (cost=2M rows=10000000)  (actual time=0.1..30s ...)

問題：optimizer estimated rows=100、實際 cardinality estimation 失準（distribution skew）、選了 ALL。

修法：

1-- 用 composite index 直接 cover 兩個條件
2ALTER TABLE events ADD INDEX idx_user_created (user_id, created_at);

Composite index 讓 optimizer 看到 單一 index 直接 satisfy 兩個 predicate、走 range scan + index condition pushdown。30 秒降到 200ms。

Case 3：8 秒 → 30ms — Subquery 沒 unnest

1SELECT * FROM orders
2WHERE customer_id IN (
3    SELECT id FROM customers WHERE region = 'TW' AND vip_level >= 3
4);

5.6 之前 MySQL 把 IN (subquery) 寫成 correlated subquery、外表每 row 都 re-run subquery、極慢。5.6+ 加 subquery unnesting、轉換成 JOIN，但某些情況 unnest 失敗。

EXPLAIN 顯示：

1+----+--------------------+-----------+-------+
2| id | select_type        | table     | type  |
3+----+--------------------+-----------+-------+
4|  1 | PRIMARY            | orders    | ALL   |
5|  2 | DEPENDENT SUBQUERY | customers | unique_subquery |
6+----+--------------------+-----------+-------+

DEPENDENT SUBQUERY 是危險訊號。修法：

1-- 手動改寫成 JOIN
2SELECT o.* FROM orders o
3JOIN customers c ON o.customer_id = c.id
4WHERE c.region = 'TW' AND c.vip_level >= 3;

或用 EXISTS（部分 case 比 IN plan 好）：

1SELECT * FROM orders o
2WHERE EXISTS (
3    SELECT 1 FROM customers c
4    WHERE c.id = o.customer_id AND c.region = 'TW' AND c.vip_level >= 3
5);

不同寫法 plan 差異需用 EXPLAIN 驗證、不能假設「JOIN 一定比 IN 快」。

Case 4：2 秒 → 100ms — Derived table 沒 materialize

1SELECT * FROM orders o
2JOIN (
3    SELECT customer_id, COUNT(*) AS order_count
4    FROM orders
5    GROUP BY customer_id
6) AS counts ON o.customer_id = counts.customer_id
7WHERE counts.order_count > 10;

5.6 之前 derived table（FROM subquery）每次 query 都 re-run、慢。5.7+ 有 derived table materialization、但 optimizer 有時不觸發。

EXPLAIN 顯示：

1+----+-------------+-------+------+
2| id | select_type | table | type |
3+----+-------------+-------+------+
4|  1 | PRIMARY     | o     | ALL  |
5|  2 | DERIVED     | orders| ALL  |  -- 沒 materialize、每次 join 都跑
6+----+-------------+-------+------+

修法：

1-- 顯式用 CTE + 改寫
2WITH counts AS (
3    SELECT customer_id, COUNT(*) AS order_count
4    FROM orders GROUP BY customer_id
5)
6SELECT o.* FROM orders o
7JOIN counts ON o.customer_id = counts.customer_id
8WHERE counts.order_count > 10;

但記得 MySQL CTE 也不 materialize 預設、可能要 temporary table 才強制 cache：

1CREATE TEMPORARY TABLE counts AS
2SELECT customer_id, COUNT(*) AS order_count FROM orders GROUP BY customer_id;
3SELECT o.* FROM orders o JOIN counts ON o.customer_id = counts.customer_id
4WHERE counts.order_count > 10;
5DROP TEMPORARY TABLE counts;

Case 5：10 秒 → 100ms — Optimizer 選 index 不對

1SELECT * FROM users WHERE age > 30 AND active = 1;

users 有 idx_active (selectivity 高) 跟 idx_age (selectivity 低)。Optimizer 選 idx_age、scan 60% rows、慢。

EXPLAIN：key: idx_age — 但 active=1 filter 後 row 量 < 5%。

修法選一：

Index hint 強制：

1SELECT * FROM users USE INDEX (idx_active)
2WHERE age > 30 AND active = 1;

Composite index 取代：

1ALTER TABLE users ADD INDEX idx_active_age (active, age);
2DROP INDEX idx_age ON users;

Optimizer hint (8.0+)：

1SELECT /*+ INDEX(users idx_active) */ * FROM users
2WHERE age > 30 AND active = 1;

Composite index 是最持久解（不依賴 hint）。Index hint 是 quick fix、但對 future schema change 脆弱。

EXPLAIN 三層工具

Tool 1：EXPLAIN — query plan preview

1EXPLAIN SELECT ...;

輸出每個 step 的估計 cost / row count / key used。用於 quick check plan 形狀。

關鍵欄位：

type：access type（ALL < index < range < ref < eq_ref < const）、ALL / index 是警訊
key：實際選的 index、可能跟 possible_keys 不同
rows：估計 scan row 數
Extra：Using filesort / Using temporary / Using index condition 等行為標記

Tool 2：EXPLAIN ANALYZE — 實際執行統計

8.0+ 加的。差別：實際 run query、回實際 row count / time、跟 estimate 對比。

1EXPLAIN ANALYZE SELECT ...;

輸出格式（tree format）：

1-> Nested loop inner join  (cost=2.4e6 rows=100000) (actual time=0.05..3.2 rows=10000 loops=1)
2    -> Index range scan on orders using idx_created (cost=2.4e6 rows=10000) (actual time=0.04..3.0 rows=10000 loops=1)
3    -> Single-row index lookup on customers using PRIMARY (cost=1 rows=1) (actual time=0.0001..0.0001 rows=1 loops=10000)

關鍵：對比 cost / rows（estimate） vs actual time / rows。如果 estimate=100K / actual=10M、optimizer 嚴重低估、可能選錯 plan。

Tool 3：Optimizer Trace — 看 optimizer 為何選這個 plan

1SET optimizer_trace='enabled=on';
2SELECT ...;
3SELECT * FROM information_schema.optimizer_trace;

輸出 JSON、列每個 step optimizer 考慮過的 plan + cost estimate + 為什麼選最終 plan。用於：optimizer 行為跟你預期不符時、debug 為什麼。

複雜 query 的 optimizer trace 可能 100+ KB、要熟讀 JSON 結構。production debug tool、不是常規 tool。

Optimizer hint vs Index hint

兩種 hint、語法不同、行為不同：

Index hint（5.x 就有）

1SELECT ... FROM table USE INDEX (idx_name) WHERE ...;
2SELECT ... FROM table FORCE INDEX (idx_name) WHERE ...;
3SELECT ... FROM table IGNORE INDEX (idx_name) WHERE ...;

USE INDEX：建議 optimizer 用這 index、但 optimizer 仍可拒絕
FORCE INDEX：強制用、optimizer 不能拒絕
IGNORE INDEX：禁止用

問題：

對 table name 寫死、refactor / partition 時容易斷
FORCE 太強、可能讓 optimizer 跑得比沒 hint 更慢（forced index 不是最佳 plan）

Optimizer hint（8.0+）

1SELECT /*+ INDEX(table_name idx_name) */ ... FROM table WHERE ...;
2SELECT /*+ JOIN_ORDER(t1, t2, t3) */ ... FROM t1, t2, t3 WHERE ...;
3SELECT /*+ HASH_JOIN(t1 t2) */ ... FROM t1 JOIN t2 ...;
4SELECT /*+ NO_INDEX_MERGE(table) */ ... FROM table WHERE ...;

更細粒度（join order / join method / index 選擇分開）
注入 query comment 內、不污染 SQL syntax
比 index hint 安全：optimizer 看 hint 但仍走 plan space search

5 個 Production 踩雷

1. Statistics 過時 — optimizer 估錯 row count

information_schema.STATISTICS 紀錄每個 index 的 cardinality。如果 過 1 個月沒 ANALYZE、statistics 跟實際資料 distribution 嚴重偏差、optimizer 估計錯。

修法：

定期跑 ANALYZE TABLE（大表改 nightly cron）
8.0+ innodb_stats_auto_recalc=ON 預設、但變更超過 10% row 才觸發
設 innodb_stats_persistent=ON（預設、把 statistics 存 disk）+ innodb_stats_persistent_sample_pages=20（提高 sample 精度）

2. Forced index 用錯 — Hint 比沒 hint 還慢

FORCE INDEX (idx) 強制 optimizer 用、但 idx 不是最佳 時、query 變慢。常見：開發 staging 試出 FORCE INDEX 有效、production 資料 distribution 不同、forced index 反而慢。

修法：

用 USE INDEX 而不是 FORCE INDEX（optimizer 仍可換）
不依賴 hint、用 composite index / 重寫 query 達到目的
已用 hint 的 query 進 staging review 機制、確認 plan 仍合理

3. Hash join 沒觸發 — Equality 是 expression

1SELECT ... FROM a JOIN b ON a.id = b.parent_id + 1;

b.parent_id + 1 是 expression、不是 raw column、optimizer 不選 hash join、用 nested loop。

修法：

Schema 改：把 parent_id + 1 變成 generated column
Query 改：JOIN 之前 預計算 expression 存 temp table
或 /*+ HASH_JOIN(a b) */ 顯式（但 plan 仍可能拒絕）

4. Range scan 退化 ALL — Cardinality 估計太低

1SELECT ... FROM t WHERE col IN (1, 2, 3, ..., 1000);

IN 1000 value、optimizer 預估「range scan 太多 lookup、不如 ALL」、選 full table scan。對 中型表（1M row）通常 IN 仍快、但 optimizer 估錯。

修法：

IN 拆成 temp table JOIN：

1CREATE TEMPORARY TABLE in_values (val INT);
2INSERT INTO in_values VALUES (1), (2), ..., (1000);
3SELECT t.* FROM t JOIN in_values iv ON t.col = iv.val;

或 optimizer_switch='index_merge=on'（multi-value IN 可能走 index merge）
或大 IN 改 application 層拆批 query

5. Derived table materialization off — 重複 scan

optimizer_switch='derived_merge=on'（預設 ON、derived table 自動 inline merge）某些 query 反而慢（merge 後 plan 變複雜）。或 反向問題：derived table 沒 materialize、每次都 re-run。

修法：

看 EXPLAIN 是否有 DERIVED row、確認 materialization 行為
可 optimizer_switch='derived_merge=off' 強制 materialize（影響整個 connection、謹慎用）
大 derived table 改 explicit temporary table 完全控制

跟 PostgreSQL EXPLAIN 對比

工具	MySQL	PostgreSQL
Query plan preview	`EXPLAIN`	`EXPLAIN`
實際執行統計	`EXPLAIN ANALYZE` (8.0+)	`EXPLAIN ANALYZE`
Optimizer 內部 trace	optimizer_trace (JSON)	`auto_explain` extension
Format	TABLE / JSON / TREE	TEXT / JSON / XML / YAML
Parallel query plan	受限（8.0 限 hash join）	Full（PG 10+ parallel scan / aggregate / join）
Index merge	有	有 (`bitmap index scan`)
Genetic Query Optimizer	無	PG 有（適合 > 12 table JOIN）
Cost estimate accuracy	中（histograms 8.0+）	高（成熟 statistics）

PG optimizer 整體更成熟、複雜 OLAP-style query plan 更穩定。MySQL 8.0 補了不少（histograms、hash join、derived table merge）、簡單 OLTP query 已 OK、複雜 query 仍弱。

跟其他模組整合

跟 Modern SQL Features

CTE / window function / lateral / hash join 都改變 query plan space、optimizer 跟著要識別新 pattern。8.0 optimizer 對新 SQL feature plan 仍有改進空間。詳見 Modern SQL Features。

跟 InnoDB Tuning

Query plan 受 buffer pool hit rate 影響 — optimizer 假設 random IO cost、實際資料在 buffer pool 內讀取快。Buffer pool 不夠時 plan estimate 失真。詳見 InnoDB Tuning。

跟 ProxySQL

ProxySQL query rule 不影響 optimizer plan、但可以 rewrite query（rule engine 的 replace_pattern）— 用於把 application 寫不好的 query 改成 optimizer-friendly 形式、application 不必改。詳見 ProxySQL 配置。

跟 Lock Contention

Slow query 持有 lock 久、其他 query wait、整個 cluster lock contention 爆。Query optimization 不只是 latency 問題、也是 lock 影響範圍 問題。詳見 Lock Contention deep dive 篇（待寫）。

跟 Partitioning

Partition pruning 是 optimizer 決定的、EXPLAIN PARTITIONS 看 partition 命中。partition + index 組合可能比 single big table + index 慢（cross-partition query overhead）。詳見 Partitioning 篇（待寫）。

觀測 metric

Production 持續 monitor：

Performance_schema.events_statements_summary_by_digest：每個 query digest 的累計 time / row examined / row sent
slow_query_log：slow query 進 log 檔（long_query_time=1）
sys.statements_with_full_table_scans：列 query 用 full scan 的歷史
sys.schema_unused_indexes：列從未用過的 index、可以 drop 省 write cost

把這些丟進 Datadog / Percona Monitoring & Management 做 trend analysis。

MySQL Partitioning：partition lifecycle 五段、跟 Vitess sharding 不同的「同 instance 內水平切割」

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 native partitioning — 5 段 lifecycle + 4 種 type + 跟 Vitess sharding / PG partitioning 對比。

Partition lifecycle 五段

MySQL native partitioning 是 同 instance 內把一個邏輯 table 拆成多個 physical sub-table、optimizer 可選擇只 scan 相關 partition。整個 partition lifecycle 5 段：

1Design       決定 partition key / type / 數量
2   ↓
3Create       CREATE TABLE ... PARTITION BY ...
4   ↓
5Query        WHERE clause + partition pruning
6   ↓
7Maintenance  ADD / DROP / REORGANIZE / EXCHANGE
8   ↓
9Drop         整個 partition 一次刪（比 DELETE FROM 快 1000x）

每段都有獨立工程決策。設計階段選錯 partition key、後續 maintenance + query 全部 broken。

跟 Vitess sharding 對比：

MySQL partitioning：同 instance、optimizer 自動 pruning、無 cross-instance network cost
Vitess sharding：跨 instance、application 透過 VTGate routing、可線性 scale

兩者不衝突、可組合：Vitess shard 內部再用 MySQL partition（例如：shard 切 16 個、每個 shard 的 table 再按月份 partition）。

4 種 partition type

RANGE partitioning — 連續區間切割

最常見、適合 time-series / 連續數字：

 1CREATE TABLE orders (
 2    id BIGINT AUTO_INCREMENT,
 3    user_id BIGINT NOT NULL,
 4    amount DECIMAL(10,2),
 5    created_at DATETIME NOT NULL,
 6    PRIMARY KEY (id, created_at)              -- PK 必須含 partition key
 7)
 8PARTITION BY RANGE (TO_DAYS(created_at)) (
 9    PARTITION p202601 VALUES LESS THAN (TO_DAYS('2026-02-01')),
10    PARTITION p202602 VALUES LESS THAN (TO_DAYS('2026-03-01')),
11    PARTITION p202603 VALUES LESS THAN (TO_DAYS('2026-04-01')),
12    PARTITION p_future VALUES LESS THAN MAXVALUE  -- 未來資料 fallback
13);

優點：

Partition pruning 高效（時間 range query）
整個月 archive 直接 ALTER TABLE orders DROP PARTITION p202601、毫秒級

缺點：

必須 預先建 未來 partition（或用 p_future fallback、但 fallback partition 變大就失去 pruning 意義）
Hot partition — 最新 partition 接收所有 INSERT、其他 partition 純歷史

LIST partitioning — 離散值切割

適合 enum-like value：

 1CREATE TABLE users (
 2    id BIGINT,
 3    name VARCHAR(100),
 4    region VARCHAR(10) NOT NULL,
 5    PRIMARY KEY (id, region)
 6)
 7PARTITION BY LIST COLUMNS (region) (
 8    PARTITION p_asia VALUES IN ('TW', 'JP', 'KR', 'CN'),
 9    PARTITION p_americas VALUES IN ('US', 'CA', 'BR'),
10    PARTITION p_emea VALUES IN ('GB', 'DE', 'FR', 'IT')
11);

優點：對 enum-like value 直接命中、pruning 簡單。

缺點：value list 不能變更（不 supported ALTER PARTITION ADD VALUE）、新國家代碼必須 REORGANIZE。

HASH partitioning — 均勻分布

對 numeric / string column 取 hash、均勻分布：

1CREATE TABLE events (
2    id BIGINT,
3    user_id BIGINT NOT NULL,
4    event_type VARCHAR(50),
5    PRIMARY KEY (id, user_id)
6)
7PARTITION BY HASH (user_id) PARTITIONS 8;

優點：均勻分布、沒有 hot partition。

缺點：

Range query 沒效 — WHERE user_id BETWEEN 100 AND 200 不能 pruning、scan 全部 partition
Partition 數量改變需要 REORGANIZE 整張表

KEY partitioning — MySQL 內部 hash

跟 HASH 類似、但用 MySQL 內部 hash function（不依賴 column 是否 integer）：

1CREATE TABLE sessions (
2    session_id VARCHAR(64),
3    user_id BIGINT NOT NULL,
4    data TEXT,
5    PRIMARY KEY (session_id, user_id)
6)
7PARTITION BY KEY (user_id) PARTITIONS 16;

用於 string column 或 composite column 的均勻分布。一般場景跟 HASH 效果接近。

Sub-partitioning — 兩層切割

RANGE + HASH 組合、深化分隔：

 1CREATE TABLE big_events (
 2    id BIGINT,
 3    user_id BIGINT,
 4    created_at DATETIME,
 5    PRIMARY KEY (id, created_at, user_id)
 6)
 7PARTITION BY RANGE (TO_DAYS(created_at))
 8SUBPARTITION BY HASH (user_id) SUBPARTITIONS 4 (
 9    PARTITION p202601 VALUES LESS THAN (TO_DAYS('2026-02-01')),
10    PARTITION p202602 VALUES LESS THAN (TO_DAYS('2026-03-01'))
11);

每個 RANGE partition 又拆 4 個 HASH sub-partition、共 8 個 physical storage location。適合 時間 range + user_id hash 兩維度。

實務罕用、複雜性高、調 query plan 困難。多數 case 用 single-level partition 即可。

Partition Pruning — Optimizer 怎麼選 partition

EXPLAIN PARTITIONS SELECT ... 顯示 query 命中哪些 partition：

1EXPLAIN PARTITIONS
2SELECT * FROM orders WHERE created_at BETWEEN '2026-02-15' AND '2026-02-20';
3
4+----+-------------+--------+------------+-------+
5| id | select_type | table  | partitions | type  |
6+----+-------------+--------+------------+-------+
7|  1 | SIMPLE      | orders | p202602    | range |
8+----+-------------+--------+------------+-------+

只命中 p202602、其他 partition 不 scan。

Pruning 失效場景：

Function on partition key：

1WHERE YEAR(created_at) = 2026  -- 沒 pruning、scan 全部

應該寫成：

1WHERE created_at >= '2026-01-01' AND created_at < '2027-01-01'

Implicit conversion：

1WHERE created_at = '2026-02-15'  -- 字串 vs DATETIME、可能失效

應該：

1WHERE created_at = TIMESTAMP '2026-02-15 00:00:00'

OR 跨 partition：

1WHERE created_at = '2026-02-15' OR user_id = 100  -- partition + non-partition column OR、scan 全部

JOIN 不直接 filter partition key：JOIN 條件不含 partition key、optimizer 估計無法 pruning。

Partition Maintenance — ADD / DROP / REORGANIZE / EXCHANGE

ADD partition

1ALTER TABLE orders ADD PARTITION (
2    PARTITION p202604 VALUES LESS THAN (TO_DAYS('2026-05-01'))
3);

對 RANGE 簡單、但要 排在 MAXVALUE partition 之前（如果有 p_future、要先 REORGANIZE）。

DROP partition

1ALTER TABLE orders DROP PARTITION p202601;

直接刪 partition file、毫秒級完成。是 time-series archive 的最大優勢 — 對比 DELETE FROM orders WHERE created_at < '...' 跑 hours。

REORGANIZE partition

切分 / 合併 partition：

1-- 切：把 p_future 切成 p202604 + new p_future
2ALTER TABLE orders REORGANIZE PARTITION p_future INTO (
3    PARTITION p202604 VALUES LESS THAN (TO_DAYS('2026-05-01')),
4    PARTITION p_future VALUES LESS THAN MAXVALUE
5);

REORGANIZE rewrites partition data、跟 OSC 一樣慢、大 partition 走 gh-ost / pt-osc 模擬（用 ghost table）。

EXCHANGE partition

把 partition 跟 獨立 table swap（不複製資料）：

1-- 建一個 staging table 跟 partition 同 schema
2CREATE TABLE orders_staging LIKE orders;
3ALTER TABLE orders_staging REMOVE PARTITIONING;  -- staging 必須是 non-partitioned
4
5-- 把 archive partition 的資料 atomic swap 給 staging
6ALTER TABLE orders EXCHANGE PARTITION p202601 WITH TABLE orders_staging;
7
8-- 現在 orders_staging 有 p202601 的資料、orders 的 p202601 變空
9-- 可以 dump staging 到 S3、或 INSERT 進 archive DB

EXCHANGE PARTITION 是 metadata operation、毫秒級完成、不複製資料。Time-series archive 工作流的核心工具。

5 個 Production 踩雷

1. PK 必須含 partition key — Schema 設計受限

MySQL partition 規則：PK 必須包含所有 partition key column。

1-- 錯：PK 沒包含 partition key
2CREATE TABLE orders (
3    id BIGINT AUTO_INCREMENT PRIMARY KEY,  -- 只有 id
4    created_at DATETIME NOT NULL
5) PARTITION BY RANGE (TO_DAYS(created_at)) (...);
6-- ERROR 1503: A PRIMARY KEY must include all columns in the table's partitioning function

1-- 對：PK 包含 partition key
2CREATE TABLE orders (
3    id BIGINT AUTO_INCREMENT,
4    created_at DATETIME NOT NULL,
5    PRIMARY KEY (id, created_at)  -- 兩 column 都進 PK
6) PARTITION BY RANGE (TO_DAYS(created_at)) (...);

修法：

接受 PK 是 composite（id + partition_key column）
AUTO_INCREMENT 仍 work、但 INSERT 必須給定 created_at
Unique constraint 也受影響 — 所有 UNIQUE index 必須含 partition key

對 application：原本 WHERE id = X 仍 work、但慢（沒 partition pruning）、必須 WHERE id = X AND created_at >= ... 才高效。

2. Global index 沒原生支援

MySQL partitioning 沒 global secondary index（PG 有）。每個 partition 各自有自己的 local index、跨 partition 的 unique constraint 必須 包含 partition key。

例：希望 user_id 全表 unique、但 partition by created_at：

1-- MySQL 不允許這樣 — UNIQUE 必須含 created_at
2CREATE TABLE orders (
3    id BIGINT AUTO_INCREMENT,
4    user_id BIGINT,
5    created_at DATETIME,
6    PRIMARY KEY (id, created_at),
7    UNIQUE KEY (user_id, created_at)  -- 必須含 created_at、不是純 user_id
8);

對 application：跨 partition 的 unique 需要 application 層處理（INSERT 前 SELECT 檢查）或改用 Vitess lookup_hash Vindex。

3. EXCHANGE partition — schema 必須完全一致

EXCHANGE 失敗常見：staging table 跟 partition 的 index / column 順序差一個、ERROR 1736: Tables have different definitions。

修法：

建 staging 用 CREATE TABLE staging LIKE orders 而非手寫
REMOVE PARTITIONING 後立即 verify schema
跑 OSC 改 schema 時、partition + staging table 同時改、不能漏一個

4. Orphan partition — Future partition 預先建忘記延展

部署 cron 每月建下個月 partition、cron 失敗 / pause、下個月 INSERT 無對應 partition、寫入 p_future。p_future 一年累積後變超大、partition pruning 沒效、查最近資料 scan 全表。

修法：

監控 p_future partition size、超過 threshold alert
Cron 失敗 alert（不是 silent fail）
不依賴 cron、改成 application 層在 INSERT 前 ensure partition exists（lazy create）

5. Cross-partition query 慢

1SELECT user_id, SUM(amount) FROM orders GROUP BY user_id;

沒 partition key filter、optimizer 不能 pruning、scan 全部 partition。比 single big table without partition 還慢（因為跨 partition aggregation overhead）。

修法：

接受 partition 不是 讀效能 工具、是 write + archive 效能 工具
跨 partition aggregation 改 materialized aggregation table（trigger / scheduled job 維護）
跨 partition reporting 改丟 OLAP DB（BigQuery / Snowflake / ClickHouse）

跟 Vitess sharding 對比

維度	MySQL partitioning	Vitess sharding
切割範圍	同 instance 內	跨 instance（無上限）
Cross-shard query	不適用	VTGate 自動 split + aggregate
Resharding	REORGANIZE（rewrite data）	VReplication 自動
Operational cost	低（單 instance 內）	高（4 component Vitess stack）
可線性 scale write	否（單 instance 寫吞吐限）	是（加 shard）
Archive 效率	DROP PARTITION 毫秒級	不是 archive 工具

兩者不衝突、適用不同問題。Partitioning 解決 單 instance archive + write 集中、sharding 解決 跨 instance scale。

跟 PostgreSQL declarative-partitioning 對比

維度	MySQL partitioning	PostgreSQL declarative-partitioning
Partition type	RANGE / LIST / HASH / KEY	RANGE / LIST / HASH
Sub-partitioning	RANGE + HASH	多層 nested 支援更廣
Global index	無	PG 11+ 有
Partition wise join	受限	PG 11+ 強
Cross-partition unique	必須含 partition key	PG 11+ 同限制、但 PG 17+ 部分解除
Partition attach	EXCHANGE PARTITION	ATTACH PARTITION
操作工具	gh-ost / pt-osc 對 partition	pg_partman（成熟）
Production maturity	中（5.x 開始有、8.0 強化）	高（11+ declarative 後成熟）

PG partitioning 對 跨 partition unique 跟 partition-wise join 處理較好、是 reporting workload 的優勢。MySQL partitioning 對 archive workflow（DROP / EXCHANGE）較成熟。詳見 PostgreSQL Declarative Partitioning。

何時用 native partitioning

場景	建議
Time-series workload + archive needs（log / event / order history）	用 RANGE
大表 > 1 TB 且 query 多有 time filter	用 RANGE 加速 prune
跨 region / 跨業務切分	用 LIST
需要線性 scale write throughput	不用 partition、用 Vitess sharding
需要全表 unique constraint	不用 partition、影響太大
主要做 ad-hoc analytical query	不用 partition、OLAP DB（ClickHouse / BigQuery）
小表 < 100 GB	不必 partition、index 夠用

跟其他模組整合

跟 Online Schema Change

對 partitioned table 的 schema change（ALTER COLUMN）必須 每個 partition 都改。gh-ost / pt-osc 對 partitioned table 仍 work、但複雜性增加。詳見 Online Schema Change Tools。

跟 Vitess

Vitess shard 內部可再 partition、單 shard 對應一個 MySQL instance、partition 是 instance 內優化。Vitess vtctldclient PartitionTablet 命令處理 shard-aware partition 操作。詳見 Vitess sharding。

跟 InnoDB Tuning

每個 partition 是獨立 InnoDB tablespace（innodb_file_per_table=ON 預設）、buffer pool 內 cache 行為跟 single big table 不同。Partition 多時 buffer pool warm-up 時間更長。詳見 InnoDB Tuning。

跟 Replication

Partition operation（ADD / DROP / EXCHANGE）是 DDL、走 binlog、replica apply 時可能 locking issue（特別是 EXCHANGE 跟 replica running query 衝突）。詳見 Replication Topology。

跟 Query Optimization

EXPLAIN PARTITIONS 是 partition-aware query optimization 的關鍵工具、看 query 真的命中哪些 partition。詳見 Query Optimization。

容量規劃要點

維度	建議
Partition 數量上限	8.0 預設 8192、實務建議 < 1000（管理成本上升）
單 partition 大小	10 GB - 100 GB（太小無 partition value、太大 prune 沒效）
RANGE 時間 partition	月 / 週 / 日（依資料量）
HASH partition 數量	通常 power of 2（8 / 16 / 32 / 64）
Future partition pre-create	至少 6 個月 buffer、cron 每月 add 1 個

MySQL PITR + Backup Strategy：備份不是「拷貝資料」、是 N 點任意 restore 的能力

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 backup + PITR — 不是「拷貝資料」、是「N 點任意 restore 的能力」。

「我們每天 mysqldump 一次、放 S3、沒問題吧」是個常見錯誤。問「能不能 restore 到 5 分鐘前」、答案會是不能。Dump-based backup 只能 restore 到 dump 那個瞬間、5 分鐘前的事故無法 recover、必須等下次 dump。

真正的 backup strategy 是 PITR（point-in-time recovery）：

能 restore 到任意過去時間點（RPO 取決於 binlog flush 頻率、可接近 0）
由 full backup 基線 + binlog 連續流（從 backup 點到目標時間點的 incremental delta）組成
Restore 過程：先 restore full backup → 再 apply binlog 到目標 timestamp 或 GTID

這篇 deep article 把 backup 拆解成能力、然後展開達到此能力需要的工具鏈跟工程紀律。

Backup 三層責任

PITR 的能力由三層工程責任達成、任一層失效則 PITR 不成立：

1Layer 1: Full Backup（基線）
2   ↓     (mysqldump / XtraBackup / MyDumper / LVM snapshot / EBS snapshot)
3   ↓
4Layer 2: Binlog Stream（incremental）
5   ↓     (sync_binlog=1 + binlog 持續流到 backup storage)
6   ↓
7Layer 3: Restore + Replay 流程
8         (能 restore full + 能 apply binlog 到目標時間點)

每層的 backup 不夠 — 必須有 測試 restore 流程 才算真的有 backup。「dump 在 S3」加「沒有 verified restore」= no backup。

Tool 1：mysqldump — 邏輯備份、最廣容、最慢

1mysqldump --single-transaction --master-data=2 --gtid-purged=ON \
2  --triggers --routines --events \
3  --all-databases > full-backup.sql

輸出：SQL statement、純文字、可 grep / 編輯。

Trade-off：

優點：跨 MySQL 版本（5.7 → 8.0 也讀）、跨 cloud / 跨 OS、可選 dump 部分 table
缺點：極慢（rebuild 整 DB 從 SQL execute）、大 DB（> 100 GB）不適用、restore 時長 hours+
--single-transaction：InnoDB only、用 REPEATABLE READ 拿 consistent snapshot、不 lock 表

適合：

< 100 GB DB
Schema dump（migration / 給 dev clone DB）
跨版本 migrate
配 binlog 做 PITR baseline

不適合：

500 GB DB（restore 跑 days）
高吞吐 production（dump 跑時 hold MVCC read view、bloat）

Tool 2：Percona XtraBackup — 物理備份、快、production 標準

1xtrabackup --backup --target-dir=/backup/full-2026-05-19 \
2  --user=backup --password=... \
3  --slave-info --safe-slave-backup
4# Prepare（apply 內部 redo log、變成可 restore 狀態）
5xtrabackup --prepare --target-dir=/backup/full-2026-05-19

輸出：InnoDB 資料檔案的 binary copy。

Trade-off：

優點：極快（直接 copy file、無 SQL execute）、適合 TB-scale DB、restore 跑時間跟 copy file 同
缺點：MySQL 版本綁定（XtraBackup 8.0 不能 restore 5.7 backup）、有 storage engine 限制（只 InnoDB）
Incremental backup 支援：基於 LSN（log sequence number）只 copy 變更 page

Incremental flow：

 1# Day 1: Full backup
 2xtrabackup --backup --target-dir=/backup/full-day1
 3
 4# Day 2: Incremental（only changes since day 1）
 5xtrabackup --backup --target-dir=/backup/inc-day2 \
 6  --incremental-basedir=/backup/full-day1
 7
 8# Restore: Apply incremental on top of full
 9xtrabackup --prepare --apply-log-only --target-dir=/backup/full-day1
10xtrabackup --prepare --apply-log-only --target-dir=/backup/full-day1 \
11  --incremental-dir=/backup/inc-day2
12xtrabackup --prepare --target-dir=/backup/full-day1

適合：

100 GB production DB
每日 incremental + 週一次 full（典型 enterprise schedule）
從自管 MySQL 遷 cloud（XtraBackup + rsync 到 cloud restore）

不適合：

Schema-only dump（用 mysqldump 更簡單）
跨 major version restore

Tool 3：MyDumper — 並行邏輯備份

1mydumper --user=backup --password=... \
2  --threads=8 --rows=100000 \
3  --outputdir=/backup/mydumper-2026-05-19 \
4  --less-locking

輸出：每張 table 一個 .sql file（schema） + 多個 chunked .dat file（資料）。

Trade-off：

優點：並行 dump（per-table thread）、比 mysqldump 快 5-10x、可恢復斷點（resume）
缺點：tooling 不如 mysqldump 普及、需要單獨裝
對應的 myloader restore：也並行、比 mysqldump restore 快 5-10x

適合：

100 GB - 1 TB 範圍
中型 production、想要邏輯備份的可讀性 + 並行加速

Tool 4：LVM / EBS Snapshot — 物理 file system 層

1# 1. Freeze MySQL（讓 write 暫停）
2mysql> FLUSH TABLES WITH READ LOCK;
3# 2. Trigger snapshot（EBS / LVM）
4aws ec2 create-snapshot --volume-id vol-xxx --description "mysql-2026-05-19"
5# 3. Unfreeze
6mysql> UNLOCK TABLES;

Trade-off：

優點：超快（file system 層）、適合 VM-based MySQL（EC2 / on-prem）
缺點：必須 暫停 write（短時間 lock）、不能跨 OS / cloud 移植
AWS RDS / Aurora 全部走這條路（自動 snapshot）

適合：

AWS RDS / Aurora（自動）
自管 MySQL on EC2 with EBS（EBS snapshot 結合 mysql freeze）
大 DB 想要 fast backup + fast restore

Binlog-based PITR

Full backup 加上 binlog 才能達到 PITR。Binlog 是 MySQL replication / CDC / PITR 共用的 source。

配置：

1[mysqld]
2log_bin = mysql-bin
3binlog_format = ROW                  # ROW 必須
4binlog_row_image = FULL              # 完整 row image
5sync_binlog = 1                      # 每次 commit fsync binlog（zero loss）
6binlog_expire_logs_seconds = 1209600 # 14 天 retention（依需求調）
7gtid_mode = ON                       # GTID 必須、PITR 用 GTID 識別 transaction
8enforce_gtid_consistency = ON

Binlog backup：

1# 持續 stream binlog 到 backup storage
2mysqlbinlog --read-from-remote-server --raw --stop-never \
3  --user=replication --password=... \
4  --host=primary.example.com \
5  --result-file=/backup/binlog/ mysql-bin.000001 &

--read-from-remote-server + --stop-never 持續從 primary tail binlog、不間斷 stream 到 backup directory。每個 binlog file 寫滿後 close + 開新 file。

Restore + PITR 流程

完整 PITR 流程（restore 到 2026-05-19 14:30:00）：

 1# Step 1: Restore full backup
 2xtrabackup --copy-back --target-dir=/backup/full-2026-05-18  # 前一天 full
 3
 4# Step 2: 啟動 MySQL（會看到 backup 拿那刻的 GTID set）
 5systemctl start mysqld
 6
 7# Step 3: 查 full backup 結束時的 GTID
 8mysql> SHOW MASTER STATUS;
 9+------------------+----------+------------------------------------------+
10| File             | Position | Executed_Gtid_Set                        |
11+------------------+----------+------------------------------------------+
12| mysql-bin.000150 |     1234 | server-uuid:1-12345                      |
13+------------------+----------+------------------------------------------+
14
15# Step 4: Apply binlog 從 backup 之後到目標時間
16mysqlbinlog --start-datetime="2026-05-18 03:00:00" \
17            --stop-datetime="2026-05-19 14:30:00" \
18            /backup/binlog/mysql-bin.000150 \
19            /backup/binlog/mysql-bin.000151 \
20            ...                                # 列所有需要的 binlog
21            | mysql -u root -p
22
23# Step 5: 驗證 GTID set 到目標時間點對應的位置
24mysql> SHOW MASTER STATUS;
25# Executed_Gtid_Set 應包含到目標時間點的 transaction

對 精確 GTID-based PITR（停在特定 transaction、不是 timestamp）：

1mysqlbinlog --include-gtids='server-uuid:1-50000' \
2            /backup/binlog/mysql-bin.000150 ... | mysql -u root -p

5 個 Production 踩雷

1. GTID 處理不一致 — Restore 後 replication broken

XtraBackup restore 時 --slave-info 紀錄 GTID purged set、mysqldump 用 --gtid-purged=ON。如果 restore 後沒正確 set gtid_purged、replica re-attach 時 GTID gap error。

修法：

XtraBackup restore：用 xtrabackup_binlog_info 內的 GTID set 設 SET GLOBAL gtid_purged='...';
mysqldump：dump file 內已有 SET @@GLOBAL.GTID_PURGED='...';、執行 dump 自動 set
Restore 後 先驗證 Executed_Gtid_Set 跟 source 預期對齊、再 START SLAVE

2. Binlog gap — 中間遺漏 file 直接 restore fail

Binlog stream 失聯（network blip / disk full）+ binlog rotate、mysql-bin.000156 不在 backup storage 內。PITR 試圖跨過該 file restore、跳過已 commit transaction、結果 資料不一致（不是錯誤、是 silently incorrect）。

修法：

Binlog stream 必須持續、失聯 → alert
監控 backup storage 內 binlog 連續性（file name 連號、無 gap）
Restore 前 先驗證 binlog 完整性：mysqlbinlog --verify-binlog-checksum *.bin > /dev/null
對 missing binlog 中止 PITR、不繼續 partial restore

3. Backup 沒 verify — 真事故時才發現 restore broken

每天備份成功、storage 用了 5 TB、實際 從未 restore 過。事故發生 restore 才知道 backup file corrupt / GTID 錯 / binlog gap、整套無用。

修法：

自動化 restore test：每週 / 每月在 staging server 跑完整 restore + PITR、跑完 SELECT 比對 production
驗證 restore 後 row count 跟 production 接近、CHECKSUM TABLE 比對主要 table
真的事故時 RTO 才不會 surprise

4. RPO 不到 1 分鐘的代價

「我要 RPO < 1 分鐘」聽起來合理、但實現需要：

sync_binlog=1（每 commit fsync、寫吞吐降 10-30%）
Binlog stream 到 獨立 storage（不只是 primary local disk）、cross-region replication（額外 network cost）
Replica 也用 semi-sync 配合（zero binlog loss）
監控 + alert RPO 違反（< 1 分鐘 stream lag）

TCO：~30% 寫吞吐 penalty + 額外 storage / network cost + 7x24 on-call。考慮 real RPO requirement — 多數 application 5 分鐘 RPO 已足夠、追求 1 分鐘 RPO 不划算。

修法：

跟 product / business 確認 真 RPO 要求
RPO budget = 寫吞吐 trade-off + ops cost、不是 free
用 Aurora / managed offering 把 RPO 議題 outsource（Aurora < 1 秒 RPO + 自動 cross-AZ）

5. Encryption key 沒備份 — Restore 後解不開資料

啟用 encryption at rest（MySQL 8.0+ default_table_encryption=ON + keyring plugin / component；MariaDB 用 innodb_encrypt_tables）後、所有 InnoDB tablespace 都加密。Master key 在 keyring file 或 KMS-backed component。如果 backup 只 backup MySQL data file、沒備 keyring、restore 後資料 encrypted 但無 key、無法讀。

修法：

Keyring file 跟 data file 分開儲存、但兩者 都要 backup
用 KMS-based keyring（AWS KMS / HashiCorp Vault）取代 file-based、key 不在 MySQL server 上
Disaster recovery runbook 紀錄 key recovery 流程、不要假設「重 install MySQL」就能解

容量規劃要點

項目	建議
Full backup 頻率	週一次（XtraBackup）或日一次（小 DB）
Incremental 頻率	每日（XtraBackup incremental）
Binlog retention	14 天（給 PITR window）
Backup retention	Full × 4 週 + 月度 archive × 12 個月
Storage cost	約 2-3x DB size（full + incremental + binlog）
Cross-region copy	必要（local backup 失效時還有 disaster recovery）
Restore test 頻率	每週 staging 上跑、每月 production-like 跑

跟其他模組整合

跟 Replication topology

Replication replica 不能取代 backup — replica 上的 DROP TABLE 也會被 replicate、replica 上資料同樣消失。Backup 是 獨立保險。詳見 Replication Topology。

跟 InnoDB Tuning

innodb_flush_log_at_trx_commit=1 + sync_binlog=1 是 backup-friendly 的設定（zero loss）、但寫吞吐降。如果為了寫吞吐放寬 durability、必須接受 PITR window 也 widening。詳見 InnoDB Tuning。

跟 Aurora MySQL

Aurora 完全 outsource backup — automatic continuous backup + PITR < 1 秒、不必管 mysqldump / XtraBackup / binlog stream。從 Aurora 遷出時、需要重新建 self-managed backup chain。詳見 migrate-to-aurora。

跟 PostgreSQL PITR

維度	MySQL PITR	PostgreSQL PITR
Logical backup	mysqldump / MyDumper	pg_dump / pg_dumpall
Physical backup	XtraBackup	pg_basebackup / pgBackRest
Incremental log	Binary log（binlog）	WAL (Write-Ahead Log)
Stream tool	mysqlbinlog –read-from-remote-server	pg_receivewal
PITR command	mysqlbinlog –stop-datetime	pg_ctl + recovery.conf / standby.signal
Identifier	GTID 或 file:position	LSN（Log Sequence Number）
Cross-version	mysqldump（廣容）	pg_dump（廣容）

兩家 PITR 概念類似（full + log replay）、tool name 不同、概念對等。詳見 PostgreSQL PITR + WAL Archiving。

何時 outsource backup

場景	建議
AWS 生態 + 不想管 backup ops	Aurora MySQL（內建 PITR）
GCP 生態	Cloud SQL（內建 PITR）
Azure 生態	Azure DB for MySQL
跨雲 + 想自管	XtraBackup + binlog stream + S3
規模小、可接受 mysqldump	mysqldump cron + S3
規模大、無 cloud	Percona XtraBackup Enterprise + tape archive
強合規（HIPAA / PCI-DSS）	自管 + air-gap backup + audit trail

MySQL Lock Contention：在 staging 重現的 deadlock、production 跑 6 個月才出現

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL overview 的 implementation-layer deep article。Overview 已說明 MySQL 在 OLTP 譜系的定位、本文聚焦 lock contention — 5 種 lock type + isolation level 互動 + production debug。

開場案例

Application 跑了 6 個月、staging 100% 重現過的 deadlock 從來沒在 production 出現。某天 traffic 上升 30%、production 開始爆 ER_LOCK_DEADLOCK、application retry 不夠快、order 大量失敗。

SHOW ENGINE INNODB STATUS\G 拉出 deadlock：

 1*** (1) TRANSACTION:
 2TRANSACTION 12345, ACTIVE 1 sec starting index read
 3mysql tables in use 1, locked 1
 4LOCK WAIT 4 lock struct(s), heap size 1136, 3 row lock(s)
 5MySQL thread id 100, query id 5000 update orders
 6UPDATE orders SET status = 'shipped' WHERE id = 500
 7
 8*** (1) WAITING FOR THIS LOCK TO BE GRANTED:
 9RECORD LOCKS space id 50 page no 5 n bits 80 index PRIMARY of table `production`.`orders`
10trx id 12345 lock_mode X locks rec but not gap waiting
11
12*** (2) TRANSACTION:
13TRANSACTION 12346, ACTIVE 1 sec starting index read
14mysql tables in use 1, locked 1
154 lock struct(s), heap size 1136, 4 row lock(s)
16MySQL thread id 101, query id 5001 update payments
17UPDATE payments SET captured = 1 WHERE order_id = 500
18
19*** (2) HOLDS THE LOCK(S):
20RECORD LOCKS space id 50 page no 5 n bits 80 index PRIMARY of table `production`.`orders`
21trx id 12346 lock_mode X locks rec but not gap
22
23*** (2) WAITING FOR THIS LOCK TO BE GRANTED:
24RECORD LOCKS space id 51 page no 10 n bits 80 index idx_order_id of table `production`.`payments`
25trx id 12346 lock_mode X waiting
26
27*** WE ROLL BACK TRANSACTION (1)

兩個 transaction 各自拿了一邊 lock、互相等對方的、deadlock。為什麼 staging 重現過、production 6 個月才爆？因為 lock contention 是 可能性 不是 確定性 — staging 重現等於確認「程式邏輯有 deadlock risk」、production 6 個月平安等於「concurrency 還沒撞到」。Traffic 上升把 機率乘以 N、原本每天 0 次變每分鐘 5 次。

這個 case 揭露 MySQL lock 教學的核心：理解 lock 不只是 debug 跑 deadlock 報錯 的能力、是 讀 query 預測 lock pattern 的能力。

InnoDB 5 種 Lock 類型

InnoDB 不是 簡單 row lock、有 5 個獨立 lock concept：

1. Record Lock — 鎖 row

SELECT ... FOR UPDATE / UPDATE / DELETE 對 被 match 的 row 加 record lock。

1-- Transaction 1
2BEGIN;
3SELECT * FROM orders WHERE id = 100 FOR UPDATE;
4-- 對 id=100 的 row 加 record lock

Transaction 2 試 UPDATE orders WHERE id = 100 必須等。

2. Gap Lock — 鎖 row 之間的「空隙」

InnoDB 在 REPEATABLE READ (預設) 下、SELECT ... FOR UPDATE WHERE col > 100 不只 lock 符合的 row、也 lock 該 range 內的「空隙」、防其他 transaction INSERT 進這個 range。

1-- 已存在 orders: id=100, 200, 300
2BEGIN;
3SELECT * FROM orders WHERE id > 100 AND id < 300 FOR UPDATE;
4-- Lock id=200 + gap lock (100, 200) + gap lock (200, 300)

Transaction 2 試 INSERT INTO orders (id) VALUES (150) 必須等 — 即使 id=150 不存在、gap lock 阻擋 INSERT。

Gap lock 是 deadlock 最常見來源 — application logic 看 row、但 lock 卻 cover row 之外的空隙、難預測。

3. Next-Key Lock — Record + Gap 組合

預設 lock 行為。SELECT ... FOR UPDATE WHERE col = 100 對 id=100 的 record lock + id=100 之前的 gap lock。

Lock 的範圍實際是 半開區間 (previous_id, current_id]：

1Records: 100, 200, 300
2
3WHERE id = 100 FOR UPDATE → next-key lock (-inf, 100]
4WHERE id = 200 FOR UPDATE → next-key lock (100, 200]
5WHERE id = 300 FOR UPDATE → next-key lock (200, 300]
6WHERE id BETWEEN 150 AND 250 FOR UPDATE → next-key lock (100, 200] + (200, 300]

4. Insert Intention Lock — INSERT 之前的 gap lock

INSERT 不直接 lock 整個 gap、而是 insert intention lock — 比 gap lock 弱、允許多個 INSERT 同 gap 並行（不同 id）。

1-- Transaction 1
2INSERT INTO orders (id) VALUES (150);
3-- Transaction 2
4INSERT INTO orders (id) VALUES (175);
5-- 同 gap (100, 200)、兩個 INSERT 並行、不阻塞

但如果 Transaction 1 已 hold gap lock（through SELECT FOR UPDATE）、Transaction 2 INSERT 必須等。

5. Auto-Inc Lock — Auto-Increment column 專用

INSERT INTO orders (id) VALUES (DEFAULT) 取得 auto-increment value 時 lock。Mode：

innodb_autoinc_lock_mode=0（traditional）：lock 整個 INSERT statement 期間、其他 INSERT 必須等
innodb_autoinc_lock_mode=1（consecutive）：lock 短時間（取值期間）、INSERT 1 row 不會阻塞其他
innodb_autoinc_lock_mode=2（interleaved、8.0+ 預設（5.7 預設仍是 1））：完全並行、auto-inc value 不保證連續但可並行

8.0+ 預設 mode=2、性能高、但 binlog format 必須 ROW（STATEMENT 行為錯）。

Isolation Level 對 Lock 的決定性影響

InnoDB 4 個 isolation level、lock 行為完全不同：

Isolation	Read 行為	Lock 範圍	Default?
READ UNCOMMITTED	可讀 dirty data	純 record lock、無 gap	否
READ COMMITTED	每個 statement 看當下 committed	純 record lock、無 gap	否
REPEATABLE READ	Transaction 內 snapshot consistent	Record + gap + next-key	是
SERIALIZABLE	強制 SELECT 變 SELECT … FOR SHARE	Record + gap + next-key 加重	否

REPEATABLE READ + Gap lock 是 deadlock 主要來源：

預設 isolation level
為了 保證 repeatable read（同 transaction 內讀同樣資料）、強制 gap lock 防 phantom row
但 gap lock 經常 lock 比預期廣的範圍、deadlock 機率上升

改成 READ COMMITTED 的取捨：

優點：無 gap lock、deadlock 大降、寫吞吐上升
缺點：transaction 內讀同 query 結果可能不同（non-repeatable read）
重要：binlog format 必須 ROW（STATEMENT 在 READ COMMITTED 下 replication 行為不一致）
多數 MySQL production 用 READ COMMITTED 跑 OLTP、REPEATABLE READ 留給特殊 case

對比 PostgreSQL：

PG 預設 isolation 是 READ COMMITTED（不是 RR）
PG 的 RR 用 snapshot isolation（不靠 gap lock）、deadlock 少
這是 MySQL 跟 PG 在 並行控制 model 的根本差異 — MySQL 用 lock-based、PG 用 MVCC-heavy

用 SHOW ENGINE INNODB STATUS 讀 lock 狀態

SHOW ENGINE INNODB STATUS\G 是 production debug lock contention 的主要工具：

 1------------
 2TRANSACTIONS
 3------------
 4Trx id counter 12350
 5Purge done for trx's n:o < 12340 undo n:o < 0 state: running but idle
 6History list length 5
 7
 8---TRANSACTION 12345, ACTIVE 30 sec  -- 長 transaction、警訊
 93 lock struct(s), heap size 1136, 5 row lock(s)
10MySQL thread id 100, OS thread handle ..., query id ...
11SELECT * FROM orders WHERE id > 100 FOR UPDATE
12------- TRX HAS BEEN WAITING 5 SEC FOR THIS LOCK:
13RECORD LOCKS space id 50 page no 5 n bits 80 index PRIMARY of table `production`.`orders`
14trx id 12345 lock_mode X locks gap before rec  -- gap lock

關鍵欄位：

ACTIVE N sec：transaction 跑多久（長 transaction 嫌疑）
lock_mode X / S：exclusive / shared lock
locks rec but not gap / locks gap before rec / locks rec：是 record / gap / next-key
TRX HAS BEEN WAITING N SEC FOR THIS LOCK：等多久、超過幾秒就是 lock contention

SELECT * FROM information_schema.INNODB_TRX / INNODB_LOCKS (5.7) / performance_schema.data_locks (8.0) 給 structured lock 視圖。

5 個 Production 踩雷

1. Gap lock 阻塞 INSERT — 「Lock 不存在的 row」

1-- Transaction 1
2BEGIN;
3SELECT * FROM orders WHERE user_id = 100 FOR UPDATE;
4-- 假設 user_id=100 沒任何 order、預期沒 lock 任何 row
5
6-- Transaction 2
7INSERT INTO orders (user_id, amount) VALUES (100, 50);
8-- 等！為什麼？

問題：WHERE user_id = 100 沒有 record 時、InnoDB 仍 lock user_id=100 應該在的 gap（防 phantom）、Transaction 2 INSERT 進這個 gap 被阻擋。

修法：

改 READ COMMITTED isolation
或不用 SELECT ... FOR UPDATE on empty result、改 application 層 check + INSERT pattern
用 INSERT ... ON DUPLICATE KEY UPDATE 或 INSERT IGNORE 避免 SELECT FOR UPDATE

2. Auto-Inc Lock Contention — 大量並行 INSERT

innodb_autoinc_lock_mode=0 或 =1 模式下、大量並行 INSERT 撞 auto-inc lock、寫吞吐 cap。

修法：

設 innodb_autoinc_lock_mode=2（interleaved、8.0+ 預設（5.7 預設仍是 1））
確認 binlog_format=ROW（mode=2 必須）
接受 auto-inc value 不連續（id 可能跳號）

3. FK Lock Cascading — 父子 transaction 互鎖

1-- orders 表有 customer_id FK → customers.id
2-- Transaction 1
3UPDATE customers SET name = '...' WHERE id = 100;  -- lock customers row
4
5-- Transaction 2
6INSERT INTO orders (customer_id, amount) VALUES (100, 50);
7-- FK check 需要 lock customers row id=100、等 Transaction 1

FK 強制 每個 INSERT child 都要 shared lock parent、parent 的任何 UPDATE 都會 lock 所有 child INSERT。

修法：

評估 FK 是否真的需要（high-write 場景考慮 application-level enforcement）
短 transaction 縮短 lock 時間
FK 設計時讓 parent UPDATE 少 / child INSERT 多（parent 是穩定資料）

4. Large Transaction Lock Holding — 1 個 transaction 拖全 cluster

1BEGIN;
2-- 100K row 的 batch UPDATE
3UPDATE orders SET status = 'archived' WHERE created_at < '2024-01-01';
4-- 跑 5 分鐘、持 100K row 的 lock
5-- 其他 transaction 撞到任何被 lock 的 row 都等 5 分鐘
6COMMIT;

長 transaction 是 lock contention 災難。

修法：

把 batch operation 拆 chunk（每 chunk 1000 row、commit、繼續）：

1DO {
2  START TRANSACTION;
3  UPDATE orders SET status = 'archived'
4  WHERE created_at < '2024-01-01' AND status != 'archived'
5  LIMIT 1000;
6  COMMIT;
7} WHILE rows_affected > 0;

用 pt-archiver tool（Percona）對 batch UPDATE / DELETE 自動 chunked
監控 information_schema.innodb_trx 找出 long-running transaction

5. READ COMMITTED + Binlog ROW Interaction

READ COMMITTED isolation 改善 deadlock、但對 binlog format 有要求：

binlog_format=STATEMENT：READ COMMITTED 下 transaction 看到不同 snapshot、replicate 後 replica 結果可能 不同於 primary（broken replication semantically）
binlog_format=ROW：每個 row event 都 explicit、READ COMMITTED 跟 ROW 兼容、replica 結果一致
binlog_format=MIXED：部分 case 仍可能 fall back STATEMENT、不推薦

修法：

用 READ COMMITTED 時、強制 binlog_format=ROW
全 cluster server（primary + replica + Group Replication members）統一 binlog_format
Migration 5.7 STATEMENT → 8.0 ROW 時、isolation 跟 binlog format 一起 review

跟其他模組整合

跟 Replication

binlog_format=ROW 跟 isolation level 互動已述。Replica apply ROW binlog 時、replica 上 也 acquire 同樣 lock、replica 上的 long query 跟 replication lag 互動。詳見 Replication Topology。

跟 Group Replication

GR certification phase 跟 row lock 衝突 — write conflict 檢測在 certification、不是 lock。但 local row lock 仍存在、影響 single-instance write throughput。詳見 Group Replication。

跟 Online Schema Change

gh-ost / pt-osc 在 cut-over 階段需要 metadata lock、跟 long-running transaction 衝突。Lock contention deep dive 跟 OSC cut-over 議題密切。詳見 Online Schema Change Tools。

跟 Query Optimization

Slow query 持 lock 久、放大 contention。EXPLAIN ANALYZE 看實際執行時間、跟 lock holding time 直接相關。詳見 Query Optimization。

跟 InnoDB Tuning

innodb_lock_wait_timeout=50（預設 50 秒）— lock wait 超時 transaction 自動 rollback、避免無限等。production 建議調短（10-20 秒）、快 fail 給 application retry。詳見 InnoDB Tuning。

跟 PostgreSQL Lock model 對比

維度	MySQL InnoDB	PostgreSQL
Concurrency model	Lock-based（rec / gap / next-key）	MVCC-heavy（few explicit lock）
預設 isolation	REPEATABLE READ	READ COMMITTED
Gap lock	有	無對應（PG 用 predicate lock for SERIALIZABLE）
Deadlock 機率	中-高	低
Auto-inc	內建 + auto-inc lock	SEQUENCE（無對應 lock 議題）
Snapshot isolation	部分（RR 內）	完整（MVCC 跑全 stack）

PG 用 MVCC 跑大部分並行 control、少數 case 才用 explicit lock、整體 deadlock 機率低。MySQL 用 lock-based + MVCC mixed、production 必須懂 lock pattern。

觀測 metric

Production 持續 monitor：

Innodb_row_lock_waits / _time → lock wait 累計
Innodb_deadlocks → deadlock 次數（5.7+ 有、之前要 parse SHOW ENGINE）
performance_schema.data_lock_waits → 即時 lock wait 視圖（8.0+）
information_schema.innodb_trx → long-running transaction
slow_query_log → 看 query 是否花太多 time 在 lock wait

對 deadlock：把 innodb_print_all_deadlocks=ON、所有 deadlock 寫 error log、不用 SHOW ENGINE 才看到。

何時改 isolation level

場景	建議 isolation
典型 web OLTP、低-中寫吞吐	REPEATABLE READ（預設）
高寫吞吐、deadlock 頻繁	READ COMMITTED
金融 transaction、需要 strict isolation	REPEATABLE READ + 仔細 review
嚴格 serializable（小 case）	SERIALIZABLE（performance penalty）
跨 region replication + 強一致	用 Group Replication / Spanner 而不是 isolation level

MySQL 5.7 → 8.0 Major Version Upgrade：character set / authentication / atomic DDL 三條 paradigm 同時換軌

Tue, 19 May 2026 00:00:00 +0000

本文是 MySQL 內 version upgrade migration playbook、走 Migration playbook methodology Type E paradigm shift 結構。

5.7 → 8.0 看起來是 minor bump（從 5.7.40 升到 8.0.36）、但不是。Oracle 把這個 release boundary 當成 清庫存的機會 — 同時推出 3 個 behavioral paradigm shift：

Paradigm	5.7 default	8.0 default	影響
Character set	latin1 / utf8（=utf8mb3）	utf8mb4	string column 儲存 + emoji / 4-byte UTF-8
Authentication plugin	mysql_native_password	caching_sha2_password	client / library 需要支援新 plugin
DDL atomicity	Non-atomic（crash 留 orphan）	Atomic（crash recovery 乾淨）	開發信心、crash recovery 行為

對應 任意一個 paradigm 升級失誤、production 都會 down。三條同時換、必須 三條都規劃。

這條 upgrade 比 PostgreSQL major-version-upgrade 工作量大 — PG major upgrade 主要是 pg_upgrade 工具流程、MySQL 是 behavioral compatibility audit + ecosystem 全 review。

為什麼是 Type E（不是 minor upgrade）

跑 6 維 diff dimension audit：

維度	評	說明
Schema	Medium	SQL 一致、reserved keyword 新增、collation 預設變
Operational	Medium-High	binary upgrade flow 簡單、但 ecosystem 工具兼容性 audit 工作量大
Paradigm	High	3 條 default paradigm shift（charset / auth / atomic DDL）
Components	Low	同 MySQL 引擎、不引新 component
App change	Medium-High	client library / driver / connection string 都可能要改
Topology	Low	部署 topology 不變

Paradigm = High + App change = Medium-High → Type E paradigm shift。

雖然是 同一個 vendor 的 major version、實際的 application 行為差異 跨越多個 paradigm、6 type 框架仍適用、結構走 partial migration 收斂。

4-phase upgrade

Phase 1：Pre-check audit

8.0 升級前用 MySQL Shell upgrade checker + 手動 audit：

1mysqlsh root@5.7-primary.example.com -- util check-for-server-upgrade

Upgrade checker 報告：

Reserved keyword 衝突（5.7 不是 keyword 但 8.0 是、例如 WINDOW / RANK / LATERAL）
舊 character set / collation 使用點（latin1 / utf8mb3）
Deprecated feature 使用（GROUP BY 隱含 ORDER BY 等）
Datatype 變動（DATETIME 行為微差）

手動 audit：

Application driver / library 版本是否支援 caching_sha2_password
Connection string 內 default-authentication-plugin 設定
ORM / framework 是否假設 utf8 而非 utf8mb4

完成標準：寫出 blocker list（必須在升級前修） + warning list（可在升級後處理）。

Phase 2：Shadow upgrade — Replica 升 8.0

從 non-critical replica 升起。先升一個 replica、跑 production traffic（read-only）2-4 週：

 1# 1. Stop replica
 2systemctl stop mysql
 3
 4# 2. Backup（XtraBackup）
 5xtrabackup --backup --target-dir=/backup/pre-upgrade
 6
 7# 3. Install MySQL 8.0 binary（apt / yum 升級）
 8apt-get install mysql-server-8.0
 9
10# 4. 啟動 8.0、自動 upgrade data dictionary
11systemctl start mysql
12
13# 5. 8.0 自動跑 server-upgrade（8.0.16+ 內建、mysql_upgrade utility 已 deprecated）
14# 若 5.7 升 8.0.16 之前 server、才需要手動跑 mysql_upgrade -u root -p
15
16# 6. 重新 attach 為 5.7 primary 的 replica（8.0 replica 可 attach 5.7 primary）
17CHANGE MASTER TO MASTER_AUTO_POSITION=1;
18START SLAVE;

跑 production read traffic 觀察：

Query result 是否跟 5.7 一致（特別 character set 相關）
Replication lag 是否在 baseline 範圍
8.0-specific feature 是否需要（hash join / window function 等）

Phase 3：Promote 8.0 為 primary

確認 shadow replica 穩定後：

 1# 1. 升其他 replica 到 8.0
 2# （per-replica 跑 Phase 2 流程）
 3
 4# 2. Application application 改用 8.0-compatible driver
 5# 把 connection string 加 default-authentication-plugin=caching_sha2_password
 6# 或仍用 mysql_native_password（user 端設定）
 7
 8# 3. Failover：promote 8.0 replica 為 primary
 9# 用 Orchestrator / 自管 failover 流程
10
11# 4. 5.7 primary 變成 8.0 replica、升 5.7 → 8.0

完成標準：所有 server 都是 8.0、application 連 8.0 endpoint 無 error。

Phase 4：Decommission 5.7 + 套用 8.0 paradigm

完成 binary upgrade 不是真正完成 — 還要逐步遷移 paradigm：

Character set 升級：歷史 latin1 / utf8 table 改 utf8mb4
```
1ALTER TABLE orders CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci;
```
每張 table 走 gh-ost / pt-osc（避免 production 阻塞）
Authentication 升級：逐步把 user 從 mysql_native_password 改 caching_sha2_password
```
1ALTER USER 'app'@'%' IDENTIFIED WITH caching_sha2_password BY 'new_password';
```
需確認 application driver 已支援新 plugin（多數 modern driver OK、legacy 可能要升級）
Reserved keyword 處理：column / table 名稱跟新 reserved word 衝突的、改名
```
1ALTER TABLE events RENAME COLUMN window TO event_window;
```

多數 org 在 Phase 3 停留更久 — paradigm 升級不是一次 big bang、是漸進。

5 個 Production 踩雷

1. Authentication plugin — Application 突然連不上

升 8.0 後 new user 預設用 caching_sha2_password、舊 application driver（< 5 年版本）不支援、connect error: Authentication plugin 'caching_sha2_password' cannot be loaded。

修法：

先升 driver：每個 application 升級 mysql-connector-* 到支援 caching_sha2 的版本（多數 modern release 已支援）
短期 workaround：用 mysql_native_password（new user 顯式 create with IDENTIFIED WITH mysql_native_password）
設 default_authentication_plugin=mysql_native_password、強制保留舊 default

2. Character set 4-byte UTF-8 — Emoji 進不去

5.7 latin1 / utf8（=utf8mb3）column 升 8.0 後 仍是 utf8mb3、不會自動升 utf8mb4。Application 寫入 emoji（4-byte UTF-8）會被 truncate / 拒絕。

修法：

逐 table CONVERT：gh-ost / pt-osc 跑 ALTER TABLE ... CONVERT TO CHARACTER SET utf8mb4
新建 table 預設用 utf8mb4（character_set_server=utf8mb4 設定）
Application 連線 charset 設定一致（character_set_client / connection / results）

3. Reserved keyword — Application query 突然 syntax error

5.7 跑得好的 query：

1SELECT window, rank FROM events;

8.0 報錯：window 跟 rank 都是 reserved keyword、必須 backtick：

1SELECT `window`, `rank` FROM events;

修法：

Phase 1 upgrade checker 已抓出來、Application code review 改 SQL
推薦 predefer table / column 名 backtick policy（一律加 backtick、避免未來 reserved word 衝突）
ORM 多數會自動 backtick、raw SQL 容易踩

4. Group Replication / 新 feature 開了就不能 rollback

8.0 升級後 誘惑使用 8.0-only feature：

Group Replication（5.7 也有但 8.0 更穩）
Resource Group（5.7 沒有）
Histograms（5.7 沒有）
CTE / window function（5.7 沒有）

一旦 application 用了這些 feature、不能 rollback 5.7（feature 不存在、query 失敗）。

修法：

Phase 1-3 期間禁用 8.0-only feature、保留 rollback option
Phase 4 完成 且穩定運作 30+ 天後、才開始 evaluate 8.0-only feature
加 8.0-only feature 時 明確記錄不可 rollback

5. Collation default 變動 — Sort order 跟 unique 行為改變

5.7 utf8mb4 預設 collation = utf8mb4_general_ci、8.0 預設 = utf8mb4_0900_ai_ci。兩者排序行為不一致：

utf8mb4_general_ci：簡化 collation、不嚴格遵循 Unicode
utf8mb4_0900_ai_ci：Unicode 9.0 compliance、accent-insensitive

對 已存在的 table、collation 不會被 8.0 升級改變（保留 5.7 設定）。但 新建 table 預設用 0900_ai_ci、UNION / JOIN 跨不同 collation 的 column 可能 error: Illegal mix of collations。

修法：

統一 collation：要麼 所有 table 改 0900_ai_ci、要麼 所有 table 保留 general_ci
Schema migration 走 OSC 工具
Application 內 sort-dependent logic（leaderboard / search ranking）要驗證新 collation 結果

Capability gap：5.7 有但 8.0 沒有

少數 8.0 拿走的能力：

Query Cache：5.7 內建（但已 deprecated）、8.0 完全移除。Query cache 在高並發場景 actually slowing down、移除是好事
InnoDB MEMORY engine：5.7 部分支援、8.0 限制更多
Some MyISAM optimizations：8.0 強制 InnoDB-first、MyISAM-specific 工作流 broken

對 Query Cache user：升 8.0 前評估是否依賴、考慮改 application-side cache（Redis）。

容量與成本對照

項目	5.7	8.0
Cost	Free (CE) / Enterprise	Free (CE) / Enterprise
升級 hosts × 時間	-	per-instance ~30 分鐘 binary upgrade
Application 改動	-	driver upgrade + SQL review
Character set conversion	-	per-table OSC、大表小時級
Ops headcount	-	1-2 個 DBA × 2-4 週
對 production 影響	-	Phase 2-3 漸進升級、無大 downtime

5.7 → 8.0 upgrade 整體成本是 1-2 個 FTE 月 規模。對中型 deployment（100+ DB）可能更多。

何時不升

App 用 Query Cache 重度：8.0 沒了、要 application 改造
Old driver 不能升：legacy enterprise application 用 10 年前 driver、driver vendor 已倒、無法升 8.0-compatible
Compliance freeze：某些金融 / 醫療場景 freeze technology 多年、升級需要重 audit + recertification
5.7 已 EOL（2023-10）後仍堅持不升：security risk 高、應該 優先升

跟 PostgreSQL Major Version Upgrade 對比

維度	MySQL 5.7 → 8.0	PostgreSQL N → N+1
Tool	binary upgrade + 自動 server-upgrade（8.0.16+；舊版用 mysql_upgrade）	pg_upgrade（in-place）
Downtime	< 5 分鐘 per instance（binary + DD upgrade）	< 1 分鐘 per instance（pg_upgrade）
Paradigm shift	3 條（charset / auth / atomic DDL）	一般 0-1 條（PG major 多保 compat）
App 必須改	多（driver + query）	少（多數 query 兼容）
Risk	高（paradigm 多）	中-低
Rollback	不可（一旦 atomic DDL data 寫入、5.7 不認）	不可（pg_upgrade 不可逆）

PG major upgrade 比 MySQL 簡單。MySQL 5.7 → 8.0 是特例 — Oracle 把多年 deprecated 一次清。8.0 → 8.4 / 9.x 預期更平順。

跟其他模組整合

跟 Replication topology

8.0 replica 可 attach 5.7 primary（向下兼容）、但 5.7 replica 不能 attach 8.0 primary（向上不兼容）。Upgrade 順序必須 replica 先升、primary 後升。詳見 Replication Topology。

跟 InnoDB Tuning

8.0 InnoDB 改寫了 redo log（atomic、可動態調整）、innodb_log_file_size 升級後可以 online 改、不必停機。詳見 InnoDB Tuning。

跟 Modern SQL Features

8.0 補 CTE / window / JSON_TABLE / hash join — 是 為什麼要升 8.0 的 driver。詳見 Modern SQL Features。

跟 Group Replication

GR 在 5.7 有、但 8.0 才成熟。Group Replication 的 MySQL Shell + Router 整套 stack 主要在 8.0 才完整。詳見 Group Replication。

跟 Aurora / PlanetScale 等 managed

從 5.7 升 8.0 是個好時機 同時評估 是否要遷 Aurora / PlanetScale — 既然要做 paradigm shift、不如一次到位。詳見 migrate-to-aurora / migrate-to-planetscale。

MySQL → Aurora MySQL：storage layer 轉手到 AWS、replication / HA / backup 全部 outsource

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 MySQL 跟 Aurora。走 Migration playbook methodology Type C operational hybrid 結構。每階段切換用 migration gate 把關。

Ops 責任	自管 MySQL	Aurora MySQL
Storage	EBS / local SSD、自己選 + 監控	Aurora distributed storage（自動 6 份跨 3 AZ）
Replication setup	binlog + semi-sync 自己配	Storage layer 自動、無 binlog replication
Failover	Orchestrator + VIP + fence script	Aurora 內建、< 30 秒 RTO
Backup	mysqldump / Percona XtraBackup	自動 continuous backup、PITR
Parameter tuning	my.cnf 自己改	Parameter group（部分 knob 鎖）
Connection limit	max_connections 自己設	看 instance class、有上限
Auto scaling	不適用	Aurora Serverless v2 + read replica auto-scaling
Multi-region	自己配 chained replication	Aurora Global Database
Per-month cost	EC2 + EBS + 自己管 ops	Higher per-GB / per-IOPS、但 ops headcount saving

從 MySQL 角度 看 Aurora MySQL：wire protocol 一致、SQL 一致、ORM 不必改、application 連 endpoint 字串以外幾乎不必動。從 Ops 角度 看 Aurora MySQL：所有 storage / replication / failover knob 都 看不到也改不了、整個 ops 心智模型重寫。

這是 Type C operational hybrid 的典型 signature — schema / paradigm 接近、operational 完全不同。

為什麼是 Type C（operational 為主）

跑 6 維 diff dimension audit：

維度	評	說明
Schema	Low	MySQL wire protocol + SQL 完全一致
Operational	High	storage / replication / failover / backup ops 全部轉到 AWS
Paradigm	Low	同 OLTP relational paradigm
Components	Medium	Aurora 加 storage layer / cluster endpoint / reader endpoint
App change	Low	主要 connection string + connection pool 設定
Topology	Low-Medium	single-region scaling、跨 region 走 Global Database

Operational = High（其他 Low） → Type C operational hybrid。Migration 路徑用 4-phase drop-in cutover + operational re-onboarding。

Driver：TCO + Multi-AZ HA + AWS integration

從自管 MySQL 遷到 Aurora MySQL 的核心 driver：

TCO：自管 MySQL 真實 cost = EC2 + EBS + ops headcount（1-3 個 FTE 撐大 MySQL deployment）。Aurora per-GB / per-IOPS 比 EC2+EBS 貴 30-50%、但省 ops headcount、總帳通常 break-even 或更便宜
Multi-AZ HA：Aurora storage 自動 6 份跨 3 AZ、failover < 30 秒、不需要自管 Orchestrator + VIP + fence script
AWS ecosystem integration：跟 Lambda / SAM / CloudFormation / IAM / Secrets Manager 整合、給 cloud-native architecture 加分
Read scaling：Aurora 最多 15 個 read replica、storage layer 共享（不 replicate data、僅 replicate page cache）、read latency < 10ms inter-replica

不適合 已用 Percona Server fork 或 需要 cross-cloud portability 的 org — Aurora MySQL 是 AWS-only、且 fork 自 MySQL 5.7/8.0、跟 Percona 特性不完全一致。

4-phase migration

Phase 1：Aurora cluster 起來作為 read replica

最低風險入口：建 Aurora cluster、用 MySQL binlog 把 production 資料 stream 進 Aurora。Application 仍寫自管 MySQL primary、Aurora 作為 external read replica。

 1# 1. 在 AWS 建 Aurora MySQL cluster
 2aws rds create-db-cluster \
 3  --db-cluster-identifier prod-aurora \
 4  --engine aurora-mysql \
 5  --engine-version 8.0.mysql_aurora.3.04.0 \
 6  --master-username admin \
 7  --master-user-password ... \
 8  --database-name production \
 9  --vpc-security-group-ids sg-xxx \
10  --db-subnet-group-name prod-subnet
11
12# 2. 用 mysqldump 或 Percona XtraBackup 拿 baseline
13mysqldump --single-transaction --master-data=2 --triggers --routines --events \
14  --all-databases > baseline.sql
15
16# 3. Restore 到 Aurora
17mysql -h prod-aurora.cluster-xxx.us-east-1.rds.amazonaws.com -u admin -p < baseline.sql
18
19# 4. 設定 Aurora 從自管 MySQL 接 binlog
20CALL mysql.rds_set_external_master(
21  'self-managed-primary.example.com', 3306,
22  'replication_user', 'password',
23  'mysql-bin.000123', 12345, 0
24);
25CALL mysql.rds_start_replication;

完成標準：Aurora replica lag < 1 秒、跟 production primary 同步。

Phase 2：Application read 切到 Aurora reader endpoint

Application 仍寫自管 primary、但讀 query 切到 Aurora reader endpoint：

Aurora reader endpoint：prod-aurora.cluster-ro-xxx.us-east-1.rds.amazonaws.com
自動 round-robin 多個 read replica
ProxySQL 或 application config 改 read connection string

跑 1-2 週、確認：

Aurora read latency 跟自管 replica latency 接近（通常 Aurora 略好）
Aurora replication lag 穩定 < 1 秒
Aurora query 結果跟自管 primary 一致（spot-check critical query）

完成標準：所有 read traffic 都進 Aurora、no application bug。

Phase 3：Cutover — promote Aurora primary

Cutover window 內：

 1# 1. 停 application 寫入（feature flag / scheduled maintenance）
 2
 3# 2. 等自管 primary 跟 Aurora 同步完成（檢查 Aurora replica lag = 0）
 4
 5# 3. 把 Aurora 從 external replica 提升為獨立 primary
 6CALL mysql.rds_stop_replication;
 7CALL mysql.rds_reset_external_master;
 8
 9# 4. Application 寫 connection string 切到 Aurora writer endpoint
10# prod-aurora.cluster-xxx.us-east-1.rds.amazonaws.com
11
12# 5. 開始 application traffic

完成標準：寫入流量 100% 進 Aurora、自管 primary 變 idle。Cutover 通常需要 30-60 分鐘 maintenance window。

Phase 4：Decommission 自管 MySQL

跑 1-2 週確認 Aurora 穩定後 慢慢退役自管：

自管 primary 保留作 cold backup（1-3 個月）、不接 traffic、可隨時 rollback
Replica 一個一個關掉
監控 Aurora cost vs 預估、確認 break-even

完成標準：自管 EC2 instance terminate、EBS volume snapshot 後 delete、cost 對比驗證符合預期。

5 個 Production 踩雷

1. Parameter group 沒對齊 — `innodb_flush_log_at_trx_commit` 等行為差

Aurora 的 parameter group 取代 my.cnf。預設 parameter group 不一定跟自管 MySQL 一致：

innodb_flush_log_at_trx_commit：自管常設 1（zero loss）、Aurora 預設仍 1 但走 Aurora storage durability（行為等價但不同 mechanism）
sync_binlog：自管 1、Aurora 沒有 binlog 寫 disk 概念（Aurora 不用 binlog 做 replication、binlog 是 optional output）
time_zone：Aurora 預設 UTC、自管常設 local time、TIMESTAMP query 行為可能不同
character_set_*：自管常設 utf8mb4、Aurora 預設可能是 latin1（看 cluster create 命令）

修法：

Phase 1 完成後 逐 row 對比 parameter group：
```
1SELECT @@global.variable_name FROM ...
```
建 custom DB cluster parameter group、匹配自管設定
重啟 Aurora primary 套 parameter group 改變（部分 parameter 需要重啟）

2. IAM authentication — application 沒準備

Aurora 提供 IAM authentication（不用 password、用 AWS IAM role + temporary token）。Application 用 IAM auth 不必管 password rotation、但程式碼必須 call AWS SDK 取 token、放 connection 設定。

如果 Phase 2-3 期間沒 reverse engineer application connection logic、cutover 後 application 仍試用 password auth、Aurora 拒絕、production down。

修法：

評估是否啟用 IAM auth — 簡單情況保留 password、整合 AWS Secrets Manager 自動 rotation
啟用 IAM 必須 application code 改：
- Java：com.amazonaws.services.rds.auth.RdsIamAuthTokenGenerator
- Python：boto3.client('rds').generate_db_auth_token(...)
- Go：aws-sdk-go-v2/feature/rds/auth
Phase 2 期間 application 對 Aurora 用 IAM token、self-managed 仍 password — 雙 path code

3. Aurora-only feature 寫進 application、rollback 成本升高

Migration 過程開發發現 Aurora 有 Aurora-only feature（Backtrack、Performance Insights、Aurora Global Database）、誘惑使用。一旦 application 用了 Aurora-only feature、要 rollback 自管 MySQL 變不可能（feature 不存在、query 失敗）。

常見 Aurora-only feature：

Backtrack：72 小時內 in-place rollback 整個 DB（不同於 PITR）
Aurora ML：SQL function 內接 SageMaker / Comprehend
Aurora Parallel Query：analytical query 跨 storage node 並行
Aurora Auto Scaling：read replica 數量按 CPU 自動加減

修法：

Phase 1-3 期間禁用 Aurora-only feature、保留 rollback option
Phase 4 完成後 才開始 evaluate Aurora-only feature、加進來時 明確記錄不可 rollback decision
把 Aurora-only feature 跟 Aurora 特定 cluster 綁定，避免 application 邏輯依賴 Aurora-only

4. Read replica endpoint behavior — Application 不知道 reader endpoint round-robin

Aurora reader endpoint（prod-aurora.cluster-ro-xxx）是 DNS-based load balancer、每次 DNS query 給不同 replica IP。Application connection pool 連續開 10 個 connection、可能全部連同一個 replica（DNS cache）、不均勻。

修法：

Application connection pool 強制 DNS re-resolve（避免長時間 cache）
或用 RDS Proxy（managed connection pool）放在前面、不直接連 reader endpoint
或用 Route 53 latency-based routing 配 Aurora reader endpoint per AZ、application 連最近 AZ

5. Region failover — Aurora Global Database vs 自管 chained replication

自管 cross-region replication 是 chained replication（primary → region2 replica → region2 cascading replica）。Aurora Global Database 是 storage-level replication（storage page 直接 ship，而非 binlog）、跨 region < 1 秒 lag、failover < 1 分鐘。

但 Aurora Global Database 是 active-passive（primary region 可寫、secondary region 只讀）。如果原本自管已經 cross-region active-active write（用 multi-master 或應用層 sharding）、Aurora Global Database 的寫入模型會成為限制。

修法：

評估 cross-region 是 DR 用途還是 active write 用途
純 DR + read scaling：Aurora Global Database 直接 cover
Active-active write：要 Aurora DSQL（2024 新推出、跟 Aurora 不同 product）或 distributed SQL（CockroachDB / Spanner）

Capability gap：自管 MySQL 有但 Aurora 沒有

能力	自管 MySQL	Aurora MySQL
Plugin 自己裝	任意	受限（Aurora 只允許官方支援）
OS-level access	完整 SSH access	managed service，無 SSH access
MySQL 8.0 latest patch	你決定	跟 Aurora major version 對應、有滯後
InnoDB log_file_size	自己改	Aurora 內建 storage path
Custom storage engine	可（MyRocks / TokuDB）	只 InnoDB（Aurora optimized）
Cross-cloud DR	自配 binlog ship	Aurora-only (AWS region)

評估時必須確認 當前自管功能 沒用到 Aurora 不支援的能力。如果在用 MyRocks 等 storage engine、Aurora migration 不可行。

容量與成本對照

對 100 GB DB、5K WPS、20 個 application instance 的 deployment：

項目	自管 MySQL（EC2）	Aurora MySQL
Primary instance	r5.2xlarge（$0.50/hr）	db.r6g.2xlarge（$0.83/hr）
EBS / Aurora storage	io2 100 GB + 5000 IOPS = ~$70/mo	Aurora storage 100 GB = ~$10/mo + I/O $0.20/M
Replica × 3	3 × r5.2xlarge = $1080/mo	3 × db.r6g.large = $540/mo
Backup storage	S3 + 自己 cron mysqldump ~$50/mo	Aurora backup 100 GB 免費 + 額外 $0.021/GB
Ops headcount	1-2 FTE × $150K = $300-500K/yr	< 0.5 FTE × $150K = $75K/yr
Total infra	~$1500/mo + 大 ops cost	~$2000-3000/mo + 小 ops cost

Pure infra cost Aurora 貴 30-50%、但 ops cost 降幅大過 infra increase — 200 人 eng team 養 1.5 FTE DBA 是 $300K-400K/yr、Aurora 換成 0.3 FTE 是 $60K-100K/yr、差距 $200K+ 抵 infra increase。

小團隊 / 小 deployment Aurora 不一定划算 — 50 人 eng team 沒有 dedicated DBA、自管 MySQL 也只佔某人 20% 時間、Aurora migration 的 ops saving 不存在。

Production case：Netflix Aurora consolidation

MySQL → Aurora migration 的 production 責任是把自管 database operation 轉移成 managed SQL 的契約，而非只搬 schema 與資料。9.C23 Netflix Aurora consolidation 提供的工程訊號是多套 RDBMS 整併到 Aurora 後，效能、成本與操作責任一起改變。

這個案例要回收到三個操作判準。第一，migration driver 應寫成 operation transfer，例如 backup、failover、storage growth、patching 與 observability 由誰承擔。第二，效能與成本要一起看，因為 Aurora 的 storage / compute / I/O 計費會把原本藏在 DBA 操作裡的成本攤開。第三，整併多套 RDBMS 時要先做 feature inventory，確認 plugin、storage engine、charset、replication topology 與 SQL mode 都能落到 Aurora MySQL 支援範圍。

Netflix case 的 sibling 路由是 Aurora vendor page 與 PostgreSQL → Aurora。若 migration 目標從 managed SQL 變成 multi-region active-active write，應改接 1.11 全球分散式 OLTP。

何時維持原路線

Cross-cloud portability 是 requirement：Aurora AWS-only、要 cross-cloud 用 PlanetScale 或自管
用 Percona Server fork / MyRocks 等非標準 engine：Aurora 不支援
需要 OS-level customization：Aurora 完全 managed、無 SSH
規模太小：< 100 GB / < 1K WPS、自管 MySQL EC2 spot instance 已經夠便宜
規模太大：> 50 TB single DB / > 100K WPS、Aurora single-instance 仍是 ceiling、考慮 Vitess 或 Aurora DSQL

MySQL → PlanetScale：managed Vitess + branch-based schema workflow 的 hybrid shift

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 MySQL 跟 PlanetScale。走 Migration playbook methodology Type E paradigm shift 結構。

維度	自管 MySQL	PlanetScale
Sharding	自己配 Vitess 或不 shard	Vitess 透明（即使單 keyspace 也走 Vitess）
Schema migration	gh-ost / pt-osc 跑 ALTER	Branch + Deploy Request workflow
Failover	Orchestrator 自管	PlanetScale 自動
Branching	不存在概念	DB branch（git-like）+ revert
Connection limit	max_connections 自己設	PlanetScale connection pool / per-plan limit
Foreign key	支援	有限支援（Vitess 18+ / 2023 起、需明確啟用）
`SUPER` privilege	自己有	無
Multi-region	自己配 binlog ship	PlanetScale 內建（Boost feature）
Per-month cost	EC2 + EBS + ops	per-row-read + per-row-written + storage

從 application 連線 視角：跟 Aurora MySQL migration 一樣低、connection string 換就完事。從 schema management 視角：PlanetScale 強推 branch-based workflow — 改 schema 不再是「跑 gh-ost」、是「開 branch → Deploy Request → review → merge」。整個 schema change 工作流跟 git 同型、跟 application code review 同 workflow。

這是 workflow + schema-tooling shift — Aurora 是「同 workflow + managed」、PlanetScale 是「同 protocol + 不同 schema workflow + branch tooling」。Database paradigm（OLTP relational）跟 application change 都 Low、主要 shift 在 DBA / dev 操作介面。

為什麼是 Type E（Paradigm + Operational + Schema 多軸）

跑 6 維 diff dimension audit：

維度	評	說明
Schema	Medium-High	MySQL wire protocol 一致、FK 有限支援（Vitess 18+）、部分 INSTANT DDL 行為差
Operational	High	branch lifecycle、Deploy Request workflow、connection pooler 不同
Paradigm	High	branch-based schema management、跟自管 gh-ost / pt-osc 思維完全不同
Components	Medium	PlanetScale CLI / Console / API / connection pooler 都進團隊工具
App change	Low	connection string + 移除 FK 約束
Topology	Low-Medium	Vitess 透明 sharding 即使單 keyspace

Paradigm + Operational + Schema 三軸 High。按優先序 Schema > Paradigm > Operational、預設選 Type A。但 讀者最關心 的是 schema workflow paradigm 轉變、不是 schema field translation — Type E 結構更貼合「不收斂、部分 adopt」的真實 migration 流程。

→ Type E paradigm shift、4-phase partial migration（多數 org 停 Phase 2-3 hybrid）。

Driver：Branch-based workflow + Vitess transparent sharding + zero DBA

從自管 MySQL 遷 PlanetScale 的核心 driver 有三條：

Branch-based schema workflow：

改 schema 開 branch（pscale branch create）、在 branch 上跑 ALTER、跑 application code 改、merge 進 main 前 Deploy Request review
Deploy Request 顯示 schema diff、跟 GitHub PR 同概念
Merge 後 PlanetScale 自動跑 no-downtime schema migration（內部 VReplication）
出問題可 revert（48 小時內、用 Vitess VReplication 反向 ship 資料）

這條 workflow 對 developer ergonomic 拉力大 — schema change 不再是「DBA 工作」、是「dev 自己處理、跟 code review 同流程」。

Vitess transparent sharding：

PlanetScale 強制每個 cluster 走 Vitess（即使單 keyspace 看似 unsharded）
寫吞吐成長到需要 shard 時、加 shard 是 PlanetScale internal 操作、application 看不到
不用養 Vitess SRE 團隊

Zero DBA：

PlanetScale 接管所有 ops（failover / backup / parameter / scaling）
跟 Aurora 同等級「managed」、加上 branch workflow

FK 處理：早期 Vitess（< 18）不支援 FK、PlanetScale 對應期間建議全 drop FK + 改 application enforcement。Vitess 18（2023 末）後加 FK 支援、PlanetScale 在合適 plan 內可啟用、但 cross-shard FK 仍受限。Phase 1 audit 重點不再是「全 drop FK」、而是「驗證 FK 行為（特別 cascade / cross-shard）跟自管 MySQL 預期一致」。

4-phase partial migration（不收斂）

Phase 1：FK 行為驗證 + schema audit、PlanetScale shadow cluster 起來

第一步是 FK 行為驗證 + schema layout audit。Vitess 18+ / PlanetScale 已支援 FK、但行為跟自管 MySQL 有差異：

列所有 FK：SELECT * FROM information_schema.KEY_COLUMN_USAGE WHERE REFERENCED_TABLE_NAME IS NOT NULL
對每個 FK 評估：
- Cross-shard FK：PlanetScale 不允許 FK 跨 shard、parent 跟 child 必須同 shard（透過 Vindex 設計）
- Cascade 行為：cross-shard DELETE cascade 在 PlanetScale 不執行、改 application 層處理
- Native FK 啟用 vs application enforcement：依 Vitess 18+ 行為決定保留 FK 或改 app-level
PlanetScale shadow cluster 起來、跑 application schema、用 Vitess Connector 從自管 binlog ship 資料

工作主要塊：

FK 行為 audit + 改 cross-shard cascade（依 FK 數量、weeks 工作量）
Schema dump → PlanetScale import（用 pscale shell）
Vitess Connector 設定 binlog stream

完成標準：PlanetScale shadow cluster 有完整 production schema、cross-shard FK 已處理、binlog stream lag < 1 秒。

Phase 2：Read traffic 切 PlanetScale

跟 Aurora migration Phase 2 同概念：read query 切 PlanetScale connection string、寫入仍自管 MySQL。

差異：

PlanetScale connection 有 per-plan rate limit（Scaler Plan: 10K connections、Enterprise: 100K）
必須走 PlanetScale connection pool（不是直接連、有 SSL handshake overhead）
監控 pscale_io_read_query_throttled_total 確認沒撞 plan limit

跑 2-4 週、確認：

PlanetScale read latency 跟自管 replica latency 接近（PlanetScale Boost cache 可能比自管快）
Vitess Connector stream 穩定
Application 對 PlanetScale row read 量符合 cost forecast

Phase 3：Schema workflow 切 PlanetScale + write cutover

關鍵 paradigm shift：停 gh-ost / pt-osc、改用 PlanetScale branch workflow。

訓練步驟：

第一個 small schema change 用 PlanetScale branch + Deploy Request 跑
開發團隊熟悉 pscale branch create / pscale deploy-request create CLI
CI integration：把 PlanetScale CLI 加進 deploy pipeline
退役 gh-ost / pt-osc CI integration

完成 schema workflow 訓練後 write cutover：

1# 1. PlanetScale 把 shadow cluster promote 為 primary（用 PlanetScale console / API）
2# 透過 PlanetScale Console 啟用 production write 或用 `pscale` CLI 對應 promotion 命令
3# （CLI 命令名稱隨 pscale 版本變動、以 pscale --help 為準）
4
5# 2. Application connection string 切 PlanetScale writer
6# 自管 → mysql://primary.example.com:3306/production
7# PlanetScale → mysql://...@xxx.connect.psdb.cloud/production?sslaccept=strict
8
9# 3. Vitess Connector 反向（PlanetScale → 自管）作為 rollback insurance

完成標準：寫入流量 100% 進 PlanetScale、自管 MySQL 接 PlanetScale binlog（rollback buffer）。

Phase 4：自管 MySQL 退役 / 保留作 rollback buffer

跟 Aurora migration Phase 4 同模式：

自管保留 30-90 天作 cold buffer
確認 PlanetScale cost forecast 跟 actual 一致（per-row read / write 計費可能超預期）
確認 branch workflow 在 production team 內 adopt（不是「PlanetScale 在用、但團隊還是用 gh-ost on staging」這種 stuck 狀態）

多數 org 在 Phase 3 停留更久（半年-一年）— Vitess Connector 反向 binlog ship 是穩定 rollback path、Phase 4 不急。

5 個 Production 踩雷

1. Cross-shard FK — PlanetScale 跟 native MySQL 行為不同

Vitess 18+ / PlanetScale 已支援 FK、但 cross-shard cascade 不執行。同 shard 內 FK 跟 native MySQL 一致；parent 跟 child 跨 shard 時、ON DELETE CASCADE 在 PlanetScale 不會跨 shard 觸發 child delete、結果 application 看到 orphan row。

修法：

Phase 1 audit 出哪些 FK 跨 shard（Vindex 設計決定 parent / child 是否同 shard）
同 shard FK：直接保留、行為跟自管 MySQL 一致
Cross-shard cascade：改 application 層 transaction 內 explicit DELETE child、或 background reconciliation job（定期掃 orphan）
把 parent / child 強制同 shard（用相同 Vindex column）是預防 cross-shard FK 議題的根本解

2. Deploy Request 思維轉換不到位 — 團隊仍用「跑 ALTER」心智模型

DBA / SRE 習慣 直接連 PlanetScale 跑 ALTER —但 PlanetScale 在 production branch 上 禁止 DDL（必須走 Deploy Request）。失敗訊息 not actionable（ERROR: not authorized）、DBA 找不到原因、production maintenance 卡住。

修法：

Phase 3 訓練步驟 不能跳：找一個 small schema change 在 staging 走完整 branch workflow、團隊每個 DBA / SRE 都 hands-on 過
在 ops runbook 寫明 production schema change must go through Deploy Request、列 CLI 命令模板
緊急 schema change（事故中）也走 branch + Deploy Request、PlanetScale 可加速 Deploy（不能 bypass workflow）

3. Schema diff 邊界 — PlanetScale 看不到 application-level INSERT changes

Deploy Request 顯示 schema-level diff（CREATE / ALTER / DROP）、不顯示 data diff。如果 branch 上有 INSERT 進去（測試資料 / seed data）、merge 進 main 時 資料不會搬（只搬 schema）、application 預期有資料但 production 沒。

修法：

把 seed data INSERT 放 application migration / fixture、不在 PlanetScale branch 內
用 PlanetScale CLI export branch data 跟 import to main（手動操作）作為 escape hatch
教育團隊：PlanetScale branch = schema branch、不是 git-like data branch

4. Branch lifecycle ops cost — 100 個 stale branch

每個 PR 都開一個 PlanetScale branch、PR merge 後忘記刪、累積 100 個 stale branch。每個 branch 佔 storage cost、PlanetScale plan limit 也限制 branch 數量。

修法：

CI integration：PR close 自動 pscale branch delete
設 branch retention policy（30 天無活動自動刪）
監控 pscale branch list | wc -l 數量、超 threshold alert
把 branch lifecycle 寫進 team playbook（不是 PlanetScale 教、是團隊內部規範）

5. 無 `SUPER` privilege — 部分操作不可行

PlanetScale connection 拿到的 MySQL user 沒有 SUPER privilege。需要 SUPER 的操作直接失敗：

SET GLOBAL（不能改 runtime variable）
KILL 別人的 query（PlanetScale console 提供 alt 介面）
SHOW MASTER STATUS / SHOW SLAVE STATUS（PlanetScale 抽象掉、不暴露）
INSTALL PLUGIN（managed、不允許）
STOP SLAVE / START SLAVE（Vitess 內部）

修法：

評估 application 跟 ops tool 是否依賴 SUPER privilege
改用 PlanetScale console / API 等價操作
部分監控 query（SHOW SLAVE STATUS）用 PlanetScale 內建 dashboard 代替

Schema translation 主要工作量塊

雖然 Type E 結構不以 schema translation 為主、但 schema diff 在 Phase 1 仍佔多數時間：

自管 MySQL	PlanetScale (Vitess)	翻譯難度
FOREIGN KEY constraint	（無）+ application enforcement	高
INSTANT DDL	部分支援、其他走 Vitess online DDL	低-中
Stored procedure	支援	低
Trigger	支援	低
User-defined function	受限	中
INSERT 跨表（CTE）	支援	低
Cross-shard JOIN	必須用 Vindex（user_id 等 shard key 同表）	中-高
`SUPER` 行為	不支援	中（ops tool 改）
`RELOAD` privilege	不支援	中

容量與成本對照

PlanetScale 計費 很不同：

項目	自管 MySQL（EC2）	PlanetScale Scaler Pro
Per-row read	不計費	按量計費、$1 per 1B row read
Per-row written	不計費	按量計費、$1.50 per 1M row write
Storage	EBS、$0.10/GB-month	$1.50/GB-month + replication overhead
Connection limit	max_connections 自己設	per-plan limit、可加 Connection pooler
Branch	不適用	每 branch 含 storage cost
Boost cache	不適用	additional cost
Ops headcount	1-2 FTE	< 0.2 FTE

PlanetScale 適合 小-中規模 + high developer productivity priority：

流量 < 10K WPS：cost 接近自管、developer productivity 顯著提升
流量 10-50K WPS：cost 開始貴、但 ops saving 仍大於 cost increase
流量 > 100K WPS：PlanetScale Enterprise 議價、要 commit pricing

對 high-traffic 場景 cost forecast 必須跑 真實 workload trace — PlanetScale 提供 pscale analytics 預估 read / write 量、用 production binlog replay 在 staging 跑、估算 row read / write 計費。

何時不要遷

FK 是 application core constraint：cascade DELETE / SET NULL 廣泛使用、application 改不動
大量 SUPER-required ops 自動化：DBA tools / monitoring 寫死 SUPER、改不動
OS-level customization 需求：跟 Aurora 一樣、PlanetScale 完全 managed
流量極大 + 預算敏感：> 100K WPS row read 計費可能比 EC2 貴 5x、需要 Enterprise commit pricing
跨雲 portability 是 requirement：PlanetScale 跑在自家 cloud（背後 AWS / GCP）、不像自管 Vitess 可跨雲

跟 Aurora MySQL 對比（同 batch 的選擇）

維度	Aurora MySQL	PlanetScale
Type	C operational hybrid	E paradigm shift
工作量主軸	parameter group + IAM + endpoint	FK audit + branch workflow
Sharding	不 shard、single-region scaling	Vitess 透明 sharding
Schema workflow	仍用 gh-ost / pt-osc	Branch + Deploy Request
FK	支援	不支援
Cost model	per-hour instance + per-GB storage	per-row read / write + per-GB storage
適合規模	100 GB - 50 TB	100 GB - 1 PB
跨雲	AWS-only	PlanetScale 背後 AWS / GCP

選擇邏輯：

AWS-heavy ecosystem + 不想 schema workflow paradigm shift → Aurora
Developer-first culture + 想 branch-based schema workflow + 接受 FK 限制 → PlanetScale

兩者不互斥、有 org 用 Aurora 給 OLTP core、PlanetScale 給 newer microservices（branch workflow 帶價值）。

自管 Vitess → PlanetScale：Vitess component ops outsource、加 schema workflow shift

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 Vitess sharding 跟 PlanetScale。走 Migration playbook methodology Type C operational hybrid 結構。

元件	自管 Vitess	PlanetScale
VTGate	自己部署 + LB	Managed、隱藏在 PlanetScale endpoint 後
VTTablet	自己 per-MySQL deploy	Managed
VReplication	自己 trigger workflow	Managed、透過 Console / API
VSchema	自己維護（YAML / API）	Managed、Console UI 編輯
MySQL backend	自己 EC2 / on-prem	Managed (Aurora-like underlying)
Schema migration	gh-ost / pt-osc 或 Vitess online DDL	Branch + Deploy Request workflow
Failover	自己用 VTOrc	Managed
Multi-region	自己配 VReplication 跨 region	Boost / per-region cluster
Cost model	EC2 + EBS + ops headcount	Per-row read / write + storage

這條 migration 跟 → Aurora MySQL 相似（self-managed → managed），但 target 是 Vitess-native managed、保留 sharding 能力。同時加上 → PlanetScale from self-managed MySQL 的 branch workflow paradigm。

對 已花心力建 Vitess team 但 ops cost 太大 的 org 來說、這條 migration 比 Vitess → distributed SQL 風險低、保留 sharding investment。

為什麼是 Type C（不是 Type A 或 Type E）

跑 6 維 diff dimension audit：

維度	評	說明
Schema	Low	Vitess wire protocol + VSchema 概念一致
Operational	High	4 個 component 的 ops 全部 outsource、branch workflow 是新 paradigm
Paradigm	Medium	Vitess paradigm 不變、但加 branch workflow
Components	Low	同 Vitess engine
App change	Low	Connection string 改、無 schema rewrite
Topology	Low	Vitess sharding 結構保留

Operational = High（其他 Low / Medium） → Type C operational hybrid。Branch workflow 是 Medium paradigm shift 但不是 dominant — 主要工作量在 operational ownership 轉移。

跟自管 MySQL → PlanetScale（Type E paradigm shift）對比：那條 path 是 no-Vitess → Vitess + branch、要學 Vitess 概念 + branch；本條是 已有 Vitess + 加 branch、只學 branch、複雜度低很多。

Driver：Ops headcount + Branch workflow + Vitess feature 加速

從自管 Vitess 遷 PlanetScale 的核心 driver：

Ops headcount 削減：

自管 Vitess 通常需要 2-5 個 SRE/DBA 撐 production —VTGate / VTTablet / VReplication / VSchema 各有議題
PlanetScale 把這層全部 outsource、團隊 ops headcount 可降到 < 1 FTE
對 50-200 人 eng team、ops cost saving 是顯著 driver

Branch workflow paradigm：

自管 Vitess 仍用 gh-ost / pt-osc 或 Vitess online DDL 跑 schema migration、是 DBA 主導
PlanetScale branch workflow 把 schema migration 變 developer self-service、開 branch / Deploy Request / merge、跟 git workflow 同節奏
對 high-velocity engineering culture 是文化升級

Vitess upstream feature：

PlanetScale team 是 Vitess 的主要 contributor、新 feature 通常 PlanetScale 先 ship
自管 Vitess 升級慢、PlanetScale 用戶看到新 feature 早 3-6 個月

不適合 跨雲 portability priority high 或 strict on-prem deployment 的 org — PlanetScale 是 cloud-only。

4-phase migration

Phase 1：Topology + VSchema audit

把當前自管 Vitess cluster 完整盤點：

 1# Vitess cluster topology
 2vtctldclient GetKeyspaces
 3vtctldclient GetShards 
 4vtctldclient GetTablets
 5
 6# VSchema
 7vtctldclient GetVSchema 
 8
 9# 跨 keyspace VReplication workflow
10vtctldclient GetWorkflows

對每個 keyspace 檢查：

Shard 數量：PlanetScale plan 對 shard 數量有 limit（Enterprise 才能超大規模）
VSchema features：自管可能用 PlanetScale 不支援的 Vindex（custom Vindex）
Foreign key：Vitess 18+（2023 末）才支援 FK、自管 Vitess 大多 < 18、cluster 內已 application-enforced；遷 PlanetScale 後可選擇啟用 native FK（同 shard 內）或繼續 application enforcement
Stored procedure / trigger：PlanetScale 受限、確認是否 application 依賴

完成標準：寫 blocker list（PlanetScale 不支援的功能）+ compatibility list（功能對應）。

Phase 2：Dual cluster + binlog stream

PlanetScale 內建 Vitess Connector、從外部 MySQL（包括其他 Vitess cluster）binlog stream import：

1# 1. 用 PlanetScale CLI 建 cluster
2pscale database create production --region us-east
3
4# 2. Import schema（從自管 Vitess export）
5pscale shell production main < schema.sql
6
7# 3. 設 Vitess Connector 從自管 cluster import 資料
8# （透過 PlanetScale Console）

Vitess Connector 從自管 VTTablet 的 MySQL primary 讀 binlog、寫進 PlanetScale。Lag 通常 < 1 秒。

跑 1-2 週、確認：

Schema 完整 migrate
VSchema 對應正確（Vindex 行為一致）
Lag 穩定

Phase 3：Application read 切 PlanetScale

跟 Aurora migration Phase 2 同概念。Application read query 切 PlanetScale endpoint：

連 PlanetScale connection string（xxx.connect.psdb.cloud）
仍寫自管 Vitess、Vitess Connector 同步 PlanetScale

跑 2-4 週、驗證：

Query result 一致
PlanetScale read latency 接近自管（PlanetScale Boost cache 可能加速）
PlanetScale row read 計費跟預估一致

Phase 4：Write cutover + 自管 Vitess 退役

 1# 1. PlanetScale 把 cluster promote 為 primary（透過 Console）
 2# 透過 PlanetScale Console 啟用 production write 或用 `pscale` CLI 對應 promotion 命令
 3# （CLI 命令名稱隨 pscale 版本變動、以 pscale --help 為準）
 4
 5# 2. Application 寫 connection string 切 PlanetScale
 6# 自管 Vitess → PlanetScale
 7
 8# 3. Vitess Connector 反向（PlanetScale → 自管）作為 rollback buffer
 9
10# 4. 跑 1-2 週確認、開始 decommission 自管 Vitess

Decommission 自管 Vitess 是大工程：

VTGate / VTTablet pods 一個個關
VReplication workflow 停掉
MySQL backend 保留作 cold backup 1-3 月、然後 EBS snapshot + terminate

完成標準：所有 traffic 在 PlanetScale、自管 Vitess 資源全 release、ops headcount confirm 下降。

5 個 Production 踩雷

1. VSchema 不完全兼容 — Custom Vindex 必須改

自管 Vitess 可能用了 custom Vindex（自寫 Go plugin）、PlanetScale 不支援 custom Vindex（只支援 built-in：hash / lookup_hash / unicode 等）。

修法：

Phase 1 audit 出所有 custom Vindex
對每個 custom Vindex 評估能否用 built-in 替代
不能替代的、考慮 application 層 logic 取代 Vindex（application 自己算 shard key）
或 暫不遷該 keyspace、保留自管 Vitess 跑 custom Vindex keyspace、其他遷 PlanetScale

2. Branch workflow 訓練不到位 — DBA 仍用「Vitess online DDL」心智模型

自管 Vitess team 習慣 vtctldclient ApplySchema --strategy=vitess 跑 online DDL、遷 PlanetScale 後仍想直接這樣 — 但 PlanetScale production branch 禁止 schema change、必須走 Deploy Request。

修法：

Phase 3 訓練步驟：team 每個 DBA / SRE 都跑過完整 branch + Deploy Request workflow
寫 team runbook：production schema change must 走 branch
緊急 schema change（事故中）也走 branch、PlanetScale 可加速 Deploy

3. SUPER privilege 移除 — 自管 admin tool 失效

自管 Vitess 用 SUPER privilege 跑 admin script、PlanetScale 沒給 SUPER。常見失效：

自寫 monitor script 跑 SHOW SLAVE STATUS、PlanetScale 抽象掉
自寫 backup script 跑 FLUSH TABLES WITH READ LOCK、PlanetScale 不允許
自寫 cleanup script 跑 KILL QUERY、PlanetScale 受限

修法：

Phase 1 audit 所有 admin script
改用 PlanetScale Console / CLI / API 等價操作
PlanetScale 提供的 monitoring 介面替代自管監控

4. Connection limit — PlanetScale plan 比預期緊

PlanetScale Scaler Plan: 10K connection、Enterprise: 100K。自管 Vitess VTGate 通常設 50K-200K connection、遷 PlanetScale 後 hit limit。

修法：

Phase 1 connection forecast：peak hour 多少 active connection
升 PlanetScale plan（Scaler Pro / Enterprise）
或在 application 端加 connection pool（HikariCP / pgBouncer 等價）降低 connection count

5. Cost model 翻盤 — Per-row read 計費超預期

PlanetScale 計費是 per row read / written。自管 Vitess cost = EC2 + EBS（線性 with infrastructure scale）。遷 PlanetScale 後計費跟 application access pattern 直接相關。

常見 surprise：

Heavy analytics query（COUNT *、aggregation）讀大量 row、計費高
N+1 query pattern（application 跑很多小 SELECT）讀很多 row、計費高
Read-heavy workload 沒 Boost cache、每次 query 都 hit billing

修法：

Phase 1 cost forecast：用 pscale analytics 預估 row read / write 量、估算月帳
Phase 2 期間實際對 PlanetScale 跑 traffic、看實際 billing
Heavy analytics 改 材料化 view / async aggregation、不是每次 query
高 read frequency 開 Boost cache（額外 cost、但比 row read 便宜）

Capability mapping

自管 Vitess	PlanetScale 對應	兼容度
VTGate	PlanetScale endpoint	100%
VTTablet	PlanetScale managed	100%
VReplication	PlanetScale Console + Deploy Request	90%（內部使用更受限）
VSchema	PlanetScale Console / pscale CLI	95%（custom Vindex 不支援）
Vitess online DDL	Deploy Request workflow	不同 paradigm、功能等價
Backup	PlanetScale 自動	100%（且更好）
Failover	PlanetScale 自動	100%
Multi-region	PlanetScale Boost / per-region cluster	90%
Custom plugin	不支援	0%
SUPER privilege	不支援	0%

容量與成本對照

對 200 人 eng team 用自管 Vitess（10 shard、20 TB 資料、50K WPS）：

項目	自管 Vitess（自管 EC2）	PlanetScale Scaler Pro
Infrastructure	~$15K-25K / mo（EC2 + EBS + LB）	Variable（per row read / write）
Ops headcount	2-3 FTE × $150K / yr = $300K-450K / yr	< 0.5 FTE × $150K = $75K / yr
Vitess upgrade cost	每年 1-2 個 SRE × 2 週	自動
Per-row read	不計費	$1 per 1B row read
Per-row written	不計費	$1.50 per 1M row write
Storage	EBS $2K-5K / mo	$1.50 / GB / mo
總帳	~$400K-550K / yr	~$200K-350K / yr（看 traffic）

對中型規模、PlanetScale 通常 break-even 或更便宜。對極大規模（> 200K WPS / > 100 TB）PlanetScale Enterprise 需要 commit pricing、不一定划算。

何時不要遷

跨雲 / on-prem 是 requirement：PlanetScale cloud-only
Custom Vindex / 特殊 plugin 大量使用：兼容度低、改造工作量大
規模極大 > 500K WPS / > 200 TB：PlanetScale plan 對應 Enterprise commit、議價辛苦
強合規 / 資料主權限制：金融 / 政府 / 醫療場景、PlanetScale 不一定能 cover compliance
既有 Vitess team 強 + ops cost 低：如果 ops 已經精實、不必為 outsource 而 outsource

跟其他模組整合

跟 Vitess sharding

本 migration 保留 Vitess sharding 概念、application code 視角幾乎不變。Phase 1 audit 是 Vitess concept 對應 PlanetScale concept、不是 拆 Vitess 換 distributed SQL。

跟 → PlanetScale (from self-managed MySQL)

本 migration 是 Vitess → PlanetScale、前者是 MySQL → PlanetScale。差異：

MySQL → PlanetScale (Type E)：要學 Vitess 概念 + branch workflow + FK 處理
Vitess → PlanetScale (Type C)：只學 branch workflow + ops outsource、保留所有 Vitess investment

選哪條 path 取決於起點。

跟 Major Version Upgrade

從自管 Vitess 上 MySQL 5.7 遷 PlanetScale 也是 同時跨 major version（PlanetScale 跑 8.0+ Vitess）。Application 必須同時處理 5.7 → 8.0 paradigm shift（charset / auth）。

MySQL Audit Log + SIEM

Fri, 22 May 2026 00:00:00 +0000

MySQL audit log + SIEM 的核心責任是把資料庫操作事件轉成可查詢、可保留、可告警的安全證據。Audit log 是可調查的行為紀錄；它要回答誰在何時、從哪裡、對哪個資料物件做了什麼，以及是否符合授權流程。

本文的判讀錨點是：audit logging 要服務於 investigation 與 compliance。Slow query log、general log、binary log、error log、managed service audit log、plugin audit log 各自承擔不同證據，不應混成同一種 log。

Event Taxonomy

Event taxonomy 的核心責任是定義要蒐集哪些資料庫事件。

Event 類型	目的
Login / logout	身份與來源追蹤
Failed access	brute force、credential misuse
DDL	schema 變更與 migration evidence
DCL	grant / revoke / role 變更
Sensitive read	PII / payment / high-risk table
Data modification	bulk update / delete、admin action
Replication / backup	binlog、backup、restore access

事件分類要對應 alert。DDL 可以進 release audit；failed login 可以進 security alert；sensitive read 要連到 support ticket 或 break-glass 流程。

Log Sources

Log sources 的核心責任是選出合適來源。

Source	適合用途	風險
Error log	startup、crash、replication error	缺少完整 query context
Slow log	performance investigation	安全事件覆蓋不足
General log	debug / short-term tracing	volume 大、PII 風險高
Binary log	data change recovery / CDC	需要解析、並非 user audit 完整替代
Audit plugin / managed audit	security evidence	provider / edition / config 限制

General log 在 production 要謹慎使用。它能提供完整 SQL，但 volume、PII 與成本都高；通常只用短時間 incident window 或測試環境。

SIEM Pipeline

SIEM pipeline 的核心責任是把 database event 轉成集中查詢與告警。

Pipeline step	內容
Collect	log file、managed log export、agent
Normalize	actor、source IP、database、object、action
Mask	移除 SQL literal / PII
Retain	retention、legal hold、storage class
Alert	rule、severity、owner、runbook
Review	periodic access review

Normalization 要避免把完整 SQL 直接送進 SIEM。對敏感系統，可保留 query fingerprint、table、operation、row count、actor 與 ticket id，而非 literal value。

Alert Rules

Alert rules 的核心責任是把高風險事件變成可行動訊號。

Rule	代表風險	第一反應
Admin login outside window	credential misuse / emergency access	確認 ticket、限制 session
Grant / revoke event	權限邊界變更	access review
Drop / truncate table	destructive DDL	freeze release、restore decision
Bulk update / delete	application bug / misuse	查 transaction、binlog、backup
Sensitive table read	PII exposure	ticket match、scope review

Alert 要有 owner 與 runbook。只把 log 送進 SIEM，缺少 triage rule，incident 時仍然難以快速定位。

Retention and Privacy

Retention and privacy 的核心責任是讓 audit log 同時可用與合規。Audit log 可能包含帳號、IP、SQL、table name、literal value 與 PII；保存時間越長，保護責任越重。

Retention policy 要定義：

保存天數與 storage class。
哪些欄位可被 masked。
誰能查 audit log。
Legal hold 如何覆蓋一般 retention。
Export 到外部 SIEM 的資料邊界。

Audit log 本身也要納入 access control。能查敏感 audit 的人，通常也能推斷敏感資料活動。

下一步路由

Audit log + SIEM 完成後，加密與憑證讀 Encryption / TLS / Key Management；備份事故讀 PITR / Backup；安全治理讀 Data Protection。

MySQL Cross-buffer Memory Contention

Fri, 22 May 2026 00:00:00 +0000

MySQL cross-buffer memory contention 的核心責任是把 MySQL memory tuning 從單一 buffer pool 參數擴展到整體記憶體競爭。InnoDB buffer pool、redo log buffer、sort buffer、join buffer、tmp table、thread stack、connection memory、OS page cache 與 container limit 會共同決定 latency 與 OOM 風險。

本文的判讀錨點是：MySQL memory 問題常來自「每連線 / 每操作」記憶體乘上 concurrency，而非只來自全域 buffer pool。調大單一 buffer 前，要先看 workload 與同時執行的 query。

Memory Surfaces

Memory surfaces 的核心責任是列出會互相競爭的記憶體來源。

Surface	類型	風險
InnoDB buffer pool	global	太小造成 read I/O，太大壓縮 OS 空間
Redo log buffer	global	大交易 / burst write 需要審查
Sort buffer	per session / operation	concurrent sort 放大 memory
Join buffer	per session / join	missing index 時放大
Temp table	memory / disk	group / sort / derived table
Connection overhead	per connection	connection storm / thread memory
OS page cache	system	file、backup、binlog、tmp

Per-session buffer 是最容易誤調的項目。把 sort / join buffer 全域調大，會在高 concurrency 下造成 memory spike。

Contention Signals

Contention signals 的核心責任是把 memory pressure 從 symptom 轉成可排查訊號。

Signal	意義
OOM / container restart	total memory 超出限制
swap activity	memory pressure 已影響 latency
Created_tmp_disk_tables 增加	memory temp table 不足或 query 太大
Sort_merge_passes 增加	sort memory / query shape 問題
Buffer pool hit rate 下降	working set / query pattern 問題
Threads_connected 高	per-connection memory 放大

Signal 要和 query workload 對照。Temp table 與 sort 問題通常需要 query rewrite、index 或報表隔離，而非只調 memory。

Tuning Order

Tuning order 的核心責任是建立安全調整順序。

先確認 host / container memory limit。
設定 InnoDB buffer pool baseline。
控制 max connections 與 application pool。
用 top query 找 sort / join / temp table 來源。
對特定 session / workload 調 buffer，而非全域放大。
將 analytics / reporting 移到 replica 或 OLAP。

這個順序讓全域 memory 先穩定，再處理 query 層問題。若反過來先調大 per-session buffer，壓力會在尖峰流量時爆發。

Query Patterns

Query patterns 的核心責任是找出 memory heavy 查詢。

Pattern	Memory 風險	修正方向
Large sort	sort buffer / temp table	index order、limit、pagination
Missing join index	join buffer 放大	補 index、改 join order
Big GROUP BY	tmp table / disk spill	pre-aggregate、OLAP、covering index
Large transaction	undo / lock / memory	batch、縮短 transaction
Many idle sessions	connection memory	pooler、timeout、max connection

Memory tuning 要服務 query design。若 query 本身無界，memory 只會把問題延後到更大資料量。

Runbook

Runbook 的核心責任是把 memory incident 分流。

Step	操作
Confirm pressure	OS memory、swap、OOM、MySQL status
Identify workload	processlist、performance schema、top SQL
Reduce concurrency	限流、停報表、降 background job
Protect OLTP	kill heavy query、切 read replica
Tune safely	session-level buffer、index、query
Retrospective	pool size、query guard、dashboard

OOM 後要保存 evidence：memory limit、MySQL variables、Threads_connected、top queries、tmp table counters、container restart time。

下一步路由

Cross-buffer memory contention 完成後，InnoDB 基礎讀 InnoDB Tuning；query 層讀 Query Optimization；lock 與 transaction 壓力讀 Lock Contention。

MySQL Document Store / X Protocol

Fri, 22 May 2026 00:00:00 +0000

MySQL Document Store / X Protocol 的核心責任是說明 MySQL 如何在 relational engine 內提供 JSON document workflow。Document Store 讓 application 透過 X Protocol 與 CRUD API 操作 collection，但資料仍落在 MySQL 的 storage、transaction、backup 與 permission 模型裡。

本文的判讀錨點是：Document Store 是 MySQL 內的 document access pattern，而非 MongoDB 等專用 document database 的完整替代。它適合 relational schema 旁邊的 flexible JSON，但不適合把主要資料模型都藏進無治理 JSON。

官方文件路由的核心責任是固定 X Protocol claim。實作前先查 MySQL 8.4 Document Store；本文最後檢查日是 2026-05-22。

Responsibility Boundary

Responsibility boundary 的核心責任是把 Document Store 和 SQL table 關係說清楚。

面向	Document Store	SQL table / JSON column
Access API	X Protocol、CRUD-style API	SQL、JSON function
Storage	MySQL InnoDB	MySQL InnoDB
Transaction	MySQL transaction	MySQL transaction
Governance	仍需 backup、role、audit、migration	仍需 schema / index review
Query power	document-friendly access	SQL join、index、optimizer

Document Store 的價值是降低 flexible object 的開發摩擦。它不免除資料合約、index、migration、backup 與 audit 的責任。

Suitable Use Cases

Suitable use cases 的核心責任是找出 document pattern 的合理位置。

情境	適合原因
Profile / preference	欄位變動快、查詢條件少
Integration payload	需要保存外部 JSON 原文
Feature flag / config	讀多寫少、schema 變化頻繁
Hybrid relational + JSON	主體 relational，局部 flexible
Prototype	先探索欄位，再逐步 relationalize

Document Store 最適合局部 flexible data。若核心 query 需要大量 join、aggregation、transaction invariant，應把穩定欄位拉回 relational schema。

Query and Index

Query and index 的核心責任是避免 JSON 查詢變成不可觀測黑箱。

問題	審查方向
常用 filter	是否需要 generated column / functional index
Sort / pagination	是否能走 index
Schema drift	document version / validation
Large document	update amplification、network payload
Analytics	是否應 ETL 到 OLAP / warehouse

MySQL JSON 查詢可以從 generated column 建 index。正式服務要把常用 JSON path 寫進 query contract，避免每次都掃完整 document。

Migration Boundary

Migration boundary 的核心責任是讓 document data 可演進。Document 欄位雖然 flexible，但 application 仍會依賴某些 key；這些 key 一旦進入 workflow，就要有版本與 validation。

最小治理：

Document version field。
Required key validation at application boundary。
Backfill script for new required key。
Index review for promoted key。
Export / backup restore validation。

當 JSON key 變成 join key、permission key 或 reporting key，應評估搬到 relational column。

No-Go Conditions

No-go conditions 的核心責任是指出 Document Store 的邊界。

訊號	建議路由
主要資料都是 nested document	MongoDB / document database evaluation
大量 document aggregation	OLAP / search / document-oriented engine
JSON path 已成核心 index	relationalize key 或 generated column
需要跨 document complex join	relational schema
需要 schema governance	migration + validation

Document Store 要服務於 flexible edge，而非取代資料建模。當 flexible area 穩定下來，就把它納入 schema governance。

下一步路由

Document Store / X Protocol 完成後，JSON 與 SQL 能力讀 Modern SQL Features；若主要資料模型是 document，讀 MongoDB；migration 到 PostgreSQL JSONB 可讀 MySQL to PostgreSQL。

MySQL Encryption / TLS / Key Management

Fri, 22 May 2026 00:00:00 +0000

MySQL encryption / TLS / key management 的核心責任是把資料庫保護拆成儲存加密、傳輸加密、金鑰生命週期與連線憑證治理。Encryption 是多層保護設計；它涵蓋 InnoDB tablespace、redo / undo、binary log、backup artifact、client connection 與 keyring。

本文的判讀錨點是：加密要服務於 threat model。若風險是磁碟遺失，at-rest encryption 是重點；若風險是網路攔截，TLS 是重點；若風險是內部濫用，還需要 role、audit、masking 與 SIEM。

官方文件路由的核心責任是固定 MySQL 8.4 security claim。實作前先查 InnoDB data-at-rest encryption、MySQL keyring 與 SHOW BINARY LOG STATUS；本文最後檢查日是 2026-05-22。

Protection Layers

Protection layers 的核心責任是把保護面分層。

層級	主要責任	Evidence
At-rest encryption	data file、redo、undo、temp	encryption setting、keyring status
In-transit TLS	client / replica / admin connection	TLS mode、certificate、cipher
Backup encryption	dump、snapshot、physical backup	encrypted artifact、restore drill
Key management	key generation、rotation、access	KMS / keyring log、rotation record
Credential governance	user password、secret、rotation	grant review、secret age

這些層級要一起設計。資料檔加密後，backup 若以明文落到 object storage，保護鏈仍然破洞；TLS 開啟後，client 若允許 insecure fallback，也會失去網路保護。

Keyring Boundary

Keyring boundary 的核心責任是定義 MySQL 如何取得與保護 encryption key。MySQL 支援 keyring component / plugin 與外部 KMS 整合；managed MySQL 可能由 provider 接管 key storage。

部署型態	key 責任	審查問題
Self-managed	自行部署 keyring / KMS	key file permission、backup、rotation
Managed MySQL	provider KMS / customer-managed key	region、rotation、audit、restore
Container lab	dev-only keyring	避免和 production policy 混用

Keyring 要進入 backup / restore drill。還原 database 時，只有 data file 而沒有對應 key，restore 會失敗；runbook 要保存 key dependency 與 emergency access。

TLS Policy

TLS policy 的核心責任是讓 client connection、replication connection 與 admin connection 都有明確安全等級。

連線類型	建議檢查
Application	require SSL、verify CA / identity
Replication	source / replica TLS、cert expiry
Admin	bastion / VPN / TLS、least privilege
Backup tool	encrypted transport、secret scope

TLS 驗證要包含 certificate rotation。過期憑證造成的 downtime 很常見；runbook 要記錄 CA、server cert、client cert、rotation window 與 reload / restart 條件。

1SHOW VARIABLES LIKE 'require_secure_transport';
2SHOW STATUS LIKE 'Ssl_cipher';

這些查詢只能提供 connection 層 evidence。正式驗證還要從 client 設定確認 ssl-mode 是否驗證 CA / identity。

Backup and Binlog Encryption

Backup and binlog encryption 的核心責任是保護資料離開 primary 後的生命週期。MySQL backup、binlog、logical dump、object storage、replica seed 都可能含敏感資料。

Artifact	保護方式
Logical dump	client-side encryption、storage policy
Physical backup	backup tool encryption、KMS
Binlog	encrypted storage、restricted access
Snapshot	volume encryption、snapshot policy
Restore copy	isolated environment、secret scoping

Restore drill 要確認加密 artifact 可被解密並啟動。只有成功產出 encrypted backup，還不足以證明災難時能恢復。

Rotation Runbook

Rotation runbook 的核心責任是讓 key、certificate、password 都可定期更換。

Inventory：列出 DB user、TLS cert、KMS key、backup key。
Impact：確認哪些 client / replica / backup job 使用它。
Staging：先在 staging 旋轉並跑 smoke test。
Rollout：使用雙憑證 / 雙 secret window。
Validation：查連線、replication、backup、restore。
Cleanup：移除舊 key / cert / secret。

Rotation 要設 calendar 與 owner。安全設定長期無人輪替時，incident 後會難以判斷 exposure window。

Failure Modes

Failure modes 的核心責任是提前列出加密常見事故。

Failure mode	判讀訊號	修正方向
TLS fallback	client 仍可明文連線	require secure transport、client verify
Cert expiry	application connection failure	rotation alert、dual cert window
Missing keyring	restore / startup failure	key backup、KMS access drill
Plain backup	storage artifact 未加密	backup pipeline policy
Overbroad secret	admin / app 共用 credential	role split、secret rotation

安全 runbook 要和 audit log 串接。Key rotation、failed TLS、privilege change、restore access 都應留下可追溯紀錄。

下一步路由

Encryption / TLS / key management 完成後，操作證據讀 Audit Log + SIEM；備份恢復讀 PITR / Backup；資料保護治理讀 Data Protection。

MySQL HeatWave OLAP Add-on

Fri, 22 May 2026 00:00:00 +0000

MySQL HeatWave OLAP add-on 的核心責任是判斷 OLTP database 內建 analytics 加速何時比拆出 OLAP 系統更划算。HeatWave 這類 add-on 的價值是降低資料搬運與平台數量，但它也把 analytics workload、成本、freshness 與 query governance 帶回 MySQL 生態。

本文的判讀錨點是：OLAP add-on 做的是把分析查詢從 OLTP 路徑卸載到專用引擎，解決特定 analytics workload 的 proximity 問題，而非 data warehouse 的完整替代。選型要看資料量、query pattern、freshness、concurrency、成本與團隊能力。

官方文件路由的核心責任是固定 HeatWave claim。實作前先查 MySQL HeatWave User Guide；本文最後檢查日是 2026-05-22。

Workload Fit

Workload fit 的核心責任是找出 HeatWave 類 OLAP add-on 的合理位置。

情境	適合原因
MySQL 資料為主要分析來源	減少 ETL / CDC 複雜度
Dashboard 需要較新資料	freshness 比 warehouse batch 更重要
分析 query 可被明確界定	可控 workload 便於成本與容量管理
Team 想降低平台數	MySQL 生態內完成 transactional + analytics

適合的 workload 通常是「MySQL 內資料、分析需求清楚、資料量可控」。若需要跨多資料源、複雜 semantic layer、長期資料湖與 ML feature store，warehouse / lakehouse 仍然更合適。

Boundary with OLTP

Boundary with OLTP 的核心責任是避免 analytics 壓力影響交易服務。OLTP query 要穩定、低延遲、可預測；OLAP query 常是大掃描、大聚合、長時間。

審查面	問題
Resource	OLAP 是否隔離 CPU / memory / storage
Freshness	analytic data 和 source 差多久
Query control	誰能跑 heavy query、如何限流
Cost	add-on node、storage、egress
Incident	OLAP 故障是否影響 OLTP

OLAP add-on 要有 query admission policy。任何人都能跑任意分析 SQL，會把成本與穩定性風險放大。

Freshness and Evidence

Freshness and evidence 的核心責任是定義分析結果多新。Dashboard、營運報表、風控、推薦特徵對 freshness 的要求不同。

Freshness 等級	適合情境
秒到分鐘	operational dashboard、風控
小時	商業報表、營運分析
天	財務結算、長期趨勢

Freshness 要被量測。Runbook 要記錄 last load / sync time、query latency、failed refresh、data gap 與 fallback dashboard。

Cost Model

Cost model 的核心責任是比較 add-on 和獨立 OLAP 系統。

成本項	HeatWave 類 add-on	獨立 warehouse
Data movement	較少 ETL	需要 CDC / batch pipeline
Compute	add-on capacity	warehouse compute / auto scaling
Storage	MySQL ecosystem 內	separate storage
Governance	MySQL 權限延伸	data platform governance
Lock-in	provider-specific	warehouse-specific

成本比較要包含人力。少一條 ETL pipeline 可能節省大量維運；但 provider-specific query 與管理模型也會增加 exit cost。

No-Go Conditions

No-go conditions 的核心責任是避免把 OLAP add-on 推到資料平台的位置。

訊號	建議路由
分析跨多來源	warehouse / lakehouse
查詢需要 semantic layer / BI governance	dedicated analytics platform
長期歷史資料遠大於 OLTP	warehouse / object storage
ML feature / offline training	feature store / lakehouse
成本需要獨立 chargeback	separate OLAP environment

HeatWave 類能力適合 MySQL-centered analytics。當分析需求超出單一 OLTP source，資料平台會比 add-on 更清楚。

下一步路由

HeatWave OLAP add-on 完成後，MySQL query 基礎讀 Query Optimization；資料平台邊界讀 backend analytics / warehouse 章節；若要保留 MySQL OLTP 並外接 CDC，讀 Binlog CDC。

MySQL Metadata Lock Deep Dive

Fri, 22 May 2026 00:00:00 +0000

MySQL metadata lock deep dive 的核心責任是說明 DDL、transaction 與 table metadata 之間的阻塞關係。MySQL 在查詢 table 時會取得 metadata lock；DDL 需要等待既有 metadata lock 釋放，等待中的 DDL 又會阻塞後續查詢，形成 production 常見雪崩。

本文的判讀錨點是：MDL 事故通常來自 DDL 排隊在長交易後面，並把後續 query 一起擋住。解法要同時處理 long transaction、DDL window、OSC 工具與 observability。

Lock Lifecycle

Lock lifecycle 的核心責任是建立 MDL 心智模型。

行為	MDL 影響
`SELECT` / DML	取得 table metadata lock，交易結束釋放
Long transaction	延長 metadata lock 持有時間
`ALTER TABLE`	等待相容鎖，期間可能阻塞後續 query
Online schema change	仍需 metadata lock 進行切換 / rename
Idle transaction	看似無操作，仍可能持有 metadata lock

MDL 的風險在於排隊。當 ALTER TABLE 等待 long transaction 時，後續新的 query 可能排在 DDL 後面，讓原本小變更變成服務不可用。

Detection

Detection 的核心責任是快速找出誰持鎖、誰等待。

1SELECT *
2FROM performance_schema.metadata_locks
3WHERE OBJECT_SCHEMA = 'appdb'
4ORDER BY OBJECT_NAME, LOCK_STATUS;

搭配 processlist：

1SHOW FULL PROCESSLIST;

Production dashboard 應監控 running DDL、metadata lock wait、long transaction age、threads running、blocked query count 與 replication lag。

DDL Risk Review

DDL risk review 的核心責任是在變更前預測 MDL 風險。

DDL 類型	風險	控制方式
Add nullable column	依版本 / algorithm 可能較低	staging dry run、algorithm check
Add index	可能長時間操作與切換 lock	online DDL / OSC、低峰窗口
Change column type	table rebuild 風險高	ghost table / phased migration
Rename / swap table	短暫但關鍵 MDL	kill blocker、短窗口
Drop column / table	destructive 且需鎖	backup、approval、blocked query watch

DDL review 要列出 algorithm、lock mode、預估時間、rollback、kill blocker policy 與 replication impact。

Incident Runbook

Incident runbook 的核心責任是把 MDL 事故分流。

Step	操作
Identify blocker	查 long transaction / metadata_locks
Stop new DDL	暫停 migration pipeline
Decide kill	依 owner / transaction age / impact
Protect app	降低 traffic、停 heavy endpoint
Validate	查 query 恢復、replication lag
Retrospective	補 DDL gate、long transaction alert

Kill session 是高風險操作。決策要記錄 transaction owner、已執行時間、可能 rollback 成本與業務影響。

OSC Interaction

OSC interaction 的核心責任是說明 gh-ost / pt-online-schema-change 仍需要 MDL 管理。Ghost table 工具把大部分 copy 與 backfill 移到旁路，但最後 cutover / rename 仍需要短暫 metadata lock。

工具階段	MDL 風險
Create ghost table	低
Copy / backfill	主要是 load / replication lag
Trigger / binlog	依工具模式不同
Cutover / rename	關鍵 MDL window

OSC runbook 要在 cutover 前檢查 long transaction。若 blocker 存在，先延後 cutover，而非硬切。

Prevention

Prevention 的核心責任是讓 MDL 事故在 release 前被擋下。

Long transaction alert。
DDL dry run 與 algorithm / lock mode 記錄。
Migration window 與 kill blocker policy。
OSC cutover pre-check。
Application transaction timeout。
Read-only replica 上先測 schema change。

MDL 是 MySQL schema governance 的核心議題。每個 production DDL 都要有 metadata lock plan。

下一步路由

Metadata lock deep dive 完成後，schema change 工具讀 Online Schema Change Tools；lock 行為讀 Lock Contention；操作演練讀 Online Schema Change Lab。

MySQL Multi-source Replication

Fri, 22 May 2026 00:00:00 +0000

MySQL multi-source replication 的核心責任是讓一個 replica 從多個 source 接收資料。這種拓撲常用於資料整併、分庫匯總、migration staging、報表集中或多個 bounded context 的 read consolidation。

本文的判讀錨點是：multi-source replication 是 consolidation pattern，而非 multi-primary conflict resolution。每個 replication channel 要有獨立 source、schema scope、lag、error handling 與 ownership。

Use Cases

Use cases 的核心責任是確認 multi-source 解決的是整併需求。

情境	適合條件
Reporting replica	多個 source 匯入同一 read-only target
Migration staging	新平台先接多個 source binlog
Regional fan-in	多區 local DB 匯總到中心
Shard consolidation	多 shard 同 schema 匯入 reporting DB
Audit / CDC sink	變更集中供後續 pipeline 使用

Multi-source target 通常應 read-only。若 target 同時接受 application write，就要設計 conflict 與 ownership，複雜度會大幅提高。

Channel Design

Channel design 的核心責任是把每個 source 隔離成可觀測單位。

設計項	審查問題
Channel name	是否能看出 source / owner / purpose
Schema scope	不同 source 是否寫入不同 schema / table
GTID	GTID domain / collision policy
Filter	replicate-do / ignore 規則是否可審查
Credential	每個 channel 是否獨立 secret
Lag alert	channel-level lag 與 error

Channel 命名要可讀。Incident 時看到 channel 名稱，就要知道哪個 source、哪個 team、哪個用途與是否可暫停。

Conflict Boundary

Conflict boundary 的核心責任是避免多個 source 寫同一份邏輯資料。Multi-source 沒有自動解決業務 conflict 的能力。

Conflict 類型	控制方式
Primary key collision	shard key prefix、schema isolation
Duplicate natural key	source namespace、dedupe layer
Out-of-order update	source ownership、event timestamp
Delete collision	tombstone policy
DDL drift	migration coordination

最安全的 pattern 是每個 source 寫自己的 schema 或帶 source namespace 的 table。若多 source 寫同一 table，必須先設計 key space 與 conflict policy。

Monitoring

Monitoring 的核心責任是讓每個 channel 的狀態可見。

1SHOW REPLICA STATUS FOR CHANNEL 'source_a'\G
2SHOW REPLICA STATUS FOR CHANNEL 'source_b'\G

要觀測：

IO thread / SQL thread status。
Seconds behind source。
Last IO error / SQL error。
Relay log growth。
GTID executed / retrieved。
Channel credential expiry。

Lag 要分 channel 告警。總體 replica 健康不足以定位哪個 source 卡住。

Migration Pattern

Migration pattern 的核心責任是把 multi-source 用在可回退的搬遷。

Phase	Evidence
Source audit	schema、GTID、binlog format
Target setup	channel、filter、credential
Backfill	dump / load、checksum
Catch-up	channel lag、error
Read test	report query、row count
Cutover	read endpoint switch
Cleanup	stop channel、retention、secret

Migration target 若只是 reporting，cutover 風險較低；若要成為 new primary，還要處理 write freeze、conflict、application route 與 rollback。

Failure Modes

Failure modes 的核心責任是把 multi-source 事故分 channel 處理。

Failure mode	判讀訊號	修正方向
Single channel lag	某 source 延遲	查 source load、network、SQL error
DDL drift	replication SQL error	migration coordination
Key collision	duplicate key error	namespace / key rewrite
Relay log growth	target apply 慢	調整 parallel apply、拆 workload
Credential expired	IO thread stopped	rotate secret、resume channel

Channel failure 要避免全局操作。只停問題 channel，保留其他 channel，能降低 blast radius。

下一步路由

Multi-source replication 完成後，基本拓撲讀 Replication Topology；failover 讀 Orchestrator Failover；CDC 與 binlog 讀 Binlog CDC。

MySQL on Tarragon

MySQL → PostgreSQL：從 SQL dialect diff 跑出來的 Type A 6-phase migration

三類 SQL dialect diff sample：先看具體差距

Phase 0：rule audit + SQL surface 盤點

Phase 1：schema 對位

Phase 2：Translation pipeline（3-tier 跟 Splunk → Elastic 類似）

Tier 1：vendor / community tool

Tier 2：自家 SQL refactor

Tier 3：tricky case manual

Phase 3：Parallel run

Phase 4：Cutover

Phase 5：Cleanup

Production 故障演練

Case 1：Auto_increment vs SERIAL 跨 transaction 行為差

Case 2：Charset / collation 跑出 unicode 異常

Case 3：Case sensitivity 反轉

Case 4：Replication 行為差、CDC pipeline 失效

Case 5：FULLTEXT INDEX 對應 tsvector、application search broken

Capacity / cost

整合 / 下一步

跟 PostgreSQL → Aurora migration 串接

跟 Logical Replication + Debezium 對位

下一步議題

相關連結

MySQL Replication Topology：async / semi-sync / GTID 不是三選一、是三個 trade-off 軸的疊加

Replication 的 3 個 trade-off 軸 + mode 選擇

Async replication：default + 高 throughput 的代價

Semi-sync replication：至少一個 standby ack 才 commit

GTID-based replication：機制升級、跨 mode 都需要

配置 step-by-step（Loss-Less semi-sync + GTID 組合）

Step 1：Primary + replica 都開 GTID（兩 phase 跑完）

Step 2：Primary 安裝 semi-sync plugin

Step 3：Replica 安裝 semi-sync plugin

Step 4：Replica attach primary

Step 5：驗證

5 個 Production 踩雷

1. Replication lag 暴衝 — 單 SQL thread bottleneck

2. Semi-sync timeout fallback 成 async（沒監控就看不見）

3. GTID gap — replica 無法 attach

4. Loss-Less semi-sync 不一定真的 loss-less

5. Chained replication 雪崩

容量 / cost 對照

整合 / 下一步

Aurora MySQL

Vitess（sharding layer）

ProxySQL（read replica routing）

Orchestrator（HA failover）

CDC（Maxwell / Debezium）

相關連結

MySQL Online Schema Change：gh-ost 跟 pt-online-schema-change 兩條完全不同的 ghost table 路徑

為什麼 ALTER TABLE 需要 online path

pt-online-schema-change：用 trigger 同步寫入

gh-ost：用 binlog stream 同步寫入

配置 step-by-step（gh-ost）

gh-ost 一個 ALTER 命令

Interactive command（gh-ost 跑起來後）

配置 step-by-step（pt-osc）

5 個 Production 踩雷

1. pt-osc trigger overhead 不可預期

2. gh-ost binlog lag 跟 primary 寫入率追不上

3. Foreign key constraint — 兩工具都尷尬

4. pt-osc trigger 跟 application 既有 trigger 衝突

5. Cut-over 瞬間 deadlock — 兩工具都有但表現不同

容量 / 時間估算

跟其他模組整合

跟 GTID / Replication topology

跟 Vitess

跟 Aurora MySQL

跟 PlanetScale

Production case：gh-ost operation workflow

何時用哪一個

相關連結

MySQL ProxySQL 配置：connection / query / route / response 四段 lifecycle 跟 query rule 設計

ProxySQL Lifecycle：每個 query 走 4 段

Stage 1：Connection 接入 — Hostgroup / Server / User 三層 schema

Stage 2：Query Parse + Rule Match — query rule engine

Stage 3：Backend Route — replica lag-aware + circuit breaker

Stage 4：Response 返回 — connection multiplexing

5 個 Production 踩雷

1. Query rule 順序錯亂 — FOR UPDATE 被 SELECT route 到 replica

1. Query rule 順序錯亂 — `FOR UPDATE` 被 SELECT route 到 replica

3. Write 不小心 route 到 replica — `default_hostgroup` 設錯

3. `sync_binlog=0` 換速度 — replication 永久 broken 風險

3. `binlog_row_image=MINIMAL` 讓下游錯亂