Scaling on Tarragon

規模分級應對表

Sat, 20 Jun 2026 00:00:00 +0000

突發流量的應對方案隨服務規模分成四級。每一級在前一級的基礎上增加元件，複雜度和成本同步上升。選擇哪一級取決於「預期的峰值流量」和「可接受的降級程度」。

四級分級

Tier 1：自用級（< 100 events/sec）

1SDK ──→ Collector (單 binary + SQLite)

維度	設定
架構	單 Go binary、SQLite embedded
流量控制	背壓（channel buffer 10000 + 429）
突發應對	SDK 離線 buffer 吸收短暫 burst
降級	無（流量不會到需要降級的程度）
成本	零（自有主機、零外部依賴）
適用	自用工具、開發期測試、小型團隊

Tier 1 的假設是峰值流量不超過 SQLite WAL mode 的寫入能力（每秒數千筆）。自用場景下這個假設幾乎永遠成立。

Tier 2：中型（100-10000 events/sec）

1         ┌─ Collector A ──→ PostgreSQL
2SDK ──→ LB ─┤
3         └─ Collector B ──→ PostgreSQL

維度	設定
架構	多 collector + load balancer + PostgreSQL
流量控制	背壓 + per-SDK rate limit
突發應對	LB 分散流量 + collector 水平擴展
降級	動態取樣（超載時 SDK 降到 10%）
成本	PostgreSQL + LB 的維護（可用 managed service 降低維護成本）
適用	使用者數百到數千、有付費能力

Tier 1 → Tier 2 的觸發：SQLite 的 database is locked 頻繁出現，或 dashboard 的聚合查詢需要 PostgreSQL 的能力。

Tier 3：大型（10000-100000 events/sec）

1         ┌─ Collector A ─┐
2SDK ──→ LB ─┤               ├─→ Queue ──→ Worker 群 ──→ PostgreSQL
3         └─ Collector B ─┘

維度	設定
架構	Collector 群 + queue（NATS / Kafka）+ worker 群 + PostgreSQL
流量控制	背壓 + rate limit + bulkhead
突發應對	Queue 做時間緩衝（積壓 → 追趕）
降級	動態取樣 + 事件優先級 + 功能降級
成本	Queue + worker 的基礎設施（顯著上升）
適用	中大型 SaaS、使用者數萬

Tier 2 → Tier 3 的觸發：直接寫 PostgreSQL 的背壓頻繁觸發（即使有多個 collector 寫入）。

Tier 4：商業網站級（> 100000 events/sec）

1SDK ──→ CDN/Edge ──→ LB ──→ Collector 群 ──→ Kafka ──→ Worker 群 ──→ 分層 DB
2                                                                      ├─ 即時查詢 DB（ClickHouse / TimescaleDB）
3                                                                      └─ 歸檔 DB（S3 + Athena）

維度	設定
架構	CDN edge 收集 + Kafka + 分層存儲
流量控制	CDN rate limit + 全鏈路背壓
突發應對	Kafka partition 水平擴展 + auto-scaling worker
降級	全套（動態取樣 + 優先級 + 聚合前移 + 功能降級）
成本	基礎設施團隊級別的投入
適用	大型 SaaS、電商、社群平台

Tier 3 → Tier 4 的觸發：Kafka 單 cluster 的吞吐不夠、或查詢需要跨日誌級的時間序列分析。

多數自架開源工具不需要超過 Tier 2。Tier 3 和 Tier 4 是商業 SaaS 的領域。

規模遷移路徑

遷移	改什麼	停機
Tier 1 → 2	Storage backend 切 PostgreSQL + 加 LB + 加 collector	config change + 資料遷移（分鐘級停機）
Tier 2 → 3	加 queue + 改 collector 為 ingestion-only + 加 worker	架構重構（需要開發時間）
Tier 3 → 4	加 CDN edge + 分層 DB + auto-scaling	基礎設施工程（需要專職團隊）

每一級的遷移成本遞增。Tier 1 → 2 是 config change 級、Tier 2 → 3 是架構重構級、Tier 3 → 4 是團隊級。選擇起始 tier 時選最低的足夠 tier — 過早引入高 tier 的複雜度是浪費。

下一步路由

流量管控的四種機制 → 模組三流量管控
容量預備和壓力測試 → 模組五容量規劃
Collector 的可插拔 storage 架構 → monitoring 模組四規模演進
Queue 的選型 → backend 非同步佇列

規模演進

Fri, 19 Jun 2026 00:00:00 +0000

Collector 的儲存方案是可插拔 storage backend — 同一個 binary 透過啟動參數選擇不同的 storage implementation。Go 的 interface composition 讓 storage 分成 BasicStorage（所有 backend 共用）和 AnalyticsStorage（PostgreSQL 層新增），內部實作（SQLite / PostgreSQL / 時間序列 DB）分離，切換是 config change 而非重寫程式碼。

 1type BasicStorage interface {
 2    Store(event Event) error
 3    Query(filter QueryFilter) ([]Event, error)
 4    Close() error
 5    Downsample() error
 6    Purge() error
 7}
 8
 9type AnalyticsStorage interface {
10    BasicStorage
11    Aggregate(spec AggregateSpec) (AggregateResult, error)
12    Funnel(steps []string, timeWindow Duration) (FunnelResult, error)
13    Cohort(groupBy string, metric string) (CohortResult, error)
14}

SQLite implementation 只實作 BasicStorage。PostgreSQL implementation 實作 AnalyticsStorage。Dashboard 用 Go 的 type assertion（if as, ok := storage.(AnalyticsStorage); ok { ... }）判斷能力 — funnel/cohort 視圖在 SQLite 模式下不顯示入口，而非顯示後報錯。

選擇哪個 backend 取決於部署場景和查詢需求：

場景	Backend	啟動參數
自架簡單版（零依賴）	SQLite	`--storage=sqlite`
需要聚合分析的自用版	PostgreSQL	`--storage=postgres --dsn=...`
高併發 + 長期保留	時間序列 DB	`--storage=timescale --dsn=...`

SQLite Backend（day-one 預設）

SQLite 是嵌入式資料庫，編譯進 collector binary 中，不需要額外 server。Go 用 modernc.org/sqlite（pure Go、無 CGO 依賴、效能約為 CGO driver mattn/go-sqlite3 的 60-80%，自用規模下足夠），開源使用者 go build && ./collector 就能跑，部署步驟為零。WAL mode 允許讀寫並行 — dashboard 的 SELECT 查詢不會被 ingestion 的 INSERT 阻塞，反之亦然。寫入之間的競爭由 busy_timeout 處理。

能力範圍

索引查詢：按 type、name、timestamp 建索引，查詢從全表掃描變成索引查找
SQL 聚合：SELECT name, COUNT(*) FROM events WHERE type='error' GROUP BY name — 一行 SQL 完成分群計數
跨欄位過濾：WHERE type='error' AND name LIKE 'terminal.%' AND ts > '2026-06-18'
寫入：WAL mode 下每秒數千筆 append 寫入

Events 主表 DDL

Events 表的欄位從 event.schema.json 的 JSON 結構推導。Source 的 nested object 攤平成獨立 column — 方便 SQL 查詢和索引，不需要每次從 JSON 裡 extract。

 1CREATE TABLE events (
 2    id INTEGER PRIMARY KEY AUTOINCREMENT,
 3    v INTEGER NOT NULL DEFAULT 1,
 4    type TEXT NOT NULL,
 5    name TEXT NOT NULL,
 6    ts TEXT NOT NULL,
 7    source_sdk TEXT,
 8    source_app TEXT,
 9    source_version TEXT,
10    source_platform TEXT,
11    source_os TEXT,
12    session_id TEXT,
13    session_started TEXT,
14    level TEXT,
15    data TEXT,
16    error_message TEXT,
17    error_stack TEXT,
18    error_type TEXT,
19    receive_ts TEXT
20);

source_sdk 獨立成 column 讓「按 SDK 來源篩選」（WHERE source_sdk = 'python'）不需要從 JSON extract。data 用 TEXT 存 JSON。SQLite 沒有原生 JSON 型別，但 3.38+ 支援 json_extract() 函式做查詢（WHERE json_extract(data, '$.duration_ms') > 1000）。session_id 獨立成 column 讓 session 回放的 JOIN 不需要 JSON extract。error_stack 獨立成 column 讓 error 調查時全文搜尋 stack trace 不需要 JSON extract。receive_ts 是 collector 收到事件的時間，和 SDK 端的 ts 對照可估算 clock drift。

PostgreSQL 版本的差異：data 改成 JSONB 型別（原生索引和查詢）、source_* 可保持為 nested JSON（PostgreSQL 的 JSONB 查詢效能足夠）或維持攤平（和 SQLite 版本保持一致）。

建議索引

建表時一起建索引，覆蓋 dashboard 的核心查詢模式：

1CREATE INDEX idx_type_ts ON events(type, ts);    -- 按 type + 時間過濾（error 列表、趨勢圖）
2CREATE INDEX idx_session ON events(session_id);   -- 按 session 回放
3CREATE INDEX idx_name ON events(name);            -- 按 name 分群計數（功能使用排行）

Day-one 建表時就建，不是效能出問題後才加。

適用規模

單日事件量在十萬筆以下、SQLite 資料庫在 1GB 以下。索引查詢在毫秒級完成。自用工具和小型團隊的日常使用通常在這個範圍。

分層保留與降採樣

保留策略從查詢需求反推，每一種查詢需要的資料粒度和回溯深度不同。回溯越深的查詢需要的粒度越粗 — debug 需要最近幾天的逐筆事件，cohort 留存需要一整年的資料但每週一筆聚合數字就夠。

查詢用途	需要的粒度	回溯深度	對應表
Debug 定位	逐筆原始	天	events
Funnel	逐筆 event	週～月	events
Error 趨勢	每小時計數	月～季	hourly_summary
Cohort	每天計數	季～年	daily_summary
RFM 分群	每月聚合	年	monthly_summary

SQLite 中的實作是三張摘要表加定期 job：

 1-- 摘要表
 2CREATE TABLE hourly_summary (
 3    hour TEXT, type TEXT, name TEXT,
 4    count INTEGER, error_count INTEGER,
 5    UNIQUE(hour, type, name)
 6);
 7CREATE TABLE daily_summary (
 8    date TEXT, type TEXT, name TEXT,
 9    count INTEGER, unique_sessions INTEGER,
10    UNIQUE(date, type, name)
11);
12
13-- 降採樣（Downsample，每小時跑一次，幂等 — 重跑只更新不重複）
14INSERT OR REPLACE INTO hourly_summary (hour, type, name, count, error_count)
15SELECT strftime('%Y-%m-%dT%H:00:00', ts), type, name,
16       COUNT(*), SUM(CASE WHEN type='error' THEN 1 ELSE 0 END)
17FROM events
18WHERE ts >= datetime('now', '-1 hour')
19GROUP BY 1, 2, 3;
20
21-- 清理（Purge，每天跑一次，分批刪除避免長時間鎖定）
22DELETE FROM events WHERE rowid IN (
23  SELECT rowid FROM events WHERE ts < datetime('now', '-7 days') LIMIT 10000
24);
25-- 重複執行直到影響行數為 0
26DELETE FROM hourly_summary WHERE hour < datetime('now', '-90 days');
27DELETE FROM daily_summary WHERE date < datetime('now', '-365 days');

保留期限由 collector config 設定，數字的來源是「哪些查詢需要回溯多遠」：

1retention:
2  raw_events: 7d
3  hourly_summary: 90d
4  daily_summary: 365d
5  monthly_summary: forever

Storage interface 的 Downsample() 和 Purge() 由 collector 的定時排程觸發（Go 的 time.Ticker）。每個 storage backend 各自實作 — SQLite 用上述 SQL、PostgreSQL 用相同邏輯但可以加 partial index 加速、時間序列 DB 的 continuous aggregate 和 retention policy 原生支援。

為什麼是聚合而非抽樣

原始事件的保留期到期後，需要決定如何保留歷史統計。降採樣有兩種思路。抽樣保留是同事件名稱（name 欄位）同小時保留一筆原始事件、刪除其餘，保留了逐筆查詢能力但喪失準確計數。聚合摘要是把一小時內的事件壓成一筆計數記錄，喪失逐筆細節但保留準確統計。

Collector 選擇聚合摘要——捨棄逐筆細節，換取準確計數。降採樣後的資料用途是趨勢圖和長期統計，這些查詢需要「過去 30 天每小時的 error 總數」而非「某一筆原始 error 的 stack trace」。

這意味著原始事件 purge（定期清理過期事件）後，超過保留期的逐筆查詢會回傳空結果。Dashboard 在回溯超過原始事件保留期的時間範圍時，應切換到上方的摘要表（hourly_summary/daily_summary）查詢——顯示趨勢圖而非事件列表。設計方向是查詢 API 的 from 參數超過 retention.raw_events 時自動降級到摘要表，或回傳提示告知 client 該時間範圍只有聚合資料（初版 collector 尚未實作此降級邏輯）。

觸發切換到 PostgreSQL 的訊號

寫入爭搶：SQLite 是單寫者模型。高併發寫入（多個 SDK 同時 flush、每秒數百筆以上持續發生）會出現 database is locked 錯誤。WAL mode 能緩解但不能根治。

聚合查詢效能不足：Dashboard 需要的聚合查詢（「過去 30 天每小時的 error 數量趨勢」「funnel 的每步轉換率」）在資料量成長後變慢。SQLite 沒有 parallel query 和 partial index 等進階 OLAP 能力。

跨實例需求：需要多個 collector 實例共用同一個資料庫時，SQLite 的單檔案模型無法跨主機存取。

PostgreSQL Backend（分析觸發）

PostgreSQL 是獨立的資料庫 server，提供多連線並行寫入、進階索引（GIN for JSONB、partial index）和完整的 SQL 分析能力。切換到 PostgreSQL 意味著 collector 從「零依賴單一 binary」變成「binary + 外部 DB」，運維複雜度上升。

觸發條件

SQLite 的寫入爭搶或聚合效能成為瓶頸時切換。具體訊號：database is locked 錯誤頻率超過每分鐘一次、或 dashboard 的聚合查詢超過 3 秒。

切換方式

切換是 config change：把 --storage=sqlite 改成 --storage=postgres --dsn=postgres://...。資料遷移用匯出 + 匯入完成：

從 SQLite 匯出事件為 JSONL（monitor export --format=jsonl）
在 PostgreSQL 建立 events 表（schema 和 SQLite 相同，data 欄位改用 JSONB）
匯入 JSONL 到 PostgreSQL（monitor import --storage=postgres --file=events.jsonl）
切換啟動參數、確認查詢正常後停用 SQLite 檔案

Storage interface 保證 collector 的 ingestion、query、rule engine 邏輯不需要改動 — 只有 storage implementation 層切換。

能力增量

並行寫入：多個 SDK 同時 flush 不會 lock
JSONB 索引：對 data 欄位的特定 key 建索引（CREATE INDEX ON events ((data->>'name'))）
Window function：funnel 和 cohort 分析的 SQL 基礎
Read replica：寫入和查詢分離，dashboard 的查詢不影響 ingestion 效能

時間序列 DB Backend（長期演進）

時間序列資料庫（TimescaleDB、InfluxDB、VictoriaMetrics）專門為高頻 append 寫入和時間分桶聚合設計。TimescaleDB 基於 PostgreSQL 擴展，Storage interface 的 PostgreSQL implementation 可以直接複用、加上 hypertable 和 continuous aggregate。

觸發條件

每秒數萬筆以上的持續寫入、或需要自動 downsampling（每分鐘的原始資料保留 7 天、每小時的聚合保留 90 天、每天的聚合永久保留）。多數自用工具和小型團隊不會到達這個規模。

能力增量

時間分桶原生操作：time_bucket('1 hour', ts) 替代手動 DATE_TRUNC
Continuous aggregate：預計算的聚合結果自動更新
壓縮：歷史資料自動壓縮，TB 級資料可查詢
Retention policy：按時間自動清理舊資料

JSONL 匯出（debug 用途）

JSONL 不作為主要 storage backend，而是作為匯出格式保留人類可讀性和 grep 友好性。monitor export --format=jsonl 把 storage 中的事件匯出為每行一個 JSON 物件的檔案，讓開發者可以用 grep / jq 做臨時查詢或把資料搬到其他工具。

JSONL 匯出也是備份和遷移的中介格式 — SQLite 損壞時從 JSONL 重建、切換到 PostgreSQL 時從 JSONL 匯入。

匯出使用 streaming — 從 storage 逐筆讀取、逐行寫出檔案，記憶體使用和事件總量無關。300 萬筆事件（約 900MB JSONL）的匯出不需要載入全部資料到記憶體。匯出的 JSONL 檔案包含事件明文（已 redaction 的欄位除外），匯出後不受 collector 的存取控制保護，應注意存放位置和存取權限。

演進原則

按觀察到的瓶頸切換。database is locked 錯誤頻率、聚合查詢延遲、磁碟使用量 — 這些是可觀察的訊號。「未來可能有百萬筆事件」是預測。按訊號行動，不按預測行動。

切換是 config change。Storage interface 確保切換 backend 時 collector 的其他邏輯（ingestion、query API、rule engine、dashboard）不需要改動。切換的成本是資料遷移，不是程式碼重寫。

SQLite 是安全的起點。多數開源使用者會停留在 SQLite backend — 單日萬筆以下、索引查詢毫秒級、零依賴部署。只有明確的效能瓶頸才值得引入外部 DB 的運維成本。

下一步路由

Collector 的整體架構 → Collector 架構
查詢 API 的設計（跨 backend 統一） → 查詢 API 設計
資料庫選型的通用指南 → backend 01 資料庫
效能瓶頸的判讀方法 → backend 09 效能容量
水平擴展的基礎概念 → DevOps 水平擴展
Error fingerprint 的 DDL 擴充 → Error Fingerprint 與去重分群

模組七：突發流量應對

Sat, 20 Jun 2026 00:00:00 +0000

回答「流量突然暴增時怎麼不掛」。突發流量和穩定高流量的處理策略不同 — 突發有時間限制，撐過去就恢復正常。

待寫章節

突發流量的分類（可預期 vs 不可預期、持續時間和倍率）
降級策略（動態取樣、事件優先級、功能降級、聚合前移）
Queue 緩衝（Kafka / NATS / Redis Streams 做 burst buffer）
規模分級應對表（自用 → 中型 → 大型 → 商業網站）

跨分類引用

← devops 模組三流量管控：背壓和 rate limit 是突發應對的基礎元件
→ monitoring 模組四 Collector：Collector 的 ingestion scaling 是本模組的應用場景
→ backend 非同步佇列：Queue 的選型和操作實務
→ devops 模組五容量規劃：預期突發的容量預備
→ 端到端資料完整性：被自己 SDK DDoS 的三種場景

Ingestion Scaling

Sat, 20 Jun 2026 00:00:00 +0000

Ingestion scaling 處理的是「大量事件同時湧入 collector 時怎麼辦」。這和 storage scaling（SQLite → PostgreSQL 的可插拔 backend）是兩個獨立的擴展軸 — storage scaling 解決「查得動嗎」，ingestion scaling 解決「收得下嗎」。一個 collector 可能 storage 用 PostgreSQL（查詢能力足夠）但 ingestion 撐不住（HTTP 請求太多），反之亦然。

四層防線

每一層在不同規模觸發，由近到遠依序啟用。前一層能擋住的流量不需要啟用後一層。本章的四層按防線位置劃分（SDK / Collector / 基礎設施兩層）。DevOps 的規模分級應對表按 events/sec 量級劃分（Tier 1-4），兩者視角不同但覆蓋相同的擴展路徑。

層	機制	在哪裡做	觸發條件	適用規模
一	SDK 端取樣 + 聚合前移	SDK	高頻事件超過合理粒度	所有規模
二	Collector 單機背壓 + rate limit	Collector	寫入 channel 接近滿載	自用 ~ 小型
三	水平擴展（多 collector + LB）	基礎設施	單機 CPU / 連線數飽和	中型 ~ 大型
四	Queue 解耦（Kafka / NATS）	基礎設施	突發流量超過 collector 群的即時處理能力	商業網站級

第一層：SDK 端的流量控制

流量控制的最有效位置是事件產生的源頭。SDK 端減少的事件量，後面每一層都不需要處理。

動態取樣

SDK 在收到 collector 的 HTTP 429（Too Many Requests）回應時，自動降低取樣率。恢復正常後逐步回升。

1正常 → sampling 1.0
2收到 429 → sampling 降到 0.5
3持續 429 → sampling 降到 0.1
4連續 10 次成功 → sampling 回升到 0.5
5連續 30 次成功 → sampling 回到 1.0

動態取樣的控制邏輯在 SDK 端實作，不需要 collector 端額外支援 — 429 回應碼就是觸發訊號。和感測器生命週期管理的靜態取樣率互補 — 靜態取樣在 config 中設定、動態取樣在執行期自動調整。

聚合前移

SDK 端累積一段時間的同名事件，送出摘要而非逐筆。適合 metric 類的高頻取樣。

例：原本每 100ms 送一筆 render.frame_drop，改成每 5 秒送一筆 render.frame_drop_summary（帶 count + min + max + avg）。事件數從 50 筆/5s 降到 1 筆/5s。

聚合前移犧牲事件粒度換取吞吐量。只適合「趨勢比每筆細節重要」的 metric 類事件。Error 和 lifecycle 事件不做聚合 — 每筆的 stack trace 和狀態轉換都有 debug 價值。

優先級丟棄

SDK 的離線 buffer 滿時，按優先級丟棄。Error 的 debug 價值最高，最後丟。

優先級	事件類型	理由
高	error	每筆都可能是需要修的 bug
高	lifecycle	session 邊界和狀態轉換、影響 debug 和 cohort
中	metric	丟幾筆不影響趨勢（聚合摘要仍然有效）
低	event	行為事件在取樣後丟幾筆對 funnel 影響有限

第二層：Collector 單機的防護

Collector 在自身能力範圍內保護自己不被壓垮。和 architecture.md 的並發寫入策略直接相關 — 寫入 channel 是背壓的實作基礎。背壓和流量管控的通用概念見 DevOps 流量管控。

寫入 channel 容量 + 背壓

Single-writer goroutine pattern 的 Go channel 有固定容量（如 10,000）。Channel 滿時 HTTP handler 無法送入事件，此時回 429：

1select {
2case writeCh <- event:
3    w.WriteHeader(http.StatusAccepted) // 202
4default:
5    w.Header().Set("Retry-After", "5")
6    w.WriteHeader(http.StatusTooManyRequests) // 429
7}

Channel 容量的設定依據：容量 × 每筆事件的記憶體大小 = 背壓 buffer 的記憶體上限。10,000 筆 × 每筆 ~1KB = ~10MB，對多數機器微不足道。

Per-SDK rate limiting

按 source.app（或 API key，啟用認證後）限制每個 SDK 實例的請求速率。防止單一 SDK 的 bug（無限迴圈送事件）打爆 collector。

1// 每個 source.app 一個 rate limiter
2limiter := rateLimiters.GetOrCreate(sourceApp, rate.Limit(100)) // 100 events/sec
3if !limiter.Allow() {
4    w.WriteHeader(http.StatusTooManyRequests)
5    return
6}

Error 快通道

Error 事件不經 rate limit — 它們的 debug 價值最高，且在正常情況下數量遠少於其他類型。Error storm（app 出 bug 導致大量 error）時，error 的量可能暴增，但這正是最需要記錄的時刻。

Error 快通道用獨立的 channel 或跳過 rate limiter 的 check。如果 error 量也超出承載，用第一層的 SDK 端優先級丟棄處理。

第三層：水平擴展

單機的 CPU、記憶體或網路頻寬飽和時，水平擴展 — 多個 collector 實例分攤流量。水平擴展的通用模式見 DevOps 水平擴展。

前提：已切換到 PostgreSQL

SQLite backend 不支援水平擴展。每個 collector 實例有各自的 SQLite 檔案，無法合併查詢。水平擴展的前提是所有 collector 寫入同一個 PostgreSQL。

架構

 1SDK ──→ Load Balancer (nginx / HAProxy)
 2             │
 3        ┌────┴────┐
 4        ▼         ▼
 5   Collector A  Collector B
 6        │         │
 7        └────┬────┘
 8             ▼
 9        PostgreSQL
10             │
11             ▼
12         Dashboard

Collector 實例是 stateless 的 — 不在記憶體保存查詢狀態，所有持久化資料在 PostgreSQL。任何 collector 接收的事件都能被任何 dashboard 查到。

Load balancer 用 round-robin 或 least-connections 分配。不需要 sticky session — collector 不保存 session 狀態。

多機的 Downsample 和 Purge

Downsample 和 Purge job 只能由一個 collector 實例執行（避免重複處理）。用 PostgreSQL 的 advisory lock 或外部的 distributed lock 確保單一執行者。

第四層：Queue 解耦

突發流量超過 collector 群的即時處理能力時，在 collector 和 storage 之間插入 message queue 做緩衝。Queue 緩衝的通用概念見 DevOps 突發流量應對，message queue 的選型見 Backend 模組三非同步與訊息佇列。

架構

 1SDK ──→ Collector (ingestion only)
 2             │
 3             ▼
 4        Queue (Kafka / NATS / Redis Streams)
 5             │
 6        ┌────┴────┐
 7        ▼         ▼
 8    Worker A   Worker B
 9        │         │
10        └────┬────┘
11             ▼
12        PostgreSQL

Collector 的職責簡化為「接收 → 驗證 → 寫入 queue → 回 202」。寫入 queue 比寫入 DB 快得多（append-only、不需要索引更新），collector 的吞吐上限大幅提升。

Worker 從 queue 消費、寫入 PostgreSQL。Worker 按自己的速度處理 — 高峰時 queue 積壓，高峰過後 worker 消化積壓。Queue 的持久化保證事件不遺失。

Queue 的選擇

Queue	適合場景	代價
Kafka	高吞吐（百萬 events/sec）、需要 replay	運維重（ZooKeeper / KRaft）
NATS JetStream	輕量、Go 原生、足夠的持久化	生態較小
Redis Streams	簡單、如果已有 Redis	不是專門的 queue、持久化設定需注意

自架監控工具的 queue 層級推薦 NATS JetStream — Go 原生 client、單 binary 部署、JetStream 提供持久化和 replay。

觸發條件

Queue 解耦的引入時機是「collector 群已水平擴展但仍無法處理突發流量」。如果日常流量 collector 群能處理，只有行銷活動 / 新聞曝光的短暫高峰需要 queue 緩衝，queue 的維護成本可能高於收益 — 考慮用第一層的動態取樣在源頭降量。

功能分層整合

擴展功能分層與 Backend 選擇的分層表，加入 ingestion 維度：

功能層級	Storage	Ingestion	適用規模
SQLite 層	SQLite embedded	單 collector + 背壓	自用 ~ 小型團隊
PostgreSQL 層	PostgreSQL	多 collector + LB	中型 ~ 大型
Queue 層	PostgreSQL	Collector + Queue + Worker	商業網站級

每一層是前一層的超集 — Queue 層包含 PostgreSQL 層的所有查詢能力，加上 ingestion 的 queue 緩衝。

下一步路由

Collector 的並發寫入策略 → Collector 架構
Storage 端的擴展設計 → 規模演進
功能分層的定義 → 功能分層與 Backend 選擇
背壓和流量管控的通用概念 → DevOps 流量管控
水平擴展的通用模式 → DevOps 水平擴展
突發流量應對 → DevOps 突發流量
Message queue 選型 → Backend 模組三非同步與訊息佇列
端到端資料完整性（資料損失地圖、完整性指標）→ 端到端資料完整性

讀寫分離與查詢擴展

Mon, 22 Jun 2026 00:00:00 +0000

Monitor 的寫入路徑（SDK flush → HTTP endpoint → Storage）和讀取路徑（Dashboard 刷新、Debug 即席查詢、聚合趨勢、Rule engine 評估）在 SQLite 階段不太會互相干擾 — 事件量小、查詢簡單、WAL mode 讓讀寫各自進行。進入 PostgreSQL 層之後，兩條路徑的負載都會成長，而且成長方向不同。本章處理的是讀寫開始互相干擾時的辨識訊號和應對策略。

讀寫競爭的具體場景

Monitor 的 PostgreSQL 層同時承擔三種負載，各自的資源消耗特性不同。

寫入負載

SDK flush 是 Monitor 的主要寫入來源。多個 SDK 同時 flush 時，collector 透過連線池並行寫入 PostgreSQL。每筆 INSERT 涉及主表寫入 + 索引更新（idx_type_ts、idx_session、idx_name）。寫入量隨 SDK 數量和 flush 頻率線性成長。

Downsample job 是另一種寫入：定期把原始事件聚合到 hourly_summary / daily_summary。Downsample 執行時同時做大量 SELECT（讀原始事件）和 INSERT（寫摘要），佔用連線和 I/O。

Dashboard 讀取負載

Dashboard 是穩定的高頻背景負載。總覽頁每 30 秒刷新、Error 列表每分鐘刷新、趨勢圖每分鐘重算。每次刷新執行一到多個聚合查詢（GROUP BY name、COUNT(*)、時間分桶）。

Dashboard 查詢的掃描量隨資料累積成長。「過去 7 天每小時的 error 數量」在第一週掃描幾千筆，三個月後掃描幾十萬筆。如果沒有用 hourly_summary 摘要表、而是直接查原始 events 表，查詢時間會隨資料量線性增加。

Debug 即席讀取負載

Debug 查詢是偶發的突增負載。開發者在排查問題時，可能用 session_id 拉出整條事件鏈、用 error name 掃描最近 N 筆 stack trace、或用 data->>'duration_ms' 做 ad-hoc 效能分析。這些查詢的特徵是不可預測、偶發但延遲敏感 — 開發者在等結果。

競爭發生在哪

三種負載打同一個 PostgreSQL 時，競爭集中在兩個資源：

連線池：collector 的 SetMaxOpenConns 是固定值（例如 20）。如果 ingestion 佔用 15 條連線做批次 INSERT、dashboard 需要 3 條做聚合查詢、debug 需要 2 條做 ad-hoc 查詢 — 剛好佔滿。這時 downsample job 啟動需要連線，會排隊等待。

I/O 頻寬：聚合查詢需要掃描大量資料（sequential scan 或 index scan + heap access），跟 INSERT 的隨機寫入搶磁碟 I/O。在 HDD 或低階 SSD 上，一個 heavy 聚合查詢可以讓同時進行的 INSERT latency 從毫秒跳到十毫秒。

鎖競爭：PostgreSQL 的 MVCC 讓 SELECT 跟 INSERT 不互相阻塞（reader 不等 writer），但 Downsample 的 INSERT OR REPLACE 跟 ingestion 的 INSERT 可能在同一張表上競爭 row-level lock。長時間的 aggregation query 也可能觸發 idle in transaction 問題，佔住連線不釋放。

辨識訊號

讀寫競爭的辨識訊號是「寫入跟讀取的效能同時退化，而且退化是交互的」：

Ingestion 的 INSERT latency 在 dashboard 刷新時段（每 30 秒）出現週期性尖峰
Dashboard 的聚合查詢在 SDK 高峰 flush 時段（例：每整點、app 啟動潮）變慢
Debug 即席查詢在 downsample job 執行期間 timeout
PostgreSQL 的 pg_stat_activity 顯示多個 idle in transaction 或 waiting 狀態
連線池使用率持續高於 80%，偶發 too many connections 或連線等待

單純的寫入慢（沒有讀取影響）或單純的查詢慢（沒有寫入影響）不是讀寫競爭，可能是索引缺失或查詢效率問題。讀寫競爭的特徵是「兩邊同時退化、一邊忙的時候另一邊也變慢」。

Read Replica 分離

Read replica 是 Monitor 在 PostgreSQL 層後的第一步讀寫分離。概念簡單：寫入走 primary、讀取走 replica，兩者物理隔離。

架構

 1SDK ──→ Collector
 2             │
 3        ┌────┴──────────┐
 4        ▼                ▼
 5   Primary (write)   Replica (read)
 6        │                │
 7        │  replication →  │
 8        │                │
 9        ▼                ▼
10   Ingestion        Dashboard + Debug
11   Downsample       聚合查詢

Collector 持有兩個連線池 — 一個連 primary（用於 Store()、Downsample()、Purge()），一個連 replica（用於 Query()、Aggregate()、Dashboard 的所有讀取）。

Storage interface 的調整

現有的 BasicStorage interface 不需要改動。實作層在初始化時接收兩個 DSN（primary + replica），內部根據操作類型選擇連線池：

1type PostgresStorage struct {
2    primary *sql.DB  // write operations
3    replica *sql.DB  // read operations (nil = use primary)
4}

當 replica DSN 未設定時，所有操作走 primary — 行為跟目前一樣，不破壞 single-instance 部署。

Replica lag 對各查詢場景的影響

PostgreSQL streaming replication 的 lag 在同 AZ 通常 < 100ms，跨 AZ 可能到秒級。各查詢場景對 lag 的容忍度不同：

查詢場景	Lag 容忍度	走哪裡	理由
Dashboard 總覽	秒級可接受	Replica	30 秒刷新一次，lag < 1 秒不影響判讀
Error 列表	秒級可接受	Replica	新 error 晚一秒出現在列表上不影響 debug
聚合趨勢圖	分鐘級可接受	Replica	趨勢圖本身就是歷史資料的聚合
Funnel / Cohort	分鐘級可接受	Replica	分析查詢看的是天級或週級的資料
Debug 即席查詢	數秒可能不接受	Primary	開發者剛送一筆 test event 想立刻查到
Rule engine 查歷史	秒級可接受	Replica	Rule 的閾值判斷容忍短暫延遲

Debug 即席查詢的 lag 問題是 read-after-write 一致性 — 開發者從 SDK 送出 test event 後立刻查詢，如果查 replica 可能還沒同步到。解法是讓 debug query API 提供 consistency=strong 參數，強制走 primary。預設走 replica（大部分 debug 查的是歷史資料），只有需要 read-after-write 時切 primary。

引入時機

Read replica 的引入時機是「辨識訊號」段列出的讀寫競爭訊號持續出現，而且已經做過基本最佳化（索引補齊、dashboard 改讀 summary 表、downsample job 調整執行時段避開高峰）仍然不夠。

引入 read replica 的成本是多一台 PostgreSQL 實例（或 managed service 的 read replica 選項）和 replication 設定。Monitor 的 PostgreSQL 層已經承擔外部 DB 的運維成本，加 replica 是增量而非從零開始。

預聚合作為讀取面的第一道防線

在引入 read replica 之前，預聚合是降低讀取負載最有效的方式 — 不改架構、不加機器、只改查詢的資料來源。

Monitor 已經有 hourly_summary 跟 daily_summary 兩張摘要表（見規模演進）。Dashboard 的趨勢圖跟 Error 計數應該讀摘要表而非原始 events 表。

預聚合沒處理到的讀取負載是「需要原始事件的查詢」— Debug 即席查詢（看 stack trace）、Session 回放（看事件序列）、Funnel 分析（跨 session JOIN）。這些查詢必須掃描原始資料，預聚合無法取代。當這類查詢的負載開始擠壓寫入時，才是引入 read replica 的時機。

概念上，預聚合就是 recording rule 在關聯式資料庫的實作。Downsample job 定期執行 aggregation query、把結果寫入 summary 表，dashboard 讀 summary 表而非重算 raw data。Monitor 的 hourly_summary 等同於 Prometheus 的 recording rule output、PostgreSQL 的 materialized view 等同於 TSDB 的 continuous aggregate。

CQRS 的判讀訊號

Read replica 解決的是「讀寫搶同一台機器的 I/O 跟連線」。當問題不只是資源競爭、而是讀寫的資料形狀根本不同時，read replica 不夠 — 需要獨立的 read model。

CQRS 的完整概念見知識卡。以下是 Monitor 情境下，什麼訊號出現時該考慮從 read replica 往 CQRS 方向演進。

訊號一：讀取需要的資料形狀跟 events 表差異太大

Monitor 的 events 表是 append-only 的正規化結構（一筆事件一個 row）。如果讀取面需要的是：

每個 user 的行為摘要（最近登入、最常用功能、累計 error 數）— 需要跨所有事件聚合成 per-user profile
即時的 error fingerprint 索引（相同 stack trace 的 error 自動分群、計數、追蹤首次出現時間）— 需要維護一張反正規化的 error group 表
跨 session 的 funnel conversion 快照 — 需要維護一張 pre-computed funnel 表

這些讀取形狀無法用 SELECT FROM events + 索引高效產生，需要獨立的 read model 持續從 events 推算。

訊號二：預聚合的種類和刷新頻率失控

Summary 表從 2 張（hourly + daily）增長到 5 張、10 張，每張的刷新頻率從每小時變成每分鐘。Downsample job 的執行時間從秒級增長到分鐘級，開始擠壓 ingestion。

這時候 summary 表已經不只是「摘要」，而是事實上的 read model — 專門為讀取需求設計的獨立資料結構。承認這個事實、把 summary 表的維護從 Downsample job 拆出來成為獨立的 projection consumer，就是進入 CQRS 的起點。

訊號三：讀取跟寫入需要獨立擴展

寫入量穩定（SDK 數量不變），但讀取面因為新增 dashboard、新增分析維度、新增使用者而持續成長。Read replica 可以加多台分攤讀取，但每台 replica 仍然存的是跟 primary 一樣的 events 表結構 — 讀取查詢的複雜度不變，只是分攤到更多機器。

獨立的 read model 可以用完全不同的 schema（反正規化、pre-joined、pre-aggregated），讓讀取查詢從 O(N) 的聚合變成 O(1) 的 lookup。這是 CQRS 的核心價值 — 讀取面的效能不再受限於寫入面的資料結構。

Monitor 目前的位置

Monitor 目前在「SQLite → PostgreSQL → Read Replica」這條路徑的前半段。MVP 用 SQLite、功能需求觸發 PostgreSQL、讀寫競爭觸發 Read Replica。CQRS 是更遠的演進方向，只有上述三個訊號明確出現時才值得引入。

1SQLite（零依賴）
2  → PostgreSQL（聚合分析觸發）
3    → 預聚合 summary 表（讀取負載觸發）
4      → Read Replica（讀寫競爭觸發）
5        → 獨立 read model / CQRS（資料形狀不對稱觸發）

每一步都是被具體的效能訊號或功能需求推動的，跟 Monitor 整體的「按觀察到的瓶頸切換」原則一致。教學的價值在於讓讀者在每一步都知道「下一步是什麼、什麼訊號出現時該走」— 而不是在 SQLite 階段就預先設計 CQRS。

跟 Backend 的概念對照

Monitor 的讀寫分離路徑跟 backend 教材的概念有直接對應：

Monitor 演進階段	Backend 對應概念
SQLite WAL（讀寫各自進行）	WAL mode 的 reader-writer 並行
PostgreSQL summary 表	Materialized view 的最簡實作
Read replica	1.8 Query Boundary 的讀寫分流
獨立 read model	CQRS + Projection
Downsample job → 獨立 worker	Event sourcing 架構中 projection consumer 的起點

Monitor 的規模演進路徑是 backend 概念的具體實例 — 從自用工具到小型服務、從單機到讀寫分離、從 summary 表到可能的 CQRS，每一步都能回到 backend 教材找到概念基礎。

下一步路由

Storage backend 的可插拔架構 → 規模演進
功能分層的定義 → 功能分層與 Backend 選擇
Ingestion 端的流量防線 → Ingestion Scaling
讀寫分離的通用概念 → CQRS 知識卡
資料庫層的讀寫分離設計 → 1.8 State Ownership 與 Query Boundary
觀測領域的讀取路徑設計 → 4.23 觀測查詢設計

9.13 擴展軸與 Stateless 前提

Wed, 27 May 2026 00:00:00 +0000

「要換更大的機器、還是要加更多臺機器？」這個問題在規模成長過程中會反覆出現。垂直擴展（scale-up）與水平擴展（scale-out）對應不同壓力來源、各自承擔不同代價：垂直擴展用「換更大的機器」換取簡單、水平擴展用「加更多機器」換取彈性。規劃容量時先判讀自己的壓力屬於哪一種、再選對應的擴展軸 — 選錯軸的代價會在事故時放大。

兩個軸的責任差異

垂直擴展指把單一機器換成更高規格（更多 CPU / 記憶體 / IOPS），水平擴展指增加機器數量。同樣是「加資源」，兩者面對的工程問題完全不同。

維度	垂直擴展（scale-up）	水平擴展（scale-out）
操作單位	換一臺機器	加 N 臺機器
程式假設	不需要改	必須是 stateless 或有狀態同步機制
容量上限	單機物理規格上限	理論上線性擴展，實際受協調成本限制
成本曲線	規格升級非線性（高階機器溢價）	線性，但每臺要付 baseline 成本
故障代價	單點失敗影響整個服務	一臺壞了還有其他臺、可分流
變更節奏	變更要停機或 failover、頻率低	隨時可加減、頻率高
適合場景	資料庫主節點、stateful 服務、單點計算	API、worker、無狀態服務

讀者要從「程式假設」這欄反推自己的選項。如果服務本身是 stateful（資料庫、cache、session store），水平擴展需要設計 partitioning 或 replication；如果是 stateless API server，水平擴展幾乎可以無腦複製。把這個前提搞錯，就會用水平擴展的策略去動 stateful 服務、然後撞牆。

第三軸：拆功能 / 拆 partition（AKF Scale Cube Y / Z 軸）

兩個軸的對比把擴展簡化成 capacity scaling 的雙軸、但 AKF Scale Cube 模型提了第三軸：

X 軸（複製 / 水平擴展）：本表 scale-out 即此軸、適合 stateless 服務
Y 軸（functional decomposition）：沿業務邊界拆服務、跟 10.1 服務拆分對應、適合處理「不同功能的擴展需求差距大」
Z 軸（data partition / sharding）：沿資料拆 partition、適合處理「stateful 服務超出單機容量」

實務系統常同時動兩到三軸：API 走 X 軸水平、按業務拆 Y 軸（user service / order service / payment service）、user service 內部再用 user ID hash 做 Z 軸 sharding。本章焦點在 X 軸、但讀者規劃容量時要記住 Y / Z 軸是同時可用的工具。

Stateless 是水平擴展的前提

Stateless 的核心定義是「處理一個請求不依賴前一個請求留下的本機狀態」。Session、本機快取、檔案系統暫存都會破壞 stateless 假設。

狀態類型	是否破壞 stateless	緩解方向
Session 存本機	破壞	把 session 搬到外部 store（Redis、DB），改用 token 認證
上傳檔案存本機	破壞	改用物件儲存（S3、GCS）
本機快取	視情境	共用快取可接受（每臺 cache 各自 build）；強一致快取要外接
WebSocket 長連線	破壞	用 sticky session 或外部 broker（Pub/Sub、Redis）
本機 cron / 排程	破壞	改用分散式排程（leader election 或外部排程服務）
跨請求的記憶體狀態	破壞	移到外部 state store

很多人以為自己的服務是 stateless、但一上水平擴展就出事，原因常常在這張表的某一行。判讀方式：把單一機器停掉、重新分配流量到其他機器，使用者體驗是否完全無感？如果有任何「重新登入」「上傳消失」「資料看不到」的情境，就有 stateful 殘留。

這張表覆蓋顯式狀態。隱式狀態（implicit state）是另一類常被忽略的破壞 stateless 因素：

In-flight request state：HTTP/2 stream、gRPC bidirectional stream — 跨多個請求保持的連線級狀態
TLS session resumption：session ticket 跟 session ID cache 跨連線、若不集中存會降低重連性能
Rate limiter state：per-user token bucket、滑動視窗 — 看似無狀態的 middleware 其實在記每個 user 的計數
連線預熱（connection warm-up）：HTTP/2 / gRPC 連線建立成本高、機器接到流量後需要時間熱起來

這類「看似 stateless 但有 implicit state」是水平擴展撞牆的常見主因。處理方式是把隱式狀態抽到外部 store（rate limit 用 Redis、TLS session 用共用 cache）或設計連線級 sticky。

Auto Scaling 的操作模型

水平擴展通常搭配 auto scaling — 根據訊號自動加減機器數量。常見的擴展訊號跟對應的判讀重點：

訊號	反應速度	判讀重點
CPU 使用率	中	通用、但對 I/O bound 服務失準
記憶體使用率	慢	適合判 leak、不適合判尖峰流量
Request rate (RPS)	快	適合 API 服務、需要設定 cool-down 避免抖動
Queue depth	快	適合 worker 服務、queue 是天然 buffer
Latency P95	中	用戶體驗訊號、但已經出現延遲才擴展可能來不及
自訂業務訊號	視訊號	訂單數、活動人數，貼近業務但要自己維護 metric pipeline

設定 auto scaling 的判讀順序：先選訊號（CPU vs RPS vs queue depth），再設閾值（避免過早觸發或過晚觸發），最後加 cool-down（避免反覆擴縮造成抖動）。三步驟有一步沒做好就會撞牆。

Auto scaling 不是萬靈丹。三類問題它無法解決：擴展速度跟不上（冷啟動時間視 stack 範圍 5-300 秒、流量尖峰若集中在秒級就來不及）、預測式流量（黑五、新片上線、活動）、stateful 服務（資料庫不能用 auto scaling 加 primary）。這三類要分別用 predictive scaling、scheduled scaling 跟 partitioning 處理。

垂直擴展的天花板

垂直擴展看起來簡單但有兩道牆。

第一道是物理上限。雲端機型的最大規格是有限的：以 2025 年公開資料為例、AWS 的 u 系列 instance（如 u7i-12tb、u-24tb1.metal）可達 24 TiB 記憶體級別、vCPU 數量視 SKU 而異；GCP / Azure 也有對應的 memory-optimized 系列、但具體上限隨年份更新。要查最新規格走 vendor 官方文件、不要拿這裡數字當決策依據。對 stateful workload（例如 OLTP 主節點）真實天花板通常出現在 32-64 vCPU 級別、是 lock contention / context switch / memory bandwidth 等架構因素而非規格上限。

第二道是成本曲線。雲端機型的價格不是線性的、越高階的機型每單位資源越貴。以 AWS general-purpose 機型（m 系列）為例、4 vCPU → 8 vCPU 約 ×1.8、8 → 16 約 ×1.9（接近線性）、但到 48 vCPU 以上會明顯偏離線性外推、特別是 memory-optimized（r 系列）跟 high-memory（x 系列）的高階規格溢價更陡。具體曲線依機型 family 跟雲廠商而異 — 走 vendor calculator 算實際 workload 的成本曲線比抓單一倍數可靠。垂直擴展到一定規模、就算物理上撐得住、財務上也會比水平擴展貴。

對 stateful 服務（特別是主資料庫），垂直擴展常常是第一選擇，因為水平擴展需要重新設計 partitioning。但要清楚兩道牆會在什麼時候撞上：基於目前流量增長率，預估垂直擴展能撐多久？多久之後必須改成水平擴展？這個答案要在「還沒撞牆時」就準備好，不是等到下一次撞牆才開始討論。

水平擴展的隱性成本

水平擴展看起來彈性、但有它自己的代價。

協調成本：多臺機器要處理「誰是 leader、誰來執行排程、誰來處理同一筆訂單」這類問題。consensus protocol 跟 distributed lock（含 leader election、Raft / Paxos 演算法）都會引入新的故障模式跟 latency 代價。

連線池放大：100 臺機器、每臺對資料庫開 10 個連線，等於對 DB 開 1000 個連線。DB 連線是有限資源，水平擴展應用層的同時要評估資料層連線壓力。常見緩解：connection pooler（PgBouncer）、serverless DB（DynamoDB）、讀寫分離。

狀態同步成本：cache、session、配置這些「跨機器需要一致」的狀態，要靠外部 store 或 broadcast 機制同步。同步延遲跟頻率會反過來影響服務行為。

Cold start：新機器啟動到接流量需要時間（image pull、init container、warm-up）。auto scaling 觸發跟流量到達之間的延遲就是這段。冷啟動長的服務（JVM、需要載入大量資料的服務）要預留更多 buffer。

Debug 變難：請求散落在多臺機器，排查問題需要 log 聚合、trace context。沒有這些基礎設施，水平擴展只會把「一臺機器壞」的問題變成「不知道哪一臺機器壞」的問題。

混合策略

純垂直或純水平在實際系統中都罕見。常見的混合模式：

小規模垂直、大規模水平：早期單機就能撐，先用較大規格降低運維複雜度；流量上來後再轉水平，把每臺機器規格降回中等。
stateless 水平、stateful 垂直：API server 水平擴展、資料庫主節點垂直擴展、加 read replica 做讀路徑水平擴展。
熱資料水平 sharding、冷資料保持單庫：把熱表用 partition key 拆到多個 shard，冷表保留在主庫不動。
核心服務垂直保底、邊緣服務水平彈性：核心交易服務用更大規格降低事故風險，前端、推薦等服務走 auto scaling。

選混合策略時，要明確標記每個服務在哪個軸上、極限在哪、下一步轉換點在什麼條件下觸發。沒有這張對照表，混合策略容易變成「每個服務都是特例」、最後沒人記得當初為什麼這樣設計。

判讀訊號

訊號	判讀重點	對應動作
加機器後 QPS 沒提升	stateful 殘留（本機快取 / session / 鎖）	找出 stateful 點、移到外部 store，或改回垂直擴展
加機器後 DB 連線爆掉	連線池放大、DB 是瓶頸	加 connection pooler、評估讀寫分離、考慮資料層擴展
Auto scaling 反覆擴縮	cool-down 太短或訊號抖動	加 cool-down、改用更穩定訊號（移動平均、business metric）
流量尖峰時新機器來不及啟動	cold start 太長 / 預測訊號不夠早	改 scheduled scaling 或 predictive scaling、warm pool
垂直擴展後成本曲線陡升	撞到高階機型溢價	評估水平擴展轉型 / 重構 stateful 部分
水平擴展後事故 MTTR 拉長	觀測能力跟不上	補 trace context、結構化 log、service topology

常見誤區

把「加機器」當作所有效能問題的萬靈丹。如果瓶頸在演算法、SQL query、序列化、locks，加機器只會讓問題變得更貴。先用 9.5 瓶頸定位流程確定瓶頸位置，再決定擴展軸。

把 auto scaling 當成「設定完就不用管」。auto scaling 是 reactive 策略，它無法處理可預期的尖峰（活動、新片上線、節日）。預期型流量要用 scheduled / predictive scaling 提前準備。

把 stateless 當成「沒有狀態就好」。WebSocket、long-polling、上傳、檔案處理這類服務天然 stateful、強行水平擴展會出事。要分辨「業務本質 stateful」跟「實作偷懶 stateful」，前者用 partitioning 處理、後者用重構移除。

定位邊界

本章專注「擴展軸的選擇與前提」。當問題進入具體量化（要加多少臺機器？headroom 多少？），交給 9.6 容量規劃模型；進入瓶頸定位（瓶頸在哪一層？），交給 9.5 瓶頸定位流程；進入服務拆分（要不要先把 stateful 部分拆出來再水平擴展？），交給 10.1 服務拆分與邊界判讀。

案例回寫

擴展軸選擇可用以下案例回寫。每個案例對應的軸不同，引用時要先辨識案例的主要壓力來源，再對照本章相應段落。

9.C18 Zoom：COVID 30 倍突發 — 案例主軸是「stateless API 層水平擴展、stateful 資料層改用 DynamoDB 移除單點」，直接對應本章「stateless 是水平擴展的前提」段。是本批最貼近 scaling axis 主題的案例。
9.C12 Riot Games：246 個 EKS cluster 的多遊戲多地區治理 — 案例展示水平擴展到極端規模後，協調成本（cluster 治理、版本一致性）變成新的瓶頸；對照本章「水平擴展的隱性成本 / 協調成本」段。
9.C19 Capcom：DynamoDB + EKS 上的遊戲後端 — 案例主軸是 KV 業務語意、不是 scaling axis 取捨；但可反向追問「stateful 玩家狀態為何適合 KV vs RDB」、對照本章「stateless 是水平擴展的前提」段中的「狀態類型 vs 緩解方向」表。
9.C23 Netflix：把關聯式 DB 統一到 Aurora — 案例主軸是「DB 種類整併」、不直接對應 scale-up vs scale-out；但 Aurora 在 single-primary 規格選擇上隱含了「先垂直、再考慮分散」的策略，可作為「垂直擴展天花板」段的對照組。

Zomato 跟 Netflix 不在這份案例清單裡的原因要先講清楚：擴展軸的真實示範案例在後端教材中相對稀缺、09 模組多數案例的主軸落在 vendor 或容量規劃。Zoom 是這四個案例中最貼近教科書 — stateless API 水平 + stateful 改用 DynamoDB 的組合直接示範本章核心。Riot Games 揭示水平到極端規模後協調成本翻轉成新瓶頸。Capcom 跟 Netflix Aurora 不直接示範擴展軸取捨、但用反向追問「為什麼選 KV / 為什麼 single-primary 仍是 default」能把它們的決策放回擴展軸框架。

跨模組路由

與 9.1 壓測理論與系統行為的交接：USL 跟 Little’s Law 在理論上推導水平擴展的曲線、本章解釋這道牆在運維現場長什麼樣。
與 9.6 容量規劃的交接：擴展軸選定後，容量規劃決定具體數字。
與 10.1 服務拆分的交接：水平擴展常常是服務拆分的觸發點，反之亦然。
與 01 database high-concurrency-access 的交接：資料層水平擴展（sharding、replica）的具體機制。

下一步路由

規模成長路線下一站 → 1.13 應用層查詢反模式與 Query 預算：選定擴展軸後、在加機器前先用反模式清單收回單機可撐住的容量。

其他延伸方向：

容量計算與 headroom 模型 → 9.6 容量規劃模型
擴展前的瓶頸定位 → 9.5 瓶頸定位流程
服務拆分如何配合水平擴展 → 10.1 服務拆分與邊界判讀

9.14 連線池放大解法（PgBouncer / RDS Proxy / ProxySQL）

Wed, 27 May 2026 00:00:00 +0000

9.13 擴展軸與 Stateless 前提指出了水平擴展應用層時的隱性成本之一：連線池放大 — 100 臺機器 × 每臺 10 個連線 = 對 DB 開 1000 個連線、超過 PostgreSQL max_connections default（100）十倍。本章把這條撞牆訊號的具體解法說清楚 — connection pooler 是什麼、PgBouncer / RDS Proxy / ProxySQL 怎麼選、不同場景的取捨。

連線池放大的物理本質

PostgreSQL / MySQL 每個連線都會在 DB server 端配一個 backend process / thread。Backend 佔 5-15 MB 記憶體、context switch 也有成本。當應用層連線數超過 DB 機器能負擔的數量，會出現三類問題：

記憶體吃光：500 個 backend × 10 MB = 5 GB、再加 shared buffer、可能直接 OOM
Context switch 抖動：上百個 backend 競爭 CPU、上下文切換 overhead 變成主要消耗
連線建立失敗：超過 max_connections 後、新請求拿不到連線、即使現有連線多數 idle

問題的根因不是「連線多」、是「連線生命週期跟使用率不對齊」。應用層 connection pool 通常維持「每臺機器 N 個常駐連線、避免每個 request 重新建連」、但 100 臺機器各自 keep 10 個常駐就是 1000 個 idle 連線。

解法的方向不是「砍應用層連線數」（會讓 connection acquisition 變慢、影響 latency）、是「在 DB 跟應用層之間放一層 multiplexer」— 把多個應用層連線複用到少數 DB 連線上。這層中介就是 connection pooler。

Connection Pooler 三大選項

工具	部署模式	主要適用 DB	主要特點
PgBouncer	Self-managed / sidecar	PostgreSQL only	輕量（C 寫的 single process）、三種 pooling 模式可選
AWS RDS Proxy	Managed	RDS / Aurora (PG / MySQL)	整合 IAM auth、自動 failover、計價 per vCPU
ProxySQL	Self-managed	MySQL	規則型 routing、可做 query rewriting、自動 failover

PgBouncer — 三種 pooling 模式決定一切

PgBouncer 的核心參數是 pool_mode：

Session mode：應用層 client 拿到的連線、跟 DB backend 1:1 綁定、整個 session 結束才釋放。其實沒做 multiplexing、只是 connection caching。
Transaction mode：每個 transaction 結束、應用層 client 的連線釋放回 pool、下個 transaction 再分配 DB backend。multiplexing 比較強、但不支援 transaction-scoped state（如 SET LOCAL、prepared statement、temporary table）。
Statement mode：每個 statement 結束就釋放、最強 multiplexing 但不支援 transaction。極少用、只在純 stateless query workload 適用。

Transaction mode 是多數場景的 default。但要注意：應用層的 ORM / driver 可能默認用 prepared statement、跟 transaction mode 衝突。PostgreSQL 14+ 的 protocol-level prepared statement 才相容、JDBC / asyncpg 等需要特別配置。

AWS RDS Proxy — managed 換掉運維

RDS Proxy 是 PgBouncer / ProxySQL 同類功能的 managed 版本：AWS 負責部署、HA、failover、IAM 整合。應用層連到 RDS Proxy endpoint、Proxy 在背後維持跟 RDS / Aurora 的連線池。

特點：

連線 share 模式類似 transaction mode：自動 detect 連線是否在 transaction、空閒時釋放
IAM auth 整合：應用層用 IAM token、不用維護 DB password
Failover 加速：DB failover 時 Proxy 維持應用層連線不斷、background 重連 new primary。Failover 期間應用層感受最小化。
計價：per vCPU-hour、Aurora 約 $0.015/vCPU-hr、RDS 約 $0.02/vCPU-hr — 加在 RDS 計價上面

不適用場景：很多 read-only / analytics workload 不需要 connection pooler、純讀 replica 直接連通常更便宜。RDS Proxy 是給「寫入混合」「連線抖動嚴重」這類場景。

ProxySQL — MySQL 規則型 routing

ProxySQL 是 MySQL 生態的 connection pooler、但比 PgBouncer 更全功能：

Query routing rules：可以按 query pattern 把 query 導去不同 backend（讀路徑去 replica、寫路徑去 primary、特定 query 強制 cache）
Connection multiplexing：類似 PgBouncer transaction mode
Query rewriting：可以攔截 query 改寫（debug / 漸進遷移 schema）
Auto failover：監控 backend 健康、自動切流

ProxySQL 的代價是學習曲線跟運維成本 — 規則設計需要對 query pattern 跟 DB topology 有掌控、設錯規則會把 query 導去錯誤 backend、debug 困難。

選型對照

實務選型的關鍵變數是「DB 廠商 / managed 程度 / 規模 / 預算」：

場景	推薦	理由
AWS RDS / Aurora、團隊不想自管	RDS Proxy	Managed、整合度高、failover 加速是 free value
AWS RDS / Aurora、需要極致省成本	PgBouncer（PG）/ ProxySQL（MySQL）on EC2	比 RDS Proxy 便宜、但要自管 HA
GCP Cloud SQL / 自管 PostgreSQL	PgBouncer	PG 生態事實標準、配置文件多
Azure Database for PostgreSQL	PgBouncer 或 Azure 內建 connection pooling	Azure 部分 SKU 內建類似功能、檢查 vendor 文件
MySQL 需要讀寫分離 + query routing	ProxySQL	規則型 routing 是 ProxySQL 強項
不確定要不要 connection pooler	先用 vendor 內建（RDS Proxy / PG managed pooler）跑一段、再評估自管	降低初期決策成本

不裝 pooler 的判讀

Connection pooler 不是必要 — 在以下情境可以暫時不裝：

應用層機器數 < 10：對 DB 連線總數壓力小、deferred 安裝 pooler 沒問題
每臺機器連線數 < 5：應用層 connection pool 已經很省、再加 pooler 改善有限
DB 機器規格大、max_connections 充裕：高階 RDS instance 可開到 5000-10000 連線、有 buffer 之前不必加 pooler
Workload 全是長 transaction：transaction mode pooler 在這種 workload 跟 session mode 沒差、收益低

該裝 pooler 的訊號是相反：應用層機器數 ≥ 20、每臺連線數 ≥ 10、max_connections 使用率 ≥ 70%、或 P99 connection wait time 升高。

判讀訊號

訊號	判讀重點	對應動作
DB `pg_stat_activity` 顯示大量 idle 連線	應用層 keep-alive 連線、實際使用率低	加 connection pooler 把 idle 釋放回 DB
應用層 connection acquisition 等待時間升高	應用層 pool 太小、或 DB 連線數已撞 `max_connections`	加 pooler 把連線總數壓低、應用層 pool size 維持原樣
DB failover 後應用層 5-10 分鐘錯誤率高	應用層 connection pool 沒 detect 到 backend 切換	RDS Proxy 的 failover 加速、或應用層 connection validation 加強
Pooler 上線後出現「unexpected error」	transaction mode 跟 prepared statement / SET LOCAL 衝突	改 ORM 配置、用 protocol-level prepared statement 或避開 SET LOCAL
應用層 N+1 query 仍然存在	Pooler 沒解 N+1、它只解連線數放大	回 1.13 query 反模式修反模式

常見誤區

把 connection pooler 當「N+1 解藥」。Pooler 解的是「連線數放大」、不是「query 數量過多」。N+1 query 在裝完 pooler 後仍然慢、只是 DB 不會因為連線爆掉而當機。兩個是正交問題、各自要解。

把 RDS Proxy 當「免費功能」。Proxy 的計價跟 RDS / Aurora 本體疊加、高 connection volume 場景 Proxy 成本可能可觀。要算實際的 cost-per-request、不是預設「managed 一定值得」。

把 transaction mode 配置當「裝完就好」。Prepared statement / SET LOCAL / temporary table 都會跟 transaction mode 衝突、ORM 預設行為要 audit 過、不然會在 production 出現難 debug 的「query 隨機失敗」。

定位邊界

本章專注「連線池放大的解法」。當問題進入擴展軸選擇（要垂直 vs 水平？stateful 前提？）、回 9.13 擴展軸；進入 DB 本身的容量規劃（要多大規格 instance？要不要 read replica？）、進 9.6 容量規劃；進入 application-level connection 設計（per-request pool / persistent pool）、進 1.1 高併發 SQL。

案例回寫

09 案例庫多數案例規模到 connection pool 已是 secondary concern、但兩個案例有對應參考：

9.C18 Zoom：COVID 30 倍突發 — Zoom 把 stateful 資料層改用 DynamoDB、繞過 SQL connection pool 問題（KV 沒有 backend process 概念）。對照本章可問：若 Zoom 保留 SQL、connection pool 怎麼設計才撐得住 30 倍突發？
9.C39 DoorDash：CockroachDB 多主寫入 — DoorDash 從 Aurora single-primary 換成 CockroachDB 多主、connection pool 設計從「集中在 primary」變成「分散在多 node」。對照本章可問：CockroachDB 是否仍需要 connection pooler？

跨模組路由

與 9.13 擴展軸的交接：9.13 提出隱性成本、本章給具體解法。
與 1.1 高併發 SQL 讀寫邊界的交接：1.1 講應用層 connection pool 設計、本章補 DB 端 pooler 中介層。
與 01 vendors 的交接：各 DB vendor 的內建 pooler 能力詳見 vendor deep article。
與 9.6 容量規劃的交接：pooler 加上後、DB 容量規劃的單位從「連線數」變成「DB backend 數 + Pooler vCPU」。

下一步路由

要看擴展軸選擇的完整 framing、回 9.13 擴展軸與 Stateless 前提。要看 DB-side 高併發處理、進 1.1 高併發 SQL 讀寫邊界。要看具體 vendor 的 pooler 文件、進對應 vendor deep article。

PostgreSQL Connection Scaling：process-per-connection model 跟為什麼 pooler 是必裝

Tue, 19 May 2026 00:00:00 +0000

本文是 PostgreSQL overview 的 implementation-layer deep article。Overview 已說明 PG 在 OLTP 譜系的定位、本文聚焦 connection scaling 的根因 — 為什麼 PG 比多數 DB 更需要 pooler、跟 pgbouncer-config 是 根因 vs 配置 的關係。

Connection-per-Process Model 是 PG 的結構性選擇

PG 接受 client connection 時的行為跟多數現代 DB 不同：每個 connection 由 postmaster fork() 一個獨立的 OS process（backend）來服務。這個 process 在 connection lifetime 內專屬該 client、不跟其他 client 共享。

對比常見 DB 的 connection model：

Vendor	Connection model	每 connection 資源
PostgreSQL	Process-per-connection（fork）	5-15MB RAM、獨立 PID
MySQL	Thread-per-connection	256KB-2MB RAM、共享 process
Oracle	Shared server / dedicated 可選	配置決定
SQL Server	Thread-per-connection（pooled）	~512KB
MongoDB	Thread-per-connection	~1MB

PG 選 process 不選 thread 是 1990s 設計決定 — 當時 thread library 在多 UNIX 平台不穩定、process 隔離性更好（一個 backend crash 不會帶倒整個 DB）。這個 trade-off 一路保留到今天、是 PG 在 high-connection-count workload 的 結構性負擔。

量化：connection 數量對 RAM 跟 CPU 的壓力

一個 PG backend process 的 RAM footprint 由三部分組成：

1backend_rss ≈ shared_buffers_attach + process_private + work_mem 高水位

shared_buffers 是所有 backend 共享的、不重複計、但 process_private（catalog cache / plan cache / temp buffer）跟 work_mem 是 per-backend：

Workload 類型	process_private	work_mem 高水位	單 backend RAM
Idle / 簡單 OLTP	3-5MB	4MB	7-9MB
中等 query（join / sort）	5-8MB	16-64MB	21-72MB
Heavy analytical（CTE / window）	8-15MB	256MB+	264MB+

500 個 connection、平均 30MB 各 ≈ 15GB RAM 給 backend processes（還沒算 shared_buffers）。這是 PG 在 cloud instance 上很快撞到 RAM ceiling 的根因。

CPU 層面、fork() 系統呼叫在 Linux 通常 1-3ms、context switch ~3-5μs。100 connection burst 在 1 秒內進來、accumulated fork cost 100-300ms、加 query 本身的 CPU 跟 scheduler latency、平均 query 延遲會跳 2-5x。

三個 GUC 互動：max_connections / shared_buffers / work_mem

PG 的 memory 規劃由這三個 GUC 互動決定、不能獨立調：

1total_RAM ≈ shared_buffers + (max_connections × work_mem 高水位) + OS overhead

實務 sizing 規則（16GB instance、OLTP workload）：

GUC	建議值	理由
`shared_buffers`	25% RAM（4GB）	太大 OS file cache 收益遞減、< 25% wastes RAM
`work_mem`	8-32MB	每 query operation 用一份、不是每 connection 一份
`max_connections`	100-200	超過 200 需 pooler、不是調更大
`effective_cache_size`	50-75% RAM	planner 估 cost 用、不是實際配置
`maintenance_work_mem`	64-512MB	VACUUM / CREATE INDEX 用

max_connections = 1000 是常見 anti-pattern — 真實 active query 可能只 50-100、剩下都 idle、但每個還是吃 RAM 跟 process slot、context switch overhead 還在。

Pooler 為什麼是 production prerequisite

本段是「為什麼必裝」、實際 PgBouncer 配置看 pgbouncer-config。

Pooler 的核心責任是 把 N 個 application connection multiplex 成 M 個 PG backend（M ≪ N）：

1Application (3000 connection)
2   ↓
3Pooler（PgBouncer / PgCat）
4   ↓
5PostgreSQL (50 backend process)

Application 看到的是 無限 connection 池、PG 看到的是 穩定 50 個 backend。三個層次的效益：

RAM 節省：3000 connection × 30MB = 90GB → 50 backend × 30MB = 1.5GB
Fork() cost 攤平：backend 重用、不是每個 client 都 fork
Connection storm 緩衝：application 重啟 / scaling event 不會直接打到 PG

Pooler 有三種 pool mode、各有 application 層相容性 trade-off：

Pool mode	Session 隔離	適用 application	PG feature 限制
Session	每 client 獨佔 1 backend	用 prepared statement、SET、temp table	等同沒 pool、僅救 fork cost
Transaction	每 transaction 換 backend	多數 stateless API（最常用）	不能用 session-level state
Statement	每 statement 換 backend	Read-only / analytical	不能用 transaction

Production 多數選 transaction pool — 救 RAM 又保留 transaction semantics、代價是 application 不能用 session-level SET、LISTEN/NOTIFY、prepared statement（部分 pooler 已支援）。

Application-side Pool vs Middleware Pool vs RDS Proxy

三層 pool 都能解 connection 問題、但解的問題不同：

層級	代表	解的問題	限制
Application-side（driver）	HikariCP（Java）/ pgx pool（Go）/ asyncpg / Sequelize	Connection 重用 + lifecycle 管理	仍每 app instance 開 N 個到 PG、總量沒收斂
Middleware pooler	PgBouncer / PgCat	Multiplex 所有 application instance 到少數 backend	多一跳 latency 0.1-1ms、需自管 HA
Cloud-managed proxy	RDS Proxy / Cloud SQL Proxy	Multiplex + IAM auth + Secrets Manager integration	Latency 1-3ms、cost premium、PG feature 受限

典型 production 拓撲：

1Application (HikariCP pool 10/instance × 50 instance = 500)
2   ↓
3PgBouncer transaction pool（50 backend）
4   ↓
5PostgreSQL primary

Application pool 救 fork cost、PgBouncer 救 backend 總量、兩層各做各的事不衝突。

雙層 pool 配置容易出錯：application pool size 5 + PgBouncer default_pool_size 50 + 100 個 app instance、application 願意開 500 connection、PgBouncer 只給 50 個 backend — 多 450 個 application connection wait、看起來像「DB 慢」但實際是 pool 不足。

5 個 Production 踩雷

Case 1：Connection storm（重啟 / autoscale 同時打進來）

情境：Kubernetes rolling restart、200 個 pod 同時重連、每 pod 開 20 個 connection、瞬間 4000 個 connection 嘗試打到 PG。

PG max_connections = 500 直接拒絕 3500 個、application 看到 FATAL: sorry, too many clients already、retry storm 雪上加霜。

修法：

PgBouncer 在前面、application 連 PgBouncer 不直連 PG
reserve_pool_size = 5 給管理流量留 buffer
Application 端加 jittered exponential backoff、避免 retry 同步

Case 2：fork() cost 在 burst 流量

情境：Cron job 每分鐘整點觸發、500 個 worker 同時開 short-lived connection 跑 30ms query、結束關閉。

每分鐘 500 次 fork() + 500 次 exit()、fork cost 500-1500ms、CPU spike、其他 OLTP query 延遲飆。

修法：

Worker 改 connect 到 PgBouncer transaction pool、backend 重用、fork 只在 PgBouncer 首次拓展時
或 worker 改成 long-lived process + 內部 task queue、避免每分鐘重 fork

Case 3：shared_buffers 跟 max_connections 互相壓縮

情境：16GB instance、shared_buffers = 8GB（50%）、max_connections = 800、work_mem = 16MB。

預估 RAM：8GB + 800 × ~30MB = 32GB ≫ 16GB instance、OOM kill 來訪。

修法（重新分配）：

1shared_buffers = 4GB           # 25%
2max_connections = 200          # 透過 PgBouncer multiplex
3work_mem = 16MB
4effective_cache_size = 12GB
5maintenance_work_mem = 512MB

關鍵：max_connections 不是調更大救 connection 不足、是調 PgBouncer pool size 拓展 application 容量。

Case 4：Double-pool 配置失敗

情境：Application HikariCP pool size = 50、50 個 instance、PgBouncer default_pool_size = 20、PG max_connections = 100。

Application 願意開 2500 個 connection、PgBouncer 只給 20 個 backend、application thread 大量 block 在 PgBouncer 等 backend 釋出。

修法：

計算 application 願意的並發 vs PgBouncer 允許的 backend vs PG max_connections 三層匹配
通常 application_total_connection ≪ pgbouncer_max_client_conn + pgbouncer_default_pool_size + reserve ≪ pg_max_connections
Monitor PgBouncer SHOW POOLS 的 cl_waiting、長期 > 0 表示 pool 不足

Case 5：max_connections 設太大反而慢

情境：team 看到 connection refused、把 max_connections 從 200 調到 2000、想說「給更多 connection 應該更好」。

調完 throughput 反而降 30% — context switch overhead、planner cache 競爭、lock manager 競爭都跟 connection 數線性放大。

修法：

max_connections 上限通常 200-500、超過要靠 pooler multiplex
用 pg_stat_activity 看真實 active connection（state != ‘idle’）、通常 < 100
真實上限 = active 高水位 × 安全係數 1.5、不是「未來可能會用到的數量」

跟 MySQL connection model 對比

維度	PostgreSQL	MySQL
Connection 模型	Process-per-connection（fork）	Thread-per-connection
單 connection RAM	5-15MB（idle）/ 30-200MB（heavy）	256KB-2MB
Fork / spawn cost	1-3ms	< 100μs
Pooler 必要性	強烈必要（300+ connection 必裝）	中等（ProxySQL 對特定 case 有用）
主流 pooler	PgBouncer / PgCat	ProxySQL / MySQL Router

MySQL thread-per-connection model 讓它在 high-connection-count workload 上 看起來 更省 — 但 PG 透過 PgBouncer 達到的 application 看到的容量跟 MySQL 直連是一樣的、只是多一層 indirection。

實務影響：

MySQL 直連 1000 connection 還 OK、PG 直連 1000 connection 通常 OOM
PG + PgBouncer 1000 application connection、後端 50 backend、表現跟 MySQL 1000 直連相當
沒有 PG 更耗 RAM 的本質結論、是 PG 預設不 multiplex、需要外掛 multiplex 層

PG 17+ 的 connection 進展

PG 17（2024）對 connection 仍維持 process-per-connection、但有幾個減壓改進：

Per-process memory 降低：catalog cache 改 generational allocator、idle backend RAM 降 ~20%
Subscriber-side parallel apply：logical replication 減少 connection 開銷
io_combine_limit：buffered read 合併、降 syscall overhead

但 process-per-connection model 本身 沒換 — 短期內 PG 仍需 pooler。長期方向（PG 18+ 討論）可能引入 thread-based backend、但目前是 experimental patch。

下一步

連到 pgbouncer-config 學配置細節
看 PostgreSQL overview 回到全圖