Message-Queue on Tarragon

3.C1 Meta：FOQS 從區域到全域佇列遷移

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是說明 queue 轉換不只換 broker，還包含路由與可用性模型重整。

觀察

FOQS 從區域安裝轉為全域架構，目標是讓災害期間佇列資料仍可被存取，並控制遷移期間的延遲與可用性風險。

判讀

當 queue 成為跨區關鍵路徑，轉換焦點是 discoverability、routing freshness 與 tenant 遷移節奏。

策略

先建立全域路由層，再分批搬遷租戶。
針對 stale routing 做補貨延遲治理。
用零停機遷移策略保留客戶端連續性。

下一步路由

回 3.1 broker basics 與 3.2 durable queue。

引用源

FOQS disaster-ready migration

RabbitMQ

Fri, 01 May 2026 00:00:00 +0000

RabbitMQ 是 AMQP 協議實作的 classic broker、承擔三個責任：訊息持久化與重試（durable queue + ack/nack）、靈活路由（exchange + routing key + binding）、跨服務任務分派（worker pool + DLQ）。設計取捨偏向「處理即承諾、broker 負責重新投遞、consumer 負責 idempotency」、可靠性建立在 ack 機制而非 replication。

對「任務隊列、worker pool、複雜 routing、RPC over messaging」這條路徑、RabbitMQ 是業界主流。本頁先給最短路徑、再展開日常 publisher / consumer 操作與 exchange 設計、最後進階治理（quorum queue、cluster、federation）跟排錯。

本章目標

讀完本章後、你應該能：

用 docker 跑起 RabbitMQ + management UI、驗證 broker 健康
用 CLI / Management API 建 exchange、queue、binding
設計 exchange type（direct / fanout / topic / headers）對齊路由需求
看懂 queue depth、unacked、connection / channel 數量訊號、定位故障層
評估 quorum queue、stream、federation、shovel 等規模化議題

最短路徑：5 分鐘把 RabbitMQ 跑起來

 1# 1. 啟動 RabbitMQ + management plugin
 2docker run -d --name rabbitmq -p 5672:5672 -p 15672:15672 rabbitmq:3-management
 3
 4# 2. 建 exchange / queue / binding（rabbitmqadmin 可重現、Management UI 在 http://localhost:15672、預設 guest/guest）
 5docker exec rabbitmq rabbitmqadmin declare exchange name=demo.direct type=direct
 6docker exec rabbitmq rabbitmqadmin declare queue name=demo.q
 7docker exec rabbitmq rabbitmqadmin declare binding source=demo.direct destination=demo.q routing_key=demo
 8
 9# 3. 用 rabbitmqctl 驗證 broker 狀態
10docker exec rabbitmq rabbitmqctl list_queues
11docker exec rabbitmq rabbitmqctl list_exchanges
12docker exec rabbitmq rabbitmqctl list_bindings

最短路徑驗證「broker 起來、UI 能訪、能 enqueue/dequeue」。實際寫程式用 AMQP client、見日常操作。

日常操作與決策形狀

CLI 與 client API

子議題：

CLI 指令對照表（rabbitmqctl / rabbitmq-diagnostics / rabbitmqadmin）
Management API 形狀（HTTP API、適合自動化）
AMQP client 配置：connection / channel / consumer prefetch / publisher confirm
對應指令範例：rabbitmqctl list_queues name messages messages_unacknowledged consumers

Exchange types 與 routing 設計

Exchange 承擔訊息分流責任、不同 type 對應不同路由語意。子議題：

Direct：精準 routing key 匹配（point-to-point）
Fanout：忽略 routing key、廣播到所有 binding queue
Topic：層級式 routing key（* 單層、# 多層萬用字元）
Headers：依 message header 路由（少用）
對應指令：宣告 exchange / queue / binding 的 CLI 與 client 範例

Queue 設計與 ack/nack 策略

Ack/nack 是 RabbitMQ 的 delivery 控制點。子議題：

Durable queue vs transient queue
Manual ack vs auto ack（後者等同 at-most-once）
Prefetch 設定（backpressure + 併發控制）
Dead-letter exchange（DLX）配置
Message TTL 與 queue length limit

進階主題（按需閱讀）

本段主題已展開為 deep article：classic vs quorum vs stream 選型、network partition 與 cluster 一致性、DLQ retry escalation。下列子議題段保留選題判讀入口。

Classic queue vs Quorum queue vs Stream

子議題：

Classic queue：原生持久化 queue、mirrored queue 已 deprecated
Quorum queue：Raft-based、取代 mirrored、跨節點一致性
Stream（3.9+）：append-only log、log-based 模型、類似 Kafka 但仍是 RabbitMQ 體系
三種模型的選擇判讀（throughput、retention、replay 需求）

Federation 與 Shovel

子議題：

Federation：upstream / downstream broker 鏈接、適合鬆耦合跨資料中心
Shovel：點對點轉發、適合單純訊息搬運
跨區 / 多 cluster 場景的選擇

Erlang clustering 與 network partition

子議題：

Cluster 拓樸（disc node、ram node）
cluster_partition_handling 策略（ignore、autoheal、pause_minority）
腦裂偵測與處理

多 vhost / 多租戶

子議題：

Vhost 隔離（namespace、ACL、user permission）
User / Role / Permission 設計
Per-vhost resource limit（max connection、max queue）

Prefetch 與 consumer 併發控制

子議題：

Prefetch count 對 throughput / fairness 的影響
Channel-level vs Consumer-level prefetch
配合 retry budget 控制重試壓力

RabbitMQ Cluster Operator（K8s）

子議題：

Cluster Operator vs 自管 StatefulSet
持久化卷（PVC）與資料保護
升級流程（rolling restart 與資料完整性）

Plugin 機制與多協議

子議題：

MQTT plugin（IoT 場景、橋接 device-to-broker）
STOMP plugin
對應 3.1 broker basics 的 QoS / ACK 機制橋接

排錯快速判讀

Queue 堆積（messages 增加、unacked 不收斂）

操作原則：先看 consumer 是否存在、再看 ack 速率 vs publish 速率、最後看 prefetch / poison message。

1rabbitmqctl list_queues name messages messages_unacknowledged consumers

判讀路徑：無 consumer（client crash）→ consumer 慢（下游卡）→ poison message 卡住（看單一 message redelivery 次數）。

Connection / Channel limit

操作原則：client 設計不當會用滿 connection / channel，看每個 connection 的 channel 數。

1rabbitmqctl list_connections
2rabbitmqctl list_channels

Disk alarm 觸發

操作原則：disk 低於 disk_free_limit、broker 暫停 publisher。判讀：保留期太長 / 訊息大小 / 未消費 queue 過大。

Memory alarm 觸發

操作原則：記憶體超過 watermark、broker 觸發 paging、publisher 變慢。判讀路徑：訊息累積、consumer 失聯、queue 設定錯誤。

Network partition（腦裂）

操作原則：cluster 節點互相不可達、看 cluster_partition_handling 與 partition log。對應 3.C9 語義誤配思路。

何時改走其他服務

需求形狀	改走
高吞吐事件流、長期 replay	Kafka
Managed queue（AWS 生態）	AWS SQS
Managed pub/sub（GCP 生態）	Google Pub/Sub
輕量 messaging + 微服務	NATS
Redis 生態 stream	Redis Streams
IoT device 接入	EMQX / HiveMQ / Mosquitto（MQTT broker、或用 RabbitMQ MQTT plugin）
Workflow + durable execution	Temporal（T4 候選）

不在本頁內的主題

各語言 AMQP client 完整 API（依官方文件）
所有 plugin 細節（只列主流 plugin）
RabbitMQ Streams 跟 Kafka 的詳細對照（見 Kafka vendor 頁）

案例回寫

RabbitMQ 專屬案例（C23-C33）

案例	主討論議題
3.C23 Bloomberg vhost 多租戶	多 vhost + 自助平台化
3.C24 SoundCloud fan-out	音訊處理 pipeline 分隊列
3.C25 Indeed Delay + DLQ	三層 retry escalation
3.C26 GoCardless Hutch	單一 topic exchange 服務 mesh
3.C27 Zalando AWS	雲端自動 master selection / federation 升級
3.C28 WeWork hash ordering	Consistent hash exchange / per-key ordering
3.C29 WeWork Bunny channel pool	AMQP channel 不可跨執行緒
3.C30 Runtastic mirrored bottleneck	Mirrored queue 網路成本
3.C31 Mozilla Pulse	ACL + naming 取代 vhost（反向）
3.C32 LoyaltyLion monitoring	大規模 queue topology 監控
3.C33 Wargaming game portal	異步解耦 game server / portal

跨 vendor 對照

案例	對 RabbitMQ 的對應
3.C9 反例：語義誤配	manual ack + DLX + idempotency 三層責任邊界
3.C10 規模對照	小型直接用 / 中型補 idempotency / 大型分 vhost

MQTT plugin + Cluster Operator 缺直接 customer case：可補 RabbitMQ 官方 native MQTT blog 跟 K8s Operator docs、後續若有 customer 案例可加。

下一步路由

上游概念：0.3 非同步選型、3.1 broker basics
平行 vendor：Kafka、NATS
下游能力：3.2 durable queue、3.4 consumer 設計

3.1 broker 基礎與投遞模型

Thu, 23 Apr 2026 00:00:00 +0000

這一章先建立訊息佇列的基本模型，後面的 durable queue、outbox 與 consumer 設計都會建立在這些語意上。

訊息代理（broker）的核心責任是解耦 producer 與 consumer，讓非同步工作具備可排隊、可重試、可隔離的傳遞路徑。它定位在傳遞與協調層。

broker 跟 protocol 是兩個獨立的軸

Broker 是訊息分發的具體實作產品（RabbitMQ、Kafka、NATS、EMQX）、protocol 是訊息交換的線路規格（AMQP、MQTT、STOMP、Kafka wire protocol）。兩個軸獨立、形成多對多關係：

一個 broker 可實作多個 protocol：RabbitMQ 主走 AMQP、透過 plugin 也支援 MQTT 跟 STOMP；NATS 主走自家 protocol、JetStream 額外提供 KV 與 Object Store API
一個 protocol 可被多個 broker 實作：MQTT 由 EMQX / HiveMQ / Mosquitto / RabbitMQ MQTT plugin 各自實作；AMQP 主要是 RabbitMQ 跟 Apache Qpid

選型討論時要分清「我需要的是 protocol（如 device 端要 MQTT 因為輕量 / IoT 標準）」還是「broker 產品（如 RabbitMQ vs EMQX 的運維 / 生態取捨）」。當 protocol 跟 broker 都需要、會出現 protocol 橋接場景 — 例：device 端透過 MQTT 連 RabbitMQ MQTT plugin、broker 內部把 MQTT topic 自動映射成 AMQP routing key、AMQP-side consumer 用 routing key 訂閱。

這層分離也影響故障判讀：device 連不上是 protocol 層問題、broker 之間 routing 錯是 broker 內部 plugin / mapping 問題、consumer 收不到是 AMQP binding 問題 — 三層各自獨立、不能混為一談。

broker、queue、consumer 的分工

broker 管理訊息儲存、分發與確認流程；queue 或 topic 承載傳遞單位；consumer 承擔業務處理。分工清楚後，故障判讀才能定位在正確層級：投遞故障、消費故障或下游依賴故障。

producer 發送成功只代表 broker 已接收（publisher confirm），不代表業務結果完成。業務完成需要 consumer 提交副作用並確認進度。

push 與 pull 模型

push 模型由 broker 主動推送訊息，適合低延遲場景；pull 模型由 consumer 主動拉取，適合吞吐控制與批次處理。實務上常結合使用：broker 管理可見性與重試，consumer 控制節流與併發。

模型選擇重點是背壓控制。當下游變慢時，系統是否能限制消費速率並保留恢復空間，是穩定性的關鍵。

傳遞語意（delivery semantics）

三種常見 delivery semantics：

at-most-once：可能丟失，不重送，低延遲低成本。
at-least-once：可能重複，需冪等保護，最常見實務語意。
exactly-once：語意成本高，通常在特定邊界內成立，需要嚴格協議與系統支持。

實務上多數後端系統採 at-least-once，再用 consumer 去重與補償達到業務可接受結果。

ack / nack 流程

ack/nack 是 delivery 控制點。ack 代表該訊息可從待處理集合移除；nack 代表稍後重試或分流。ack 時機過早會造成資料遺失，過晚會造成重複處理與堆積。

穩定流程是：完成核心副作用後再 ack，暫時故障走受控重試，持續故障走 DLQ 隔離。

語意保證的不同實作機制

同一層 delivery semantics、不同 broker 用不同協議機制達成。讀懂 broker 行為的關鍵、是辨認「at-least-once」這個語意承諾、底下是哪種具體機制負責 — 故障訊號跟操作旋鈕跟著不同。

三種常見實作機制：

機制	代表 broker	達成方式	主要操作旋鈕
QoS handshake	MQTT 系列	client 與 broker 之間的多次握手（QoS 0 / 1 / 2）	QoS 等級、session persistence、retained message
Broker ACK + retry	RabbitMQ、SQS、NATS	consumer 處理後回 ack、未 ack 由 broker 重新投遞	ack / visibility timeout、prefetch、DLQ
Replication + commit	Kafka、Pulsar	producer 寫入後等待 replica commit、consumer 用 offset	acks 等級（0 / 1 / all）、min.insync.replicas、ISR

三個機制的工程含義不同。QoS handshake 把可靠性責任拉到 wire protocol 層、適合 device-to-broker 場景但 broker-to-consumer 還要另外處理；broker ACK 把責任放在 consumer 處理完才確認、適合「處理即承諾」的任務隊列；replication 把責任放在訊息已被多份保存、適合「寫入即承諾」的事件流。

機制差異的故障訊號

機制決定故障表現。同樣是「訊息重複投遞」、不同機制要看不同訊號：

QoS handshake：QoS 1 重傳是設計、QoS 2 重傳代表握手失敗 — 看 broker 端的 PUBREL / PUBCOMP 完成率
Broker ACK：ack timeout 觸發 redelivery 是設計、頻繁 redelivery 代表 consumer 處理慢或下游卡 — 看 consumer 處理時間 vs ack timeout、視訊號為 backpressure
Replication：producer retry 觸發 duplicate 是設計、ISR shrink 代表 broker 副本不穩 — 看 ISR 狀態 vs producer acks 設定

機制差異的操作旋鈕

挑 broker 等同於挑「可調的旋鈕集合」。把「業務需要的語意」轉成「實際要調的旋鈕」、是 broker 選型落地的關鍵步驟：

想保證「不丟」用 MQTT：QoS 等級提到 2、開 session persistence
想保證「不丟」用 RabbitMQ：consumer 走 manual ack、配 DLQ、設 prefetch 限併發
想保證「不丟」用 Kafka：producer acks=all、min.insync.replicas ≥ 2、consumer commit-after-process

機制不同、可調旋鈕不同、operator 要熟悉的訊號也不同。這是「broker 系統複雜度」的真實來源 — 不是「broker 難安裝」、而是「broker 旋鈕集合的學習與調校曲線」。

判讀訊號

訊號	判讀重點	對應動作
producer 發送成功但業務結果缺漏	投遞成功與處理成功語意混淆	補 consumer 確認與結果對帳
queue depth 穩定但延遲持續上升	消費速率不足或重試佔用主通道	分離重試隊列、調整併發與節流
ack 成功率高但 duplicate 增加	ack 時機與副作用提交順序不對齊	延後 ack、補 idempotency
nack 事件集中在同類訊息	payload 或下游契約失配	分流到 DLQ、修復契約後定向重播
消費重啟後堆積迅速擴大	背壓與可見性控制不足	限制拉取窗口、調整重試間隔

常見誤區

把 broker 當成保證業務正確性的元件，會把消費責任與補償責任遺漏。broker 保證傳遞語意，業務正確性要由 consumer 設計承擔。

把 exactly-once 當成預設目標，也容易過度設計。先定義可接受失敗代價，再選擇對應語意，通常更符合實務。

Broker 規模化的角色變化

Broker 在規模化服務承擔的責任從「單隊列工具」轉到「平台治理問題」— 容量規劃焦點從擴 broker 變成多租戶隔離、配額管理、跨團隊觀測標準化。

對應 3.C6 Uber Kafka Infrastructure Evolution — Uber 事件平台服務眾多團隊、focus 從 broker 容量是否充足轉到 team 之間的隔離邊界。對應 3.C4 LinkedIn Tiered Clusters — 規模化必然分層 cluster、按業務特性跟可靠性需求分配不同叢集、高優先 workload 跟低優先 workload 各自獨立。

規模化的三個角色階段（依據 3.C6 / 3.C4 / 早期服務對照、整理出三個典型階段）：

單隊列工具（規模尚小階段）：一個 Kafka cluster、所有 service 共用、broker 擴容是主要工作、團隊各自管理自己的 topic
多租戶平台（中大型階段）：跨團隊共用 cluster、平台 team 設定 quota、topic 命名規範、容量配額、觀測標準。3.C6 描述 Uber 在這階段「標準化 topic 治理與故障處理流程」、把跨團隊運維責任收斂到平台層
分層治理平台（規模化階段）：不同業務特性走不同 cluster（critical / standard / experimental）、跨 cluster 路由跟治理變主要工作。3.C4 描述 LinkedIn「依流量與可靠性需求分層」、高優先 workload 提供獨立保護

判讀含義：當 broker incident 影響多個 team 不相關業務、屬於該分層的訊號。規模化後焦點要轉向跨 team 隔離跟跨 cluster 治理、單純擴 broker 處理不了多租戶共擠的結構性問題。攻擊面跟控制面見 3.5 紅隊章 Multi-tenant broker 隔離邊界。

Queue 變跨區關鍵路徑的特殊挑戰

當 queue 變成跨區關鍵路徑（payment、order、notification 都靠它）、容量規劃焦點從 throughput 變成 discoverability 跟 routing freshness。

對應 3.C1 Meta FOQS — FOQS 從區域升級到全域、目標是讓災害期間 queue 仍可被存取、控制遷移期間的延遲跟可用性風險。Focus 從 queue 吞吐量轉到災害時的 broker 可達性、routing 狀態新鮮度、tenant 遷移節奏。

跨區 queue 的設計挑戰：

Discoverability：client 在 region failover 後需透過 service discovery + DNS / health check 動態解析 broker endpoint、找到新 primary broker
Routing freshness：broker topology 變更後、client 多久能拿到新 routing 表、stale routing 期間 message 流向錯 broker、要設定 routing TTL + 主動 refresh
Tenant 遷移節奏：規模化跨區 queue 採分批 cutover、保留 client 連續性
Stale routing 補貨延遲治理：routing 過時造成 message 累積在錯誤 broker、要設定 timeout + 重新發現機制、讓 client 重新發現新 broker 並切換到健康路徑

案例回寫

投遞語意可用 3.C9 反例做回寫。先判讀事件是 delivery 層失配，還是 processing/recovery 層失配，再回到本章檢查 ack 時機、重試節奏與隔離策略是否清楚。這個案例主要支撐的是「語意分層與投遞責任」判讀，不直接支撐資料庫 schema 演進或 LB timeout；若問題在資料模型或連線生命週期，應轉到 1.2 或 5.3。

若投遞成功但業務結果缺漏，先補齊語意分層，再分別回寫 3.2 durable queue 與 3.4 consumer 設計。

跨模組路由

與 3.2 的交接：持久化與重試節奏回到 durable queue 與重試策略。
與 3.4 的交接：消費恢復與去重回到 consumer 設計與去重。
與 4.20 的交接：投遞與消費訊號納入 Observability Evidence Package。
與 6.12 的交接：重播與冪等驗證回到 Idempotency 與 Replay 驗證。

下一步路由

要進一步處理持久化與重試控制，接著讀 3.2 durable queue 與重試策略。要處理交易與發佈一致性，接著讀 3.3 outbox pattern 與發佈一致性。

3.C2 VMware Tanzu CloudHealth：Kafka 轉 Amazon MSK

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是把 broker 遷移拆成平台責任、運維責任與資料責任三層。

觀察

CloudHealth 由自管 Kafka 遷移到 Amazon MSK，過程涵蓋 topic、存取控制、觀測與遷移執行節奏。

判讀

這類轉換的實際風險在 ACL、topic policy、client 相容性與 cutover 節奏，服務名稱本身反而是次要問題。

策略

先建立新叢集治理基線（ACL、觀測、部署）。
分批 topic 遷移並持續監測 lag/錯誤。
把回退與流量切換條件寫成明確門檻。

下一步路由

回 3.1 broker basics 與 6.8 release gate。

引用源

VMware CloudHealth Kafka to MSK

Apache Kafka

Fri, 01 May 2026 00:00:00 +0000

Kafka 是 distributed event streaming platform、承擔三個責任：log-based 訊息儲存（partition + replication）、事件流分發（consumer group 各自進度）、跨系統事件總線（schema-aware contract）。設計取捨偏向「寫入即承諾、可長期保留、多 consumer 各自 replay」、broker 級可靠性與 consumer 端 idempotency 拆開、broker 不負責業務正確性。

對「事件驅動架構、CDC、跨系統事件分發、長期保留 + replay」這條路徑、Kafka 是業界事實標準。本頁先給最短路徑、再展開日常 producer / consumer 操作與 topic 設計、最後進階治理（多租戶、跨區、自動修復）跟排錯。

本章目標

讀完本章後、你應該能：

用 docker-compose 跑起 Kafka + KRaft、驗證 broker 健康
用 CLI 建 topic、produce / consume 訊息、看 partition 分布
設計 producer acks / idempotence / consumer commit 策略對齊 delivery semantics
看懂 consumer lag、ISR shrink、rebalance 訊號、定位故障層
評估 multi-tenant、cross-region、tiered storage、self-healing 等規模化議題

最短路徑：5 分鐘把 Kafka 跑起來

最短路徑用 KRaft 模式（取代 ZooKeeper、單節點即可跑）、避免初學者卡在 ZK 安裝。

 1# 1. 啟動 Kafka（apache/kafka 內建 KRaft、單一容器即含 broker + controller）
 2docker run -d --name kafka -p 9092:9092 apache/kafka:latest
 3
 4# 2. 建 topic（CLI 在容器內 /opt/kafka/bin/）
 5docker exec kafka /opt/kafka/bin/kafka-topics.sh --create --topic demo --partitions 3 \
 6  --bootstrap-server localhost:9092
 7docker exec kafka /opt/kafka/bin/kafka-topics.sh --describe --topic demo \
 8  --bootstrap-server localhost:9092
 9
10# 3. 驗證 produce / consume
11docker exec kafka bash -c "echo hello | /opt/kafka/bin/kafka-console-producer.sh \
12  --topic demo --bootstrap-server localhost:9092"
13docker exec kafka /opt/kafka/bin/kafka-console-consumer.sh --topic demo \
14  --from-beginning --max-messages 1 --bootstrap-server localhost:9092

最短路徑只驗證「broker 起來、能寫能讀」。實際寫程式用 producer / consumer client、見日常操作。

日常操作與決策形狀

CLI 與 client API

子議題：

CLI 指令對照表（kafka-topics / kafka-configs / kafka-consumer-groups / kafka-acls）
Producer client 配置：acks / batch.size / linger.ms / compression / enable.idempotence
Consumer client 配置：auto.offset.reset / enable.auto.commit / max.poll.records / max.poll.interval.ms
對應指令範例：kafka-topics.sh --describe、kafka-consumer-groups.sh --describe --group

Topic 設計

Topic 承擔事件的邏輯邊界。子議題：

Partition 數規劃（並行度 vs metadata 成本）
Replication factor 與 min.insync.replicas（資料保護等級）
Retention policy（time-based vs size-based、compact vs delete）
Key 策略（ordering 範圍、hot partition 避免）

Producer 與 Consumer 設計

設計決定 delivery semantics 實際達成。子議題：

Producer：acks=0/1/all 對應的可靠性取捨、idempotence、transaction 邊界
Consumer：commit 策略（auto vs manual）、commit 時機與 at-least-once / at-most-once 對應
Consumer group：rebalance protocol（eager vs cooperative）、static membership
對應指令：producer 配置範例、consumer 配置範例、kafka-consumer-groups.sh --describe

進階主題（按需閱讀）

本段主題多數已展開為 deep article：consumer rebalance 與 lag 診斷、replication / ISR / exactly-once、retention 與 tiered storage、Schema Registry 與 schema 演進、multi-tenant quota 與 ACL 治理。下列子議題段保留每個主題的選題判讀入口。

Multi-tenant 與配額治理

對應案例 3.C6 Uber Kafka 事件平台。子議題：

Producer / Consumer quota（byte rate、request rate）
ACL 設計（principal、resource、operation）
Topic 命名規範與 ownership
對應指令：kafka-configs.sh --alter --add-config 'producer_byte_rate=...'、kafka-acls.sh --add

Cross-region 與分層叢集

對應案例 3.C1 Meta FOQS 與 3.C4 LinkedIn Tiered Clusters。子議題：

MirrorMaker 2 配置（active-active vs active-passive）
分層叢集策略（critical / standard / experimental）
跨區 consumer 路徑與 routing freshness

Topic 生命週期治理

對應案例 3.C3 LinkedIn TopicGC。子議題：

Topic 活躍判準（last produce / consume timestamp）
自動回收條件與稽核
Metadata 壓力訊號（controller log、partition 數量上限）

Replication 與 exactly-once 升級

對應案例 3.C9 反例：語義誤配。子議題：

acks=all + min.insync.replicas ≥ 2 + producer idempotence
Kafka transaction 與 read_committed 邊界
端到端 exactly-once（Kafka Streams 場景）

Self-healing 與自動修復

對應案例 3.C7 LinkedIn Self-Healing。子議題：

可自動修復故障類型（disk full、broker offline、under-replicated partition）
自動修復 vs 人工升級邊界
修復過程的證據鏈納入觀測

KRaft 與 Schema Registry

子議題：

KRaft mode 取代 ZooKeeper（運維簡化、metadata 治理）
Schema Registry（Confluent / Apicurio）與 Avro / Protobuf
Schema 演進策略（forward / backward / full compatibility）

Tiered storage

子議題：

冷熱分層（hot tier on local disk、cold tier on S3）
Retention 設計與成本
Read 路徑差異（hot vs cold）

Kafka Connect 與 CDC

子議題：

Source connector / Sink connector 模型
Debezium CDC pipeline 與 outbox 整合
Connect cluster 治理與 schema evolution

排錯快速判讀

Consumer lag 暴增

操作原則：先看 lag 是「均勻分布」還是「集中在少數 partition」、再定位 consumer 慢 vs partition 不平衡。

1kafka-consumer-groups.sh --describe --group  --bootstrap-server localhost:9092
2# 輸出含 CURRENT-OFFSET / LOG-END-OFFSET / LAG 逐 partition 列、可看 lag 集中在哪幾個 partition

判讀路徑：consumer 慢（CPU / GC / 下游 I/O）→ producer 突增 → partition 不平衡（key 分布）。

ISR shrink 與 under-replicated partition

操作原則：ISR 縮小代表 follower 跟不上 leader、看 broker 健康 / 網路 / disk。

1kafka-topics.sh --describe --under-replicated-partitions --bootstrap-server localhost:9092
2# 輸出為空代表所有 partition 同步正常；列出的 partition 即 ISR 落後者

Rebalance storm

操作原則：consumer 頻繁加入 / 離開觸發 rebalance、看 session.timeout.ms 與 max.poll.interval.ms。

Offset reset 或重複消費

對應反例 3.C9。判讀路徑：commit 策略錯誤、broker 端 offset 過期、auto.offset.reset = earliest。

Schema 不相容

操作原則：producer 升級 schema、consumer 未升、看 compatibility level。

何時改走其他服務

需求形狀	改走
任務隊列（中等吞吐、複雜 routing）	RabbitMQ
Managed queue（AWS 生態、簡單）	AWS SQS
Managed pub/sub（GCP 生態）	Google Pub/Sub（遷移路徑見 Kafka → Pub/Sub）
輕量 messaging + 微服務通訊	NATS
Redis 生態內 stream	Redis Streams
Managed Kafka	AWS MSK / Confluent Cloud（見 3.C2）
Kafka 相容、單 binary	Redpanda（T2 候選）
多租戶 + 分層儲存原生	Apache Pulsar（T2 候選）

不在本頁內的主題

各語言 client API reference（依官方文件）
Kafka Streams / ksqlDB（另開 stream processing 章節）
Confluent 商業功能（Confluent Cloud、Control Center）

案例回寫

既有通用案例（C1-C10）

案例	主討論議題
3.C1 Meta FOQS	跨區 queue、tenant 遷移節奏
3.C2 VMware → MSK	自管轉 managed、ACL / cutover
3.C3 LinkedIn TopicGC	Topic 生命週期治理
3.C4 LinkedIn Tiered Clusters	分層叢集策略
3.C5 Slack Kafka+Redis	多 broker 組合拓樸
3.C6 Uber Kafka	多租戶 + 平台治理
3.C7 LinkedIn Self-Healing	自動修復
3.C8 Cloudflare Queues	全球交付（對比）
3.C9 反例：語義誤配	Replication + idempotence 升級
3.C10 規模對照	不同規模下的佇列模型

Kafka 專屬案例（C11-C22）

案例	主討論議題
3.C11 Pinterest Tiered Storage	Broker-decoupled tiered storage / S3
3.C12 Pinterest Shallow Mirror	MirrorMaker CPU/memory 優化
3.C13 Shopify Debezium CDC	Sharded MySQL CDC pipeline
3.C14 Yelp Schematizer	Schema Registry + 強制 compatibility
3.C15 Airbnb Spark Streaming	Partition-task 解耦 / data skew
3.C16 Robinhood Faust	Python stream processing 生態
3.C17 Walmart MPS	Partition-consumer 1:1 解耦 / K8s 擴張
3.C18 Wix Greyhound	TLLSR consumer troubleshooting
3.C19 Wix Multi-cluster	Metadata scaling ceiling / 分群
3.C20 Spotify 遷出 Kafka	（反例）early Kafka 版本可靠性硬限制
3.C21 Goldman Sachs MSK	MM2 + LB + timeout 整合 pitfall
3.C22 Trivago KEDA	Consumer lag 驅動 scale-to-zero

KRaft 缺直接 customer case：目前依官方 KIP-833 / Confluent 公告為準、後續若有 customer 一手案例可補。

下一步路由

上游概念：0.3 非同步選型、3.1 broker basics
平行 vendor：RabbitMQ、NATS
下游能力：3.4 consumer 設計、6.12 idempotency / replay

3.2 durable queue 與重試策略

Thu, 23 Apr 2026 00:00:00 +0000

持久化佇列（durable queue）的核心責任是讓非同步工作在 process、節點或網路故障後仍可被恢復處理。它讓業務動作在失敗後仍有可追蹤、可重試、可隔離的路徑。

durable 與 ephemeral 的差異

queue 在語意上可分 durable 與 ephemeral。ephemeral queue 側重低延遲與短暫協調，適合可丟失任務；durable queue 側重故障後可恢復，適合正式狀態相關副作用，例如付款通知、發票產生、庫存同步與合規事件記錄。

這個選擇本質上是失敗代價選擇。若任務丟失可接受，ephemeral 可降低成本；若任務丟失會造成金流、合約或審計問題，durable 是必要基線。

重試策略

重試策略的責任是把暫時性故障和系統性故障分開。durable queue 常見的重試組合是：有限次重試、指數退避、jitter 分散峰值、超過門檻後分流到 dead-letter queue。

重試上限與間隔要由下游承載能力決定。重試太快會形成故障放大，重試太慢會拖長恢復時間。穩定做法是把重試策略當成服務容量控制的一部分，而不是固定平台預設值。

DLQ 與 requeue 風險

DLQ 的責任是隔離異常訊息，避免拖垮主消費流程。DLQ 是診斷與修復入口，把它當終點會讓問題沉積。每個進入 DLQ 的訊息，都應能回答：失敗原因是 payload 錯誤、下游不可用、版本不相容，還是消費邏輯缺陷。

requeue 需要明確條件。直接把異常訊息無限 requeue，通常會造成隊列震盪與延遲累積。穩定做法是先隔離、分群、修復，再批次回放。

ordering 與吞吐取捨

durable queue 在順序與吞吐之間需要明確取捨。全域順序通常成本極高，實務上多採用分區內順序：同一 key 保持順序，不同 key 可並行。這能兼顧一致性需求與處理吞吐。

順序要求越高，恢復流程越需要明確 checkpoint 與補償策略。否則故障後的重播容易造成亂序副作用，放大修復成本。

判讀訊號

訊號	判讀重點	對應動作
queue depth 持續上升	輸入速率高於消費能力	擴消費能力、調整重試節奏、分流高成本任務
retry ratio 升高且成功率下降	故障從暫時性轉為系統性	降級下游、縮小重試並啟動隔離策略
DLQ 量快速增加	payload/版本/邏輯異常集中爆發	分群診斷、修復邏輯、定向重播
requeue 循環導致延遲尖峰	缺少隔離邊界與停損機制	停止盲目 requeue、先隔離後回放
消費恢復後出現大量重複副作用	去重與冪等保護不足	補 idempotency key 與 side-effect guard

常見誤區

把 durable queue 視為「寫進去就安全」，會忽略消費與恢復責任。持久化只保證訊息可取回，不保證業務結果已正確提交。

把 DLQ 當成長期倉庫，也會讓問題持續累積。DLQ 的工程價值在於快速定位異常類型並回到修復流程。

訊息系統的「通知 vs 訊息」分類

訊息系統設計區分兩種 SLO 不同的傳遞責任：transactional 通知 承擔業務副作用的可靠送達、broadcast 訊息 承擔大量低成本傳播。兩者用不同 storage、不同重試策略、不同投遞保證。

對應 9.C26 PayPay — 行動支付每日 3 億訊息、付款通知承擔「確認交易完成」的業務責任、SLO 包含秒級延遲跟高投遞率（用戶付完款後若 30 秒沒收到通知會打客服、產生重複扣款風險）。這層需求嚴於 OTA 推播、需要 durable queue + retry + 重複偵測。

分類設計：

Transactional 通知（付款收據、訂單狀態變更、配額警告）：承擔業務副作用確認、需 durable + idempotency key 去重、SLO 通常是 秒級延遲 + 99.99% 投遞率
Broadcast 訊息（行銷推播、新片發布通知、社群動態）：承擔大量低成本傳播、SLO 是 吞吐量 跟覆蓋率、允許 best-effort retry

判讀含義：規模化訊息系統的容量規劃要按類別分開、避免套同一個 broker capacity。3 億訊息 / 天看似一致、但通知跟訊息的工程負擔差數量級。

下游推送是隱性瓶頸

訊息系統的真正瓶頸常落在 下游推送通道（APNs、FCM、SMS gateway、email provider）、不在 broker。下游 quota 是 hard ceiling、超過會被 throttle、訊息積壓回 broker 形成 backlog。

對應 9.C26 PayPay — DynamoDB 寫入可以撐 3K msg/sec 平均（PayPay 本身用 DynamoDB 作訊息後端、不是傳統 broker）、但 APNs 推送額度成為事故當下的隱性瓶頸。容量規劃要把下游 quota 算進去、不只看訊息後端吞吐。

設計含義：

下游 quota 視為容量上限：APNs / FCM / SMS 的 daily quota 是 hard ceiling、訊息後端規劃要對應
下游通道多元化：用 APNs / FCM / SMS / in-app notification 多通道分攤 quota 壓力、單通道飽和時其他通道仍可送出（具體降級策略需依各組織業務規則設計）
重試節奏跟下游容量對齊：consumer 重試節奏依下游剩餘 quota 動態調整、讓重試節奏跟容量同步

判讀重點：訊息系統事故當下、先看下游推送通道狀態（APNs status、FCM error rate）、再看訊息後端。下游 throttle 引發 backlog 是規模化訊息系統最常見的瓶頸來源。下游推送 quota 的攻擊面對照見 3.5 multi-tenant broker 配額耗盡。

案例回寫

durable queue 的重試與隔離節奏可用 3.C9 反例回寫。先看事件中的 backlog、retry、DLQ 變化，再回到本章判讀是重試策略失衡，還是隔離邊界不清楚。這個案例主要支撐的是「重試隔離與停損門檻」判讀，不直接支撐 outbox 交易切分；若事件核心是資料提交與發布不一致，應轉到 3.3 與 1.3。

當重試量上升且主隊列延遲同步拉高時，先拆分重試通道並收斂 DLQ 分流條件，再把停損門檻接到 6.24 規則推送安全閘門。

跨模組路由

durable queue 是非同步可靠性的起點，不是終點。

與 3.4 的交接：消費與恢復語意落在 consumer 設計與去重。
與 3.3 的交接：發布一致性落在 outbox pattern。
與 4.20 的交接：queue depth、retry、DLQ 指標進入 Observability Evidence Package。
與 6.12 的交接：重試與重播驗證進入 Idempotency 與 Replay 驗證。
與 8.19 的交接：故障隔離與回放決策進入 Incident Decision Log。

下一步路由

要從投遞語意往消費語意延伸，接著讀 3.4 consumer 設計與去重。要看 queue 切換失敗模式，接著讀 3.C9 反例。

3.C3 LinkedIn：TopicGC 與 Kafka 治理轉換

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是說明 queue 系統的轉換也包含 metadata 治理。

觀察

LinkedIn 以 TopicGC 清理未使用 topic，降低 Kafka metadata 壓力並改善 produce/consume 效能。

判讀

當 queue 規模擴大，僅靠容量擴充不夠，topic 生命週期與治理自動化會成為可靠性關鍵。

策略

定義 topic 活躍判準與回收條件。
自動化清理流程並保留稽核紀錄。
監控清理前後的性能與穩定性指標。

下一步路由

回 3.4 consumer design 與 6.14 dependency reliability budget。

引用源

TopicGC at LinkedIn

NATS

Fri, 01 May 2026 00:00:00 +0000

NATS 是 lightweight high-performance messaging system、承擔三個責任：subject-based routing（hierarchical wildcards）、low-latency messaging（Core NATS、fire-and-forget）、選擇性持久化（JetStream、streams + KV + Object Store）。設計取捨偏向「協議極簡、運維輕、必要時才開持久化」、適合微服務通訊跟 edge 場景。

對「微服務 messaging、IoT/edge、Request/Reply、需要 messaging + KV 一體」這條路徑、NATS 是輕量首選。本頁先給最短路徑、再展開日常 publish / subscribe 與 subject 設計、最後進階治理（JetStream、supercluster、leaf node）跟排錯。

本章目標

讀完本章後、你應該能：

用 nats-server 跑起 NATS（含 JetStream）、驗證 broker 健康
用 nats CLI publish / subscribe、看 subject hierarchy 匹配
區分 Core NATS（fire-and-forget）vs JetStream（durable）的選用判讀
看懂 stream 配置、consumer 配置、pending 訊號
評估 supercluster、leaf node、KV / Object Store 等延伸場景

最短路徑：5 分鐘把 NATS 跑起來

 1# 1. 啟動 NATS server（-js 開 JetStream、-m 8222 開監控埠）
 2docker run -d --name nats -p 4222:4222 -p 8222:8222 nats:latest -js -m 8222
 3
 4# 2. 用 nats CLI publish / subscribe（CLI 可用 natsio/nats-box 容器）
 5#    docker run --rm --network host natsio/nats-box nats 
 6nats --server nats://localhost:4222 pub demo.hello "world"
 7nats --server nats://localhost:4222 sub "demo.>"   # 另開一個 shell 持續訂閱
 8
 9# 3. 建 JetStream stream + pull consumer（持久化 + ack）
10nats --server nats://localhost:4222 stream add demo --subjects 'demo.>' \
11  --storage file --retention limits --discard old --defaults
12nats --server nats://localhost:4222 consumer add demo worker \
13  --pull --deliver all --ack explicit --filter 'demo.>' --defaults

最短路徑驗證「Core NATS + JetStream 都可用」。實際寫程式用 nats client library、見日常操作。

日常操作與決策形狀

CLI 與 client API

子議題：

nats CLI 指令對照表（pub / sub / stream / consumer / kv）
監控 endpoint（/varz / /connz / /jsz HTTP）
Client library 配置：connection / reconnect / timeout / async / sync subscribe
對應指令範例：nats stream info 、nats consumer info

Subject hierarchy 與 wildcard

Subject 是 NATS 路由的核心、層級式設計：

層級用 . 分隔（例：orders.created.us-west）
單層 wildcard *（匹配一層）
多層 wildcard >（匹配剩餘所有層）
Subject 命名規範與 ownership

Core NATS vs JetStream

子議題：

Core NATS：fire-and-forget、無持久化、極低延遲、適合即時通知 / 控制信號
JetStream：append-only stream + durable consumer、適合需要 replay / 持久化的事件流
兩者並存設計（同一 NATS server 同時跑）

Request/Reply 與 Queue groups

子議題：

Request/Reply pattern（RPC over messaging）
Queue groups（load balancing、多 subscriber 分擔同 subject）
Pub/Sub vs Queue groups 的差異

進階主題（按需閱讀）

JetStream 已展開為兩篇 deep article：core 到 JetStream 邊界（採用決策入口）、JetStream 設計與 supercluster/leaf node（stream / consumer / 跨區拓樸 / 多租戶完整實作）。下列子議題段保留選題判讀入口。

JetStream stream 設計

子議題：

Stream 配置（subjects、retention policy、storage type）
File-based vs Memory-based storage
MaxMsgs / MaxBytes / MaxAge（保留策略）
Replicas（JetStream raft、跨節點一致性）

JetStream consumer 設計

子議題：

Durable vs ephemeral consumer
Push vs pull consumer
Ack 策略（explicit ack / all / none）
AckWait + MaxDeliver + DeliverPolicy（重試控制）

Cluster / Supercluster / Leaf node

子議題：

Cluster：單一 region 多 broker、JetStream raft 同步
Supercluster：跨 cluster gateway、跨區延展
Leaf node：邊緣節點、subject mapping、適合 IoT / edge 場景
對應 3.C8 Cloudflare Queues 全球交付的對照思路

JetStream KV / Object Store

子議題：

KV store（基於 JetStream、簡單 key-value）
Object Store（基於 JetStream、大 blob）
何時用 NATS KV vs 真的 KV 服務（Redis / etcd）

Subject-based ACL 與多租戶

子議題：

Account 隔離（multi-tenancy 主機制）
Subject-level permission（publish / subscribe）
Cross-account import / export

排錯快速判讀

Consumer pending 累積

操作原則：先看 pending 是 ack-pending 還是 stream backlog、再定位 consumer 慢 vs stream 寫入過快。

1nats --server nats://localhost:4222 consumer info  
2# 看 Unprocessed Messages（stream backlog）與 Redelivered / Acknowledgment Pending（ack-pending）區分兩種累積

Stream 超 retention limit

操作原則：超 MaxBytes / MaxMsgs 時 stream 觸發 discard policy、看是 old discard 還是 new discard。

Leaf node 連線不穩

操作原則：邊緣節點到 hub 的網路品質決定 subject mapping 延遲、看 reconnect 次數與 latency。

Subject 路由錯誤

操作原則：wildcard 設計錯導致訂閱不到、或匹配過多。看 subject hierarchy 規範與實際 subject。

JetStream raft 不一致

操作原則：replica 配置 R3 但只有 2 個健康節點、stream 變 read-only。看 cluster info 與 raft state。

何時改走其他服務

需求形狀	改走
高吞吐事件流（百萬 msg/sec）	Kafka
複雜 routing（exchange model）	RabbitMQ
Managed queue（AWS / GCP）	SQS / Pub/Sub
Redis 生態已存在	Redis Streams
大型企業生態整合	RabbitMQ / Kafka（社群更大）
Managed NATS	Synadia Cloud

不在本頁內的主題

各語言 client 完整 API（依官方文件）
NATS 跟 gRPC 的對比（在分散式通訊章節）
Synadia Cloud 商業功能

案例回寫

NATS 專屬案例（C34-C41）

案例	主討論議題
3.C34 Netlify data plane	全球 metrics / logs fan-out
3.C35 Form3 multi-cloud	JetStream Leaf Node 跨雲低延遲支付
3.C36 Intelecy IoT	工業 IoT / BoltDB → JetStream
3.C37 MachineMetrics edge	Leaf node + KV + Object Store + 多租戶 Auth
3.C38 Clarifai ML	NATS Streaming queue group / at-least-once
3.C39 Choria fleet	Request/Reply + Queue group / 50 萬 server
3.C40 Resgate API gateway	Subject hierarchy 即 schema / Core NATS
3.C41 i-flow OT/IT	多工廠 leaf node hub-and-spoke

跨 vendor 對照

案例	對 NATS 的對應
3.C8 Cloudflare Queues	全球交付對照：leaf node + supercluster
3.C10 規模對照	小型 messaging / 中型 JetStream / 大型 supercluster

下一步路由

上游概念：0.3 非同步選型、3.1 broker basics
平行 vendor：Kafka、RabbitMQ
下游能力：3.4 consumer 設計、3.6 processing recovery semantics

3.3 outbox pattern 與發佈一致性

Thu, 23 Apr 2026 00:00:00 +0000

這一章處理 transaction 與訊息發佈之間的一致性問題，後續可以再延伸到 polling、relay 與 failure recovery。

外部發件箱模式（outbox pattern）的核心責任是讓資料提交與事件發布在失敗時保持可恢復一致。它把重複發布轉成可判讀、可去重、可補償的治理問題。

基本流程

transaction outbox 的典型流程是：在同一資料庫交易內，同時寫入業務資料與 outbox 記錄；交易提交後，由 relay worker 讀取 outbox 並發布到 broker；發布成功後標記或刪除 outbox 記錄。

這個流程把一致性問題從「跨系統兩段提交」改成「單系統交易 + 非同步重送」，讓失敗路徑更可控。

relay worker

relay worker 的責任是穩定發布與可恢復進度。worker 需要具備批次拉取、順序控制、重試策略與停損條件。進度管理要明確，避免重啟後漏發或重複失控。

當流量上升時，relay 吞吐會成為關鍵瓶頸。穩定做法是分 shard 處理、限制批次大小、對重試與正常發布做通道分流。

發布失敗與補償

發布失敗通常分為暫時性與系統性。暫時性故障走有限重試，系統性故障走隔離與告警。關鍵是保留 outbox 記錄與發布狀態，讓恢復時可重播。

duplicate publish 在 outbox 模式下屬於預期現象。消費端需要配合 idempotency 機制，確保重複事件不會產生重複業務結果。

判讀訊號

訊號	判讀重點	對應動作
outbox backlog 持續堆積	relay 吞吐不足或下游故障持續	擴充 worker、分流重試、啟動降級流程
業務資料已更新但下游狀態延遲明顯	發布延遲超出可接受窗口	提升 relay 優先級、補告警與可視化
duplicate consume 比例上升	重試與重播增加，去重壓力上升	強化 consumer idempotency 與去重儲存
relay 重啟後出現漏發	進度標記與交易邊界設計不穩	收斂進度策略、補恢復測試
同步交易延遲上升且 outbox 寫入增加	outbox 表設計與索引不足	調整索引與分表策略、拆分熱路徑

常見誤區

把 outbox 當作「一次解決一致性」的銀彈，會忽略消費端冪等與補償責任。outbox 保證的是發布可恢復，不是端到端結果自動正確。

把 outbox 表當一般業務表無上限累積，也會放大查詢與維護成本。需要定義保留與清理節奏，並確保稽核需求有對應方案。

Self-managed vs Managed broker 的長期 TCO

Broker 選型本質是 long-term TCO 決策、需評估雲端費用 + 工程稅 + 治理負擔三層成本。Self-managed Kafka 的容量規劃 + broker 數量 + 副本因子 + disk + ZooKeeper / KRaft 治理是長期工程 tax、每次擴容是工程專案。

對應 9.C9 Spotify Kafka → Pub/Sub Migration — Spotify 從自管 Kafka 遷到 Google Cloud Pub/Sub、動機是 容量規劃的工程成本 在 sustained growth 下變得不划算、非 Kafka 效能不足。對 7500 萬用戶的事件交付系統、把 broker 容量規劃跟運維負擔卸給 vendor、釋放工程團隊 capacity。

TCO 評估的真實成本項（9.C9 case 列前 4 項 + 雲端費用、第 5 項屬跨案例綜合）：

Broker 雲端費用：明面成本、相對小
容量規劃工程：每季 partition planning、每年容量擴張專案
故障處理人力：broker 故障 oncall、ZooKeeper / KRaft 故障診斷
升級遷移成本：Kafka 每個 major version 升級是專案
跨團隊治理（從 3.C6 Uber 跨案例補充）：規模化後的 multi-tenant 隔離、quota 管理、observability 建設

判讀含義：Self-managed Kafka 在中小團隊可能比 Pub/Sub 便宜（雲端費用低）；但規模化後人力成本壓過雲端費用差、managed service 反而划算。對應 3.C2 VMware Tanzu Kafka → MSK 同樣是「自管 → managed」的決策。

Managed service 的取捨：

Pub/Sub 自動 scaling、伴隨 vendor lock-in、cost-per-message 累積、message ordering / latency 特性跟 Kafka 差異
業務語意對映（Kafka partition / offset / consumer group 在 Pub/Sub 對映成 subscription / ordering key / message attribute）需重新校準、見 3.7 跨 broker 業務語意對映
遷移本身需驗證業務語意 — 對應 1.7 schema migration rollout evidence 的同類流程

Broker 遷移的階段流程

對應 9.C9 Spotify — broker 遷移屬高併發容量工程、需維持 producer 連續寫入、保證 message 不丟。Spotify case 列三階段（dual write → shadow → cutover）、本章補第四階段（Decommission）作為清理收尾。replay 模型差異見 3.6 Replay 跟 Idempotency 共設計。

Dual-write：producer 同時寫兩個 broker、確保 cutover 前新 broker 有完整資料
Shadow consume：新 broker 有獨立 consumer group 消費、驗證業務結果跟舊 broker 一致
Cutover：流量逐步切到新 broker、保留舊 broker 為 fallback
Decommission（本章補充、case 未明文）：確認新 broker 穩定後關掉舊 broker、清理舊架構

遷移期容量規劃含義：

Dual-write 期間 broker 雙倍流量（writer side）
Shadow consume 期間 consumer 雙倍負載（reader side）
業務驗證（mismatch tracking）期間有額外的對帳工作量

跟 1.12 大規模 DB 遷移是同類流程、流程細節跟 evidence chain 可互相參考。

案例回寫

outbox 一致性可用 GitHub 2018 Oct21 MySQL Topology Incident 的恢復段落回寫。先看資料寫入與下游狀態同步是否脫節，再回到本章檢查 outbox backlog、relay 進度與重播策略。這個案例主要支撐的是「提交後發布一致性」判讀，不直接支撐 broker 的底層投遞參數；若問題是 ack/partition 策略，應回到 3.1/3.2。

當資料已提交但事件遲到，或重播後副作用重複時，先調整 relay 節流與 consumer 冪等，再把驗證證據對齊 6.23 Verification Evidence Handoff。

跨模組路由

與 1.3 的交接：交易邊界語意回到 transaction 與一致性邊界。
與 3.2 的交接：發布後重試與隔離回到 durable queue 與重試策略。
與 3.4 的交接：消費冪等與重播回到 consumer 設計與去重。
與 6.12 的交接：一致性驗證與重播演練回到 Idempotency 與 Replay 驗證。
與 8.19 的交接：發布故障決策回到 Incident Decision Log。

下一步路由

要從 outbox 延伸到消費恢復，接著讀 3.4 consumer 設計與去重。要看 queue 切換失敗時的一致性風險，接著讀 3.C9 反例。

模組三：訊息佇列與事件傳遞

Wed, 22 Apr 2026 00:00:00 +0000

訊息佇列模組的核心目標是說明事件離開單一 process 後，如何處理持久化、重試、重複投遞與 consumer 協調。語言教材會先處理本地 queue abstraction、publisher port、processor 與 idempotency interface；本模組負責 broker 的具體語意。

Vendor / Platform 清單

實作時的常用選擇見 vendors — T1 收錄 RabbitMQ / Kafka / NATS / Redis Streams / AWS SQS / Google Pub/Sub，每個 vendor 有定位、適用場景、取捨與預計實作話題的骨架。

Deep article（vendor 自身的配置、故障、容量）跟 migration playbook（跨 vendor 遷移流程）的撰寫進度見 vendors/ 的「內容覆蓋進度」段。

暫定分類

分類	內容方向
RabbitMQ	exchange、queue、routing key、ack/nack、dead-letter queue
NATS	subject、consumer、JetStream、at-least-once delivery
Kafka	topic、partition、consumer group、offset、ordering
Redis Streams	stream、consumer group、pending entry、claim
Outbox	transaction outbox、poller、publisher、重試策略
Idempotency	idempotency key、dedup store、replay safety

選型入口

訊息佇列選型的核心判斷是工作離開 request 或 process 後需要什麼投遞保證。當工作需要排隊、重試、跨服務傳遞、多 consumer 協作或事件補送時，broker 與 outbox 值得優先評估。

RabbitMQ 適合明確 routing、ack/nack 與工作佇列；NATS 適合 subject-based messaging 與較輕量的服務通訊，搭配 JetStream 可加入持久化；Kafka 適合高吞吐事件流、partition 與長期 replay；Redis Streams 適合 Redis 生態內的 stream 與 consumer group；outbox 解決資料寫入與事件發布的一致性；idempotency 解決重複投遞造成的結果穩定性；retry budget 與 jitter 則控制故障期間的重試壓力。

接近真實網路服務的例子包括付款後寄信、影片轉檔、訂單事件傳給多個系統、IoT readings pipeline 與跨節點通知。這些場景的共同問題是 delivery semantics，因此本模組會先處理 broker 模型、retry、DLQ、outbox 與 consumer 設計。

與語言教材的分工

語言教材處理本地 backpressure、processor 邊界、port / Message Protocol 設計與單一 process 內的去重。Backend message queue 模組處理 broker selection、ack/nack、DLQ、consumer group、outbox 與跨 process 重試。

案例驅動讀法

佇列案例的核心讀法是先辨識遷移的是「資料路徑」還是「治理路徑」，再決定先做 broker 切換還是治理收斂。

案例	先看章節	回寫目標
3.C1 Meta：FOQS 全域遷移	3.1、3.2	把跨區 queue 路由與可用性邊界前置
3.C2 VMware：Kafka -> MSK	3.1、3.4	把 managed broker 遷移轉成 ACL/lag/回退治理
3.C3 LinkedIn：TopicGC	3.4	把 topic 生命週期治理納入可靠性成本模型

跨語言適配評估

訊息佇列使用方式會受語言的 worker model、錯誤處理、序列化、背景任務框架與 idempotency 設計影響。同步 runtime 要控制 consumer thread 數量與 ack timeout；async runtime 要處理 backpressure 與 long-running handler；輕量並發 runtime 要限制同時處理量，避免 consumer 擴張超過下游容量。強型別語言適合建立 event schema 與 command model；動態語言要補足 payload validation、dead-letter 診斷與重播測試。

章節列表

章節	主題	關鍵收穫
3.1	broker 基礎與投遞模型	看懂 exchange、topic、consumer 與 delivery semantics
3.2	durable queue 與重試策略	規劃持久化、ack/nack、DLQ 與 retry
3.3	outbox pattern 與發佈一致性	把交易寫入與事件發佈分離
3.4	consumer 設計與去重	設計 idempotency、checkpoint 與 replay safety
3.5	攻擊者視角（紅隊）：傳遞層弱點判讀	用重放、重複、毒訊息與延遲累積檢查非同步傳遞邊界
3.6	Processing Semantics 與 Recovery Semantics	分辨投遞成功、處理成功與恢復成功
3.7	Event Contract 與 Replay Boundary	定義 event schema、idempotency key、replay window 與補償邊界
3.8	Queue Consumer Retry 與 Replay Handoff 實作示範	以訂單事件 consumer 示範 evidence、DLQ、replay runbook 與 decision log
3.C	轉換案例正文	把 queue 架構、broker 遷移與 topic 治理轉成可操作案例

反例與規模對照入口： 3.C9 反例 / 3.C10 對照。

回退判讀寫法見 0.C4 回退判讀寫法，queue 案例要優先保留 delivery semantics、lag、DLQ 與 replay 條件。

跨模組端到端串聯（DB → cache → event → observability）見 0.15 跨模組 Checkout Episode。

觀念網路補完方向

訊息佇列章節下一輪的核心責任是把「投遞成功」和「業務結果正確」分開。現有章節已經有 broker、durable queue、outbox 與 consumer design，但還需要補上 delivery semantics、processing semantics 與 recovery semantics 的三層關係，讓讀者知道 queue 失敗同時包括訊息遺失、重複副作用、順序錯亂、重播風險與下游壓力放大。

補完方向	需要回答的問題	主要路由
Delivery semantics	broker 如何 ack、nack、redelivery、retry、送入 DLQ	delivery semantics、3.2
Processing semantics	consumer 的副作用是否能承受重複、亂序與部分失敗	idempotency、6.12
Recovery semantics	replay、checkpoint、offset 與補償是否可重播與驗證	offset、8.19
Outbox boundary	資料庫交易與事件發布是否有一致性邊界	outbox pattern、1.3
Poison handling	壞訊息是否會卡住 consumer 或被無限重試	poison message、dead-letter queue

這些方向要用非同步服務自己的語意展開。寄信、開 invoice、更新 CRM、同步 search index、發 webhook 的副作用不同，retry、DLQ 與 replay 的判準也不同。

知識卡補強方向

佇列模組的 knowledge card 缺口集中在「處理語意」與「恢復語意」。已有 consumer lag、retry budget、poison message 與 offset 可以作為第一批錨點。

第二批卡片已補上 processing semantics、recovery semantics、replay window、consumer pause、event schema compatibility、DLQ drain 與 poison-message quarantine。這些卡片讓讀者能分辨「queue 有持久化」和「consumer 結果可恢復」分屬不同責任。

實作探討入口

佇列的第一條實作路徑是 3.8 Queue Consumer Retry 與 Replay Handoff（實作示範）。這篇以 order_created consumer 為例，說明 idempotency evidence、DLQ handling、replay runbook 與 incident decision route 如何一起成立。

這條路徑的前置引用應該是 3.2 durable queue、3.3 outbox pattern、3.4 consumer design、6.12 Idempotency 與 Replay 驗證與 6.23 Verification Evidence Handoff。完成後可依 Backend 學習路線進入下一條服務路徑。

佇列路徑的 artifact 對齊重點是「把投遞成功與處理成功拆開記錄」。對 4.20 要交 Source/Time range/Query link/Owner/Data quality，並覆蓋 consumer lag、retry、DLQ 與 duplicate side-effect；對 6.12 / 6.23 / 6.8 要交 Gate decision/Checks/Stop condition/Rollback window/Owner，呈現 replay 範圍、去重驗證與補償路徑；對 8.19 要交 Timestamp/Decision/Context/Evidence/Owner/Expected effect/Rollback condition，記錄 pause consumer、drain DLQ、重播啟停的決策序列。

3.C4 LinkedIn：Kafka 分層叢集治理

Thu, 07 May 2026 00:00:00 +0000

LinkedIn 的 Kafka 分層叢集案例呈現了 Kafka 在規模化之後，瓶頸從「broker 容量」轉移到「workload 互相干擾」。分層的核心判斷是按業務風險隔離，把叢集當成資源治理單位。

業務背景

LinkedIn 是 Kafka 的誕生地，內部 Kafka 叢集承載的工作負載涵蓋即時推薦、搜尋索引更新、analytics pipeline、audit log 跟 monitoring。早期所有 workload 共用少數幾個大叢集，隨流量成長，叢集內不同 workload 的資源競爭開始互相影響。

LinkedIn 的 Kafka 規模是全球最大的之一 — 數千個 broker、每秒數百萬筆訊息、PB 級資料保留。在這個規模下，單一叢集的容量限制是 broker 數量跟 ZooKeeper 的 metadata 管理上限，但更早觸及的限制是 workload 之間的干擾。

技術挑戰

Noisy neighbor

即時推薦系統需要低延遲的 consumer（P99 < 50ms），analytics pipeline 是大量 batch consumer（高吞吐但延遲容忍到秒級）。兩者共用同一組 broker 時，batch consumer 的大範圍 sequential read 佔滿 disk I/O，擠壓即時推薦的 random read latency。

一個 analytics job 的重跑（backfill 歷史資料）可以讓推薦系統的 consumer lag 從毫秒跳到秒級。在共享叢集中，這種干擾難以預防 — 只能在事後發現、人工協調。

Broker 故障的影響面

單一叢集中 broker 故障會觸發 partition reassignment，reassignment 的資料搬移佔用 disk I/O 跟網路頻寬。在混合 workload 的叢集中，reassignment 同時影響所有 workload 的效能 — 包括跟故障 broker 無直接關係的 topic。

叢集越大、topic 越多、reassignment 的影響面越廣。

容量規劃的模糊邊界

共享叢集的容量規劃沒有清楚的 owner — analytics 團隊說「我們需要更多 retention」、推薦團隊說「我們需要更低 latency」、audit 團隊說「我們的資料不能丟」。三種需求各自合理，但共享叢集無法同時最佳化。

解法：分層叢集

LinkedIn 按業務風險跟效能需求把 workload 分配到不同叢集：

Tier 1 — 即時關鍵路徑：即時推薦、搜尋索引更新、使用者通知。Broker 配置偏向低延遲（SSD、高 IOPS）、replication factor 3、retention 短（保留足夠的 consumer catchup 時間）。

Tier 2 — 可靠性要求高但延遲容忍：audit log、合規事件、支付事件。配置偏向持久性（replication factor 3、min.insync.replicas 2、acks=all）、retention 長。

Tier 3 — 高吞吐分析：analytics pipeline、ETL、batch processing。配置偏向吞吐（大 batch size、長 linger.ms、HDD）、retention 最長、容忍偶發 consumer lag。

分層的判準

分層的判準是「這個 workload 故障時，業務影響有多大、多快」：

即時影響使用者體驗 → Tier 1
影響合規或財務但可容忍分鐘級延遲 → Tier 2
影響分析準確性但可容忍小時級延遲 → Tier 3

取捨

面向	共享叢集	分層叢集
資源利用率	高（所有 workload 共用資源池）	低到中（每層有獨立的保留容量）
隔離性	低（noisy neighbor 互相干擾）	高（故障跟效能退化限制在同層）
運維複雜度	低（一組 broker 統一管理）	高（多組 broker、各自的監控跟維護）
容量規劃清晰度	模糊（多種需求混合、難以歸因）	清楚（每層的需求跟 owner 明確）
故障影響面	廣（reassignment 影響所有 topic）	有限（reassignment 只影響同層）

分層的成本是資源利用率下降 — 每層都需要保留一定的 headroom 應對高峰，加總起來比共享叢集多。LinkedIn 的判斷是隔離性的價值大於利用率的損失 — 推薦系統一次 P99 退化的業務損失遠大於多幾台 broker 的成本。

回寫教材的連結

3.1 broker basics：broker 配置怎麼影響延遲 vs 吞吐 vs 持久性的取捨。
6.14 dependency reliability budget：不同 tier 的 Kafka 叢集各自有不同的 reliability budget。
3.4 consumer design：batch consumer 跟 real-time consumer 的資源消耗差異。

判讀徵兆

讀者在自己的系統看到以下訊號時，應該回讀本案例：

即時消費者的 consumer lag 因為同叢集的 batch job 而上升
Broker 故障後的 partition reassignment 影響到跟故障無關的 topic
容量規劃會議中不同團隊的需求互相矛盾、無法在同一組配置中滿足
Kafka 叢集的 topic 數量超過 500 個、workload 類型超過三種

引用源

Running Kafka at Scale at LinkedIn

Redis Streams

Fri, 01 May 2026 00:00:00 +0000

Redis Streams 是 Redis 5.0 引入的 append-only log data type、承擔三個責任：輕量 event stream（XADD / XREAD）、consumer group 與 pending entries list（XREADGROUP / XACK）、Redis 生態內整合（避免額外引入 Kafka）。設計取捨偏向「跟 Redis 本體生命週期綁定、低延遲 + 記憶體成本、適合中等規模」。Redis vendor 細節見 02 redis。

對「已用 Redis、需要輕量 stream、不想引入額外基礎設施」這條路徑、Redis Streams 是務實選擇。本頁先給最短路徑、再展開日常 XADD/XREAD 操作與 consumer group 設計、最後進階治理（PEL、retention、Cluster 影響）跟排錯。

本章目標

讀完本章後、你應該能：

用 redis-cli XADD / XREAD 操作 stream
設計 consumer group + XCLAIM 處理 consumer 失敗的訊息接管
看懂 pending entries list（PEL）累積訊號、定位 consumer 健康
設計 MAXLEN / MINID retention 對齊記憶體預算
評估 Redis Cluster 對 Streams 的影響與限制

最短路徑：5 分鐘把 Redis Streams 跑起來

 1# 1. 啟動 Redis（已有 Redis 跳過）
 2docker run -d --name redis -p 6379:6379 redis:7
 3
 4# 2. XADD 寫入 stream（'*' 由 Redis 產生遞增 entry ID）
 5docker exec redis redis-cli XADD mystream '*' field1 value1
 6
 7# 3. XREAD 讀取（從 0 起讀、最多 10 筆）
 8docker exec redis redis-cli XREAD COUNT 10 STREAMS mystream 0
 9
10# 4. 建 consumer group 後用 group 模式讀（'>' 取未投遞訊息、進 PEL 等 ack）
11docker exec redis redis-cli XGROUP CREATE mystream mygroup 0
12docker exec redis redis-cli XREADGROUP GROUP mygroup consumer1 COUNT 10 STREAMS mystream '>'

最短路徑驗證「Redis 起來、stream 能寫能讀」。實際用 consumer group 場景見日常操作。

日常操作與決策形狀

XADD / XREAD / XREADGROUP

子議題：

XADD：寫入 entry、* 自動 ID vs 手動 ID
XREAD：簡單讀取（無 consumer group、適合單 consumer）
XREADGROUP：consumer group 模式、配合 ACK
對應指令範例：XADD、XREAD、XREADGROUP、XACK、XPENDING

Consumer group 與 PEL

Consumer group 是 Streams 的核心抽象、配合 Pending Entries List（PEL）追蹤未 ack 訊息。子議題：

XGROUP CREATE / SETID / DESTROY
XACK：明確 ack
XPENDING：查 PEL 狀態
XCLAIM / XAUTOCLAIM：consumer 失敗時接管訊息

Retention：MAXLEN / MINID

子議題：

MAXLEN：保留最近 N 個 entry（近似或精確）
MINID：保留 ID 大於某值的 entry
XADD 寫入時帶 MAXLEN（最常用）
XTRIM 手動修剪

進階主題（按需閱讀）

PEL 失敗接管、retention 與 cluster 影響已展開為 deep article：XCLAIM/PEL 失敗接管與 cluster 影響。下列子議題段保留選題判讀入口。

XCLAIM 與 consumer 失敗接管

子議題：

Idle time 判讀（min-idle-time 參數）
XAUTOCLAIM（Redis 6.2+、自動接管）
接管後的去重責任（仍需 idempotency）

Memory 與 retention 取捨

子議題：

Stream 佔用 Redis 記憶體、MAXLEN 是主要旋鈕
近似修剪（~ 標記）vs 精確修剪的性能差異
配合 maxmemory-policy 與 eviction（注意 stream 不會被 eviction）

Redis Cluster 對 Streams 的影響

子議題：

Stream key 只在單一 shard（無 partition 概念）
多 stream 跨 shard 的設計（用 hash tag 控制分布）
Cluster failover 對 PEL 一致性的影響

Stream + Functions（Redis 7+）

子議題：

Redis Functions（取代 Lua scripting）
Stream 處理寫成 Redis-side function
適用 / 不適用場景

Redis Sentinel / Cluster 對可靠性的影響

子議題：

Replication lag 對 Streams 一致性的影響
AOF 與 RDB 對 Stream 持久化的差異
Failover 期間 PEL 是否完整

排錯快速判讀

PEL 累積（XPENDING 數字持續增長）

操作原則：先看是單一 consumer 還是整 group 都累積、再定位 consumer 失敗 vs ACK 漏寫。

1redis-cli XPENDING mystream mygroup
2# 回傳 PEL 總數 + 每個 consumer 的待 ack 數、定位累積集中在哪個 consumer

判讀路徑：consumer crash 沒 ACK → consumer 慢 → ACK 程式碼漏寫。

Memory pressure（stream 佔用過大）

操作原則：MAXLEN 沒設或設太大、stream 持續增長。判讀：用 MEMORY USAGE 看 stream 佔用、調整 MAXLEN。

跨 shard stream 限制

操作原則：Streams 不支援 partition、單 stream 受單 shard 容量限制。設計：用 hash tag 強制分散到多 stream。

Consumer 重平衡（無原生機制）

操作原則：consumer group 沒有自動 rebalance、要手動 XCLAIM 接管。看 idle time 與 XPENDING 判斷該接管哪些。

Failover 後 PEL 不一致

操作原則：Sentinel / Cluster failover 後、replica 升 primary、PEL 可能不完整。對應 3.C9 語義誤配的思路。

何時改走其他服務

需求形狀	改走
高吞吐 / 長期 retention	Kafka
複雜 routing	RabbitMQ
跨節點 stream（partition + replication）	Kafka / Pulsar
輕量 messaging（不需 Redis）	NATS
Managed queue	SQS / Pub/Sub
Redis Pub/Sub（fire-and-forget）	Redis Pub/Sub（同 Redis、不持久化）

不在本頁內的主題

Redis 本體運維（見 02 cache 模組 redis vendor）
各語言 Redis client 完整 API
Redis Pub/Sub 細節（不是 Streams、語意不同）

案例回寫

Redis Streams 專屬案例（C42-C47）

案例	主討論議題
3.C42 Bitso Reliable Streams	自建抽象層 + DLQ + idempotency
3.C43 Arcjet 取代 Kafka	Janitor 自寫 retention / 6 位數 → $1k
3.C44 Harness event-driven	XAUTOCLAIM head-of-line / 監控缺口
3.C45 Klaxit Rust + Logplex	High-throughput log ingestion / consumer group
3.C46 Learning.com 退場	（反例）長期事件儲存因成本與延遲退場
3.C47 PHP + S3 hybrid	Payload 大小限制 / hybrid storage

跨 vendor 對照

案例	對 Redis Streams 的對應
3.C5 Slack Kafka+Redis	多 broker 組合：Kafka 處理量、Redis 處理即時性
3.C10 規模對照	中等規模 / Redis 生態內 / 不跨 shard

Stream + Functions / Redis Cluster on Streams 缺直接 customer case：公開資料多在 single-instance / Sentinel 規模、Cluster 跟 Functions 案例稀薄、撰寫該段時要明示。

下一步路由

上游概念：0.3 非同步選型、3.1 broker basics
Redis 本體：02 cache 模組
平行 vendor：Kafka、NATS
下游能力：3.4 consumer 設計

3.4 consumer 設計與去重

Thu, 23 Apr 2026 00:00:00 +0000

消費者設計（consumer design）的核心責任是把訊息投遞結果轉成可恢復的業務結果。queue 層提供 delivery 保證，consumer 層提供 processing 與 recovery 保證；三者對齊後，非同步流程才具備可預期性。

三層語意

consumer 端需要同時處理三層語意：

delivery semantics：訊息是否被成功投遞與確認，包含 ack/nack、retry、DLQ。
processing semantics：業務副作用是否可承受重複、亂序與部分失敗。
recovery semantics：故障後是否能重播、補償與回復到一致狀態。

這三層拆開後，才能看清問題落在哪一層。訊息送達不代表副作用完成；副作用完成不代表系統可恢復。

consumer group、partition 與順序責任

consumer group 與 partition 定義了並行與順序邊界。順序要求高的流程要把同一鍵值固定在同一 partition；吞吐優先的流程可提高 partition 數並分散處理。

分區策略會直接影響恢復成本。分區鍵混亂時，重播與補償很難限定範圍，事故期間容易擴大影響面。

checkpoint、offset 與 idempotency

checkpoint 與 offset 的責任是標記「處理到哪裡」，不是「業務一定完成」。寫 checkpoint 的時機要晚於副作用提交，避免進度前移導致資料遺漏。

idempotency key 的責任是讓重試與重播可重入。付款、發票、通知、庫存變更都需要明確冪等鍵與去重儲存策略，讓「至少一次投遞」不會變成「多次業務結果」。

replay safety

replay safety 的核心是先定義可重播範圍，再定義副作用控制。常見做法包含：

限定 replay window，避免一次重播跨越多個版本邊界。
將副作用拆成可比對與可補償動作，保留對帳路徑。
對 replay 期間的下游壓力設置節流與停損條件。

poison message 要獨立隔離。持續重試同一壞訊息會壓垮整體吞吐，穩定做法是送入 dead-letter queue，再走診斷與修復流程。

Queue 語意誤配是 broker 遷移最常見的失敗模式

Broker 遷移失敗的根因通常是 consumer 對舊 broker 行為的隱式依賴、不是 broker 本身效能。表面上訊息仍被送達、但業務資料開始出現重複扣款、重複寄信、狀態漏更新。

對應 3.C9 反例：Queue Semantics Mismatch Cutover — case 揭露切換後語意誤配三個方向：consumer 依賴特定 offset 行為、依賴特定重試節奏、依賴特定 idempotency 行為。失敗重播時、新系統即使提供相近 delivery semantics、結果可能不同。語意誤配會沿著下游資料寫入擴散、難以靠 queue depth 判斷。

典型誤配場景（基於通用 broker 行為知識展開、非 3.C9 case 原文具體列舉）：

At-least-once 假設變成 exactly-once 依賴：consumer 假設 broker 僅送一次、靠記憶單次處理；新 broker 重送同一 message、consumer 處理兩次
Offset 跳號處理差異：舊系統重啟後 offset 從特定位置開始、新系統可能從 latest / earliest 不同位置開始
Consumer group rebalance 行為差異：rebalance 期間舊系統會 pause 處理、新系統可能繼續處理、產生並發寫入衝突
DLQ retry 節奏差異：舊系統 DLQ message 預設不重試、新系統可能自動重試、製造重複副作用

回退判讀：回退前要先確認哪一段資料已經被新語意處理過。直接切回舊 broker 可能讓同一批事件再次被處理。穩定做法是先凍結新 consumer、保留 offset 對照與 replay 範圍、再決定補償或重播。

詳細處理 / 恢復語意分層見 3.6 processing-recovery-semantics。規模差異判讀（小 / 中 / 大型服務的 job queue 治理重點）見 3.8 queue-consumer-retry-replay-handoff — 中型服務常見問題是 lag/DLQ 長期累積、需具備定向 replay 能力、否則退回全 topic 重播會放大下游壓力。

三個工程議題要一起設計

Consumer idempotency + 重播流程 + 下游承載能力 三件事是 consumer design 的鐵三角、需同步落地。缺一個會在規模化時暴露成事故：

Consumer idempotency 不完整：DLQ replay 後產生重複副作用、即使 broker 切換成功、業務帳本仍然錯亂
重播流程不完整：事故當下需具備定向 replay 能力、否則退回全 topic 重播會放大下游壓力
下游承載能力不足：consumer 跟 broker 都健康、但下游 DB / API 撐不住 replay 速率、形成新事故

Job queue 的拓樸分工是另一個獨立議題、跟鐵三角互補但不重疊 — 詳見 3.8 Job queue 拓樸分工、主寫 Slack Kafka + Redis 案例。consumer 內部三件事要做好之外、不同類工作（高吞吐 / 即時 / 持久）也應專注單一目標、其他目標拆到對應路徑。

判讀訊號

訊號	判讀重點	對應動作
consumer lag 持續上升	consumer 吞吐低於輸入速率	提升併發、拆分 partition、檢查下游瓶頸
retry count 上升且成功率下降	錯誤已從暫時性轉為系統性	啟動降級、切換路由、保留重播窗口
duplicate side effect 增加	冪等鍵或去重流程失效	修正 idempotency store、暫停高風險副作用
DLQ 量快速增加	payload 或版本相容性問題集中爆發	分批隔離、加 schema 檢查、修復後定向重播
replay 期間下游 timeout 同步上升	重播速率超出依賴容量	節流 replay、分段回放、加 backpressure 控制

常見誤區

把 consumer 設計等同於「把 handler 寫完」，會漏掉恢復責任。consumer 的工程價值在於故障後仍可追蹤、可補償、可重播。

把 DLQ 當成終點，會讓問題在下次事件再出現。DLQ 的責任是隔離與診斷入口，最終要回到 schema、邏輯或依賴治理。

案例回寫

consumer 恢復語意可用 3.C9 反例與 3.C3 LinkedIn：TopicGC 對照回寫。先判讀問題是 idempotency 失效、checkpoint 前移，還是 replay 邊界失控，再對應本章的 processing/recovery 段落。這組案例主要支撐的是「處理恢復語意」判讀，不直接支撐 deployment drain 或 cache eviction；若根因在切流順序或快取容量，應轉到 5.3 或 2.3。

若重播成功但業務狀態仍不一致，先補副作用補償與對帳路徑，並把決策證據同步到 8.19 Incident Decision Log。

跨模組路由

consumer 設計是 01/03/04/06/08 的交界點。

與 03 內部的交接：processing/recovery 語意完整定義在 3.6 processing-recovery-semantics；event contract 跟 replay boundary 在 3.7；規模差異判讀跟 job queue 拓樸分工在 3.8。
與 01 的交接：交易與發布一致性回到 3.3 outbox pattern 與 1.3 transaction boundary。
與 04 的交接：lag、retry、DLQ、duplicate 指標進入 Observability Evidence Package。
與 06 的交接：重試與重播驗證進入 6.12 Idempotency 與 Replay 驗證。
與 08 的交接：pause consumer、replay 決策與補償判斷記錄到 Incident Decision Log。

下一步路由

要看 processing / recovery 三層語意完整定義、接著讀 3.6 processing-recovery-semantics。要建立 broker 層投遞模型，接著讀 3.1 broker 基礎與投遞模型與 3.2 durable queue。要看錯誤切換案例，接著讀 3.C9 反例。

3.C5 Slack：Job Queue 演進到 Kafka + Redis

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是說明工作佇列轉換常是拓樸重整，而不是單點替換。

觀察

Slack 在 job queue 擴展中使用 Kafka 與 Redis 分工，處理吞吐與即時性需求。

判讀

當背景工作同時要高吞吐與快速反應，單一通道模型通常會變成瓶頸。

策略

把不同工作類型切到不同傳遞路徑。
分別治理持久性與即時性目標。
以 lag、重試與失敗重播驗證穩定性。

下一步路由

回 3.2 durable queue 與 3.3 outbox pattern。

引用源

Scaling Slack’s Job Queue

AWS SQS

Fri, 01 May 2026 00:00:00 +0000

AWS SQS 是 AWS managed queue 服務、承擔三個責任：訊息排隊與重試（visibility timeout + DLQ）、解耦 producer / consumer（無 broker 運維）、AWS 生態原生整合（Lambda / EventBridge / Step Functions）。設計取捨偏向「極簡 API + managed 運維、用 visibility timeout 取代 broker ACK、無原生 ordering（standard queue）」。

對「AWS 生態 task queue、不想自管 broker、配合 Lambda 事件處理」這條路徑、SQS 是首選。本頁先給最短路徑、再展開日常 SendMessage / ReceiveMessage 操作與 visibility timeout 設計、最後進階治理（FIFO、DLQ、IAM、VPC endpoint）跟排錯。

本章目標

讀完本章後、你應該能：

用 AWS CLI 建 standard / FIFO queue、發送與接收訊息
設計 visibility timeout 對齊 consumer 處理時間
配置 DLQ（dead-letter queue）與 maxReceiveCount
區分 long polling vs short polling、配合 Lambda event source mapping
評估 IAM policy、VPC endpoint、cross-account 訪問等治理場景

最短路徑：5 分鐘把 SQS 跑起來

1# 1. 建 queue（回傳 QueueUrl、後續操作都用它）
2aws sqs create-queue --queue-name demo-queue
3
4# 2. 發送訊息
5aws sqs send-message --queue-url  --message-body "hello"
6
7# 3. 接收訊息（long polling、最多等 20 秒）
8aws sqs receive-message --queue-url  --wait-time-seconds 20

最短路徑驗證「queue 建得起來、能發能收」。實際應用配合 SDK / Lambda、見日常操作。指令對真實 AWS 需設定 credentials 與 region；本機要先驗證可加 --endpoint-url 指向 SQS-相容的 local 模擬器跑同一組指令。

日常操作與決策形狀

AWS CLI 與 SDK

子議題：

AWS CLI 指令對照表（create-queue / send-message / receive-message / delete-message / set-queue-attributes）
SDK 配置：region / credentials / retry policy / timeout
Batch operation（SendMessageBatch、DeleteMessageBatch、最多 10 條）
對應指令範例：aws sqs get-queue-attributes --queue-url

Standard vs FIFO queue

子議題：

Standard：高吞吐、at-least-once、無 ordering、適合多數 task queue
FIFO：exactly-once-ish（去重 5 分鐘窗口）、ordering（per MessageGroupId）、吞吐受限（3000 msg/sec with batching）
選擇判讀（ordering 需求 vs 吞吐）

Visibility timeout 與 in-flight

Visibility timeout 是 SQS 的 delivery 控制機制、取代 broker ACK：

訊息被接收後變 in-flight、其他 consumer 看不到
Consumer 處理完呼叫 DeleteMessage、否則 timeout 後回到 queue
ChangeMessageVisibility 動態延長（長任務）
預設 30 秒、上限 12 小時

DLQ 設計（dead-letter queue）

子議題：

maxReceiveCount：訊息被接收 N 次後送 DLQ
DLQ 監控與 alarm（CloudWatch metric）
Redrive policy（從 DLQ 重新放回 main queue）
對應 poison message 處理思路

進階主題（按需閱讀）

visibility timeout、polling、Lambda event source 與 cost 已展開為 deep article：visibility timeout / long polling / Lambda + cost。下列子議題段保留選題判讀入口。

Long polling vs Short polling

子議題：

Short polling（預設）：立即回應、可能空回（高 cost）
Long polling（WaitTimeSeconds 1-20）：等到有訊息或超時
對 cost 與 latency 的取捨

SQS + Lambda event source mapping

子議題：

Lambda 自動 poll SQS（managed event source）
Batch size / batch window 配置
Partial batch failure（ReportBatchItemFailures）
對應 3.C8 Cloudflare Queues 的全球交付對照

IAM / Cross-account 訪問

子議題：

Queue policy（resource-based）vs IAM policy（identity-based）
Cross-account producer / consumer 設定
Encryption（SSE-SQS / SSE-KMS）

VPC endpoint（私網訪問）

子議題：

Interface endpoint（PrivateLink）
適合不想經 public internet 的場景
跟 NAT Gateway 的 cost 對照

CloudWatch metric 與 alarm

子議題：

ApproximateNumberOfMessagesVisible（queue depth）
ApproximateAgeOfOldestMessage（lag 訊號）
NumberOfMessagesSent / Received / Deleted
Alarm 設計（depth 暴增、age 超 SLO）

Cost 模型

子議題：

Request cost（每百萬 request）
Data transfer cost（跨 region 才有）
FIFO 比 standard 貴的判讀
對應 0.6 成本取捨

排錯快速判讀

Message 反覆 redelivery（看到同訊息多次）

操作原則：visibility timeout 設定 < consumer 處理時間、訊息回 queue 又被另一 consumer 領走。

1aws sqs get-queue-attributes --queue-url  --attribute-names VisibilityTimeout
2# 新建 queue 預設 VisibilityTimeout 為 30 秒、處理時間長於此值就會看到 redelivery

調整：延長 VisibilityTimeout 或 consumer 主動 ChangeMessageVisibility。

DLQ 累積

操作原則：先看 DLQ 訊息內容、判斷 poison message vs 下游卡。

判讀路徑：訊息格式錯（永遠失敗）→ 下游服務 down（暫時失敗、可 redrive）→ consumer bug。

Throttling（account quota）

操作原則：超過 account-level SendMessage / ReceiveMessage TPS、看 CloudWatch ThrottledRequests。處理：requeue exchange、quota 申請。

IAM 權限錯

操作原則：access denied 大多是 queue policy 跟 IAM policy 互動。判讀：用 IAM Policy Simulator 或 CloudTrail 看 deny 原因。

Lambda event source 失敗

操作原則：Lambda 失敗會自動 retry、超過 retry 進 DLQ。看 Lambda 的 DLQ 跟 SQS 的 DLQ 分工。

何時改走其他服務

需求形狀	改走
需要 streaming / replay	AWS Kinesis / Kafka / MSK
需要 pub/sub fan-out	AWS SNS（搭配 SQS 做 fan-out）/ EventBridge
需要複雜 routing	RabbitMQ on EC2
跨雲 / 跨平台	Kafka / NATS
嚴格低延遲（< 100ms）	NATS / Redis
Workflow + durable execution	AWS Step Functions / Temporal

不在本頁內的主題

SNS / EventBridge 細節（另開 cloud event routing 章節）
Step Functions / Lambda 完整功能
AWS SDK 各語言完整 API

案例回寫

SQS 專屬案例（C48-C59）

案例	主討論議題
3.C48 Airbnb Dynein	分散式延遲任務 / at-least-once + DLQ
3.C49 Airbnb Inspekt	Visibility timeout 當隱式 retry
3.C50 Capital One	Visibility timeout / Lambda event source
3.C51 Atlassian JiRT	Kinesis + per-consumer SQS
3.C52 Nielsen Spark on EKS	雙 SQS / queue depth autoscale
3.C53 FINRA Large File	S3 → SQS 合規 / IAM 多層稽核
3.C54 Twitch EventSub	SNS-SQS fan-out + Dispatcher
3.C55 SmugMug search	Workload generator / 平行 scan + replay
3.C56 PostNL EBE	完整 DLQ + redrive + 隔離 stack
3.C57 Lob sqs-consumer	Client library / SDK v3 / FIFO bug
3.C58 Twilio webhook	Webhook → SQS buffer / FIFO 300 TPS
3.C59 Rapid7 scale	100 億 msg/day 規模參考點

跨 vendor 對照

案例	對 SQS 的對應
3.C2 VMware → MSK	反面對照：何時 managed queue 不夠用、要升 streaming
3.C8 Cloudflare Queues	全球交付對照（SQS 是 region-scoped）
3.C10 規模對照	小型直接用 SQS / 中型補 idempotency / 大型補 streaming

下一步路由

3.5 攻擊者視角（紅隊）：傳遞層弱點判讀

Fri, 24 Apr 2026 00:00:00 +0000

傳遞層紅隊判讀的核心目標是確認「訊息如何被重送、重放、放大與耗盡資源」。這裡的紅隊指攻擊者視角的風險檢查：先找可被放大的傳遞路徑，再回推控制面。只要系統採用 broker 或 stream，弱點就會同時落在 delivery semantics、consumer 容量與回復流程。

【判讀】傳遞層弱點的主要軸線

傳遞層弱點可分成三條軸線：投遞語意、處理語意、回復語意。投遞語意看 ack/nack 與重送條件；處理語意看 idempotency 與 side effect；回復語意看 dead-letter queue、replay runbook 與 data reconciliation。

【可觀察訊號】何時要提高紅隊檢查優先級

下列訊號出現時，傳遞層通常需要先做弱點盤點：

consumer lag 持續增加，且重試量同步升高
DLQ 累積速度高於排空速度
同一事件會被多路 consumer 讀取並觸發多個下游 side effect
回放流程缺少操作邊界與審核節點

【失敗代價】傳遞層弱點的代價型態

傳遞層弱點會把局部錯誤放大成系統性壓力。重複投遞會造成重複扣款、重複通知或重複建單；毒訊息會阻塞分區與 worker；重放策略缺少邊界會把歷史事件再次推進生產流程。這些問題的共同代價是資料偏移、事故窗口延長與操作風險上升。

【最低控制面】進入服務實體前要先定義

傳遞層在討論具體服務前，先定義四個控制面最穩定：

投遞保證模型：哪些流程接受 at-least-once、哪些流程需要更嚴格保證。
去重與副作用模型：哪些操作必須具備 idempotency，如何界定重複。
重試與降載模型：重試節奏、上限、退避與壓力保護機制。
回復與重放模型：DLQ 分流、回放準入條件與結果校正流程。

多租戶 broker 的隔離邊界

Multi-tenant broker 的隔離邊界承擔「單租戶故障不放大到其他租戶」的責任。Multi-tenant broker 的紅隊重點是跨租戶邊界能否擋住攻擊放大跟資源耗盡。3.1 已建立規模化分層討論、本段聚焦攻擊面跟控制面。

對應 3.C6 Uber Kafka Infrastructure Evolution — case 提出方向：定義租戶隔離、配額規則、標準化 topic 治理、平台指標治理。對應 3.C4 LinkedIn Tiered Clusters — 規模化分層 cluster、高優先 workload 跟低優先 workload 各自獨立、降低 noisy neighbor 風險。以下攻擊面 taxonomy 基於通用 multi-tenant broker 知識展開、非 case 原文列舉。

Multi-tenant broker 的攻擊面：

配額耗盡：單一 tenant 大量 publish 占光 broker bandwidth / storage、其他 tenant 投遞延遲拉長。對應控制是 per-tenant quota + rate limit。下游推送 quota 作為硬上限見 3.2 下游推送是隱性瓶頸
Topic 命名衝突 / 越權：tenant A 透過命名衝突或缺失 ACL 取得 tenant B topic 存取權限。對應控制是 namespace 強制隔離 + IAM topic-level ACL
DLQ 跨租戶污染：tenant A 的 poison message 進共用 DLQ、影響 tenant B 的 DLQ 處理流程。對應控制是 per-tenant DLQ + 獨立排空策略
Consumer group 命名衝突：意外或惡意註冊跟其他 tenant 同名的 consumer group、搶 partition 分配。對應控制是 consumer group naming convention + prefix-based ACL

判讀重點：multi-tenant broker 的紅隊不只看 broker 容量是否充足、還要看單一 tenant 出事時其他 tenant 是否受影響。單一租戶事件擴散到其他租戶屬隔離失敗、非 broker 效能問題。

Replay 攻擊跟 DLQ 濫用

Replay 機制是事故恢復工具、也是攻擊面。攻擊者可能濫用 replay 重複觸發副作用（重複退款、重複送通知、重複下單）、或讓 DLQ 變成 backdoor 通道。以下 3 個攻擊向量基於通用紅隊知識展開、非 case 原文列舉。

Replay 攻擊向量：

未授權 replay 觸發：攻擊者拿到 replay 控制權、replay 舊事件造成重複副作用。對應控制是 replay 授權需獨立審核 + audit trail 記錄誰 replay 什麼
Replay window 越界：replay 跨越 idempotency 紀錄到期、舊事件被當新事件處理。對應控制是 replay window 上限 = idempotency 保留期、見 3.6 processing-recovery-semantics 的 replay 跟 idempotency 共設計
DLQ message 注入：攻擊者把惡意 message 直接寫進 DLQ、繞過主通道驗證、等 replay 時觸發副作用。對應控制是 DLQ 寫入權限獨立於主通道 + replay 前 schema 重新驗證

判讀重點：replay 屬 production 操作、跟 1.9 reconciliation 修復權限管理同層級、要 audit trail + 審核流程。合規 replay 路徑應具備 audit trail + window 上限 + DLQ 寫入隔離三層控制、把 replay 從事故工具升級為可稽核的 production 操作。

【案例對照】

案例	紅隊視角重點
3.C6 Uber Kafka Infrastructure	治理視角、反推 multi-tenant 隔離攻擊面
3.C4 LinkedIn Tiered Clusters	治理視角、反推分層 cluster 跟 workload 隔離防護
3.C9 反例 Queue Semantics Mismatch	切換語意誤配引發重複副作用、replay 跟 idempotency 失準

以上 3.C6 / 3.C4 屬治理視角案例、紅隊章節做反推使用（從控制面反推攻擊面）。

跨模組路由

與 03 內部：規模化分層治理回 3.1 broker-basics；下游推送 quota 攻擊面跟 3.2 durable-queue 下游推送是隱性瓶頸互補；replay 跟 idempotency 共設計回 3.6
與 01 的交接：replay / 補償權限管理回 1.9 reconciliation 修復權限管理
與 04 的交接：紅隊偵測訊號（DLQ 速率、retry storm、duplicate）進 4.20 Observability Evidence Package
與 06 的交接：rule rollout 安全閘門進 6.24 rule-rollout-safety-gate
與 08 的交接：事故當下決策進 8.19 Incident Decision Log

【關聯卡片】

3.6 Processing Semantics 與 Recovery Semantics

Mon, 11 May 2026 00:00:00 +0000

Processing semantics 與 recovery semantics 的核心責任是把訊息送達、業務副作用完成、故障後可恢復三件事分開判斷。進入 Kafka、RabbitMQ、SQS、NATS 或 Redis Streams 前，讀者需要先知道 broker 保證主要落在傳遞語意的一部分。

Delivery / Processing / Recovery

三層語意的責任不同：

語意層	負責問題	主要訊號
Delivery semantics	訊息是否被 broker 投遞、確認、重送或隔離	ack、nack、redelivery、DLQ
Processing semantics	consumer 副作用是否能承受重複、亂序與部分失敗	idempotency、side effect、ordering
Recovery semantics	故障後是否能重播、補償與恢復一致	replay、checkpoint、reconciliation

delivery semantics 成立不代表 processing 成立。訊息被 ack 也不代表發票、email、search index 或 webhook 都已完成。

Delivery 層的判讀重點是 broker 是否還能掌握訊息位置。Processing 層的判讀重點是 consumer 是否已經完成業務副作用。Recovery 層的判讀重點是事故後能否用 replay、checkpoint 與 reconciliation 回到一致狀態。這三層拆開後，隊列工具選型才會對到真正問題。

Processing Semantics

Processing semantics 的責任是讓 consumer 副作用在重複投遞與部分失敗下仍可控。常見副作用包含寫資料庫、呼叫外部 API、寄信、建立發票、更新 search index。

每個副作用都要先回答：

idempotency key 是什麼。
副作用完成後如何記錄。
重複執行時結果是否穩定。
部分成功時如何補償。

缺少這些答案時，at-least-once delivery 會轉成多次業務結果。

Recovery Semantics

Recovery semantics 的責任是讓系統在 consumer crash、DLQ 爆量、下游故障或資料修復後能恢復一致。它依賴 replay window、checkpoint、offset、去重紀錄與對帳查詢。

恢復流程要先分範圍。按時間、tenant、partition、schema version 或 event type 分段，能降低 replay 造成的下游壓力與重複副作用。

Checkpoint 與 Side Effect

checkpoint 的責任是標記處理進度，業務完成則要由副作用紀錄與對帳證據證明。若 checkpoint 早於副作用提交，consumer crash 後可能漏做副作用；若 checkpoint 太晚，重啟後會造成重複處理。

穩定設計通常讓副作用具備 idempotency，再把 checkpoint 放在可恢復的位置。checkpoint 與 idempotency 是一組設計，需要一起審查。

Poison Message 的處理層次

Poison message 屬於觸發 consumer 持續失敗、需要被隔離處理的訊息類型。處理流程從 偵測 / 隔離 / 診斷 / 修復 四個層次設計、屬於 DLQ 之後的延伸責任。

對應 3.C9 反例：Queue Semantics Mismatch — case 提供切換後 DLQ 激增的觀察方向、是 broker 遷移時 consumer 沒對齊 processing/recovery 語意的訊號、poison message 是其下游表徵之一。

四個處理層次：

偵測：retry count 超過組織自定閾值後識別為 poison candidate。早期偵測訊號是 retry rate 升高但 success rate 沒同步上升、單一 consumer 反覆失敗
隔離：把 poison message 移出主通道、進 DLQ 或 quarantine queue。隔離要即時、避免持續占用主通道吞吐
診斷：DLQ 內 poison message 要分群分析、找出共同 failure pattern（payload schema 不符、外部 API 永久失敗、邏輯 bug）
修復：依據 root cause 修 consumer / contract / 邏輯後、再定向回放 DLQ 內 poison message、避免 zombie cycle（同一 message 反覆進 DLQ）

判讀重點：DLQ size 持續增加但沒有對應修復 commit、表示處理流程斷在「隔離」這層、要回到「診斷 / 修復」。release gate 加「DLQ 排空速率 >= 流入速率」的條件、讓 DLQ 維持診斷入口的角色。未授權 replay 跟 window 越界攻擊面見 3.5 紅隊章 Replay 攻擊。

Replay 跟 Idempotency 的共設計

Replay safety 跟 idempotency 屬於同一個設計階段、需共設計並落地後才能上線。replay window 設多大、idempotency key 怎麼定、checkpoint 何時提交、三者互相影響、任一改動都會破壞其他。

共設計的判讀順序：

先定 idempotency key：什麼欄位組合能唯一標記副作用（event_id、entity_id + version、business operation id）
再定 idempotency 儲存策略：去重紀錄存多久（決定 replay window 上限）、儲存在 cache / DB / 應用層 memory
依儲存策略反推 replay window：去重紀錄保留 7 天、replay window 上限就是 7 天、超過會出現重複副作用
再依 replay window 反推 checkpoint 策略：checkpoint 落地時機要保證 crash 後 replay window 內可恢復

對應 9.C9 Spotify Kafka → Pub/Sub — broker 遷移要驗證業務語意跟新 broker 兼容、replay 模型在 Kafka（offset）跟 Pub/Sub（snapshot + seek）不同、idempotency 策略要重新校準。

判讀重點：replay window 由 idempotency 儲存策略反推、不是 broker 設定值。先看 idempotency key 跟去重儲存、再決定 replay window 安全範圍。順序顛倒會踩到「replay 跨越去重紀錄到期」的事故、表現是 replay 後出現本來該被去重的重複副作用。

選型前判準

Queue 選型前要先回答：

需要保證的是投遞、處理還是恢復。
哪些副作用必須 idempotent。
哪些事件需要順序，順序邊界是全域、tenant、entity 還是 partition。
Replay 時下游能承受多少吞吐。
DLQ 是診斷入口還是已經變成長期倉庫。

這些答案會決定後續比較 Kafka、RabbitMQ、SQS、NATS 或 Redis Streams 時該看哪些能力。

實體服務討論承接點

實體 queue/broker 文章要承接本篇的 processing 與 recovery semantics。Kafka、RabbitMQ、SQS、NATS 或 Redis Streams 的比較，應先問服務需要什麼投遞、處理與恢復責任，再比較 topic、queue、partition、consumer group、DLQ 或 retention。

若主問題是高吞吐事件流，後續文章要比較 partition、retention、consumer lag 與 replay 能力。若主問題是工作派發，後續文章要比較 ack/nack、routing、DLQ 與 retry。若主問題是受管服務操作成本，後續文章要比較可觀測性、IAM、區域能力與 failure mode。

跨模組路由

與 03 內部：consumer 端去重跟 ack timing 詳見 3.4 consumer-design；event payload 跟 replay 邊界寫入事件契約見 3.7；規模差異判讀跟 job queue 拓樸分工見 3.8
與 04 的交接：lag、retry、DLQ、duplicate 訊號進 4.20 Observability Evidence Package
與 06 的交接：idempotency 跟 replay 驗證進 6.12 Idempotency 與 Replay 驗證

下一步路由

要把 event payload 跟 replay 邊界寫進事件契約、接著讀 3.7 Event Contract 與 Replay Boundary。要建立 broker 投遞模型，接著讀 3.1 broker 基礎與投遞模型。要把三層語意放進完整服務路徑，接著讀 3.8 Queue Consumer Retry 與 Replay Handoff。

3.C6 Uber：Kafka 事件平台演進

Thu, 07 May 2026 00:00:00 +0000

Uber 的 Kafka 演進案例揭露了 MQ 從「幾個團隊自管的 broker」到「全公司共享的事件平台」的治理轉折點。轉折的核心判斷是：規模化之後，broker 容量擴展的成本小於 workload 治理缺失的成本。

業務背景

Uber 的事件流涵蓋行程追蹤、司機定位、計費事件、推播通知、即時定價、ETA 計算跟 analytics。早期各團隊各自架設 Kafka 叢集，隨著 Kafka 在 Uber 內部的採用率上升，叢集數量跟 topic 數量快速增長，但沒有統一的治理。

Uber 的 Kafka 規模峰值達到每秒數百萬筆訊息、數十個叢集、數千個 topic。在這個規模下，管理壓力從「單一叢集的 broker 夠不夠」轉到「誰在用、用多少、怎麼收費、故障時誰負責」。

技術挑戰

團隊自管的碎片化

各團隊各自架設 Kafka 時，每個叢集的版本、配置、監控、備份策略都不同。運維知識散落在各團隊，沒有共享的 runbook 或值班流程。某個團隊的 Kafka 出問題時，其他團隊幫不上忙；知識在人員流動時遺失。

碎片化的另一個後果是資源浪費。每個團隊各自預留的容量加總起來遠大於集中管理所需。低流量團隊的叢集常年使用率低於 10%，但因為自管模式下沒有共享容量的機制，資源無法調配。

Topic 爆炸與無主 topic

沒有 topic 建立的治理流程時，任何人都可以建 topic。Topic 的命名不一致、retention 設定不一致、owner 不明。離職的工程師建立的 topic 仍在接收資料、佔用 broker 資源，但沒人知道這些 topic 服務什麼業務。

LinkedIn 後來也遇到同樣的問題並開發了 TopicGC 做 topic 生命週期管理。Uber 的解法路線類似 — 把 topic 建立變成需要 owner、retention policy 跟業務標籤的審核流程。

故障排查的責任不清

叢集內的故障（broker OOM、partition leader 不均衡、consumer lag spike）需要 Kafka 專業知識排查。團隊自管模式下，每個團隊都需要一定程度的 Kafka 運維能力，但多數團隊的核心能力是業務邏輯而非 MQ 運維。

故障排查的慣性是「先問 Kafka 團隊有沒有人可以幫忙」— 但沒有正式的 Kafka 團隊，所以問的是「上次修過 Kafka 的那個人」。

解法：平台化

Uber 的解法是把 Kafka 從分散自管收斂到集中平台 — 一個專責的 Kafka platform team 統一管理所有叢集、提供標準化的使用介面。

多租戶治理

平台化的核心是多租戶模型 — 每個業務團隊是一個 tenant，tenant 有 quota（ingestion rate、partition 數量上限、retention 上限）跟 cost attribution。

Quota 的目的是防止單一 tenant 的爆量拖累整個平台。Cost attribution 的目的是讓 tenant 看到自己的用量跟成本，驅動合理使用。

標準化 topic 管理

Topic 的建立走 self-service portal — 團隊填寫 owner、業務用途、預估流量、retention 需求，portal 自動配置 topic 並建立監控。沒有 owner 的 topic 不允許建立；owner 離職時 topic 需要交接或標記為候選淘汰。

統一監控與值班

Platform team 統一監控所有叢集的 broker 健康（replication lag、under-replicated partitions、disk usage、CPU），提供共用的 dashboard 跟 alert。值班由 platform team 負責 broker 層面的問題，業務層面的問題（consumer 設計錯誤、message 格式不對）由各 tenant team 自行處理。

取捨

面向	團隊自管	平台化
自主性	高（團隊想怎麼配就怎麼配）	低到中（受 quota 跟 policy 約束）
運維負擔分配	分散（每個團隊各自負擔）	集中（platform team 吸收 broker 層）
資源利用率	低（各自預留、無法共用）	高（共享容量、動態分配）
治理一致性	低（版本、配置、命名各自為政）	高（統一版本、統一配置標準）
故障影響面	小（自管叢集只影響自己的團隊）	大（共享平台故障影響所有 tenant）
專業知識需求	每個團隊都要一些 Kafka 運維知識	集中在 platform team

平台化的最大風險是共享平台成為單點 — broker 故障影響所有 tenant。Uber 用跟 LinkedIn 類似的分層叢集策略（critical vs best-effort）降低共享風險，但這也讓平台的運維複雜度上升。

回寫教材的連結

3.1 broker basics：broker 容量規劃跟 topic 管理的基礎。
6.14 dependency reliability budget：共享 Kafka 平台作為 dependency，tenant team 的 reliability budget 怎麼計算。
3.4 consumer design：平台化後 consumer 設計的規範跟限制。
4.15 cost attribution：平台成本歸因到 tenant 的做法。

判讀徵兆

讀者在自己的系統看到以下訊號時，應該回讀本案例：

組織內有 3 個以上團隊各自架設 Kafka、版本跟配置不統一
Topic 數量持續增長但沒人能說清楚哪些 topic 還在用
故障排查依賴特定個人而非共用的 runbook
叢集資源利用率低但各團隊仍要求擴容
管理層問「Kafka 總共花多少錢、誰在用」但沒人能回答

引用源

Building Uber’s Kafka Infrastructure

Google Cloud Pub/Sub

Fri, 01 May 2026 00:00:00 +0000

Google Cloud Pub/Sub 是 GCP managed pub/sub 服務、承擔三個責任：全球 topic 路由（無 region 概念）、彈性 delivery（push 跟 pull 並存）、GCP 生態整合（BigQuery / Dataflow / Cloud Run）。設計取捨偏向「topic 是 first-class、subscription 各自進度、ack deadline 控制重試」、跟 Kafka 的 partition / consumer group 思路不同。

對「GCP 生態事件分發、跨 region 全球路由、push HTTP endpoint 接收事件、Dataflow streaming」這條路徑、Pub/Sub 是首選。本頁先給最短路徑、再展開日常 topic / subscription 操作與 ack deadline 設計、最後進階治理（ordering、DLT、push endpoint、IAM）跟排錯。

本章目標

讀完本章後、你應該能：

用 gcloud CLI 建 topic / subscription、publish / pull 訊息
區分 push vs pull subscription、選擇對應的 delivery 模型
設計 ack deadline 與 ackExtension、處理長任務
配置 dead-letter topic 與 retry policy
評估 ordering key、Pub/Sub Lite、BigQuery subscription 等延伸場景

最短路徑：5 分鐘把 Pub/Sub 跑起來

1# 1. 建 topic
2gcloud pubsub topics create demo-topic
3
4# 2. 建 subscription（pull 模式、綁定 topic）
5gcloud pubsub subscriptions create demo-sub --topic=demo-topic
6
7# 3. publish + pull 驗證
8gcloud pubsub topics publish demo-topic --message="hello"
9gcloud pubsub subscriptions pull demo-sub --auto-ack

最短路徑驗證「topic / subscription 建得起來、能發能收」。實際應用見日常操作。指令對真實 GCP 需設定 project 與認證；本機要先驗證可啟動 Pub/Sub emulator、用 gcloud config set api_endpoint_overrides/pubsub 把同一組 CLI 指向 emulator 跑通。

日常操作與決策形狀

gcloud CLI 與 client library

子議題：

gcloud CLI 指令對照表（topics / subscriptions / publish / pull / ack）
Client library 配置：credentials / flow control / async vs sync
Batch publish（提高吞吐、增加延遲的取捨）
對應指令範例：gcloud pubsub subscriptions describe

Topic / Subscription 設計

Topic 是 first-class entity、跟 Kafka 不同的是 subscription 才是 consumer 抽象：

1 topic ↔ N subscription（fan-out 內建）
Subscription 各自進度（無 consumer group 概念）
Subscription expiration policy（閒置 N 天自動刪）

Push vs Pull subscription

子議題：

Push：Pub/Sub 主動 POST 到 HTTP endpoint、適合無狀態 worker / Cloud Run
Pull：consumer 主動拉取、適合長 worker / 需要 flow control
Push endpoint 要求（HTTPS、認證）
兩者的可靠性 / latency / cost 對照

Ack deadline 與 ack extension

子議題：

Ack deadline：subscription 等待 ack 的時間（預設 10 秒、上限 600 秒）
Modify ack deadline（長任務動態延長）
Client library 的自動 ack extension
跟 SQS visibility timeout 的對照（語意類似、機制不同）

進階主題（按需閱讀）

ordering key、dead-letter topic 與 schema enforcement 已展開為 deep article：ordering key / DLT / schema enforcement、push / pull / ack flow control。下列子議題段保留選題判讀入口。

Ordering key

子議題：

啟用 ordering 的限制（subscription 設定 enableMessageOrdering）
Ordering 在 push 跟 pull 的差異
跟 Kafka partition + key 的對照
性能影響（throughput 受限）

Dead-letter topic

子議題：

設定 max delivery attempt、超過送到 DLT
DLT 是另一個 topic、可以再訂閱重處理
跟 SQS DLQ 的差異（DLT 是 topic、不是 queue）

Pub/Sub Lite

子議題：

Pub/Sub Lite vs Pub/Sub（partition-based、zonal、cost 低）
何時用 Lite（高吞吐、確定 region）
何時用 standard（global routing 內建）

BigQuery subscription / Cloud Storage subscription

子議題：

BigQuery subscription：訊息直接寫入 BQ table（無需 Dataflow）
Cloud Storage subscription：訊息批次寫入 GCS object
適合 streaming analytics / data lake 場景

Schema enforcement

子議題：

Topic 綁定 schema（Avro / Protobuf）
Schema evolution
跟 Kafka Schema Registry 的對照

IAM / Service Account

子議題：

Pub/Sub IAM role（publisher / subscriber / viewer）
Service Account 認證（push endpoint 用）
VPC Service Controls

排錯快速判讀

Subscriber backlog（unacked messages 累積）

操作原則：先看是 push 還是 pull、再定位 endpoint 失敗 vs flow control 限制。

1gcloud pubsub subscriptions describe 2# 看 ackDeadlineSeconds（預設 10s）與 messageRetentionDuration（預設 604800s / 7 天）是否符合處理時間與 replay 需求

判讀：Cloud Monitoring metric 的 num_undelivered_messages 與 oldest_unacked_message_age。

Push endpoint 500（retry storm）

操作原則：push endpoint 持續 500、Pub/Sub 會 backoff retry、看 retry policy 設定。判讀：endpoint 健康 vs 訊息毒性。

Ordering key 限制誤用

操作原則：啟用 ordering 後 throughput 變低、單一 ordering key 是順序的。判讀：throughput 是否被 ordering 限制、可拆 ordering key。

IAM 權限錯

操作原則：publish / pull / ack 各自需要不同 IAM role。判讀：用 Cloud Logging 看 deny 原因。

Subscription expired

操作原則：閒置太久 subscription 被 GC。判讀：subscription expiration policy 設定 + 監控 lastReceiveTime。

何時改走其他服務

需求形狀	改走
需要 streaming + replay long window	Kafka / Confluent Cloud
需要 partition + consumer group	Kafka / Pub/Sub Lite
需要複雜 routing	RabbitMQ on GKE
跨雲 / 跨平台	Kafka / NATS
AWS 生態	AWS SQS / SNS
Workflow + durable execution	Google Workflows / Temporal

不在本頁內的主題

Dataflow / BigQuery 完整功能（另開 streaming analytics 章節）
Cloud Run / Functions 整合細節
各語言 client 完整 API

案例回寫

Pub/Sub 專屬案例（C60-C69）

案例	主討論議題
3.C60 Spotify Event Delivery	從 Kafka 遷入 / 自建 dedup
3.C61 Spotify autoscaling	Backlog ≠ healthy / autoscale 反效果
3.C62 Spotify GCS export	Ack = end-to-end commit
3.C63 Mercari Actionable History	Ack deadline 是 batch-level（陷阱）
3.C64 Mercari Item Feed DLT	DLT 防 poison message 阻塞
3.C65 Mercari LINE flow control	Pull subscription 對齊外部 RPS
3.C66 Mercari B2C gRPC pusher	自建 push / 長 job + 動態 RPS
3.C67 Niantic Pokémon GO	Elastic buffer / BQ streaming
3.C68 Wix clickstream	Pub/Sub + Dataflow + BQ 教科書組合
3.C69 Twitter Ad Engagement	多 topic 切分取代 partition

跨 vendor 對照

案例	對 Pub/Sub 的對應
3.C8 Cloudflare Queues	全球交付對照：Pub/Sub global routing 內建
3.C10 規模對照	中小型直接用 / 大型考慮 Pub/Sub Lite / 超大跨雲走 Kafka
3.C20 Spotify 遷出 Kafka	Pub/Sub 遷入的源頭（為何遷出 Kafka）

IAM + Service Account 缺直接 customer engineering case：customer engineering blog 著墨少、建議撰寫該段時依 GCP 官方 IAM 文件 + 通用安全原則。

下一步路由

上游概念：0.3 非同步選型、3.1 broker basics
平行 vendor：AWS SQS、Kafka
下游能力：3.4 consumer 設計、6.12 idempotency / replay

3.7 Event Contract 與 Replay Boundary

Mon, 11 May 2026 00:00:00 +0000

Event contract 與 replay boundary 的核心責任是讓事件在版本演進、重試與重播時仍可被理解與驗證。進入具體 broker 前，讀者需要先知道事件 payload 是跨服務副作用的契約。

Event Contract

Event contract 的責任是定義 producer 發出的事實、consumer 能依賴的欄位，以及版本演進時的相容窗口。最小 contract 包含 event id、schema version、occurred time、producer、entity id、dedup key 與資料保護範圍。

event id 讓訊息可追蹤；schema version 讓版本演進可判斷；occurred time 讓 replay 可分時間窗；dedup key 讓 consumer 可去重；PII scope 讓事件能接到資料保護。

event id 支撐 incident timeline 與重複投遞判讀。schema version 支撐新舊 consumer 共存。occurred time 支撐 replay window 與對帳查詢。dedup key 支撐 idempotency。PII scope 支撐 audit 與資料保護。這些欄位先成立，broker retention 或 partition 設計才有可依附的語意。

Schema Compatibility

Schema compatibility 的責任是讓 producer 與 consumer 可以分批升級。新增欄位要保留 optional，移除欄位要有相容窗口，語意改變要用新 version 或新 event type。

序列化能解析是相容性的第一層。若欄位仍存在但語意改變，consumer 仍可能產生錯誤副作用。這類變更需要在 release gate 中驗證。

Replay Boundary

Replay boundary 的責任是限制重播範圍，避免修復動作擴大事故。Replay 要能指定 time range、tenant、partition、event type、schema version 與 downstream capacity。

replay window 要和 time range 與 query link 對齊，讓事後能回放當時重播的是哪一批事件。

Compensation

Compensation 的責任是處理副作用已經發生但結果不正確的情況。寄信、發票、付款通知與 webhook 都可能需要補償，重播是其中一種恢復方式。

補償前要先判斷副作用是否可逆、是否會通知使用者、是否需要人工審核。不可逆副作用要比可重播副作用更早接到 Incident Decision Log。

跨 broker 業務語意對映

跨 broker migration 的工程責任是維持業務語意對映、broker 吞吐是次要驗證項。同一份 event contract 在 Kafka、Pub/Sub、SQS、NATS 的對映概念不同、需要逐項校準。

對應 9.C9 Spotify Kafka → Pub/Sub Migration — Spotify 7500 萬用戶事件交付系統遷移、case 明確點出 Kafka 的 partition / offset / consumer group 對映成 Pub/Sub 的 subscription / ordering key / message attribute、需要校準業務語意而非直接搬。

典型概念對映差異（依據 9.C9 case 列出的三組對映展開、Pub/Sub 實際 API 細節為文章補充）：

Partition (Kafka) 跟 Subscription (Pub/Sub)：Kafka partition 是物理分片 + 順序邊界；Pub/Sub subscription 是邏輯 fan-out、無物理分片概念。靠 Kafka partition 保證 per-key 順序的 consumer、遷到 Pub/Sub 改用 ordering key
Offset (Kafka) 對映成 message attribute (Pub/Sub)：9.C9 case 原文對映方向；replay 模型差異上、Kafka offset 是位置指標、可任意回放到某個 offset；Pub/Sub 用 Snapshot + Seek API 達成類似 replay 能力、模型不同
Consumer Group (Kafka) 跟 Subscription (Pub/Sub)：Kafka consumer group 內部 rebalance 自動分 partition；Pub/Sub subscription 自動分 message、語意接近但 rebalance 細節差異會影響 in-flight message 處理順序

遷移評估要驗證的業務語意：

順序保證：原系統靠 partition / consumer group 保證什麼順序、新系統能否複製
Replay 模型：原系統 replay 方式、新系統的 replay 工具能否達成同範圍。replay window 上限由 idempotency 保留期反推、見 3.6 Replay 跟 Idempotency 共設計
失敗模式：consumer 故障時、原系統的 rebalance / redelivery 行為、新系統會不會差異

判讀重點：broker migration 屬語意對映工程、吞吐能力比較是次要驗證項。對應 3.3 outbox pattern 的「Broker 遷移階段流程」、實作面用 dual-write + shadow consume + cutover、驗證面靠 event contract 跟 replay 邊界做對帳。

跨模組路由

與 03 內部：replay window 跟 idempotency 共設計回到 3.6 processing-recovery-semantics；broker 遷移階段流程回到 3.3 outbox pattern
與 04 的交接：event contract 演進 + replay 邊界進 4.20 Observability Evidence Package
與 06 的交接：event contract 跟 replay 驗證進 6.12 Idempotency 與 Replay 驗證跟 6.23 Verification Evidence Handoff
與 07 的交接：event payload 的 PII / audit 邊界進 7.4 data protection and masking

選型前判準

Broker 選型前要先回答：

event contract 是否能支援版本相容。
consumer 是否能用 dedup key 判斷重複。
replay window 是否能用查詢與指標證明。
不可逆副作用是否有補償流程。
event payload 是否包含 PII 或 audit-sensitive 欄位。

這些問題決定後續要比較 broker retention、schema registry、DLQ、partition 與 replay 工具，並把吞吐放回服務語意下判讀。

實體服務討論承接點

實體 broker 文章要承接本篇的 event contract 與 replay boundary。Kafka 的長期 retention、RabbitMQ 的 routing 與 DLQ、SQS 的 visibility timeout、NATS JetStream 的 stream/consumer 模型，都要放回事件契約與重播邊界下判讀。

若事件需要長期 replay，後續文章要比較 retention、offset、partition 與 schema evolution。若事件主要是工作任務，後續文章要比較 visibility、ack、DLQ 與重試治理。若事件包含 PII 或高風險副作用，後續文章要比較 audit、encryption、access control 與補償流程。

下一步路由

要處理 outbox 與事件發布一致性，接著讀 3.3 outbox pattern 與發佈一致性。要處理 consumer 端去重與重播，接著讀 3.4 consumer 設計與去重。

3.C7 LinkedIn：Kafka 自動修復治理

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是把 queue 可靠性從人力值班轉成自動化機制。

觀察

LinkedIn 在 Kafka 維運中導入自動化治理，降低人工介入與恢復時間波動。

判讀

當叢集規模超過人力可及範圍，自動修復與治理工具會成為必要能力。

策略

明確定義可自動修復的故障類型。
將自動修復與人工升級條件分離。
把修復過程納入可觀測證據鏈。

下一步路由

回 3.2 與 8.16。

引用源

Automating Kafka Self-Healing at LinkedIn

3.8 Queue Consumer Retry 與 Replay Handoff（實作示範）

Mon, 11 May 2026 00:00:00 +0000

Queue consumer retry 與 replay handoff 的核心責任是把 request 外副作用做成可重試、可去重、可隔離、可重播的服務流程。這篇以 order_created consumer 為例，示範 delivery、processing、recovery 三層語意如何交接到 evidence package、release gate 與 incident decision log。

服務路徑與語意分層

這條路徑是 order-service -> broker -> order-created-consumer -> invoice/email/search/webhook。Producer 把事件交給 broker 後，真正的業務完成要看 consumer 是否正確提交副作用。

這篇先固定三層語意：

Delivery semantics：訊息是否投遞與確認。
Processing semantics：副作用是否可承受重複與部分失敗。
Recovery semantics：故障後是否可重播並恢復一致。

ack/nack 成功只代表 delivery 進度，不代表發票與通知已完成。

Event Contract 與相容邊界

Event contract 的責任是讓 producer 與 consumer 在版本演進時仍可互通，且可被觀測與回放。

order_created 最小欄位：

event_id：全域唯一識別。
schema_version：事件版本。
occurred_at：事件發生時間。
order_id、tenant_id：業務定位。
idempotency_key：副作用去重鍵。
pii_scope：敏感欄位範圍。

版本演進採向後相容優先：新增欄位可選、舊欄位保留窗口。schema 演進前要先確認 consumer 端 fallback 解析邏輯存在，避免切版後整批進 DLQ。

Retry / DLQ / Quarantine

Retry 的責任是吸收暫時性故障，不把短暫抖動升級成事故。這條路徑使用有限重試 + backoff + jitter：

階段	判讀重點	動作
即時重試	下游短暫 timeout 或限流	在主通道重試少量次數
延遲重試	故障持續但可恢復	延長 backoff，避免重試風暴
DLQ 隔離	payload 或版本異常、長時故障	轉入 dead-letter queue
Quarantine	同型 poison message 連續爆發	停主通道回放，先分群診斷

DLQ 的責任是隔離與診斷，不是永久儲存。重點是把異常訊息分群後對應修法，修完再定向回放。

Idempotency 與 Ack Timing

Idempotency 的責任是把 at-least-once 交付轉成可接受業務結果。副作用如發票、email、webhook 都要以 idempotency_key 做去重。

Ack timing 的原則是「核心副作用提交後再 ack」：

先執行副作用或落地可追蹤結果。
成功後寫去重紀錄或 checkpoint。
最後 ack broker。

先 ack 再副作用會造成資料遺失；副作用成功但去重紀錄失敗，則要由 recovery 層補償。

Replay Runbook

Replay 的責任是故障後在可控範圍內恢復，不把修復變成第二次事故。

這條路徑的 replay runbook：

選定 replay window：依 occurred_at 與 schema_version 分段。
Dry run：先在影子通道跑去重與下游容量驗證。
限速回放：按 tenant 或 partition 分批，監控下游錯誤率。
Reconciliation：對帳發票、通知、索引結果。
Stop condition：duplicate side-effect、downstream timeout、DLQ 再爆發即停。

replay window 要能被明確描述與回放，不可用「重播昨天全部」這種不可驗證句子。

Job queue 的拓樸分工

當背景工作同時要 高吞吐 跟 快速反應、單一通道模型會變成瓶頸。job queue 的擴展通常是 拓樸重整、把不同工作類型切到不同傳遞路徑、而非單點替換。

對應 3.C5 Slack Job Queue 演進到 Kafka + Redis — Slack 在 job queue 擴展時把工作切到不同傳遞路徑、Kafka 跟 Redis 分別承擔持久性跟即時性目標、分開治理 lag、重試跟失敗重播。

拓樸分工的判讀（基於 Slack case 揭露的雙通道分工方向）：

持久性主導的 job（發票、付款通知、合規記錄）→ Kafka / 持久 queue、保證 at-least-once
即時性主導的 job（線上提醒、playback control、UI 更新）→ Redis / 輕量 queue、low latency

設計含義：同一 consumer 應專注單一目標（高吞吐 / 即時 / 持久擇一）、其他目標拆到對應路徑。對應 3.4 consumer-design 三個工程議題鐵三角 — idempotency / 重播流程 / 下游承載能力是 consumer 內部設計、拓樸分工是 跨 consumer 的責任拆分、兩者互補。

Job queue 規模差異的治理重點

不同規模服務的 job queue 治理問題差異大、SSoT 在本章。對應 3.C10 對照：規模差異下的佇列模型：

小型服務：優先用 managed queue（SQS / Pub/Sub）、運維成本最低。最容易忽略的是語意邊界（重試次數、死信規則、重播責任）、規模一上來會出現資料重複與漏處理。升級訊號：team 數超 3-5 個、各自寫 consumer 開始出現 idempotency 不一致、進中型階段
中型服務：常見問題是 lag 與 DLQ 長期累積。原因是 consumer idempotency + 重播流程 + 下游承載能力沒一起設計。對應前段 Job queue 拓樸分工。升級訊號：DLQ 累積速度高於排空速度連續 7 天、單一 tenant 流量尖峰拖垮其他 tenant、進大型階段
大型服務：需要處理跨租戶跟跨區壓力。單叢集思維會讓任何一類流量尖峰拖垮整體。對應 3.C4 LinkedIn Tiered Clusters 跟 3.1 broker-basics 分層治理平台、重點從「怎麼送訊息」轉成「怎麼隔離失敗」

判讀重點：當前服務規模決定要處理的主要問題。規模尚小的服務硬上 multi-tenant 隔離治理屬過度設計、規模化服務應同時考慮 broker 容量是否充足跟隔離邊界是否完整。判斷自己在哪個階段、看 升級訊號 對應的指標。

Evidence Package

Queue evidence 的責任是證明「投遞可達」與「處理可恢復」兩者同時成立。

欄位	內容
Source	broker metric、consumer metric、DLQ log、reconciliation query
Time range	retry/replay 批次窗口
Query link	lag、retry count、DLQ count、duplicate side-effect、throughput
Owner	queue owner、consumer owner、downstream owner
Data quality	指標延遲、抽樣缺口、對帳覆蓋率
Confidence	confirmed / suspected / needs follow-up
Known gap	尚未驗證之下游 webhook 供應商、低流量 tenant replay

這份 evidence 要對齊 4.20 Observability Evidence Package 與 6.23 Verification Evidence Handoff。

Release Gate

Queue release gate 的責任是決定是否擴大回放或恢復主通道，而不是只看單一 lag 指標。

Gate 欄位	最小內容
Gate decision	放行下一批 replay、維持觀察、暫停 consumer
Checks	idempotency proof、DLQ drain 結果、下游容量、duplicate 比例
Stop condition	retry storm、DLQ 再爆發、下游錯誤率超門檻
Rollback window	replay 可中止窗口、主通道可回切時間
Owner	queue on-call、business owner

這組欄位對齊 6.12 Idempotency 與 Replay 驗證與 6.8 Release Gate。

Incident Decision Log

pause consumer、drain DLQ、啟動 replay、停止 replay、執行補償都屬事故決策，需寫入 8.19 Incident Decision Log。

 1incident_decision:
 2  timestamp: 2026-05-11T13:18:00Z
 3  decision: "pause invoice consumer and start scoped replay for tenant A"
 4  context: "duplicate invoices increased after consumer version rollout"
 5  evidence:
 6    - query: duplicate_invoice_ratio_tenant_a
 7    - query: dlq_events_by_schema_version
 8  owner: queue-incident-commander
 9  expected_effect: "stop duplicate side effects and restore invoice consistency"
10  rollback_condition: "duplicate ratio does not decrease within two replay batches"

Case Write-back 與邊界

這篇回寫對齊 3.C9 反例，重點是切換時語意分層混淆導致 delivery 成功但業務結果失真。

這篇不處理同步 API latency、cache TTL 或 deployment drain。若風險在同步交易壓力、快取失效或流量切換，路由到 4.22 Checkout API Evidence Package、2.9 Cache Migration 與 Stampede Rollback 或 5.8 Deployment Rollout with Drain and Rollback。

3.C8 Cloudflare：Queues 全球交付模型

Thu, 07 May 2026 00:00:00 +0000

這個案例的核心責任是把 queue 選型從單區域傳遞提升為全球交付治理。

觀察

Cloudflare Queues 以邊緣網路為背景，提供事件傳遞與 consumer 處理能力。

判讀

全球部署下，queue 模型要同時考慮延遲、重試語義與跨區運維一致性。

策略

明確設定 delivery semantics 與重試策略。
把 consumer 行為與死信處理流程標準化。
將 queue lag 與失敗率接入平台觀測。

下一步路由

回 3.4 與 4.11。

引用源

Introducing Cloudflare Queues

3.C9 反例：Queue 語義切換誤配

Thu, 07 May 2026 00:00:00 +0000

這個反例的核心責任是說明 broker 遷移失敗常發生在語義假設錯置。

事故長相

切換 broker 或 consumer group 後，表面上訊息仍然被送達，但業務資料開始出現重複扣款、重複寄信、狀態漏更新這類問題。這種事故很難只靠 queue depth 判斷，因為錯誤發生在「處理語義」而不是「是否有訊息」。

為什麼會擴大

舊系統若依賴特定 offset 行為、重試節奏或 consumer idempotency，新系統即使名稱上提供相近 delivery semantics，也可能在失敗重播時產生不同結果。語義誤配會沿著下游資料寫入擴散。

回退判讀

回退前要先確認哪一段資料已經被新語義處理過。若直接切回舊 broker，可能讓同一批事件再次被處理。更穩定的做法是先凍結新 consumer，保留 offset 對照與 replay 範圍，再決定補償或重播。

Queue 專屬告警條件

下游 reconciliation 同時出現重複與遺漏
DLQ 激增且重播後仍回到相同錯誤
consumer lag 下降但業務結果沒有收斂

下一步路由

回 3.4 與 6.10。

3.C10 對照：規模差異下的佇列模型

Thu, 07 May 2026 00:00:00 +0000

這篇對照的核心責任是說明 queue 選型要跟著流量與組織規模改變。

小型服務常見判讀

小型服務優先用 managed queue 往往最穩，因為運維成本最低。這時候最容易忽略的是語義邊界：重試次數、死信規則、重播責任如果沒先定義，規模一上來就會出現資料重複與漏處理。

中型服務常見判讀

中型服務常見問題是 lag 與 DLQ 長期累積。根因通常是 consumer idempotency、重播流程、下游承載能力沒有一起設計，broker 效能本身很少是單點問題。

大型服務常見判讀

大型服務需要處理跨租戶與跨區壓力。此時若還用單叢集思維，任何一類流量尖峰都會拖垮整體。重點會從「怎麼送訊息」轉成「怎麼隔離失敗」。

這個情境的專屬告警條件

consumer lag 連續超出 SLO 窗口
DLQ 速率上升且無法在固定時間內回收
重播後仍出現相同失敗模式

出現上述條件應先凍結切換，回到前一語義設定，再逐步修正 consumer 契約與重播流程。

AWS SQS → Google Pub/Sub：queue 模型搬到 topic + subscription 模型的跨雲遷移

Tue, 16 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 AWS SQS 跟 Google Pub/Sub。這是一個 跨雲 managed-to-managed 遷移：兩端都是 cloud-managed、運維負擔都低、但 資料拓樸 跟 消費抽象 不同 — SQS 是 region-scoped 的單一 pull queue、Pub/Sub 是 global topic + 多個 first-class subscription。主結構走 operational redesign hybrid（Type C）、額外為 components / data topology 兩個高維度抽獨立段。

SQS 跟 Pub/Sub 不是同一種訊息抽象

SQS 跟 Pub/Sub 都是 cloud-managed 非同步訊息服務、都解「解耦 producer / consumer、不自管 broker」這個問題、application 程式碼裡都是「發訊息、收訊息、處理完確認」的形狀。從這層看兩者可互換、遷移像是換 SDK。

差別在 消費抽象 跟 資料拓樸。SQS 的核心實體是 queue：一條 region-scoped 的訊息隊列、訊息被一個 consumer 領走（in-flight）就對其他 consumer 隱形、處理完 DeleteMessage 就消失。要讓同一筆事件送給多個下游、SQS 端的做法是在 SNS 前面 fan-out、再各接一條 SQS queue。Pub/Sub 的核心實體是 topic + subscription 兩層：topic 收訊息、subscription 是 first-class 的消費端點、一個 topic 可掛 N 個 subscription、每個 subscription 各自維護消費進度、fan-out 是模型內建而不是外接。

這個差別決定了遷移的形狀。如果原系統只是「一條 queue、一群 worker 競爭領取」、那 Pub/Sub 端是「一個 topic、一個 pull subscription」、對位乾淨、application 改動小。如果原系統靠 SNS-to-many-SQS 做扇出、那 Pub/Sub 端是「一個 topic、多個 subscription」、整個 fan-out 拓樸要重畫、這不是換 SDK、是重設計訊息流。先判斷自己屬於哪一種、再決定 playbook 的重量。

為什麼會跨雲遷這條路徑

跨雲從 SQS 遷到 Pub/Sub 的 driver 跟同雲 vendor 切換不同、通常不是「Pub/Sub 比 SQS 好」、而是 整體 workload 的重心移到 GCP：

資料平台落在 GCP：下游分析走 BigQuery、streaming 走 Dataflow、容器跑 Cloud Run。事件如果留在 AWS、每筆都要跨雲搬到 GCP 才能進 BigQuery、跨雲 egress 費用跟延遲都是常態成本。把訊息層也移到 Pub/Sub、事件可以用 BigQuery subscription 直接落地、省掉中間搬運。
需要 global topic、不想管 region：SQS queue 綁 region、跨 region 要自己複製或在前面架路由。Pub/Sub topic 沒有 region 概念、publish 進去全球可訂閱、多區域服務的事件分發是 first-class。
fan-out 從外接變內建：原本靠 SNS + 多條 SQS 維護的扇出拓樸、在 Pub/Sub 是「一個 topic 掛多個 subscription」、少一層 SNS、扇出關係在 subscription 列表一覽。

這三條 driver 都假設 重心已經或即將在 GCP。如果系統長期紮根 AWS、只為了「換個 queue」跨雲、會付出跨雲 IAM 重對位、雙雲計費、跨雲網路延遲的代價、ROI 通常不成立。遷移前先確認 driver 是 workload 重心轉移、不是單純偏好。

結構為什麼是 operational hybrid 加兩個高維度獨立段

寫這篇前先跑 diff dimension audit、6 維評級如下：

Diff 維度	評級	SQS → Pub/Sub 的具體差異
Schema / API	Medium	都是「發 / 收 / 確認」、但 API 名詞與參數全換（QueueUrl → topic+subscription）
Operational model	High	IAM policy → Service Account、CloudWatch → Cloud Monitoring、redrive → DLT 重訂閱
Abstraction	Medium	都是訊息服務、但 pull queue ↔ topic/subscription 的消費抽象不同
Components（數量）	High	單一 queue ↔ topic + N subscription 兩層實體；SNS+SQS 扇出 ↔ topic 內建扇出
Application change	Medium	SDK 換、ack / fan-out 邏輯改、但商業邏輯多數可保留
Data topology	High	region-scoped queue ↔ global topic；single-consumer ↔ multi-subscription fan-out

主導維度是 operational model（跨雲身份與監控全換）、所以主結構走 Type C operational redesign hybrid。但 components 跟 data topology 也是 High — 不是把它們塞進 operational 段就能講清楚的、消費抽象從「一條 queue」變「topic + 多 subscription」是讀者最容易踩雷的地方。按 migration 方法論的 multi-axis 規則、高維度抽成獨立段補充、不硬塞進單一 type 標籤。所以本篇結構是：operational 對位主軸 + 「消費抽象重設計」獨立段（components / topology 軸）+ 跨雲特有的 IAM 與網路段。

Operational 對位：機制名詞換、語意要逐一確認

跨雲遷移最容易出錯的環節、是 找到語意相近的功能、卻假設行為一致。SQS 跟 Pub/Sub 多數機制都有對位、但每一組都有行為差、找得到對應功能只是第一步。下表先給對照、後面逐項展開語意陷阱。

SQS 機制	Pub/Sub 對位	語意是否等價
Visibility timeout	Ack deadline	近似、但上限與延長機制不同
DeleteMessage	Ack（acknowledge）	近似、但 Pub/Sub 自動 extension 改變實際行為
maxReceiveCount + DLQ + redrive	Dead-letter topic + 重訂閱	概念對應、DLT 是 topic 不是 queue、重處理方式不同
Long polling（WaitTimeSeconds）	Streaming pull	不等價、streaming pull 是長連線串流、不是輪詢
Message attributes	Message attributes	概念對應、型別與大小限制不同
FIFO queue（MessageGroupId）	Ordering key	都給順序、但去重與吞吐取捨不同
IAM policy + Queue policy	IAM role + Service Account	跨雲身份模型完全不同、不是改語法是重對位
CloudWatch metric / alarm	Cloud Monitoring metric / alert	metric 名詞與語意不同、alarm 邏輯要重寫

Visibility timeout → ack deadline

Visibility timeout 跟 ack deadline 都回答同一個問題：consumer 領走訊息後、多久沒確認就視為失敗、把訊息重新投遞。語意對位成立、但兩端的數字與延長機制不同。

SQS visibility timeout 預設 30 秒、上限 12 小時、consumer 要延長就主動呼叫 ChangeMessageVisibility。Pub/Sub ack deadline 預設 10 秒、上限 600 秒（10 分鐘）、而且 client library 預設會自動在背景延長 deadline（lease management）。這個自動延長是最容易踩到的差異：在 SQS 端習慣「設一個夠長的 visibility timeout、處理完再 delete」、搬到 Pub/Sub 如果只把 ack deadline 設成 600 秒上限、卻沒意識到 client library 在背景幫忙延長、長任務的行為會跟預期不同；反過來、如果關掉自動延長又設了預設 10 秒、處理稍久就重投。對位的正確做法是先理解 client library 的 lease 行為、再決定 ack deadline 跟 MaxAckPending、而不是把 SQS 的 timeout 數字直接搬過去。

maxReceiveCount / redrive → dead-letter topic

兩端都用「重試 N 次仍失敗就隔離」防止 poison message 阻塞 pipeline、但隔離後的容器不同。SQS 的 DLQ 是另一條 queue、用 maxReceiveCount 控制門檻、修好下游後用 redrive policy 把訊息放回原 queue。Pub/Sub 的 dead-letter topic 是另一個 topic、用 subscription 的 max delivery attempt 控制門檻、超過就 publish 到 DLT。

差別在重處理路徑。SQS redrive 是把 DLQ 訊息搬回 main queue、是一個 queue-to-queue 的搬移動作。Pub/Sub 的 DLT 是 topic、要重處理得在 DLT 上再開一個 subscription 來消費、沒有內建的「放回原 topic」按鈕。Mercari item feed 的案例就是用 DLT 把重試多次仍失敗的訊息隔離、讓後續訊息優先處理、同時把 topic 當突發流量的 load-leveling buffer。從 SQS 搬過來時、redrive 的心智模型要換成「DLT 是一個獨立 topic、重處理是另開 subscription」、不是「按一個按鈕放回去」。設定 DLT 還需要給 Pub/Sub service account 對 DLT 的 publisher 權限跟對原 subscription 的 subscriber 權限、漏設會讓訊息卡住不進 DLT。

Long polling → streaming pull

這一組不是等價對位、是機制不同。SQS long polling 是 consumer 發一個 ReceiveMessage 請求、最多等 20 秒、有訊息就回、沒有就空回、本質仍是輪詢、只是把空輪詢的頻率降下來省 cost。Pub/Sub 的 pull 在 client library 預設是 streaming pull：consumer 跟 Pub/Sub 建一條長連線、訊息一到就推過來、不是 consumer 反覆問。

對位時不要把 long polling 的「WaitTimeSeconds 20 秒」翻譯成某個 Pub/Sub 參數 — 沒有對應參數、因為機制不同。要關注的是 flow control：streaming pull 因為訊息會主動推來、要用 MaxOutstandingMessages / MaxAckPending 控制同時在處理的訊息量、否則 consumer 會被一次塞太多訊息壓垮。SQS 端「一次拉最多 10 條」的批次節流、在 Pub/Sub 端變成 flow control 設定。Spotify autoscaling 的案例揭露了相關陷阱：下游失敗時 consumer 不 ack 仍持續消耗 CPU、autoscaling 反而把資源越拉越高 — autoscale 訊號要看處理成功率、不是 backlog 加 CPU。

IAM policy → Service Account

跨雲遷移裡、身份模型是 重對位 而不是改語法的部分。SQS 的存取控制是 IAM policy（identity-based、掛在 user / role）加 queue policy（resource-based、掛在 queue）兩層、cross-account 靠這兩層互動。Pub/Sub 是 GCP IAM role（publisher / subscriber / viewer 等）加 Service Account、push subscription 要用 Service Account 認證到目標 endpoint。

兩套身份模型沒有自動轉換工具、要逐條重畫：誰能 publish 對應誰有 topic 的 publisher role、誰能消費對應誰有 subscription 的 subscriber role。跨雲場景還多一層 — 如果遷移期 AWS 端的服務要 publish 到 GCP 的 topic、得用 workload identity federation 或 service account key、讓 AWS 的工作負載拿到 GCP 身份。這部分沒有 case 可引、依 GCP 官方 IAM 文件加最小權限原則設計：每個 service account 只給它實際需要的 role、不要為了遷移方便給 broad role 再說以後收緊、那個「以後」通常不會來。

CloudWatch → Cloud Monitoring

監控訊號要重建、不是改名。SQS 在 CloudWatch 看 ApproximateNumberOfMessagesVisible（queue 深度）跟 ApproximateAgeOfOldestMessage（lag）。Pub/Sub 在 Cloud Monitoring 看 num_undelivered_messages（backlog）跟 oldest_unacked_message_age（最老未確認訊息年齡）。語意相近、但 alarm 邏輯要重寫、而且 Pub/Sub 的 backlog 數字要配合 subscription 維度看 — 同一個 topic 的不同 subscription 各自有 backlog、一個堵住不代表全部堵住。遷移時要把原本對 queue 深度的告警、改成對每個 subscription 的 backlog 與 age 告警。

消費抽象重設計：從一條 queue 到 topic 加多 subscription

這是 components 跟 data topology 兩個高維度的核心、也是從 SQS 搬到 Pub/Sub 最需要重新畫圖的地方。SQS 的世界裡、一條 queue 對應一群競爭領取的 worker；要扇出就在前面架 SNS、SNS 後面接多條 SQS、每條 queue 各一群 worker。Pub/Sub 把這個拓樸壓平：一個 topic 收訊息、掛多少個 subscription 就有多少條獨立的消費流、每個 subscription 各自記進度、彼此不影響。

重設計從盤點現有拓樸開始。先列出：哪些是「單一 queue、一群 worker」的簡單情境、哪些是「SNS fan-out 到多條 SQS」的扇出情境。簡單情境對位乾淨 — 一個 topic、一個 pull subscription、原本競爭領取的 worker 改成同一個 subscription 的多個 consumer、Pub/Sub 自動把訊息分給它們。扇出情境要把 SNS + 多 SQS 換成「一個 topic + 多 subscription」、原本每條 SQS queue 變成一個 subscription、SNS 那一層消失。

扇出情境裡有個方向相反的陷阱要避免：不要把「多個下游」誤設計成「多個 consumer 共用一個 subscription」。同一個 subscription 的多個 consumer 是競爭關係、訊息只會給其中一個 — 那是負載分攤、不是扇出。要每個下游都收到完整一份、就要每個下游一個獨立 subscription。這跟 SQS 端「一條 queue 一個下游、扇出靠 SNS 複製」的直覺方向一致、但實體換了：在 SQS 是多條 queue、在 Pub/Sub 是多個 subscription。畫遷移圖時、SQS 的每條 fan-out queue 一對一映射到 Pub/Sub 的一個 subscription、不要合併。

Application 重設計範例：SQS receive-delete 換成 Pub/Sub pull-ack

 1// SQS 端：long polling receive、處理完 DeleteMessage
 2svc := sqs.NewFromConfig(cfg)
 3for {
 4    out, _ := svc.ReceiveMessage(ctx, &sqs.ReceiveMessageInput{
 5        QueueUrl:            &queueURL,
 6        MaxNumberOfMessages: 10,
 7        WaitTimeSeconds:     20, // long polling
 8    })
 9    for _, m := range out.Messages {
10        process(m.Body)
11        svc.DeleteMessage(ctx, &sqs.DeleteMessageInput{
12            QueueUrl:      &queueURL,
13            ReceiptHandle: m.ReceiptHandle,
14        })
15    }
16}

1// Pub/Sub 端：streaming pull、處理完 Ack、用 flow control 節流
2sub := client.Subscription("orders-sub")
3sub.ReceiveSettings.MaxOutstandingMessages = 100 // flow control、取代「一次拉 10 條」
4err := sub.Receive(ctx, func(ctx context.Context, msg *pubsub.Message) {
5    process(msg.Data)
6    msg.Ack() // 取代 DeleteMessage；client library 在背景自動延長 ack deadline
7})

差異：

SQS 主動輪詢（ReceiveMessage 迴圈）→ Pub/Sub 回呼模型（Receive 把訊息推進 callback）
SQS DeleteMessage → Pub/Sub msg.Ack()、語意都是「確認處理完、別重投」
SQS WaitTimeSeconds 控制輪詢等待 → Pub/Sub MaxOutstandingMessages 控制 flow control
SQS 一次最多 10 條的批次上限 → Pub/Sub 沒有這個上限、改用 flow control 設同時在途量
ack deadline 的延長在 SQS 要主動 ChangeMessageVisibility、在 Pub/Sub 由 client library 自動處理

application 邏輯的商業處理部分（process 函式）多數可保留、改動集中在收訊息的框架跟確認語意、估計 20-40% 程式碼。

Production 故障演練

Case 1：fan-out 設計成共用 subscription、下游各收到一部分

徵兆：把原本 SNS fan-out 到 3 條 SQS 的拓樸搬到 Pub/Sub、為了省事建一個 topic + 一個 subscription、讓 3 個下游服務都連這個 subscription。上線後發現每個下游只收到大約三分之一的訊息、不是各收完整一份。

根因：同一個 subscription 的多個 consumer 是負載分攤關係、Pub/Sub 把訊息分給其中一個 consumer、不是每個都送。這對應到 SQS 端「一條 queue 多個 worker 競爭領取」的行為、但被誤用在需要扇出的場景。SQS 端的扇出靠 SNS 複製訊息到多條 queue、那個複製動作在 Pub/Sub 應該由「多個 subscription」承擔、不是多個 consumer 共用一個 subscription。

修法：

每個下游一個獨立 subscription：3 個下游就建 3 個 subscription 掛同一個 topic、每個各收完整一份
遷移圖一對一映射：SQS 的每條 fan-out queue 對應一個 Pub/Sub subscription、不合併
負載分攤跟扇出分開設計：同一下游要多 worker 分攤、是同一 subscription 多 consumer；不同下游各收一份、是多 subscription

Case 2：ack deadline 沿用 SQS 數字太短、長任務反覆重投

徵兆：SQS 端 visibility timeout 設 5 分鐘跑得好好的、搬到 Pub/Sub 隨手把 ack deadline 設成預設或一個小數字、結果處理時間稍長的訊息被反覆重投、同一筆訊息處理多次、下游出現重複副作用。

根因：Pub/Sub ack deadline 預設 10 秒、上限 600 秒、跟 SQS visibility timeout 上限 12 小時差很多。如果關掉 client library 的自動 lease extension、又把 ack deadline 設小、處理時間一超過就被判定失敗重投。SQS 的「設一個夠長的 timeout」直覺搬過來不適用、因為 Pub/Sub 的上限低很多、且延長機制是 client library 自動做。

修法：

理解 client library 的 lease 行為：多數 client library 預設會背景自動延長 ack deadline 到處理完、優先依賴這個而不是手動設超長 deadline
長任務拆短或改架構：單筆處理超過 10 分鐘上限的、考慮拆成多階段或把長任務移出訊息處理路徑
下游做 idempotency：跟 SQS 一樣、Pub/Sub 是 at-least-once、重投本來就會發生、下游用 message ID 去重才是根本解

Case 3：FIFO 順序需求對位到 ordering key、吞吐落差超出預期

徵兆：原系統用 SQS FIFO queue + MessageGroupId 保證同一群訊息順序處理、搬到 Pub/Sub 啟用 ordering key 對位、上線後吞吐比預期低很多、且某些情境順序仍亂。

根因：SQS FIFO 跟 Pub/Sub ordering key 都提供順序、但取捨點不同。SQS FIFO 同時給「順序」跟「5 分鐘去重窗口」、吞吐受限（每 MessageGroupId 串行）。Pub/Sub ordering key 給「同一 key 的訊息按 publish 順序送達」、但要 publish 端跟 subscription 端都正確設定（publish 要設 ordering key、subscription 要 enableMessageOrdering）、漏一邊順序就不保證；而且啟用 ordering 後同一 key 串行、吞吐同樣受限。把 FIFO 的「去重 + 順序」一包功能、誤以為 ordering key 也一包提供、是落差來源。

修法：

拆開「順序」跟「去重」兩個需求：Pub/Sub ordering key 只管順序、去重要 application 端自己用 message ID 做
publish 跟 subscription 兩端都設 ordering：缺一邊順序不保證、遷移檢查清單要把兩端都列上
重新評估是否真需要全域順序：FIFO 常被過度使用、很多場景只需要 per-entity 順序、用 ordering key 按 entity 分 key、比強制全域串行吞吐高很多

Case 4：跨雲遷移期雙雲都在跑、egress 成本與延遲被低估

徵兆：漸進 cutover 期間 AWS 跟 GCP 兩邊都在處理訊息、為了對帳把訊息在兩雲之間搬、月底帳單跨雲 egress 費用遠超預估、且跨雲呼叫的尾延遲拖慢端到端處理。

根因：SQS 在 AWS region 內、Pub/Sub 在 GCP、遷移期的 dual publish 或對帳如果讓資料反覆跨雲、每一筆出 AWS 的訊息都計 egress 費。跨雲不只是錢、跨雲網路的延遲跟抖動比同雲高、放在同步處理路徑上會放大尾延遲。同雲 vendor 切換沒有這個維度、跨雲遷移必須把它列進成本模型。

修法：

縮短雙雲並行窗口：dual publish 的對帳期越短越省、設明確的並行截止日、不要無限期雙跑
對帳用抽樣不用全量搬運：驗證一致性用抽樣比對 message ID / count、不要把所有訊息都搬到對面雲比對
生產者就近落點：遷移後讓 producer 直接 publish 到 Pub/Sub、不要繞 AWS 再跨雲、消除穩態的跨雲 egress

Case 5：dead-letter topic 權限沒配齊、毒訊息卡住不進 DLT

徵兆：subscription 設了 dead-letter topic 跟 max delivery attempt、預期重試超限的訊息進 DLT、實際上毒訊息一直在原 subscription 反覆重投、DLT 是空的、後續訊息被堵。

根因：Pub/Sub 要把訊息送進 DLT、是由 Pub/Sub 的 service account 代為 publish 到 DLT topic；同時它也要對原 subscription 有 subscriber 權限才能 ack 掉原訊息。這兩個權限漏任一個、forwarding 到 DLT 就失敗、訊息卡在原 subscription。SQS 端 DLQ 是 queue 屬性、不需要額外給 service 權限、所以這個跨雲差異容易被漏掉。

修法：

配齊 DLT 雙權限：給 Pub/Sub service account 對 DLT topic 的 publisher role、跟對原 subscription 的 subscriber role
遷移後做毒訊息演練：故意 publish 一筆會失敗的訊息、確認它真的在 max attempt 後進 DLT、不是卡在原 subscription
監控 DLT backlog：DLT 開一個 subscription 監控其 num_undelivered_messages、確認毒訊息有被導流且有人處理、對照 Mercari DLT 案例的設計

漸進 cutover：dual publish 加雙消費對帳

跨雲遷移風險高、不適合一次切換、走漸進 cutover 把可逆邊界拉長：

Phase 0：拓樸盤點 — 列出所有 SQS queue、標記哪些是單一 queue、哪些是 SNS fan-out、各自映射到 Pub/Sub 的 topic / subscription 結構
Phase 1：Pub/Sub 端建好對位資源 — 建 topic / subscription / DLT、配齊 IAM 與 service account、重建 Cloud Monitoring 告警、application 寫好 Pub/Sub consumer 但先不收流量
Phase 2：dual publish — producer 同時 publish 到 SQS 跟 Pub/Sub、兩邊 consumer 都跑、Pub/Sub 端的處理結果先寫到隔離區或標記、不影響正式下游
Phase 3：雙消費對帳 — 抽樣比對兩邊處理的訊息 ID 與數量、確認 Pub/Sub 端沒漏、沒重複到無法接受的程度、ack deadline / fan-out / ordering 行為都符合預期
Phase 4：流量切換 — 對帳通過後、把正式下游切到 Pub/Sub 端、SQS 端轉成備援、保留一段觀察期可回切
Phase 5：下線 SQS — 觀察期穩定後停掉 dual publish、移除 SQS 資源、消除穩態跨雲 egress（這是不可逆階段、不要在對帳沒過時提前做）

對帳期是這套流程的核心保險、也是 Case 4 跨雲成本的來源 — 對帳用抽樣、並行窗口設明確截止日、平衡「驗證信心」跟「雙雲成本」。

Capacity / cost 對照

維度	AWS SQS	Google Pub/Sub
計費模型	每百萬 request（含 send / receive / delete）	按 throughput（publish + subscribe 的資料量計費）
Region 模型	Region-scoped、跨 region 自己處理	Global topic、無 region 概念
扇出成本	SNS + 多 SQS、每條 queue 各計費	一個 topic 多 subscription、按各 subscription throughput
訊息保留	預設 4 天、上限 14 天	預設 7 天、可調
順序成本	FIFO queue 比 standard 貴	ordering key 啟用後吞吐受限、計費同 standard
跨雲 egress	出 AWS 計 egress	出 GCP 計 egress；穩態應讓 producer 就近 publish
監控	CloudWatch（隨用量計費）	Cloud Monitoring

判讀：穩態成本兩者量級相近、真正的成本差在 遷移期 — dual publish 雙雲並行加跨雲對帳搬運是一次性高峰、不是穩態。把這段窗口縮短、是控制跨雲遷移成本的關鍵、不是去比 SQS 跟 Pub/Sub 的單價。扇出重度的系統遷到 Pub/Sub 後、少掉 SNS 那一層、扇出的計費結構也變簡單。

整合 / 下一步

遷移後事件可直接落 GCP 資料平台

遷到 Pub/Sub 的一個結構性好處、是事件可以用 BigQuery subscription 直接寫進 BigQuery、不需要再寫 Dataflow pipeline 搬運；或用 Cloud Storage subscription 批次落 GCS。這正是「workload 重心在 GCP」這條 driver 的回報 — 事件層跟資料平台同雲、省掉跨雲搬運。這也是評估是否該跨雲遷移時、要放進 ROI 的一邊。

跟 Kafka 遷移的結構對照

篇	主導差異維度	結構
Kafka ↔ NATS	Paradigm（高）	partial + 長期混合
SQS → Pub/Sub（本篇）	Operational（高）+ components / topology（高）	operational hybrid + 高維度獨立段

結論：SQS → Pub/Sub 不是 paradigm shift（兩端都是 cloud-managed 訊息服務、可收斂成單一目標）、是 operational redesign 為主、消費抽象重設計為輔的跨雲遷移；結構由主導差異維度（operational）決定主軸、高維度（components / topology）抽獨立段補充。

Google Pub/Sub push vs pull：不是實作偏好，是下游容量的判讀

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Google Cloud Pub/Sub overview 的 implementation-layer deep article。選型層（Pub/Sub vs Kafka / SQS）見 overview；本文只處理「決定用 Pub/Sub 後，subscription 與 ack 怎麼設」。Pub/Sub 是 managed SaaS、無法本機 docker 驗證，本文 config 依 Pub/Sub 官方文件與下列 production case、最後檢查日 2026-06-16；引數與計費以官方為準。

push vs pull 不是實作偏好

把 Pub/Sub 的 subscription 設成 push 還是 pull，常被當成「看團隊習慣」的實作選擇。但它其實是一個關於下游容量的判讀。差別在流量控制權在誰手上：push subscription 由 Pub/Sub 主動把訊息 HTTP POST 到目標 endpoint——流量節奏由 Pub/Sub 決定，尖峰時瞬間打過來；pull subscription 由 consumer 主動拉，要拉多少、多快由 consumer 自己控制。

Mercari 的 LINE 整合把這個判讀講得很具體：Braze webhook 進來轉成 Pub/Sub event，下游要呼叫 LINE API——而 LINE API 有 RPS 限制。如果用 push，Pub/Sub 會把訊息瞬間打到 worker、worker 再打 LINE、直接超過 LINE 的 RPS 上限。所以他們用 pull subscription，worker「精確控制每秒處理訊息數」來對齊 LINE 的限制。這個案例揭露的原則是——push vs pull 不是實作偏好，是「下游能不能承受 push 的流量衝擊」的判讀：下游有速率限制、處理能力有限、或需要平滑流量，就走 pull 自我節流。

本文展開 subscription 模型、ack deadline、flow control 與 dead-letter topic——這些決定了訊息怎麼被可靠地、以下游能承受的速度消費。

核心概念：subscription、ack deadline 與 flow control

Pub/Sub 把「topic（發布）」跟「subscription（訂閱）」分開，可靠消費的旋鈕都在 subscription 上。

一個 topic、多個 subscription、各自獨立。發布者發到 topic，每個 subscription 收到一份完整的訊息流、各自維護消費進度。這天然支援 fanout（多個服務各建一個 subscription）。Mercari 的另一個案例還揭露 topic 的雙重角色——它同時是「dispatch」跟「load-leveling buffer」，突發流量先進 topic 緩衝、consumer 按自己節奏消化。

ack deadline 是 Pub/Sub 版的可見性逾時。consumer 收到訊息後，有一段 ack deadline 來處理並 ack。在 deadline 內沒 ack，Pub/Sub 重新投遞（at-least-once）。跟 SQS visibility timeout 同樣是雙邊風險：太短→處理中就重投、太長→失敗後恢復慢。處理中可用 modifyAckDeadline（client library 通常自動 lease extension）延長。

flow control 限制 client 端同時持有的未 ack 量。pull subscription 的 client library 可設 max_outstanding_messages / max_outstanding_bytes——consumer 最多同時持有多少未 ack 訊息。這是 consumer 端自我節流的旋鈕，避免一次拉太多撐爆自己或下游。Mercari 對齊 LINE RPS 靠的就是這層控制。

dead-letter topic（DLT）給毒訊息出口。subscription 設 dead-letter policy（maxDeliveryAttempts + dead-letter topic）後，重投超過上限的訊息被轉到 DLT，不再阻塞後續。Mercari item feed 正是「重試多次仍失敗送 DLT、後續訊息優先處理」——避免 poison message 卡住 pipeline。

配置：subscription + ack deadline + DLT（依官方文件）

Pub/Sub 是 managed、以下 gcloud 依官方文件（未本機 docker 驗證、引數以官方為準）：

 1# 1. 建 topic + dead-letter topic
 2gcloud pubsub topics create orders
 3gcloud pubsub topics create orders-dlt
 4
 5# 2. pull subscription：ack deadline + dead-letter policy
 6gcloud pubsub subscriptions create orders-worker \
 7  --topic=orders \
 8  --ack-deadline=60 \
 9  --dead-letter-topic=orders-dlt \
10  --max-delivery-attempts=5
11
12# 3. consumer 端 flow control（client library、以 Python 為例、概念跨語言一致）
13#    flow_control = FlowControl(max_messages=100, max_bytes=10*1024*1024)
14#    subscriber.subscribe(sub_path, callback=handle, flow_control=flow_control)
15#    handle 內：處理成功 message.ack()、失敗 message.nack()
16
17# push subscription（僅當下游能承受 Pub/Sub 主動推的流量時）：
18# gcloud pubsub subscriptions create orders-push \
19#   --topic=orders --push-endpoint=https://my-svc/handler --ack-deadline=60

判讀：

下游有 RPS 限制 / 處理能力有限 → pull + flow control（self-throttle，Mercari 模式）
下游能吸收推送尖峰、要 serverless 簡單 → push
ack-deadline 略高於處理時間；長任務靠 client library 的 lease extension
max-delivery-attempts + DLT 給毒訊息出口

Production 故障演練

Case 1：用 push、下游被瞬間流量打爆

徵兆：流量尖峰時下游 endpoint 5xx 暴增、或下游的第三方 API 回 429（rate limited），訊息大量重投惡化。

根因：用 push subscription，Pub/Sub 把訊息瞬間 POST 到 endpoint，超過下游（或下游依賴的外部 API）的處理 / 速率上限。正是 Mercari LINE 要避開的情形。

修法：

下游有速率限制改用 pull subscription + flow control，由 consumer 自我節流
flow control 的 max_outstanding_messages 對齊下游能承受的並發
push 只用在下游能吸收推送尖峰的場景
push 場景下游要自己擋（rate limit / 佇列），不能假設 Pub/Sub 會幫你平滑

Case 2：ack deadline 太短、訊息處理中就被重投

徵兆：同一則訊息被處理多次，尤其處理較慢時；訂閱的 redelivery 指標偏高。

根因：ack deadline 設得比處理時間短，訊息在處理途中 deadline 到期、Pub/Sub 重投。跟 SQS visibility timeout 太短同類。

修法：

ack deadline 設成略高於處理時間 p99
用 client library 的自動 lease extension（modifyAckDeadline）處理長尾任務
消費端冪等——at-least-once 本來就可能重投（見 6.12 idempotency）
監控 redelivery 率，偏高代表 deadline 偏短或處理變慢

Case 3：沒設 DLT、毒訊息一直重投阻塞

徵兆：某則訊息一直失敗、一直被重投，後續訊息處理被拖慢。

根因：subscription 沒設 dead-letter policy。處理失敗（nack 或沒 ack）的訊息一再重投、沒有上限與出口，毒訊息反覆消耗 consumer。

修法：

設 dead-letter policy（max-delivery-attempts + DLT），重投達上限轉 DLT
DLT 是另一個 topic，要有處理 / 告警流程（Mercari「送 DLT、後續訊息優先處理」）
max-delivery-attempts 平衡暫時性失敗重試與毒訊息隔離
對照 SQS redrive：兩者都是 managed 原生 DLQ/DLT、比自建省事

Case 4：flow control 沒設、consumer 一次拉太多撐爆

徵兆：consumer 記憶體暴增 / OOM，或一次拉太多把下游打爆。

根因：pull subscription 沒設 flow control，client library 預設可能持有大量未 ack 訊息，consumer 端記憶體與下游壓力失控。

修法：

設 max_outstanding_messages / max_outstanding_bytes 限制同時持有量
對齊 consumer 處理能力與下游容量（Mercari 對齊 LINE RPS）
監控 consumer 記憶體與未 ack 數，調 flow control 參數
flow control 是 pull 自我節流的核心，不設等於放棄背壓

Case 5：誤用 ordering key、吞吐受限

徵兆：開了 message ordering 後吞吐明顯下降、特定 ordering key 的訊息處理變慢。

根因：Pub/Sub 的順序保證是 per-ordering-key 的——同一個 ordering key 的訊息嚴格按序、必須序列處理（前一則 ack 才處理下一則）。把所有訊息塞同一個 ordering key 等於序列化整條流、吞吐崩。

修法：

ordering key 用細粒度（per-entity，如 per-user），讓不同 key 可並行
不需要嚴格順序的就別開 ordering（預設無序、吞吐高）
評估順序需求的真實範圍——多數場景只需 per-entity 順序，不是全域
嚴格全域順序 + 高吞吐有本質衝突，重新審視需求或走 Kafka 的 partition 模型

Capacity / cost 邊界

Pub/Sub 的容量判讀（managed、無 broker 運維）：

訊號	健康區間	警戒與動作
subscription backlog（未 ack 數 / 最舊訊息 age）	在 SLA 內	持續成長 → consumer 跟不上、加 consumer / 調 flow control
redelivery 率	低	偏高 → ack deadline 太短 / 下游失敗
DLT 深度	低且有處理流程	成長 → 上游系統性失敗
consumer 記憶體 / 未 ack 量	在 flow control 限制內	暴增 → flow control 沒設好
訊息量（計費基礎）	對齊預算	暴增 → 評估 throughput 計費、batch / 壓縮

撞牆後的路由判斷：

需要長期保留 + 任意 replay：Pub/Sub 有 retention（可設、seek 到時間點）但事件流長期 replay + 生態走 Kafka。
嚴格全域順序 + 高吞吐：Pub/Sub ordering 是 per-key 序列化，全域順序高吞吐走 Kafka partition 設計。
不在 GCP 生態：Pub/Sub 綁 GCP，跨雲走 Kafka / NATS 或對應雲的 managed（SQS）。
複雜 routing（topic exchange 式）：Pub/Sub 是 topic→subscription 扇出，複雜 routing 規則走 RabbitMQ exchange。

整合 / 下一步

push/pull 判讀與 ack 是 Pub/Sub 可靠消費的核心，它跟其他議題交織：

跟 3.4 consumer design：push/pull、ack deadline、flow control 是 consumer 設計的具體選項。
跟 6.12 idempotency / replay：at-least-once + 重投要求消費冪等。
跟 SQS visibility timeout：ack deadline 對應 visibility timeout、DLT 對應 redrive，兩個 managed queue 的可靠消費模型高度對位、可對照閱讀。
跟 webhook buffer 模式：Pub/Sub topic 當 load-leveling buffer（Mercari）對應 SQS Twilio webhook buffer——把不可控的外部 webhook 流量先緩衝再按自己節奏消化。

Kafka Consumer Group Rebalance 與 Lag 診斷：從 protocol 到故障演練

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Kafka overview「進階主題」的 implementation-layer deep article，承接 overview「Consumer lag 暴增」與「Rebalance storm」兩段判讀原則的展開。Overview 給判讀方向，本文給 protocol 機制、診斷指令與故障演練。

Rebalance 是 consumer group 重新分配 partition 所有權的協調過程

Rebalance 是 consumer group coordinator 把 topic 的 partition 重新分配給 group 內 consumer 的協調動作，承擔「在成員數變動時維持每個 partition 恰好被一個 consumer 消費」這個責任。觸發條件是 group membership 改變：consumer 加入、consumer 離開、consumer 被判定失效，或 topic partition 數增加。Rebalance 完成前，受影響的 partition 暫停消費，這段空窗就是 rebalance 對 lag 的直接代價。

Consumer group 是 Kafka 把「一份 event stream 分給多個 worker 平行處理」與「同一份 stream 給多個獨立應用各自 replay」兩種需求統一的抽象。同一個 group 內的 consumer 瓜分 partition、彼此不重複消費；不同 group 各自維護 offset、互不干擾。Rebalance 只在 group 內部發生，調整的是 group 內 partition 對 consumer 的 mapping。本文聚焦 group 內 rebalance 的機制與診斷，group 概念本身見 consumer group 知識卡。

實機觀察 partition 如何在兩個 consumer 間分配：同一 group 起兩個 consumer，coordinator 把 3 個 partition 拆給它們。

1GROUP    CONSUMER-ID    CLIENT-ID    #PARTITIONS  CURRENT-ASSIGNMENT
2live-cg  consumer-A-... consumer-A   2            orders:0,1
3live-cg  consumer-B-... consumer-B   1            orders:2
4
5GROUP    ASSIGNMENT-STRATEGY  STATE    #MEMBERS
6live-cg  range                Stable   2

consumer-A 拿到 partition 0、1，consumer-B 拿到 partition 2，STATE 是 Stable 代表 rebalance 已收斂。ASSIGNMENT-STRATEGY 顯示 range，是預設的 partition 分配演算法。

Eager 與 cooperative incremental 是兩種 rebalance protocol

Rebalance protocol 決定「rebalance 期間 consumer 要不要交出手上全部 partition」，這個選擇直接決定 rebalance 的 stop-the-world 範圍。Kafka 提供兩種：eager 與 cooperative incremental。

Eager rebalance 是早期預設行為：rebalance 觸發時，group 內所有 consumer 先放棄手上全部 partition（revoke all），等 coordinator 算完新分配後再各自重新 assign。代價是 rebalance 期間整個 group 完全停止消費，即使某個 consumer 的 partition 在新舊分配中根本沒變，它也得先放掉再拿回。Group 規模越大、partition 越多，這個全停窗口越痛。

Cooperative incremental rebalance 改成「只 revoke 真正要換手的 partition」。Consumer 先回報自己想保留的 partition，coordinator 算出哪些 partition 需要從 A 搬到 B，只有這些 partition 經歷一次 revoke + reassign，其餘 partition 持續消費不中斷。代價是一次完整 rebalance 可能需要兩輪（第一輪 revoke、第二輪 assign），但每輪只影響少數 partition，整體可用性遠高於 eager。Kafka 2.4 起的 CooperativeStickyAssignor 實作這套協議。

實機驗證 cooperative-sticky 可由 consumer 端 config 啟用，ASSIGNMENT-STRATEGY 欄位反映實際生效的策略：

1kafka-console-consumer.sh --topic orders --bootstrap-server localhost:9092 \
2  --group coop-cg \
3  --consumer-property partition.assignment.strategy=org.apache.kafka.clients.consumer.CooperativeStickyAssignor

1GROUP    ASSIGNMENT-STRATEGY  STATE    #MEMBERS
2coop-cg  cooperative-sticky   Stable   1

選 protocol 的判準是 group 規模與消費中斷的容忍度：

Protocol	revoke 範圍	rebalance 期間消費	適用
Eager (range / sticky)	全部 partition	全停	小 group、partition 少、rebalance 不頻繁
Cooperative incremental	僅換手 partition	未換手 partition 持續	大 group、partition 多、要求消費連續性

對 partition 數上百、consumer 數十的 group，eager 的全停窗口會讓每次 deploy 都產生明顯 lag spike。Walmart 每天 trillions of message、25K+ consumer 跑在 K8s，pod scaling 與 deploy 觸發的 rebalance 是最大痛點（3.C17）；這種規模下 eager 的全停代價無法接受，cooperative 把中斷限縮到換手 partition 是基本要求。但 Walmart 進一步發現，即使換成 cooperative，partition-consumer 1:1 模型本身在 K8s 規模仍撞到擴張極限，最終把 consumer 解耦成 stateless service。Protocol 選擇降低單次 rebalance 代價，架構解耦才解決 rebalance 頻率本身。

切換 protocol 不能直接全量改：eager 與 cooperative 的 consumer 不能在同一 group 共存。滾動升級時，consumer 需先支援兩種 protocol、再分批切換 config，否則混用會導致 rebalance 失敗或 assignment 不一致。

三個 timeout 各自負責不同的失效判定

Consumer 存活由三個 timeout 共同把關，每個負責不同層次的失效訊號，混為一談是 rebalance 誤判的主要來源。

session.timeout.ms 是 coordinator 等待 consumer heartbeat 的上限。Consumer 背景執行緒週期性送 heartbeat，coordinator 在這個時間內沒收到就判定 consumer 死亡、觸發 rebalance。預設 45 秒（早期版本 10 秒）。值太小，短暫 GC pause 或網路抖動就誤判離線；值太大，真正死掉的 consumer 要拖很久才被踢出，lag 持續累積。

heartbeat.interval.ms 是 consumer 送 heartbeat 的頻率，必須明顯小於 session.timeout.ms，慣例設成 1/3。它決定 coordinator 多快能感知 consumer 變化，也決定 rebalance 訊號的傳播速度。值太大，session window 內 heartbeat 次數不足，容錯空間消失。

max.poll.interval.ms 是兩次 poll() 呼叫之間的上限，負責偵測「consumer 活著但卡住」。Consumer 主執行緒在 poll() 之間處理拉到的訊息，如果單批處理太久（下游 I/O 慢、batch 太大、業務邏輯重）超過這個時間，coordinator 判定 consumer 失去處理能力、把它踢出 group。預設 5 分鐘。它跟 session.timeout.ms 的分工是：heartbeat 偵測「行程是否還在」，max.poll.interval 偵測「行程是否還在前進」。

Timeout	偵測對象	預設	調整方向
`session.timeout.ms`	heartbeat 是否中斷	45000	環境抖動大調高、要求快速偵測死亡調低
`heartbeat.interval.ms`	heartbeat 傳送頻率	3000	維持在 session.timeout 的 1/3 左右
`max.poll.interval.ms`	兩次 poll 的間隔	300000	單批處理慢就調高，或縮小 max.poll.records

這三個值的常見錯配，是把處理變慢誤當成 consumer 死亡。下游 DB 變慢導致每批處理超過 max.poll.interval.ms，consumer 被踢出觸發 rebalance，partition 搬到別的 consumer，那個 consumer 同樣被同一個慢下游拖垮，再次被踢，形成連環 rebalance。這種情況調 session.timeout.ms 沒用，因為 heartbeat 執行緒一直正常送；要調的是 max.poll.interval.ms 或縮小 max.poll.records 讓單批更快做完。

Static group membership 讓 consumer 重啟不觸發 rebalance

Static membership 給 consumer 一個固定身分 group.instance.id，讓 coordinator 在 consumer 短暫離線後保留它的 partition 分配，承擔「滾動重啟與短暫中斷不觸發 rebalance」的責任。沒有 static membership 時，consumer 每次重啟都產生一個新的 member id，coordinator 視為「舊成員離開、新成員加入」、觸發兩次 rebalance。

設定方式是給每個 consumer 一個跨重啟穩定的 group.instance.id。Coordinator 看到帶 instance id 的 consumer 離線時，不立即 revoke 它的 partition，而是等到 session.timeout.ms 真正超時才判定永久離線。在這個窗口內 consumer 帶同一個 instance id 回來，直接接回原本的 partition，不觸發 rebalance。

實機驗證 group.instance.id 生效後，--members 輸出多出 GROUP-INSTANCE-ID 欄位：

1kafka-console-consumer.sh --topic orders --bootstrap-server localhost:9092 \
2  --group static-cg --consumer-property group.instance.id=static-member-1

1GROUP      CONSUMER-ID            GROUP-INSTANCE-ID  CLIENT-ID  #PARTITIONS
2static-cg  static-member-1-...    static-member-1    static-A   3

static membership 的關鍵搭配是把 session.timeout.ms 設得比預期的重啟時間長。K8s 滾動更新一個 pod 重啟可能 10-30 秒，session.timeout.ms 要涵蓋這段，否則 pod 還在重啟、coordinator 已判定永久離線、partition 已搬走，static membership 失去意義。代價是真正死掉的 consumer 也要拖到 session.timeout.ms 才被踢出，這段 partition 無人消費。Static membership 用「容忍較長的真實故障偵測延遲」換「消除重啟造成的 rebalance」，適合重啟頻繁但硬故障罕見的環境。

用 kafka-consumer-groups.sh 讀 lag 分布

診斷 lag 的起點是 kafka-consumer-groups.sh --describe，它逐 partition 列出 current offset、log end offset 與兩者差值 lag，承擔「定位 lag 集中在哪、規模多大」的責任。Lag 是某 partition 已產出的最新 offset 減去 consumer 已 commit 的 offset，代表還沒被消費的訊息量。

實機製造 lag：produce 30 筆訊息、consumer 只消費 12 筆就停掉，--describe 顯示逐 partition 的消費進度落後：

1kafka-consumer-groups.sh --bootstrap-server localhost:9092 --describe --group analytics-cg

1GROUP         TOPIC   PARTITION  CURRENT-OFFSET  LOG-END-OFFSET  LAG  CONSUMER-ID
2analytics-cg  orders  0          9               9               0    -
3analytics-cg  orders  1          3               9               6    -
4analytics-cg  orders  2          0               12              12   -

這份輸出本身就是診斷的第一個分岔點：lag 是均勻分布還是集中在少數 partition。這裡 partition 0 lag=0、partition 1 lag=6、partition 2 lag=12，明顯集中在後兩個 partition，指向 partition 層的不平衡而非整體 consumer 不足。

--state 看 group 的健康狀態與分配策略，--members --verbose 看每個 consumer 實際拿到哪些 partition：

1kafka-consumer-groups.sh --bootstrap-server localhost:9092 --describe --group live-cg --state

1GROUP    COORDINATOR (ID)     ASSIGNMENT-STRATEGY  STATE    #MEMBERS
2live-cg  localhost:9092 (1)   range                Stable   2

STATE 的取值是診斷訊號：Stable 代表分配已收斂正常消費；PreparingRebalance / CompletingRebalance 代表正在 rebalance；Empty 代表 group 沒有 active member（offset 還在但沒人消費），對應上面 lag 輸出裡 CONSUMER-ID 全是 - 的情況。看到 lag 持續累積又長期停在 rebalance 狀態，問題就在 rebalance 本身而非消費速度。

Lag 均勻分布與集中單一 partition 指向不同根因

Lag 的分布形狀是診斷的主軸：均勻分布指向消費總能力不足，集中在少數 partition 指向 key 分布或單 partition 的局部問題。同樣是 lag 高，這兩種形狀的修法完全相反，先讀分布再決定方向。

Lag 均勻分布在所有 partition，代表 consumer group 整體消費速度跟不上 producer 寫入速度。根因在消費側的總吞吐：consumer 數量不足、單 consumer 處理慢（CPU / GC / 下游 I/O）、或 producer 突發流量超過 group 設計容量。修法是擴消費能力：加 consumer（上限是 partition 數）、優化單筆處理、或對下游加 batch。如果 lag 隨時間線性成長且各 partition 同步成長，是穩態的容量不足，要重新評估 partition 數與 consumer 數。

Lag 集中在少數 partition、其餘 partition lag 接近零，代表負載不均，根因通常在 key 分布。Producer 用 key 決定 partition（hash(key) % partition_count），如果某些 key 是熱點（例如某個大客戶的 id、某個 null key 全落同一 partition），對應 partition 的訊息量遠高於其他，負責它的 consumer 再快也追不上，而其他 consumer 閒著。加 consumer 不解決這個問題，因為瓶頸 partition 仍只能被一個 consumer 消費。修法在 key 設計：拆熱點 key、加 salt 打散、或對熱點走獨立 topic。

Airbnb 的 logging pipeline 遇到的正是 partition 層 skew：event size 從幾百 bytes 到幾百 KB、QPS 跨數個量級，Spark 一個 partition 對一個 task，造成 data skew，catch-up 一個 4 小時 lag 要再花 4 小時（3.C15）。它的解法揭露一個關鍵判準：partition 數不該等同 consumer parallelism。當 lag 集中在少數重 partition，加 consumer 受限於 partition 數的天花板無效，要把 parallelism 從 partition 數解耦、按 event volume × size 重新分派 work。這把「lag 集中」的診斷從 key 分布延伸到了 work 分派模型本身。

Lag 分布形狀	根因方向	修法	加 consumer 是否有效
均勻分布、各 partition 相近	消費總能力不足	加 consumer、優化處理、batch 下游	有效（上限 partition 數）
集中少數 partition	key 分布熱點 / data skew	拆 key、salt、熱點獨立 topic、解耦 parallelism	無效（瓶頸 partition 仍單線）

判讀順序固定：先 --describe 看分布形狀，再決定往「擴容」還是「重分布」走。跳過分布判讀直接加 consumer，遇到熱點 partition 場景會白花資源還解不了 lag。

Production 故障演練

Case 1：consumer 處理慢被踢出 group 形成 rebalance 連環

徵兆：consumer log 反覆出現 Member ... sending LeaveGroup request 與 Attempt to heartbeat failed since group is rebalancing；lag 持續成長；group STATE 在 Stable 與 PreparingRebalance 之間反覆跳；同一批 partition 在不同 consumer 間反覆搬移。

根因：下游 I/O 變慢（DB 連線池打滿、外部 API 延遲升高），consumer 單批 poll() 後處理超過 max.poll.interval.ms（預設 5 分鐘），coordinator 判定該 consumer 失去處理能力、踢出 group、觸發 rebalance。partition 搬到另一個 consumer，後者面對同樣慢的下游、同樣超時被踢，rebalance 連環觸發，每次 rebalance 又讓所有 consumer 暫停消費，lag 加速惡化。

修法：

確認瓶頸是處理慢而非 heartbeat 中斷：consumer log 若有正常 heartbeat 但仍被踢，問題在 max.poll.interval.ms 不是 session.timeout.ms。
縮小 max.poll.records：一次拉少一點，讓單批在 max.poll.interval.ms 內做完，這是不改下游就能止血的第一步。
拉高 max.poll.interval.ms：給單批更長處理時間，但這只是延後而非解決，要搭配下游修復。
修復下游根因：DB 連線池、外部 API 超時、batch 寫入策略，這才是消除連環 rebalance 的根本。

Case 2：lag 集中單一 partition、加 consumer 無效

徵兆：--describe 顯示一兩個 partition lag 數十萬、其餘 partition lag 接近零；加了 consumer 之後 lag 不降，新 consumer 處於閒置（--members 顯示它分到的 partition 都沒 lag）。

根因：producer 的 key 分布有熱點，大量訊息落在同一 partition。Partition 是 Kafka 平行消費的最小單位，一個 partition 只能被 group 內一個 consumer 消費，熱點 partition 的消費速度被單 consumer 鎖死，加再多 consumer 都分不到這個 partition 的工作。

修法：

--describe 確認 lag 集中形狀，排除「整體容量不足」的均勻分布情境。
找出熱點 key：抽樣訊息看 key 分布，常見是 null key（全落同一 partition）或單一大租戶 id。
重設計 key：對熱點加 salt 打散到多 partition，或讓熱點走獨立 topic 用更多 partition。
若 work 本身有 skew（單筆訊息處理成本差異大），把 parallelism 從 partition 數解耦，按工作量重新分派，如 Airbnb 的 balanced reader（3.C15）。

key 重分布需要 producer 端配合改 key 策略，對既有 topic 是破壞性變更（舊訊息 key 不變），通常搭配新 topic 切換。本文未實機驗證 producer key 重設計的線上切換流程，依官方分區語義說明。

Case 3：deploy 每次都產生 lag spike

徵兆：每次滾動部署 consumer 服務，lag 在部署窗口內明顯上升、部署完成後緩慢回落；group STATE 在部署期間進入 rebalance；部署越頻繁，累積 lag 越明顯。

根因：每個 consumer pod 重啟，coordinator 看到舊 member 離開、新 member 加入，觸發 rebalance；若用 eager protocol，每次 rebalance 全 group 停止消費；滾動部署逐個重啟 N 個 pod 就觸發 N 次 rebalance，每次全停，lag 在這串全停窗口中累積。

修法：

啟用 static membership：給每個 consumer 固定 group.instance.id，重啟時帶同一身分回來、不觸發 rebalance。
把 session.timeout.ms 設得比 pod 重啟時間長：涵蓋 K8s 重啟一個 pod 的 10-30 秒，否則 static membership 在窗口內失效。
切換到 cooperative incremental protocol：即使仍有 rebalance，只有換手 partition 中斷，未換手 partition 持續消費。
控制部署並行度：一次重啟太多 pod 會放大同時 rebalance 的影響，分批滾動。

Walmart 在 25K+ consumer 規模下，正是 pod scaling / deploy / heartbeat fail 三類事件持續觸發 rebalance lag spike（3.C17）；static membership 與 cooperative 降低單次代價，但它最終把 consumer 解耦成可獨立 auto-scale 的 stateless service，從架構層消除 rebalance 與 partition 數的綁定。

Case 4：scale-to-zero 後冷啟動 lag

徵兆：低流量時段 consumer 被縮到 0，流量回來時 lag 已累積一批、需要一段 catch-up；autoscaler 若看 CPU / memory 反應遲鈍，因為 sink 多為 I/O bottleneck、CPU 平坦不觸發擴容。

根因：event-driven workload 的工作量是 backlog（lag）而非 resource usage。用 CPU / memory 當 scaling signal，在 I/O-bound 的 sink consumer 上失靈：訊息堆積但 CPU 不高，autoscaler 不動，lag 持續成長。

修法：

用 consumer lag 當 scaling signal：lag 超過閾值就擴 consumer、lag 清空就縮，直接對齊工作量。
接受 scale-to-zero 的冷啟動 lag 為設計取捨：minReplicaCount=0 省下 idle 成本，代價是流量回來時的 catch-up 窗口，對非即時 sink 可接受。
設 lag 閾值與擴容步長：閾值太高 catch-up 久、太低頻繁擴縮，依 SLA 對 backlog 的容忍度設定。

Trivago 跨 3 region 跑 50+ Kafka sink、每個 always-on 用 1 CPU + 1 GB，CPU/mem autoscaling 對 I/O-bound sink 無效；改用 KEDA 以 consumer lag 為 scaling signal、minReplicaCount=0 達到 scale-to-zero，daily replica-hour 從 50 降到 1-2（3.C22）。這個案例的判準是 resource usage 不等於工作量，event-driven 場景該看 backlog signal。

Capacity 與 cost

Rebalance 與 lag 的容量規劃圍繞三個變數：partition 數、consumer 數、單次 rebalance 的中斷成本。partition 數是消費平行度的天花板，consumer 數超過 partition 數時多出的 consumer 閒置，所以 partition 數要按峰值需要的平行度規劃，但 partition 過多會推高 metadata 壓力與 rebalance 計算成本。

維度	估算	警戒
Consumer 數上限	等於 partition 數，超出即閒置	consumer = partition 仍跟不上要加 partition
Eager rebalance 中斷	全 group 停止消費直到分配收斂	partition 多、group 大時窗口顯著
Cooperative rebalance	僅換手 partition 中斷，可能兩輪	換手比例高時優勢縮小
session.timeout.ms 窗口	consumer 死亡到被踢出、partition 無人消費	設太大則故障偵測慢、lag 累積
加 partition 的代價	提高平行度上限，但增加 rebalance 與 metadata 成本	過度分區推高 controller 壓力

實務 default：partition 數按峰值平行度設、保留成長餘量但不過度分區；consumer 數對齊 partition 數、用 lag 而非 CPU 當 autoscaling signal；rebalance 頻繁的環境優先 static membership + cooperative，再評估是否需要把 consumer 從 partition 解耦。加 partition 是單向操作（無法縮回），且改變既有 key 的 partition 對應，要在規劃期一次設足而非事後頻繁調整。

整合與下一步

Rebalance 與 lag 診斷接在 consumer 設計與交付語義之上：commit 策略決定 lag 的計算基準與 rebalance 後的重複消費風險，交付語義決定 rebalance 中斷期間訊息是否可能丟失或重放。

跟 consumer 設計對位

3.4 consumer 設計涵蓋 commit 策略（auto vs manual）、commit 時機與 partition 分配的整體設計。本文的 rebalance 是 consumer 設計在「成員變動」維度的展開，lag 是 commit 進度的可觀測量。commit 策略選錯會在 rebalance 後放大重複消費或丟失。

跟交付與復原語義對位

3.6 processing 與 recovery 語義涵蓋 rebalance 中斷期間的 at-least-once / at-most-once 行為。rebalance revoke partition 時，未 commit 的進度會在新 consumer 接手後重放（at-least-once）；commit 太早則可能在 rebalance 中丟失（at-most-once）。idempotency 與 replay 的整體設計見 6.12 idempotency / replay。

NATS core 到 JetStream：fire-and-forget 在哪裡不夠、跨過去要付什麼

Tue, 16 Jun 2026 00:00:00 +0000

本文是 NATS overview 的 implementation-layer deep article、定位在「要不要從 core NATS 跨進 JetStream」的決策入口。選型層（NATS vs Kafka / RabbitMQ）見 overview；本文只處理 core 與 JetStream 的邊界與基本 consumer 設定。決定採用 JetStream 後的完整實作（stream / consumer 每個旋鈕、跨區拓樸、多租戶）見 JetStream 設計與 supercluster / leaf node。JetStream 實機驗證於 nats:latest（-js）、最後檢查日 2026-06-16；機制以 NATS JetStream 官方文件為準。

fire-and-forget 在 rolling deploy 那一刻掉訊息

Core NATS 的低延遲來自它什麼都不記——一則訊息發布出去，當下有訂閱者就送達、沒有就丟棄。沒有儲存、沒有 ack、沒有重送。這適合「即時但可丟」的場景（metrics、presence、即時通知）：訂閱者暫時離線錯過幾則無所謂，下一則馬上來。

但這個設計有一條清楚的邊界。Clarifai 用 NATS 跑 ML 模型訓練的非同步任務，任務從幾秒到幾分鐘，原本同步呼叫——結果每次 rolling deployment（pod 輪流重啟）就掉訊息：訊息發布的瞬間目標 worker 正在重啟，core NATS 找不到訂閱者就丟了。他們的解法是改用 NATS（當時是 NATS Streaming、JetStream 的前身）的 at-least-once delivery + redelivery + queue group，每日 100k+ 訊息、達成 100% uptime。這個案例揭露的邊界是——ML 長尾任務不能容忍 rolling deploy 掉訊息，core NATS 的 fire-and-forget 到此為止，要跨進 JetStream。

JetStream 在 core NATS 之上加了一層持久化的 stream + 可重送的 consumer。本文處理這條邊界：什麼時候 core 夠用、什麼時候要 JetStream、跨過去的 consumer 模型怎麼設才不會丟訊息或重投風暴。

核心概念：stream 與 consumer 的求值模型

JetStream 把「訊息儲存」跟「消費進度」拆成兩個獨立物件——stream（存什麼、留多久）跟 consumer（誰讀、怎麼 ack）。理解 JetStream 就是理解這兩者。

stream 決定訊息怎麼被儲存與保留。一個 stream 綁定一組 subject、把符合的訊息持久化。三個關鍵維度：storage（file 持久 / memory 重啟即失）、retention（limits 依大小/時間/數量保留、workqueue 消費後即刪、interest 有訂閱者才留）、limits（max-msgs / max-bytes / max-age）。retention 選錯是常見陷阱——workqueue 是「每則訊息只被一個 consumer 消費一次就刪」，limits 是「保留著、多個 consumer 各自讀」。

consumer 是 stream 上的一個可重播視圖。同一個 stream 可以有多個 consumer，各自維護自己的消費位置。consumer 的關鍵屬性：

push vs pull：push 由 server 主動推給訂閱者；pull 由 client 主動拉（consumer next），pull 對流量控制與 worker pool 更可控
durable vs ephemeral：durable consumer 的進度持久（重啟後從上次位置續讀），ephemeral 在 client 斷線後消失（進度丟失）
ack policy：explicit（每則都要 ack、at-least-once 的基礎）/ all（ack 一則等於 ack 之前所有）/ none（不需 ack、近似 fire-and-forget）
max_deliver + ack_wait：沒 ack 的訊息在 ack_wait 後重送，最多 max_deliver 次

at-least-once 來自「explicit ack + redelivery」。consumer 取出訊息、處理、明確 ack；沒 ack（處理失敗或 crash）的訊息在 ack_wait 逾時後重送。這就是 Clarifai 要的「rolling deploy 不丟訊息」——worker 重啟時沒 ack 的任務會被重送給其他 worker。

配置：durable pull consumer（實機驗證）

 1# 啟動 JetStream（server 加 -js）
 2# docker run -d --name nats nats:latest -js
 3
 4# 1. 建 stream：file storage、limits retention
 5nats stream add ORDERS --subjects "orders.>" --storage file --defaults
 6#   Subjects: orders.>   Storage: File   Retention: Limits   Replicas: 1
 7
 8# 2. publish
 9nats pub orders.new "order-1"   # Published 7 bytes to "orders.new"
10
11# 3. stream info 確認持久化
12nats stream info ORDERS
13#   Storage: File   Messages: 3   Bytes: 141 B   ← 訊息已落盤、consumer 重啟不丟
14
15# 4. durable pull consumer（explicit ack、可重送）
16nats consumer add ORDERS workers --pull --ack explicit --deliver all --defaults
17#   Pull Mode: true   Ack Policy: Explicit
18
19# 5. 拉取消費（worker pool 多個實例共用同一 durable consumer = queue group 語意）
20nats consumer next ORDERS workers --count 3
21#   order-1  order-2  order-3

實機驗證於 nats:latest（最後檢查日 2026-06-16）：file storage 的 stream 把訊息落盤（Messages: 3）、durable pull consumer 用 explicit ack 消費。多個 worker 連到同一個 durable pull consumer 形成 worker pool（訊息分給其中一個），這正是 Clarifai 的 queue group 模式。

判讀：

worker pool 用同一個 durable pull consumer（共享進度、訊息分流），不是每個 worker 一個 consumer
--ack explicit 是 at-least-once 的前提；處理成功才 ack
pull 模式比 push 對 worker pool 更可控（worker 按自己能力拉、不會被 push 淹）

Production 故障演練

Case 1：用 core NATS 跑該持久的任務、rolling deploy 掉訊息

徵兆：平時正常，但每次部署（pod 輪流重啟）就有一批任務消失、沒有錯誤。

根因：用 core NATS（fire-and-forget）跑需要可靠處理的任務。發布瞬間目標訂閱者正在重啟，core NATS 找不到訂閱者就丟棄——這是 core 的設計，不是故障。正是 Clarifai 的原始問題。

修法：

需要不丟的任務用 JetStream（持久 stream + durable consumer + explicit ack）
訊息落盤後 consumer 重啟從上次位置續讀，rolling deploy 不丟
釐清邊界：可丟的即時資料（metrics / presence）留 core NATS、不可丟的跨 JetStream
不要用 core NATS 當任務隊列——它沒有持久化與重送

Case 2：ephemeral consumer 斷線、消費進度全丟

徵兆：consumer 重連後從頭重讀整個 stream、或漏掉斷線期間的訊息，進度不連續。

根因：用了 ephemeral consumer——它的進度不持久，client 斷線後 consumer 本身消失。重連是建一個全新 consumer，從 deliver policy 的起點開始（all 從頭、new 只看新的），不接續之前的進度。

修法：

需要跨重啟接續的用 durable consumer（具名、進度持久）
ephemeral 只適合臨時、一次性的讀取（debug、一次性掃描）
worker pool 一定用 durable（多 worker 共享持久進度）
確認 deliver policy（all / new / last）符合預期的起讀位置

Case 3：ack_wait 太短、處理還沒完就重送風暴

徵兆：長任務還在處理中就被重送給另一個 worker，同一任務被多個 worker 重複執行，負載放大。

根因：ack_wait（等 ack 的逾時）設得比任務處理時間短。JetStream 以為訊息處理失敗（沒在 ack_wait 內 ack），重送給別人——但其實第一個 worker 還在跑。ML 長尾任務（幾秒到幾分鐘）特別容易踩。

修法（本文層級的判讀）：ack_wait 必須涵蓋任務的 p99 處理時間，否則長任務會在處理中被重送。設值方法（量測 p99、長任務用 in-progress ack 延長 deadline、消費端冪等兜底）與實機重現（AckWait 設 1s 觀察 tries 1→2、Redelivered 計數）在 JetStream 設計與 supercluster/leaf node 的故障演練有完整步驟，採用 JetStream 後依該篇落地。

Case 4：retention 選 workqueue 但想多 consumer fanout

徵兆：想讓多個獨立服務各自消費同一 stream，但發現訊息被一個消費掉就消失、其他服務讀不到。

根因：stream retention 設成 workqueue——每則訊息只被消費一次就從 stream 刪除（隊列語意）。它不適合 fanout（多個 consumer 各自要完整一份）。fanout 要 limits 或 interest retention。

修法：

fanout（多服務各讀一份）用 limits retention（訊息保留、多 consumer 各自 offset）
單一 worker pool 競爭消費用 workqueue（消費即刪、省空間）
釐清需求：競爭消費（worker pool）vs 廣播消費（fanout）對應不同 retention
Clarifai 用「3 個獨立 NATS 實例做 fanout 隔離」是另一種 fanout 做法，按隔離需求選

Case 5：memory storage 的 stream 重啟全失

徵兆：broker 重啟後 stream 裡的訊息全沒了，consumer 從空的開始。

根因：stream storage 設成 memory——快但不持久，broker 重啟即失。誤把它當持久 stream 用。

修法：

需要持久的 stream 用 file storage（落盤、重啟不丟，實機驗證過）
memory 只適合「快取式、可重建」的 stream（如即時聚合的中間狀態）
要更高可靠性加 replicas（JetStream 用 Raft 跨節點複製 stream）
容量規劃時 file storage 的磁碟與 memory 的 RAM 是不同維度

Capacity / cost 邊界

JetStream 的容量判讀：

訊號	健康區間	警戒與動作
stream storage 用量	在 max-bytes / max-age 內	接近上限 → 訊息被 discard、調 limits 或加容量
redelivery 次數	低（多數一次 ack 成功）	高 → ack_wait 太短或處理卡住
consumer pending	可消化	持續堆高 → consumer 跟不上 producer
ack_wait vs 處理時間	ack_wait > p99 處理時間	反了 → 重送風暴
storage 型別	持久需求用 file	誤用 memory → 重啟丟訊息

撞牆後的路由判斷：

可丟的即時資料：不需要 JetStream 的持久化開銷，用 core NATS（更快更輕）。
超大吞吐 + 長期保留 + 複雜 replay：JetStream 適合中等規模可靠 messaging；超大規模 event streaming + 長期保留走 Kafka（log-based、生態成熟）。
複雜 routing / 任務隊列語意：JetStream 的 subject 是樹狀，複雜 routing + DLQ 拓樸用 RabbitMQ 更直接。
不想自管：NATS 的 managed 選項（Synadia Cloud）或其他 managed broker。

整合 / 下一步

JetStream 的邊界判斷是 NATS 使用的核心，它跟其他議題交織：

跟 3.4 consumer design：push/pull、durable/ephemeral、ack policy 是 consumer 設計的具體選項。
跟 3.2 durable queue：JetStream 的 file storage stream 是 NATS 的 durable queue 實現。
跟 6.12 idempotency / replay：at-least-once + redelivery 要求消費冪等，否則重送造成重複副作用。
跟 RabbitMQ DLQ deep article：max_deliver 達上限後的處理對應 RabbitMQ 的 DLQ，兩者都是「重試上限後往哪去」的問題。

Pub/Sub Ordering Key、Dead-Letter Topic 與 Schema Enforcement：三道交付治理

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Google Cloud Pub/Sub overview 的 implementation-layer deep article。Overview 回答「Pub/Sub 該不該選、跟 Kafka / SQS 差在哪」；本文回答「ordering key 怎麼設、DLT 怎麼擋 poison message、schema 怎麼守契約，各自踩哪些坑」。閱讀前可先讀 overview 的 ordering / DLT / schema 各段建立 context。

文中 gcloud 指令的語法以 Pub/Sub emulator 實機驗證（topic / subscription / schema / ordering key / DLT / push 各操作均跑通），標準版的雲端配額、IAM 與計費行為依官方文件。

三道治理共用同一個交付骨架

Pub/Sub 的 ordering key、dead-letter topic、schema enforcement 看似三個獨立功能，實際都掛在同一個交付骨架上：subscription 是消費進度的 first-class 抽象、訊息經 ackDeadline 控制重投、失敗訊息經投遞次數計數決定去留。理解這個骨架之後，三道治理只是骨架上的三個切面 — ordering 切的是「投遞順序」、DLT 切的是「投遞次數上限」、schema 切的是「投遞前的內容守門」。

這條骨架跟 Kafka 思路不同。Kafka 的消費進度綁在 consumer group + partition offset；Pub/Sub 的 topic 是 first-class，subscription 才是 consumer 抽象，一個 topic 可以掛 N 個 subscription、各自有獨立進度與獨立的 ackDeadline / DLT / ordering 設定。同一份 event 流，A subscription 可以開 ordering 嚴格有序、B subscription 可以不開 ordering 換吞吐，互不影響。

把這三道治理寫進一篇的理由是：它們在 production 會互相牽制。Ordering key 開了之後 DLT 的隔離行為會變（有序流裡一則 poison message 會卡住整把 key 的後續訊息）；schema enforcement 擋下的不相容 publish 不會進 DLT（根本沒進 topic）。分開讀三個官方頁面看不到這層耦合。

subscription 是 first-class：ackDeadline 與 extension

subscription 承擔「這個消費者讀到哪、還有多少沒 ack」的責任。每則訊息投遞給 subscriber 後，Pub/Sub 啟動一個 ackDeadline 倒數；倒數內收到 ack 就移除訊息、倒數結束沒收到 ack 就重投。預設 ackDeadline 是 10 秒、上限 600 秒。

 1# subscription 的 ackDeadline 預設 10 秒、retention 預設 7 天
 2gcloud pubsub subscriptions describe demo-sub
 3# ackDeadlineSeconds: 10
 4# messageRetentionDuration: 604800s   # 7 天
 5
 6# 建 subscription 時可顯式設更長的 ackDeadline 與更短的 retention
 7gcloud pubsub subscriptions create cfg-sub \
 8  --topic=demo-topic \
 9  --ack-deadline=120 \
10  --message-retention-duration=3d
11# ackDeadlineSeconds: 120
12# messageRetentionDuration: 259200s   # 3 天

ackDeadline 是一道「處理時間預算」。設太短，處理還沒完訊息就被重投，consumer 會收到重複；設太長，consumer crash 後訊息要等滿 deadline 才重投，延遲拉高。長任務不靠把 ackDeadline 一次設到 600 秒解決，而是靠 ack deadline extension：consumer 在處理中週期性發 modifyAckDeadline 把單則訊息的 deadline 往後延，處理完才 ack。

1# pull 一則但不 auto-ack，拿到 ackId
2ACKID=$(gcloud pubsub subscriptions pull demo-sub --limit=1 --format='value(ackId)')
3
4# 處理中動態延長這則訊息的 ackDeadline 到 300 秒
5gcloud pubsub subscriptions modify-message-ack-deadline demo-sub \
6  --ack-ids="$ACKID" \
7  --ack-deadline=300

實務上不手動發 modifyAckDeadline，而是用 client library 的自動 lease 管理：client 在背景對 outstanding 訊息週期性續約，直到 application code 回 ack / nack。這跟 SQS 的 visibility timeout 語意類似 — 都是「訊息正在被處理、暫時別重投」的租約 — 但 Pub/Sub 是 per-message lease + client 自動續約，SQS 是 per-receive visibility window + 手動 ChangeMessageVisibility。

ackDeadline 的陷阱在 batch 邊界。client library 常以 batch 為單位 pull，但 ackDeadline lease 是 per-message。若 application 把整個 batch 當一個工作單元處理、處理時間超過單則 ackDeadline 且 client 未對每則續約，未 ack 的訊息會被重投。Mercari 的 actionable history pipeline 揭露的正是這個 client library 行為：ack deadline 以整批 batch 為粒度運作，同批只要有一則過期或被 nack，已 ack 的訊息會跟著一起重投（3.C63）。

Push、Pull、Streaming Pull 與 flow control

subscription 有兩種交付方向，pull 之下又分 unary pull 與 streaming pull。三者對應不同的下游承壓能力。

交付模型	機制	適合場景	flow control 由誰掌握
Push	Pub/Sub 主動 POST 到 HTTPS endpoint	無狀態 worker、Cloud Run、Cloud Functions	Pub/Sub（按 ack 動態調速）
Unary Pull	consumer 每次發一個 pull 請求拿一批	低頻、批次拉取、簡單腳本	consumer（自己控拉取頻率）
Streaming Pull	consumer 開長連線、Pub/Sub 持續推送到該連線	高吞吐長 worker、需要精確 flow control	consumer（client lib 設定）

Push 把投遞節奏交給 Pub/Sub：endpoint 回 2xx 視為 ack、回非 2xx 或逾時視為 nack 並 backoff 重投。Pull 把節奏交給 consumer：consumer 想拉才拉、拉多少自己定。Streaming pull 是 production 高吞吐場景的主力 — client library 預設用它，因為它能在單一長連線上做精細的 flow control。

flow control 是 pull 的核心優勢：consumer 用 max_outstanding_messages 與 max_outstanding_bytes 設定「同時最多持有多少未 ack 訊息」，超過上限 client 就暫停從連線拉取，等 application ack 釋放額度才繼續。這讓 consumer 能把消費速率對齊到下游能吃的速率，而不是被 broker 灌爆。

Push vs pull 不是實作偏好，是「下游能否接受 push 衝擊」的判讀。Mercari 把外部行銷 webhook（Braze）轉成 Pub/Sub event 後，下游 worker 刻意用 pull subscription 精確控制每秒處理訊息數，因為下游要呼叫的外部 LINE API 有 RPS 限制 — push 會把瞬間流量直接打到受限的外部 API（3.C65）。下游有硬性 RPS 上限時，pull + flow control 是讓消費速率可控的手段。

Ordering Key：有序的代價是吞吐

Ordering key 讓「帶同一個 ordering key 的訊息，在 subscription 端按 publish 順序投遞」。它把全域無序的 Pub/Sub 變成 per-key 有序 — 不同 key 之間仍可並行、亂序，只有同 key 內部保證順序。要生效需要兩端配合：subscription 建立時開 --enable-message-ordering，publish 時帶 --ordering-key。

1# subscription 端開啟 ordering
2gcloud pubsub subscriptions create ord-sub \
3  --topic=ord-topic \
4  --enable-message-ordering
5# describe 可見 enableMessageOrdering: true
6
7# publish 端帶 ordering key（同一 key 的訊息會保序）
8gcloud pubsub topics publish ord-topic --message=m1 --ordering-key=user-123
9gcloud pubsub topics publish ord-topic --message=m2 --ordering-key=user-123

Ordering key 的設計責任在於選對 key 的粒度。粒度太粗（例如所有訊息共用一個 key）會把整條 topic 退化成單線序列、吞吐崩塌；粒度太細（例如每則訊息一個 key）等於沒開 ordering。正確做法是按「需要保序的業務實體」選 key — 同一個 user-123 的事件要保序、不同 user 之間不需要 — 這樣並行度等於活躍 key 數，既保序又不犧牲整體吞吐。

跟 Kafka 對照能看清取捨。Kafka 用 partition + 同 key hash 到同 partition 達成保序，partition 數是固定預先規劃的並行上限；Pub/Sub 沒有顯式 partition，ordering key 的並行度是動態的、由活躍 key 數決定。代價是 Pub/Sub 的有序投遞要求同 key 訊息送到同一個內部處理單元，這個約束讓單一 ordering key 的吞吐有上限（官方標稱單 ordering key 約 1 MB/s）。

Ordering 跟 DLT 在 production 會耦合：有序流裡若一則訊息反覆失敗、Pub/Sub 為維持順序不會跳過它去投後面的訊息，整把 key 的後續訊息全卡住，直到該訊息 ack 或送進 DLT。沒開 ordering 時 poison message 只卡自己；開了 ordering 後它卡住整條 key 序列。這是下一節 DLT 要解的問題在 ordering 場景下被放大的原因。

Dead-Letter Topic：投遞次數上限決定隔離時機

Dead-letter topic 是 poison-message quarantine 在 Pub/Sub 的實作：subscription 對每則訊息計數投遞次數，超過 max-delivery-attempts 就把訊息轉發到另一個 topic（DLT），主 subscription 不再重投它，後續正常訊息得以前進。

 1gcloud pubsub topics create main-topic
 2gcloud pubsub topics create dl-topic
 3
 4gcloud pubsub subscriptions create main-sub \
 5  --topic=main-topic \
 6  --dead-letter-topic=dl-topic \
 7  --max-delivery-attempts=5
 8# deadLetterPolicy:
 9#   deadLetterTopic: projects//topics/dl-topic
10#   maxDeliveryAttempts: 5

DLT 是 topic 不是 queue，這是 Pub/Sub 跟 SQS DLQ 的關鍵差異。SQS 的 DLQ 是另一個 queue、消費者直接 receive；Pub/Sub 的 DLT 是 topic，要再掛一個 subscription 才能讀。好處是 DLT 上可以同時掛多個 subscription — 一個給人工檢視、一個給自動 replay、一個給長期歸檔 — fan-out 內建。代價是多一層 subscription 配置，且 DLT 也有自己的 retention（同樣預設 7 天，poison message 要在這之內處理掉）。

max-delivery-attempts 設定的是「容忍多少次暫時性失敗」與「多快放棄」之間的平衡。設太低（例如 1-2 次），下游短暫抖動就把訊息丟進 DLT、誤殺可恢復的訊息；設太高（例如 50 次），一則真正壞掉的訊息會反覆重試半天、占用 consumer 資源、在有序流裡還會長時間卡住整條 key。官方允許範圍 5-100，常見起點是 5。

搭配 retry policy 的 backoff 能讓重投不至於太密集：

1gcloud pubsub subscriptions create retry-sub \
2  --topic=main-topic \
3  --min-retry-delay=10s \
4  --max-retry-delay=600s
5# retryPolicy:
6#   minimumBackoff: 10s
7#   maximumBackoff: 600s

啟用 DLT 需要把 Pub/Sub service account 授權對主 subscription 有 subscriber、對 DLT 有 publisher（emulator 不校驗 IAM，正式環境若漏授權，訊息超過 max attempts 後不會進 DLT、而是繼續留在主 subscription 重投，看起來像 DLT 沒生效）。授權細節依 GCP 官方 IAM 文件。

Mercari 的商品 feed 同步示範了 DLT 的標準用法：pull subscription + 自家 batch requester、成功 ack 整批、失敗 nack 讓 Pub/Sub 重送、重試多次仍失敗送 DLT、後續訊息優先處理；同一個 topic 還兼當突發流量的 load-leveling buffer（3.C64）。

Schema Enforcement：投遞前的契約守門

Schema enforcement 把 event schema compatibility 從「應用層約定」提升到「broker 強制」。topic 綁定一個 Avro 或 Protobuf schema 後，不符 schema 的 publish 在進 topic 前就被拒絕 — 訊息根本不會被儲存、不會投遞、不會進 DLT。

1# 1. 建 schema（Avro，一個必填 string 欄位 id）
2gcloud pubsub schemas create order-schema \
3  --type=avro \
4  --definition='{"type":"record","name":"Order","fields":[{"name":"id","type":"string"}]}'
5
6# 2. topic 綁 schema + 指定 message encoding
7gcloud pubsub topics create sch-topic \
8  --schema=order-schema \
9  --message-encoding=json

綁定後的 publish 行為（emulator 實機驗證 enforce）：

 1# 符合 schema：通過
 2gcloud pubsub topics publish sch-topic --message='{"id":"abc"}'
 3# messageIds: ['4']
 4
 5# 欄位不符 schema：被拒
 6gcloud pubsub topics publish sch-topic --message='{"wrong":123}'
 7# ERROR: INVALID_ARGUMENT: Could not parse message
 8
 9# 非 JSON 垃圾：被拒
10gcloud pubsub topics publish sch-topic --message='not-json'
11# ERROR: INVALID_ARGUMENT: Could not parse message

schema 守門的價值在於把契約破壞擋在 producer 端、而不是 consumer 端。沒有 schema enforcement 時，producer 改了 payload 結構、不相容的訊息照樣進 topic、要到 consumer 解析失敗才爆 — 此時訊息已經在系統裡流動、可能已 fan-out 到多個 subscription、修復成本高。有 schema enforcement 時，不相容的 publish 在源頭就失敗，問題暴露在「誰送了壞訊息」而不是「誰收到壞訊息」。

schema evolution 要在「擋住破壞性改版」與「不阻塞合理演進」之間取捨。新增可選欄位或帶預設值的欄位維持相容、可以平滑演進；新增必填欄位、刪欄位、改型別是破壞性改版，會讓既有 producer 或 consumer 失效。設計上先定相容性等級（backward / forward / full）再演進，刪欄位分兩步（先停用再移除），避免一次破壞性改版打掛下游。

跟 Kafka Schema Registry 對照：Kafka 的 schema 校驗在 client 端（producer / consumer 各自向 Registry 查 schema、序列化時校驗），broker 本身不認識 schema；Pub/Sub 的 schema 綁在 topic、校驗在 broker 端 publish 路徑上。前者校驗點分散、靈活但要求所有 client 守規矩；後者校驗點集中在 broker、強制但耦合到 topic 配置。

五個 Production 故障演練

deep article 的差異化價值在故障演練。以下五個徵兆對應前述三道治理在 production 的典型失效。

演練一：Ordering key 把吞吐限到單線

徵兆：開了 ordering 後整條 topic 的吞吐從數萬 msg/s 掉到數百 msg/s，subscription backlog（num_undelivered_messages）持續攀升、oldest_unacked_message_age 越拉越長，但 consumer CPU 並不滿載 — consumer 在等訊息、不是在忙。

根因：ordering key 粒度太粗。最常見是「所有訊息共用同一個 ordering key」（例如固定字串、或單一租戶 ID），整條 topic 退化成單一有序序列，並行度等於 1。單一 ordering key 的吞吐有上限（官方標稱約 1 MB/s），所有訊息擠進一個 key 就被這個上限封頂。

判讀與修法：

確認 ordering key 的基數（cardinality）。gcloud pubsub topics publish 帶的 --ordering-key 在 production 是業務欄位映射來的 — 檢查映射邏輯是否塌縮成低基數。
把 key 粒度對齊到「真正需要保序的業務實體」：同一筆訂單 / 同一個 user / 同一個 device 內要保序，跨實體不需要。粒度從「全域一個 key」改成「per-user 一個 key」，並行度從 1 拉到活躍 user 數。
評估是否真的需要 ordering。多數 pipeline 靠 consumer 端 idempotency + 版本號就能容忍亂序，不需要 broker 層保序 — 把保序成本從吞吐換成 consumer 設計（見 3.7 event contract 的 idempotency key 段）。

演練二：Ack deadline 太短導致重複投遞

徵兆：consumer 處理邏輯正確、下游也成功，但同一則訊息被處理多次；DELIVERY_ATTEMPT 計數異常偏高、下游出現重複副作用（重複扣款 / 重複發信）。Backlog 不一定高，但「處理量」遠大於「publish 量」。

根因：ackDeadline 比實際處理時間短。預設 10 秒對「呼叫一個慢的外部 API」「處理大 payload」這類任務不夠，訊息在 application 還沒 ack 前就過了 deadline、被 Pub/Sub 重投，於是同一則訊息有多個 consumer 副本在跑。若 client library 的自動 lease extension 沒生效（例如 application 阻塞在同步呼叫、background lease thread 餓死），重投更嚴重。

判讀與修法：

量測 p99 處理時間，把 ackDeadline 設到 p99 之上留 buffer，但不要不加判斷地設到 600 秒上限 — deadline 越長，consumer crash 後訊息重投的延遲越長。
長任務靠 lease extension 而非長 ackDeadline：確認 client library 的自動續約有在跑，application code 不要在處理迴圈裡阻塞到讓 background 續約 thread 餓死。
consumer 端做 idempotency：用 message 的 dedup key（3.7）讓重複投遞變成無害 — at-least-once 交付下重複是常態，不靠調 ackDeadline 消除、靠 consumer 設計吸收。

演練三：DLT max delivery attempts 設定誤判

徵兆：兩種反向徵兆。其一，DLT 堆滿了「其實能恢復」的訊息 — 下游一抖動就被丟進 DLT，DLT backlog 暴增、人工 replay 不完。其二，主 subscription 卡著一則壞訊息反覆重投半天都不進 DLT、後面訊息（尤其在 ordering 流裡）全堵住。

根因：第一種是 max-delivery-attempts 設太低（1-2 次），暫時性失敗就被當成 poison。第二種是設太高（數十次）或根本沒設 DLT，真正的 poison message 反覆重試、占資源、卡序列。

判讀與修法：

區分「暫時性失敗」與「結構性失敗」。暫時性（下游超時、限流）需要重試容忍度，結構性（payload 解析不了、業務規則永久拒絕）越早隔離越好。
max-delivery-attempts 起點設 5，搭配 retry policy backoff（--min-retry-delay / --max-retry-delay）讓重試之間有間隔、給下游恢復時間，而不是密集重打。
確認 DLT 真的接得到訊息：檢查 Pub/Sub service account 對 DLT 的 publisher 授權（漏授權會讓訊息超過 attempts 後繼續留在主 subscription、看起來像沒進 DLT）。
DLT 要掛 subscription 才讀得到 — DLT 是 topic 不是 queue，建完 DLT 還要建 DLT 的 subscription 並設好 retention，否則 poison message 在 DLT 裡放滿 7 天後一樣丟失。

演練四：Push endpoint 500 觸發 retry storm

徵兆：push subscription 的下游 HTTP endpoint 開始大量回 500，Pub/Sub backoff 重投、但 endpoint 仍 500，重投量隨 backlog 累積越滾越大；endpoint 一旦短暫恢復就被積壓的重投流量瞬間打回 500，形成「恢復即再掛」的震盪。

根因：push 的 flow control 由 Pub/Sub 掌握、按 ack 動態調速 — endpoint 回 2xx 視為 ack、非 2xx 視為 nack 並重投。當 endpoint 因下游依賴（DB / 外部 API）掛掉而持續 500，Pub/Sub 的 backoff 重投跟累積的 backlog 疊加，恢復瞬間的流量遠超 endpoint 平時負載。這正是「下游能否接受 push 衝擊」的反面 — push 沒有 consumer 端的 flow control 閥門。

判讀與修法：

先判訊息毒性 vs endpoint 健康。若是 endpoint 整體掛（所有訊息都 500），是容量 / 依賴問題；若是特定訊息 500（多數成功、少數失敗），是 poison message，該走 DLT。
endpoint 整體掛的場景，push 不是好選擇 — 改 pull + flow control，讓 consumer 用 max_outstanding_messages 把消費速率對齊到下游能吃的速率，避免恢復瞬間被積壓流量打垮（對照 3.C65 的下游 RPS 限制場景）。
對 push 配 DLT，把反覆 500 的特定訊息隔離出去，避免單一 poison message 混在正常流量裡放大 retry。
endpoint 側對「Pub/Sub 重投」做 idempotency，因為 push 也是 at-least-once、500 後的重投會帶來重複。

演練五：Schema enforcement 擋下不相容 publish

徵兆：某次 producer 部署後，該 service 的 publish 開始大量回 INVALID_ARGUMENT: Could not parse message，訊息發不出去；但 consumer 端風平浪靜、沒有任何解析錯誤、backlog 也沒異常。

根因：這通常不是故障、是 schema enforcement 正常運作。producer 改了 payload 結構（加必填欄位 / 改型別 / 漏欄位），新 payload 不符 topic 綁定的 schema，broker 在 publish 路徑上擋下、訊息根本沒進 topic。徵兆出現在 producer 端（publish 失敗）而非 consumer 端（解析失敗），正是 schema 守門把問題前移到源頭的設計意圖。

判讀與修法：

先確認是「該擋」還是「誤擋」。對照 producer 的新 payload 與 topic schema：若是破壞性改版（加必填欄位 / 改型別），enforcement 擋對了 — 該回滾 producer 或先演進 schema。
用 gcloud pubsub schemas validate-message 在部署前 dry-run 校驗 payload 對 schema，把「不相容」暴露在 CI 而不是 production publish。
schema 演進走相容路徑：新增欄位帶預設或設可選、刪欄位分兩步、避免一次破壞性改版。先升 schema 再升 producer，順序反了就會出現這個徵兆。
區分 schema enforcement 失敗與 DLT：schema 擋下的訊息不進 topic、不進 DLT（DLT 隔離的是「進了 topic 但消費反覆失敗」的訊息）。兩者是交付管線的不同關卡，徵兆與修法都不同。

容量與選型邊界：標準版 vs Pub/Sub Lite

前述配置適用標準版 Pub/Sub。標準版的計費與容量模型偏向「全域路由內建、按用量計費、不需預先規劃容量」；當吞吐極高且 region 確定時，Pub/Sub Lite 的 partition-based / zonal 模型成本更低。

維度	標準版 Pub/Sub	Pub/Sub Lite
路由	全域、無 region 概念	zonal / regional、需指定
容量模型	自動擴縮、按用量計費	partition-based、預先 provision throughput
成本	高吞吐時單位成本較高	高吞吐 + 確定 region 時顯著較低
CLI surface	`gcloud pubsub topics`	`gcloud pubsub lite-topics`（獨立）
適用	全域分發、彈性流量、不想管容量	已知高且穩定的吞吐、成本敏感、region 確定

Pub/Sub Lite 是獨立的 CLI surface（gcloud pubsub lite-topics / gcloud pubsub lite-subscriptions），不是標準版的一個 flag。選 Lite 的代價是要自己 provision partition 數與 throughput capacity（回到接近 Kafka 的容量規劃），換來的是高吞吐穩定流量下顯著更低的成本。判準是吞吐「夠高且夠穩定到值得自己管容量」— 流量彈性大、或不想管 partition 的場景仍該留在標準版。

Spotify 的 autoscaling 案例揭露 backlog 不等於 consumer healthy：下游 export 失敗時 consumer 不 ack 仍持續耗 CPU，autoscaling 把 CPU 越拉越高、反而擴出更多空轉 consumer；解法是 exponential backoff 抑制 CPU 消耗（3.C61）。容量規劃的 autoscale signal 要看「處理成功率」而非「CPU + backlog」，否則擴縮方向會反。

整合與下一步

BigQuery / Cloud Storage subscription：免 consumer 的落地路徑

標準版提供兩種「不需要自寫 consumer」的 subscription，直接把訊息落地到分析 / 儲存層：

BigQuery subscription（--bigquery-table）：訊息直接寫進 BQ table，免 Dataflow 中介，適合 streaming analytics。可搭配 --use-topic-schema 讓 BQ table schema 對齊 topic schema — schema enforcement 在這裡延伸成「落地結構也受契約約束」。
Cloud Storage subscription（--cloud-storage-bucket）：訊息批次寫成 GCS object，適合 data lake / 歸檔。

這兩種 subscription 把「event 流 → 分析 / 儲存」的常見管線收進 Pub/Sub 配置，省掉一層自管 consumer。它們仍受同一套 ackDeadline / DLT 骨架管轄。

Cross-link

上游 vendor 頁：Google Cloud Pub/Sub overview — 選型層、跟 Kafka / SQS 取捨
契約與重播邊界：3.7 Event Contract 與 Replay Boundary — schema / idempotency key / replay window 先於 broker 選型
知識卡：Event Schema Compatibility（schema enforcement 守的契約等級）、Poison-Message Quarantine（DLT 的隔離機制）
對應 case：3.C64 Mercari Item Feed DLT、3.C65 Mercari LINE flow control、3.C61 Spotify autoscaling、3.C63 Mercari actionable history
方法論：Vendor 深度技術文章的寫作方法論

何時 revisit

ordering key 吞吐撞上單 key 上限、且無法再細分 key：評估改用 Kafka partition 模型，或把保序成本移到 consumer 端 idempotency
高吞吐穩定流量 + 成本壓力浮現：評估標準版 → Pub/Sub Lite，接受自管 partition 容量換成本
schema 需要跨多 vendor 共用契約（同一份 event 同時進 Pub/Sub 與 Kafka）：評估把 schema source of truth 抽到 broker 外的 registry

RabbitMQ → Kafka：從『處理即承諾』到『寫入即承諾 + 可 replay』的 paradigm shift

Tue, 16 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 RabbitMQ 跟 Kafka。跟同類產品的 drop-in 或 operational 遷移不同、本篇是 paradigm shift — 兩端不是「同類 broker 的不同實作」、是 不同責任模型的 messaging system：RabbitMQ 是「處理即承諾」的 work queue、Kafka 是「寫入即承諾、可長期 replay」的 event log。

RabbitMQ → Kafka 不是把 queue 換成 topic

RabbitMQ 跟 Kafka 都被歸在「message queue」這個傘狀詞下、但兩者承擔的責任不同。RabbitMQ 的可靠性建立在 consumer 處理完才 ack、未 ack 的訊息 broker 重新投遞；訊息一旦被成功消費就從 queue 移除、broker 是「任務分派 + 重試」的中介。Kafka 的可靠性建立在 訊息寫進 partition log 就持久化、consumer 各自維護 offset；訊息在 retention 期內一直留著、broker 是「事件儲存 + 多方各自讀取」的 log。

把 RabbitMQ「migration」成 Kafka 的字面理解通常是：queue 對 topic、exchange 對 producer key、consumer 對 consumer group。這個對映在 transport 層成立、在責任層不成立。RabbitMQ 一個 message 被 ack 後就消失、Kafka 一個 message 寫進 log 後對所有 consumer group 都還在；RabbitMQ 的 routing 由 broker 端 exchange + binding 決定、Kafka 的「routing」由 producer 端 partition key 決定、broker 不做內容路由。先確認這層差異、再決定哪些 workload 值得遷。

6 維 diff dimension audit

跨 vendor 遷移前先盤點 source 跟 target 在六個維度的落差、用最大落差維度決定 playbook 結構、而不是反過來套既有模板。RabbitMQ → Kafka 的 audit 結果：

維度	落差	說明
Schema / API	中	AMQP client → Kafka client、wire protocol 全換、但都是 publish / consume 心智模型
Operational model	中	單 broker + management UI → multi-broker + KRaft / Schema Registry / Connect、運維資產變重
Abstraction/paradigm	高	work queue「處理即承諾、ack 後即刪」→ event log「寫入即承諾、offset replay」、責任模型整個不同
Number of components	低	兩端都是單一 messaging system、不是一站式拆多工具
Application change	高	consumer 要重設計（ack → offset commit）、producer 要重設計（exchange routing → partition key）
Data topology	高	exchange + queue + binding 的 routing 拓樸 → topic + partition + key 的 log 拓樸、資料分佈邏輯不同

三個維度 High：paradigm、application change、data topology。其中 paradigm 是主導維度 —— application change 跟 data topology 的落差都是 paradigm 落差的下游結果。consumer 要重寫，是因為「ack 後即刪」變成「offset 不刪」；資料拓樸要重劃，是因為「broker 路由到 queue」變成「producer 決定 partition」。

主導維度是 paradigm、對映 Type E paradigm shift 結構：先講「字面 migration 不成立」、再講適配度（什麼能遷什麼不能）、再講 application 重設計與部分 cutover、最後是長期混合架構。application change 跟 data topology 這兩個高維度不另起 playbook、而是落在 application 重設計段與故障演練段裡展開。

為什麼 paradigm 是主導、不是 application change

application change 看起來工作量最大（consumer / producer 都要改），直覺會把它當主導維度。但 application change 的方向跟難度是由 paradigm 決定的：如果只是 AMQP client 換 Kafka client、心智模型不變，那 application change 是機械式翻譯、屬於 Schema/API 維度。實際上 consumer 不只是換 SDK、是要把「處理完才 ack、失敗就 nack 重投」的設計改成「拉一批、處理、commit offset、失敗自己重試或寫 DLQ topic」—— 這是責任模型的改變，不是 API 的改變。所以主結構走 paradigm、application change 是它的展開。

什麼 workload 真該遷、什麼不該

Application 模式	RabbitMQ 適配	Kafka 適配	遷移可行性
任務分派（寄信 / 轉檔 / webhook）	強	中（overkill）	不該遷（保留 RabbitMQ）
複雜 routing（topic exchange + binding）	強	弱（broker 不做路由）	不該遷或要重新設計拓樸
RPC over messaging（request-reply）	強	弱（不適合）	不該遷
Event sourcing（多 consumer 各自 replay）	弱（ack 即刪）	強	該遷（這是 Kafka 的主場）
CDC / 跨系統事件總線	弱	強	該遷
高吞吐事件流 + 長期 retention	弱	強	該遷
同一事件要被多個獨立團隊各自消費	中（多 queue）	強（多 consumer group）	該遷

判讀的核心問題是：這個 workload 需要的是「處理一次就完成的任務」、還是「被多方各自讀取、可回放的事件」。

任務分派場景不該遷。寄信、轉檔、生成縮圖這類 workload 的本質是「有一個工人池、把任務做完就結束」、RabbitMQ 的 manual ack + prefetch + DLX 對這條路徑是貼合的設計。把它搬到 Kafka 會引入不需要的複雜度：partition 數要規劃、consumer group rebalance 要管、offset commit 時機要自己設計、而換來的 replay 能力在「任務做完就丟」的場景根本用不到。單純 work queue 不需要 Kafka 是這篇 playbook 最該先說清楚的判讀。

事件流場景該遷。當同一份事件要被 analytics pipeline、search index sync、audit log、下游微服務各自消費、而且各自進度不同、偶爾要回放過去 N 天重算 —— RabbitMQ 的「ack 後即刪」就會逼出「為每個 consumer 複製一份 queue」的反模式，這正是 Kafka 的 consumer group + retention 要解的問題。

複雜 routing 場景要重新設計、不是平移。RabbitMQ 的 topic exchange 用 order.*.created 這種 binding pattern 在 broker 端做內容路由、consumer 訂閱 binding 就收到符合的訊息。Kafka broker 不做內容路由，要嘛把路由邏輯前移到 producer（按內容決定寫哪個 topic / partition key），要嘛 consumer 端全收後自己 filter。直接平移會發現 Kafka 沒有 exchange 這個概念，routing 拓樸必須重新設計。

為什麼會考慮這個 paradigm shift

實務上從 RabbitMQ 評估遷往 Kafka 通常由三條 driver 觸發：

同一事件要 fan-out 給愈來愈多 consumer：初期一個 queue 一個 worker、後來下游團隊一個個來要「也給我一份」。RabbitMQ 要嘛加 fanout exchange + 每團隊一個 queue、要嘛 consumer 互搶。Kafka 的 consumer group 天然支援「N 個獨立團隊各自從頭讀」、這是最常見的 driver。
需要 replay 重算：下游邏輯出 bug、要重跑過去 7 天的事件修資料；RabbitMQ ack 後訊息已刪、無從回放。Kafka retention 期內可以從任意 offset 重讀。
吞吐量壓到 RabbitMQ 的設計邊界：單 queue 的 throughput 受限於單一 queue 的處理模型、量大時要拆 queue 手動分流；Kafka 的 partition 並行是 first-class。

這三條 driver 都指向 event streaming 的特性、不是「Kafka 普遍比較好」。任務隊列場景套不上這三條 driver、就不該被這個評估帶著走。

Migration 結構：application 重設計 + 部分 cutover + 長期混合

RabbitMQ → Kafka 不是一次性 cutover，是按 workload 拆分、漸進遷移、長期共存：

Phase 0：workload 盤點 — 把現有 queue / exchange 逐一分類「適合 Kafka（event 性質）」vs「保留 RabbitMQ（task 性質）」。盤點輸出是清單，不是「全遷」。
Phase 1：application code 重設計 — 對判定要遷的 workload，重寫 producer（exchange routing → topic + partition key）跟 consumer（manual ack → offset commit + 自管重試 / DLQ）。這是 paradigm 翻譯，不是 SDK 替換。
Phase 2：dual-write 並行 — producer 同時寫 RabbitMQ 跟 Kafka、新 consumer 從 Kafka shadow consume 驗證行為對齊、舊 consumer 持續從 RabbitMQ 消費。
Phase 3：cutover 個別 workload — shadow 驗證通過後、把該 workload 的真正消費切到 Kafka、停掉 RabbitMQ 端的對應 consumer 與 dual-write。
Phase 4：長期混合 — task 性質的 workload 永遠留在 RabbitMQ、event 性質的在 Kafka。兩者共存是終態、不是過渡。

整體不是「把 RabbitMQ 換成 Kafka」、是「把適合 event log 的部分搬到 Kafka、其餘留在 RabbitMQ」。多數環境的終態是兩者並存。

Application 重設計範例：manual ack → offset commit

RabbitMQ consumer 的核心是 每個 message 處理完顯式 ack、broker 才認定投遞成功；失敗就 nack、broker 重投或進 DLX。Kafka consumer 沒有 per-message ack 的概念、是 批次拉取、處理、commit offset；commit 的是「讀到哪了」、不是「哪幾條成功了」。

 1# RabbitMQ 端：manual ack、per-message 成敗
 2channel.basic_qos(prefetch_count=10)
 3
 4def on_message(ch, method, properties, body):
 5    try:
 6        process(body)
 7        ch.basic_ack(delivery_tag=method.delivery_tag)
 8    except Exception:
 9        # 拒絕並不重新入列、由 DLX 接住
10        ch.basic_nack(delivery_tag=method.delivery_tag, requeue=False)
11
12channel.basic_consume(queue="orders", on_message_callback=on_message)
13channel.start_consuming()

 1# Kafka 端：批次 poll、處理後 commit offset
 2consumer = KafkaConsumer(
 3    "orders",
 4    group_id="orders-worker",
 5    enable_auto_commit=False,        # 關掉 auto commit、自己控制時機
 6    auto_offset_reset="earliest",
 7    max_poll_records=10,             # 對應 RabbitMQ 的 prefetch
 8)
 9
10for batch in iter_batches(consumer):
11    for msg in batch:
12        try:
13            process(msg.value)
14        except Exception:
15            send_to_dlq_topic(msg)   # 自建 DLQ topic、Kafka broker 不提供 DLX
16    consumer.commit()                # commit 的是 offset、不是個別 message

差異的關鍵不在 API 形狀、在責任邊界：

RabbitMQ 一條失敗就 nack 一條、其餘正常 ack；Kafka commit 的是 offset 這個「水位線」、水位線以下視為已處理。失敗的單條訊息無法「跳過不 commit 但繼續往後」—— 要嘛阻塞、要嘛自己寫 DLQ topic 後讓 offset 照常前進。
RabbitMQ 重試由 broker 負責（重投 / DLX）；Kafka 重試要 application 自己設計（原地重試 / 寫 retry topic / 寫 DLQ topic）。
RabbitMQ prefetch 控制「broker 一次推幾條未 ack 的給我」；Kafka max.poll.records 控制「我一次 poll 拉幾條」—— 方向相反，一個是 broker push、一個是 consumer pull。

Production 故障演練

Case 1：manual ack 觀念帶到 offset commit、誤判「已處理」

徵兆：cutover 後某 worker crash 重啟、發現一批訊息被重複處理；或反過來、一批訊息明明沒處理成功卻再也讀不到。RabbitMQ 端跑了多年的 ack 邏輯搬過來就出事。

根因：把 RabbitMQ 的「per-message ack」心智直接套到 Kafka 的 offset commit。常見錯法是 enable.auto.commit=true + 預設 auto.commit.interval.ms、消費迴圈還沒處理完、背景 thread 已經把 offset commit 出去了 —— crash 後 offset 已前進、未處理的訊息永遠跳過（資料遺失）。或反過來、處理完才 commit 但 commit 失敗、重啟後從舊 offset 重讀（重複處理）。RabbitMQ 的 ack 是「這一條我處理完了」、Kafka 的 commit 是「這個 offset 之前我都讀過了」—— 後者是水位線、不是逐條確認。

修法：

關掉 auto commit、手動 commit：enable.auto.commit=false、在一批訊息確實處理完之後才 commit()。
接受 at-least-once、設計 idempotency：Kafka 的預設語意是 at-least-once、重啟重讀無法完全避免、consumer 端要用 message key + dedup store 顯式去重。對應 6.12 idempotency / replay。
commit 時機對齊處理邊界：批次處理完才 commit、不要一邊處理一邊讓背景 commit 跑在前面。

Case 2：routing key → partition key、ordering 邊界悄悄改變

徵兆：cutover 後同一個訂單的 created / paid / shipped 事件偶爾亂序到達 consumer；RabbitMQ 端用 consistent hash exchange 跑了兩年、同一訂單的事件一直是有序的。

根因：RabbitMQ 用 consistent hash exchange 把同 key 的訊息路由到同一個 queue、單一 consumer 順序處理就有序。Kafka 的 ordering 保證範圍是 單一 partition 內、跨 partition 無序。如果 producer 沒設 partition key、或設了但 key 選得不對（例如用 event type 當 key 而不是 order id）、同一訂單的事件就散到不同 partition、被不同 consumer 並行處理、ordering 就斷了。RabbitMQ 的 ordering 邊界是「queue」、Kafka 的 ordering 邊界是「partition key」—— 邊界從 broker 端的 binding 移到了 producer 端的 key 選擇。

修法：

ordering 單位當 partition key：需要保序的單位（order id / user id）設成 partition key、同 key 落同 partition。
盤點現有 RabbitMQ 的保序假設：哪些 queue 隱含「同 key 有序」、把那個 key 顯式提升為 Kafka partition key。
接受 partition 數限制並行：保序的代價是同 key 只能單一 partition、partition 數是並行上限；保序需求跟並行度需要一起設計。對應 Partition 卡。

Case 3：DLX → 自建 DLQ topic、毒訊息卡住整個 partition

徵兆：某條訊息 application 處理永遠拋例外、consumer 不斷在這條上重試、整個 partition 後面的訊息全卡住、consumer lag 暴增；RabbitMQ 端這種毒訊息會被 nack 進 DLX、不影響後面。

根因：RabbitMQ 有原生 DLX、處理失敗的訊息 nack 後自動進 dead-letter exchange、queue 繼續往下。Kafka broker 沒有 DLX 概念、也沒有「跳過這一條」的機制 —— offset 是連續水位線、要往後就得處理掉當前這條。如果 application 在毒訊息上無限重試、offset 永遠不前進、後面所有訊息餓死。把 RabbitMQ「broker 幫我處理毒訊息」的假設帶過來、就會卡死。

修法：

自建 DLQ topic：consumer 端設重試上限、超過上限把訊息寫進專屬的 orders.DLQ topic、然後 commit offset 讓主流程前進。對應 Dead-letter queue 卡。
retry topic 分層：仿 RabbitMQ 的延遲重試、可以設 orders.retry.5s / orders.retry.1m 多層 retry topic、由獨立 consumer 延遲後重投主 topic。
DLQ 要有人看：自建 DLQ topic 不像 RabbitMQ management UI 有現成可視化、要主動監控 DLQ topic 的訊息數、否則毒訊息靜默堆積。

Case 4：prefetch → max.poll.records，poll 間隔超時觸發 rebalance

徵兆：consumer 處理一批訊息花的時間偏長、Kafka 突然判定這個 consumer 死了、觸發 rebalance、partition 被重新分配、同一批訊息被另一個 consumer 重複處理；RabbitMQ 端用 prefetch 控制併發從沒這問題。

根因：RabbitMQ prefetch 只控制「broker 一次最多推幾條未 ack 給這個 consumer」、處理多久 broker 不管。Kafka 用 max.poll.interval.ms 監控「兩次 poll 之間最多隔多久」、如果一批 max.poll.records 拉太多、處理超過 max.poll.interval.ms 還沒回來 poll、broker 認定 consumer 卡死、踢出 group 觸發 rebalance。把 prefetch 的數值直接套成 max.poll.records、又沒考慮單批處理時間、就會超時。

修法：

max.poll.records 配合單條處理時間設：一批的總處理時間要明顯小於 max.poll.interval.ms；處理慢就把 batch 設小。
長處理 workload 調大 max.poll.interval.ms：單條本來就慢（呼叫外部 API）的、把 interval 放寬、或把處理移到另一個 thread pool、poll 迴圈只負責拉取。
理解 push vs pull 的差異：RabbitMQ 是 broker push、consumer 慢只是堆積；Kafka 是 consumer pull、consumer 慢會被誤判為死亡。這層差異是 prefetch 跟 max.poll.records 不能直接對映的根因。對應 Consumer group 卡。

Case 5：RabbitMQ 即刪 vs Kafka retention、replay 行為差異炸出資料量

徵兆：團隊以為 Kafka「跟 RabbitMQ 一樣處理完就沒了」、結果 disk 持續長大；或反過來、需要 replay 時才發現 retention 設太短、要回放的事件已經被清掉。RabbitMQ 心智下「訊息消費完就不佔空間」的假設不成立。

根因：RabbitMQ ack 後訊息即刪、queue 的空間隨消費釋放。Kafka 寫進 log 後在 retention 期內一直留著、不管有沒有被消費 —— 這正是 replay 能力的來源、也是 disk 成本的來源。沒設好 retention，要嘛留太久 disk 爆、要嘛留太短該 replay 時沒得 replay。RabbitMQ 沒有「retention」這個旋鈕（它是 ack 即刪），Kafka 必須顯式設 retention policy。

修法：

按 replay 需求設 retention：event sourcing 要回放幾天就設幾天的 retention.ms、不是抄 RabbitMQ 的「處理完即刪」心智。
算清 retention 的 disk 成本：retention × 寫入速率 = 佔用空間、納入容量規劃；對比 RabbitMQ 只佔「未消費」的量、Kafka 佔「retention 期內全部」的量。
compact topic 給狀態類資料：如果只需要「每個 key 最新值」（像 RabbitMQ 不存在的場景）、用 cleanup.policy=compact 而非 time-based delete、避免無限長大。對應 Topic 卡的 retention policy。

漸進 cutover：dual-write 與 shadow consume

paradigm shift 不能一次切換、因為 consumer 行為（offset 語意、ordering、DLQ、重試）全變了、需要在真實流量下驗證新 consumer 跟舊 consumer 結果一致才敢切。漸進 cutover 用兩個機制：

dual-write：producer 同時往 RabbitMQ 跟 Kafka 寫同一份事件。RabbitMQ 端維持舊 consumer 正常生產、Kafka 端讓新 consumer 接收。dual-write 期間 RabbitMQ 仍是 source of truth、Kafka 只是並行驗證。要處理的細節是雙寫的一致性 —— 寫了 RabbitMQ 但 Kafka 寫失敗時怎麼辦、實務上通常容忍 Kafka 端短期缺漏（因為還沒切過去）、但要監控雙端的訊息數落差。

shadow consume：新的 Kafka consumer 跑完整處理邏輯、但 side effect 導到影子環境（寫影子 DB、不發真實 webhook、不寄真實信）。把 Kafka consumer 的處理結果跟 RabbitMQ consumer 的真實結果比對、確認 ordering、去重、DLQ 行為都對齊。shadow 期是 paradigm 翻譯正確性的驗證窗口、不是效能測試。

cutover 是 per-workload 的：某個 workload shadow 驗證通過、就把它的真實消費切到 Kafka、停掉該 workload 的 RabbitMQ consumer 與 dual-write；其他 workload 維持原狀繼續驗證。不是全站一次切。

Capacity / cost 對照

維度	RabbitMQ（self-managed）	Kafka（self-managed）
Cluster baseline	1-3 node（含 management plugin）	3-5 broker + KRaft controller
RAM / node baseline	4-16GB	16-64GB
Storage 模型	未消費訊息量（ack 即刪）	retention 期內全部訊息（與消費無關）
Operational FTE	0.2-0.5 FTE	0.5-2 FTE
額外運維元件	通常無	Schema Registry / Connect / 監控 lag
Throughput / node	數萬到數十萬 msg/s	100K-1M+ msg/s
Replay 能力	無（ack 即刪）	retention 期內任意 offset
複雜 routing	強（exchange + binding）	弱（producer 端決定、broker 不路由）
學習與運維成本	低	高（partition / offset / rebalance 都要懂）

判讀：純 work queue 場景 RabbitMQ 的運維成本顯著低、Kafka 的 storage 跟運維是為了 replay 與高吞吐付的價。如果 workload 用不到 replay 跟跨 consumer group fan-out、遷到 Kafka 是用更高的成本換用不到的能力。

整合 / 下一步

混合架構是 long-term default

多數環境的終態是 RabbitMQ 與 Kafka 共存、各管各的責任：

1[task 分派：寄信 / 轉檔 / webhook]        [event log：CDC / 事件總線 / replay]
2         RabbitMQ                                    Kafka
3         │                                            │
4         └──────── Bridge（Connect source / 自寫）────┘

RabbitMQ 跑「處理即承諾」的任務隊列、Kafka 跑「寫入即承諾」的事件流。需要從任務流產生事件記錄時、用 Kafka Connect 的 RabbitMQ source connector 或自寫 bridge 把選定的訊息搬到 Kafka topic。

跟 outbox pattern 對位

從 RabbitMQ 遷往 Kafka 常伴隨 資料庫交易與事件發布一致性 的需求 —— 因為 event sourcing 場景要求事件不能丟。直接在交易中寫 Kafka 有雙寫一致性問題、應該走 3.3 outbox pattern：交易內只寫 outbox 表、再由 Debezium CDC 把 outbox 變更發到 Kafka topic。

跟其他 migration 結構的對照

篇	Schema 差	Operational 差	Paradigm 差	結構
Kafka ↔ NATS	中	中	高	partial + 混合
RabbitMQ → Kafka（本篇）	中	中	高	partial + 混合

兩篇都是 paradigm shift、都是 partial migration + 長期混合。差別在落差的方向：Kafka ↔ NATS 是 log vs subject messaging 的抽象層差異、RabbitMQ → Kafka 是 work queue vs event log 的責任模型差異 —— 後者的核心翻譯是「處理即承諾」如何重新表達成「寫入即承諾 + offset replay」。

RabbitMQ DLQ 與分層 retry：別把失敗訊息 requeue 回隊首

Tue, 16 Jun 2026 00:00:00 +0000

本文是 RabbitMQ overview 的 implementation-layer deep article。選型層（RabbitMQ vs Kafka / SQS、何時選 RabbitMQ）見 overview；本文只處理「決定用 RabbitMQ 後，失敗訊息怎麼 retry 才不會卡死隊列」。DLX 拓樸實機驗證於 rabbitmq:3-management、最後檢查日 2026-06-16；機制以 RabbitMQ DLX 官方文件為準。

失敗訊息 requeue 回隊首，會卡住整條隊列

消費一則訊息失敗了——下游 API 超時、資料還沒就緒、暫時性錯誤。最直覺的處理是 nack 加 requeue=true，讓它重新排隊再試一次。問題是 RabbitMQ 的 requeue 把訊息放回原隊列的隊首，於是它立刻又被同一個 consumer 取出、再次失敗、再 requeue……在「下游還沒恢復」的那段時間裡，這則訊息反覆佔據隊首，後面所有正常訊息全被卡住。這就是 head-of-line blocking：一則毒訊息（poison message）拖垮整條隊列。

Indeed 每天處理 35M+ 職缺訊息，原本的架構正是把失敗訊息 requeue 回隊首，造成阻塞。他們的解法是設計 Requeue → Delay queue → Dead Letter Queue 三層 escalation：retry 幾次後讓訊息進延遲隊列（隔一段時間再試）、再失敗幾次才進 DLQ（停止重試、留待人工或專門處理）。這個案例揭露的核心原則是——retry 策略要跟隊列拓樸一起設計，不是純 client 端的 backoff。

本文展開 RabbitMQ 實現這套分層 retry 的機制（dead-letter exchange + TTL）、實機驗證的拓樸、以及把它寫成事故的踩坑。

核心概念：dead-letter exchange 的求值模型

RabbitMQ 的失敗訊息處理建立在 dead-letter exchange（DLX）上。理解它要抓住「訊息在什麼條件下被 dead-letter、去哪裡」。

訊息在三種情況被 dead-letter。一則訊息會從它所在的隊列被轉送到該隊列設定的 DLX：(1) 被 consumer nack / reject 且 requeue=false；(2) 訊息 TTL 到期（x-message-ttl 或 per-message expiration）；(3) 隊列達到長度上限（x-max-length）被擠掉。這三種 reason 會記在訊息的 x-death header 裡。

DLX 是隊列的屬性、不是訊息的。在宣告隊列時用 x-dead-letter-exchange 指定這個隊列的「死信要送去哪個 exchange」，搭配 x-dead-letter-routing-key 指定送過去時用什麼 routing key。死信被當成一則新訊息發布到那個 exchange，再依綁定路由到 DLQ。

TTL + DLX 組出「延遲隊列」。RabbitMQ 沒有原生的延遲投遞，但可以用「一個沒有 consumer、只設 TTL + DLX 的隊列」模擬：訊息進這個隊列、躺到 TTL 到期、被 dead-letter 回工作 exchange——等於延遲了 TTL 那麼久才重新可被消費。這是分層 retry 的關鍵積木。

x-death header 累積重試歷史。每次 dead-letter，RabbitMQ 在 x-death header 追加一筆記錄（哪個隊列、什麼 reason、次數 count）。消費端讀這個 count 就能判斷「這則訊息重試幾次了」，決定要再延遲還是進 DLQ。這是實現「retry n 次後升級」的依據。

配置：work → delay → DLQ 三層拓樸

實機驗證的最小 DLX 拓樸（工作隊列的訊息 TTL 到期後 dead-letter 到 DLQ）：

 1# 宣告 DLX exchange 與 DLQ
 2rabbitmqadmin declare exchange name=dlx type=direct
 3rabbitmqadmin declare queue name=dlq
 4rabbitmqadmin declare binding source=dlx destination=dlq routing_key=app.work
 5
 6# 工作隊列：設 TTL + 指向 DLX（TTL 到期或 nack(requeue=false) 都會 dead-letter）
 7rabbitmqadmin declare queue name=app.work \
 8  arguments='{"x-message-ttl":2000,"x-dead-letter-exchange":"dlx","x-dead-letter-routing-key":"app.work"}'
 9
10# 驗證：發一則、等 2s TTL 到期、它從 app.work 搬到 dlq
11rabbitmqadmin publish routing_key=app.work payload="poison-msg"
12# 等 TTL（2s）過期後（實測等 4s 確保）：
13rabbitmqctl list_queues name messages
14# app.work   0     ← TTL 到期被搬走
15# dlq        1     ← 落到 DLQ（訊息帶 x-death header、reason=expired）

實機驗證於 rabbitmq:3-management（最後檢查日 2026-06-16）：publish 後等 TTL 過期，app.work 歸零、dlq 出現該訊息。

三層 escalation 的完整拓樸（對應 Indeed 模式）：

1app.work（主工作隊列）
2  └─ consumer nack(requeue=false) 或處理失敗
3       ↓ dead-letter 到
4app.retry（延遲隊列：x-message-ttl=30s、無 consumer、DLX 指回 app.work）
5  └─ TTL 到期
6       ↓ dead-letter 回
7app.work（再次嘗試；消費端讀 x-death count）
8  └─ 重試達上限（例如 count >= 3）→ 消費端主動 nack 到
9app.dlq（死信終點：無自動重試、人工 / 專門 consumer 處理）

判讀：

延遲時間靠 app.retry 的 TTL 控制；要指數退避就設多個不同 TTL 的 delay 隊列（30s / 5m / 1h）逐層升級
「重試幾次」由消費端讀 x-death 的 count 判斷、達上限才送終點 DLQ
DLQ 不該有自動重試的 consumer（否則又是迴圈）；它是給人看的、或給冪等的專門修復流程

Production 故障演練

Case 1：requeue 回隊首、毒訊息卡死整條隊列

徵兆：下游短暫故障期間，整條隊列的消費停滯、consumer CPU 衝高但吞吐歸零，恢復後發現大量正常訊息延遲。

根因：失敗時用 nack(requeue=true)，訊息回到隊首被立刻重取、反覆失敗，head-of-line blocking。下游故障越久，毒訊息霸佔隊首越久。

修法：

失敗一律 nack(requeue=false) 走 DLX，不要 requeue 回原隊列
用 delay 隊列（TTL + DLX）讓重試隔一段時間，給下游恢復時間
重試有上限，達上限進終點 DLQ，停止自動重試
這正是 Indeed 案例的核心教訓：retry 拓樸化，不要 requeue-to-head

Case 2：delay 隊列綁錯、retry 變無限迴圈

徵兆：某些訊息永遠在重試、x-death count 累積到幾百次，DLQ 卻一直是空的。

根因：delay 隊列的 DLX 指回工作隊列，但消費端沒有檢查 x-death count、或上限判斷寫錯，訊息在 work ↔ retry 之間無限往返、永遠到不了終點 DLQ。

修法：

消費端每次處理前讀 x-death 的 count，超過上限就主動投遞到終點 DLQ（不再走 retry）
上限判斷要涵蓋所有 retry 路徑，不要漏掉某條
監控 x-death count 分布，出現高 count 訊息代表升級邏輯漏了
終點 DLQ 絕對不要接會 nack-to-DLX 的 consumer，否則迴圈

Case 3：per-queue TTL 的隊首阻塞陷阱

徵兆：用 x-message-ttl 設隊列級 TTL 做延遲，但發現訊息沒有按預期時間 dead-letter，延遲時間忽長忽短。

根因：隊列級 TTL（x-message-ttl）只在訊息到達隊首時才檢查是否過期。如果用 per-message TTL 且不同訊息 TTL 不同，前面一則長 TTL 的訊息會擋住後面短 TTL 的——後者明明過期了卻因為不在隊首而沒被 dead-letter。

修法：

delay 隊列用統一的隊列級 TTL（同一個 delay 隊列裡所有訊息延遲時間相同），不要在同隊列混用 per-message TTL
要多種延遲時間就開多個 delay 隊列（每個固定 TTL），不要靠 per-message TTL
理解 TTL 是「到隊首才檢查」的惰性求值，不是精準定時器
需要精準排程的延遲用專門的 delay 機制（rabbitmq-delayed-message-exchange plugin），不靠 TTL 模擬

Case 4：DLX 沒綁好、死信靜默消失

徵兆：訊息明明該 dead-letter，但 DLQ 一直收不到，訊息憑空消失。

根因：DLX exchange 存在、隊列也設了 x-dead-letter-exchange，但 DLX 到 DLQ 的 binding 不存在或 routing key 對不上。死信被發布到 DLX 後沒有任何隊列接收（unroutable），直接被丟棄。

修法：

確認 DLX → DLQ 的 binding 存在且 routing key 匹配（x-dead-letter-routing-key 對上 binding key）
沒設 x-dead-letter-routing-key 時死信沿用原 routing key，binding 要對應原 key
給 DLX 設 alternate exchange 或在 DLX 上掛一個 catch-all 隊列，避免 unroutable 死信靜默消失
監控 DLX 的 unroutable / drop 指標，死信消失是嚴重的資料遺失

Case 5：DLQ 無上限成長、變成第二個問題

徵兆：DLQ 累積到幾十萬則訊息、記憶體吃緊，沒人處理。

根因：DLQ 是終點但沒有處理流程——訊息一直進、沒人消費，DLQ 變成一個越長越大的垃圾堆，最終吃光 broker 記憶體（classic queue 訊息在記憶體）。

修法：

DLQ 要有處理流程：告警 + 人工 / 自動修復 consumer（冪等地重新投遞或記錄）
DLQ 設 x-max-length 或自己的 TTL，避免無限成長（但要先確認丟棄可接受）
監控 DLQ 深度與成長速率，持續成長代表上游有系統性失敗、要根治而非堆 DLQ
quorum queue 對 DLQ 是合理選擇（持久、不純靠記憶體），見 quorum vs mirrored queue deep article

Capacity / cost 邊界

分層 retry 拓樸的容量判讀：

訊號	健康區間	警戒與動作
主隊列消費吞吐	穩定、無停滯	歸零但有積壓 → 毒訊息 head-of-line blocking
`x-death` count 分布	多數低（1-2 次成功）	高 count 訊息多 → 下游系統性故障 / 升級邏輯漏
DLQ 深度	低且有處理流程	持續成長 → 無人處理、會吃光記憶體
delay 隊列堆積	隨重試量波動、可消化	持續堆高 → 重試量超過下游恢復速度
unroutable 死信	0	> 0 → DLX binding 錯、死信靜默遺失

撞牆後的路由判斷：

重試量大、delay 隊列堆積：重試治標、下游系統性故障要根治；考慮 circuit breaker 在上游擋住而非無限重試。
需要精準延遲排程：TTL 模擬的延遲不精準（惰性求值），用 rabbitmq-delayed-message-exchange plugin。
DLQ / 隊列要持久可靠：classic queue 靠記憶體 + 鏡像，大量積壓有風險；用 quorum queue（Raft 持久）。
吞吐 / 保留需求超過 RabbitMQ：retry / replay 是 log-based broker 的強項，大規模 replay 走 Kafka（consumer 各自 offset、可重讀）。

整合 / 下一步

分層 retry 是 RabbitMQ 可靠消費的核心，它跟其他議題交織：

跟 3.2 durable queue：DLQ 要持久才不會在 broker 重啟時丟失死信。
跟 3.4 consumer design：prefetch / ack 策略決定毒訊息影響範圍，跟 retry 拓樸一起設計。
跟 6.12 idempotency / replay：retry 與 DLQ 重新投遞都要求消費冪等，否則重試造成重複副作用。
跟 quorum vs mirrored queue：DLQ 與重試隊列的持久性選 quorum queue，避開 mirrored queue 的網路成本。

Redis Streams → Kafka：從 embedded stream 長成 dedicated event streaming

Tue, 16 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 Redis Streams 跟 Kafka。對位 Kafka ↔ NATS 的 paradigm shift 模板 — 兩端不是同類產品的不同實作、是不同抽象層的系統：一個是 Redis 行程內的 append-only log data structure、一個是專用的 distributed event streaming platform。

Redis Streams 跟 Kafka 是不同抽象層的東西

Redis Streams 是 Redis 行程內的一個 data structure、Kafka 是一整套獨立的 distributed event streaming platform。這個區別決定整趟遷移的性質：要把 messaging 能力從「既有 Redis 行程的一塊記憶體」搬到「自成一格、要獨立運維的多節點叢集」，遠超過換個相容 broker 的工作量。

Redis Streams 的責任邊界是「在已經跑著的 Redis 裡多一個 append-only log」。它共用 Redis 的記憶體、持久化（AOF / RDB）、failover（Sentinel / Cluster）跟運維團隊。寫入用 XADD、消費用 XREADGROUP，consumer group 跟 pending entries list（PEL）都活在同一個 Redis 行程。它的設計取捨偏向「低延遲、低運維增量、跟 Redis 生命週期綁定」。

Kafka 的責任邊界是「成為跨系統的事件總線」。它把訊息寫成 partition 化的 log、落在獨立 broker 的磁碟、用 replication 保護、用 consumer group offset 追蹤各 consumer 進度，可長期保留並隨意 replay。它的設計取捨偏向「寫入即承諾、磁碟級長期保留、多 consumer 各自重播、水平擴展吞吐」。

維度	Redis Streams	Kafka
部署形態	Redis 行程內的 data structure	獨立 broker 叢集（3-5 broker + KRaft）
儲存後端	RAM-bound（受 `maxmemory` 限制）	Broker 本地磁碟（可加 tiered storage to S3）
拓樸單位	單一 stream key（綁單一 shard）	Topic + 多 partition（跨 broker 分布）
Retention 機制	`MAXLEN` / `MINID`、application 主動 trim	Broker 端 retention policy（time / size）
消費進度	PEL + `XACK`（broker 維護待 ack 集合）	Consumer offset commit（per partition）
失敗接管	`XCLAIM` / `XAUTOCLAIM`（手動 / 半自動）	Rebalance protocol（broker 協調自動分配）
Replay	從 entry ID 重讀（受 retention 內資料限制）	從任意 offset 重讀（受磁碟 retention 限制）
延遲	亞毫秒（記憶體操作）	5-50ms
運維增量	近乎零（沿用 Redis）	顯著（多養一套叢集 + schema / connect 生態）

關鍵在「拓樸單位」這列。Redis Streams 的一個 stream key 只能落在單一 shard、沒有 partition 概念，吞吐與資料量受單 shard 的記憶體與單執行緒處理能力封頂。Kafka 的 topic 天然切成多 partition、分散到多 broker，這是兩者在規模上的分水嶺，也是後面所有對位與故障演練的根。

先確認是不是真的該遷：多數中小規模不該遷

決定遷移前先做反向確認：在中小規模、且團隊已熟 Redis 的情境，Redis Streams 往往已經夠用，把它換成 Kafka 多半是引入運維負擔而非解決問題。遷移的正當理由來自規模或保留需求真的超出 Redis Streams 的能力邊界，而不是 Kafka 更主流。

Arcjet 的方向恰好相反、值得當反向參照。Arcjet 的 security / bot detection 平台需要低延遲請求處理，原本評估 Kafka，發現 managed Kafka 要六位數美元年費、自管運維難度也高；他們把既有的 Redis cache 層升級成 Streams，總成本掉到約一千美元年費。代價是 Redis Streams 沒有自動 retention，他們自寫一個 Janitor process，依約每分鐘一百則的實際處理速度監測 stream 長度跟 consumer group 狀態、selectively trim。

Arcjet 的判讀對遷移方向的啟示：當 workload 是低延遲、資料量留在記憶體可承受的範圍、團隊本來就在跑 Redis，Redis Streams 是務實且便宜的選擇；願意自寫 retention 工具就能補上它缺的治理能力。這條路成立時，遷去 Kafka 是用六位數年費跟一整套叢集運維，去換一個現有方案已能覆蓋的需求。

Bitso 是另一個 Redis Streams 站得住的高壓案例。Bitso 的撮合引擎微服務要扛每秒上千則訊息、亞毫秒延遲、撐住 BTC 價格暴動的尖峰；他們先後評估 Kafka（延遲不符）跟 SQS（vendor lock-in + 延遲）後選 Redis Streams，自建一層 Reliable Streams 抽象封裝 PEL + retry + DLQ，走 idempotent processing 接受重複勝過遺失。Bitso 揭露 Redis Streams 是「資料結構」而非「broker 系統」，可靠性責任在 application 層；但在亞毫秒延遲是硬指標的撮合場景，這個取捨反而讓 Redis Streams 勝過 Kafka。

兩個案例共同點：當延遲是硬指標、資料量在 RAM 可承受範圍、團隊能自建缺的治理層，Redis Streams 就站得住。遷去 Kafka 的決策該建立在這些前提不再成立之上，而不是建立在 Kafka 更有名之上。

真正該遷的訊號

決定遷移的依據是 Redis Streams 的三個能力邊界被實際 workload 突破：retention 需求超出 RAM 的成本曲線、需要長期 replay、consumer group 或 partition 規模超出單一 Redis 行程。三個訊號中任一個被觸發、且自建工具補不回來時，遷去 Kafka 才划算。

第一個訊號是 retention 超出 RAM 的成本翻轉。Redis Streams 的資料活在記憶體，保留越久、stream 越長、佔的 RAM 越多，而 RAM 是 Redis 叢集裡最貴的資源。當 retention 需求從「幾小時的緩衝」長到「數天到數週的事件保留」，把這些資料留在 RAM 的成本會快速超過 Kafka 把同樣資料留在 broker 磁碟（甚至 tiered storage 到 S3）的成本。Learning.com 退場案例就是這條線被突破的反例 — 把 Redis 當長期事件儲存（Stream 是其中一塊），事件量每週以 GB 成長、AOF fsync 與 EBS I/O 變成 latency 痛點，最終退回 PostgreSQL。成本曲線翻轉是最常見、也最該觸發遷移的訊號。

第二個訊號是需要長期 replay。事件溯源（event sourcing）或合規稽核場景，需要保留並重播數週、數月甚至數年的歷史事件。Redis Streams 的 replay 只能重讀 retention 內還在的資料，而 retention 受 RAM 限制無法拉得很長；Kafka 的磁碟保留加 tiered storage 讓長期 replay 變成 first-class 能力。當 replay 視窗的需求超出 RAM 能承受的 retention，這個訊號成立。

第三個訊號是 consumer group 或 partition 規模超出單一 Redis。Redis Streams 的單一 stream key 綁在單一 shard，吞吐受單 shard 封頂、沒有 partition 可以水平拆分並行度；要跨 shard 只能手動用 hash tag 切成多個獨立 stream，application 自己路由。當單一邏輯 stream 的吞吐需求、或 consumer 並行度需求超過單 shard 能給的，且手動切 stream 的複雜度已經失控，Kafka 的原生 partition 才值得換。

這三個訊號之外，還有一個放大條件：是否需要 Kafka 生態（Schema Registry、Connect / Debezium CDC、Streams 流處理）。如果遷移同時要接上 CDC pipeline 或 schema 強制治理，那 Kafka 帶來的不只是 retention 跟 partition、而是整套生態，這會讓遷移的價值天平更傾向 Kafka。但若只是想要更長 retention、生態用不到，先評估 Redis tiered 方案或自建 Janitor 是否更便宜。

概念對位：XADD/XREADGROUP/XACK/MAXLEN/XCLAIM

遷移的核心工作是把 Redis Streams 的五個核心操作對應到 Kafka 的等價概念、並理解每個對位背後語意的偏移，這比換 SDK 重得多。直接照字面搬會在 retention、消費進度、失敗接管三處踩雷，這三處正是後面故障演練的來源。

Redis Streams 操作	Kafka 等價	語意偏移
`XADD stream * field val`	`producer.send(topic, key, val)`	Kafka 用 key 決定 partition、Redis 單 stream 無 partition
`XREADGROUP GROUP g c`	consumer group + `poll()`	Kafka rebalance 自動分配 partition、Redis 要手動 `XCLAIM`
`XACK stream g id`	offset commit	PEL 是逐則待 ack 集合、offset 是單調位移、語意不同
`MAXLEN` / `MINID` / `XTRIM`	retention policy（time / size）	application 主動 trim → broker 端被動 retention
`XCLAIM` / `XAUTOCLAIM`	rebalance protocol	手動 / 半自動接管 → broker 協調自動 reassign

XADD 對 producer.send 的最大偏移是 partition key。Redis 的單一 stream key 沒有 partition，所有 entry 都在同一條序列上嚴格有序；Kafka 把訊息依 key 雜湊分到不同 partition，只有同一 partition 內保證有序。遷移時要決定哪個欄位當 partition key、這個決定同時決定了 ordering 的範圍跟 hot partition 的風險。

XREADGROUP 對 consumer group 的偏移在 rebalance。Redis consumer group 沒有自動 rebalance，consumer 掛掉後它名下未 ack 的訊息留在 PEL，要靠其他 consumer 主動 XCLAIM 接管；Kafka 的 consumer group 有 rebalance protocol，consumer 加入或離開時 broker 自動把 partition 重新分配。從手動接管搬到自動 rebalance，application 端負責接管的那段邏輯可以刪掉、但要改成理解 rebalance 行為。

XACK 對 offset commit 是最容易誤用的一處，獨立成下一節的故障演練。MAXLEN 對 retention policy 是成本模型翻轉的核心，也獨立成故障演練。

Production 故障演練

Case 1：Retention 模型從 RAM 限制翻成 log 成本，磁碟與成本失準

徵兆：團隊把 Redis Streams 的 MAXLEN 100000（保留最近十萬則、控制 RAM）習慣直接對映成 Kafka 的某個數字，結果 cutover 後不是 broker 磁碟暴漲超出預期、就是資料保留遠短於業務需要、replay 視窗對不上。

根因：Redis Streams 的 MAXLEN 是 application 在每次 XADD 主動修剪的「條數上限」，目的是壓住 RAM 佔用，是一個 count-based 的記憶體預算旋鈕。Kafka 的 retention 是 broker 端被動執行的 policy、預設是 time-based（retention.ms）或 size-based（retention.bytes），目的是控制磁碟保留窗，而磁碟比 RAM 便宜一到兩個數量級。兩者的單位、執行主體、成本曲線都不同 — 把「保留十萬則以省 RAM」直接搬成 Kafka 設定，會錯估磁碟用量，也會把 Redis 時代「為了省 RAM 而被迫短保留」的限制錯誤地帶進一個本來就能長保留的系統。

修法：

從業務需求重算 retention、不沿用 Redis 的 RAM 預算：Redis 的 MAXLEN 數字是 RAM 成本的妥協、不是業務的真實保留需求；遷移時回到「業務需要 replay 多久」重新算 retention.ms，這正是遷移要解鎖的能力。
改用 time-based 為主、size-based 當保險絲：Kafka 設 retention.ms 對齊業務 replay 窗、再設 retention.bytes 防單 partition 磁碟失控。
長保留接 tiered storage：retention 需求拉到數週數月時，把冷資料分層到 S3、熱資料留本地磁碟，成本曲線進一步壓平，而這在 Redis 的 RAM 模型下做不到。

Case 2：PEL 觀念被帶進 offset，造成重複或漏消費

徵兆：遷移後 consumer 出現「明明處理過的訊息又被重新消費」或「某些訊息整批沒被處理」；團隊照 Redis 時代「逐則 XACK」的心智模型管理 Kafka offset commit，結果對不上。

根因：PEL 跟 offset 是兩個不同的進度模型。Redis Streams 的 PEL 是 broker 維護的「逐則待 ack 集合」，每則訊息獨立追蹤是否已 ack，consumer 可以亂序 ack 某幾則、其他留在 PEL；XACK 是針對特定 entry ID 的點狀確認。Kafka 的 offset 是 per partition 的單調位移、代表「這個位置之前都算消費完」，commit offset N 意味著 0 到 N-1 全部視為已處理。把 PEL 的逐則語意套到 offset 上會出兩種錯：一是處理完亂序的訊息後 commit 了較大的 offset，中間沒處理完的訊息被當成已消費而漏掉；二是 commit 時機錯置（auto-commit 在處理前就 commit），crash 後從錯誤位置重讀造成重複。

修法：

理解 offset 是區間承諾、不是逐則確認：commit offset 前確保該 offset 之前的訊息都已處理完、不要對亂序處理的批次 commit 最大 offset。
關 auto-commit、改 manual commit 在處理之後：enable.auto.commit=false，處理完一批再 commit，對齊 at-least-once。
保留 application 端 idempotency：這點從 Redis 時代就該有、遷到 Kafka 仍成立 — at-least-once 下重複難免，用 message ID + dedup store 顯式去重，對位 idempotency 卡跟 Bitso 的 idempotent processing。

Case 3：單 stream key 換成多 partition，ordering 假設破裂

徵兆：遷移前所有事件在單一 Redis stream 上嚴格有序、downstream 依賴這個順序（例如同一筆訂單的 created → paid → shipped）；切到 Kafka 多 partition 後，同一筆訂單的事件被分到不同 partition、處理順序錯亂。

根因：Redis Streams 的單一 stream key 綁單一 shard、所有 entry 在一條序列上全域有序，application 不需要思考 ordering 範圍就免費得到全序。Kafka 把 topic 切成多 partition 來換取水平吞吐，代價是只保證 同一 partition 內 有序、partition 之間無序。遷移時若沒指定 partition key、訊息會被 round-robin 或依預設雜湊散開，同一個業務實體（訂單、帳戶、裝置）的事件落到不同 partition，全序假設就破了。

修法：

用業務實體當 partition key：把需要保序的實體 ID（訂單 ID、帳戶 ID）當 Kafka message key，同 key 雜湊到同 partition、partition 內保序，把「全域有序」收斂成「per-entity 有序」這個多數業務真正需要的粒度。
辨識哪些流真的需要全序：若某條流真的需要全域嚴格有序且無法拆成 per-entity，設單 partition topic（犧牲該 topic 的水平吞吐）；這也是個訊號 — 若大量流都需要全序，遷 Kafka 的吞吐優勢用不上、該重新評估遷移。
規劃 partition 數對齊並行度跟 hot key：partition 數決定 consumer 並行上限，同時注意熱門 key 造成的 hot partition，對位 Kafka topic 設計的 key 策略段。

Case 4：Redis 既有低延遲被 Kafka 吞吐換掉，延遲敏感路徑受傷

徵兆：遷移後某些原本靠 Redis Streams 亞毫秒延遲的路徑（即時風控判斷、撮合前置）延遲跳到數十毫秒，下游 SLA 破線。

根因：Redis Streams 的亞毫秒延遲來自記憶體操作 + 行程內 data structure；Kafka 為了長期保留跟高吞吐，訊息要落磁碟、過 replication、走網路到獨立 broker，單則訊息延遲落在 5-50ms 區間，這是它換吞吐跟持久性付出的代價。把延遲敏感路徑無差別搬上 Kafka，等於用一個為吞吐優化的系統去服務一個為延遲優化的需求。

修法：

按延遲需求分流、不要全遷：把延遲敏感的即時路徑留在 Redis Streams（或 Redis 其他結構）、把需要長保留 / 高吞吐 / replay 的事件流遷到 Kafka，這正是 Bitso 在撮合場景堅持 Redis Streams 的理由。
接受混合架構是常態：Redis Streams 跟 Kafka 共存、各自服務適配的 workload，不追求「全部統一到 Kafka」；對位 Kafka ↔ NATS 的混合架構是 long-term default 思路。
若 Kafka 延遲必須壓低：調 producer linger.ms=0 + acks=1、consumer fetch.min.bytes=1 換取較低延遲，但這會犧牲吞吐與部分可靠性、是 trade-off 不是免費午餐。

Migration 結構：漸進 cutover + 長期混合

這趟遷移的結構是漸進拆分而非一次性切換：先按 workload 性質分流、再對需要遷的事件流做 dual-write 並行、逐流 cutover、最終留下 Redis Streams 跟 Kafka 共存的混合架構。一次性把所有 stream 搬上 Kafka 既無必要、也會把延遲敏感路徑拖下水。

Phase 0：scope 分流 — 對每條 stream 跑前面三個訊號的判讀，分成「該遷 Kafka」（retention / replay / 規模超界）跟「留 Redis Streams」（延遲敏感 / 規模在範圍內）兩類。這一步直接決定後續工作量、也避免無差別遷移。
Phase 1：Kafka 叢集與 topic 設計 — 建 broker 叢集、依 Case 3 的 partition key 設計建 topic、依 Case 1 的業務需求設 retention，這時做的是基礎設施準備、還沒碰流量。
Phase 2：dual-write 並行 — producer 同時寫 Redis Streams 跟 Kafka、新 consumer 接 Kafka 驗證正確性、舊 consumer 持續吃 Redis Streams，這是可逆階段、出問題退回只讀 Redis 即可。
Phase 3：逐流 cutover — 逐條 stream 把流量切到 Kafka、確認 consumer 進度（offset）跟 idempotency 都對、再停掉該 stream 的 Redis 端寫入；cutover 以 stream 為單位、不是整批。
Phase 4：長期混合 — 留在 Redis Streams 的延遲敏感流跟遷到 Kafka 的事件流共存、各自運維；需要時用 bridge（消費 Redis Streams 寫入 Kafka、或反向）同步必要資料。

dual-write 階段的可逆性是這個結構的安全邊界：在 Phase 2 之前一切可退回純 Redis、Phase 3 逐流 cutover 把不可逆動作（停 Redis 寫入）切到最小粒度，單條 stream 出問題不影響其他流。

Capacity / cost 對照

維度	Redis Streams（既有 Redis 內）	Kafka（self-managed）
部署增量	近乎零（沿用 Redis 行程）	3-5 broker + KRaft、獨立叢集
儲存成本曲線	RAM-bound（最貴的資源）	磁碟為主（便宜 1-2 數量級）+ tiered to S3
Retention 上限	受 `maxmemory` 限制、實務數小時到數天	數週到數月（磁碟）、數年（tiered storage）
吞吐 / 單邏輯 stream	受單 shard 封頂	多 partition 水平擴展
延遲	亞毫秒	5-50ms
運維 FTE 增量	近乎零	0.5-2 FTE（含 schema / connect 生態）
Replay 能力	retention 內重讀（受 RAM 限制）	任意 offset 重讀（受磁碟 retention 限制）
生態	Redis 工具鏈	Schema Registry / Connect / Streams

判讀：成本的核心翻轉在「儲存成本曲線」這列。Redis Streams 把資料壓在最貴的 RAM、retention 越長越貴，所以實務上被迫短保留；Kafka 把資料攤到便宜的磁碟、再分層到 S3，讓長保留變得可負擔。但這個翻轉只在「retention 需求真的長」時成立 — 若 retention 只需數小時、資料量小，Redis Streams 沒有獨立叢集跟 0.5-2 FTE 的運維增量，總成本反而低，這正是 Arcjet 的處境。遷移划不划算取決於 retention 跟規模需求落在這條曲線的哪一段。

整合 / 下一步

混合架構是常見終態

多數從 Redis Streams 起步、因規模長出 Kafka 需求的系統，終態是兩者共存而非取代：

1[延遲敏感即時路徑]                    [長保留 / replay / 高吞吐事件流]
2   Redis Streams                              Kafka
3        │                                       │
4        └──────────── Bridge（雙向同步）────────┘

Redis Streams 服務亞毫秒延遲的即時路徑（風控、撮合前置）、Kafka 服務需要長保留與 replay 的事件流；需要打通時寫一段 bridge 同步必要 stream。這跟 Kafka ↔ NATS 的混合架構是 long-term default 是同一個 paradigm shift 結論的兩個實例。

接上 Kafka 生態

遷到 Kafka 後可解鎖 Redis Streams 沒有的生態能力：

Schema 治理：用 Schema Registry 強制 producer / consumer 契約，補上 Redis Streams 缺的 schema enforcement（對位 Bitso 自建抽象層的紀律性責任）。
CDC pipeline：接 Debezium 把資料庫變更流進 Kafka topic，做事件溯源主軸。
長期 replay：tiered storage 把冷事件分層到 S3、支援數年 replay。

反向確認的 tripwire

遷移後若觀察到：延遲敏感路徑 SLA 破線、Kafka 叢集運維成本超出省下的 RAM 成本、實際 retention 需求遠短於規劃 — 這些是「該遷的訊號其實不成立」的回溯訊號，應重新評估該 stream 是否該退回 Redis Streams，對位 Arcjet 的成本判讀。

Kafka ↔ NATS：不是 migration、是 messaging paradigm 重設計

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 Kafka 跟 NATS。跟前四篇 migration（schema 差 / drop-in / operational redesign / multi-tool 拆分）對照、本篇是 paradigm shift — 兩端不是「同類產品的不同實作」、是 不同抽象層的 messaging system。

「Kafka → NATS migration」字面上不成立

前面四篇 migration 都隱含一個前提：source 跟 target 是 同類產品、只是不同實作或 deployment 模型。「Kafka → NATS」字面上看起來也是 messaging migration、但實際上：

維度	Kafka	NATS Core	NATS JetStream
Core abstraction	Distributed log（partition + offset）	Pub/Sub subject（fire-and-forget）	Stream（subject group + retention）
Message persistence	Default persistent（log retention）	不持久化（subscriber 缺席 = lost）	持久化（K/V backend / file）
Delivery semantic	At-least-once / exactly-once（事務）	At-most-once	At-least-once / exactly-once
Consumer model	Consumer group + offset	Subscriber + subject pattern	Durable consumer + pull / push
Ordering	Per partition strict	無 ordering guarantee	Per stream / per consumer
Replay	隨意 from offset	無	from sequence number
Throughput	高（M msg/s）	極高（10M+ msg/s）	中（100K-1M msg/s）
Latency	5-50ms	< 1ms	5-20ms

Kafka 跟 NATS Core 是 不同類產品 — 一個是 durable event log、一個是 transient pub/sub。「migration」需要先決定 target 是 NATS Core 還是 JetStream、然後判斷 application 模式能否重設計 對應。

什麼情境真的能換、什麼不能

Application 模式	Kafka 適配度	NATS Core 適配	NATS JetStream 適配	「migration」可行性
Event sourcing（replay 過去事件）	強	不可（無 replay）	中（JetStream replay）	部分（移到 JetStream）
Microservice async messaging	強	強	強	高
Real-time pub/sub（低延遲、可丟）	中	強	中	高（移到 Core）
跨 service 命令 / RPC	弱（不適合）	強（request-reply）	弱	不需要遷
大量 log / metric / event collection	強	弱	中	低（保留 Kafka）
Multi-tenant message bus	中	強	強	高
Strict ordering + transactional	強	不可	中（per stream）	部分（部分功能犧牲）
5+ 年歷史 retention	強	不可	中（retention 設長）	部分

判讀：

Microservice async messaging + 低延遲需求 → NATS Core 更合適、是 真正的 migration
Event sourcing + replay → JetStream 部分對等、但 partition / offset 觀念變了
Log collection / event streaming → 不該遷、保留 Kafka

為什麼會考慮這個 paradigm shift

實務上觸發評估 NATS 通常三條 driver：

Cost + operational complexity：Kafka cluster + ZooKeeper（或 KRaft）+ Schema Registry + Connect 是重資產、3-5 broker + ops 1+ FTE；NATS 單 binary、無依賴、輕量
Latency 要求 < 1ms：Kafka 對單 message latency 不是 SLA、NATS Core 是
Multi-tenant / multi-region 簡化：NATS 內建 account + leaf node 拓樸、跨 region 是 first-class

但這三條 driver 都 只在特定 application 模式有效。不是普世 better、是 某類 workload 適合。

Migration 結構：application 重設計 + 部分 stream cutover

跟前面四篇 migration 結構都不同、Kafka ↔ NATS 是混合：

Phase 0：scope 判讀 — 列 application、區分「適合 NATS」vs「保留 Kafka」
Phase 1：application code 重設計 — 不是 SDK 換、是 messaging pattern 改（event sourcing → message bus / consumer group → durable consumer）
Phase 2：部分 stream parallel run — 新 application 走 NATS、舊 application 持續 Kafka
Phase 3：cutover 適合的 stream
Phase 4：長期混合架構 — Kafka 跟 NATS 共存、不消滅一邊

整體不是 一次 migration、是 漸進拆分。多數 production 環境永遠是混合架構。

Application 重設計範例：consumer group → durable consumer

 1// Kafka 端 consumer group pattern
 2consumer := kafka.NewConsumer(&kafka.ConfigMap{
 3    "bootstrap.servers": "kafka:9092",
 4    "group.id":          "myapp-orders",
 5    "auto.offset.reset": "earliest",
 6})
 7consumer.SubscribeTopics([]string{"orders"}, nil)
 8
 9for {
10    msg, err := consumer.ReadMessage(-1)
11    // process msg.Value
12    consumer.CommitMessage(msg)
13}

 1// NATS JetStream durable consumer
 2js, _ := nc.JetStream()
 3sub, _ := js.PullSubscribe("orders.>", "myapp-orders",
 4    nats.AckExplicit(),
 5    nats.MaxAckPending(100),
 6)
 7
 8for {
 9    msgs, _ := sub.Fetch(10, nats.MaxWait(5*time.Second))
10    for _, msg := range msgs {
11        // process msg.Data
12        msg.Ack()
13    }
14}

差異：

Kafka auto.offset.reset → NATS DeliverPolicy（多種選項）
Kafka commit message → NATS explicit Ack（per message）
Kafka partition → NATS subject hierarchy（orders.> 通配）
Kafka rebalance → NATS 不需要、durable consumer 跨 instance 共享

Application 邏輯改動 30-60%、不是 SDK 換。

Production 故障演練

Case 1：Consumer offset 觀念差，replay 不對等

徵兆：application 設計「跑歷史 7 天事件 catch-up」、Kafka 設 auto.offset.reset=earliest + seek_to(timestamp) 跑；換 NATS JetStream 後找不到 seek_to 等價 API、catch-up 失敗。

根因：Kafka offset 是 broker-side 維護 + consumer-side commit；NATS JetStream 用 sequence number + DeliverPolicy.ByStartTime、但 time-based seek 精度低、且 application code 必須改。

修法：

預先設計：NATS JetStream 用 DeliverPolicy.ByStartSequence + 自管 sequence-time mapping
保留 Kafka 給 replay-heavy use case：不是所有 application 都遷
混合架構：歷史 replay 走 Kafka、新事件流走 NATS、application 處理雙來源

Case 2：Retention model 差異、磁碟使用炸

徵兆：NATS JetStream stream 設 retention=interest（subscriber 收到就刪）、cutover 後 disk 持續長大；預期跟 Kafka log retention 7 天類似、實際資料留 30+ 天沒清。

根因：NATS JetStream retention 有 3 種：limits / interest / workqueue。interest 是 至少一個 subscriber 還沒 ack 就保留；application 端 silent consumer（已下線但沒 unsubscribe）讓 message 永留。

修法：

預設 retention=limits：用 MaxAge / MaxBytes 跟 Kafka log retention 對應、明確控制
interest retention 慎用：只在 確認所有 subscriber lifecycle 受控 場景
Subscriber cleanup：application graceful shutdown 必須主動 unsubscribe、不留 zombie consumer

Case 3：Exactly-once 假設不對等

徵兆：cutover 後發現某 application（payment processor）開始出現 duplicate transaction；Kafka 端用 transactional producer + idempotent consumer 跑了 2 年沒問題。

根因：Kafka exactly-once 是 producer transaction + consumer offset commit atomic；NATS JetStream exactly-once 概念不一樣 — 是 publish ack + consumer ack 跨層 atomic、application 端要主動處理 idempotency。

修法：

重新審視 application 端 idempotency：用 message ID + dedup store（Redis SETEX）顯式 dedup
NATS JetStream 對 exactly-once 不該假設「自動」：application 端責任、不是 broker 端
Payment / financial 場景慎遷：保留 Kafka transactional pattern 較穩

Case 4：Schema registry 缺位、ad-hoc schema 漂移

徵兆：NATS 部署 3 個月後、producer / consumer 間 schema 對不上、application bug；Kafka 端有 Confluent Schema Registry 強 enforce、NATS 沒對等服務。

根因：NATS 哲學是 minimalist、不內建 schema registry；application 自己決定 payload format。Kafka 生態的 Avro / Protobuf + Registry 模式不直接搬。

修法：

外部 schema management：用 BSR（Buf Schema Registry）或自家 Git-based registry、producer / consumer build-time 驗證
NATS Object Store：JetStream 提供 K/V + Object Store、可存 schema 文件
接受紀律性 trade-off：NATS 簡潔代價是 application 端紀律、不能靠 broker 強 enforce

Case 5：Fan-out 模式跟 Kafka 不一致

徵兆：同一 event 要送 5 個 downstream service、Kafka 端用 consumer group + 5 個 group 跑；NATS 端設計 5 個 durable consumer、結果某些 message 漏 fan-out。

根因：Kafka consumer group 對 同 group 內 partition 分配、不同 group 各自完整消費；NATS JetStream Durable consumer 預設行為跟 group 不同 — 單 durable consumer 是 shared subscription、要 fan-out 需多個獨立 durable。

修法：

明確設計 fan-out：N 個 downstream 對應 N 個 獨立 durable consumer、不共用
用 AckPolicy.None + push subscriber：不需要 ack 的 fan-out 場景、用 ephemeral push subscriber
檢查 application stream config：fan-out 失敗多半是 consumer config 錯、不是 NATS bug

Capacity / cost 對照

維度	Kafka（self-managed）	NATS（JetStream）
Cluster size baseline	3-5 broker + ZooKeeper / KRaft	3 server（含 JetStream cluster）
RAM / broker baseline	16-64GB	2-16GB
Storage requirement	高（log retention）	中（JetStream file backend）
Operational FTE	0.5-2 FTE	0.1-0.3 FTE
Throughput / single node	100K-1M msg/s	NATS Core：10M+、JetStream：100K-1M
Latency p99	5-50ms	NATS Core：< 1ms、JetStream：5-20ms
Retention 1TB / month cost	$400-800（含 HA）	$200-400
Operational complexity	高（Schema Registry / Connect / Streams）	低
Ecosystem maturity	高（10+ 年）	中（JetStream 2021+）

判讀：簡單 messaging workload NATS 顯著便宜；complex event streaming（Schema Registry / Streams / Connect 重度用）Kafka 不替代。

整合 / 下一步

混合架構是 long-term default

多數 production 環境最終是 Kafka + NATS 共存：

1[event sourcing / log collection]        [microservice async messaging]
2         Kafka                                       NATS
3         │                                            │
4         └──────── Bridge (Connect / Custom) ────────┘

NATS 跑微服務間 messaging、Kafka 跑 event log / analytics pipeline；中間用 Kafka Connect NATS connector 或自寫 bridge 同步必要 stream。

跟 Logical Replication + Debezium 對位

CDC pipeline 設計：

DB → Debezium → Kafka topic（event sourcing 主軸）
Kafka → NATS bridge → microservice fan-out
不直接 DB → Debezium → NATS（Debezium 不原生支援 NATS sink）

跟前 4 篇 migration 的結構對照

篇	Schema 差	Operational 差	Paradigm 差	結構
Splunk → Elastic	高	中	低	6-phase
Redis → DragonflyDB	無	低	低	6-section + audit
PostgreSQL → Aurora	無	高	低	hybrid
Datadog → Grafana Stack	中	中	低	parallel streams
Kafka ↔ NATS（本篇）	中	中	高	partial + 混合

結論：migration 結構由 最大差異維度 決定、不是 universal phased playbook。

3.C11 Pinterest：Kafka tiered storage broker-decoupled

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 tiered storage 不只是「冷資料 offload」、是 broker 與儲存解耦的架構選擇。

觀察

Pinterest 從 Kafka broker 卸 ~200 TB/day 熱資料到 S3、2024 年 5 月起 20+ production topic 上線、跟 KIP-405 native tiered storage 不同、採 broker-decoupled 設計。

判讀

Broker-decoupled 設計讓 consumer 直接從 S3 拉、broker 不再是熱路徑。揭露「broker resource 跟 cross-AZ network cost」其實該分離治理、而非綁在 broker 容量擴張上。

對應大綱

Kafka 進階主題：tiered storage / 跨層儲存成本。

下一步路由

回 Kafka vendor 頁與 3.1 broker basics。

引用源

Pinterest Tiered Storage for Apache Kafka — a Broker-Decoupled Approach

Kafka → Google Cloud Pub/Sub：從 partition 到 topic-subscription 的模型轉換

Mon, 22 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 Apache Kafka（source）跟 Google Cloud Pub/Sub（target）。跑 6 維 diff dimension audit 後判定為 Type E paradigm shift：兩者投遞模型本質不同（partition-based log vs topic-subscription pub/sub）。

為什麼從 Kafka 遷到 Pub/Sub

這個遷移的 driver 通常是平台策略：

All-in GCP：組織決定收斂到 GCP 生態，Kafka 是唯一非 GCP 的 stateful 服務，維運孤島成本高
運維簡化：自管 Kafka cluster 的 broker、ZooKeeper/KRaft、partition rebalance、retention 管理需要專職團隊；Pub/Sub 是全託管
GCP 整合：下游是 BigQuery、Dataflow、Cloud Run — Pub/Sub 原生串接，Kafka 要加 connector 層
全球路由：Pub/Sub topic 是 global（不綁 region），Kafka 需要 MirrorMaker 做跨 region 同步

遷移的工作量不在資料搬遷（message queue 通常不搬歷史資料），在 模型轉換 — Kafka 的 partition ordering、consumer group、offset commit 跟 Pub/Sub 的 topic-subscription、ack deadline、ordering key 是不同抽象。

6 維 diff dimension audit

維度	評估	等級
Schema / API	Kafka producer/consumer API → Pub/Sub client library，完全不同 API	High
Operational model	自管 broker/ZK/KRaft → 全託管	High（方向：簡化）
Abstraction / paradigm	partition-based log vs topic-subscription pub/sub	High
Number of components	Kafka + Schema Registry + Connect → Pub/Sub + (optional) Dataflow	Medium
Application change	Producer/Consumer 全部改寫	High
Data topology	Partition × offset → Topic × subscription × ack	High

五維 High — Type E paradigm shift，是兩套模型的橋接，工程量遠超 drop-in 或翻譯。

模型差異對照

遷移前必須理解兩套模型的對應關係。對應不是一對一 — 有些概念在對方沒有直接等價物。

Kafka 概念	Pub/Sub 對應	差異重點
Topic	Topic	名稱相同但語意不同：Kafka topic 有 partition，Pub/Sub topic 沒有
Partition	無直接對應	Pub/Sub 的 ordering 用 ordering key 實現，但 ordering key 不保證全域順序
Consumer group	Subscription	每個 subscription 獨立消費 topic 的全部訊息，類似 Kafka 的 consumer group
Offset	無直接對應	Pub/Sub 用 ack/nack 而非 offset commit。ack 後訊息不可重讀（除非用 seek）
Offset commit	Ack	Kafka 可以 commit 到任意 offset（replay）；Pub/Sub ack 是 per-message、seek 可以回到 timestamp
Retention	Message retention	Kafka retention 期內可任意 seek；Pub/Sub retention 期內可用 timestamp seek
Consumer lag	Oldest unacked message age	觀測指標不同：Kafka 看 offset lag、Pub/Sub 看 oldest_unacked_message_age
Partition rebalance	無（Pub/Sub 自動負載分散）	Kafka rebalance 是操作痛點，Pub/Sub 消除了這個概念
Schema Registry	Pub/Sub Schema	Pub/Sub 原生支援 Avro/Protobuf schema validation
Kafka Connect	Dataflow / BigQuery subscription	下游整合的對應工具不同

Ordering 語意是最大差異

Kafka 的 ordering 保證是 partition 內全域有序。同一個 partition 的訊息按寫入順序消費，consumer group 內每個 partition 只有一個 consumer。

Pub/Sub 預設不保證 ordering。要 ordering 需開啟 ordering key — 同一 ordering key 的訊息有序，但不同 ordering key 之間無序。ordering key 的並行度由 key 的 cardinality 決定（類似 Kafka 的 partition key）。

遷移時的判斷：

若 Kafka 的 ordering 只依賴 partition key（常見），ordering key 直接對應
若依賴 partition 內的全域順序（少見但存在），需要重新設計 — Pub/Sub 沒有 partition 全域順序的概念
若完全不需要 ordering（fan-out 場景），Pub/Sub 預設行為更簡單

Component 數量轉換

Kafka 生態的 Schema Registry 在 Pub/Sub 由原生 Schema 功能替代（topic-level schema validation）；Kafka Connect 的 sink connector 由 BigQuery subscription 或 Dataflow job 替代。Dataflow 不是必要 — 簡單的 push/pull consumer 不需要 Dataflow，只有 stream processing（windowed aggregation、join）才需要。

階段一：Producer 遷移（雙寫）

雙寫策略是 paradigm shift 遷移的標準起手。Application 同時把訊息寫入 Kafka 和 Pub/Sub，consumer 仍從 Kafka 消費。

Producer 改造

 1# 示意：雙寫 wrapper（實際生產用各自語言的 client library）
 2def publish_order_event(event):
 3    # 原有 Kafka producer
 4    kafka_producer.send("order-events", key=event.order_id, value=event.to_bytes())
 5
 6    # 新增 Pub/Sub producer
 7    pubsub_publisher.publish(
 8        "projects/my-project/topics/order-events",
 9        data=event.to_bytes(),
10        ordering_key=event.order_id  # 對應 Kafka partition key
11    )

雙寫驗證

驗證項目	方法	通過條件
訊息數量一致	比對 Kafka produce count 與 Pub/Sub publish count	差異 < 0.01%（允許 timing 差異）
Ordering 一致	同一 ordering key 的訊息在兩端順序相同	抽樣驗證 100 個 key
Latency 影響	監控 request latency 變化	p99 增加 < 10ms
失敗隔離	Pub/Sub publish 失敗不影響 Kafka publish	Pub/Sub timeout 時 Kafka 正常

雙寫的失敗隔離要嚴格設計。Pub/Sub publish 失敗時，application 應該 log + metric 但不 block request。Kafka 是已驗證的正式路徑，Pub/Sub 在這個階段是 shadow。

階段二：Consumer 遷移（逐 subscription 切換）

Producer 雙寫穩定後，逐一把 consumer 從 Kafka 切到 Pub/Sub subscription。

Consumer 改造重點

Ack 模型差異：Kafka consumer 是 poll + commit offset；Pub/Sub 是 pull（或 push）+ per-message ack。

 1# Kafka consumer pattern
 2for msg in kafka_consumer:
 3    process(msg)
 4    kafka_consumer.commit()
 5
 6# Pub/Sub pull subscriber pattern
 7def callback(message):
 8    try:
 9        process(message.data)
10        message.ack()
11    except Exception:
12        message.nack()  # 會被重新投遞
13
14subscriber.subscribe("projects/my-project/subscriptions/order-processor", callback=callback)

Idempotency 更重要：Pub/Sub 的 at-least-once delivery 加上 ack deadline 機制，redelivery 比 Kafka 更容易觸發（ack deadline 內沒 ack 就重投）。Consumer 的 idempotency 設計要比 Kafka 時更嚴格。

Flow control：Pub/Sub client library 支援 max_outstanding_messages 和 max_outstanding_bytes 做 backpressure 控制，對應 Kafka 的 max.poll.records。

切換順序

依 consumer 的重要度和複雜度排序：

先切 stateless consumer（log pipeline、metrics aggregation）— 低風險
再切有 side effect 但 idempotent 的 consumer（search index sync、notification）
最後切核心 consumer（payment processing、inventory update）— 需要完整 idempotency 驗證

每切一組 consumer：

建立對應的 Pub/Sub subscription
部署新 consumer（讀 Pub/Sub）
驗證處理正確性（比對 Kafka consumer 和 Pub/Sub consumer 的輸出）
停止舊 Kafka consumer
觀察 7 天無異常

階段三：停止雙寫

所有 consumer 切完後：

停止 Kafka producer（移除雙寫邏輯）
觀察 Kafka topic 不再有新訊息
等 Kafka retention 過期
下線 Kafka cluster

Kafka cluster 不要在 consumer 切完後立即下線。保留 retention period + 7 天作為回退保險。

回退路徑

Type E 遷移的回退要在每個階段都設計：

階段一回退：移除 Pub/Sub publish 邏輯，Kafka 路徑不受影響
階段二回退：重啟 Kafka consumer、停止 Pub/Sub subscriber。Kafka 的 offset 要確認是否仍在 retention 內
階段三回退：如果 Kafka 已下線，需要重新建 cluster 並從 Pub/Sub 反向雙寫回 Kafka — 成本高，所以階段三前要確認穩定

回退的關鍵指標：consumer lag（Pub/Sub 的 oldest_unacked_message_age）持續上升、error rate 上升、或 redelivery rate 異常。

遷移後的監控對照

Kafka 監控指標	Pub/Sub 對應指標	來源
Consumer lag (offset)	`subscription/oldest_unacked_message_age`	Cloud Monitoring
Produce rate	`topic/send_message_operation_count`	Cloud Monitoring
Consume rate	`subscription/pull_message_operation_count`	Cloud Monitoring
Redelivery count	`subscription/dead_letter_message_count` + nack rate	Cloud Monitoring
Broker disk usage	無需關注（fully managed）	N/A
Rebalance events	無（Pub/Sub 自動分散）	N/A

不適合遷移的場景

以下場景 Kafka → Pub/Sub 的 ROI 不成立：

需要 exactly-once semantics：Kafka 的 transactional producer + idempotent producer 提供 exactly-once；Pub/Sub 是 at-least-once，application 層做 dedup
需要長期 replay：Kafka retention 可設數月甚至永久（tiered storage）；Pub/Sub message retention 最長 31 天（若需超過 31 天的 replay，可用 BigQuery subscription 做長期歸檔，但查詢模式不同於 Kafka 的 offset-based replay）
大量 ordering 依賴：如果 Kafka topology 重度依賴 partition ordering 且 key cardinality 低，Pub/Sub ordering key 的並行度會比 Kafka 差
使用 Kafka Streams / ksqlDB 做 stateful processing：stream processing 邏輯跟 Kafka 綁定（state store backed by changelog topic），遷到 Pub/Sub 要同時遷移 processing 框架（→ Dataflow / Beam），工程量額外翻倍且 API 完全不同
多雲 / 非 GCP 環境：Pub/Sub 是 GCP-only，跨雲場景反而讓 Kafka 更合理

交接路由

Source vendor overview：Apache Kafka
Target vendor overview：Google Cloud Pub/Sub
Pub/Sub 操作細節：Push / Pull / Ack Flow Control、Ordering / DLT / Schema
Consumer idempotency：3.4 Consumer Design、3.6 Processing Recovery Semantics
反向路徑（SQS → Pub/Sub）：AWS SQS → Google Pub/Sub

AWS SQS：Visibility timeout、long polling 與 Lambda event source 的成本與失敗形狀

Tue, 16 Jun 2026 00:00:00 +0000

本文是 AWS SQS overview 的 implementation-layer deep article。本文的 CLI 指令語法經 LocalStack round-trip 驗證、真實 AWS 的 scaling 行為、Lambda event source mapping 細節與計費數字依 AWS 官方文件。

SQS 沒有 broker ACK，delivery 控制全靠 visibility timeout

SQS 跟自管 broker（RabbitMQ / Kafka）最大的操作差異是：consumer 不會跟 broker 維持一條長連線、也沒有 channel-level 的 ack / nack 協議。SQS 的整個 delivery 保證建立在一個計時器上 — visibility timeout。訊息被 ReceiveMessage 拉走後進入 in-flight 狀態、在 timeout 視窗內對其他 consumer 不可見；consumer 處理成功就呼叫 DeleteMessage 把它移除、處理失敗或當機則什麼都不做、等 timeout 到期訊息自動回到 queue 重新可見。

這個設計把「確認處理完成」的責任從 broker 連線狀態轉移到 consumer 的主動刪除。好處是 consumer 可以隨時死掉、重啟、水平擴縮、不需要維持任何 session 狀態 — 訊息不會因為連線斷掉而遺失。代價是 visibility timeout 這個數字變成最容易設錯、後果最隱蔽的參數：設太短訊息會在 consumer 還在處理時就重新可見、被另一個 consumer 重複領走；設太長則 consumer 當機後訊息要等很久才回到 queue、retry 延遲拉長。

實機建立一個 queue 並查 default、可以確認這個視窗的起點。新建 queue 的 VisibilityTimeout 預設 30 秒：

1# 不帶任何 attribute 建 queue
2aws sqs create-queue --queue-name demo-default
3
4# 查 default visibility timeout
5aws sqs get-queue-attributes \
6  --queue-url  \
7  --attribute-names VisibilityTimeout
8# => "VisibilityTimeout": "30"

30 秒對「處理時間穩定在數百毫秒」的 task 綽綽有餘、對「呼叫第三方 API、跑批次轉檔、寫多個下游」的 task 則經常不夠。下一節先把這個參數設對，後面的故障演練再展開它設錯時的具體徵兆。

對齊 visibility timeout 與 consumer 處理時間

設定 visibility timeout 的判準是「略高於 consumer 處理單則訊息的最大時間」、不是平均時間。Capital One 的官方 tech blog 在講 SQS + Lambda 時明示這條原則：visibility timeout 應比最大處理時間略高 — 因為決定 redelivery 的是尾端那幾則最慢的訊息、不是中位數。處理時間 p50 是 2 秒、p99 是 25 秒時、visibility timeout 要對齊 p99 加緩衝、設到 30-40 秒、而不是看 p50 設 10 秒。

建 queue 時直接帶 VisibilityTimeout attribute，或對既有 queue 用 set-queue-attributes 調整：

1# 建立時指定（單位：秒；上限 12 小時 = 43200）
2aws sqs create-queue \
3  --queue-name demo \
4  --attributes VisibilityTimeout=60
5
6# 對既有 queue 調整
7aws sqs set-queue-attributes \
8  --queue-url  \
9  --attributes VisibilityTimeout=120

處理時間本身不可預測的場景（例如轉檔大小差異大、下游 API 偶發慢）、用一個固定的 queue-level visibility timeout 會兩頭不討好：對齊最壞情況會讓正常訊息當機後 retry 太慢、對齊正常情況會讓慢訊息 redelivery。SQS 給的工具是 ChangeMessageVisibility — consumer 在處理過程中發現這則會花更久時，主動延長這一則訊息的 visibility timeout，而不影響 queue default：

1# consumer 拿到 ReceiptHandle 後，動態把這則延長到 120 秒
2aws sqs change-message-visibility \
3  --queue-url  \
4  --receipt-handle  \
5  --visibility-timeout 120

實務上長任務 consumer 的常見寫法是「heartbeat extension」：每處理一段就呼叫一次 ChangeMessageVisibility 往後推、形成一個續命迴圈、直到處理完成才 DeleteMessage。這把「我還活著、還在處理這則」的訊號明確化、避免用一個保守的 queue-level 大數字一刀切。ReceiptHandle 是每次 ReceiveMessage 回傳的一次性 token、不是 message id — 同一則訊息被重新領取後 ReceiptHandle 會變、延長操作必須用當次領取拿到的那一個。

Long polling 決定空輪詢成本，short polling 是預設陷阱

Polling 模式直接決定 SQS 的 request 帳單，因為 SQS 按 request 數計費、而 ReceiveMessage 即使沒拿到訊息也算一次 request。Short polling（預設、WaitTimeSeconds=0）的行為是「立即回應」：consumer 發 ReceiveMessage、SQS 抽樣一部分 server 立刻回、queue 空的時候回一個空 response。Consumer 為了即時拿到訊息會緊接著再發一次、形成高頻空輪詢 — 在低流量 queue 上、絕大多數 request 都是空回、帳單全花在「問有沒有訊息」上。

Long polling（WaitTimeSeconds 設 1-20 秒）改變這個行為：SQS 收到 ReceiveMessage 後、若 queue 當下沒訊息、會 hold 住這條連線最多 WaitTimeSeconds 秒、期間一有訊息到達就立刻回傳、整段時間都沒訊息才回空。對 consumer 端來說一個 20 秒的 long poll 取代了 20 秒內可能發出的數十次 short poll、空 request 數量大幅下降。

1# long polling：等到有訊息或最多 20 秒才回
2aws sqs receive-message \
3  --queue-url  \
4  --wait-time-seconds 20

設定 long polling 有兩個位置：per-request 帶 --wait-time-seconds、或 queue-level 設 ReceiveMessageWaitTimeSeconds attribute 讓所有 receive 預設走 long polling。後者更穩、不依賴每個 consumer 都記得帶參數。20 秒幾乎總是對的選擇：它把空輪詢壓到最低、而 latency 代價只在「queue 剛好空、訊息在 poll 結束後才到」這個邊界出現 — 大多數有持續流量的 queue 根本碰不到 20 秒上限。唯一要留意的是 consumer 的 socket timeout 必須大於 WaitTimeSeconds、否則 client 會在 SQS 還在 hold 連線時自己先 timeout 斷線。

SQS + Lambda：event source mapping 把 polling 交給 AWS

把 SQS 接上 Lambda 時、polling 這件事整個從應用程式碼消失、改由 Lambda 的 event source mapping 接管。Event source mapping 是 Lambda service 內部一組 managed poller、持續對 queue 做 long polling、把拉到的訊息打包成 batch 同步 invoke 函式、函式正常返回就由 service 代為 DeleteMessage。Consumer 端不再寫 receive / delete 迴圈、只寫處理單一 batch 的 handler。

這套 managed poller 的 scaling 不是線性的、有 ramp-up 上限。Capital One 觀察到的行為是：Lambda 初始開 5 個並行的 long polling 連線、隨 queue 累積每分鐘最多增加 60 個 instance、standard queue 的並行 batch 上限到 1000。這意味著 queue 突然湧入大量訊息時、Lambda 不會瞬間炸開到滿並行、而是分鐘級爬升 — 容量規劃時要把這段 ramp-up 期算進 backlog 消化時間、不能假設「訊息一到就有足夠 consumer」。

兩個核心參數決定每次 invoke 的形狀：

參數	作用	取捨
Batch size	一次 invoke 最多打包幾則訊息（standard 上限 10000、FIFO 上限 10）	大 batch 省 invoke 數與成本、但放大「部分失敗整批重投」風險
Batch window	累積訊息的最長等待時間（`MaximumBatchingWindowInSeconds`、0-300 秒）	拉長視窗讓 batch 更滿、代價是 latency；流量稀疏時尤其明顯

Batch size 拉大表面上省錢 — invoke 次數少、每則訊息分攤的 request 成本低。但它跟下一節的部分失敗處理直接耦合：batch 越大、一則毒訊息拖累整批重投的範圍越大。Batch window 則是流量稀疏時讓 batch 攢滿的手段、流量本來就密集時設不設都差不多、反而會引入不必要的 latency。

DLQ 與 redrive policy：用 maxReceiveCount 隔離毒訊息

毒訊息（永遠處理失敗的訊息 — 格式損壞、引用了已刪除的資源、觸發 consumer 確定性 bug）會在 visibility timeout 機制下無限重投：處理失敗、timeout 到期、重新可見、再次被領取、再次失敗。沒有上限的話這則訊息會永遠佔用 consumer 資源、且其他正常訊息的處理被它反覆插隊。Dead-letter queue（DLQ）加 maxReceiveCount 是 SQS 對這個問題的標準解 — 訊息被接收超過 N 次後、SQS 自動把它移到另一個指定的 queue（DLQ）、主 queue 不再被它卡住。

設定分兩步：先建一個普通 queue 當 DLQ、取它的 ARN、再對主 queue 設 redrive policy 指向這個 ARN 並設 maxReceiveCount：

 1# 1. 建 DLQ 並取得 ARN
 2aws sqs create-queue --queue-name demo-dlq
 3aws sqs get-queue-attributes \
 4  --queue-url  \
 5  --attribute-names QueueArn
 6# => "QueueArn": "arn:aws:sqs:us-east-1:000000000000:demo-dlq"
 7
 8# 2. 對主 queue 設 redrive policy（被接收 5 次後送 DLQ）
 9aws sqs set-queue-attributes \
10  --queue-url  \
11  --attributes '{"RedrivePolicy":"{\"deadLetterTargetArn\":\"arn:aws:sqs:us-east-1:000000000000:demo-dlq\",\"maxReceiveCount\":\"5\"}"}'

DLQ 不是訊息的墳場、是待診斷的暫存區。對應 poison message quarantine 的思路、DLQ 累積要分兩種根因處理：訊息格式錯（永遠失敗、需要修 producer 或人工丟棄）vs 下游服務暫時 down（訊息本身沒問題、修好下游後可以重放）。後者用 redrive 把訊息從 DLQ 批次放回主 queue 重新處理、對應 dlq drain 的排空流程。判斷之前先看 DLQ 裡訊息的內容、不要不加判斷地 redrive — 把毒訊息 redrive 回去只會再走一輪 maxReceiveCount 又回到 DLQ。

maxReceiveCount 設多少是取捨：太小（例如 1-2）會讓「下游短暫抖動」這種暫時性失敗被誤判成毒訊息、過早送進 DLQ；太大（例如 100）會讓真正的毒訊息浪費大量 consumer 重試。多數 task queue 設 3-5 是合理起點 — 足以吸收幾次暫時性失敗、又不至於讓確定性失敗的訊息空轉太久。

Message size 限制與 extended client

SQS 單則訊息上限是 256 KB（含 message body 與 attributes）。這對純事件通知、id 引用、小型 payload 足夠、但對「訊息本身要攜帶大檔案內容」的場景不夠 — 例如要傳一份報表、一張圖、一段長文字。直接的反模式是把大內容塞進 message body、撞上 256 KB 限制後 SendMessage 直接報錯。

標準解是 claim-check 模式：大 payload 寫到 S3、訊息只攜帶 S3 的物件引用（bucket + key）、consumer 收到訊息後再去 S3 取內容。AWS 提供的 Extended Client Library（Java / Python 等 SDK）把這個模式封裝起來 — SendMessage 時若 payload 超過門檻、library 自動把內容寫 S3、訊息只帶 pointer；consumer 端 ReceiveMessage 時 library 自動從 S3 取回、對應用程式碼透明。

選擇門檻時要把 S3 的 request 成本與 latency 算進來：每則大訊息變成「一次 S3 PUT + 一次 SQS Send」、consumer 端「一次 SQS Receive + 一次 S3 GET」。對大多數 payload 都超過 256 KB 的 queue、這是必要成本；對 payload 多數很小、偶爾爆量的 queue、extended client 只在超門檻時走 S3、混合成本可接受。Payload 普遍很大且高頻的場景、要重新評估 SQS 是否適合 — 可能該改用 streaming（Kinesis / Kafka）或乾脆讓 producer / consumer 直接交換 S3 引用、SQS 只傳通知。

Cost：按 request 計費，每一次操作都是一個 request

SQS 的計費模型是 per-request、不是 per-message-stored、也沒有固定月費。每一次 API call — SendMessage、ReceiveMessage（含空回）、DeleteMessage、ChangeMessageVisibility — 都算一個 request。這個模型對成本估算的影響是：帳單由「操作次數」驅動、而非「訊息量」或「儲存時長」。一則訊息從 producer 到 consumer 的最小生命週期是 send（1）+ receive（1）+ delete（1）= 3 個 request；空輪詢、retry、visibility 延長都會額外加 request。

兩個降低 request 數的主要手段：

第一是 batch 操作。SendMessageBatch 與 DeleteMessageBatch 一次最多打包 10 則、而 SQS 把一個 batch call 算作一個 request（實際計費以 64 KB 為一個 request 單位、一個 batch 在此範圍內仍是少數 request）。把 10 則訊息的 send 從 10 個 request 壓成 1 個 batch request、在高頻 queue 上是數量級的成本差異：

1aws sqs send-message-batch \
2  --queue-url  \
3  --entries 'Id=m1,MessageBody=a' 'Id=m2,MessageBody=b'

第二是 long polling 消滅空 request — 前面 polling 段已經展開。低流量 queue 的帳單若異常高、第一個要查的就是有沒有開 long polling、consumer 是不是在 short polling 下高頻空轉。

Data transfer cost 只在跨 region 時出現 — 同 region 內 producer / consumer 與 SQS 之間的傳輸不計流量費。把 producer、consumer、queue 放在同一個 region 是預設、跨 region 設計要把 egress 成本明確算進來。FIFO queue 的 per-request 單價比 standard 高、是用成本換 ordering 與去重保證 — 不需要嚴格順序的場景用 standard、把這筆溢價省下來。

Rapid7 的規模參考點說明這個計費模型在極端規模下的份量：Rapid7 公開引述 SQS 撐住「每天數十億則訊息」。在這個量級、per-request 計費乘以訊息數是一筆需要認真建模的成本 — batch、long polling、避免不必要的 visibility 延長、控制 retry 次數、每一項節省都被訊息量放大。SQS 在數十億級可用、但成本結構必須被當作架構參數對待、不是事後才看帳單。

Production 故障演練

故障一：visibility timeout 短於處理時間，訊息被重複處理

徵兆：consumer log 顯示同一個 message id 在短時間內被處理多次、下游出現重複的副作用（重複扣款、重複寄信、重複寫入）；CloudWatch 的 ApproximateNumberOfMessagesNotVisible（in-flight 數）異常高、NumberOfMessagesReceived 遠大於 NumberOfMessagesDeleted。

根因：visibility timeout 設定值低於 consumer 實際處理單則訊息的時間。訊息在 consumer 還沒處理完、還沒呼叫 DeleteMessage 之前、timeout 就到期、訊息重新可見、被另一個 consumer（或同一個 consumer 的下一輪 poll）領走。新建 queue 的 default 是 30 秒 — 處理時間長於此就會踩到：

1aws sqs get-queue-attributes \
2  --queue-url  \
3  --attribute-names VisibilityTimeout
4# 看到 30 而 consumer 處理時間 > 30s，就是這個問題

修法：把 visibility timeout 對齊 consumer 處理時間的 p99 加緩衝、用 set-queue-attributes 調高；處理時間變異大的長任務改用 ChangeMessageVisibility heartbeat 在處理中動態延長。同時、因為 SQS standard 是 at-least-once、重複投遞在故障與 retry 下本來就會發生、consumer 的處理邏輯必須冪等 — 對齊 visibility timeout 降低重複頻率、冪等性才是真正消除重複副作用的防線。

故障二：short polling 預設導致低流量 queue 帳單異常

徵兆：一個訊息量很低的 queue、月度 SQS 帳單卻很高；CloudWatch 顯示 NumberOfEmptyReceives 佔 ReceiveMessage 總數的絕大比例 — 大量 request 是空回。

根因：consumer 走 short polling（WaitTimeSeconds=0、預設值）、在 queue 空的時候緊密地反覆發 ReceiveMessage、每次都立即空回、每次都計一個 request。流量越低、空回比例越高、帳單越是花在「問有沒有訊息」上。

修法：在 queue-level 設 ReceiveMessageWaitTimeSeconds=20 讓所有 receive 預設走 long polling、或在每個 ReceiveMessage 帶 --wait-time-seconds 20。Queue-level 設定更穩、不依賴每個 consumer 記得帶參數。設定後 consumer 在 queue 空時會 hold 住連線最多 20 秒、空 request 數量級下降、帳單同步下降。同時確認 consumer 的 socket timeout 大於 20 秒、避免 client 先於 SQS 斷線。

故障三：Lambda batch 部分失敗，整批訊息被重投

徵兆：一個 batch 裡只有少數訊息處理失敗、但整批訊息（含已成功的）全部回到 queue 重新處理；下游對已成功的訊息出現重複副作用；DLQ 累積速度遠超實際毒訊息數量。

根因：Lambda event source mapping 的 default 行為是「整批成敗一體」— 函式只要拋出錯誤、整個 batch 被視為失敗、所有訊息（包含已經處理成功的）都不會被刪除、全部重新可見重投。Batch size 越大、一則失敗拖累的成功訊息越多。

修法：啟用 partial batch response — event source mapping 設 ReportBatchItemFailures、handler 返回時只回報失敗的 message id 清單、SQS 只把這些重投、已成功的正常刪除。這把失敗的爆炸半徑從「整批」縮到「真正失敗的那幾則」。配合縮小 batch size 進一步降低單批風險、並確保 handler 冪等以承受不可避免的重投。Handler 必須正確實作 partial response 的返回格式 — 漏回報某則失敗會讓它被當成成功刪除、訊息靜默遺失。

故障四：maxReceiveCount 設定不當，毒訊息空轉或誤判

徵兆：兩種相反的故障形狀。一是 DLQ 幾乎為空但主 queue 有訊息反覆重試數十次、consumer log 同一 message id 重複出現、佔用處理容量 — maxReceiveCount 設太大。二是 DLQ 快速累積大量其實沒問題的訊息、redrive 回去又能正常處理 — maxReceiveCount 設太小、把下游短暫抖動誤判成毒訊息。

根因：redrive policy 沒設、或 maxReceiveCount 與「暫時性失敗的正常重試次數」不匹配。沒設 redrive policy 時毒訊息無限重投；設太大時毒訊息空轉太久才進 DLQ；設太小時正常訊息在下游抖動期間被過早判死。

修法：對主 queue 設 redrive policy、maxReceiveCount 取 3-5 作為起點 — 足以吸收幾次暫時性失敗、又不讓確定性失敗的訊息空轉太久。觀察 DLQ 的累積模式再微調：DLQ 累積的多是「下游修好後 redrive 能成功」的訊息就調高、累積的多是「redrive 回去又進 DLQ」的真毒訊息就維持或調低。對 DLQ 設 CloudWatch alarm 監控 ApproximateNumberOfMessagesVisible、累積超過閾值就告警人工介入、區分 redrive vs 丟棄。

故障五：FIFO queue 撞上吞吐上限

徵兆：把 standard queue 換成 FIFO 取得 ordering 後、高峰流量下 producer 端開始收到 throttling、訊息積壓、SendMessage 報限流錯誤；吞吐怎麼加 consumer 都上不去。

根因：FIFO queue 為了維持順序與去重、吞吐遠低於 standard。FIFO 的基礎吞吐是每秒 300 則訊息（API call）、開啟 batching 後到每秒 3000 則。更關鍵的是順序保證的粒度在 MessageGroupId — 同一個 group 內的訊息嚴格串行處理、跨 group 才能並行。若所有訊息共用一個 group id、實際並行度退化成 1、無論加多少 consumer 都無法並行消化。

1# FIFO send 必須帶 MessageGroupId（決定順序與並行粒度）
2aws sqs send-message \
3  --queue-url  \
4  --message-body "ordered-1" \
5  --message-group-id "group-a"

修法：先確認是否真的需要全域順序 — 多數場景只需要「同一個實體（同一用戶、同一訂單）內部有序」、不需要跨實體有序。把 MessageGroupId 設成業務實體 id（用戶 id、訂單 id）、讓不同實體的訊息能跨 group 並行、吞吐隨 group 數量擴展。確定需要嚴格全域順序且吞吐撞頂的場景、FIFO 的設計上限就是天花板 — 此時要重新評估是否該換成 streaming（Kafka 的 partition 模型在 per-key 有序下提供更高並行）、或拆分 queue。不需要任何順序保證的場景、退回 standard queue、把 FIFO 的吞吐限制與成本溢價一起省掉。

整合與下一步

跟 consumer 設計能力對接

本文的 visibility timeout heartbeat、partial batch response、冪等處理都是 3.4 consumer 設計的具體落地 — consumer-design 講語言無關的 consumer 模式、本文是 SQS 上的實作形狀。retry 與 replay 的交接路徑見 queue consumer retry replay handoff。

跟知識卡對位

DLQ 段對應 poison message quarantine（毒訊息隔離）與 dlq drain（DLQ 排空）兩張卡 — SQS 的 redrive policy + maxReceiveCount 是這兩個概念在 managed queue 上的具體機制。visibility timeout 的 in-flight 概念見 in-flight。

跟 case 對位

visibility timeout 與 Lambda event source 的 ramp-up 行為來自 3.C50 Capital One；at-least-once + DLQ 在工作排程的取捨來自 3.C48 Airbnb Dynein；per-request cost 在極端規模的份量來自 3.C59 Rapid7。

何時 revisit

FIFO 吞吐撞頂、需要 replay / streaming、或 cost 在 streaming 模型下更划算時、回 SQS overview 的「何時改走其他服務」重新選型。跨雲 managed queue 的對照見 Google Pub/Sub。

Kafka Replication、ISR 與 exactly-once：從 acks 到端到端不重不漏

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Kafka overview「Replication 與 exactly-once 升級」段的 implementation-layer deep article。Overview 已給出 partition / replication 的選型定位、本文展開 寫入承諾 跟 處理語義 兩條獨立軸線怎麼設、邊界在哪、成本是什麼。對應反例 3.C9 Queue 語義誤配。

寫入承諾與處理語義是兩條獨立軸線

Kafka 的可靠性拆成兩個彼此正交的問題、混在一起談是多數誤配的起點。第一條軸線是 寫入承諾：一筆訊息寫進 broker 後、在多少 replica 落地才算「成功」、broker 掛掉時這筆訊息會不會消失。這條軸線由 replication factor、ISR、acks 與 min.insync.replicas 共同決定、屬於 broker 端的耐久性保證。第二條軸線是 處理語義：同一筆訊息在 producer 重送、consumer 重啟、partition rebalance 等情境下、會不會被寫進去兩次或被處理兩次。這條軸線由 producer idempotence、transaction 與 consumer 端的 commit 設計決定、屬於端到端的正確性保證。

兩條軸線可以獨立調整：可以有「寫入承諾很強但處理語義是 at-least-once」的配置（acks=all + 非冪等 consumer）、也可以有「寫入承諾較弱但已開冪等」的配置。把 exactly-once 當成單一開關去找、是因為沒看出這兩條軸線存在。本文先講第一條（replication / ISR / acks）、再講第二條（idempotence / transaction）、最後談兩者疊起來能達成什麼、達不成什麼。

這個拆分對映 delivery semantics 與 idempotency 兩張知識卡：前者描述 broker 承諾的送達次數、後者描述處理端怎麼讓「送達多次」不等於「生效多次」。

ISR：誰算「跟得上」的副本

ISR（in-sync replica、同步副本集）是一個 partition 當前「跟得上 leader」的 replica 集合、是 Kafka 把 replication factor 這個 靜態配置 轉成 動態保證 的關鍵概念。Replication factor = 3 只說明這個 partition 有 3 份 replica；但任一時刻真正跟得上 leader 的可能只有 2 份或 1 份。ISR 就是這個「當前實際同步」的集合、寫入承諾的判斷都基於 ISR、不是基於 replication factor。

一個 follower 留在 ISR 內的條件是：它在 replica.lag.time.max.ms（預設 30 秒）內持續向 leader 拉取資料、且追上 leader 的 log end offset。當 follower 因為 broker 慢、網路抖動、GC 停頓或 disk 壓力而落後超過這個時間窗、leader 會把它移出 ISR — 這就是 ISR shrink（收縮）。當它恢復、重新追上、再被加回 ISR — 這是 ISR expand（擴張）。

ISR 收縮本身不是故障、是 Kafka 對「這個 follower 暫時不可信」的誠實表態。真正的風險在於：ISR 收縮到某個程度後、acks=all 的寫入承諾會無法滿足 min.insync.replicas 而開始拒絕寫入。下一段的 acks 取捨直接建立在 ISR 這個概念上。

實機看 ISR 的方式是 kafka-topics.sh --describe、Isr 欄位列出當前同步的 broker id：

1# RF=3、min.insync.replicas=2 的 topic、三 broker 都同步時
2kafka-topics.sh --describe --topic repl-demo --bootstrap-server kafka1:9092
3# Topic: repl-demo  PartitionCount: 1  ReplicationFactor: 3  Configs: min.insync.replicas=2
4#   Topic: repl-demo  Partition: 0  Leader: 2  Replicas: 2,3,1  Isr: 2,3,1

Replicas 欄位是 配置上 的 3 份副本、Isr 欄位是 當前實際同步 的集合。兩者一致代表健康；Isr 比 Replicas 短代表有副本落後。日常巡檢用 kafka-topics.sh --describe --under-replicated-partitions 直接列出 Isr 短於 Replicas 的 partition。

acks 與 min.insync.replicas：寫入承諾的兩個旋鈕

寫入承諾由 producer 端的 acks 跟 broker / topic 端的 min.insync.replicas 共同決定、兩者必須一起設才有意義。acks 決定 producer 在收到「成功」回應前、要等多少 replica 確認；min.insync.replicas 決定 broker 在 ISR 不足時是否拒絕寫入。前者是 producer 的等待策略、後者是 broker 的拒絕底線。

acks 三個值對應遞增的耐久性與遞增的延遲成本：

acks 值	承諾	資料風險	延遲
0	不等任何確認、送出即視為成功	leader 沒收到也不知道、broker 掛掉直接丟	最低
1	leader 寫入本地 log 即回成功	leader 確認後、follower 同步前掛掉、這筆訊息遺失	中
all	ISR 內所有 replica 都確認才回成功	ISR 內任一存活即不丟；ISR 不足 min.insync 時拒絕寫入	最高

acks=0 適用「丟一兩筆無所謂」的場景、例如高頻 metric 上報、log shipping 的非關鍵層。它把網路往返成本壓到最低、代價是 producer 完全不知道 broker 有沒有收到。任何牽涉金流、訂單、狀態變更的訊息都不該用 acks=0。

acks=1 是一個容易被誤以為安全的中間值。它只等 leader 寫入本地、不等 follower 同步。多數時候運作正常、但存在一個明確的資料遺失窗口：leader 回了成功、follower 還沒拉到這筆訊息、此時 leader 所在 broker 崩潰、新 leader 從 follower 中選出 — 那筆「已回成功」的訊息在新 leader 上不存在、producer 卻以為寫成功了。這個窗口在正常運行時很窄、但在 broker 滾動重啟、硬體故障、AZ 中斷時會被放大。

acks=all 是耐久性配置的正解、但只有搭配 min.insync.replicas ≥ 2 才完整。單獨設 acks=all、若 min.insync.replicas=1、那麼當 ISR 收縮到只剩 leader 一份時、acks=all 等同 acks=1 — 「所有 ISR 確認」這個條件在 ISR 只剩 1 份時形同虛設。min.insync.replicas=2 補上這個漏洞：它要求 ISR 至少有 2 份才接受 acks=all 寫入、否則直接拒絕、把「靜默遺失」轉成「明確拒絕」。

min.insync.replicas 是 topic-level 可動態調整的配置、不需重啟 broker：

1# 動態調整單一 topic 的 min.insync.replicas
2kafka-configs.sh --alter --topic repl-demo \
3  --add-config min.insync.replicas=2 \
4  --bootstrap-server kafka1:9092
5
6# 查當前值、synonyms 會顯示 topic override 蓋過 broker default
7kafka-configs.sh --describe --topic repl-demo --bootstrap-server kafka1:9092
8# min.insync.replicas=2 synonyms={DYNAMIC_TOPIC_CONFIG:min.insync.replicas=2,
9#   DYNAMIC_DEFAULT_BROKER_CONFIG:min.insync.replicas=1, DEFAULT_CONFIG:min.insync.replicas=1}

RF=3 + acks=all + min.insync.replicas=2 是業界對「不能丟資料」topic 的標準三件組：3 份副本提供冗餘、acks=all 要求同步確認、min.insync=2 在容忍一台 broker 掛掉的同時仍保證每筆寫入落在至少兩份 replica。容忍度的算術是 RF - min.insync.replicas：3 - 2 = 1、代表可以掉一台 broker 仍正常寫入、掉兩台則寫入被拒（但已寫入的資料不丟）。

Producer idempotence：去掉重送造成的重複

Producer idempotence（冪等生產者、enable.idempotence=true）解決的是 producer 重送 造成的 broker 端重複。它讓「producer 因為沒收到 ack 而重送同一筆訊息」這件事、在 broker 端被去重、不會寫進兩筆。這是處理語義軸線的第一塊、獨立於前面的寫入承諾。

問題的根源是：producer 送出訊息後、若因網路超時沒收到 broker 的 ack、它無法分辨是「訊息沒送到」還是「訊息送到了但 ack 在回程丟了」。預設行為是重送。在沒有冪等保護時、若實際是後者、broker 就收到兩筆相同訊息、partition 裡出現重複。

冪等機制的做法是給每個 producer 分配一個 producer ID（PID）、並為每個 partition 維護一個遞增的 sequence number。Broker 記住每個 (PID, partition) 已接受的最大 sequence；重送的訊息帶相同 sequence、broker 認出是重複、直接丟棄並回成功。這個保證的範圍是 單一 producer session 內、單一 partition 的精確一次寫入。

開啟方式是 producer 端設 enable.idempotence=true。在較新版 Kafka 這已是預設值、且它會隱含要求 acks=all、retries > 0、max.in.flight.requests.per.connection ≤ 5 — 因為冪等去重依賴這些前提。冪等的成本極低（broker 多維護 PID/sequence 的少量 metadata）、幾乎沒有理由關閉。

需要明確的邊界是：冪等只覆蓋 同一個 producer session。Producer 重啟後拿到新的 PID、broker 無法把新舊 session 的訊息關聯起來。跨 session 的去重、以及「寫多個 partition 要嘛全成功要嘛全失敗」的需求、要靠下一段的 transaction。

Kafka transaction 與 read_committed：跨 partition 的原子寫入

Kafka transaction（交易）解決的是 跨多個 partition 的原子寫入 與 consume-process-produce 的原子提交。它讓一組寫入（可能跨多個 topic / partition）以及對應的 consumer offset commit、要嘛全部對下游可見、要嘛全部不可見。這是處理語義軸線的第二塊、建立在冪等之上。

典型場景是 stream processing 的 consume-process-produce 迴圈：consumer 讀入一批訊息、處理後產出結果寫到另一個 topic、然後 commit 讀取進度。若這三步不是原子的、崩潰時可能出現「結果已產出但 offset 沒 commit」（重啟後重複處理、重複產出）或「offset 已 commit 但結果沒寫成功」（訊息遺失）。Transaction 把「產出結果」跟「commit offset」綁成一個原子操作、消除這個窗口。

啟用 transaction 需要 producer 設一個穩定的 transactional.id、並在程式碼中走完整的 transaction 生命週期：

1producer.initTransactions()      // 向 transaction coordinator 註冊、fence 掉舊 session
2producer.beginTransaction()
3  producer.send(record1)          // 跨多個 topic/partition 的寫入
4  producer.send(record2)
5  producer.sendOffsetsToTransaction(offsets, groupMetadata)  // consumer 進度也納入交易
6producer.commitTransaction()      // 全部原子提交；失敗則 abortTransaction()

transactional.id 提供跨 session 的 fencing（隔離）：同一個 transactional.id 的新 producer 啟動時、coordinator 會 fence 掉舊的、避免「殭屍 producer」在崩潰後復活還繼續寫。這是冪等的 PID 機制做不到的跨 session 保證。

實機限制：kafka-console-producer.sh 帶 --producer-property transactional.id=... 不會自動呼叫 initTransactions()、會直接報 IllegalStateException: Cannot add partition ... before completing a call to initTransactions。完整 transaction 生命週期只能在 client code 中驗證、無法用 console 工具演示。本文的 transaction 行為描述依官方 producer API 語義、生命週期程式碼未經本地 client 實機跑通。

Transaction 的另一半在 consumer 端：isolation.level=read_committed。預設的 read_uncommitted 會讀到尚未 commit、甚至最終被 abort 的 transactional 訊息。設成 read_committed 後、consumer 只會看到已 commit 的 transactional 訊息、abort 的訊息對它不可見、未 commit 的訊息會被擋在 last stable offset（LSO）之前等待。

1# consumer 以 read_committed 隔離級別讀取、只看已 commit 的 transactional 訊息
2kafka-console-consumer.sh --topic repl-demo --from-beginning \
3  --isolation-level read_committed \
4  --bootstrap-server kafka1:9092

需要注意：對非 transactional 的普通訊息、read_committed 跟 read_uncommitted 行為相同 — 普通訊息一律可見。隔離級別只對 transactional 訊息產生差異。這也是為什麼若上游沒有任何 transactional producer、把 consumer 改成 read_committed 不會有任何可觀察的效果。

端到端 exactly-once 的邊界與成本

端到端 exactly-once 的意思是：訊息從 producer 到 consumer 處理結果、整條路徑上「不重不漏」。它由前面所有零件疊出來、但有明確的適用邊界、不是萬用保證。

Kafka 原生能提供 exactly-once 的範圍是 Kafka-to-Kafka 的封閉迴圈：consume from Kafka、process、produce to Kafka、commit offset、整個用 transaction 綁定。Kafka Streams 框架把這套封裝成 processing.guarantee=exactly_once_v2 一個配置、底層就是 transaction + 冪等 + read_committed 的組合。在這個封閉迴圈內、exactly-once 是真實成立的。

邊界出現在 離開 Kafka 的那一刻。當處理結果要寫進外部系統（資料庫、HTTP API、第三方服務、寄信、扣款）、Kafka 的 transaction 管不到外部系統的提交。一筆訊息「已扣款但 offset commit 前崩潰」這種跨系統不一致、Kafka transaction 無法消除 — 它只保證 Kafka 內部的原子性。跨系統的 exactly-once 要靠外部系統自己的冪等鍵（idempotency key）、或 outbox pattern、或兩階段提交、由應用層補上、不是 Kafka 送的。

成本方面、exactly-once 不是免費的耐久性升級：

成本維度	影響
吞吐	transaction 的 begin/commit 與 coordinator 往返增加 per-batch overhead、吞吐下降
延遲	read_committed 要等 LSO 推進、consumer 端引入額外延遲
複雜度	producer 要管 transaction 生命週期、abort 路徑、fencing；錯誤處理比 fire-forget 重
coordinator 壓力	transaction coordinator 與 `__transaction_state` topic 成為新的關鍵路徑與容量點

務實的判斷是：先確認需求真的是 exactly-once、還是「at-least-once + 下游冪等」就夠。多數業務（包括金流）用 at-least-once 送達 + 下游用業務冪等鍵去重、就達到了「效果上不重複」、且吞吐與複雜度成本遠低於完整 transaction exactly-once。完整的 Kafka transaction exactly-once 留給 Kafka-to-Kafka 的 stream processing pipeline、那是它的甜蜜點。這個取捨對映 3.6 processing-recovery-semantics 對「在哪一層放冪等」的判讀。

故障演練

可靠性配置的價值在故障時才顯現。以下演練在 3-broker KRaft 叢集（RF=3、min.insync.replicas=2）上跑、用停 broker 製造 ISR 收縮、觀察各配置的真實行為。

ISR 收縮到低於 min.insync.replicas 時 acks=all 被拒

演練：起 3-broker 叢集、建 RF=3 / min.insync.replicas=2 的 topic、初始 ISR = 三台全在。依序停掉兩個 follower broker、觀察 ISR 收縮、再用 acks=all produce。

初始狀態（ISR 三份全在、acks=all 正常）：

1Topic: repl-demo  Partition: 0  Leader: 2  Replicas: 2,3,1  Isr: 2,3,1
2# acks=all produce → exit=0

停一個 follower（broker 3）、ISR 收縮到 2 份、仍滿足 min.insync=2：

1Topic: repl-demo  Partition: 0  Leader: 2  Replicas: 2,3,1  Isr: 2,1
2# acks=all produce → exit=0（ISR=2 仍 >= min.insync=2、寫入接受）

再停一個 follower（broker 1）、ISR 收縮到只剩 leader 1 份、低於 min.insync=2：

1# acks=all produce → broker 拒絕：
2[Producer] Got error produce response ... Error: NOT_ENOUGH_REPLICAS, retrying
3org.apache.kafka.common.errors.NotEnoughReplicasException:
4  Messages are rejected since there are fewer in-sync replicas than required.

判讀：這正是 min.insync.replicas 的設計意圖在運作。ISR 不足時、broker 選擇 明確拒絕寫入（NOT_ENOUGH_REPLICAS）、而不是降級成 acks=1 默默接受。對 producer 而言、寫入失敗會觸發 retry、retry 耗盡後拋例外、上游應用感知到「現在寫不進去」、可以 fail-fast 或 backpressure — 而不是寫了一筆只在單一 broker 上、隨時可能隨那台 broker 一起消失的「假成功」訊息。把資料遺失轉成可觀測的寫入拒絕、是這個配置的全部目的。

恢復：重啟兩個 broker、ISR 自動 expand 回三份、acks=all 恢復接受寫入：

1Topic: repl-demo  Partition: 0  Leader: 2  Replicas: 2,3,1  Isr: 1,2,3

附帶觀察：在 KRaft 模式下、controller 也是 quorum（本演練三台都兼任 controller）。同時停掉兩台、controller quorum 失去多數、kafka-topics.sh --describe 對 metadata 的查詢會 timeout（DisconnectException）。production 叢集應把 controller 數量與 broker 故障域分開規劃、避免 broker 故障連帶打垮 metadata 平面。

Unclean leader election 的取捨

當一個 partition 的所有 ISR replica 都不可用、只剩一個 曾經落後、已被踢出 ISR 的 replica 還活著、Kafka 面臨一個無法兩全的選擇。unclean.leader.election.enable=false（預設）會選擇 不選 leader：這個 partition 進入不可用狀態、拒絕讀寫、直到某個 ISR replica 恢復。unclean.leader.election.enable=true 會選擇 把那個落後的 replica 提為 leader：partition 立刻恢復可用、代價是那個 replica 上缺失的訊息（leader 掛掉前已 commit 但它還沒同步到的部分）永久遺失。

判讀：這是一個 可用性 vs 耐久性 的直接取捨、沒有正確答案、只有對映業務的選擇。對金流、訂單、審計這類「丟一筆都不行」的 topic、保持 false、寧可 partition 短暫不可用也不接受靜默資料遺失。對 metric、log、可重算的衍生資料、開 true 換可用性、丟幾筆可接受。預設 false 是合理的安全預設、但要意識到它的代價是「所有 replica 都不在 ISR 時、partition 會卡住不可用」、這在多 broker 同時故障時會發生。

Idempotent producer 對重送去重

演練：producer 開 enable.idempotence=true、acks=all、模擬 ack 丟失導致的重送。

判讀：冪等開啟後、producer 因網路超時重送的訊息帶相同 (PID, partition, sequence)、broker 認出 sequence 重複、丟棄重送並回成功、partition 內不出現重複。實機上 enable.idempotence=true 的 produce 寫入正常（exit=0）、消費端讀回的訊息數等於實際送出的邏輯訊息數、重送不放大。要記住的邊界仍是：這只覆蓋單一 producer session；producer 重啟換 PID 後、跨 session 的重複要靠 transaction 或下游冪等鍵處理。

Transaction 中途失敗的 read_committed 隔離

演練：transactional producer 在 beginTransaction 後寫入若干訊息、然後 abortTransaction（模擬處理中途失敗）；consumer 分別用 read_uncommitted 與 read_committed 讀取。

判讀：read_committed 的 consumer 看不到被 abort 的訊息 — 中途失敗的 transaction 對它等於沒發生過、不會讀到「處理一半的髒資料」。read_uncommitted 的 consumer 則會讀到這些最終被 abort 的訊息、若據此處理就產生了不該發生的副作用。這是 transaction 隔離的核心價值：把「transaction 失敗」的可見性控制在 commit 邊界內。

本段的 abort 行為依官方 transaction 語義描述。本地以 kafka-console-consumer.sh --isolation-level read_committed 驗證了隔離級別參數可用、且對已 commit 的普通訊息 read_committed 與 read_uncommitted 輸出一致（普通訊息一律可見、隔離級別只對 transactional 訊息產生差異）；完整的 begin/abort transaction 生命週期需 client code、未用 console 工具跑通。

Capacity / cost

各配置的容量與成本影響、決定它適用的規模與 topic 類別：

配置	吞吐 / 延遲影響	適用	警戒
acks=0	最低延遲、最高吞吐	可丟的 metric / log shipping	任何狀態變更類訊息不可用
acks=1	中等、單次往返	容忍極少量遺失的衍生資料	誤當安全選項、broker 故障窗口會遺失
acks=all + min.insync=2 + RF=3	延遲 +1 次跨 broker 往返、吞吐略降	不能丟的業務訊息	min.insync 沒設則 acks=all 在 ISR=1 時失效
enable.idempotence=true	幾乎無額外成本	所有 producer 預設開	只覆蓋單一 session
transaction + read_committed	begin/commit overhead、read 端 LSO 等待延遲	Kafka-to-Kafka stream processing 封閉迴圈	跨外部系統不成立、coordinator 成新關鍵路徑

務實 default：

業務 topic 一律 RF=3 + acks=all + min.insync.replicas=2、idempotence 預設開
容忍度算術 RF - min.insync.replicas 要 ≥ 1、否則單台 broker 維護就會中斷寫入
完整 transaction exactly-once 只給 Kafka-to-Kafka pipeline；跨系統用 at-least-once + 下游冪等鍵
unclean.leader.election 保持 false、除非該 topic 明確可丟資料換可用性

整合 / 下一步

跟 processing-recovery-semantics 對位

寫入承諾保證訊息留在 broker、但處理的不重不漏在 consumer 端。3.6 processing-recovery-semantics 展開 consumer 的 commit 時機、崩潰恢復的 replay 範圍、以及「冪等放在哪一層」的判讀 — 跟本文的 transaction exactly-once 邊界互補：本文界定 Kafka 能送什麼、那篇界定處理端怎麼接才不放大重複。

跟 event-contract-replay-boundary 對位

Exactly-once 的封閉迴圈假設訊息格式穩定、replay 可重現。3.7 event-contract-replay-boundary 展開 schema 演進與 replay 邊界 — 當 transaction 提供的原子性遇上 schema 變更、replay 舊訊息的可重現性會受 contract 影響、是 exactly-once 在時間維度上的延伸限制。

對應反例 3.C9

3.C9 Queue 語義誤配是本文兩條軸線混淆的真實後果：broker 遷移後「名稱上相近的 delivery semantics」在失敗重播時產生不同結果、出現重複扣款與狀態漏更新。判讀路徑正是本文的拆分 — 先確認是寫入承諾（acks / ISR）還是處理語義（idempotence / commit 時機）出問題、不要用 queue depth 這種寫入承諾層的指標去判斷處理語義層的故障。

對應案例 3.C21 Goldman Sachs MSK 遷移

3.C21 Goldman Sachs MSK 遷移揭露遷移時可靠性配置的細節風險集中在 client 端的 timeout / flush / LB 配置、而非 broker 本身。本文的 acks=all 在 ISR 不足時拒絕寫入、若 client 端的 retry 與 timeout 沒對齊（如 flush timeout 太短）、會把「broker 正常的 backpressure」誤判成「遷移失敗」。可靠性配置與 client 容錯參數要一起驗證。

下一步路由

上游概念：delivery semantics、idempotency 知識卡
同 vendor：Kafka overview 的 producer / consumer 設計段
下游能力：3.6 processing-recovery-semantics、3.7 event-contract-replay-boundary、6.12 idempotency / replay
方法論：Vendor 深度技術文章的寫作方法論

NATS JetStream 設計與 supercluster / leaf node：stream、consumer、跨區拓樸與多租戶

Tue, 16 Jun 2026 00:00:00 +0000

本文是 NATS overview 的 implementation-layer deep article。Overview 回答「NATS 該不該選、Core NATS vs JetStream 怎麼分」；要不要從 core NATS 跨進 JetStream 的決策入口見 core 到 JetStream 的邊界；本文回答「JetStream stream / consumer 的每個旋鈕怎麼設、設錯踩什麼坑、跨區拓樸怎麼鋪、多租戶怎麼隔離」。寫作結構依 Vendor 深度技術文章的寫作方法論的 6 段框架。

JetStream 把 fire-and-forget 升級成 durable log

JetStream 是 NATS 內建的持久化層、責任是把 Core NATS 的 fire-and-forget subject 轉成 append-only 的 durable stream、並讓 consumer 能 ack、重投、replay。Core NATS 的訊息一旦沒有 active subscriber 就消失；JetStream 把符合特定 subject 的訊息攔截下來寫進 stream、即使沒有任何 consumer 在線也會留存到 retention 上限。

兩個概念要先分清楚、後面所有配置都掛在這個分界上。Stream 是儲存責任：定義「哪些 subject 的訊息要存、存多久、存多少、存哪裡」。Consumer 是投遞責任：定義「從 stream 的哪個位置開始讀、怎麼 ack、ack 不回來要不要重投、重投幾次」。同一個 stream 可以掛多個 consumer、各自有獨立的讀取游標跟重投狀態、互不影響。這個 stream / consumer 二分是 JetStream 跟 Kafka（topic / consumer group）對應、但跟 RabbitMQ（queue 本身就綁消費）不同的核心模型差異。

本文用一個訂單事件流當主線：subject 設計成 orders.created.、stream 名 orders、subject filter orders.>。實機環境用單機 NATS server 加 -js、CLI 用 natsio/nats-box 容器；跨節點的 Cluster / quorum 段用 3 節點 docker compose 驗證、Supercluster / Leaf node 因拓樸複雜以 case 敘述加官方文件 caveat 標註。

Stream 設計：storage、retention、discard、容量上限

Stream 的設計責任是回答四個彼此獨立的問題：訊息存在哪種介質、用什麼規則決定保留、超過上限時丟哪一端、上限本身設多大。這四個旋鈕組合錯了不會在建立時報錯、而是在 production 流量打進來才以丟訊息或塞爆 disk 的形式爆出來。

Storage：file vs memory

Storage type 決定訊息寫在 disk 還是 RAM。file storage 把 stream 寫進 disk、server 重啟後資料還在、是需要 durability 的事件流預設選擇；memory storage 把 stream 放 RAM、吞吐跟延遲更好但 server 重啟即全失、適合短期 fan-out 或可重建的快取型資料。

實機建一個 file storage、limits retention、discard old 的 stream：

 1nats --server nats://localhost:4232 stream add orders \
 2  --subjects 'orders.>' \
 3  --storage file \
 4  --retention limits \
 5  --discard old \
 6  --max-msgs 1000 \
 7  --max-bytes 10MB \
 8  --max-age 1h \
 9  --replicas 1 \
10  --defaults

nats stream info orders 回報的配置確認旋鈕都生效：

1                     Subjects: orders.>
2                      Storage: File
3                    Retention: Limits
4               Discard Policy: Old
5             Maximum Messages: 1,000
6                Maximum Bytes: 10 MiB
7                  Maximum Age: 1h0m0s

選 memory 的判讀訊號：訊息可從上游重建（例如 metrics 採樣、可重抓的 snapshot）、或 consumer 一定在線且消費速度跟得上、且單 stream 資料量遠小於可用 RAM。一旦這三條有一條不成立、預設回到 file storage。

Retention：limits vs interest vs workqueue

Retention policy 決定「訊息什麼時候從 stream 移除」、是 stream 三種使用形態的分水嶺。

limits retention 是時間 / 容量驅動：訊息留到撞上 MaxMsgs / MaxBytes / MaxAge 任一上限才移除、跟有沒有人消費無關。這是「事件 log」形態、適合需要 replay、多個獨立 consumer 各讀各的場景。訂單事件流用 limits、因為審計、對帳、即時處理可能是三個獨立 consumer、訊息不能因為某個 consumer ack 了就消失。

interest retention 是訂閱驅動：當 stream 上所有已註冊的 consumer 都 ack 了某筆訊息、該訊息立刻移除。它介於 limits 跟 workqueue 之間、適合「只要所有關心的 consumer 都收到就不必再留」的扇出場景。

workqueue retention 是任務佇列形態：每筆訊息只會被一個 consumer 成功 ack、ack 後立刻刪除。它把 stream 當成工作分派佇列、語意接近 RabbitMQ 的 work queue。實機驗證 workqueue 的 retention 在 info 反映：

1nats --server nats://localhost:4232 stream add wq \
2  --subjects 'wq.>' --storage memory --retention work \
3  --max-msgs 100 --replicas 1 --defaults
4# nats stream info wq → Retention: WorkQueue

判讀路由：需要多 consumer 各自 replay → limits；需要扇出且所有訂閱者收齊就清 → interest；需要競爭式單次消費的任務派工 → workqueue。選 workqueue 卻又掛兩個 filter 重疊的 consumer 會在建 consumer 時被拒、因為 workqueue 不允許同一筆訊息被兩個 consumer 認領。

Discard：old vs new

Discard policy 決定 stream 撞上 MaxMsgs / MaxBytes 上限後 丟哪一端。這個旋鈕的選擇直接對應業務對「舊資料」跟「新資料」誰更重要的判斷、選錯會靜默丟訊息。

discard old 在達上限時丟掉最舊的訊息、騰空間給新訊息。實機驗證：max-msgs 設 3、連發 5 筆、stream 留下最後 3 筆：

1discard old, max-msgs 3, published 5:
2                     Messages: 3
3               First Sequence: 3
4                Last Sequence: 5

最舊的 seq 1、2 被丟、保留 seq 3-5。這對應「新資料比舊資料重要」的場景：即時儀表板、最新狀態快照、寧可丟歷史也要保住最新。

discard new 在達上限時拒絕新訊息、保住已存的舊訊息。同樣 max-msgs 3、連發 5 筆：

1discard new, max-msgs 3, published 5:
2                     Messages: 3
3               First Sequence: 1
4                Last Sequence: 3

保留 seq 1-3、後到的 seq 4、5 進不來。這對應「舊資料是已承諾的工作、不能丟」的場景：任務佇列在塞滿時應拒收新任務（並對上游施加 backpressure）、而不是把排隊中的任務擠掉。

discard new 有個容易踩的投遞行為差異、見故障演練 Case 2。

容量上限：MaxMsgs / MaxBytes / MaxAge

三個上限是 OR 關係：任一撞到就觸發 discard / 移除。MaxMsgs 限筆數、MaxBytes 限總位元組、MaxAge 限訊息存活時間。實務上三者搭配使用：MaxAge 防止無限累積（例如事件流只保留 7 天）、MaxBytes 是 disk 的硬護欄（防單 stream 撐爆 volume）、MaxMsgs 在訊息大小均勻時當作粗略筆數控制。

容量規劃的判讀順序是先定 MaxAge（業務需要 replay 多久）、再用「平均訊息大小 × 預估 throughput × MaxAge」反推 MaxBytes 是否在 disk 預算內、超出就縮短 MaxAge 或拆 stream。把 MaxBytes 設成 unlimited 而只靠 MaxMsgs 是常見的容量事故來源：訊息大小一旦變大（例如 payload 夾帶了 base64 附件）、筆數沒到上限但 disk 已滿。

Consumer 設計：pull/push、ack、AckWait、MaxDeliver、replay

Consumer 的設計責任是控制「訊息怎麼從 stream 送到處理端、處理端怎麼確認、確認不回來怎麼辦」。它的每個旋鈕都圍繞同一個核心張力：在 at-least-once 投遞下、如何在「不漏處理」跟「不過度重投」之間取得平衡。對應的概念基礎見 Delivery Semantics 與 Processing Semantics 知識卡。

Pull vs push

Pull consumer 由處理端主動拉：consumer 發 pull request 帶 batch size、server 才送對應數量的訊息。流量控制天然落在消費端、消費端有多少處理能力就拉多少、是現代 JetStream 應用的預設模式。Push consumer 由 server 主動推到一個 delivery subject、處理端訂閱那個 subject、適合需要 server 端 flow control 或既有 Core NATS 訂閱模型遷移的場景。

實機建一個 pull consumer、explicit ack、AckWait 30s、MaxDeliver 5、replay instant：

1nats --server nats://localhost:4232 consumer add orders worker \
2  --pull \
3  --deliver all \
4  --ack explicit \
5  --wait 30s \
6  --max-deliver 5 \
7  --replay instant \
8  --filter 'orders.>' \
9  --defaults

nats consumer info orders worker 確認配置：

1                    Name: worker
2               Pull Mode: true
3          Deliver Policy: All
4              Ack Policy: Explicit
5                Ack Wait: 30.00s
6           Replay Policy: Instant
7      Maximum Deliveries: 5

push consumer 改用 --target 取代 --pull、info 會回報 Delivery Subject: 而非 Pull Mode。

AckPolicy：explicit 是預設選擇

Ack policy 決定 consumer 怎麼確認訊息已處理。explicit 要求對每一筆訊息單獨 ack、是 at-least-once 處理的基礎、production 預設選擇。all 用累積 ack：ack 第 N 筆等於 ack 了第 N 筆以前全部、吞吐高但一筆處理失敗會讓整段重投。none 完全不 ack、投遞即視為完成、語意退化成接近 fire-and-forget、只適合可容忍丟失的場景。

explicit ack 之所以是預設、是因為它讓每筆訊息的處理結果獨立可追蹤：哪筆 ack 了、哪筆還 outstanding、哪筆重投超限、都能在 consumer info 看到。實機發 3 筆訊息後、consumer info 的 Unprocessed Messages 反映 stream 中尚未投遞的 backlog：

1nats --server nats://localhost:4232 pub orders.created.us-1 "order-1"
2# 發 3 筆後：
3# nats consumer info orders worker →
4#     Unprocessed Messages: 3

拉出訊息但不 ack、consumer info 的 Outstanding Acks 反映已投遞但未確認的數量：

1        Outstanding Acks: 3 out of maximum 1,000

這兩個數字是診斷 consumer 健康的第一手訊號：Unprocessed 高代表 consumer 拉得太慢或停了（stream backlog）；Outstanding Acks 持續高代表訊息拉出去了但處理端沒 ack（處理慢或卡住）。這個區分對應 overview 排錯段的「pending 是 ack-pending 還是 stream backlog」判讀。

AckWait + MaxDeliver：重投的兩個邊界

AckWait 是 server 等待 ack 的時間窗：訊息投遞後、若 AckWait 內沒收到 ack、server 視為投遞失敗、重新投遞。MaxDeliver 是同一筆訊息的投遞次數上限：達到後不再重投、訊息進入 terminal 狀態（可導向 advisory / DLQ 機制）。

這兩個旋鈕共同定義重投行為。AckWait 要設成 略大於 consumer 處理一筆訊息的 p99 時間：太短會在 consumer 還在正常處理時就誤判失敗重投、造成重複處理（見故障演練 Case 1）；太長會讓真正卡死的訊息遲遲不重投、拖慢 recovery。MaxDeliver 是 poison message 的護欄：一筆訊息若處理永遠失敗（例如 payload 格式壞）、沒有 MaxDeliver 它會無限重投佔住 consumer。對應 Redelivery Loop 知識卡描述的失控重投。

Replay：instant vs original

Replay policy 只在 consumer 從歷史位置讀（例如 --deliver all 重讀整個 stream）時生效、決定投遞節奏。instant 以 server 最快速度投遞、是處理 backlog 或重建狀態的預設。original 按訊息 原始寫入的時間間隔 重放：若原始訊息間隔 1 秒寫入、replay 也間隔 1 秒投遞、用於需要重現時序的測試或模擬。實機兩種都可建：

1nats consumer add orders replayorig ... --replay original  # Replay Policy: Original

Cluster / Supercluster / Leaf node：三層拓樸

NATS 的拓樸分三層、各解一個不同尺度的問題：Cluster 解單區內的高可用、Supercluster 解跨區的延展、Leaf node 解邊緣到中心的連接。三者可組合、但職責不重疊。

Cluster：單區 Raft 高可用

Cluster 是同一 region 內多個 NATS server 用 full mesh route 互連、JetStream 的 stream 透過 Raft 在多個 replica 間複製。Replica 數（R1 / R3 / R5）決定容錯：R3 容忍 1 節點失效、R5 容忍 2 節點。Raft 要求多數派（quorum）才能寫入、所以 R3 需要至少 2 節點健康。

實機用 3 節點 docker compose 起 cluster、建 R3 stream、stream info 顯示 Raft group 與 replica 狀態：

1nats --server nats://n1:4222 stream add rep3 \
2  --subjects 'rep3.>' --storage file --retention limits \
3  --discard old --max-msgs 1000 --replicas 3 --defaults

1                     Replicas: 3
2Cluster Information:
3                Cluster Group: S-R3F-unEqlH8C
4                       Leader: n2 (222ms)
5                      Replica: n1, current, seen 217ms ago
6                      Replica: n3, current, seen 219ms ago

Leader 是 Raft 選出的寫入協調者、其餘 replica 跟隨。current 代表該 replica 與 leader 同步；落後會顯示 outdated 加落後的 operation 數。失去 quorum 的行為見故障演練 Case 4。

Supercluster：跨區 gateway 延展

Supercluster 用 gateway 連接多個 Cluster、形成跨 region / 跨雲的單一 NATS 邏輯網路。Gateway 之間是按需轉發、不是 full mesh：訊息只在有訂閱者的 region 之間流動、避免跨區頻寬被無謂的全量複製吃掉。Supercluster 讓 publisher 在任一 region 發訊息、訂閱者在另一 region 收到、同時讓每個 Cluster 維持自己的 JetStream Raft 群組與本地高可用。

以下 Supercluster 行為依 NATS 官方文件描述、未在本文實機環境驗證（gateway 多區拓樸需要跨 region 部署）。

3.C35 Form3 是 Leaf node 跨雲橋接的代表案例（Supercluster 為相應的一般拓樸選項、case 本身明確點到的是 Leaf node）：服務 Tier-1 銀行、要求 500ms 端到端 SLA、AWS SNS/SQS 約 300ms 延遲吃掉預算。Form3 用 JetStream 跨雲橋接、達到約 6× 延遲改善、並做到「AWS 整個 region 掛掉時不喪失處理能力」。這個案例揭露的判讀是：金融支付的硬 latency 預算逼出特定拓樸選型、不是把 Kafka / SQS 通用化套上去。

Leaf node：邊緣連中心

Leaf node 是輕量 NATS server、跑在邊緣（工廠、店面、IoT gateway）、透過單一 leaf connection 連回中心 hub。它在邊緣本地提供完整的 NATS / JetStream 能力（本地 publish / subscribe / 本地持久化）、同時把需要的 subject 透過 leaf connection 雙向橋接到 hub。Leaf node 的價值在於：邊緣到中心的網路斷線時、邊緣端的本地 JetStream 持續收訊息、連線恢復後再同步、不丟資料。

以下 Leaf node 行為依 NATS 官方文件與下列 case 描述、未在本文實機環境驗證（leaf 拓樸需要 hub + edge 雙端部署）。

3.C37 MachineMetrics 是 Leaf node 邊緣到雲端的完整案例：跨數百客戶廠區、數千機台、單機最高 1000Hz 採樣、工廠網路斷斷續續、Kinesis 等 cloud-only 工具無法跑在資源受限 edge。MachineMetrics 用 Leaf node 做 hub-and-spoke、edge 端用 JetStream 做本地持久化抵抗斷線。這個案例揭露的判讀是：broker 的功能集合（messaging + 本地持久化 + KV + Object Store + auth）決定它能不能取代邊緣的多套工具。

3.C41 i-flow 是多工廠 leaf node 拓樸的另一證據：每日 4 億筆 data operation、200+ OT/IT connector、用 leaf node hub-and-spoke 把多工廠接到 central、而不是每工廠自管一套 cluster。判讀：多工廠場景的運維成本由「每個邊緣點是不是要獨立維運一套 cluster」決定、leaf node 把邊緣端壓到單一 server。

Subject-based ACL 與多租戶

NATS 多租戶的主機制是 account：account 是完全隔離的 subject 命名空間、不同 account 之間預設互不可見、即使 subject 名稱相同也不會互通。Account 之內再用 subject-level permission 控制每個 user 能 publish / subscribe 哪些 subject。這兩層組合起來：account 給租戶硬隔離、subject permission 給租戶內的角色細分權限。

跨 account 的受控互通用 import / export：一個 account 把特定 subject export 出來、另一個 account 顯式 import、才會打通那條 subject。預設不通、互通是顯式授權的結果、這讓多租戶的資料流動可審計。對應 MachineMetrics 案例用 decentralized auth 隔離不同客戶廠區的設計：每個客戶是一個 account、廠區設備在 account 內用 subject permission 限定只能發自己廠區的 subject。

多租戶設計的判讀訊號：租戶之間要完全隔離、用 account；同租戶內的不同服務 / 角色要限權、用 subject permission；少數需要跨租戶共享的 subject（例如全域控制信號）、用 import / export 顯式打通、不要為了方便把不同租戶塞進同 account。

Production 故障演練

deep article 的差異化價值在故障演練。以下四個都是 JetStream stream / consumer / 拓樸層的典型事故、前兩個有本文實機驗證、後兩個結合實機（quorum）與 case 敘述。

Case 1：AckWait 太短造成重複處理

徵兆：consumer 正常運行、處理邏輯沒報錯、但下游出現大量重複副作用（重複扣款、重複寄信、重複寫入）。consumer info 的 Redelivered Messages 持續上升、即使處理端沒有任何 exception。

根因：AckWait 設得比 consumer 處理一筆訊息的實際耗時短。訊息投遞後 consumer 還在處理、AckWait 就到期、server 判定投遞失敗、把同一筆訊息重投給（可能是另一個）consumer 實例、於是同一筆訊息被處理兩次。實機重現：建一個 AckWait 1s 的 consumer、拉出訊息不 ack、過 1s 後再拉、tries 從 1 變 2：

1第一次拉：subj: orders.created.us-1 / tries: 1 / str seq: 1
2過 1s 後：subj: orders.created.us-1 / tries: 2 / str seq: 1
3consumer info → Redelivered Messages: 3

修法：

量測再設值：AckWait 設成 consumer 處理 p99 時間的 2-3 倍、而不是拍腦袋設 30s。處理一筆要 5s 的 worker 配 AckWait 30s、處理一筆要 45s 的 worker 配 AckWait 30s 就會持續誤判重投。
長任務用 in-progress ack：處理時間本就偏長且方差大的任務、處理端在處理中定期送 AckProgress（working ack）延長 AckWait、而不是把 AckWait 設成一個無法涵蓋最壞情況的固定大值。
處理端做冪等：at-least-once 投遞下重複是常態而非異常、副作用以業務 key 去重（對應 Processing Semantics 的冪等要求）。AckWait 只能降低重複頻率、不能消除重複。

Case 2：discard policy 選錯靜默丟訊息

徵兆：上游 publisher 一切正常、沒收到任何 error、但下游 consumer 發現訊息有缺口（seq 跳號）、或最舊的歷史訊息神祕消失。對帳時帳目對不上、但日誌裡找不到任何失敗紀錄。

根因：兩種情況。其一、stream 用 discard old、流量超過 MaxMsgs / MaxBytes、最舊的訊息被靜默丟棄騰空間——這在「事件 log 需要完整 replay」的場景是資料遺失。其二、stream 用 discard new、滿了之後新訊息被拒、但 publisher 用的是 Core NATS publish（不等 stream ack）、所以 publisher 端看到「發送成功」、訊息其實沒進 stream。實機重現後者的危險：對一個 discard new 已滿的 stream 用 Core pub 與 JetStream-aware pub、結果完全不同：

1Core pub（不等 ack）：    Published 8 bytes to "dnew.x"        ← 看似成功、實際丟失
2JetStream pub（等 ack）： nats: error: maximum messages exceeded (10077)  ← 正確報錯

修法：

publisher 一律用 JetStream-aware publish：等 stream 的 PubAck 回來才算發送成功、才能在 stream 滿、quorum 失效、subject 不匹配時收到明確 error。用 Core pub 發進 JetStream subject 等於放棄所有投遞保證。
discard policy 對齊業務語意：事件 log（需要完整歷史）配 limits + 充足 MaxAge、絕不靠 discard old 當容量控制；任務佇列配 discard new + 上游 backpressure、滿了就讓 producer 慢下來而不是擠掉排隊任務。
監控 discard 計數：stream 的 discard 不是錯誤狀態、不會觸發 alert。要主動監控訊息 seq 連續性與 stream 的訊息移除速率、把「非預期的 discard」變成可觀測訊號。

Case 3：Leaf node 斷線重連

徵兆：邊緣端（工廠 / 店面）到中心 hub 的網路抖動、leaf connection 反覆斷開重連、hub 端看到某些 subject 的訊息延遲尖刺、邊緣端 reconnect 計數持續累加。網路恢復後、邊緣累積的訊息一次湧入 hub、造成 hub 端短暫的處理尖峰。

根因：邊緣到中心是廣域網、品質不如資料中心內網。Leaf connection 斷線期間、邊緣端的本地 JetStream 持續收訊息並本地持久化（這正是 leaf node 的設計目的）；連線恢復後、累積的 backlog 一次同步到 hub、形成尖峰。若邊緣端沒有本地 JetStream、斷線期間的訊息直接丟失。

以下根因與修法依 NATS 官方 leaf node 文件與 MachineMetrics / i-flow case 描述、未在本文實機環境驗證。

修法：

邊緣端必開本地 JetStream：把斷線容忍從「依賴網路不斷」改成「斷線期間本地持久化、恢復後同步」。這是 MachineMetrics 用 edge JetStream 取代 SQLite 的核心理由——工廠網路斷斷續續是常態、不是異常。
hub 端對同步尖峰做 flow control：恢復連線後的 backlog 同步用 consumer 端的 pull batch 限速、避免邊緣 backlog 一次打爆 hub 的處理能力。
監控 reconnect 與 latency：leaf 連線的 reconnect 次數與 subject mapping latency 是邊緣網路品質的直接訊號（對應 overview 排錯段「leaf node 連線不穩」）。reconnect 頻繁代表網路或 hub 容量要處理、不是調 leaf 參數能解。

Case 4：Stream replica 失去 quorum

徵兆：R3 stream 突然無法寫入、publisher 的 JetStream publish 卡住後回 no responders available；stream info 顯示 Leader: 欄位空白、多數 replica 標 OFFLINE。讀取可能還能從存活節點拿到舊資料、但寫入完全停擺。

根因：JetStream 的 stream 用 Raft 複製、寫入需要多數派確認。R3 stream 需要至少 2 節點健康才有 quorum；同時失去 2 節點就只剩 1 節點、達不到多數、Raft 無法選出 leader、stream 變成無法寫入。實機重現：3 節點 cluster 的 R3 stream、停掉 2 個節點、stream info 顯示無 leader、JetStream publish 報錯：

1停 2 節點後 stream info：
2                       Leader:
3                      Replica: n1, current, seen 3.35s ago
4                      Replica: n2, outdated, OFFLINE, not seen
5                      Replica: n3, outdated, OFFLINE, not seen
6
7此時 JetStream publish：
8                      nats: error: nats: no responders available for request

恢復 1 個節點（回到 2/3 多數）後、Raft 立即重選 leader、stream 恢復可寫：

1啟動 n2 後：
2                       Leader: n1 (506ms)
3                      Replica: n2, current, seen 499ms ago
4                      Replica: n3, outdated, OFFLINE, not seen, 4 operations behind

修法：

replica 數對齊容錯目標：要容忍 1 節點失效用 R3、容忍 2 節點用 R5；不要為了省資源把關鍵 stream 設 R1（單點、節點掛了 stream 直接不可用）。
replica 跨 failure domain 散開：R3 的 3 個 replica 要落在不同 availability zone / rack、避免單一 AZ 故障同時帶走 2 個 replica 直接失去 quorum。
監控 replica 健康而非只看 leader：stream info 的每個 replica 的 current / outdated / OFFLINE 狀態是 quorum 餘裕的直接訊號。R3 已經有 1 個 replica OFFLINE 時 quorum 餘裕只剩 0、要當成 P1 處理、不能等到第 2 個也掛才反應（對應 overview 排錯段「JetStream raft 不一致」）。

容量與規模判讀

JetStream 的配置在不同規模下適用性不同、超出範圍要換拓樸而非調參數。

規模訊號	適用拓樸	換檔訊號
單區、中等吞吐、需要 HA	單 Cluster R3	單區頻寬 / 節點數撐不住 → 加節點 reshard 或拆 stream
跨 region / 跨雲、訂閱者分散各區	Supercluster（多 Cluster + gateway）	需要邊緣本地持久化 → 疊加 Leaf node
大量邊緣點、網路不穩、邊緣要本地能力	Leaf node hub-and-spoke	邊緣點 > 數百、每點要獨立運維 → 評估 managed（Synadia）

單 Cluster R3 是多數中等規模服務的起點：單區內高可用、JetStream Raft 處理節點故障、運維只有一套 cluster。撞到天花板的訊號是單區頻寬或單節點 disk / CPU 到上限、此時先評估加節點重分配或把熱 stream 拆出去、而不是急著上 supercluster。

Supercluster 在訂閱者地理分散、或要求單區整個掛掉仍能服務時才值得引入。它的成本是跨區 gateway 的運維複雜度與跨區頻寬、不該為了「以後可能要跨區」提前鋪。Form3 的判讀是硬 SLA（500ms、region 全掛仍可用）逼出來的、不是預設架構。

Leaf node hub-and-spoke 在邊緣點多、邊緣網路不穩、邊緣要本地持久化 / KV / 計算能力時適用。當邊緣點數量大到每點獨立運維成本不可接受、評估走 managed NATS（Synadia Cloud）把運維外包、而不是自建更大的 hub。

整合與下一步

本文聚焦 JetStream stream / consumer / 拓樸的 implementation；以下是往上下游的銜接。

回 vendor overview 與相鄰章節

上游 vendor 頁：NATS overview——Core NATS vs JetStream 的選型判讀、排錯快速判讀、何時改走其他 broker
跨 vendor consumer 設計：3.4 consumer 設計——本文的 pull/push、ack、重投放回語言無關的 consumer 設計框架
投遞與處理語意基礎：Delivery Semantics / Processing Semantics / Redelivery Loop 知識卡

對應 case

3.C35 Form3——Supercluster + Leaf node 跨雲低延遲支付、硬 SLA 驅動拓樸
3.C37 MachineMetrics——Leaf node + edge JetStream + KV + Object Store + 多租戶 auth 的完整邊緣案例
3.C41 i-flow——多工廠 leaf node hub-and-spoke、運維成本驅動拓樸選型

後續可深入的議題

JetStream KV / Object Store：基於 stream 的 key-value 與 blob 儲存、何時用 NATS KV vs 真的 KV 服務（Redis / etcd）、見 overview 進階主題段
Leaf node 多節點實機驗證：本文 Supercluster / Leaf node 段以 case + 官方文件敘述；補一篇 hub + edge 雙端 compose 的實機演練（含斷線注入、backlog 同步觀測）是自然延伸
Subject mapping 與 transform：leaf node 跨層的 subject 重映射、跨 account import / export 的細部配置

RabbitMQ → AWS SQS：交出 broker 維運、把 routing 收斂進 application

Tue, 16 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 RabbitMQ 跟 AWS SQS。對照 Kafka ↔ NATS 的 paradigm shift、本篇主導差異維度是 operational model：source 跟 target 都是任務隊列、能力大致對得上、但運維責任從「自管 broker 叢集」整批交給 AWS managed 服務。

RabbitMQ → AWS SQS 的核心是把 broker 運維責任轉移給 managed 服務、同時接受 SQS 沒有 exchange routing 這個事實、把路由邏輯收斂回 application 或改用 SNS fan-out。這個遷移不是 protocol drop-in（AMQP client 不能直接連 SQS）、application 端需要改 delivery 控制機制（manual ack → visibility timeout + delete）；但它也不是 paradigm shift（兩端都是 at-least-once 任務隊列、DLQ / 重試 / 解耦的語意一致）。主導差異落在 operational 維度、所以本文走 Type C operational redesign hybrid 結構。

為什麼遷：不想再養 RabbitMQ 叢集

觸發評估 SQS 的最常見壓力是 broker 維運成本、不是功能缺口。自管 RabbitMQ 叢集要承擔的運維責任包含 Erlang cluster 拓樸維護、network partition（腦裂）處理、quorum queue 的 Raft 一致性調校、disk / memory alarm 的容量規劃、版本升級的 rolling restart。這些責任需要至少 0.5-1 FTE 的持續投入、且在 network partition 這類事故發生時需要熟悉 Erlang runtime 的人即時介入。

SQS 把這整層責任移除。沒有 broker 實例、沒有 cluster 拓樸、沒有 disk / memory watermark、沒有版本升級。換來的代價是 routing 能力消失（SQS 沒有 exchange）、application 要改 delivery 控制機制、以及 AWS 生態綁定。這個交換在三種情境下成立：

第一種是 AWS 生態原生服務。若 producer / consumer 已經跑在 Lambda、ECS、EKS 上、SQS 的 event source mapping 跟 IAM 整合讓 application 不必自管連線池跟認證。RabbitMQ 在 AWS 上要嘛自管 EC2 叢集、要嘛用 Amazon MQ（仍是 broker 模型、運維責任只是部分轉移）、都不如 SQS 的 serverless 整合直接。

第二種是 routing 邏輯本來就簡單。若 RabbitMQ 的用法是 direct exchange + 少數固定 routing key、或單純 worker pool 消費單一 queue、那 exchange 的靈活性本來就沒被用到、遷到 SQS 不損失能力。Airbnb 的 Dynein 分散式延遲任務系統就是這個形狀：用 SQS at-least-once + DLQ 取代原本受限於單 Redis 的 Resque、每 scheduler instance 達約 1000 QPS、水平擴展（見 3.C48 Airbnb Dynein）。任務排程對「不丟資料」的需求 at-least-once 足夠、不需要 broker 級 routing。

第三種是團隊規模不支撐 broker 專業。小團隊養一套 RabbitMQ 叢集、真正用到的是「可靠的任務隊列 + DLQ」、但要付出整套 Erlang 運維學習曲線。把這層交給 SQS、團隊把精力放回 application 邏輯。

6 維 diff dimension audit

遷移前先跑 diff dimension audit、對每個維度評估 source 跟 target 的差異程度、決定主導維度跟結構：

維度	RabbitMQ（self-managed）	AWS SQS（managed）	差異
Schema / API	AMQP 0-9-1 協議、exchange / queue	HTTP API、SendMessage / ReceiveMessage	中
Operational model	自管 Erlang 叢集、cluster / disk / 升級	Fully managed、無實例、無版本	高
Abstraction / paradigm	任務隊列 + 重試 + DLQ	任務隊列 + 重試 + DLQ	低
Components（1 vs N）	broker 一站式（routing 內建）	SQS + 需要 SNS 補 fan-out routing	中
Application change	manual ack / nack、prefetch、AMQP client	visibility timeout + delete、batch、SDK	中高
Data topology	單叢集 / federation 拓樸	region-scoped queue、無拓樸概念	低

主導維度是 operational（高）：遷移的核心價值跟核心風險都在「broker 運維責任整批轉移」。Application change 維度評中高、因為 delivery 控制機制要改、但這是受控的 SDK 層改寫、不是 paradigm 重設計。Components 維度評中、因為 exchange routing 在 SQS 沒有對等物、要靠 SNS fan-out 或多 queue 補回來。其餘三維度低或中。

主導維度落在 operational、所以主結構走 Type C：以 operational redesign 對位開頭、phased 執行、故障演練聚焦在「以為對等其實不對等」的運維陷阱。Application change 跟 Components 兩個次高維度不硬塞進主結構、各自抽出獨立段（下面「application 改寫」跟「routing 收斂」兩段）。

Operational redesign 對位

Operational 維度差異最大、先逐項對位「原本自己做的事、現在誰做、怎麼做」：

運維責任	RabbitMQ（自己做）	SQS（managed / application）
高可用	quorum queue + cluster + partition 處理	AWS 跨 AZ 自動冗餘、無需配置
容量規劃	disk / memory watermark、queue length 限	自動擴展、無實例容量概念
版本升級	rolling restart、相容性驗證	無、AWS 維護
監控	Management UI + Prometheus exporter	CloudWatch metric（depth / age）
Delivery 控制	broker-side ack / nack 狀態機	client-side visibility timeout + delete
重試 / DLQ	DLX + dead-letter routing key	redrive policy + maxReceiveCount
Routing	exchange + binding（broker 內建）	application 或 SNS（broker 外）

前四列是純收益：責任消失、不需要對等實作。後三列是責任轉移、不是消失 — delivery 控制從 broker 移到 client、重試從 DLX 移到 redrive policy、routing 從 broker 移到 application。這三列正是故障演練聚焦的地方、因為「以為功能還在、其實機制換了」是這類遷移的主要事故來源。

監控這列值得展開。RabbitMQ 的 queue depth、unacked、consumer 數量是從 broker 直接讀；SQS 改看 CloudWatch 的 ApproximateNumberOfMessagesVisible（queue depth）跟 ApproximateAgeOfOldestMessage（lag 訊號）。差異在於 SQS 的 metric 是 approximate、且有分鐘級延遲、不適合用來做秒級的 backpressure 決策。原本靠 RabbitMQ Management UI 即時看 queue 狀態的 runbook 要改寫成 CloudWatch alarm 驅動。

Application 改寫：manual ack → visibility timeout + delete

Application change 維度的核心是 delivery 控制機制換了一套模型。RabbitMQ 是 broker-side 維護訊息狀態、consumer 用 ack/nack 回報處理結果；SQS 是 client-side 用 visibility timeout + 顯式 delete、broker 不維護「處理中」以外的狀態。

 1# RabbitMQ 端：manual ack pattern
 2channel.basic_qos(prefetch_count=10)  # 一次最多領 10 條未 ack
 3
 4def callback(ch, method, properties, body):
 5    try:
 6        process(body)
 7        ch.basic_ack(delivery_tag=method.delivery_tag)
 8    except Exception:
 9        # nack + requeue，或丟 DLX
10        ch.basic_nack(delivery_tag=method.delivery_tag, requeue=False)
11
12channel.basic_consume(queue="orders", on_message_callback=callback)
13channel.start_consuming()

 1# SQS 端：visibility timeout + delete pattern
 2while True:
 3    resp = sqs.receive_message(
 4        QueueUrl=queue_url,
 5        MaxNumberOfMessages=10,        # batch、對應 prefetch
 6        WaitTimeSeconds=20,            # long polling
 7        VisibilityTimeout=60,          # 處理中對其他 consumer 隱藏
 8    )
 9    for msg in resp.get("Messages", []):
10        try:
11            process(msg["Body"])
12            sqs.delete_message(           # 顯式 delete = ack
13                QueueUrl=queue_url,
14                ReceiptHandle=msg["ReceiptHandle"],
15            )
16        except Exception:
17            pass  # 不 delete、visibility timeout 後自動回 queue 重試

對應關係：

RabbitMQ basic_ack → SQS delete_message：處理成功的訊息要顯式刪除、否則 visibility timeout 後重新可見。「不做事」在 SQS 等於「重試」、在 RabbitMQ 等於「卡住 unacked」。
RabbitMQ prefetch_count → SQS MaxNumberOfMessages（上限 10）+ visibility timeout：併發控制從「broker 限制未 ack 數量」變成「一次 receive 的 batch 大小 + 隱藏時間窗」。
RabbitMQ basic_nack(requeue=False)（丟 DLX）→ SQS redrive policy：失敗不再是 application 主動丟 DLX、而是「達到 maxReceiveCount 次數後 SQS 自動送 DLQ」。
RabbitMQ push 模型（broker 主動推給 consumer）→ SQS pull 模型（consumer 主動 long polling）：consumer loop 結構不同、SQS 沒有 broker 主動推送、要嘛自己 poll、要嘛交給 Lambda event source mapping 代 poll。

application 邏輯改動集中在 consumer 的 receive / ack / 重試三段、producer 端從 basic_publish 改成 send_message 相對單純。整體改動量取決於原本用了多少 AMQP 特性、典型情境是 consumer 端 20-40% 改寫。

Components 維度的核心是 SQS 沒有 exchange、RabbitMQ 的 routing 能力要在 broker 外重建。RabbitMQ 的 exchange 在 broker 內承擔分流：一條訊息經 routing key 跟 binding 決定進哪些 queue。SQS 是裸 queue、producer 直接指定 queue、沒有中間分流層。

RabbitMQ routing 模式	SQS 對應方案
Direct（固定 key）	直接 send 到對應 queue、routing 收斂進 producer 程式碼
Fanout（廣播）	SNS topic → 多個 SQS queue 訂閱（SNS-to-SQS fan-out）
Topic（層級 key 匹配）	SNS + message filtering（subscription filter policy）
Headers	SNS message attribute filtering

判讀：

Direct exchange + 少數固定 key：最容易遷。routing 邏輯本來就是「key X 進 queue X」、改成 producer 直接 send_message 到對應 queue url。routing 從 broker 收斂進 application、程式碼多幾行 if/else 或 map 查表。
Fanout（一條訊息給多個 downstream）：用 SNS-to-SQS。SNS topic 當 fan-out 點、每個 downstream 訂閱一個自己的 SQS queue。Twitch EventSub 就是這個形狀（見 3.C54 Twitch EventSub）：SNS fan-out 到多個 SQS、各 consumer 獨立消費。這比 RabbitMQ fanout exchange 多一層 SNS、但換來 managed 運維。
Topic exchange（複雜層級匹配）：SNS 的 subscription filter policy 能做 attribute-based 過濾、但表達力不如 AMQP topic 的 * / # 通配。複雜 topic routing 是「不該遷」的訊號（見下節）。

關鍵取捨：SQS + SNS 把 RabbitMQ 的單一 broker（routing 內建）拆成兩個 managed 服務（SQS 排隊 + SNS 分流）。好處是各自 managed、壞處是 routing 從宣告式 binding 變成要管 SNS topic + subscription + filter policy 的組合、跨服務除錯多一層。

什麼不該遷：保留 RabbitMQ 的訊號

SQS 的 managed 簡潔有代價、三類用法遷過去會損失能力或增加複雜度：

複雜 topic routing。若 RabbitMQ 重度使用 topic exchange 的 * / # 層級通配、binding 規則數十條、那 routing 的表達力是核心價值。SNS subscription filter 的 attribute 匹配做不到對等表達、勉強遷會把 broker 內的宣告式 routing 拆成散落在 SNS filter policy + application 程式碼的命令式邏輯、維護成本反而上升。GoCardless 用單一 topic exchange 當服務 mesh（見 3.C26 GoCardless Hutch）這類設計、routing 就是架構本身、不該拆。

需要 broker 級 ordering。RabbitMQ 單 queue 預設 FIFO、consistent hash exchange 還能做 per-key ordering（見 3.C28 WeWork hash ordering）。SQS standard queue 無 ordering；要 ordering 只能用 FIFO queue、而 FIFO 吞吐受限（每 MessageGroupId 有序、整體 3000 msg/sec with batching）。若 workload 同時要高吞吐跟嚴格 ordering、SQS FIFO 兩者不可兼得、RabbitMQ 反而更適合。

RPC over messaging（request-reply）。RabbitMQ 的 reply-to + correlation-id 做同步 RPC 模式、SQS 沒有原生 request-reply、要自己用兩條 queue + correlation 拼、延遲也不適合（SQS 是 task queue 不是低延遲傳輸）。這類用法該考慮 NATS 的 request-reply 或直接 HTTP。

Migration 結構：漸進 cutover

operational redesign 的 cutover 走 dual-run、按 queue（不是按整個叢集）漸進切、每步都保留回退邊界：

Phase 0：scope 盤點 — 列出所有 exchange / queue / binding、標註 routing 模式（direct / fanout / topic）跟 ordering 需求。判斷哪些 queue 適合遷（簡單 routing、at-least-once 夠用）、哪些保留（複雜 topic、需 broker ordering、RPC）。
Phase 1：SQS / SNS 基礎建設 — 對適合遷的 queue 建對應 SQS queue + DLQ（設 redrive policy + maxReceiveCount）、fanout 場景建 SNS topic + subscription。設好 IAM policy、visibility timeout 對齊 consumer 最大處理時間。
Phase 2：consumer 改寫 + dual-consume — application consumer 改成 SQS pull 模型（或 Lambda event source）、先讓新 consumer 跟舊 RabbitMQ consumer 並存、producer 暫時雙寫到 RabbitMQ + SQS、驗證 SQS 端處理正確。
Phase 3：producer cutover — 逐 queue 把 producer 從 RabbitMQ 切到 SQS / SNS、停掉該 queue 的雙寫。這步可逆：發現問題切回 RabbitMQ producer 即可。
Phase 4：下線 RabbitMQ queue — 確認某 queue 在 SQS 穩定運行、且 RabbitMQ 端該 queue 已排空、才停掉 RabbitMQ 對應的 exchange / queue。這是不可逆步驟、不該過早。
Phase 5：叢集退役 — 所有適合遷的 queue 都切完、RabbitMQ 只剩保留的複雜 routing queue（或完全清空）、才縮編或退役叢集。

漸進 cutover 的關鍵是 按 queue 切、不按叢集切。每條 queue 是獨立的遷移單元、各自走 Phase 2-4、互不阻塞。複雜 routing 的 queue 可以永遠留在 RabbitMQ、形成 RabbitMQ + SQS 長期共存的混合架構。

Production 故障演練

Case 1：DLX 改 redrive policy，重試語意不對等

徵兆：RabbitMQ 端用 DLX 配 message TTL 做「延遲重試 + 多層 escalation」（如 3.C25 Indeed Delay + DLQ 的三層 retry）；遷到 SQS 後發現 redrive policy 只能設「失敗 N 次直接進 DLQ」、做不出原本的延遲重試階梯。

根因：RabbitMQ DLX 是 routing 機制、能配 TTL + 多個中繼 queue 組出任意 escalation 拓樸；SQS redrive policy 是單一規則（maxReceiveCount 到了就送 DLQ）、沒有中繼層。兩者都叫「DLQ」、但 RabbitMQ 的是可編程 routing、SQS 的是固定計數。

修法：

指數退避用 visibility timeout 做：失敗時 application 主動 ChangeMessageVisibility 延長隱藏時間、實現退避、而不是依賴 DLX TTL。
多層 escalation 用多 queue 串：若真需要 N 層、建 N 個 SQS queue、application 失敗時把訊息 send 到下一層 queue、每層設不同 redrive policy。複雜度比 DLX 高、是「複雜 routing 不該遷」的訊號之一。
接受簡化：多數 task queue 的重試需求是「重試幾次後進 DLQ 人工檢視」、SQS redrive policy 直接對應、不需要重建 escalation 階梯。

Case 2：prefetch 改 batch + visibility，併發控制行為變了

徵兆：RabbitMQ 端 prefetch_count=1 確保 worker 一次只處理一條（公平派發、慢任務不囤積）；遷 SQS 後 consumer 一次 receive_message 領 10 條、其中一條慢任務拖累整批、且 visibility timeout 對整批同時計時、處理到一半超時導致前面已處理的訊息重複。

根因：RabbitMQ prefetch 是 per-message 的未 ack 上限、broker 逐條控制；SQS 的 batch 是一次領多條、visibility timeout 對 batch 內每條獨立計時、但 application 若同步處理整批、慢的那條會讓後面的訊息在處理前就接近超時。

修法：

慢任務用 batch size 1：對等 RabbitMQ prefetch=1 就設 MaxNumberOfMessages=1、一次領一條、避免批內互相拖累。
visibility timeout 設成略高於最大處理時間：Capital One 的 SQS + Lambda 實務明示這點（見 3.C50 Capital One）— timeout 太短重複處理、太長延遲 retry。長任務處理中主動 ChangeMessageVisibility 續期。
逐條 delete 不等整批：每條處理完立刻 delete_message、不要等整批做完才一起刪、降低整批超時導致部分重複的風險。

徵兆：RabbitMQ fanout exchange 廣播到所有 binding queue、新增 downstream 只要 bind 上去就收得到；遷成 SNS-to-SQS 後、某個新 downstream 的 SQS queue 沒訂閱到 SNS topic、或 subscription filter policy 設錯、導致該 downstream 靜默漏訊息。

根因：RabbitMQ fanout 的廣播是 broker 內建語意、binding 一建立就生效；SNS-to-SQS 的 fan-out 是「每個 downstream 各自建 SQS queue + 訂閱 SNS topic + 設 queue policy 允許 SNS 投遞」三步、任一步漏掉或 filter policy 寫錯就靜默漏。多一層服務 = 多一層配置出錯點。

修法：

訂閱關係 IaC 管理：SNS subscription + SQS queue policy 用 Terraform / CloudFormation 宣告、避免手動建漏。
驗證 fan-out 完整性：cutover 前發測試訊息、確認每個 downstream queue 都收到（對照 RabbitMQ 端 binding 清單逐一核對）。
filter policy 預設寬鬆：除非明確要過濾、subscription 不設 filter policy（全收）、避免「以為廣播、實際被 filter 擋掉」。

Case 4：訊息超過 256KB，SQS 拒收

徵兆：RabbitMQ 對單訊息大小無硬性低上限（受 frame_max / memory 限制、實務常見 MB 級 payload）；遷 SQS 後、原本能傳的大 payload 訊息被拒、SendMessage 報 message 超過 256KB 上限。

根因：SQS 單訊息上限 256KB（含 message attribute）。RabbitMQ 沒有這個低上限、application 可能習慣直接把大 payload（如完整文件、序列化大物件）塞進訊息體。

修法：

Claim-check pattern：大 payload 存 S3、訊息只放 S3 物件的引用（key / presigned URL）、consumer 收到後從 S3 取。FINRA 的大檔案處理是 S3 event notification → SQS（檔案上傳 S3 後由 S3 推通知），結果同樣讓訊息只帶 S3 物件引用，但機制是 S3 觸發、不是 producer 主動 offload（見 3.C53 FINRA Large File）。
SQS Extended Client Library：AWS 官方 library 自動把超過上限的 payload 透明存 S3、訊息存指標、consumer 端自動取回、application 程式碼幾乎不改。
盤點 payload 大小分佈：Phase 0 audit 時量測現有訊息大小、超 256KB 的比例決定是否需要 claim-check、避免 cutover 後才發現大量訊息被拒。

Case 5：ordering 從 RabbitMQ 到 SQS FIFO，吞吐撞天花板

徵兆：RabbitMQ 單 queue 提供順序消費、原本靠這個保證同一筆訂單的事件有序處理；遷 SQS standard queue 後 ordering 消失、改用 SQS FIFO queue 恢復 ordering、但吞吐從原本的數萬 msg/sec 掉到 3000 msg/sec 上限、隊列堆積。

根因：SQS standard queue 無 ordering（為了吞吐跟可用性的設計取捨）；FIFO queue 提供 per-MessageGroupId 有序 + 去重、但整體吞吐上限 3000 msg/sec（with batching）。RabbitMQ 單 queue 的有序消費吞吐遠高於此。SQS FIFO 的吞吐上限是 300 TPS（不 batch）／ 3000 TPS（batch，後者為通用 SQS FIFO 數值）。Twilio 的 webhook buffer 文件特別點出 FIFO 300 TPS 這個限制（見 3.C58 Twilio webhook）。

修法：

重新審視 ordering 粒度：用 MessageGroupId 把 ordering 限縮到真正需要的範圍（如 per-訂單、per-用戶）、不同 group 平行處理、整體吞吐 = group 數 × per-group 吞吐、繞過單 queue 3000 上限。
拆分 ordered 跟 unordered 流量：只有真需要 ordering 的訊息走 FIFO、其餘走 standard queue 拿高吞吐。多數 workload 只有一小部分需要嚴格 ordering。
ordering 是「不該遷」的硬訊號：若 workload 整體都需要高吞吐 + 嚴格 ordering、SQS FIFO 兩者不可兼得、保留 RabbitMQ 或考慮 Kafka（per-partition ordering + 高吞吐）。

Capacity / cost 對照

維度	RabbitMQ（self-managed EC2）	AWS SQS（managed）
叢集 baseline	3 broker（HA）+ EBS	無實例
運維 FTE	0.5-1 FTE	~0.1 FTE（IAM / alarm 配置）
計費模型	EC2 instance hour + EBS + 流量	per-request（每百萬 request）+ 跨 region 流量
吞吐上限	受 broker 規格 / 網路限制	standard 近乎無限、FIFO 3000 msg/sec
Ordering	單 queue 有序、consistent hash per-key	standard 無、FIFO per-group
Routing	broker 內建 exchange	無（需 SNS / application）
訊息大小上限	受 frame_max / memory（MB 級可行）	256KB（超過用 S3 claim-check）
監控延遲	即時（Management UI）	CloudWatch approximate、分鐘級

判讀：低到中吞吐、簡單 routing、AWS 生態的 task queue、SQS 在運維成本上顯著划算（FTE 從 0.5-1 降到約 0.1）。高吞吐 + 嚴格 ordering、或重度 exchange routing 的 workload、SQS 的 per-request 成本跟能力限制可能讓 RabbitMQ（或 Kafka）反而合適。SQS 的 cost 是用量驅動、流量大時 per-request 費用要納入評估、對照 0.6 成本取捨。

整合 / 下一步

混合架構是常見終態

多數遷移不會把 RabbitMQ 完全清空。簡單 task queue 遷 SQS、複雜 topic routing / broker ordering / RPC 留 RabbitMQ、形成長期共存：

1[簡單 task queue / fanout]              [複雜 topic routing / RPC / ordering]
2        AWS SQS / SNS                              RabbitMQ
3        │                                            │
4   Lambda / ECS consumer                    自管叢集（縮編後）

按 queue 漸進切的結果就是混合架構 — 不需要為了「遷乾淨」勉強把不適合的 queue 也搬過去。

跟 RabbitMQ → Kafka 的對照

RabbitMQ 還有另一條遷移路徑是 RabbitMQ → Kafka（work queue → event streaming）。兩條路的差異：遷 SQS 是 交出運維、能力對等簡化（仍是 task queue）；遷 Kafka 是 換 paradigm、要 replay / 高吞吐 streaming（從任務隊列變 event log）。選哪條看的是「想擺脫運維」還是「需要 streaming 能力」、不是同一個決策。

跟前面 migration playbook 的結構對照

篇	主導差異維度	結構
Kafka ↔ NATS	Paradigm（高）	partial + 混合
RabbitMQ → SQS（本篇）	Operational（高）	Type C operational hybrid

結論：兩篇都是 message queue 跨 vendor、但主導差異維度不同 — Kafka ↔ NATS 卡在 paradigm（不同抽象層）、RabbitMQ → SQS 卡在 operational（運維責任轉移）。結構由主導維度決定、不是 universal phased playbook。

Redis Streams XCLAIM / PEL 失敗接管與 Cluster 影響

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Redis Streams overview 的 implementation-layer deep article。Overview 給選型與最短路徑、本文聚焦「consumer crash 之後、卡在 PEL 的訊息怎麼回到處理流程」這條 implementation flow。實機輸出來自 redis:7（7.4.9）單節點。

consumer crash 後、訊息卡在哪裡

Redis Streams 的 consumer group 設計是「先投遞、後 ack」：XREADGROUP 把 entry 投給某個 consumer 的同時、entry 進入該 group 的 PEL（Pending Entries List）、標記為「已投遞、未確認」。consumer 處理完才呼叫 XACK 把 entry 移出 PEL。這一段「已投遞未 ack」的視窗、是 Redis Streams 提供 at-least-once 的全部依據。

問題在於 consumer crash 時機落在這個視窗內。consumer 已經拿到訊息、PEL 已經記了它的名字、但它在 ack 之前就死了。Redis 沒有 broker 級的「重新投遞」背景程序——不像 RabbitMQ consumer 斷線後 unacked 訊息自動 requeue。Redis 把這筆訊息留在 PEL、owner 仍是那個死掉的 consumer、然後什麼都不做。要讓這筆訊息回到處理流程、只有 application 主動呼叫 XCLAIM 或 XAUTOCLAIM 改寫 owner。

這就是 Bitso 自建 Reliable Streams 抽象揭露的核心事實：Redis Streams 是「資料結構」、不是「broker 系統」、可靠性責任在 application 層。本文展開的就是這個責任的具體形狀——PEL 怎麼累積、怎麼判讀、接管機制怎麼運作、以及哪些操作會讓接管失效。

PEL 機制：XREADGROUP 進、XACK 出

PEL 是 per-group 的結構、記錄每個 entry 的四個欄位：entry ID、目前 owner consumer、idle time（距上次投遞的毫秒數）、delivery count（被投遞過幾次）。先用實機輸出建立基礎。寫入 5 筆、建 group、兩個 consumer 各讀一部分：

 1$ redis-cli XADD mystream '*' event order_1 amount 100
 21781584105202-0
 3# ... order_2 ~ order_5、各得遞增 entry ID
 4
 5$ redis-cli XGROUP CREATE mystream g1 0
 6OK
 7
 8$ redis-cli XREADGROUP GROUP g1 c1 COUNT 3 STREAMS mystream '>'
 9# c1 拿到 order_1 / order_2 / order_3
10$ redis-cli XREADGROUP GROUP g1 c2 COUNT 10 STREAMS mystream '>'
11# c2 拿到 order_4 / order_5

'>' 代表「只取從未投遞給本 group 的新訊息」。投遞後這 5 筆全進 PEL。XPENDING 的 summary 形式給總覽：

1$ redis-cli XPENDING mystream g1
25                  # PEL 總數
31781584105202-0    # 最小 pending ID
41781584105578-0    # 最大 pending ID
5c1                 # 各 consumer 的 pending 數
63
7c2
82

5 筆全在 PEL、c1 扛 3 筆、c2 扛 2 筆。展開形式 XPENDING - + 給每筆細節：

1$ redis-cli XPENDING mystream g1 - + 10
21781584105202-0  c1  6318  1    # entry ID / owner / idle ms / delivery count
31781584105278-0  c1  6318  1
41781584105373-0  c1  6318  1
51781584105466-0  c2  6224  1
61781584105578-0  c2  6224  1

idle 是 6318ms（距投遞已過 6.3 秒）、delivery count 都是 1（只投過一次）。這兩個數字是後面接管決策的核心輸入：idle 判斷「owner 是不是死了」、delivery count 判斷「這筆是不是 poison message」。

XACK 把處理完的 entry 移出 PEL：

 1$ redis-cli XACK mystream g1 1781584105202-0
 21                  # 成功移除 1 筆
 3
 4$ redis-cli XPENDING mystream g1
 54                  # PEL 剩 4 筆
 61781584105278-0
 71781584105578-0
 8c1
 92
10c2
112

PEL 從 5 降到 4。判讀原則固定：PEL 持續成長就是 consumer 健康訊號異常——不是 crash 沒 ack、就是處理速度跟不上、再不然是 ACK 程式碼漏寫。三者用 idle time 區分：crash 的 entry idle 會單調成長、處理慢的 idle 在 timeout 附近震盪、漏 ACK 的 entry delivery count 停在 1 但 idle 無上限成長。

XCLAIM 與 XAUTOCLAIM：改寫 owner 的兩條路

接管的本質是把 PEL entry 的 owner 從死掉的 consumer 改成活著的 consumer。XCLAIM 是手動指定 entry ID 接管、XAUTOCLAIM 是自動掃 idle 超過門檻的 entry 批次接管。兩者都接受 min-idle-time 參數當安全閥。

XCLAIM ：把指定 entry 改判給新 consumer、條件是該 entry 的 idle 已達 min-idle-time。下面用 min-idle-time 0（無條件接管）把 c1 的一筆轉給 c3：

 1$ redis-cli XCLAIM mystream g1 c3 0 1781584105278-0
 21781584105278-0
 3event
 4order_2
 5amount
 6200               # 回傳被接管 entry 的完整內容
 7
 8$ redis-cli XPENDING mystream g1 - + 10
 91781584105278-0  c3  66     2    # owner 變 c3、idle 歸零(66ms)、delivery count 升到 2
101781584105373-0  c1  14590  1
111781584105466-0  c2  14496  1
121781584105578-0  c2  14496  1

接管後三件事同時發生：owner 改成 c3、idle 重置（剛 claim、66ms）、delivery count 從 1 升到 2。delivery count 自增是接管機制留下的審計軌跡——一筆訊息 delivery count 累積到 5、10、代表它反覆被接管又反覆沒處理完、這就是 poison message 的訊號、該路由到隔離區（見 recovery semantics 與 poison message quarantine）。

XAUTOCLAIM （Redis 6.2+）省掉「先 XPENDING 找 ID、再逐筆 XCLAIM」兩步、一次掃描接管：

 1$ redis-cli XAUTOCLAIM mystream g1 c3 0 0
 20-0                          # 下次掃描的 cursor（0-0 代表掃完一輪）
 31781584105278-0 ...          # 接管的 entry 內容（order_2）
 41781584105373-0 ...          # order_3
 51781584105466-0 ...          # order_4
 61781584105578-0 ...          # order_5
 7(empty array)                # 第三個回傳值：已從 stream 刪除的 entry ID 清單
 8
 9$ redis-cli XPENDING mystream g1
104
111781584105278-0
121781584105578-0
13c3                           # 全部 4 筆 owner 變 c3
144

一次呼叫把整個 group 的 idle 訊息全歸到 c3。XAUTOCLAIM 是 consumer crash 後接管的主力——consumer 在啟動或處理迴圈裡固定跑一輪 XAUTOCLAIM、把孤兒訊息撿回來。回傳的 cursor 支援分批（一次掃不完時帶 cursor 續掃）、第三個回傳值（被刪 entry 清單）對應後面 MAXLEN 修剪的故障。

min-idle-time：防止活 consumer 被搶單

min-idle-time 不是裝飾參數、是接管機制的安全閥：它要求「只有 idle 超過門檻的 entry 才能被接管」。沒有這個門檻、兩個 consumer 會互相搶對方正在處理的訊息。

驗證搶單防護——剛被 c3 claim 的訊息 idle 很低、用 60 秒門檻去 claim 會落空：

1$ redis-cli XCLAIM mystream g1 c4 60000 1781584105278-0
2(empty array)               # 回空：該 entry idle 未達 60000ms、c4 搶不到

回空陣列代表 claim 失敗、owner 不變、訊息留在 c3 手上。這就是 min-idle-time 的作用：門檻 = 我願意相信 owner consumer 還活著的最長時間。

門檻設定是接管設計的核心取捨、沒有通用值、由訊息處理時間分佈決定。門檻設太短、正常處理中的訊息被當成孤兒搶走、變成多 consumer 重複處理同一筆。門檻設太長、真正 crash 的訊息要等很久才有人接管、recovery 延遲拉高。Harness 的 event-driven 案例正是用 XAUTOCLAIM 重派來解 head-of-line blocking（慢訊息阻塞 consumer 進度）、並自設 redelivery 策略避免上述反覆搶單。實務基準是「門檻 > p99 處理時間 + 安全係數」：若單筆處理 p99 是 2 秒、門檻設 30-60 秒、確保只有真的死掉（遠超正常處理時間）的 owner 才被接管。

接管後仍需 application 層去重。XCLAIM 改寫 owner、不代表原 consumer 真的沒處理完——它可能正在 ack 的瞬間被 claim、結果兩邊都處理一次。at-least-once 的去重責任永遠在 application、靠 idempotency 兜底、這跟接管門檻設多準無關。

Memory 與 retention：MAXLEN / XTRIM 的取捨

Stream 是 append-only、不主動丟資料、佔用的 Redis 記憶體單調成長。retention 的唯一旋鈕是修剪：MAXLEN（保留最近 N 筆）或 MINID（保留 ID 大於某值的 entry）。可以在 XADD 寫入時順帶修剪、也可以用 XTRIM 獨立執行。

精確修剪 MAXLEN = 跟近似修剪 MAXLEN ~ 的差別在性能。stream 內部是 radix tree of macro-nodes（每個 node 打包多筆 entry）。精確修剪要拆 node 才能剛好留 N 筆、近似修剪只刪「整個可以丟掉的 node」、留下的筆數會略多於 N、但省掉拆 node 的開銷。~ 是 production 預設、= 只在需要嚴格上限時用：

1$ redis-cli XADD mystream MAXLEN '~' 1000 '*' event order_6 amount 600
21781584152570-0             # 近似修剪：超過 ~1000 才整 node 刪
3$ redis-cli XADD mystream MAXLEN '=' 3 '*' event order_7 amount 700
41781584152871-0
5$ redis-cli XLEN mystream
63                           # 精確修剪到剛好 3 筆

stream 不受 maxmemory-policy eviction 管理——一般 key 在記憶體壓力下會被 evict、stream entry 不會。這代表 stream 是「只進不出、除非主動修剪」的記憶體成長源。Learning.com 把 Redis 當長期事件儲存、最終因成本與延遲退場就是沒設修剪上限的反例（該案例涵蓋 Redis 事件儲存整體、Stream 是其中一塊）：事件量每週以 GB 成長、AOF fsync 與 EBS I/O 變成 latency 痛點、最終退回 PostgreSQL。判讀訊號是 MEMORY USAGE mystream 對比實例 maxmemory、超過預算就調低 MAXLEN。

故障演練

Case 1：consumer crash 後 PEL 訊息卡死沒人接

徵兆：XPENDING 總數持續成長、某個 consumer 的 pending 數停在固定值不降、那些 entry 的 idle time 單調往上爬（幾分鐘、幾小時）、業務端對應的訊息「進了 stream 但沒被處理」。

根因：consumer 進程 crash（OOM kill / 部署滾動 / panic）、留下的 PEL entry owner 仍是死掉的 consumer。Redis 不會自動重投——沒有任何背景程序會碰這些 entry。它們會永遠卡在 PEL、直到有人主動接管。新啟動的 consumer 用 XREADGROUP ... '>' 只會拿到「從未投遞」的新訊息、不會碰到前任留下的孤兒。

修法：consumer 啟動時跟處理迴圈裡固定跑 XAUTOCLAIM、把超過 idle 門檻的孤兒撿回來：

1# 每個 consumer 週期性執行、min-idle-time 設 60s
2$ redis-cli XAUTOCLAIM mystream g1 self_consumer_id 60000 0

min-idle-time 設成 > p99 處理時間 + 安全係數：避免把處理中的訊息誤判成孤兒（接 Case 2）。
用回傳 cursor 分批掃：PEL 大時一次 XAUTOCLAIM 不掃完、帶 cursor 續掃、避免單次 block 太久。
接管後檢查 delivery count：超過閾值（如 5）的 entry 不再處理、路由到 DLQ（Redis Streams 沒原生 DLQ、Bitso 自建一個 stream 當 DLQ）。
監控 PEL 最大 idle：alert 設在「最老 pending entry 的 idle 超過 N 倍接管門檻」、代表接管機制本身停了。

Case 2：min-idle-time 設太短、活 consumer 被搶單

徵兆：同一筆訊息被多個 consumer 處理、下游出現重複副作用（重複扣款、重複發信）；XPENDING 展開看到某些 entry 的 delivery count 異常高（5、10+）但 stream 流量正常、沒有 consumer crash。

根因：接管門檻低於正常處理時間。consumer A 拿到一筆要處理 10 秒的訊息、門檻設了 5 秒、consumer B 跑 XAUTOCLAIM 時這筆 idle 已過 5 秒、B 把還在 A 手上處理的訊息搶走、兩邊都處理一次。這是接管門檻設計的通用競態——一筆慢訊息被反覆搶、delivery count 暴衝、卻沒人真正完成。（Harness 案例用 XAUTOCLAIM 重派解 head-of-line blocking 時、正是靠門檻與 redelivery 策略避開這種搶單。）

修法：

量測真實處理時間分佈、門檻設 > p99：先用 metric 抓單筆處理 p50 / p99、門檻設 p99 的數倍。
delivery count 當搶單偵測器：同一 entry delivery count 快速成長、代表它在被搶來搶去、調高門檻或隔離該訊息。
idempotency 兜底：門檻再準也防不了「ack 瞬間被 claim」的競態、application 層去重是最後防線、不可省（見 idempotency 卡）。

Case 3：MAXLEN 修剪掉 PEL 內還沒 ack 的訊息

徵兆：XPENDING 顯示某些 entry 仍 pending、但 XCLAIM 接管它時拿不到內容；consumer 接手後發現訊息 body 是空的、無法處理、又無法判斷該不該 ack。

根因：修剪只看 entry ID 的新舊、不看它在不在 PEL。XTRIM MAXLEN 把最舊的 entry 從 stream 物理刪除、即使這些 entry 還在某個 group 的 PEL 裡等 ack。PEL 只記 entry ID、不存 body；body 存在 stream 本體。entry 被 trim 掉、PEL 還記得這個 ID、但 body 已經不存在了。實機驗證——4 筆全在 PEL、把 stream 修剪到剩 2 筆：

 1$ redis-cli XLEN mystream
 25
 3$ redis-cli XPENDING mystream g1
 44                           # 4 筆未 ack 在 PEL
 5
 6$ redis-cli XTRIM mystream MAXLEN 2
 73                           # 刪掉 3 筆（含 PEL 內的未 ack entry）
 8$ redis-cli XLEN mystream
 92
10
11$ redis-cli XPENDING mystream g1 - + 10
121781584105278-0  c3  19307  3   # PEL 還記得這些 ID
131781584105373-0  c3  19307  2
141781584105466-0  c3  19307  2
151781584105578-0  c3  19307  2
16
17$ redis-cli XCLAIM mystream g1 c5 0 1781584105278-0
18(empty array)               # 接管成功改 owner、但 entry body 已被 trim、拿不到內容

PEL 還有 4 筆記錄、但對應的 body 已從 stream 消失。XCLAIM 接管這種 entry、改得了 owner、拿不到 body——這是訊息靜默遺失。

修法：

修剪上限要 > 處理 backlog 深度：MAXLEN / 流入速率 = 訊息在被修剪前的最長存活時間、這個時間要遠大於「最慢 consumer 清空 backlog 的時間」。
修剪前檢查 PEL 最舊 ID：自動修剪前比對 XPENDING 的最小 pending ID、確保不會修到還在 PEL 的 entry。
慢 consumer 監控優先於積極修剪：先解決 consumer 處理太慢導致 PEL 積壓的根因、再談用小 MAXLEN 壓記憶體；倒過來只會修掉未 ack 訊息。
MINID 修剪比 MAXLEN 安全：MINID 用時間/業務邊界（如「保留 24 小時內」）、比 MAXLEN 的「保留 N 筆」更容易保證涵蓋未 ack 視窗。

Case 4：Redis Cluster 對單 stream 的 shard 限制

徵兆：stream 流量成長到單 node 容量上限、想像 Kafka 那樣「加 partition 分流」、卻發現 Redis Cluster 沒有這個機制；單一 stream key 的全部讀寫永遠打在同一個 node。

根因：Redis Cluster 用 CRC16(key) % 16384 把 key 映射到 slot、slot 分佈在 node 上。一個 stream 是一個 key、永遠落在單一 slot、永遠在單一 shard。Streams 沒有 Kafka partition 那種「同一 topic 切多片、分散到多 broker」的概念。單 stream 的吞吐天花板就是單 node 的天花板。

實機驗證 keyslot 計算（cluster-enabled 節點）：

1$ redis-cli CLUSTER KEYSLOT stream:orders
26139
3$ redis-cli CLUSTER KEYSLOT stream:payments
43696                        # 不同 key 落不同 slot、可能在不同 shard

修法：要分流就在 application 層切多個 stream key（stream:orders:0、stream:orders:1 …）、自己做 partition 路由。若需要某幾個 stream 保證落同一 shard（為了跨 stream 的原子操作或 co-located 處理）、用 hash tag——只有 {} 內的部分參與 CRC16：

1$ redis-cli CLUSTER KEYSLOT '{shard1}:stream:orders'
210271
3$ redis-cli CLUSTER KEYSLOT '{shard1}:stream:payments'
410271                       # 同 hash tag、強制落同 slot

兩個不同 key 因為共用 {shard1} hash tag、CRC16 算出同一個 slot 10271、保證在同一 shard。判讀邊界：需要真正的 partition + replication + 跨節點水平擴展、Redis Streams 不是答案、改走 Kafka。Redis Streams 的定位是中等規模、單 shard 容量內、不跨節點分片。

Cluster 多節點分片下的端到端行為（resharding 期間 stream key 隨 slot 搬移、client topology cache）需要多節點環境、本文未實機驗證；slot migration 機制與踩雷見 Redis Cluster Re-sharding。

Case 5：failover 後 PEL 狀態不一致

徵兆：Sentinel / Cluster failover 後（replica 升 primary）、原本在 PEL 的部分訊息「消失」或「重複投遞」；XPENDING 數字跟 failover 前對不上；consumer 接管邏輯撿到不該撿的訊息、或漏撿該撿的。

根因：Redis 的 replication 是非同步的。primary 上的 XADD / XACK / XCLAIM 先在本地生效、再非同步傳給 replica。failover 那一刻、replica 的 PEL 狀態落後 primary 一個 replication lag 的視窗。新 primary 從它當下的（落後的）PEL 狀態接手：lag 視窗內已 ack 的訊息在新 primary 上仍 pending（重複投遞）、lag 視窗內剛 claim 的 owner 改寫可能丟失（接管邏輯錯亂）。AOF / RDB 持久化只保證單機重啟的恢復、不改變跨 replica 的非同步本質。

failover 對 PEL 一致性的影響需要多節點 Sentinel / Cluster 環境跨節點觀測、本文未實機驗證；以下依官方 replication 語義與案例敘述判讀。

修法：

接受 at-least-once、靠 idempotency 收斂：failover 造成的重複投遞跟正常的重複投遞同一性質、application 去重邏輯本來就要處理（見 idempotency 卡）。
failover 後主動全量 XAUTOCLAIM 對帳：failover 偵測到後、consumer 跑一輪低門檻 XAUTOCLAIM 重新接管、用 application 端的處理紀錄判斷哪些真的沒處理。
降低 replication lag：lag 越小、failover 視窗的 PEL 偏差越小；監控 master_repl_offset 與 replica offset 差。
語義誤配風險：把 Redis Streams 當「不丟訊息的 broker」用、在 failover 邊界會破功——這是 3.C9 語義誤配的思路、選型時就要認清 Redis Streams 的一致性等級。

Capacity 與判讀路由

維度	判讀訊號	邊界
PEL 深度	`XPENDING` 總數持續成長	成長不停 = consumer 健康問題、不是調 MAXLEN 能解
接管門檻	delivery count 異常高（搶單）/ 最老 idle 不收斂	門檻 > p99 處理時間 + 安全係數
Stream 記憶體	`MEMORY USAGE` 對比 `maxmemory`	stream 不被 eviction、唯一旋鈕是 MAXLEN / MINID 修剪
修剪 vs 未 ack 視窗	修剪上限 / 流入速率 < backlog 清空時間	違反就會修掉 PEL 內未 ack 訊息（Case 3）
單 stream 吞吐	單 node CPU / memory 打滿、無法加 partition	達單 shard 天花板 = 該評估 Kafka

判讀路由固定三層：先看 PEL 是「整 group 成長」（流入 > 處理、擴 consumer）還是「單 consumer 卡住」（crash、要接管）；接管時先確認 min-idle-time 對得上處理時間分佈、再看 delivery count 篩 poison message；retention 調整前先確認修剪上限涵蓋 PEL 未 ack 視窗。

整合與下一步

接管機制是 consumer 設計在 Redis Streams 上的具體落地——consumer 不只是讀訊息的迴圈、還要承擔「撿前任孤兒」的責任。設計 consumer 時把 XAUTOCLAIM 排進處理迴圈、跟 XREADGROUP '>' 並列、不是事後補丁。

知識卡對位：delivery count 超閾值的訊息對應 poison message quarantine（Redis Streams 沒原生 DLQ、自建一個 stream 當隔離區）；接管後的去重對應 recovery semantics 跟 idempotency（at-least-once 的收斂責任在 application）。

案例延伸：Bitso 把本文這些機制封裝成 Reliable Streams 抽象層 + 自建 DLQ、是「application 層補可靠性」的完整實作參考；Klaxit Rust + Logplex 是高吞吐 log ingestion 下 consumer group 分流長時間穩定運轉的範例；接管門檻搶單的反面教訓在 Harness event-driven。

選型回路：單 stream 撞到單 shard 天花板、或 failover 一致性要求超出 at-least-once、回 Redis Streams overview 的「何時改走其他服務」、評估 Kafka（partition + replication）。Cluster 層的 slot / topology 行為見 Redis Cluster Re-sharding。

Self-managed Kafka → AWS MSK：把 $15K/month operational cost 拆解到 managed

Tue, 19 May 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link Kafka 跟 AWS MSK。跑 migration-playbook-methodology 6 維 audit 後對映 Operational = High（self-managed → AWS managed）→ Type C operational redesign hybrid。

$15K/month operational cost 拆解

跟 Datadog → Grafana Stack（H cost variant）同 framing — 用 cost 拆解開頭、不是「為什麼遷」driver list：

Self-managed Kafka cost 項	中型 (3 broker + 3 ZK + monitoring) / month
EC2 (3× r6g.xlarge broker)	$660
EBS (3× 1TB io2)	$1,500
EC2 (3× t3.medium ZK / KRaft)	$90
Monitoring (Prometheus + Grafana on EC2)	$200
Backup S3 (1TB)	$25
Cross-AZ traffic	$300
Operational FTE (0.5)	$5,000-8,000
Patching window cost	$200 (downtime opportunity)
Total infrastructure	$7,975-10,975
Total with FTE	$13,000-18,975

最大成本塊是 operational FTE、不是 infrastructure。MSK 把 50-80% operational 工作轉嫁 AWS、留 application + cost monitoring 給 SRE。

跑 6 維 diff dimension audit：

維度	評估	等級
Schema / API	同 Kafka protocol、client SDK 不改	Low
Operational model	Self-managed → AWS managed、HA / patch / backup 全託管	High
Paradigm	同 Kafka log-based	Low
Components	同 1 個 Kafka cluster	Low
Application change	Auth config 改（IAM / SASL）、其他不變	Low-Medium
Data topology	同 broker + partition 配置	Low

Operational = High（其他 Low-Medium）→ Type C operational redesign hybrid。

為什麼遷：FTE / availability / consistency 三條 driver

Operational FTE：Kafka self-managed + ZooKeeper / KRaft + Prometheus 端到端 ops 是 0.5-1 FTE、MSK 把 patch / HA / backup 全託管
Availability：MSK 自動 multi-AZ broker + auto-recovery、self-managed 自管 broker 故障 RTO 30 分鐘-2 小時
Consistency with cloud stack：已 deep on AWS（RDS / S3 / Lambda）、MSK 進 same VPC + IAM auth、降低 cross-vendor 設置成本

反向 driver（MSK → self-managed）：

Throughput / GB 規模大時 MSK 跨 broker cost 反轉（cost > self-managed）
需要 Kafka 客製化（custom plugin / kraft early adopter / 非 AWS region）
Multi-cloud / hybrid 架構不想 vendor lock

Operational redesign 對位

跟 PostgreSQL → Aurora / MongoDB → Atlas 同 Type C pattern：

Operational concept	Self-managed Kafka	MSK
Cluster bootstrap	手動配置 broker + ZK + brokers.properties	UI / Terraform 一鍵建
HA	自管 replica + ISR + broker placement	自動 multi-AZ + auto-recovery
Patching	Rolling restart 手動 / 工具	MSK 自動 monthly maintenance window
Backup	自管 MirrorMaker / cluster snapshot	MSK 內建 backup（S3、自動）
Authentication	SASL/SCRAM / mTLS 自管	IAM auth（推薦）/ SASL/SCRAM via Secrets Manager
Monitoring	Prometheus + JMX exporter 自建	CloudWatch + open monitoring + Prometheus
Sizing	手動 broker instance class	MSK broker size（kafka.m5.large+）
Configuration	server.properties 全控	Configuration set（限制可調 parameter）
Cluster topology	自管 placement / rack awareness	MSK 自動 multi-AZ + rack-aware
Tiered storage	Kafka 3.6+ 自管	MSK Tiered Storage（auto-tier 到 S3）

每行 operational concept 都需要 migration plan、application code 不變但 運維知識體系全換。

4-phase migration（Type C 標準流程）

Phase 0：Pre-migration audit

Workload sizing → MSK broker class：當前 throughput / partition count / topic count
Application connection pattern audit：客戶端 producer / consumer 用 SASL / mTLS / plaintext？哪個 application
Topic config audit：retention / replication factor / cleanup policy
Backup pattern audit：有 MirrorMaker / cross-cluster mirror 嗎

Phase 1：MSK cluster 建置（2-3 週）

 1resource "aws_msk_cluster" "main" {
 2  cluster_name           = "production"
 3  kafka_version          = "3.6.0"
 4  number_of_broker_nodes = 3
 5
 6  broker_node_group_info {
 7    instance_type   = "kafka.m5.large"
 8    client_subnets  = var.private_subnets
 9    security_groups = [aws_security_group.msk.id]
10    storage_info {
11      ebs_storage_info {
12        volume_size = 1000
13        provisioned_throughput {
14          enabled           = true
15          volume_throughput = 500
16        }
17      }
18    }
19  }
20
21  client_authentication {
22    sasl {
23      iam = true        # IAM auth (推薦)
24      scram = false
25    }
26  }
27
28  configuration_info {
29    arn      = aws_msk_configuration.main.arn
30    revision = aws_msk_configuration.main.latest_revision
31  }
32
33  encryption_info {
34    encryption_in_transit {
35      client_broker = "TLS"
36    }
37  }
38
39  logging_info {
40    broker_logs {
41      cloudwatch_logs {
42        enabled   = true
43        log_group = aws_cloudwatch_log_group.msk.name
44      }
45    }
46  }
47}

Phase 2：Data migration（MirrorMaker 2.0）

1Self-managed Kafka ──(MM2)──→ MSK
2                       │
3                consumer offset sync
4                       │
5                topic config sync

MM2 跑 1-7 天、依 topic 量 + retention 期間；replica.lag 對齊後進 cutover。

Phase 3：Cutover

Application 端切 bootstrap.servers 從 self-managed → MSK
Producer 漸進切（10% → 50% → 100%）
Consumer 切換時 offset 從 MM2 sync 過的位置開始
Self-managed cluster read-only standby 2 週

Production 故障演練

Case 1：IAM auth 沒設、application 連不上

徵兆：cutover 後 application 報 SaslAuthenticationException: Access denied；MSK 端 cloudWatch log 顯示 IAM principal 不認。

根因：MSK IAM auth 要求 client 跑 MSK IAM auth library（Java 用 aws-msk-iam-auth、Python 用 aws-msk-iam-sasl-signer-python）；application 端用 standard Kafka client、不知道怎麼 sign IAM signature。

修法：

 1# Python kafka-python + IAM auth
 2from aws_msk_iam_sasl_signer import MSKAuthTokenProvider
 3from kafka import KafkaProducer
 4
 5class AwsMskIamProvider(MSKAuthTokenProvider):
 6    def token(self):
 7        return self.generate_auth_token('us-east-1')[0]
 8
 9producer = KafkaProducer(
10    bootstrap_servers='b-1.mycluster.kafka.us-east-1.amazonaws.com:9098',
11    security_protocol='SASL_SSL',
12    sasl_mechanism='OAUTHBEARER',
13    sasl_oauth_token_provider=AwsMskIamProvider(),
14)

EKS pod 必須有 IAM role（IRSA）對 MSK cluster kafka-cluster:Connect action。

Case 2：Version pinning、3.6.0 跟 self-managed 行為差

徵兆：cutover 到 MSK 3.6.0 後、某些 consumer 跑舊 client 失敗；新 broker 改 default inter.broker.protocol.version 但 client 不認。

根因：MSK 升 Kafka version 後 broker config 變動、舊 client（< 2.8）跟新 broker 協議不對；self-managed 端可能用更舊 broker version 跑、看不出問題。

修法：

Pre-migration：所有 client 升 Kafka client library 2.8+
MSK kafka_version 對齊 self-managed：先建 MSK 3.0 / 3.5、跟 self-managed 一致、cutover 後再升
Phase rollout：用 Tiered Storage + retention 策略保留舊資料、新 producer / consumer 用新 version

Case 3：Metric pipeline 失效、SOC dashboard 無數據

徵兆：cutover 後 Grafana dashboard 顯示 MSK metric 0；舊 JMX exporter 抓不到 MSK；CloudWatch 有 metric 但 SOC 端不接 CloudWatch。

根因：MSK 不暴露 JMX、metric 走 CloudWatch / open monitoring (Prometheus + Grafana)、跟自建 JMX-based pipeline 不對等。

修法：

Open monitoring enabled：MSK config 設 open_monitoring.prometheus.jmx_exporter.enabled = true、跑 Prometheus 對 MSK broker 拉 metric
CloudWatch → Prometheus：用 cloudwatch-exporter 拉 CloudWatch metric 進 Prometheus
Dashboard refresh：Grafana dashboard 對 MSK-specific metric name 重寫（kafka_server_* → aws_kafka_* 或統一 alias）

Case 4：Cross-cluster mirror（MM2 → MSK）配置複雜

徵兆：MM2 跑了 1 週、self-managed 跟 MSK consumer offset 沒同步；application 切過去後 重新讀整批舊資料、duplicate processing。

根因：MM2 consumer offset sync 需要 跨 cluster mapping、source 端 offset 跟 target 端 offset 不直通；MM2 預設 offset sync 沒打開。

修法：

1# MM2 config
2source.consumer.bootstrap.servers=self-managed-kafka:9092
3target.consumer.bootstrap.servers=msk-cluster:9098
4target.security.protocol=SASL_SSL
5sync.group.offsets.enabled=true       # 必須打開
6emit.checkpoints.enabled=true
7checkpoints.topic.replication.factor=3

Architecture：consumer 切換時讀 MM2 checkpoint topic、不直接讀 internal offset；application 端用 idempotent + dedup key、avoid duplicate processing。

Case 5：MSK billing 暴漲、Tiered Storage / cross-AZ 沒控

徵兆：MSK 第一個月帳單比預估高 50%；breakdown 後發現 cross-AZ traffic（producer/consumer 跨 AZ）+ Tiered Storage 退到 S3 的 hot tier。

根因：

MSK auto multi-AZ deployment 不可避免 cross-AZ traffic、producer 寫 partition leader 可能跨 AZ
Tiered Storage 對 hot data（retention < 24 小時）會多 storage cost；cold data 才 cost-effective

修法：

Application AZ-aware routing：producer 走 same-AZ broker（用 rack-aware producer config）、降 cross-AZ
Retention 對齊 hot tier：< 24 小時 retention 用 broker local storage、24 小時+ 才走 Tiered Storage
Reserved instance：MSK 不直接 reserved、但 EBS / data transfer 可預付、降 10-20%

Capacity / cost

維度	Self-managed Kafka	MSK
Cluster cost (3 broker)	$660 EC2 + $1500 EBS = $2,160	$2,500-3,500（含 storage + multi-AZ）
Operational FTE	0.5-1 FTE = $5K-10K	0.1-0.3 FTE = $1K-3K
Patch / maintenance	Manual + downtime opportunity	Auto + maintenance window scheduled
Backup	Self-managed MirrorMaker	Built-in（S3 archive、auto）
Metric / monitoring	Prometheus + Grafana self-deploy	CloudWatch + open monitoring
Cross-AZ traffic	Limited by VPC layout	Auto multi-AZ、cross-AZ traffic cost 注意
Tiered storage	Kafka 3.6+ self-managed	MSK built-in tiered storage
Total (3 broker, 中型)	$7K-11K / mo (含 FTE)	$3.5K-6.5K / mo (含 FTE)
Migration cost	-	1-3 FTE × 1-2 個月

判讀：< 50 broker organization MSK ROI 通常 6-12 月持平、之後省 FTE；50+ broker 大 organization 自管 cost 可能反而低。

整合 / 下一步

跟 Kafka ↔ NATS migration 對位

兩條 Kafka 出路：

MSK：operational simplification、protocol drop-in、cost 中等漲；適合 繼續用 Kafka paradigm 的 organization
NATS：paradigm shift、application 必須改、適合 單純 messaging 不要 event sourcing 的 use case

多數 organization 不需要 paradigm shift、MSK 更合理；真正需要 lightweight messaging 才走 NATS。

跟 Confluent Cloud 對位

Confluent Cloud 是另一個 managed Kafka、跨 cloud（AWS / GCP / Azure）；MSK 是 AWS-only、但跟 IAM / VPC 整合更深。Multi-cloud organization 走 Confluent、AWS-deep organization 走 MSK。

跟 IAM / Secrets Manager 整合

MSK + IAM auth + Secrets Manager（連 Vault → AWS Secrets Manager migration）是 AWS-deep stack 的標準組合；short-lived credential + IRSA 是 production best practice。

反向 migration（MSK → self-managed）

少見、通常是 cost 反轉（大 scale）或 multi-cloud strategy；流程鏡像對稱、注意 MSK Tiered Storage data 不直接 export、需要 先 disable tiered storage + recall data。

下一步議題

MSK Connect：managed Kafka Connect、降 connector 運維、但 plugin ecosystem 比 self-managed Connect 少
MSK Serverless：burst workload 適合、steady workload 反而貴
Cost monitoring playbook：MSK billing 拆解每月跑一次、catch unexpected egress / tiered storage cost

3.C12 Pinterest：Shallow Mirror 優化 MirrorMaker

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 cross-region replication 的 CPU/memory 成本是被低估的工程議題。

觀察

Pinterest 三個 AWS region（us-east-1 / us-east-2 / eu-west-1）跑 MirrorMaker v1、原版設計把 record 解壓+重壓、memory 用量 2-10x 於網路 bytes、CPU spike 與 OOM 頻繁。

判讀

Shallow Mirror 在 RecordBatch 層淺迭代 + ByteBuffer pointer 共享、避開 deserialize/re-compress。揭露「跨區同步不是純 I/O 問題、是 CPU + memory + 網路三維壓力」。

對應大綱

Kafka 進階主題：cross-region MirrorMaker / MirrorMaker 2 配置。

下一步路由

回 Kafka vendor 頁與 3.C1 Meta FOQS。

引用源

Pinterest Shallow Mirror

Kafka Retention 與 Tiered Storage：保留策略、log compaction 與冷熱分層

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Kafka overview 的 implementation-layer deep article、聚焦保留與分層儲存。選型層的「該不該選 Kafka」「跟其他 broker 差在哪」見 overview；本文回答「保留策略怎麼設、log compaction 怎麼運作、冷熱分層怎麼讓容量跟保留期解耦、踩哪些坑」。配置段在 Apache Kafka KRaft 單節點實機驗證；tiered storage 段標註未實機驗證的範圍。

Retention 是 replay window 的物理邊界

Retention 的核心責任是決定「一筆訊息在 broker 上能存活多久」、而這條邊界直接界定 consumer 能往回重播多遠。Kafka 的 log 是 append-only 的事件序列、訊息寫入後不會被原地修改；retention 是唯一會把舊訊息從磁碟移除的機制。設多久、用什麼條件刪、刪掉之後 consumer 還能不能讀到，全由保留策略決定。

這條邊界之所以重要、是因為 Kafka 的多 consumer 模型讓「重播」變成一級能力。同一個 topic 可以被多組 consumer 各自從任意 offset 開始讀、每組維護自己的進度；只要訊息還在 retention 範圍內、新加入的 consumer 或出事後要補算的 consumer 都能從頭重讀。一旦訊息超過 retention 被刪、replay window 就到此為止、補償只能改走資料庫或上游來源。

Kafka 提供兩條獨立的保留軸、可單獨用也可同時用：

配置	觸發條件	典型場景
`retention.ms`	訊息寫入時間超過設定值（時間軸）	「保留 7 天事件供事故 replay」
`retention.bytes`	該 partition log 總大小超過設定值（容量軸）	「每 partition 上限 50 GB、防止磁碟塞爆」
兩者同時設	任一條件先達到就刪（取交集、誰先到誰生效）	「保留 7 天、但單 partition 不超過 50 GB」

時間軸對齊的是 replay 需求：把 retention 設成「事故從發生到偵測到修復的最長時間」、確保發現要補算時事件還在。容量軸對齊的是成本與磁碟保護：避免某個突發高流量 topic 把 broker 磁碟寫滿、拖垮同 broker 上其他 partition。兩者同時設時是「誰先觸發誰生效」、所以容量軸常常會在高流量時段提前砍掉本來預期能保留 7 天的事件——這個交互是後面故障演練的重點之一。

實機建立一個同時設兩軸的 topic、--describe 會把保留配置直接列在 Configs：

1# CLI 在容器內 /opt/kafka/bin/、bootstrap-server 指向 broker
2kafka-topics.sh --create --topic ret-delete --partitions 1 \
3  --config retention.ms=60000 \
4  --config retention.bytes=10485760 \
5  --config segment.ms=10000 \
6  --bootstrap-server localhost:9092
7
8kafka-topics.sh --describe --topic ret-delete --bootstrap-server localhost:9092
9# Configs: retention.ms=60000,retention.bytes=10485760,segment.ms=10000,...

retention 不是寫死在建 topic 當下、線上可以用 kafka-configs.sh --alter 動態調整、立即生效不需重啟 broker：

1kafka-configs.sh --alter --entity-type topics --entity-name ret-delete \
2  --add-config retention.ms=3600000 \
3  --bootstrap-server localhost:9092
4# Completed updating config for topic ret-delete.
5
6kafka-configs.sh --describe --entity-type topics --entity-name ret-delete \
7  --bootstrap-server localhost:9092
8# retention.ms=3600000 sensitive=false synonyms={DYNAMIC_TOPIC_CONFIG:retention.ms=3600000}

動態調整的 retention 屬於 DYNAMIC_TOPIC_CONFIG、優先於 broker 層的 log.retention.* 預設值；synonyms 欄位會把覆蓋關係列出來、排查時可確認當前生效的是哪一層。

Segment 是刪除的最小單位

Retention 刪資料的最小單位是 log segment、不是單筆訊息。理解這一點才能解釋「為什麼設了 retention.ms 之後，過期的訊息有時還在」。每個 partition 的 log 在磁碟上被切成多個 segment 檔、只有 active segment（當前正在寫入的那一個）以外、已經 roll over 的 segment 才會被 retention 檢查並整段刪除。

Segment 何時 roll over 由兩個條件決定：segment.bytes（檔案大到上限、預設 1 GB、最小 1 MB）或 segment.ms（檔案存在時間超過設定）。實機寫入 ~6 MB 資料到一個 segment.bytes=1048576（1 MB）的 topic、磁碟上會看到 6 個 roll 過的 segment：

100000000000000000000.log   1045229   # 已 roll，可被 retention 刪
200000000000000001024.log   1046336   # 已 roll
300000000000000002048.log   1046336   # 已 roll
400000000000000003072.log   1046336   # 已 roll
500000000000000004096.log   1037748   # 已 roll
600000000000000005112.log    904737   # active segment，不會被刪

Retention 的實際刪除動作由背景執行緒週期性執行、頻率是 broker 層的 log.retention.check.interval.ms、預設 300000 毫秒（5 分鐘）。這代表「過期」跟「被刪」之間有最長一個檢查週期的延遲：訊息超過 retention.ms 的瞬間不會立刻消失、要等下一次檢查跑到、且該訊息所在的 segment 已經 roll over、整段才會被刪。實機把 retention.bytes 設成 2 MB、寫進 6 MB（6 個 segment）、在 5 分鐘檢查週期內查 earliest offset 仍是 0——超量的 segment 還沒被回收、因為檢查執行緒還沒跑到下一輪。

這個機制有兩個操作後果。其一、磁碟用量會在「超過 retention 上限」到「下一次檢查」之間短暫超標、容量規劃要把這段 overshoot 算進緩衝。其二、把 retention.ms 設得比 segment.ms 還短沒有意義：訊息要等所在 segment roll 才可能被刪、active segment 永遠刪不掉、所以實際最短保留時間是 max(retention.ms, segment 尚未 roll 的時間)。

cleanup.policy：delete 與 compact 是兩種回收語意

cleanup.policy 決定 retention 用哪種語意回收空間、是保留策略最關鍵的分岔。預設值 delete 是時間或容量到期就整段刪除、適合事件流（event stream）：訊息代表「發生過的事實」、過了 replay window 就沒有保留價值。另一個值 compact 是 log compaction、語意完全不同：它保留每個 key 的最新值、刪除同 key 的歷史版本、適合「狀態快照」型資料。

兩者的判準是這份 log 表達的是「事件序列」還是「最終狀態」。訂單建立、付款完成、商品瀏覽這類事件、每一筆都是獨立事實、用 delete；使用者個人設定、商品庫存當前值、CDC 同步出來的資料表鏡像這類「同一個 key 不斷被覆寫、只關心最新值」的資料、用 compact。Kafka 內部的 __consumer_offsets topic 就是 compact——它只需要每個 consumer group 的最新 offset、不需要歷史 commit 記錄。

兩者可以同時開（cleanup.policy=compact,delete）：先按 key 壓縮保留最新值、同時對壓縮後的結果再套時間 / 容量上限。用 kafka-configs.sh 切換時、逗號分隔的值要用中括號群組、否則會被解析成兩個獨立 config：

1kafka-configs.sh --alter --entity-type topics --entity-name ret-delete \
2  --add-config 'cleanup.policy=[compact,delete]' \
3  --bootstrap-server localhost:9092
4# Completed updating config for topic ret-delete.
5# describe: cleanup.policy=compact,delete

Log compaction 用最新值取代歷史

Log compaction 的核心責任是讓一個 topic 收斂成「每個 key 的最新狀態」、同時保有 Kafka 的 log 重播能力。它的運作方式是背景的 log cleaner 執行緒掃描已 roll 的 segment、對每個 key 只保留 offset 最大的那筆、把同 key 的舊版本標記移除、再把存活的記錄重寫成新 segment。Compaction 後、新加入的 consumer 從頭讀一次、拿到的就是整個 keyspace 的最新快照、而非完整變更歷史。

實機驗證最直接：建一個 compact topic、對 3 個 key 各寫 2 個版本（舊值在前、新值在後）、等 compaction 跑完、從頭消費：

 1kafka-topics.sh --create --topic ret-compact --partitions 1 \
 2  --config cleanup.policy=compact \
 3  --config min.cleanable.dirty.ratio=0.01 \
 4  --config segment.ms=5000 \
 5  --config delete.retention.ms=100 \
 6  --bootstrap-server localhost:9092
 7
 8# 寫 k1/k2/k3 各舊值一筆、再各新值一筆（key:value 用冒號分隔）
 9printf 'k1:v1-old\nk2:v1-old\nk3:v1-old\nk1:v2-new\nk2:v2-new\nk3:v2-new\n' | \
10  kafka-console-producer.sh --topic ret-compact \
11  --property parse.key=true --property key.separator=: \
12  --bootstrap-server localhost:9092
13
14# 等 segment roll + compaction，再從頭消費
15kafka-console-consumer.sh --topic ret-compact --from-beginning \
16  --property print.key=true --property print.offset=true \
17  --timeout-ms 6000 --bootstrap-server localhost:9092
18# Offset:3  k1  v2-new
19# Offset:4  k2  v2-new
20# Offset:5  k3  v2-new

寫進 6 筆、從頭只讀到 3 筆——k1/k2/k3 的 v1-old（offset 0-2）被壓縮移除、只留每個 key 的 v2-new。關鍵細節：offset 沒有重新編號、留存記錄保留原始 offset（3、4、5）、log 的位置語意不變、其他 consumer 的 offset 進度不會錯位。

Compaction 的觸發不是即時的、由幾個參數共同決定。min.cleanable.dirty.ratio 是「髒比例」門檻、髒記錄（已被新版本取代但還沒清掉的舊版本）佔 log 比例超過這個值、cleaner 才會處理該 partition、預設 0.5（驗證時調成 0.01 加速觸發）。segment.ms 控制 active segment 多久 roll、只有 roll 過的 segment 能被 compact。delete.retention.ms 控制 tombstone（value 為 null 的刪除標記）保留多久——compaction topic 用 null value 表示「這個 key 已刪除」、tombstone 要保留夠久讓所有 consumer 都讀到刪除事件、之後才清掉。

Tombstone 是 compaction 表達「刪除」的方式：寫一筆 key 存在、value 為 null 的記錄、compaction 會把該 key 的所有歷史連同這筆 tombstone 在 delete.retention.ms 之後一起清除。這讓 compact topic 能表達「key 從存在到被刪」的完整生命週期、而不只是「永遠累積最新值」。

Tiered Storage 讓容量與保留期解耦

以下 tiered storage 段落依 Apache Kafka 官方文件（KIP-405）與 Pinterest / LinkedIn 公開案例敘述、未在本文的 KRaft 單節點環境實機驗證。Apache Kafka 的原生 tiered storage（remote.storage.enable）在當前版本屬 early-access、需要額外的 RemoteStorageManager plugin 與 broker 設定；正式採用前以官方文件版本標註為準。

Tiered storage 的核心責任是把 broker 的「儲存容量」跟「保留期長度」解耦。傳統 Kafka 的保留期受限於 broker 本機磁碟：想保留 30 天、就得讓每個 broker 的 local disk 容納 30 天的全量資料、retention 拉長等於 broker 數量或單機磁碟線性增長、而 broker 的 CPU / 記憶體 / 網路其實沒用到那麼多。Tiered storage 把 log 分成兩層：熱資料（近期、頻繁讀）留在 broker local disk（local tier）、冷資料（過期門檻之外、偶爾 replay）卸載到遠端物件儲存如 S3（remote tier）。Broker 只需放得下熱資料、保留期可以拉到數月甚至更久、成本變成 S3 的物件儲存費而非 broker 機群。

分層的觸發由 local.retention.ms / local.retention.bytes（本機保留多久 / 多大、超過就卸到 remote）跟整體的 retention.ms / retention.bytes（含 remote 的總保留邊界、超過才真正刪除）共同界定。一筆訊息的生命週期變成：寫入 local tier、超過 local retention 卸到 remote tier、超過整體 retention 從 remote 刪除。Replay window 因此可以遠大於 broker local disk 容量。

讀取路徑分熱冷兩條、效能特性不同。Consumer 讀近期 offset、資料在 local tier、走的是 Kafka 一向的 page cache + 順序讀路徑、低延遲高吞吐。Consumer 讀很舊的 offset（例如出事後從幾週前重播）、資料在 remote tier、broker 要先從 S3 把對應 segment 拉回來才能 serve、第一次讀的延遲明顯高於熱路徑、吞吐受 S3 頻寬與 broker 拉取並行度限制。這個熱冷讀差異是 tiered storage 的核心取捨——也是故障演練要處理的場景。

業界對 tiered storage 有兩條不同的工程路線、對應不同的 broker 角色定位：

路線	broker 角色	代表案例
Broker-coupled（KIP-405 原生）	broker 仍是 remote 讀的熱路徑、代理拉取	Apache Kafka 原生 tiered storage
Broker-decoupled	consumer 直接從 S3 拉、broker 不在熱路徑	3.C11 Pinterest Tiered Storage

Pinterest 的 broker-decoupled 做法把 ~200 TB/day 熱資料卸到 S3、讓 consumer 直接從 S3 拉冷資料、broker 不再是冷讀的熱路徑。它揭露的設計判讀是「broker 運算資源」跟「跨 AZ 網路成本」其實該分開治理、而不是綁在 broker 容量擴張上——保留期變長不該等於 broker 機群變大。

LinkedIn 的分層叢集策略是另一個層次的「分層」：把不同業務特性與可靠性需求的 workload 拆到不同叢集（依關鍵程度分群、例如關鍵 / 一般 / 實驗性，分層名稱為示意而非案例原文用詞）、避免混在同一叢集時故障與資源競爭互相放大。這裡的「分層」指叢集隔離、不是儲存的冷熱分層。兩種「分層」常被混談、但解的是不同問題：tiered storage 解單一 topic 的儲存成本、tiered clusters 解多 workload 的隔離治理。

故障演練

Retention 太短、replay window 不夠補事故

徵兆：下游 consumer 出 bug、產出錯誤的衍生資料、幾天後才被對帳發現；要從原始事件重播修復時、發現最舊的事件已經被刪、replay 從某個時間點之後才有資料、之前的修不回來。

根因：retention.ms 設得比「事故從發生到偵測到開始修復的最長時間」短。Replay window 由 broker retention 與 consumer checkpoint 共同界定、retention 是其物理上限；偵測延遲一旦超過 retention、要補算時原始事件已過期。常見的隱性誘因是把 retention 按「正常 consumer 跟得上的進度」來設（例如 consumer 通常落後幾分鐘、就設 1 天保險）、卻沒按「最壞情況下多久才會發現問題」來設。

修法：

把 retention.ms 對齊事故偵測到修復的最長時間、而非 consumer 正常落後量；對帳 / 審計類 pipeline 的偵測週期常以天計、retention 要跟著拉到對應天數。
對「偵測延遲可能很長」的關鍵 topic、在下游另留可重算的來源（資料庫快照、上游 source of truth）、不把 Kafka retention 當唯一補償依據。
用 kafka-configs.sh --alter 動態延長 retention 是即時生效的、但只對「還沒被刪」的訊息有用——已刪的救不回來；所以調整要趁事故升級前、發現偵測週期被低估的當下就改、不是等出事才改。
Replay 邊界對齊見 3.7 Event Contract 與 Replay Boundary：replay 要能指定 time range、超出 retention 的 time range 直接無效。

Compaction 開了、磁碟卻沒回收

徵兆：topic 設了 cleanup.policy=compact、預期同 key 舊版本會被清掉、磁碟用量卻持續上漲、--describe 看 partition log 一直變大；從頭消費仍讀到大量同 key 的歷史版本。

根因：compaction 觸發條件沒滿足。log cleaner 只處理已 roll 的 segment、active segment 永遠不壓縮；min.cleanable.dirty.ratio 預設 0.5、髒比例沒到一半 cleaner 不動手；如果寫入集中在少數 key、active segment 遲遲不 roll（segment.bytes / segment.ms 都沒到）、髒記錄全積在 active segment 裡、compaction 看不到它們。另一個常見原因是 broker 的 log cleaner 執行緒數（log.cleaner.threads）不足以跟上高寫入量、cleaner backlog 累積。

修法：

確認 active segment 會適時 roll：對寫入量不大但需要及時壓縮的 topic、設 segment.ms（例如數小時）強制 roll、讓髒記錄離開 active segment 進入可壓縮範圍。
視壓縮急迫度調 min.cleanable.dirty.ratio：要更積極壓縮就調低（驗證時用 0.01）、但調太低會讓 cleaner 頻繁重寫 segment、增加 I/O——這是壓縮及時性跟 cleaner 開銷的取捨。
監控 cleaner backlog：看 broker 的 log-cleaner 相關 metric、backlog 持續成長代表 cleaner 執行緒不夠、加 log.cleaner.threads。
確認沒有把 compact 用在「其實該 delete」的事件流上——事件流每筆 key 多半唯一、compaction 沒有舊版本可壓、磁碟自然不會降；那種情況該用 delete 加 retention。

Cold tier 讀延遲拖垮 replay

徵兆：開了 tiered storage、平時讀近期資料正常、一旦發起從幾週前的舊 offset 大規模 replay、consumer 的吞吐驟降、p99 拉取延遲飆高、broker S3 拉取頻寬打滿、同 broker 上其他正常 consumer 也跟著受影響。

根因：舊 offset 的資料在 remote tier、每次讀要先從 S3 把 segment 拉回 broker、第一次冷讀延遲遠高於 local tier 的順序讀。大規模 replay 等於一次要從 S3 拉大量冷 segment、S3 頻寬與 broker 拉取並行成為瓶頸；broker-coupled 架構下這些拉取流量全經過 broker、會排擠到熱路徑的正常服務。

修法：

把大規模冷 replay 排到低流量時段、避免跟線上熱路徑爭 broker 資源與 S3 頻寬。
控制 replay 的並行度與範圍：依 replay boundary 指定 time range / tenant / partition、分批拉冷資料、不要一次全量回放整個保留期。
評估 broker-decoupled 架構（如 Pinterest 做法）：consumer 直接從 S3 拉冷資料、把冷讀流量從 broker 熱路徑移開、保護線上服務。
容量規劃把「冷讀延遲」算進 RTO：replay window 拉很長能補很久以前的事故、但補的速度受 cold tier 吞吐限制、事故修復時間估算要把這段拉取時間算進去。

retention.bytes 在高流量時段提早刪

徵兆：retention.ms 明明設了 7 天、某次流量突增後、consumer 卻發現幾小時前的事件就已經被刪、replay 拿不到本該還在的資料；earliest offset 在沒人預期的時候大幅前移。

根因：retention.ms 與 retention.bytes 同時設時是「誰先觸發誰生效」。流量突增讓 partition log 在遠不到 7 天時就撞到 retention.bytes 容量上限、容量軸先觸發、舊 segment 被提前刪除——時間軸的 7 天承諾在高流量下失效。常見於「按平均流量估容量上限、卻遇到尖峰流量」、或多個 topic 共享磁碟時為了保護磁碟把每 topic 容量上限壓得偏低。

修法：

釐清這個 topic 的保留承諾是時間還是容量主導：以 replay window 為準的關鍵 topic、容量上限要按「尖峰流量 × 保留天數」估、而非平均流量、否則尖峰時容量軸會偷走時間承諾。
監控 earliest offset 與 log 大小的變化率：earliest offset 在非預期時間前移、就是 retention.bytes 提前觸發的訊號、加進告警。
要硬保證時間保留、就把 retention.bytes 設成 -1（不限容量、純時間軸）、改用獨立的磁碟告警與容量規劃來防磁碟塞爆、而不是用 retention.bytes 兼做兩件事。
評估 tiered storage：把保留壓力從 broker local disk 移到 remote tier、local 只留熱資料、就不必為了保護 broker 磁碟而把 retention.bytes 壓低、時間承諾不再被容量上限侵蝕。

容量與成本

維度	估算與判讀	警戒
Local disk 用量	partition 數 × 單 partition log 大小 × replication factor	接近磁碟上限時 retention.bytes 會提前砍時間承諾
保留期 vs 成本	純 local 時 retention 線性推高 broker 磁碟成本	數月保留 + 純 local = broker 機群為冷資料買單
Tiered remote 成本	S3 物件儲存費 + 冷讀時的拉取 / egress 流量費	跨 AZ / 跨 region 冷讀 egress 成本易被低估
Retention 檢查延遲	過期到實際刪除最長一個 `log.retention.check.interval.ms`（預設 5 分）	容量規劃要預留 overshoot 緩衝
Compaction 開銷	cleaner 重寫 segment 的 I/O、隨 dirty.ratio 調低而上升	dirty.ratio 過低 = cleaner 頻繁重寫、I/O 壓力升
Cold replay 吞吐	受 remote tier（S3）頻寬與 broker 拉取並行度限制	大規模 cold replay 排低流量時段、分批進行

實務 default：

事件流 topic 用 delete、retention.ms 對齊事故偵測到修復的最長時間、retention.bytes 設 -1 或按尖峰流量估、不讓容量軸偷走時間承諾。
狀態快照 / CDC 鏡像 topic 用 compact、確認 active segment 會適時 roll、監控 cleaner backlog。
需要長保留期（數月以上）且 broker 磁碟成本敏感時、評估 tiered storage、把冷資料移到 S3、broker 只放熱資料。
任何 retention 調整前先確認當前生效層級（kafka-configs.sh --describe 看 synonyms）、避免 broker 預設與 topic 動態配置混淆。

整合與下一步

跟 replay 邊界對齊

Retention 是 replay window 的物理上限、但 replay 能不能正確執行還要看 event contract 是否齊備（event id / schema version / occurred time / dedup key）。保留策略設計要跟 3.7 Event Contract 與 Replay Boundary 一起看：retention 決定「能不能讀到」、event contract 決定「讀到了能不能正確重播」、兩者缺一 replay 都不成立。相關概念見 retention 與 offset 知識卡。

跟分層叢集治理對位

本文的 tiered storage 解的是單一 topic 的儲存成本；3.C4 LinkedIn 分層叢集解的是多 workload 的隔離——把不同可靠性需求的 topic 拆到不同叢集、避免資源競爭互相放大。保留策略在分層叢集裡會按層差異化：critical 叢集拉長 retention 保 replay、experimental 叢集縮短 retention 控成本。

跟 broker-decoupled 架構的取捨

3.C11 Pinterest broker-decoupled tiered storage 把冷讀流量從 broker 熱路徑移開、是「cold tier 讀延遲拖垮 replay」故障演練的架構級解法；它跟 3.C12 Pinterest Shallow Mirror 揭露的「跨區同步是 CPU + memory + 網路三維壓力」一起、構成 Pinterest 在儲存與複製兩條路徑上的成本治理。

回上游

上游 vendor 頁：Apache Kafka（「Tiered storage」與「Cross-region 與分層叢集」段）
平行 deep article：consumer rebalance 與 lag 診斷 / replication、ISR 與 exactly-once（同 vendor 其他實作層議題）
下游能力：3.4 consumer 設計 / 6.12 idempotency / replay

RabbitMQ Queue Type 選型：Classic、Quorum、Stream 的責任邊界與容量取捨

Tue, 16 Jun 2026 00:00:00 +0000

本文是 RabbitMQ overview 的 implementation-layer deep article、對應 overview「Classic queue vs Quorum queue vs Stream」段。Overview 回答「RabbitMQ 該不該選、跟 Kafka / SQS 差在哪」、本文回答「選了 RabbitMQ 之後、同一個 broker 內三種 queue type 怎麼挑、各自的容量與故障形狀」。

同一個 broker、三套儲存引擎

RabbitMQ 的 queue 由三種 儲存引擎 構成、共用同一套 AMQP 協議與 management 介面。Queue type 決定訊息怎麼持久化、怎麼跨節點複製、消費後是否保留 — 這些差異在宣告 queue 的那一刻就鎖定、之後無法原地切換。選錯 queue type 的代價不是參數調整、是 重建 queue + 遷移 in-flight 訊息。

三種 type 各自承擔不同責任：

Classic queue：單節點的 durable / transient queue、訊息消費即刪除、是 RabbitMQ 最原始的工作隊列模型。跨節點高可用曾靠 mirrored queue（鏡像複製）達成、但該機制在 3.x 已標記 deprecated、4.0 移除。
Quorum queue：Raft 共識協議實作的 replicated queue、跨節點維持強一致的訊息狀態、設計目標是 取代 mirrored queue 提供可靠的工作隊列高可用。訊息仍是消費即刪除的隊列語意。
Stream：3.9 引入的 append-only log、訊息寫入後 不因消費而刪除、多個 consumer 可從各自的 offset 重複讀取、retention 由時間 / 大小上限控制。語意接近 Kafka 的 partition log、但跑在 RabbitMQ 體系內、共用 AMQP 與專屬 stream protocol。

判讀起點是一個問題：訊息被消費後該不該保留。需要 replay、多 consumer 各自進度、長期事件流 → stream；訊息是一次性任務、處理完即丟、要跨節點不丟 → quorum；單節點夠用、可接受節點故障時該 queue 暫時不可用 → classic。

本文用 RabbitMQ 3.13.7（OrbStack 單節點）實機驗證宣告語意差異。生產的跨節點行為（Raft 選舉、replica lag）單節點環境無法重現、相關段落標注來源。

三種 queue type 的宣告語意差異（實機驗證）

Queue type 由宣告時的 x-queue-type argument 決定。三種 type 在同一 broker 宣告後、type 欄位區分清楚：

1rabbitmqadmin declare queue name=q-classic durable=true
2rabbitmqadmin declare queue name=q-quorum  durable=true arguments='{"x-queue-type":"quorum"}'
3rabbitmqadmin declare queue name=q-stream  durable=true arguments='{"x-queue-type":"stream"}'
4
5rabbitmqctl list_queues name type durable leader members

實機輸出（節錄、單節點所以 leader / members 都是同一節點）：

1name       type     durable  leader              members
2q-classic  classic  true
3q-quorum   quorum   true     rabbit@       [rabbit@]
4q-stream   stream   true     rabbit@       [rabbit@]

兩個關鍵差異在這裡浮現。

第一、quorum 與 stream 強制 durable。Classic queue 可宣告為 transient（durable=false、broker 重啟後消失、適合臨時 RPC reply queue）；quorum 與 stream 不允許 transient — 嘗試宣告會直接被拒：

1*** invalid property 'non-durable' for queue 'q-quorum-nondur' in vhost '/'
2*** invalid property 'non-durable' for queue 'q-stream-nondur' in vhost '/'

這個限制反映設計意圖：quorum 與 stream 存在的理由是 資料安全、transient 模式與該目標矛盾、所以從宣告層就封死。Classic queue 保留 transient 選項、是因為它要同時服務「臨時隊列」與「持久隊列」兩種場景。

第二、quorum 與 stream 有 leader / members、classic 沒有。Classic queue 的訊息只存在宣告它的節點上（mirrored policy 另算）；quorum 與 stream 在設計上就是 cluster-aware 的 replicated 結構、leader 處理讀寫、members 列出 replica 所在節點。單節點環境下 members 只有一個、但欄位本身揭露了複製拓樸的存在。

Stream 的 retention 與 segment 參數在宣告時設定、宣告後可查：

1rabbitmqadmin declare queue name=q-stream-ret durable=true \
2  arguments='{"x-queue-type":"stream","x-max-length-bytes":20000000000,"x-max-age":"7D","x-stream-max-segment-size-bytes":100000000}'
3
4rabbitmqctl list_queues name type arguments

1q-stream-ret  stream  [{"x-max-age","7D"},{"x-max-length-bytes",20000000000},
2                       {"x-queue-type","stream"},{"x-stream-max-segment-size-bytes",100000000}]

x-max-age（保留 7 天）與 x-max-length-bytes（保留 20GB）是 stream 獨有的 retention 控制 — classic 與 quorum 沒有這個概念、因為它們消費即刪除、不存在「保留多久」的問題。Quorum queue 對應的是 x-delivery-limit（投遞次數上限、超過進 dead-letter）這類 重試治理 參數、而非 retention：

1q-quorum-dl  quorum  [{"x-delivery-limit",5},{"x-queue-type","quorum"}]

宣告參數的差異就是責任邊界的縮影：stream 的參數圍繞「保留多少歷史」、quorum 的參數圍繞「重試到第幾次放棄」、classic 兩者都精簡。

三軸選型判讀

Queue type 的選擇由三個軸決定：消費後是否保留（retention / replay）、跨節點一致性需求、記憶體與 throughput 成本。

判讀軸	Classic	Quorum	Stream
消費語意	消費即刪除	消費即刪除	消費不刪除、offset 各自獨立
Replay	不支援	不支援	支援、consumer 可重設 offset 重讀
跨節點一致性	無（mirrored deprecated）	Raft 強一致、majority 寫入才 ack	Leader-follower 複製、append-only
高 throughput	中（單節點 fsync 上限）	中（Raft majority round-trip 成本）	高（順序寫 log、批次讀）
記憶體成本	高（訊息常駐記憶體、lazy 例外）	中（on-disk 為主、index 在記憶體）	低（log 在磁碟、讀靠 page cache）
典型場景	單節點任務隊列、臨時 RPC reply	跨節點不可丟的工作隊列	事件流、多 consumer、需要 replay 的審計

消費後是否保留：retention 與 replay

Stream 與 classic / quorum 的根本分界是訊息生命週期。Classic 與 quorum 是隊列：訊息被 ack 後從 queue 移除、後到的 consumer 看不到歷史。Stream 是 log：訊息寫入後常駐到 retention 上限為止、consumer 各自維護 offset、可以從 offset 0 重讀整段歷史、也可以從 timestamp 起讀。

實機可觀察到 stream 的訊息在 publish 後保留在 queue 內：

1rabbitmqadmin publish exchange=amq.default routing_key=q-stream payload="msg1"
2rabbitmqadmin publish exchange=amq.default routing_key=q-stream payload="msg2"
3rabbitmqadmin publish exchange=amq.default routing_key=q-stream payload="msg3"
4rabbitmqctl list_queues name type messages messages_ready

1q-stream   stream  3  3

對 classic queue、同樣 publish 後 consumer ack 一次、訊息歸零；對 stream、即使一個 consumer 讀完、messages 仍維持 3、因為訊息保留供其他 consumer 與未來 replay。這個差異決定了選型：需要「新上線的 consumer 補讀歷史事件」「同一份事件流餵給多個下游」「審計與重算」→ stream 是唯一選項；只要「一個任務交給一個 worker 處理一次」→ classic 或 quorum、不要用 stream（log 保留會吃磁碟、且隊列語意更貼合任務分派）。

需要在 RabbitMQ 體系外做大規模事件流（跨團隊 schema 治理、tiered storage、生態工具）時、stream 不是終點、改評估 Kafka。Stream 的定位是「已經在用 RabbitMQ、需要 replay 但不想引入第二套 broker」。

跨節點一致性：mirrored 的退場與 quorum 的接手

Classic queue 在單節點上沒有複製。早期要跨節點高可用、靠 mirrored queue — 一個 master、多個 mirror、master 寫入同步到所有 mirror。這個機制的問題在 3.C30 Runtastic 揭露：mirror 數越多、每筆訊息的網路放大越大、規模化時網路元件先被壓垮。RabbitMQ 3.x 已將 mirrored queue 標記 deprecated、4.0 移除。

Quorum queue 用 Raft 共識取代 mirroring。差異在「同步多少 replica 才算寫成功」：mirrored queue 要求所有 mirror 同步（全量放大）；Raft 只要求 majority（多數派）寫入即 ack，少數派慢或暫時離線不阻塞寫入。majority 機制讓 quorum queue 在「容忍少數節點故障」與「寫入延遲」之間取得 mirrored 做不到的平衡。

代價是 Raft 的 round-trip 成本：每筆訊息要等多數派落盤、單筆延遲高於 classic 單節點 fsync。所以 quorum queue 適合「不可丟、可接受中等延遲」的工作隊列、不適合追求極致低延遲的場景。

記憶體與 throughput 成本

Classic queue 的歷史包袱是訊息傾向常駐記憶體、queue 堆積時記憶體壓力大（lazy queue 模式可緩解、但仍是 classic 的調校負擔）。Quorum queue 預設 on-disk 為主、記憶體只放 index 與近期訊息、堆積時記憶體曲線比 classic 平緩。Stream 是 append-only log、寫入是順序磁碟 I/O、讀取靠 OS page cache、是三者中記憶體效率最高、throughput 最高的 — 順序寫與批次讀讓它在高吞吐事件流場景接近 Kafka 的量級。

throughput 排序大致是 stream > classic ≈ quorum（quorum 因 Raft round-trip 略低於單節點 classic、但換得一致性）。選型時 throughput 不該是唯一軸：stream throughput 高但語意是 log、用它跑任務隊列會錯配；quorum throughput 中但提供 classic 給不了的高可用。

故障演練

三種 queue type 的故障形狀完全不同。以下四個場景對應實際遷移與運維會踩的坑。

Mirrored queue 的網路放大成本

徵兆：流量暴增期間、RabbitMQ cluster 出現高延遲與間歇中斷、但 CPU 與磁碟未飽和；performance test 指向網路元件被壓垮。這正是 3.C30 Runtastic 2020 lockdown 期間的情況。

根因：mirrored queue 把每筆訊息同步到所有 mirror。一個 master + 2 mirror 的 queue、每筆 publish 產生 2 份額外的跨節點複製流量；mirror 數與訊息量相乘、網路頻寬隨規模線性放大。可靠性看似免費（多一個 mirror 就多一份備援）、實際成本藏在網路層、平時不顯、流量尖峰才爆。

修法：

量化 mirror 的網路成本：mirror 數不是越多越安全、每個 mirror 都是固定的複製流量稅。生產上 mirror 數很少需要超過總節點的 majority。
遷移到 quorum queue：Raft 的 majority 寫入取代全量同步、把網路放大從「mirror 數」降到「majority round-trip」。Runtastic case 是「為何該遷 quorum」的典型動機。
監控網路而非只看 CPU / 磁碟：mirrored queue 的瓶頸常在網路、用 Prometheus integration 把跨節點複製流量納入告警基線。

Quorum queue 的 quorum loss

徵兆：cluster 有節點故障後、某些 quorum queue 變成不可寫、publisher confirm 卡住超時、rabbitmq-diagnostics check_if_node_is_quorum_critical 報警。

以下跨節點行為依官方文件、單節點環境未實機驗證。

根因：quorum queue 靠 Raft majority 運作。一個 3-replica 的 queue 容忍 1 個節點故障（剩 2 個構成 majority）；故障 2 個節點時、剩 1 個無法構成多數派、queue 進入 無 leader 狀態、拒絕寫入以保證一致性。這是 Raft 的設計選擇：寧可不可用、不可不一致。replica 數設成偶數（如 2 或 4）更糟 — 偶數的 majority 門檻不會提升容錯、反而浪費資源。

修法：

replica 數設奇數：3 replica 容忍 1 故障、5 replica 容忍 2 故障。奇數讓 majority 計算最有效率。
監控 quorum critical 狀態：rabbitmq-diagnostics check_if_node_is_quorum_critical 在「再掛一個節點就會失去 quorum」時提前告警、在維護重啟前先確認不會打破 majority。
跨故障域分佈 replica：把 3 個 replica 放在不同 AZ / 機架、避免單一故障域同時帶走多數派。
理解不可用是預期行為：quorum loss 時 queue 拒寫是正確的、不是 bug。恢復路徑是把故障節點拉回 cluster 重組 majority、不是強制覆寫。

Stream retention 超量

徵兆：stream queue 所在節點磁碟使用率持續上升、最終觸發 disk alarm、broker 暫停所有 publisher；或 consumer 嘗試讀取較舊的 offset 時拿到「offset 不存在」、發現歷史訊息已被截斷。

根因：stream 是 append-only log、訊息 不因消費而刪除、只靠 retention 上限（x-max-age 時間 / x-max-length-bytes 大小）回收。retention 設太寬、或寫入速率超過預估、log 持續長大直到塞滿磁碟。反過來 retention 設太緊、consumer 還沒讀到的舊訊息就被截斷、replay 場景拿不到完整歷史。Stream 的容量管理是「設定 retention」、不是「靠消費清空」 — 這跟隊列直覺相反。

修法：

retention 雙保險：同時設 x-max-age（時間上限、對齊業務 replay 窗口、如 7 天）與 x-max-length-bytes（大小上限、對齊磁碟容量）。先到的條件先觸發截斷、避免單一維度失控。
segment 大小對齊回收粒度：x-stream-max-segment-size-bytes 決定 log 分段大小、retention 以 segment 為單位回收。segment 太大、retention 觸發後一次釋放大量空間、磁碟曲線鋸齒；太小、segment 檔案數量爆炸。
容量公式先算再設：預估 寫入速率 × 訊息平均大小 × retention 時間、確認低於節點磁碟可用空間的安全水位（如 70%）、再上線。
monitor disk_free_limit：stream 節點的磁碟告警閾值要比一般節點更早、因為 stream 是磁碟密集型、disk alarm 觸發會凍結整個 broker 的 publisher。

Classic → Quorum 遷移的 in-flight message

徵兆：把工作隊列從 classic（或 deprecated mirrored）遷到 quorum 時、切換瞬間有訊息遺失、或重複處理 — queue 重建期間 publisher 已經在發、consumer 還沒接上新 queue。

根因：queue type 無法原地變更、遷移本質是 建新 queue + 切流量 + 排空舊 queue。最大的坑是 in-flight 訊息：舊 classic queue 裡還有未消費的訊息、若直接刪除舊 queue、這些訊息就丟了；若 publisher 提前切到新 queue、舊 queue 的 consumer 還在處理、就出現新舊兩條路徑並存的一致性窗口。3.C27 Zalando 跨版本升級用 federation 過渡、正是為了平滑搬移而非硬切。

修法：

新 queue 先建、binding 並存：用新 routing key 或新 queue 名建立 quorum queue、舊 classic queue 暫不刪。
consumer 先切、publisher 後切：先讓 consumer 同時消費新舊兩個 queue、確認新 queue 路徑正常、再把 publisher 切到只發新 queue。順序顛倒（publisher 先切）會讓舊 queue 的 in-flight 訊息沒人消費。
排空舊 queue 再刪：publisher 切換後、等舊 classic queue messages 歸零（用 list_queues name messages 確認）、才刪除舊 queue。
依賴 idempotency 兜底：遷移窗口內訊息可能重複投遞、consumer 端的 idempotency 是最後一道防線（語義誤配的後果見 3.C9）、不要假設遷移零重複。
用 federation / shovel 做大規模搬移：跨 cluster 或跨版本場景、用 federation upstream 把舊 cluster 訊息引流到新 cluster、避免一次性硬切（Zalando case 的做法）。

容量與成本規劃

維度	Classic	Quorum	Stream
單筆寫入延遲	低（單節點 fsync）	中（Raft majority round-trip）	低（順序 append、批次 ack）
記憶體 / 訊息	高（常駐、lazy 緩解）	中（on-disk 為主 + index）	低（log 在磁碟、靠 page cache）
磁碟成長	隨未消費堆積	隨未消費堆積	隨 retention 上限、消費不回收
節點故障容忍	無（該 queue 不可用）	容忍少數派故障（3 replica 容 1）	Leader 故障可切 follower
適用規模上限訊號	堆積導致記憶體壓力 / 需要跨節點 HA	Raft 延遲成為瓶頸 / 超高吞吐	事件流規模需要跨團隊 schema 治理
超出後改走	Quorum（要 HA）/ Stream（要 replay）	Stream（要 replay）/ Kafka（要生態）	Kafka（跨團隊事件平台）

實務 default：

單節點開發 / 臨時隊列：classic、最簡單、transient 模式適合 RPC reply。
生產工作隊列、不可丟訊息：quorum、3 replica 跨 AZ、replica 數設奇數。
事件流 / 多 consumer / 需要 replay：stream、retention 雙保險、磁碟容量先算。
判斷該不該升級到 Kafka：當 stream 場景開始需要跨團隊 schema registry、tiered storage、或成熟的 streaming 生態工具時、stream 是過渡、Kafka 是終點。

整合與下一步

Queue type 的選擇與 RabbitMQ 其他能力交織：

回 vendor overview：三種 queue type 的取捨在 RabbitMQ overview「Classic queue vs Quorum queue vs Stream」段有 vendor-level 定位；本文是其 implementation 展開。
durable queue 能力層：queue type 的持久化語意建立在 3.2 durable queue 的概念上 — quorum 與 stream 強制 durable、正是把「處理即承諾」的可靠性從單節點延伸到跨節點。
durable queue 知識卡：訊息持久化的概念基礎見 durable queue 知識卡。
mirrored → quorum 的遷移動機：3.C30 Runtastic 量化 mirrored 網路成本、是遷 quorum 的證據。
跨版本 / 跨 cluster 平滑遷移：3.C27 Zalando 用 federation 過渡、是 in-flight message 安全搬移的範本。

何時 revisit queue type 選擇：classic queue 開始出現記憶體壓力或需要跨節點 HA 時、評估 quorum；任何 queue 場景開始需要「補讀歷史」「多 consumer 各自進度」「replay 重算」時、評估 stream；stream 場景開始需要跨團隊事件治理時、評估遷 Kafka。

3.C13 Shopify：Debezium CDC over sharded MySQL

Mon, 18 May 2026 00:00:00 +0000

Shopify 的 CDC pipeline 揭露了 sharded monolith 上大規模 log-based CDC 的真實工程壓力。壓力集中在 snapshot 跟 oversized payload，穩態複製本身反而是最穩定的部分。

業務背景

Shopify 的核心資料儲存是 100+ 個 MySQL shard，每個 shard 承載不同商家的交易資料。下游系統（搜尋索引、analytics、資料倉儲）需要近即時地取得資料變更。原本用 query-based 方案（內部系統 Longboat）輪詢資料庫，但隨 shard 數量跟資料量成長，輪詢的延遲跟資料庫負載壓力持續惡化。

遷移到 log-based CDC（Debezium over Kafka Connect）後，pipeline 的穩態規模是 ~150 個 Debezium connector 跑在 12 個 Kubernetes pod、Black Friday peak 100K records/sec、P99 latency < 10s。

技術挑戰

Snapshot 鎖定 read replica

Debezium 在初始同步（snapshot）時需要取得一致性快照。MySQL connector 的預設行為是對 read replica 取 global read lock，鎖住的時間跟表大小成正比。Shopify 的大表 snapshot 可能鎖住 read replica 數小時，影響線上查詢。

Shopify 工程師直接向 Debezium 上游貢獻了「lock-free snapshot」機制 — 用 MySQL 的 GTID（Global Transaction ID）確保一致性，取代 global read lock。這個改動後來合併進 Debezium 主線，所有使用者都受益。

Oversized record

MySQL 的 blob / text 欄位可能產生超過 1 MB 的 CDC record。Kafka 的 message size limit（預設 1 MB）會讓這些 record 被 producer 拒絕。調大 max.message.bytes 是一個選項，但會影響 broker 的記憶體跟 replication 效率。

Shopify 的解法是把 oversized payload 寫到 GCS（Google Cloud Storage），CDC record 只帶 GCS pointer。Consumer 端在需要完整資料時再從 GCS 取。這個 pattern 把 Kafka 維持在「傳遞事件 metadata」的定位，大型 payload 走 object storage。

Connector 故障隔離

150 個 connector 跑在 12 個 pod 上，一個 connector 的 failure（例如某個 shard 的 MySQL 做了 schema change、binlog 格式不相容）可能影響同 pod 上的其他 connector。Shopify 用 Kafka Connect 的 distributed mode + task rebalance 做故障隔離，但 rebalance 本身在 connector 數量多時有延遲。

解法與取捨

挑戰	解法	取捨
Snapshot 鎖定	Lock-free snapshot（GTID）	需要 MySQL 啟用 GTID、upstream contribution 維護成本
Oversized record	GCS pointer 替代 inline data	Consumer 端要多一步 GCS 讀取、增加端到端延遲
Connector 隔離	Distributed mode + rebalance	Rebalance storm 在大量 connector 時可能造成全域暫停
高峰流量	12 pod K8s 部署、水平擴展	Pod 數量增加讓 Kafka Connect worker 的 rebalance 更複雜

回寫教材的連結

3.3 outbox pattern：CDC 是 outbox pattern 的 log-based 替代方案。Shopify 的 case 揭露 CDC 的工程成本集中在 snapshot 跟 schema evolution，outbox 的成本集中在應用層 dual-write。
Kafka vendor 頁：Kafka Connect / CDC 的進階主題。
3.1 broker basics：message size limit 跟 broker 資源的關係。

判讀徵兆

讀者在自己的系統看到以下訊號時，應該回讀本案例：

CDC snapshot 過程持續數小時、鎖住 read replica 影響線上查詢
CDC record size 頻繁超過 Kafka 的 message size limit
Kafka Connect connector 數量超過 50 個、rebalance 時間開始明顯增長
從 query-based 同步（輪詢）切換到 log-based CDC 的評估階段

引用源

Capturing Every Change From Shopify’s Sharded Monolith

Kafka Schema Registry 與 schema 演進：wire format、compatibility level 與安全演進規則

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Apache Kafka overview「KRaft 與 Schema Registry」段的 implementation-layer deep article。Overview 已交代 Schema Registry 在事件總線中的定位；本文聚焦 怎麼設 compatibility、wire format 長什麼樣、schema 怎麼安全演進、演進設錯會打掛什麼。對應 Event Schema Compatibility 知識卡的 implementation 展開。

為什麼事件總線需要一個獨立的 schema 治理元件

Schema Registry 是把「event 的結構契約」從 producer 與 consumer 的程式碼裡抽出來、集中存放並強制版本相容性的元件。它承擔的責任是讓不同 service、不同部署節奏的 producer 與 consumer 在 schema 改版時仍能互通，而不需要全體同時上線。Kafka broker 本身只存 bytes、不理解 payload 結構；一旦多個團隊往同一個 topic 寫事件、又各自獨立發版，schema 漂移就會在 consumer 端炸開。

這個責任在單一 service 內部不存在。一個 service 自己 produce、自己 consume，schema 改版同一個 deploy 就同步了，序列化用什麼格式都行。Schema Registry 解的是 跨 service、跨團隊、跨部署時間 的契約問題：A 團隊升級了訂單事件加一個欄位，B 團隊的對帳服務還跑舊版 consumer，C 團隊的風控服務跑更舊版——三方不同步演進，靠的就是 registry 在 producer 註冊新 schema 時先擋下破壞相容性的改動。

Yelp 的 Schematizer 案例把這個責任拉到極端：一天數十億訊息、數百個 service、數千個 schema，自建 registry 強制所有 message 走 Avro、訊息只帶 schema ID。它揭露 schema 治理是 data pipeline 的核心責任、不是 add-on——當規模到了數千 schema，沒有集中強制的相容性檢查，跨服務事件契約會在某次發版後悄悄斷掉，而 broker 不會報任何錯。

Confluent Schema Registry 是業界事實標準的實作；Apicurio 是 CNCF 生態的開源替代，額外支援 OpenAPI / AsyncAPI artifact、且提供 Confluent-compatible API endpoint，遷移成本低。兩者都把 schema 存進一個 Kafka topic（Confluent 用 _schemas，single-partition、compacted），registry 自己是無狀態的，掛掉重啟後從該 topic rebuild。

Schema ID 嵌進訊息的 wire format

Confluent wire format 在每筆訊息的 value（或 key）前面加 5 個 byte：1 個 magic byte（固定 0x00）加 4 個 big-endian byte 的 schema ID，後面才接序列化後的 payload。Consumer 拿到訊息先讀這 5 個 byte，用 schema ID 去 registry 查對應 schema，再用該 schema 反序列化。這是「訊息只帶 schema ID、不帶 schema 本體」的機制——schema 本體只在 registry 存一份，訊息裡放的是指標。

本文用 OrbStack 起 confluentinc/cp-kafka + confluentinc/cp-schema-registry，用 Avro console producer 寫一筆 {"id":1,"name":"alice"}，再 dump 出 raw bytes 驗證 wire format：

1000000 00 00 00 00 01 02 0a 61 6c 69 63 65 0a   >.......alice.<

逐 byte 拆解：

00：magic byte，標識這是 Confluent wire format
00 00 00 01：4-byte big-endian schema ID = 1，consumer 拿這個去 registry 查 schema
02：Avro 把 id（long）以 zigzag varint 編碼，1 編成 0x02
0a 61 6c 69 63 65：name（string）長度 5（zigzag 0x0a）加 UTF-8 的 alice

這個格式有兩個工程後果。第一，consumer 反序列化任何訊息前都要能連到 registry——registry 掛掉，已 cache schema ID 的 consumer 還能跑，但遇到沒見過的 schema ID 就卡住。第二，schema ID 是全域單調遞增的整數、跨 subject 共用：同一份 schema 被多個 topic 註冊只會有一個 ID。實機驗證可以看到，先註冊到 user-value 的 schema 拿到 id:1，之後用同樣結構寫 users-demo topic 時，registry 認出是同一份 schema、複用 id:1：

1{"subject":"users-demo-value","version":1,"id":1,"schemaType":"AVRO", ...}

version 是 subject 內的序號（每個 subject 從 1 開始）、id 是全域的。除錯時看到某筆訊息反序列化失敗，第一步就是讀那 4-byte schema ID、去 registry 撈出它指向哪個 schema、跟 consumer 預期的對不對。

序列化格式取捨：Avro、Protobuf、JSON Schema

Schema Registry 支援三種格式，差異不只是語法、而是演進規則與生態的取捨。

格式	演進機制	適合場景
Avro	reader / writer schema resolution	data pipeline、強 schema 演進需求、JVM 生態
Protobuf	field number 標記	已用 gRPC、跨語言 RPC + 事件共用 schema
JSON Schema	結構 + validation keyword	已大量 JSON、要人類可讀、容忍較弱的型別保證

Avro 的演進靠 reader schema 與 writer schema 分離：訊息用 writer schema（寫入時的版本）序列化，consumer 用自己的 reader schema（讀取時的版本）反序列化，registry 提供兩者做 schema resolution。這是 Avro 在 data pipeline 場景的核心優勢——欄位帶 default 時，舊資料用新 schema 讀會自動填 default，新資料用舊 schema 讀會自動忽略多出來的欄位。Yelp、多數 Kafka-native data platform 都選 Avro，正是因為它的演進語意最完整。

Protobuf 用 field number 而非欄位名做 wire 識別：欄位改名不破壞相容性（number 沒變即可），刪欄位要 reserve 掉 number 避免重用。已經用 gRPC 的團隊讓 RPC 與事件共用同一份 .proto，省一套 schema 維護。代價是 Protobuf 的 default 語意較弱（proto3 沒有 explicit presence 的 scalar 一律有 zero value），某些演進判斷不如 Avro 直觀。

JSON Schema 適合既有系統已經大量用 JSON、且看重人類可讀與 validation keyword（required、minimum、pattern）的場景。代價是 payload 較大（欄位名重複出現在每筆訊息）、型別保證弱於前兩者。當吞吐量大、payload size 敏感時，JSON Schema 的頻寬成本會顯著高於 Avro 的 binary 編碼。

選型判準：data pipeline 為主、重演進安全 → Avro；已有 gRPC、RPC 與事件共用 → Protobuf；既有 JSON 生態、重可讀性而吞吐量不極端 → JSON Schema。三者可在同一個 registry 並存（每個 subject 各自標 schemaType），但同一個 subject 內不能混用格式。

Subject naming strategy 決定相容性檢查的邊界

Subject 是 registry 裡做版本管理與相容性檢查的基本單位；naming strategy 決定「哪些 schema 被歸進同一個 subject、因而要互相相容」。選錯 strategy 會讓相容性檢查管太寬或太窄，是後面故障演練的根源之一。

Strategy	Subject 名	相容性檢查邊界
TopicNameStrategy	`-value` / `-key`	整個 topic 只能有一種 value schema 演進
RecordNameStrategy		同名 record 跨所有 topic 一起演進
TopicRecordNameStrategy	`-`	同 topic 內可放多種 record、各自演進

TopicNameStrategy 是預設，subject 名就是 -value。實機驗證可以看到，用 Avro producer 寫 users-demo topic 時，registry 自動建立 users-demo-value subject：

1["user-value","users-demo-value"]

預設策略的隱含假設是「一個 topic 只承載一種事件型別」。這對多數 topic 成立，但當業務要把多種相關事件（例如 OrderCreated 與 OrderCancelled）放進同一個 topic 以保證跨事件 ordering 時，TopicNameStrategy 會把兩種 record 當成同一個 subject 的版本演進、互相做相容性檢查——這幾乎一定失敗，因為兩種事件結構本來就不同。

這時要改 RecordNameStrategy（subject = record 全名，跨 topic 同名 record 共用一份演進歷史）或 TopicRecordNameStrategy（subject = topic + record 名，同 topic 多型別各自獨立演進）。判準：一個 topic 一種事件 → 預設即可；一個 topic 多種事件且要保 ordering → TopicRecordNameStrategy；同一種 record 散在多個 topic 要強制全域一致 → RecordNameStrategy。Producer 與 consumer 必須設成同一個 strategy，否則 consumer 會用錯 subject 去查 schema。

Compatibility level：四種基礎 × transitive

Compatibility level 是 registry 在 producer 註冊新 schema 時套用的相容性規則，決定哪些 schema 改動會被擋下。它回答的問題是「新 schema 跟既有 schema 比，誰應該能讀誰寫的資料」。設定可以是全域預設、也可以 per-subject 覆寫。

Level	規則	保護對象
BACKWARD	新 schema 能讀舊 schema 寫的資料	consumer 先升級、producer 後升級
FORWARD	舊 schema 能讀新 schema 寫的資料	producer 先升級、consumer 後升級
FULL	同時滿足 BACKWARD 與 FORWARD	雙向都能不同步演進
NONE	不檢查	不保護（演進風險全交給人）

BACKWARD 是 Confluent 預設，實機驗證可以確認：

1{"compatibilityLevel":"BACKWARD"}

BACKWARD 保護的是「consumer 先升級」的演進順序——新版 consumer 必須能讀舊版 producer 還在寫的舊資料。它允許的安全改動是「加帶 default 的欄位」與「刪欄位」：新 schema 讀舊資料時，舊資料缺的新欄位用 default 補；新 schema 不要的欄位讀舊資料時忽略。它擋下的是「加沒有 default 的必填欄位」——舊資料沒這欄位、新 consumer 又要求它存在，就讀不出來。

FORWARD 反過來保護「producer 先升級」：舊版 consumer 要能讀新版 producer 寫的資料。它允許「刪帶 default 的欄位」與「加欄位」。當演進順序是 producer 先上、consumer 慢慢跟（例如先讓 producer 開始寫新欄位、consumer 之後才用）時選 FORWARD。

FULL 同時滿足兩者，代價是只能做「加帶 default 的欄位」與「刪帶 default 的欄位」這類雙向安全的改動，演進自由度最低但最安全。當 producer 與 consumer 的升級順序無法協調（大型組織、多團隊各自排程）時，FULL 把演進約束到怎麼改都不會斷。

四種各有一個 transitive 變體（BACKWARD_TRANSITIVE 等）。非 transitive 只檢查新 schema 對 最近一版；transitive 檢查新 schema 對 該 subject 所有歷史版本。差別在這個場景：v1 → v2 相容、v2 → v3 相容，但 v3 對 v1 不相容。非 transitive 會放行 v3（因為只比 v2）；transitive 會擋下。當 consumer 可能 replay 很舊的歷史資料（Kafka 的長期保留 + replay 正是常態），transitive 才能保證任何歷史版本都讀得出來。3.7 event contract / replay boundary 講的 replay 邊界，在 schema 層的對應就是 transitive compatibility。

安全演進規則：實機驗證註冊與拒絕

把上面的規則落到實際操作。在預設 BACKWARD 下，註冊 v1（id + name）後，加一個帶 default 的 email 欄位是安全的，registry 接受並記為 v2：

1{"id":2,"version":2,"schemaType":"AVRO", ...}

user-value 的版本列表確認累積成兩版：

1[1,2]

接著嘗試加一個 沒有 default 的 age（int）必填欄位——這破壞 BACKWARD，因為新 consumer 讀舊資料時 age 沒值也沒 default。registry 回 HTTP 409 並指出確切原因：

1{"error_code":40901,"message":"Schema being registered is incompatible with an earlier schema for subject \"user-value\", details: [{errorType:'READER_FIELD_MISSING_DEFAULT_VALUE', description:'The field 'age' at path '/fields/3' in the new schema has no default value and is missing in the old schema', ...}], compatibility: 'BACKWARD'}

READER_FIELD_MISSING_DEFAULT_VALUE 精確命中規則：reader（新 schema）多了一個舊資料沒有、又無 default 的欄位。registry 另外提供 compatibility check API，可以在不真正註冊的前提下先問「相不相容」，給 CI pipeline 在 PR 階段擋下破壞性改動：

1{"is_compatible":false}

由此導出兩條安全演進的操作規則。加欄位：一律帶 default（BACKWARD / FULL 都要），舊資料才能用新 schema 讀出。沒有合理 default 的「必填新欄位」不能直接加——要嘛在 producer 端先全部開始寫該欄位、確認資料齊全後再 promote，要嘛走新 topic / 新 record 而非原地演進。刪欄位：分步做。先讓所有 consumer 停止依賴該欄位（部署一輪），確認沒人讀之後，下一輪才從 schema 拿掉。一步到位刪掉還在被讀的欄位，會在 FORWARD / FULL 下被擋、在 BACKWARD 下放行但打掛還沒升級的 consumer。

Production 故障演練

Case 1：producer 加必填欄位無 default，打掛舊 consumer

徵兆：某團隊 producer 發版後，另一團隊的舊 consumer 開始大量反序列化失敗、SerializationException 或 AvroTypeException: Found X, expecting Y，consumer lag 暴衝、訊息卡在 poll 階段。producer 端與 broker 端完全沒報錯——訊息照寫成功。

根因：subject 的 compatibility level 被設成 NONE（或該欄位走了 FORWARD 不檢查 reader 缺欄位的路徑）。producer 加了一個沒有 default 的必填欄位、registry 沒擋，新訊息帶新 schema ID 寫進 topic。舊 consumer 用自己的舊 reader schema 去反序列化新 writer schema 的資料，遇到自己不認識又無從補值的結構就炸。問題不在 producer 也不在 broker，在 registry 沒在註冊時擋下這次演進。

修法：

把 compatibility level 改回至少 BACKWARD：實機驗證過 NONE 會直接放行破壞性 schema——把 compatibility 設成 NONE 後，前面被 409 拒絕的破壞性 schema 立刻被接受成 v3。NONE 等於把演進安全完全交給人，多團隊場景幾乎一定出事。
回退 producer：先讓 producer 退回舊 schema 止血，恢復舊 consumer 可讀。
重新演進：欄位帶 default 重發，或若該欄位語意上必填、走「先讓 producer 寫、consumer 升級、再 promote」的分步路徑。
CI 防線：把 compatibility check API（/compatibility/subjects//versions/latest~~）接進 producer repo 的 CI，PR 階段就用 is_compatible:false 擋掉，不等到 production 註冊時才發現。~~

Case 2：compatibility level 設錯，放行破壞性變更

徵兆：team 以為有 registry 把關所以放心演進，某次刪掉一個還在被下游讀的欄位、registry 接受了，下游服務隔天開始拿到 null / 缺欄位、business logic 走錯分支，但沒有任何 exception——資料「看起來正常」只是少了東西。

根因：compatibility level 設成了 FORWARD 而需求其實是 BACKWARD，或設成 NONE。實機驗證可以看到 per-subject 覆寫的行為——對 user-value 單獨 PUT FORWARD 後查 config 回 {"compatibilityLevel":"FORWARD"}，這個 subject 的檢查方向就跟全域預設不同了。FORWARD 允許刪帶 default 的欄位（保護 producer 先升級的順序），但團隊實際的演進順序是 consumer 後升級——方向錯配，registry 放行的正是會打掛 consumer 的那類改動。

修法：

依演進順序選 level，不是隨手設：consumer 先升級選 BACKWARD；producer 先升級選 FORWARD；順序無法協調選 FULL。把這個決策寫進 topic ownership 文件、不是留給註冊當下的人臨時判斷。

可能 replay 歷史就用 transitive：Kafka 長期保留 + replay 是常態，非 transitive 只擋最近一版、replay 舊資料時舊 schema 仍可能讀不出。長期保留的 topic 預設用 *_TRANSITIVE。

per-subject 覆寫要留審計：全域預設外的每一個 per-subject 覆寫都是一個風險點，要能查出「誰、何時、為什麼把這個 subject 改成跟預設不同」。

Case 3：schema ID 對不上，consumer 反序列化失敗

徵兆：consumer 報 Schema not found; error code: 40403 或反序列化拿到亂碼、欄位錯位。某些訊息正常、某些失敗，跟特定 producer 或特定時間段相關。

根因有幾種，靠讀訊息前 5 byte 的 schema ID 定位：

registry 換過、ID 不一致：跨環境（dev / staging / prod）各自一套 registry，schema ID 全域遞增的順序不同，同一份 schema 在不同環境是不同 ID。如果有人把 prod 的訊息 mirror 到 staging 而沒搬 schema，staging consumer 拿 prod 的 schema ID 去 staging registry 查就 404。

訊息根本不是 Confluent wire format：有 producer 沒走 schema-aware serializer、直接寫 raw bytes，前 5 byte 不是 magic + ID。consumer 把第一個 byte 當 magic、後 4 byte 當 ID 去查，撈到不存在或錯誤的 schema。

registry 不可達或 cache 失效：consumer 端 schema cache 沒命中、又連不上 registry。

修法：

讀 wire format 確認：dump 訊息 raw bytes，確認第一個 byte 是 00、接下來 4 byte 解出來的 ID 在目標 registry 查得到。本文驗證過 00 00 00 00 01 對應 schema id 1，這是除錯的第一手證據。

跨環境 schema 搬遷：mirror 訊息時用 registry 的 import / export，或 MirrorMaker 搭配 schema 同步，不要只搬資料不搬 schema。

隔離非 schema-aware producer：用 ACL 或 topic 命名規範強制所有 producer 走 schema serializer，避免 raw bytes 混進 schema-managed topic。

Case 4：subject naming strategy 衝突

徵兆：把第二種事件型別寫進既有 topic 時，producer 直接註冊失敗報 incompatible，或多 producer 寫同 topic 互相把對方的 schema 判成不相容、彼此發版互相擋。

根因：用 TopicNameStrategy（預設）卻往同一個 topic 放多種 record。subject 是 -value、整個 topic 共用一條演進線，registry 拿 OrderCancelled 去跟既有的 OrderCreated 做相容性檢查——兩種結構不同的事件當然不相容。strategy 的隱含假設（一 topic 一事件型別）跟實際用法（一 topic 多事件保 ordering）衝突。

修法：

改 strategy 配合用法：一 topic 多事件 → TopicRecordNameStrategy，subject 變成 -，每種 record 各自一條演進線、不互相檢查。

producer 與 consumer 設同一個 strategy：strategy 不一致時 consumer 會用錯 subject 查 schema，拿到 null 或錯 schema。這是部署層的硬約束，要在共用 config 統一。

若只是不小心寫錯 topic：那不是 strategy 問題、是路由問題，修 producer 的 topic 選擇邏輯，別為了繞過檢查改成 RecordNameStrategy。

容量與運維邊界

維度估算 / 邊界警戒

Schema 數量數千 schema registry 仍可運作（Yelp 等級） _schemas topic 是 single-partition

Wire format overhead 每筆訊息固定 +5 byte 高頻小訊息時相對 overhead 不可忽略

Registry 可用性 consumer cache 命中時可短暫容忍 registry 不可達冷 consumer / 新 schema ID 時硬依賴

Compatibility 檢查註冊時做、非 hot path transitive 對長歷史 subject 檢查較慢

環境隔離每環境一套 registry、schema ID 不跨環境一致跨環境 mirror 要同步搬 schema

實務 default：data pipeline 場景選 Avro + 至少 BACKWARD；長期保留 + replay 的 topic 用 transitive；compatibility check 接進 CI 在 PR 階段擋破壞性改動，不依賴註冊當下把關；一 topic 一事件型別當預設、要多型別才動 naming strategy。Schema Registry 自己也是個要 HA 的元件——production 跑多副本、_schemas topic 的 replication factor 拉高，registry 是事件總線的單點時要當關鍵基礎設施對待。

整合與下一步

跟 CDC pipeline 的銜接

Shopify Debezium CDC 案例跑在 100+ MySQL shard、150 個 Debezium connector 的規模（該案例記載的重點是 lock-free snapshot 與 oversized record 處理）。CDC pipeline 有一個一般性的 schema 演進壓力，以下依 CDC 機制推導、非該案例的結論：上游 DDL 一改，Debezium 產生的 Kafka record schema 跟著變，下游 consumer 受影響。Schema Registry 的 compatibility 檢查就是把這道衝擊在進 Kafka 時攔下的關卡——選錯 compatibility level，一次 ALTER TABLE 就可能透過 CDC 打穿整條 pipeline。Debezium 與 Kafka Connect 原生整合 Schema Registry，connector 設定裡指定 registry URL 與 naming strategy。

跟 replay 邊界與事件契約

3.7 event contract / replay boundary 講的是事件契約能 replay 多遠；schema 層的對應就是本文的 transitive compatibility。Replay 跨越多個 schema 版本時，只有 transitive 能保證任何歷史版本都讀得出來。兩者一起界定「這條事件流的契約能安全回放到多久以前」。

下游能力

概念索引：Event Schema Compatibility 知識卡（本文的 implementation 來源）

上游 vendor 頁：Apache Kafka（KRaft 與 Schema Registry 段）

對應案例：3.C14 Yelp Schematizer（schema 治理拉到平台層）、3.C13 Shopify Debezium CDC（CDC 場景的 schema evolution）

方法論：Vendor 深度技術文章的寫作方法論

RabbitMQ Network Partition 與 Cluster 一致性：腦裂下要保誰

Tue, 16 Jun 2026 00:00:00 +0000

本文是 RabbitMQ overview「Erlang clustering 與 network partition」段的 implementation-layer deep article。Overview 回答「RabbitMQ cluster 是什麼、跟同類 broker 差在哪」；本文回答「partition 發生時 broker 怎麼決策、各策略保住什麼、丟掉什麼」。

Network partition 是 cluster 節點之間的網路連線中斷、雙方各自仍存活但互相不可達的狀態。RabbitMQ cluster 建立在 Erlang distribution 之上、節點靠固定心跳（net_tick）互相確認存活；心跳連續數次收不到、Erlang 就判定對方失聯、把單一 cluster 切成兩個互不知道對方狀態的子群。此時的核心問題不是「怎麼避免 partition」——跨機房、跨 AZ、雲端 VPC 路由抖動都會造成短暫不可達、partition 在分散式系統是必然會遇到的物理事件——而是「分裂的瞬間、broker 要犧牲可用性保一致性、還是犧牲一致性保可用性」。cluster_partition_handling 設定就是這個取捨的開關。

問題情境：兩邊都覺得自己是對的

腦裂（split-brain）的破壞性在於分裂的兩個子群各自繼續服務、各自接受寫入、各自認為對方已死。等到網路恢復、兩邊的狀態已經分歧：同一個 queue 在 A 子群被消費掉的訊息、在 B 子群還在；同一個 exchange 的 binding 在兩邊被改成不同樣子；同一筆業務在兩邊各被處理一次。

RabbitMQ 的 classic queue 沒有內建的衝突解決機制。當兩個子群在 partition 期間各自修改了 cluster metadata（queue / exchange / binding 的定義）、恢復連線後 RabbitMQ 無法自動合併這些分歧、預設行為是 拒絕自動重新加入、把節點停在 partition 狀態等人工處置。這就是為什麼 partition handling 策略的選擇、本質是「願意在分裂瞬間付出什麼代價、來換取恢復時的可預測性」。

這個取捨跟 3.6 processing semantics 與 recovery semantics 的判斷同源：投遞成功、處理成功、恢復成功是三件事。Partition 期間「broker 還在收訊息」（投遞層可用）不代表「訊息會被正確處理一次」（處理層一致）、更不代表「partition 結束後狀態能無損合併」（恢復層一致）。

核心概念一：disc node 與 ram node

RabbitMQ cluster 的每個節點承擔一種角色、決定它存哪些資料。Cluster metadata（vhost、user、exchange、queue 定義、binding）在所有節點間複製、但 持久化到磁碟 與否分兩種：

節點類型 metadata 存放適用場景

Disc node 記憶體 + 磁碟預設、cluster 必須至少有一個

Ram node 僅記憶體 metadata 變更極頻繁的特殊場景、現代極少使用

Disc node 把 cluster metadata 寫到磁碟、整個 cluster 重啟後能從磁碟恢復拓樸定義。Ram node 只把 metadata 放記憶體、metadata 操作（宣告大量 queue / binding）較快、但 cluster 若全部節點同時掛掉就會遺失定義。

Ram node 是早期為了加速高頻 metadata 變更而設計的角色。實務上現代 RabbitMQ 部署幾乎都用全 disc node：metadata 操作的效能瓶頸在現代硬體上不再顯著、而全 disc 換來的「任意節點重啟都能恢復拓樸」的可預測性、價值遠高於那點 metadata 寫入速度。官方文件也建議 cluster 內 disc node 至少兩個、避免唯一的 disc node 掛掉時整個 cluster 的 metadata 無法持久化。

本文實機演練的 3-node cluster 全部是 disc node、這也是 rabbitmqctl cluster_status 在 OrbStack 上的實際輸出：

1Disk Nodes 2rabbit@rmq1 3rabbit@rmq2 4rabbit@rmq3
要特別區分的是：disc / ram 講的是 cluster metadata 的持久化、跟 訊息本身 是否持久化（durable queue + persistent message）是兩個獨立軸。Disc node 不會讓 transient queue 的訊息變持久、ram node 也不會讓 durable queue 的訊息變揮發。訊息持久化的判讀見 3.2 durable queue。

核心概念二：partition 偵測機制

RabbitMQ 不自己實作節點存活偵測、而是直接用 Erlang distribution 的 net_tick 機制。每個節點對 cluster 內其他節點定期送 tick、net_ticktime 預設 60 秒；連續數個 tick interval（預設約 4 個、即 net_ticktime 區間內）收不到對方回應、Erlang 就判定該節點 nodedown、向上層的 RabbitMQ partition handler 報告。

這個機制有兩個實務後果。第一、partition 偵測有延遲：短於 net_ticktime 的網路抖動（幾秒的 GC pause、瞬間封包遺失）不會觸發 partition、避免把暫時性抖動誤判成永久分裂。第二、偵測延遲是雙刃：net_ticktime 設太長、真的 partition 了也要等很久才反應、期間腦裂持續擴大；設太短、雲端環境正常的網路抖動會頻繁誤觸發 partition handler、造成不必要的節點暫停。

本文實機演練用 docker network disconnect 切斷一個節點的網路、實測偵測延遲：disconnect 後約 60 秒（吻合 net_ticktime 預設值）、多數派側的 cluster_status 的 Running Nodes 才從三個掉到兩個：

1disconnect 後立即查 → Running Nodes 仍顯示 3 個（尚未偵測） 2等待約 60 秒 → Running Nodes 掉到 2 個（partition 已偵測）
偵測到 partition 之後、broker 怎麼處置、完全取決於 cluster_partition_handling 設定。

核心概念三：cluster_partition_handling 三策略

這個設定決定 broker 在偵測到 partition 後的行為、是整個 cluster 一致性與可用性取捨的單一開關。三種策略對應三種不同的 CAP 立場。

策略 partition 時行為保住犧牲適用

ignore 兩邊都繼續服務、不做任何處置可用性一致性（會腦裂）單機 / 不在乎一致性的場景

pause_minority 少數派節點暫停 broker、多數派繼續一致性少數派可用性奇數節點 cluster（推薦）

autoheal partition 結束後自動選贏家、輸家重啟丟狀態自動恢復輸家側的訊息可容忍少量訊息遺失的場景

設定方式在 rabbitmq.conf：

1cluster_partition_handling = pause_minority
或在舊版 advanced config（Erlang term 格式）：

1[ 2 {rabbit, [ 3 {cluster_partition_handling, pause_minority} 4 ]} 5].
三個策略的差異不在「哪個比較好」、而在「分裂瞬間願意讓誰停下來」。下面三段把每個策略在真實服務裡長什麼樣展開。

ignore：兩邊都活、恢復時等人來

ignore 是預設值（OrbStack 起的 cluster rabbitmqctl environment 實測輸出 {cluster_partition_handling, ignore}）。它的行為是 partition 偵測到了、但 broker 什麼都不做、兩個子群繼續各自服務。

這在單節點部署完全沒問題——沒有 cluster 就沒有 partition。問題出在多節點 cluster：兩個子群會各自接受 publish、各自讓 consumer 消費、各自修改 metadata。網路恢復後、RabbitMQ 偵測到兩邊狀態分歧、會把節點停在 partition 狀態、不自動重新加入、在 log 留下 partition 警告等人工介入。此時 metadata 已經分歧、需要人工決定保留哪一邊、reset 另一邊重新 join。

ignore 適合的場景很窄：單機部署、或刻意接受腦裂並在應用層做衝突解決的特殊架構。多數需要 cluster 的場景不該用 ignore——它把一致性的責任完全推給人工處置、而人工處置在凌晨三點的 incident 現場是最不可靠的環節。

pause_minority：少數派主動停下

pause_minority 是奇數節點 cluster 的推薦策略、它的設計直接對應 quorum 的數學：partition 把 cluster 切成兩半時、節點數較少的那一側（少數派）主動 暫停自己的 broker、停止接受任何 client 連線；節點數較多的那一側（多數派）繼續服務。

這保證了任何時刻最多只有一個子群在服務、從根本上杜絕腦裂。代價是少數派側的所有 client 在 partition 期間完全失去服務。

3-node cluster 是這個策略的最小有效配置。實機演練：把 rmq3 從 network disconnect、製造「rmq1 + rmq2 多數派 vs rmq3 少數派」的分裂、約 60 秒後查少數派 rmq3 的狀態：

1$ rabbitmqctl cluster_status # 在被孤立的 rmq3 上執行 2Error: this command requires the 'rabbit' app to be running on the target node. 3 Start it with 'rabbitmqctl start_app'.
少數派 rmq3 的 rabbit 應用被 partition handler 主動停止——這正是 pause_minority 的預期行為。同時多數派側 rmq1 的 cluster_status 顯示 Running Nodes 只剩 rmq1 + rmq2、繼續正常服務。

恢復也是自動的。把 rmq3 重新 network connect、約 15 秒後它自動重啟 rabbit 應用、重新加入 cluster、Running Nodes 回到三個、Network Partitions 顯示 (none)、無殘留 partition 需要人工處置。這是 pause_minority 相對 ignore 的關鍵優勢：恢復路徑自動化、不依賴凌晨的人工判斷。

pause_minority 有一個硬性前提：cluster 必須是奇數節點、且要能形成明確的多數。2-node cluster 用 pause_minority 是反模式——partition 時兩邊各 1 個、都不是多數、結果兩邊都暫停、整個 cluster 完全不可用。4-node cluster 切成 2:2 也同樣兩邊都停。要用 pause_minority、節點數必須是 3、5、7 這種能在最常見的 1-node 失聯情境下仍形成多數的奇數。

autoheal：分裂時都活、恢復時選贏家丟輸家

autoheal 走另一條路：partition 期間 兩個子群都繼續服務（跟 ignore 一樣）、但在 partition 結束的瞬間、broker 自動裁決——選出一個「贏家」子群、強制「輸家」子群的節點重啟、丟棄輸家在 partition 期間累積的狀態、然後重新加入贏家。

贏家的選擇規則是：先比 client 連線數（連線多的贏）、連線數相同比節點數、再相同比節點名稱。

autoheal 的取捨點跟 pause_minority 相反。pause_minority 在分裂瞬間就讓少數派停止、犧牲的是少數派 partition 期間的 可用性；autoheal 讓兩邊都活、犧牲的是輸家 partition 期間累積的 訊息與狀態。輸家側在 partition 期間被消費掉的訊息、被接受的新 publish、被修改的 binding、在 autoheal 重啟輸家後全部丟失。

這讓 autoheal 適合一種特定場景：可用性比訊息完整性重要、且訊息本身是冪等或可重送的。例如純粹的快取失效通知、可重算的衍生事件——丟幾條重新觸發即可。對「丟一條訊息等於丟一筆訂單」的場景、autoheal 的自動丟棄是不可接受的。

quorum queue 在 partition 下的行為

前面三個 cluster_partition_handling 策略管的是 classic queue 與 cluster metadata 的 partition 行為。Quorum queue 是另一套機制——它不依賴 cluster_partition_handling、而是用 Raft 共識協議自己決定 partition 下的行為。這是 RabbitMQ 對腦裂問題的根本性改寫。

Quorum queue 把每個 queue 實作成一個獨立的 Raft 複製群組：一個 leader 加數個 follower、預設複製到奇數個節點（3-node cluster 通常 3 副本）。每筆 publish 必須被 多數副本 確認寫入、leader 才回 publisher confirm。實機驗證 3-node cluster 上 quorum queue 的 Raft 拓樸：

1$ rabbitmq-queues quorum_status qq.test 2Node Name Raft State Membership 3rabbit@rmq1 leader voter 4rabbit@rmq2 follower voter 5rabbit@rmq3 follower voter
Partition 切斷 Raft 群組時、行為完全由 Raft 的 majority 規則決定、不需要 cluster_partition_handling 介入：

含 majority 副本的那一側選出（或維持）leader、繼續接受讀寫；不含 majority 的那一側無法 commit 任何寫入、自動進入唯讀或拒絕狀態。因為 commit 需要 majority 確認、少數派永遠湊不到 majority、所以少數派 物理上不可能 接受新寫入並確認——腦裂在協議層被排除、不靠運維設定。

實機演練最關鍵的一段：把 rmq2 與 rmq3 同時 disconnect、讓 quorum queue 的 leader（在 rmq1）只剩自己一個副本、3 副本只剩 1 副本、失去 majority（1/3 < 2/3）。此時 quorum_status 顯示其他兩個節點變 timeout 狀態：

1Node Name Raft State Membership 2rabbit@rmq1 leader voter 3rabbit@rmq2 timeout 4rabbit@rmq3 timeout
然後對這個失去 quorum 的 queue 嘗試 publish：

1$ rabbitmqadmin publish routing_key=qq.test payload="during-quorum-loss" 2[實測：publish 阻塞、12 秒後仍未返回——Raft 無 majority 可 commit]
Publish 被阻塞、不返回 publisher confirm。因為 leader 拿不到任何 follower 的確認、無法達成 majority、寫入永遠 commit 不了。這是 quorum queue 用阻塞換 一致性：寧可不接受寫入、也不接受一筆無法被多數副本保證的寫入。

同一個 partition 情境下、對 classic queue 做同樣的 publish 作為對照：

1$ rabbitmqadmin publish routing_key=cq.test payload="classic-during-partition" 2Message published # 立即成功
Classic queue 立即接受寫入。它沒有 Raft、leader 節點獨自決定、可用性優先——但這也正是它在腦裂下會分歧的根源：rmq1 接受的這筆、partition 結束後可能跟另一側的狀態衝突。

把兩邊 disconnect 的節點重新 connect、quorum 恢復、quorum_status 三個節點回到 leader + 2 follower、原本被阻塞的 publish 路徑恢復、新 publish 立即成功。Quorum queue 的恢復是協議自動完成的、不需要人工 reset 任何節點。

這就是 classic queue 加 cluster_partition_handling 與 quorum queue 的根本差異：前者是 用運維策略事後補救 一個本身會腦裂的資料結構、後者是 用共識協議從設計上排除 腦裂。現代 RabbitMQ 對需要跨節點一致性的 queue、官方建議直接用 quorum queue、把 partition 一致性交給 Raft、而不是依賴 cluster_partition_handling 的 classic queue 補救。Classic / quorum / stream 的完整選型判讀見 Queue Type 選型。

真實 cluster 治理：以 Zalando 為例

3.C27 Zalando RabbitMQ on AWS 案例揭露了 K8s 普及之前、雲端 RabbitMQ cluster 治理的工程模式（master selection 與成員協調），跟 cluster 拓樸治理相關。

Zalando 的 communication platform 把 RabbitMQ cluster 跑在 EC2 上、自建 sidekick 服務查 AWS API 動態識別 cluster 成員、指定「最老的 instance」當 master、master 死後晉升下一個最老的節點。這套機制本質是在 RabbitMQ 內建的 partition handling 之外、額外加一層 外部協調者 來決定 cluster 拓樸（case 記載的直接動機是用 AWS API 動態識別成員、配合每 region 5 個 Elastic IP 的限制處理 master 角色）。把它讀作「早期雲端 RabbitMQ 在節點角色確定性上需要外部補強」是本文的判讀、非 case 明述的結論。

這個案例對映到本文的判讀是：早期 RabbitMQ cluster 的 partition 一致性需要大量外部工程（sidekick + AWS API + 自訂 master selection）來補足。Quorum queue 用 Raft 把這套外部協調內化進 broker——Raft 的 leader election 與 majority commit 取代了 Zalando 手寫的「最老 instance 當 master」邏輯。現代部署若用 quorum queue + pause_minority、不再需要外部 sidekick 來決定誰是 master。

語義誤配的風險在 partition 場景同樣存在。3.C9 Queue 語義切換誤配指出 broker 行為改變時、「表面上訊息仍被送達、但業務資料開始出現重複或遺漏」。Partition 恢復正是這種高風險時刻：autoheal 丟棄輸家狀態、或人工從 ignore 的腦裂中合併、都可能讓同一批事件被處理零次或兩次。Partition 恢復後的 reconciliation、要對照 3.6 recovery semantics 確認哪一段資料已被哪一側處理過、而不是假設「broker 恢復了 = 狀態正確了」。

容量與規模判讀

Partition 處理策略的選擇隨 cluster 規模與一致性需求變化、不存在單一最佳解。

規模 / 場景建議策略判讀

單節點 ignore（無 partition 可言）沒有 cluster、不需要 partition 處理

3 / 5 / 7 奇數節點、需一致性 pause_minority + quorum queue 少數派暫停、quorum queue 用 Raft 保一致

偶數節點加一個節點變奇數、再用 pause_minority 偶數節點對 pause_minority 是反模式

可容忍訊息遺失、可用性優先 autoheal + classic queue 接受輸家丟狀態、換 partition 期間雙邊可用

跨 AZ / 跨 region 重新評估是否該用單一 cluster partition 機率高、考慮 federation 拆成獨立 cluster

幾個容量相關的硬性邊界：

跨 region 拉一個 RabbitMQ cluster 是高風險配置。跨 region 網路延遲與抖動讓 partition 從「偶發事件」變成「常態」——net_tick 頻繁逾時、pause_minority 頻繁暫停節點、cluster 實質不穩定。跨 region 的正確做法是每個 region 一個獨立 cluster、用 federation 或 shovel 做 region 間的訊息搬運、partition 限制在單一 region 內。

quorum queue 的副本數要對齊 cluster 規模。3-node cluster 配 3 副本能容忍 1 節點失聯（仍有 2/3 majority）；5-node 配 5 副本能容忍 2 節點失聯。副本數越多、容錯越高、但每筆寫入要等的確認也越多、寫入延遲上升。多數場景 3 副本是延遲與容錯的平衡點。

net_ticktime 的調整要保守。把它調短以加速 partition 偵測、會讓雲端正常抖動頻繁誤觸發 partition handler——pause_minority 下就是節點被頻繁暫停、可用性反而下降。除非有明確證據顯示偵測延遲是問題、否則保留 60 秒預設值。

整合與下一步

Partition 處理是 RabbitMQ cluster 可靠性的一環、跟以下能力環環相扣：

queue 類型的選擇直接決定 partition 行為。Classic queue 靠 cluster_partition_handling 事後補救、quorum queue 靠 Raft 從設計排除腦裂、stream 又是另一套複製模型。三者在 partition、throughput、retention 上的完整取捨、見 Queue Type 選型。

partition 恢復的核心是恢復語義、不是連線恢復。Broker 重新連上不等於狀態一致——這正是 3.6 processing semantics 與 recovery semantics 區分投遞、處理、恢復三層的價值。Partition 後的 reconciliation 要對照這三層判斷。

雲端 cluster 治理的歷史脈絡見 3.C27 Zalando AWS master selection——理解外部協調者怎麼被 Raft 內化、有助於判斷現代部署該把多少責任交給 broker、多少留給運維。

語義誤配在 partition 恢復時的具體告警條件見 3.C9 Queue 語義切換誤配——下游同時出現重複與遺漏、是 partition 恢復處置出錯的典型訊號。

回到上游：RabbitMQ overview 的進階主題段列了 Erlang clustering 之外的 federation / shovel / Cluster Operator 議題；3.1 broker basics 是 broker 通用概念的起點。

3.C14 Yelp：Schematizer 自建 Schema Registry

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 schema 治理是 data pipeline 的核心責任、不是 add-on。

觀察

Yelp data pipeline 一天數十億訊息、跨數百個 service、數千 schema、用自建 Schematizer 強制所有 message 走 Avro schema、訊息只帶 schema ID。

判讀

Schematizer 不只是 schema store、還做 schema evolution compatibility 與 topic 自動分配（不相容 schema 強制新 topic）。揭露 producer / consumer schema 治理要拉到平台層、靠工具強制、不靠人約定。

對應大綱

Kafka 進階主題：Schema Registry / Schema evolution。

下一步路由

回 Kafka vendor 頁與 3.7 event contract / replay boundary。

引用源

Yelp Schematizer: More than just a schema store

Kafka Multi-tenant 治理：quota 限流、ACL 授權與 topic 生命週期

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Apache Kafka overview「Multi-tenant 與配額治理」「Topic 生命週期治理」兩段的 implementation-layer deep article。Overview 說明這些議題對應哪些案例跟子議題、本文展開具體的 quota / ACL 配置、授權模型推導、故障徵兆與修法。

共享叢集的治理問題：一個叢集、多個互不信任的租戶

Multi-tenant Kafka 的核心問題是把一個物理叢集切成多個彼此隔離的邏輯空間、讓每個團隊用同一組 broker 卻不互相干擾。當 Kafka 從單一團隊的工具長成全公司的事件總線、叢集承載的不再是一條 pipeline、而是數十到數百個團隊的 producer 跟 consumer。這時叢集的瓶頸從「broker 夠不夠快」轉成「怎麼防止某個團隊的流量、權限、或 topic 失控波及其他所有人」。

Uber 的 Kafka 平台演進把這個轉換描述為「從單隊列問題提升到平台治理問題」。當事件平台服務眾多團隊、重點是配額、隔離、觀測與運維標準化、而非只擴 broker。擴 broker 解決的是總容量、解決不了「單一租戶吃光共享資源」這類隔離問題。

共享叢集的治理分三個獨立的軸、各自處理不同的失控來源：

治理軸防的是什麼工具失控後果

Quota（資源配額）單租戶吃滿頻寬 / request 容量、餓死其他租戶 kafka-configs.sh 設 byte rate 鄰居 producer 寫入卡死、consumer lag

ACL（存取授權）租戶讀寫不屬於自己的 topic、或被未授權方寫入 kafka-acls.sh + broker authorizer 資料外洩、跨租戶污染、誤刪 topic

生命週期（治理）死 topic 累積、partition 數爆炸壓垮 metadata 面命名規範 + 活躍判準 + 自動回收 controller 變慢、rebalance 風暴

三軸正交：quota 設好不代表權限對、ACL 鎖好不代表 topic 不會爆炸。下面逐軸展開、每軸都對應 production 踩過的失控場景。本文 quota 與 ACL 操作以 Kafka 4.2.0（KRaft 模式、apache/kafka:latest）實機驗證。

Quota：把頻寬與 request 容量切給租戶

Quota 是 broker 端對 client 的流量上限、由 broker 在超限時主動 throttle（延遲回應）而非拒絕、讓單一租戶無法把共享頻寬吃光。Kafka 的 quota 是 broker-side 強制、不依賴 client 自律 —— 即使 client 不配合、broker 也會在回應裡插入 throttle 延遲、把該 client 的有效吞吐壓回配額內。

三類 quota 度量

Kafka quota 度量三種資源、對應三類飽和：

Quota 鍵單位限制對象飽和訊號

producer_byte_rate bytes/sec 單一 client 每秒寫入 broker 的 bytes 寫入端 network / disk I/O 飽和

consumer_byte_rate bytes/sec 單一 client 每秒從 broker 讀取的 bytes 讀取端 network 飽和、fan-out 過大

request_percentage 百分比單一 client 佔用 broker request handler 的 CPU 時間 broker CPU 飽和、小訊息高頻請求

前兩個 byte rate 防的是頻寬類飽和、適合「大訊息、穩定流量」的租戶。request_percentage 防的是另一種失控 —— 某租戶送大量極小的 request（例如每筆一個 byte、每秒幾萬筆）、byte rate 看起來很低、卻把 broker 的 request handler thread 佔滿。這種「請求數爆炸但流量不大」的攻擊型 pattern 只有 request_percentage 抓得到。一個 broker 預設有 N 個 request handler thread、request_percentage=200 代表允許該 client 用掉 2 條 thread 的時間（100% = 1 條）。

三種套用層級

Quota 可以套在三種 entity 上、精度遞增：

套用層級 entity 指定適用情境

client-id --entity-type clients --entity-name 沒有認證、用 client.id 區分服務

user --entity-type users --entity-name 有 SASL 認證、整個租戶共用一個 quota

user + client-id 兩個 entity 同時指定同租戶內不同服務分別配額（最細）

層級的選擇取決於認證模型。沒開認證的叢集只能用 client-id —— 但 client.id 由 client 自行宣告、可偽造、只適合內部信任環境的粗略區分。開了 SASL 認證後、user 才是可信的租戶邊界、quota 綁 user 才有隔離意義。最細的 user + client-id 組合用在「同一個租戶內、batch 匯入服務跟即時 API 服務要分開限流」這種情境：整個 billing 租戶有一個總配額、但裡面的 batch-importer 再單獨壓低、避免夜間批次把租戶配額吃光、害同租戶的即時服務沒頻寬。

設定與查詢（實機驗證）

設 client-id 層級、同時給 producer 跟 consumer byte rate：

1kafka-configs.sh --bootstrap-server localhost:9092 --alter \ 2 --add-config 'producer_byte_rate=1048576,consumer_byte_rate=2097152' \ 3 --entity-type clients --entity-name svc-orders 4# Completed updating config for client svc-orders.
設 user 層級、含 request_percentage：

1kafka-configs.sh --bootstrap-server localhost:9092 --alter \ 2 --add-config 'producer_byte_rate=5242880,consumer_byte_rate=10485760,request_percentage=200' \ 3 --entity-type users --entity-name tenant-billing 4# Completed updating config for user tenant-billing.
設 user + client-id 組合層級（同租戶內單獨壓低 batch 服務）：

1kafka-configs.sh --bootstrap-server localhost:9092 --alter \ 2 --add-config 'producer_byte_rate=524288' \ 3 --entity-type users --entity-name tenant-billing \ 4 --entity-type clients --entity-name batch-importer 5# Completed updating config for user tenant-billing.
查詢時 entity 指定要對齊設定時的層級。查 user 層級：

1kafka-configs.sh --bootstrap-server localhost:9092 --describe \ 2 --entity-type users --entity-name tenant-billing 3# Quota configs for user-principal 'tenant-billing' are 4# consumer_byte_rate=1.048576E7, request_percentage=200.0, producer_byte_rate=5242880.0
組合層級要兩個 entity 都帶、否則查不到：

1kafka-configs.sh --bootstrap-server localhost:9092 --describe \ 2 --entity-type users --entity-name tenant-billing \ 3 --entity-type clients --entity-name batch-importer 4# Quota configs for user-principal 'tenant-billing', client-id 'batch-importer' are 5# producer_byte_rate=524288.0
不帶 --entity-name 而只給 --entity-type clients 會列出所有 client-id 層級的 quota、適合稽核整個叢集的 quota 分布。

ACL：把存取權限綁到 principal

ACL 是 broker 對每個操作的授權檢查、把「誰（principal）能對什麼資源（resource）做什麼操作（operation）從哪裡來（host）」綁成一條規則、broker 在每次 produce / fetch / admin 操作前比對。Quota 管的是「用多少」、ACL 管的是「能不能用」—— 兩者正交、quota 不限制權限、ACL 不限制流量。

授權模型四要素

一條 ACL 由四個維度構成、四個維度交集才決定一次操作是否放行：

維度含義範例值

principal 操作的發起身分 User:svc-orders

resource 被操作的對象（type + name + pattern） topic orders.events、group fulfillment-workers

operation 動作 Write / Read / Describe / All

host 來源 IP（* 為不限） 10.0.3.21

resource 的 pattern type 是隔離設計的關鍵：LITERAL 精確匹配單一資源名、PREFIXED 匹配整個前綴。多租戶的 topic 隔離靠 prefixed ACL 加命名規範 —— 給 tenant-billing 一條 billing. 前綴的 All 權限、它就能自由管理所有 billing. 開頭的 topic、卻碰不到 orders. 或別租戶的命名空間。命名規範在這裡不只是整潔、是授權邊界本身。

operation 的選擇要對齊角色。一個 producer 需要 topic 的 Write 跟 Describe（描述 partition metadata）；一個 consumer 需要 topic 的 Read Describe 加上 consumer group 的 Read Describe（commit offset 要對 group 有權）。漏掉 group 的 ACL 是常見錯誤：consumer 能讀到訊息、卻 commit 不了 offset、表現成不斷重複消費。

KRaft 的 StandardAuthorizer

ACL 的儲存與判定由 broker 的 authorizer 負責。KRaft 模式用 org.apache.kafka.metadata.authorizer.StandardAuthorizer、ACL 存在 metadata log（取代 ZooKeeper 時代的 AclAuthorizer 把 ACL 存在 ZK）。預設的 apache/kafka 容器不開 authorizer —— 不開時所有操作放行、ACL 指令也無從生效。啟用需要在 broker 設三項：

1authorizer.class.name=org.apache.kafka.metadata.authorizer.StandardAuthorizer 2super.users=User:admin 3allow.everyone.if.no.acl.found=false
super.users 列出繞過所有 ACL 檢查的管理身分、用來開機跟救援；少了它、開 authorizer 後第一個操作就會把自己鎖在外面。allow.everyone.if.no.acl.found=false 是隔離的前提 —— 設 true 時「沒有任何 ACL 的資源對所有人開放」、等於 deny-list 模式、漏設一個 topic 就全公司可讀。多租戶必須走 false 的 allow-list 模式：預設拒絕、明確授權才放行。

本文 ACL 操作以實機驗證：用上述三項 env（KAFKA_AUTHORIZER_CLASS_NAME / KAFKA_SUPER_USERS='User:ANONYMOUS' / KAFKA_ALLOW_EVERYONE_IF_NO_ACL_FOUND=false）配完整 KRaft single-node 設定起容器、PLAINTEXT 連線的 principal 為 User:ANONYMOUS、設為 super user 後即可用 kafka-acls.sh 操作。

ACL 配置（實機驗證）

給 producer 對單一 topic 的 write + describe：

1kafka-acls.sh --bootstrap-server localhost:9092 --add \ 2 --allow-principal User:svc-orders \ 3 --operation Write --operation Describe \ 4 --topic orders.events
給 consumer topic 的 read + describe、外加 consumer group 的權限（一條指令同時建兩個 resource 的 ACL）：

1kafka-acls.sh --bootstrap-server localhost:9092 --add \ 2 --allow-principal User:svc-fulfillment \ 3 --operation Read --operation Describe \ 4 --topic orders.events \ 5 --group fulfillment-workers
prefixed ACL 把整個命名空間授權給一個租戶：

1kafka-acls.sh --bootstrap-server localhost:9092 --add \ 2 --allow-principal User:tenant-billing \ 3 --operation All \ 4 --resource-pattern-type prefixed \ 5 --topic billing. 6# Adding ACLs for resource 7# `ResourcePattern(resourceType=TOPIC, name=billing., patternType=PREFIXED)`
host 限制把同一 principal 的權限綁到特定來源 IP：

1kafka-acls.sh --bootstrap-server localhost:9092 --add \ 2 --allow-principal User:svc-orders \ 3 --allow-host 10.0.3.21 \ 4 --operation Write \ 5 --topic orders.events
deny 規則的優先序高於 allow —— 同一 principal 即使有 allow、命中 deny 就拒絕。用來在大範圍 allow（如 prefixed All）之上挖一個例外：

1kafka-acls.sh --bootstrap-server localhost:9092 --add \ 2 --deny-principal User:svc-orders \ 3 --deny-host 10.0.9.99 \ 4 --operation Write \ 5 --topic orders.events
列出特定 topic 的全部 ACL、用於稽核：

1kafka-acls.sh --bootstrap-server localhost:9092 --list --topic orders.events
Topic 生命週期治理：命名、ownership 與回收

Topic 生命週期治理把「topic 的建立、歸屬、淘汰」變成有規則的流程、避免死 topic 累積與 partition 數爆炸壓垮叢集的 metadata 面。Kafka 的每個 partition 都是 controller 要追蹤的 metadata 單位；topic 只增不減時、partition 總數隨團隊數線性成長、最終 controller 的 metadata 處理、broker 的 leader election、client 的 metadata fetch 都跟著變慢。

命名規範劃出 ownership

Topic 命名規範把 ownership 跟隔離邊界編碼進名字本身。一個可治理的命名規範通常含三段：租戶 / 領域前綴、語意名、版本。例如 billing.invoices.v1 —— billing. 前綴對齊 prefixed ACL 的隔離邊界跟 quota 的租戶歸屬、invoices 是語意、v1 給 schema 演進留出平行存在的空間。命名規範在多租戶不是風格問題、是三個治理軸的共同錨點：ACL 靠前綴授權、quota 靠前綴歸屬、回收靠前綴找 owner。

實機建 topic 時 Kafka 4.2.0 對 . 跟 _ 混用會出 metric 名稱碰撞警告：

1WARNING: Due to limitations in metric names, topics with a period ('.') 2or underscore ('_') could collide. To avoid issues it is best to use 3either, but not both.
成因是 metric 名把 topic 名裡的 . 跟 _ 都正規化掉、billing.invoices 跟 billing_invoices 可能對映到同一條 metric。命名規範應在 . 跟 _ 之間選一個當分隔符、全叢集一致、避免監控數據互相污染。

活躍判準與自動回收

死 topic 的回收靠可量化的活躍判準。LinkedIn 的 TopicGC以自動治理取代手動清理未使用 topic、降低 metadata 壓力並改善 produce / consume 效能。它的判讀是：當 queue 規模擴大、僅靠容量擴充不夠、topic 生命週期與治理自動化會成為可靠性關鍵。

TopicGC 是 LinkedIn 的內部系統、不是 Kafka 內建指令；它揭示的是一套可借鏡的回收流程結構：

定義活躍判準：以 last produce / last consume timestamp 判斷 topic 是否仍在使用、設一段觀察窗（例如 N 天無寫入且無讀取）。

分級回收：先標記（soft）、進入待回收狀態並通知 owner、保留一段 grace period、無人認領才真正刪除（hard）。兩段式避免誤刪仍有低頻流量的 topic。

保留稽核：每次標記與刪除留紀錄、回收前後比對 controller log、partition 數量、produce / consume 效能指標、確認治理有效且無誤傷。

回收條件的設定要對齊業務節奏。純看 produce timestamp 會誤判「低頻但關鍵」的 topic（如月結批次）；活躍判準要同時看 produce 跟 consume、且觀察窗要長於最長的合法閒置週期。

Production 故障演練

Case 1：單一租戶暴衝吃滿頻寬（quota 缺位）

徵兆：某團隊上線一支新 backfill job、開始全速寫入；同叢集其他租戶的 producer 端 request-latency p99 從個位數 ms 跳到數百 ms、consumer lag 全面上升；broker network out 打到網卡上限、但 CPU 不高。受害的不是暴衝者自己、是所有共用 broker 的鄰居。

根因：叢集沒設任何 producer quota、或只對部分租戶設了 quota。沒有 broker-side throttle 時、單一 client 能用滿 broker 的 network / disk I/O、把共享頻寬擠光。byte rate 飽和的特徵是 network 打滿但 CPU 不高 —— 區別於 request_percentage 缺位導致的 CPU 飽和。

修法：

立即對暴衝 client 設 producer_byte_rate、broker 即時 throttle、無需重啟。

建立 quota 預設值：對所有 client-id（或 user）設一個保守的 default byte rate、新租戶上線自動受限、避免「漏設就無限」。

區分 byte rate 與 request_percentage 飽和：network 打滿設 byte rate、CPU 打滿（高頻小訊息）補 request_percentage。

容量規劃：把各租戶 quota 總和對齊 broker 的 network / disk 容量、留 headroom、避免「每個 quota 都合理但加總超過物理上限」。

Case 2：ACL 設太鬆或太緊

徵兆（太鬆）：稽核發現某 consumer 服務能讀到不屬於它的租戶 topic；或某 topic 被預期外的 principal 寫入、資料被污染。最壞情況是 allow.everyone.if.no.acl.found=true 下漏設 ACL 的 topic 對全叢集可讀寫。

徵兆（太緊）：consumer 能讀訊息卻不斷重複消費、log 顯示 commit offset 被拒；或 producer 報 TOPIC_AUTHORIZATION_FAILED、明明該有權限。

根因：太鬆來自 deny-list 心態 —— allow.everyone.if.no.acl.found=true 把「沒設 ACL」當成「開放」、漏設就外洩。太緊通常是漏掉 operation 或 resource：consumer 只給了 topic 的 Read、漏給 consumer group 的 Read Describe、於是讀得到但 commit 不了、表現成重複消費；producer 漏給 Describe、拿不到 partition metadata。

修法：

走 allow-list：allow.everyone.if.no.acl.found=false、預設拒絕、明確授權才放行。

ACL 對齊角色模板：producer = topic Write + Describe；consumer = topic Read + Describe 加 group Read + Describe；漏 group ACL 是重複消費的常見根因。

用 prefixed ACL 而非逐 topic 設、把授權邊界對齊命名規範前綴、減少漏設。

稽核流程：定期 kafka-acls.sh --list 比對預期授權矩陣、把 ACL 納入版本控制與 review、而非手動逐條加。

Case 3：Topic 數量爆炸壓垮 metadata 面

徵兆：叢集 topic / partition 總數隨團隊增長爬到數萬以上；controller failover 時間從秒級拉長到分鐘級；broker 啟動載入 metadata 變慢；client 的 metadata fetch 變大變慢、rebalance 期間出現連鎖延遲。容量沒滿、但整個叢集的 control plane 變鈍。

根因：partition 是 controller 要追蹤的 metadata 單位、數量只增不減。每個團隊隨手建 topic、每個 topic 又開高 partition 數、總 partition 數線性甚至超線性成長、壓垮 metadata 處理。KRaft 相比 ZooKeeper 提高了 metadata 上限、但上限仍存在、不是無限。

修法：

Partition 數規劃納入 topic 建立流程：partition 數對應並行度上限、不是越多越好；多餘 partition 是純 metadata 成本。詳見 Partition 卡。

回收死 topic 釋放 partition slot：見 Case 4 與生命週期治理段。

監控 metadata 壓力訊號：controller log、partition 總數、controller failover 時間設告警、在壓垮前介入。

規模化路徑：單叢集 metadata 逼近上限時、評估分群（依關鍵程度分多叢集）、見 overview 的 Cross-region 與分層叢集段與 LinkedIn Tiered Clusters案例。

Case 4：Unused topic 未回收

徵兆：叢集裡大量 topic 數月無 produce 也無 consume、卻持續佔 partition slot 跟 metadata；沒人記得某些 topic 屬於哪個團隊、不敢刪；新 topic 想建時撞到 partition 上限、被迫先擴叢集而非先回收。

根因：沒有活躍判準與回收流程、topic 只建不刪。歸屬資訊沒編碼進命名、回收時找不到 owner、於是「不敢刪」成為預設、死 topic 無限累積。這是 Case 3（metadata 爆炸）的慢性來源。

修法：

建立活躍判準：以 last produce / last consume timestamp 加觀察窗判定死 topic、觀察窗長於最長合法閒置週期（避免誤刪月結類低頻 topic）。

兩段式回收：先 soft 標記並通知 owner、grace period 內無人認領才 hard 刪除、避免誤刪。

命名規範補 ownership：前綴對齊團隊、回收時能直接找到 owner、消除「不敢刪」。

自動化加稽核：參考 TopicGC的流程結構、回收前後比對 metadata 與效能指標、留稽核紀錄。

容量與規模邊界

維度估算 / 訊號警戒與下一步

Quota 總和 vs 物理容量各租戶 byte rate 加總對 broker network / disk 容量加總逼近物理上限要重新切分、留 headroom

ACL 條目數逐 topic 設會隨 topic 數線性成長改 prefixed ACL 對齊命名規範、降條目數與漏設風險

Partition 總數 controller failover 時間、metadata fetch 延遲逼近上限先回收死 topic、再評估分群

Topic 活躍率有 produce / consume 的 topic 佔比死 topic 比例高代表缺回收流程、補活躍判準

Quota 與 ACL 是 broker-side 即時生效、不需重啟、可隨租戶調整、運維成本低。生命週期治理是持續流程、不是一次性操作 —— 死 topic 會持續產生、回收要常態化。三軸的共同前提是命名規範：沒有可治理的命名、quota 找不到歸屬、ACL 邊界對不齊、回收找不到 owner。多租戶治理的第一步是先把命名規範立起來、再談 quota 與 ACL。

整合與下一步

跟 overview 與案例的對位

上游 vendor 頁：Apache Kafka —— 本文展開其「Multi-tenant 與配額治理」「Topic 生命週期治理」兩段

平台治理案例：3.C6 Uber Kafka 事件平台 —— 單隊列問題提升到平台治理

生命週期案例：3.C3 LinkedIn TopicGC —— 自動回收與 metadata 壓力

規模化分群：3.C4 LinkedIn Tiered Clusters —— metadata 逼近上限時的多叢集路徑

自管轉 managed 的 ACL cutover：3.C2 VMware → MSK

跟安全模組對位

ACL 是 Kafka 內建的授權層、處理 broker 級的 principal × resource 授權。完整的 secret 管理（SASL 認證憑證怎麼發、輪替、撤銷）屬於 07 資料保護與安全模組的範疇 —— ACL 綁的 principal 從哪來、由認證層決定、ACL 只負責「這個 principal 能做什麼」。多租戶的完整信任鏈是「認證確認身分（07）→ ACL 授權操作（本文）→ quota 限制用量（本文）」三層。

下一步議題

Schema 治理：跨租戶共用 topic 時、schema compatibility 是另一層契約治理、見 overview 的 KRaft 與 Schema Registry段

Consumer group ACL 細節：跟 Consumer group rebalance 的互動

Quota 與 delivery semantics：throttle 延遲對 producer timeout / retry 的影響

相關連結

上游 vendor 頁：Apache Kafka

對位 deep article（同模組）：本模組其他 Kafka deep article 見 vendor 頁進階主題段

跨模組授權鏈：07 資料保護與安全模組

方法論：Vendor 深度技術文章的寫作方法論

知識卡：Topic、Partition、Consumer group

3.C15 Airbnb：Spark Streaming Kafka reader rebalance

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 stream processor 與 Kafka partition 數的緊耦合是 production scaling 瓶頸。

觀察

Airbnb logging pipeline 跨多個 topic、event size 從幾百 bytes 到幾百 KB、QPS 跨數個量級差異、Spark 一個 partition 對一個 task 造成 data skew、catch-up 一個 4 小時 lag 要再花 4 小時。

判讀

自建 balanced Spark Kafka reader、把 parallelism 從 partition 數解耦、按 event volume × size 重新分派 work。揭露 partition 數不該等同 consumer parallelism、要看 event 形狀。

對應大綱

Kafka 進階主題：Consumer 設計 / consumer lag / rebalance / partition + consumer group。

下一步路由

回 Kafka vendor 頁與 3.4 consumer 設計。

引用源

Scaling Spark Streaming for Logging Event Ingestion

3.C16 Robinhood：Faust Python stream processing

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明語言生態與 stream framework 的選型張力。

觀察

Robinhood 每天處理 billions of events / TB 資料、用於 risk signal、order quality、market data、fraud detection；team 多為 Python、不想用 JVM 生態。

判讀

把 Kafka Streams 的 stateful streaming 模式（topology、tables、windowing）移植到 Python library 形式、不需要 Yarn / Mesos resource manager。揭露 stream processing framework 選型常被語言生態主導、不是技術 feature。

對應大綱

Kafka 進階主題：跨語言 client / Streams framework / stream processing on Kafka。

下一步路由

回 Kafka vendor 頁與 3.4 consumer 設計。

引用源

Faust: Stream Processing for Python

3.C17 Walmart：Messaging Proxy Service 解 rebalance storm

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 partition-consumer 1:1 模型在大規模 K8s 環境的擴張極限。

觀察

Walmart 每天 trillions of message、25K+ Kafka consumer 跑在 WCNP Kubernetes 多雲環境；最大痛點是 pod scaling / deploy / heartbeat fail 觸發 consumer rebalance、lag spike。

判讀

自建 Messaging Proxy Service（MPS、Kafka Connect sink connector）、把 consumer 從 partition-bound 解耦成 stateless REST service、可獨立 auto-scale、不用增 partition；內建 DLQ 處理 poison pill。揭露「consumer 該跟 partition 數綁定」這個假設在 K8s 規模化下不再成立。

對應大綱

Kafka 進階主題：rebalance storm / consumer lag / multi-tenant 配額。

下一步路由

回 Kafka vendor 頁與 3.4 consumer 設計。

引用源

Reliably Processing Trillions of Kafka Messages Per Day

3.C18 Wix：Greyhound TLLSR 解 consumer 卡住

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明大規模 multi-tenant Kafka 的營運可視性需求遠超原生 metric。

觀察

Wix 2000+ microservice、每天 66 billion Kafka 訊息、用自建 Greyhound（JVM library + polyglot sidecar）抽象 Kafka；troubleshooting 痛點是「卡住的 consumer 看不到原因、只能寫 DB 修復腳本」。

判讀

TLLSR 框架（Trace / Lookup / Longest-running / Skip-replay / Redistribute）解 single-partition lag、單筆 poison pill、handler 卡住等情境；consumer lag alert > 30 分鐘觸發。揭露原生 lag metric 無法定位「卡在哪」、需要 message-level trace + 操作介面。

對應大綱

Kafka 進階主題：consumer lag / observability / multi-tenant / poison message。

下一步路由

回 Kafka vendor 頁與 3.5 紅隊章。

引用源

Troubleshooting Kafka for 2000 Microservices at Wix

3.C19 Wix：Multi-cluster Kafka zero-downtime 遷移

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 single mega-cluster 的 metadata scaling ceiling 與分群策略。

觀察

Wix cluster metadata 從 2019 年 5K topic / 45K partition 漲到 20K topic / 200K partition、每日 record 從 450M 漲到 2.5B、controller startup 與 broker stability 受 metadata 量壓垮。

判讀

不用 MirrorMaker、自建 Replicator service + Migration Orchestrator、用 Kafka topic 當控制平面協調 consumer 切換 + offset mapping；按 SLA 切多 cluster。揭露「topic / partition 數量」是 broker 級別的物理上限、不能無限擴張。

對應大綱

Kafka 進階主題：cross-region MirrorMaker / topic 生命週期 / 分層叢集策略。

下一步路由

回 Kafka vendor 頁與 3.C3 LinkedIn TopicGC。

引用源

Migrating to a Multi-Cluster Managed Kafka with 0 Downtime

3.C20 Spotify：Event Delivery 從 Kafka 遷出（反例）

Mon, 18 May 2026 00:00:00 +0000

Spotify 從 Kafka 遷出到 GCP Pub/Sub 的決策揭露了兩件事：broker 的可靠性保證是版本特性而非 Kafka 的不變量；以及「升級到新版」跟「換到另一個系統」之間的決策判準。

業務背景

Spotify 的事件傳遞系統（Event Delivery）負責把使用者行為事件（播放、搜尋、推薦互動）從客戶端送到資料管線。系統跨 5 個 datacenter 運行 Kafka 0.7，production peak 700K events/sec、pressure test 達到 2M events/sec。事件資料是推薦系統、analytics 跟廣告計費的輸入，遺失事件直接影響商業決策的準確性。

2016 年，Spotify 決定把 Event Delivery 從 Kafka 遷移到 GCP Pub/Sub，而非升級到當時已發布的 Kafka 0.8+。

技術挑戰

MirrorMaker 的 best-effort 語意

Kafka 0.7 的跨 datacenter replication 工具 MirrorMaker 在 best-effort mode 下會丟失資料但向 producer 回報成功。對 Spotify 的場景，producer 端認為事件已送達，但跨 datacenter 的 mirror 實際上丟了一部分。丟失比例在正常情況下很低，但在 broker restart 或網路抖動時可以升高到影響 analytics 準確性的程度。

這個問題的根源是 Kafka 0.7 的 producer 沒有 idempotent 保證，MirrorMaker 的 consumer offset commit 跟 producer ack 之間有 gap。

Broker restart 後 producer 無法自動恢復

Kafka 0.7 的 producer 在 broker restart 後可能進入無法自動恢復的狀態 — 需要人工重啟 producer process。在 5 個 datacenter、數百個 producer instance 的規模下，每次 broker 維護操作都需要人工介入恢復 producer，運維成本跟 broker 數量成正比。

為什麼不升級到 Kafka 0.8+

Kafka 0.8 引入了 replication、新的 consumer API 跟更可靠的 producer。但 Spotify 評估後認為升級的成本接近重新部署：

Kafka 0.7 到 0.8 的 wire protocol 不相容，需要全量遷移而非滾動升級

所有 producer / consumer 的 client library 都要更換

Spotify 同時在向 GCP 遷移基礎設施，Kafka 的自管運維模式跟 GCP 的託管方向不一致

相比之下，GCP Pub/Sub 提供了託管的 exactly-once 語意、跨 region replication、零運維。遷移成本跟升級 Kafka 版本的成本相當，但遷移後的長期運維成本低得多。

解法與取捨

面向留在 Kafka（升級 0.8+）遷到 GCP Pub/Sub

一次性遷移成本中（全量遷移、不可滾動升級）中（同樣需要改所有 client）

長期運維成本高（自管 broker × 5 DC）低（託管、零 broker 維護）

可靠性保證 0.8+ 有 replication、改善大 Pub/Sub 原生 exactly-once

跨 region replication 需要自建 MirrorMaker 2.0 原生支援

生態鎖定 Kafka 生態成熟 GCP 鎖定、跨雲成本高

Spotify 的判斷是：在同時進行 GCP 遷移的背景下，維護自管 Kafka 的投資回報比不上切換到託管方案。這個判斷跟 Kafka 本身的能力無關 — Kafka 0.8+ 的可靠性已經解決了 0.7 的問題。決策的關鍵變數是「組織正在往哪走」，不只是「技術上哪個更好」。

回寫教材的連結

Kafka vendor 頁：cross-region replication 跟 MirrorMaker 的進階主題。Spotify 的案例是「早期版本限制」的歷史教訓，Kafka 3.x 的 KRaft + idempotent producer 已解決這些問題。

Pub/Sub vendor 頁：託管 MQ 的定位跟適用場景。

3.6 processing recovery semantics：exactly-once 語意的工程實踐。Spotify 案例揭露 exactly-once 在早期 Kafka 版本不成立。

3.1 broker basics：broker 版本跟可靠性保證的關係。

判讀徵兆

讀者在自己的系統看到以下訊號時，應該回讀本案例：

使用舊版 Kafka（< 2.0）且跨 region replication 的資料完整性無法驗證

Broker restart 後需要人工重啟 producer、運維成本跟 broker 數量成正比

組織正在做基礎設施遷移（on-prem → cloud），考慮是否同步切換 MQ

評估「升級現有系統 vs 遷移到新系統」的決策框架

引用源

Spotify’s Event Delivery — The Road to the Cloud (Part II)

3.C21 Goldman Sachs：MSK 遷移 with MirrorMaker 2

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 MM2 在 production cutover 的真實 tuning 與 LB 整合 pitfall。

觀察

Global Investment Research 把 ~12 microservice / 30 instance 從 on-prem Kafka 遷到 MSK；用 MM2 同步 topic / ACL / consumer group / offset、選擇 atomic cutover、整體耗時 ~7 小時。

判讀

把 MM2 預設的 prefixed topic 改成 identical name；遇到 flush timeout（5s → 30s）、request size、NLB idle timeout 350s vs client 540s 衝突。揭露 managed 服務遷移的細節風險集中在「LB / timeout / topic naming」這些 client 端配置、不在 broker 本身。

對應大綱

Kafka 進階主題：cross-region MirrorMaker / managed broker 遷移 / ACL 設計。

下一步路由

回 Kafka vendor 頁與 3.C2 VMware → MSK。

引用源

How Goldman Sachs Migrated from On-Premises Apache Kafka to Amazon MSK

3.C22 Trivago：KEDA scale-to-zero by Kafka lag

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 event-driven workload 該按 backlog 而非 resource usage scale 的設計判準。

觀察

Trivago 跨 3 個 region 跑 50+ Kafka sink service、每個 always-on 用 1 CPU + 1 GB；CPU/mem-based autoscaling 無效（sink 多為 I/O bottleneck、CPU 平坦）。

判讀

KEDA 以 consumer lag 為 scaling signal、minReplicaCount=0 達到 scale-to-zero、daily replica-hour 從 50 降到 1-2。揭露「resource usage 不等於工作量」、event-driven 場景該看 backlog signal。

對應大綱

Kafka 進階主題：consumer lag / autoscaling / multi-tenant 配額。

下一步路由

回 Kafka vendor 頁與 3.4 consumer 設計。

引用源

From Always-On to On-Demand: Scaling Kafka Sinks with KEDA

3.C23 Bloomberg：多租戶 vhost + 自助平台化

Mon, 18 May 2026 00:00:00 +0000

Bloomberg 的 RabbitMQ 平台化案例揭露了 broker 從幾個團隊的工具演變成上百個團隊的共享基礎設施時，治理責任邊界應該前置設計，而非在規模化之後補救。

業務背景

Bloomberg 有 5000+ 工程師，內部系統涵蓋金融資料處理、交易系統、新聞分發與分析平台。RabbitMQ 的使用從最初幾個團隊的 microservice 解耦開始，逐步擴展到上百個團隊。到 2019 年，Bloomberg 的 RabbitMQ 基礎設施每週處理超過 2 億條訊息，尖峰每秒數萬條。

這個規模下，原本由平台團隊手動配置的 queue / exchange / binding 模式無法持續 — 上百個團隊各自有不同的 queue 需求，平台團隊成為所有變更的人工瓶頸。

技術挑戰

多租戶隔離

多個團隊共用同一個 RabbitMQ cluster 時，一個團隊的 queue 爆量或 consumer 故障可能影響其他團隊的訊息處理。RabbitMQ 的 Erlang scheduler 是共用的 — 一個 queue 的 message accumulation 會消耗 broker 的記憶體跟 CPU，影響同 cluster 上所有 queue 的效能。

隔離需要在 broker 層實作，client 端的 best practice（限制 message size、設定 TTL）只能降低風險但無法保證隔離。

自助配置的安全邊界

讓上百個團隊自助建立 queue / exchange / binding 需要明確的安全邊界 — 團隊 A 能在自己的 namespace 建立資源，但不能存取團隊 B 的 queue。RabbitMQ 的 vhost 機制提供了這個隔離單位，但 vhost 的建立跟權限配置本身需要自動化。

容量規劃與配額

共享 cluster 的容量被所有租戶分攤。沒有配額機制時，一個團隊的 queue 可以無限增長直到 broker 記憶體告警、觸發 flow control、影響全部租戶。配額需要在 queue 層面設定上限（max-length、max-length-bytes），同時提供超出配額時的降級策略而非直接拒絕。

解法：vhost 分層 + 自助平台

Vhost 作為租戶邊界

Bloomberg 把 vhost 作為多租戶隔離的基本單位。每個團隊（或每個應用）分配一個 vhost，vhost 內的 queue / exchange / binding 只對該團隊可見。跨 vhost 的訊息傳遞透過 shovel 或 federation plugin，需要顯式配置，預設不互通。

Vhost 的隔離粒度是「資源可見性 + 權限」而非「硬體資源」。同 cluster 上的 vhost 仍然共用 Erlang runtime 跟記憶體。完全的硬體隔離需要獨立 cluster — Bloomberg 對高敏感度的工作負載（交易相關）使用專用 cluster，一般業務共用大 cluster + vhost 隔離。

自助 vhost 註冊

Bloomberg 建立了內部自助平台，團隊透過 API 或內部 portal 申請 vhost。申請時需要提供：應用名稱、預期的 message rate、保留期限、是否需要 HA（mirrored / quorum queue）。平台自動建立 vhost、設定權限、分配連線端點。

自助流程的價值是去除平台團隊的人工瓶頸。新團隊從申請到拿到可用的 RabbitMQ 端點，時間從「提 ticket 等平台團隊排程」縮短到「填表 → 自動配置 → 立即可用」。

配額與監控

每個 vhost 有預設配額（max-length、max-connections）。超出配額時 broker 行為可配 — drop-head（丟最舊的訊息）或 reject-publish（拒絕新訊息）。配額不是懲罰機制，是保護共享 cluster 的防線。

監控用 RabbitMQ 的 management plugin + Prometheus exporter，按 vhost 維度匯出 queue depth、message rate、connection count。每個 vhost 的 dashboard 對應到 owner 團隊，讓團隊自行判讀自己的使用狀況。

取捨

Vhost 隔離 vs 硬體隔離：vhost 隔離成本低（不需要額外 cluster），但隔離程度有限 — Erlang scheduler 跟記憶體仍然共用。Bloomberg 的做法是多數團隊用 vhost 隔離、高敏感度工作負載用專用 cluster，兩者共存。

自助配置 vs 中央管控：自助配置加速團隊迭代，但也增加了 configuration drift 的風險。Bloomberg 透過配額跟自動化審計（定期掃描 vhost 的 queue 狀態、alert 異常 pattern）平衡自助跟管控。

回寫教材的連結

3.1 broker basics：broker 的多租戶治理責任

3.C6 Uber Kafka 平台：Kafka 生態的多租戶治理比較 — Kafka 用 topic-level ACL + quota，RabbitMQ 用 vhost

4.18 operating model：平台團隊跟服務團隊的 ownership 邊界

判讀徵兆

以下訊號出現時，應該回讀本案例：

RabbitMQ 的使用團隊數從個位數增長到雙位數、平台團隊成為配置瓶頸

單一 cluster 上的 queue 數量超過數百個、owner 不明

某個團隊的 queue 爆量影響了其他團隊的 consumer 效能

新團隊要用 RabbitMQ 但平台團隊的 ticket 要排隊數天

沒有 per-team 的 message rate 或 queue depth 監控

引用源

Growing a Farm of Rabbits at Bloomberg

Retry Policy

Mon, 22 Jun 2026 00:00:00 +0000

Retry policy 的核心概念是「定義失敗後何時再試、試幾次、用什麼間隔、何時停止」。重試可以吸收暫時性故障（網路抖動、下游短暫不可用），但也可能放大下游壓力或重複造成副作用，因此跟 idempotency 與 dead-letter queue 是成對設計。

概念位置

Retry policy 跟 dead-letter queue 構成錯誤處理的兩層機制 — retry 處理暫時性失敗，DLQ 承接 retry 耗盡後仍無法處理的訊息。Retry 跟 idempotency 是成對的設計 — 有 retry 就要有 idempotent consumer，否則重試可能造成重複扣款、重複發通知。

Retry 跟 retry storm 的關係是：大量 consumer 同時 retry 失敗的訊息會形成下游的流量尖峰，把暫時性故障放大成全系統問題。Exponential backoff + jitter 是緩解 retry storm 的標準做法。

使用情境

系統需要 retry policy 的訊號是下游偶發失敗影響成功率。付款查詢 API 短暫 timeout 可以重試；已送出的扣款請求則需要先查詢結果或用 idempotency key，避免重試造成重複扣款。

Retry 的判斷分類：暫時性錯誤（5xx、timeout、connection refused）適合 retry；永久性錯誤（4xx、schema validation failure、business rule violation）不應該 retry，直接送 DLQ 或 reject。分類錯誤是 retry policy 最常見的 bug — 對永久性錯誤 retry 只會消耗 quota、延遲問題被發現的時間。

設計責任

Retry policy 要包含最大重試次數、backoff 策略（fixed / exponential / exponential + jitter）、每次 retry 的 timeout、錯誤分類規則（哪些 error code 算暫時性）、觀測欄位（retry count、最終結果）與停止條件（超過 N 次進 DLQ）。高流量系統還要設定 retry budget — 限制 retry 流量佔總流量的比例，避免 retry 自身成為負載來源。

3.C24 SoundCloud：AMQP fan-out 音訊處理 pipeline

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 fan-out 處理 pipeline 該按處理類型拆隊列、不該共用 queue。

觀察

上傳音訊後用 RabbitMQ 觸發 transcode + 波形圖 + follower 通知。當 Skrillex 等大號上傳時、要避免同步寫 Cassandra 千萬次。每秒 20-30,000 條 persistent message。

判讀

不同處理類型分開隊列、各自獨立 scale。揭露 fan-out 不是「broadcast 同一份工作」、而是「同事件觸發多種獨立 pipeline」、每種 pipeline 的 throughput / latency 要求不同。

對應大綱

RabbitMQ 進階主題：Prefetch + consumer 併發 / classic queue vs Streams（log fan-out 場景）。

下一步路由

回 RabbitMQ vendor 頁與 3.4 consumer 設計。

引用源

Scaling with RabbitMQ at SoundCloud (VMware Tanzu)

AMQP at SoundCloud (InfoQ)

3.C25 Indeed：Delay queue + DLQ 三層 escalation

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 retry 策略要跟 queue 拓樸結合設計，分層延遲 + DLQ 的三層 escalation 能避免 head-of-line blocking。

業務背景

Indeed 是全球最大的求職搜尋引擎之一，每天處理 35M+ 筆職缺資料的索引、更新與推送。職缺資料從雇主端進入系統後，需要經過解析、標準化、索引、推送到搜尋引擎等多個處理步驟，每個步驟由 RabbitMQ 串接的 consumer 處理。

這個規模下，任何一個處理步驟的暫時失敗（downstream service timeout、資料格式異常、外部 API rate limit）都會產生需要 retry 的訊息。每天有數十萬筆訊息需要至少一次 retry。

技術挑戰：Head-of-line blocking

Indeed 原本的 retry 策略是 consumer 處理失敗時把訊息 requeue（basic.nack with requeue=true）。RabbitMQ 的 requeue 行為是把訊息放回 queue 的 head — 下一次 consumer 拿到的還是這條失敗的訊息。

當一條訊息因為 downstream timeout 反覆失敗時，它會持續佔住 queue head，阻塞後面所有等待處理的訊息。單一 consumer 的時間被一條失敗訊息反覆消耗，其他正常的訊息延遲累積。在 35M+ 筆/天的吞吐量下，一條 head-of-line blocking 訊息就能讓整個 pipeline 的 processing lag 從秒級升到分鐘級。

這個問題的根源是 retry 策略跟 queue 拓樸耦合在一起 — requeue 把 retry 決策留在同一個 queue 裡，讓失敗訊息跟正常訊息搶同一條通道。

解法：三層 escalation

Indeed 設計了一個三層 escalation 模型，把失敗訊息依嚴重程度逐層隔離：

第一層：Immediate retry（同 queue）

Consumer 處理失敗時，先在 client 端做短暫 backoff（數百毫秒到數秒），然後 ack 原訊息、重新 publish 到同一個 queue 的 tail（而非 requeue 到 head）。

這層處理的是暫態錯誤 — downstream 偶發的 500、短暫的 network hiccup。多數訊息在第一層就能恢復。重新 publish 到 tail 確保失敗訊息排在正常訊息後面，不阻塞其他訊息。

第二層：Delay queue

第一層 retry N 次仍然失敗的訊息，透過 RabbitMQ 的 Dead Letter Exchange（DLX）路由到 delay queue。Delay queue 用 x-message-ttl 設定延遲時間（例如 30 秒、1 分鐘、5 分鐘），TTL 到期後訊息透過另一個 DLX 路由回原始 queue 的 tail。

Indeed 用多個不同 TTL 的 delay queue 實作 exponential backoff — 第一次進 delay 等 30 秒、第二次等 1 分鐘、第三次等 5 分鐘。這個做法利用 RabbitMQ 原生的 DLX + TTL 機制，不需要額外的 scheduler 或 cron job。

這層處理的是持續性錯誤 — downstream 在做 deployment、外部 API 在做 maintenance。延遲重試讓 downstream 有時間恢復，同時失敗訊息完全離開主 queue、不影響正常處理。

第三層：Dead Letter Queue

Delay queue retry M 次後仍然失敗的訊息進入 DLQ。DLQ 中的訊息不再自動重試，需要人工審視或批次 replay。

DLQ 的價值是把「目前無法處理」的訊息安全保存，不讓它們無限消耗 retry 資源。Indeed 的維運團隊定期檢查 DLQ 中的訊息 — 按 error type 分群、判斷是 bug（需要修 code 再 replay）還是資料問題（需要修正資料再 replay）。

取捨

犧牲的是 delivery order。訊息從 delay queue 回到主 queue tail 時，已經不在原始的位置。對 Indeed 的職缺處理來說，order 不影響正確性 — 職缺更新是 idempotent 的，最終狀態正確即可。對 order-sensitive 的場景，這個模型需要額外的 ordering 機制。

增加的是拓樸複雜度。三層 escalation 涉及主 queue + 多個 delay queue + DLQ + 多個 DLX 的 binding。RabbitMQ 的 exchange / queue / binding 組合需要明確規劃跟文件化，否則維運時搞不清楚訊息的路由路徑。

回寫教材的連結

3.2 durable queue：DLX + TTL 是 RabbitMQ 原生的 durable 機制

3.6 processing recovery semantics：retry 策略跟 consumer 的 ack/nack 行為

RabbitMQ DLQ retry escalation：DLX 配置的實作細節

3.C6 Uber Kafka 平台：Kafka 生態的 retry topic 跟 DLQ 設計比較

判讀徵兆

以下訊號出現時，應該回讀本案例：

Consumer 的 processing lag 在特定時段突然升高、但訊息產生速率沒變

同一條訊息的 retry 佔據 consumer 的大部分處理時間

Requeue 後訊息立刻又被同一個 consumer 取到、進入 retry 迴圈

DLQ 中的訊息堆積、沒有定期審視跟 replay 的機制

Retry 策略只有 client 端 backoff、沒有 queue 拓樸層面的隔離

引用源

Delaying Messages with RabbitMQ at Indeed

Get a Job 35 Million Times a Day Using RabbitMQ (talk)

3.C26 GoCardless：Hutch + 單一 topic exchange service mesh

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明小規模時單 vhost + 統一 routing key 規範可作為 service mesh 基礎。

觀察

單一 RabbitMQ cluster 作為所有服務之間的通訊中樞、自家 Hutch（Ruby lib）2013 從 production 抽出開源。

判讀

routing key 格式 service.subject.action（如 paysvc.payment.chargedback）、單一 topic exchange、JSON 序列化（多語言可讀）。揭露小規模單 cluster 可以用「routing key 命名規範」取代複雜 exchange 拓樸。

對應大綱

RabbitMQ 進階主題：Exchange types 與 routing 設計 / 多 vhost（單 vhost 服務 mesh 的反向案例）。

下一步路由

回 RabbitMQ vendor 頁與 3.C23 Bloomberg（規模化後的對照）。

引用源

Hutch: Inter-Service Communication with RabbitMQ

3.C27 Zalando：RabbitMQ on AWS 自動化 master selection

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明雲端 cluster 治理在 K8s 之前的工程模式。

觀察

Communication platform 用 RabbitMQ cluster、跑在 EC2 / Docker container 上、用 supervisord 並行 sidekick + RabbitMQ。AWS 帳號限制每 region 5 個 Elastic IP。

判讀

自建 sidekick 服務查 AWS API 動態識別 cluster、指定最老 instance 當 master、master 死後晉升下一個最老 node。跨版本升級用 federation 上游接到新 cluster 過渡。揭露「cluster master selection」跟「IP 限制」是雲端部署的早期關鍵限制。

對應大綱

RabbitMQ 進階主題：Erlang clustering + network partition / Federation + Shovel / RabbitMQ Cluster Operator（K8s 之前的雲端 cluster 治理）。

下一步路由

回 RabbitMQ vendor 頁與 3.1 broker basics。

引用源

Rabbit in the Cloud (Zalando Engineering)

3.C28 WeWork：Consistent hash exchange 保證帳戶順序

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 RabbitMQ 也能做「per-key ordering」、用 consistent hash exchange 模擬 partition。

觀察

訊息順序對某些業務流程關鍵、但全局排序代價高。WeWork 採固定數量 queue + 用 account ID hash 路由到特定 queue。

判讀

每個 queue 一個 SideKiq worker + exclusive consumer 保證單帳戶順序。文後發現 RabbitMQ Consistent Hashing plugin 已內建類似機制（類似 Kafka 分區）。揭露 partition-level ordering 不是 Kafka 專屬、在 broker model 可用 hash exchange 達成。

對應大綱

RabbitMQ 進階主題：Exchange types / Prefetch + consumer 併發（partition-level ordering 模式）。

下一步路由

回 RabbitMQ vendor 頁與 Kafka vendor 頁（partition + key 對照）。

引用源

WeWork’s “Good Enough” Order Guarantee

3.C29 WeWork：Bunny + Puma 多執行緒 channel pool

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 AMQP client 的 connection / channel 邊界跟執行緒模型緊密耦合。

觀察

從 Unicorn 切到 Puma 後遇到 ConnectionClosedError、根因是快取 Bunny channel 在多執行緒間共享。

判讀

AMQP channel 不應跨執行緒共用、改用 connection_pool gem 管理 channel pool。揭露 AMQP 不是 stateless HTTP-style client、channel 是 statefull 物件、多 thread 模型要特別處理。

對應大綱

RabbitMQ 進階主題：Prefetch + consumer 併發（client library 層的 connection / channel 邊界）。

下一步路由

回 RabbitMQ vendor 頁與 3.4 consumer 設計。

引用源

Bunny Threads in Puma at WeWork

3.C30 Runtastic：Mirrored queue 網路負載瓶頸

Mon, 18 May 2026 00:00:00 +0000

Runtastic 的案例暴露了 RabbitMQ mirrored queue 的網路成本被嚴重低估。Mirrored queue 的可靠性提升代價是 message 在 cluster 內的網路複製量跟 mirror 數成正比，而這個成本在日常流量下可能不可見、只在壓力測試或突發流量時才暴露。

業務背景

Runtastic 是 Adidas 旗下的健身追蹤平台，使用者透過 app 記錄跑步、騎車、重訓等運動資料。2020 年 COVID-19 lockdown 期間，居家運動需求爆增，平台的 concurrent user 數量在數週內翻倍。

Runtastic 的後端架構是 microservice 架構，RabbitMQ 是服務間訊息傳遞的核心。運動資料記錄、通知推送、社交功能（好友排行、挑戰）、analytics 事件都透過 RabbitMQ 的 queue 串接。

技術挑戰：Mirroring 的隱藏網路成本

Runtastic 的 RabbitMQ cluster 使用 mirrored queue（ha-mode: all）確保訊息在 broker 故障時不遺失。Mirrored queue 把每條訊息同步複製到 cluster 中所有 node — 3 node cluster 代表每條訊息的網路傳輸量是原始大小的 3 倍。

日常流量下，mirroring 的額外網路負載在 cluster 的頻寬容量之內，效能影響不明顯。但 lockdown 後流量翻倍時，mirroring 的網路負載跟著翻倍 — 更準確地說是翻 2×N 倍（流量 2 倍 × mirror 數 N）。

Runtastic 的 cluster 使用了共享的網路元件（network switch / load balancer），mirroring 的流量把共享網路元件的頻寬壓到極限。表現是 broker 間的 mirroring 延遲上升 → publisher confirm 延遲上升 → producer 端的 publish latency 從毫秒跳到秒級 → 上游服務開始 timeout。

問題的隱蔽性在於：日常監控只看 broker 的 CPU、memory、disk，沒有把 inter-node network throughput 作為關鍵指標。網路瓶頸在 broker-level metric 上的表現是「publish confirm 變慢」，容易被誤判為 broker 過載而非網路飽和。

解法

Performance test 定位瓶頸

Runtastic 在事件發生後用 performance test 重現問題。測試揭露了 mirroring 流量跟 broker 間網路頻寬的關係 — 把 message rate 從日常的 X 推到 2X 時，inter-node traffic 超過 switch 容量，publish confirm latency 開始非線性增長。

Performance test 的關鍵是把 inter-node network throughput 加入監控維度。RabbitMQ 3.8 的 Prometheus integration 提供了 rabbitmq_raft_term_total、rabbitmq_channel_messages_published_total 等指標，但 inter-node bandwidth 需要從 OS 層（node_exporter 的 network bytes）或 switch 層取得。

調整 mirroring 配置

Runtastic 從 ha-mode: all（所有 node 都 mirror）調整為 ha-mode: exactly, ha-params: 2（只 mirror 到 2 個 node）。這把每條訊息的網路複製量從 N 倍降到 2 倍，在可靠性（2 個 copy 可以容忍 1 node failure）跟網路成本之間取得平衡。

對可靠性要求最高的 queue（交易相關），維持 ha-mode: all 但把這些 queue 移到頻寬更高的專屬 network segment。

遷移到 Quorum queue 的動機

Mirrored queue 的另一個問題是同步機制 — 新 mirror 加入時需要全量同步（sync），sync 期間 queue 可能暫停接受新訊息。RabbitMQ 3.8 引入的 Quorum queue 用 Raft consensus 取代 mirrored queue 的 GM（Guaranteed Multicast），在網路效率跟故障恢復上都有改進。

Runtastic 的案例是「為什麼應該評估從 mirrored queue 遷到 quorum queue」的典型動機 — mirrored queue 的網路成本跟同步行為在規模化時成為瓶頸。

取捨

面向 ha-mode: all ha-mode: exactly 2 Quorum queue

網路成本每條訊息 × N node 每條訊息 × 2 node 每條訊息 × majority

可容忍的故障 N-1 node failure 1 node failure minority node failure

新 node 加入全量同步（可能暫停 queue）全量同步（影響面小） Raft log replay（漸進）

適合場景小 cluster、低流量中 cluster、中流量中大 cluster、推薦路徑

回寫教材的連結

3.1 broker basics：broker 的 replication 跟 network 成本的關係

RabbitMQ vendor 頁：mirrored queue vs quorum queue 的詳細比較

RabbitMQ queue types：Classic / Mirrored / Quorum / Stream 四種 queue type 的取捨

4.11 telemetry pipeline：broker 的 inter-node 網路作為 pipeline 健康指標

判讀徵兆

以下訊號出現時，應該回讀本案例：

RabbitMQ cluster 使用 ha-mode: all 且 node 數量 > 3

Publish confirm latency 在流量上升時非線性增長

Broker 的 CPU / memory / disk 指標正常但 publish 變慢

Broker 間的 network traffic 佔比超過 cluster 總頻寬的 50%

新 mirror 加入時 queue 出現暫停或大量延遲

引用源

Runtastic RabbitMQ Performance Case Study

3.C31 Mozilla Pulse：命名前綴 + ACL 取代 vhost 多租戶

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明多租戶隔離可用「ACL + naming convention」取代 vhost、適合社群協作場景。

觀察

Pulse 是 Mozilla 自動化 / 基礎設施工具間的 managed RabbitMQ cluster、用 AMQP 0-9-1 + RabbitMQ 擴充、由 CloudAMQP 託管於 pulse.mozilla.org:5671（AMQP over TLS）。

判讀

技術上不需 vhost、改用權限限制 + 命名前綴（exchange/<username>/*、queue/<username>/*）做隔離。PulseGuardian 跑在 Heroku 管理使用者 / queue / exchange。揭露多租戶隔離不一定要 vhost、權限粒度可以拉到 resource naming 層。

對應大綱

RabbitMQ 進階主題：多 vhost + 多租戶（反向案例：用 ACL + naming 取代 vhost）。

下一步路由

回 RabbitMQ vendor 頁與 3.C23 Bloomberg vhost 多租戶（對照）。

引用源

Mozilla Pulse Wiki

Pulse API

3.C32 LoyaltyLion：監控數千 RabbitMQ queue

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明大規模 queue topology 的監控議題超出 Management plugin 能力範圍。

觀察

LoyaltyLion 跑數千個 RabbitMQ queue、用 rabbitmqctl 跑 recurring script 抓 queue 資訊、透過 statsd 送到 Datadog。

判讀

大規模 queue 拓撲下管理 plugin API 不夠用、需自寫採集腳本。揭露 queue 數量上萬時、原生 monitoring 介面（HTTP API、Management UI）會變成瓶頸、需要 metrics agent 模式。

對應大綱

RabbitMQ 進階主題：Prefetch + consumer 併發（大規模 queue topology 的監控議題）/ RabbitMQ Cluster Operator（運維邊界）。

下一步路由

回 RabbitMQ vendor 頁與 4 觀測模組。

引用源

Monitoring Thousands of RabbitMQ Queues with Datadog

3.C33 Wargaming：World of Tanks 戰後 dossier 解耦

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 game server / web portal 異步解耦、queue 吸收戰後事件 burst。

觀察

World of Tanks server 全 Linux、用 RabbitMQ 作為 web service stack 核心。每場戰鬥結束後玩家 tank dossier 寫入 message queue、讓 game portal 顯示最新統計而不增加 game server load。

判讀

Queue 是 game server 與 portal 的解耦邊界、subscription 也走 RabbitMQ。揭露遊戲場景的「戰後事件 burst」適合用 queue 吸收、不該打到 game server 內部狀態。

對應大綱

RabbitMQ 進階主題：Federation + Shovel（多 region game server 同步）/ 多 vhost + 多租戶（多遊戲共用 broker）。

下一步路由

回 RabbitMQ vendor 頁與 3.4 consumer 設計。

引用源

Wargaming Mobilizes with Linux and Open Source (Linux Foundation)

Wargaming Public API

3.C34 Netlify：NATS 當全球 metrics/logs 統一資料平面

Mon, 18 May 2026 00:00:00 +0000

Netlify 的 NATS 選型示範了 subject-based fan-out 在跨雲觀測資料平面的優勢 — 協議極簡帶來的是部署簡單跟 client 整合成本低，代價是放棄持久化保證。

業務背景

Netlify 是靜態網站跟 serverless function 的部署平台，服務 70,000+ 網站、近月 10 億 page view。基礎設施橫跨 Rackspace、AWS、GCP、Digital Ocean 四個雲端供應商。每個服務節點都會產生 metrics 跟 logs，需要一條統一的資料路徑把這些訊號從各地收集到中央觀測系統。

技術挑戰

跨雲統一資料平面

四個雲的服務各自有不同的網路拓樸跟存取方式。觀測資料需要跨雲收集到同一個目的地（Elasticsearch），但直接讓每個服務 HTTP POST 到 Elasticsearch 會有連線管理、背壓、格式轉換的問題分散在每個服務裡。

Netlify 需要一個中介層 — 各服務把 metrics / logs 推到中介層，中介層負責 fan-out 到下游消費者（Elasticsearch、即時 dashboard、告警系統）。

選型：NATS vs RabbitMQ

Netlify 評估了 RabbitMQ 跟 NATS。RabbitMQ 在功能上更完整（持久化 queue、DLQ、ack 機制），但 Netlify 的觀測資料場景有三個特性讓 NATS 更合適：

資料可丟：metrics 跟 logs 是 best-effort 的觀測資料，遺失幾秒的資料不影響業務 — 持久化保證帶來的運維成本大於收益

Fan-out 是主要模式：同一份資料要被多個消費者訂閱（Elasticsearch、即時 tail、告警），NATS 的 subject-based pub/sub 天然支援，RabbitMQ 需要設 exchange + 多個 binding

部署極簡：NATS server 是單一 binary、零依賴、幾秒鐘啟動，跨四個雲部署時每個雲跑一個 NATS node 的運維成本遠低於 RabbitMQ cluster

解法與取捨

架構

Netlify 用 Core NATS（非 JetStream）搭建觀測資料平面：

Producer 端：用 logrus 的 NATS hook 讓所有 Go 服務的 structured log 自動推到 NATS subject；另用 log-tail 工具從 file-based log 讀取推送

Consumer 端：一個 elastinats 消費者訂閱 NATS subject、批次寫入 Elasticsearch；其他消費者可以各自訂閱同一個 subject 做即時處理

Subject 的命名用階層式結構（例如 logs.production.api），讓消費者可以用 wildcard 訂閱整個子樹（logs.production.*）或特定服務。

取捨

面向選擇代價

持久化放棄（Core NATS） NATS server 重啟時 in-flight 的訊息遺失

Ack 機制放棄（fire-and-forget） Consumer 處理失敗的訊息不會被重送

跨雲連接 NATS cluster 需要跨雲的網路連線、延遲影響 cluster 一致性

Consumer 擴展多個訂閱者各自訂閱每個消費者收到全量資料、沒有 consumer group 的分攤機制

Core NATS 的 fire-and-forget 語意在觀測資料場景是有意的選擇 — 觀測資料的價值隨時間快速衰減，遺失一秒鐘的 metrics 不影響趨勢判讀。如果場景需要持久化（例：audit log、交易事件），Core NATS 就不適合，需要 JetStream 或其他有持久化保證的 broker。

回寫教材的連結

3.1 broker basics：Core NATS 的 fire-and-forget 是 broker 可靠性光譜的一端（at-most-once），Kafka 跟 RabbitMQ 在另一端（at-least-once / durable）

NATS vendor 頁：Core NATS vs JetStream 的選型判準 — 本案例是純 Core NATS 的代表場景

4.11 telemetry pipeline：Netlify 的 NATS 資料平面在觀測 pipeline 架構中扮演 collector 跟 storage 之間的 transport 層

判讀徵兆

讀者在自己的系統看到以下訊號時，應該回讀本案例：

觀測資料（metrics / logs）需要跨多個雲或多個 datacenter 收集到中央系統

現有的 broker（RabbitMQ / Kafka）在觀測資料場景的運維成本跟資料價值不成比例

Fan-out 是主要消費模式 — 同一份資料需要被多個下游系統訂閱

對 message delivery 的可靠性要求是 best-effort 而非 at-least-once

引用源

Why Netlify chose NATS

3.C35 Form3：NATS JetStream 多雲低延遲支付

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 JetStream Leaf Node 在跨地理 / 跨雲 durability 拓樸的關鍵角色。

觀察

Form3 服務 Tier-1 銀行（含 Mastercard、Square 等）、要求 500ms 端到端 SLA、AWS SNS/SQS 約 300ms 延遲吃掉預算。在 Faster Payments 機房資源受限下、用 NATS + JetStream 替換 legacy pub/sub bus、達到約 6× 延遲改善並做到「AWS 整個 region 掛掉時不喪失處理能力」。

判讀

用 JetStream 的 Leaf Node 做跨雲橋接、把 on-prem Faster Payments 機房跟雲端 cluster 連起來。揭露金融支付對端到端 latency 預算的硬要求逼出特定 broker 選型、不是「Kafka / SQS 通用化」。

對應大綱

NATS 進階主題：Cluster + Supercluster + Leaf node / JetStream stream 設計。

下一步路由

回 NATS vendor 頁與 3.C1 Meta FOQS（跨區對照）。

引用源

How Form3 Built a Multi-Cloud Low-Latency Payments Service with NATS JetStream (Synadia blog)

3.C36 Intelecy：工業 IoT 即時感測 + 多租戶

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 edge gateway 從本地 KV 演進到 JetStream 的決策訊號。

觀察

Intelecy 在工廠端 gateway 接「數萬個 sensor」、要求 < 2 秒往返延遲做即時 ML 推論、需要多租戶安全隔離與雲端無鎖定方案。Gateway 把 process data 寫進 Synadia Cloud topic。

判讀

從 BoltDB 本地快取 → JetStream 持久化的演進、揭露「無 durable layer 時 edge gateway 自己要做存儲、加 JetStream 後可放掉本地 BoltDB」的決策訊號。

對應大綱

NATS 進階主題：JetStream stream 設計 / Subject-based ACL + 多租戶（sensor 隔離）。

下一步路由

回 NATS vendor 頁與 3.C37 MachineMetrics（同類對照）。

引用源

How Intelecy Optimizes Factory Processes with NATS, NGS and JetStream

3.C37 MachineMetrics：邊緣到雲端工廠資料管線

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明工業 IoT 完整的 edge-to-cloud NATS 整合（Leaf Node + JetStream + KV + Object Store + Auth）。

觀察

跨「數百個客戶廠區、數千台機台」的 Industrial IoT、單機產出最高 1000 Hz 採樣、工廠網路斷斷續續、Kinesis 等 cloud-only 工具無法跑在資源受限 edge 上。

判讀

用 Leaf Node 做 hub-and-spoke 把邊緣設備串到雲端、Edge 端用 JetStream 做本地持久化（取代 SQLite）抵抗網路斷線、用 KV store 做 config / 短期 cache、Object Store 派發 WASM 模組、Decentralized Auth 隔離客戶。揭露「broker 的功能集合」決定它能不能取代多套 edge 工具。

對應大綱

NATS 進階主題：Cluster + Supercluster + Leaf node / JetStream KV + Object Store / Subject-based ACL + 多租戶。

下一步路由

回 NATS vendor 頁與 3.C36 Intelecy（同類對照）。

引用源

MachineMetrics Customer Story (Synadia)

3.C38 Clarifai：NATS Streaming ML 平台非同步任務

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 NATS Streaming（JetStream 前身）的 queue group + at-least-once 在 ML worker pool 的角色。

觀察

Clarifai 做 custom model 訓練、任務從幾秒到幾分鐘、原本同步呼叫遇到 rolling deployment 會掉訊息。三週內把一個服務遷到 NATS、5 個月內擴展到 5 個服務、每日 100k+ 訊息、100% uptime。

判讀

用 NATS Streaming 的 at-least-once delivery + queue subscription group 做 worker pool、每個微服務連到三個獨立 NATS Streaming 實例做 fanout 隔離。揭露 ML 任務的長尾處理時間特別需要 at-least-once + redelivery、不能容忍 rolling deploy 掉訊息。

對應大綱

NATS 進階主題：JetStream consumer 設計（NATS Streaming 是前身）/ Queue groups。

下一步路由

回 NATS vendor 頁與 3.4 consumer 設計。

引用源

How Clarifai Uses NATS and Kubernetes for Machine Learning

3.C39 Choria：NATS 管 50 萬 server fleet

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 fire-and-forget RPC + scatter-gather pattern 是 NATS Core 的典型場景。

觀察

Choria 是 Puppet MCollective 的現代化替代品、目標管理數萬到數十萬節點的 fleet 同時下指令。評估過多個 broker、選 NATS 因為「單 binary、無 Zookeeper 依賴、Ruby client 品質好」、實測「單 server 300MB RAM 管 2000+ 機器」、4GB 節點可達 50 萬 server。

判讀

MCollective 的 fire-and-forget RPC 語意正好對應 NATS Core 的 stateless best-effort + request-reply pattern、用 wildcard subject + queue group 做 parallel scatter-gather RPC。揭露 server orchestration 場景不需要 persistence、Core NATS 已足夠。

對應大綱

NATS 進階主題：Request/Reply pattern / Queue groups / Cluster + Supercluster + Leaf node（Choria Federation Broker = 跨地理 federation）。

下一步路由

回 NATS vendor 頁與 3.1 broker basics。

引用源

NATS for the Marionette Collective (Choria)

Choria Architecture Docs

3.C40 Resgate：WebSocket-to-NATS realtime API gateway

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明「subject hierarchy 即 access control 邊界」的設計範例。

觀察

Resgate 把 NATS subject 暴露成 REST + WebSocket、客戶端跨多 Resgate 實例自動同步狀態、事件延遲 < 1ms。需要同時支援 pub-sub 跟 request-reply、選 NATS 因為「performance、simplicity、兩種模式都原生支援」。

判讀

subject 設計遵循 get.{service}.{resource} / event.{service}.{resource}.{event-type} 的命名規約、是「subject 階層當 schema」的典型範例。揭露 subject 命名是 NATS 的 API contract 起點、不是隨意命名。

對應大綱

NATS 進階主題：Request/Reply pattern / Subject-based ACL + 多租戶（subject hierarchy 即 access control 邊界）/ Core NATS vs JetStream（純 Core）。

下一步路由

回 NATS vendor 頁與 3.C26 GoCardless Hutch routing key（命名規約對照）。

引用源

Introducing Resgate

3.C41 i-flow：NATS 做 OT/IT 跨層整合 bus

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 OT/IT 整合場景的多工廠 leaf node 拓樸。

觀察

i-flow 是工業數據整合平台、每日 4 億筆 data operation、提供 200+ OT/IT 系統 connector、客戶含 Fortune 500 工廠（Bosch、Sto、Lenze）。

判讀

用 NATS 當 OT/IT 跨層整合 bus、邊緣端負責 connect / harmonize / publish。揭露多工廠場景該用 leaf node hub-and-spoke、不該每工廠自管 cluster。注意：此案例技術細節較淺、引用時要補其他案例的具體 stream / consumer 設計。

對應大綱

NATS 進階主題：Cluster + Supercluster + Leaf node（多工廠 leaf node 連 central）。

下一步路由

回 NATS vendor 頁與 3.C37 MachineMetrics（技術細節更深的對照）。

引用源

i-flow Case Study

3.C42 Bitso：Reliable Redis Streams 抽象 + 自建 DLQ

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 Redis Streams 沒有原生 DLQ、要在 application 層自建抽象。

觀察

Bitso 的 Order Engine 微服務需要 thousands of messages/sec/stream + 亞毫秒延遲、撐住 BTC 價格暴動的流量尖峰；先後評估 Kafka（latency）跟 SQS（vendor lock-in + latency）後選 Redis Streams、團隊本來就熟 Redis、已在 mission-critical service 跑超過半年。

判讀

自建 “Reliable Redis Streams” 抽象層（StreamRedisOperations adapter / ReliableStream interface / MessageReadingLoop）封裝 readMessages + readPendingMessages、加上 Redis Streams 沒有原生支援的 DLQ（N 次 retry 後路由）、走 idempotent processing 接受重複勝過遺失。揭露 Redis Streams 是「資料結構」、不是「broker 系統」、可靠性責任在 application 層。

對應大綱

Redis Streams 進階主題：Consumer group + PEL / XCLAIM + 失敗接管 / Sentinel + Cluster 可靠性。

下一步路由

回 Redis Streams vendor 頁與 3.4 consumer 設計。

引用源

The Redis Streams We Have Known and Loved

3.C43 Arcjet：Redis Streams 取代 Kafka 省 6 位數 $

Mon, 18 May 2026 00:00:00 +0000

Arcjet 用 Redis Streams 取代 Kafka 的案例揭露了中小規模場景下「Kafka 的 managed 成本 vs Redis Streams 的運維成本」的具體取捨 — 省下六位數年費的代價是自寫 retention 治理跟監控工具。

業務背景

Arcjet 是 security / bot detection 平台，處理每個 HTTP request 的安全判斷。核心需求是 low-latency 的請求處理 — 安全判斷要在幾毫秒內完成，不能拖慢使用者的 request。

系統架構中有一段 event-driven pipeline 負責把安全事件從 detection layer 傳遞到 analytics 跟 alerting。原本評估用 Kafka 做這段 pipeline，但 managed Kafka 的年費落在六位數美金 — 對 Arcjet 的流量規模跟業務階段，這個成本不合理。

Arcjet 的基礎設施已經有 Redis 做 cache。把 Redis 從純 cache 升級到 cache + Streams，利用既有的 Redis infrastructure 承擔 event pipeline，總成本約 $1k/year。

技術挑戰

Redis Streams 沒有自動 retention

Kafka 的 retention 是內建功能 — 設定 log.retention.hours 後 broker 自動刪除到期資料。Redis Streams 沒有內建的自動 retention — stream 資料會持續累積，直到手動 XTRIM 或 XDEL。

在生產環境下，不處理 retention 意味著 Redis 的記憶體持續成長，最終觸發 eviction policy 或 OOM。對 Arcjet 來說 Redis 同時做 cache 跟 Streams，Streams 的記憶體成長會擠壓 cache 的可用空間。

Consumer group 進度追蹤

Redis Streams 的 consumer group 會追蹤每個 consumer 的讀取進度（last delivered ID）。做 XTRIM 時需要確保不刪除尚未被所有 consumer group 確認的訊息 — 否則 consumer 會丟失未處理的事件。

Kafka 的 log compaction 跟 retention 自動處理這個問題（consumer offset 以前的 segment 才會被清理）。Redis Streams 需要 application 自己確認所有 consumer group 的進度，再決定 trim 的位置。

單機 Redis 的可靠性邊界

Redis 的持久化機制（RDB snapshot + AOF）提供的是 best-effort 的持久性，跟 Kafka 的 replication-based 持久化保證不同。Redis crash + restart 時，AOF 的最後幾筆寫入可能遺失（取決於 appendfsync 設定）。

對 Arcjet 的安全事件場景，偶爾丟失幾筆事件可以接受（security detection 的結果是即時判斷，事後的 analytics 容忍小量遺失）。如果場景是金融交易或 audit log，這個可靠性邊界就不夠。

解法與取捨

自建 Janitor process

Arcjet 自寫了一個 Janitor process 處理 Redis Streams 的 retention：

定期檢查每個 stream 的長度（XLEN）

查詢所有 consumer group 的 pending entry list（PEL）跟最後確認位置

計算安全的 trim 位置（所有 consumer group 都已確認的最舊 ID）

執行 XTRIM stream MINID 刪除已確認的舊資料

Janitor 的執行頻率根據實際處理速度（~100 msgs/min）設定 — 不需要非常頻繁，但不能完全不跑。

取捨

面向 Managed Kafka Redis Streams + Janitor

年成本六位數 USD ~$1k USD

Retention 管理內建自動自寫 Janitor

持久化保證 Replication-based（強） AOF/RDB（best-effort）

Consumer group 原生支援、offset commit 自動原生支援、但 trim 要手動協調

生態工具 Kafka Connect、Schema Registry 無（自建）

擴展性 Partition 水平擴展單 Redis 受限、Cluster 模式複雜

運維知識 Kafka 運維（或交給 managed） Redis 運維 + 自建 Janitor 維護

適用邊界

Redis Streams 取代 Kafka 的適用邊界：

流量規模：每分鐘數百到數千筆（超過每秒數萬筆需要 Redis Cluster 或多 stream）

持久化要求：容忍偶爾丟失少量訊息（best-effort）

已有 Redis：不需要額外部署 Redis、利用既有 infrastructure

Kafka 功能不需要：不需要 Kafka Connect、Schema Registry、long-term retention、跨 region replication

超過這些邊界時，Redis Streams 的自建成本（Janitor + 監控 + retention 治理 + 可靠性補償）會逐漸接近 managed Kafka 的費用，成本優勢消失。

回寫教材的連結

Redis Streams vendor 頁：XCLAIM / PEL recovery 的進階主題

Kafka vendor 頁：成本對照 — Kafka 的固定成本高但功能完整

3.2 durable queue：Redis Streams 的持久化機制跟 Kafka 的 replication 在 durability 光譜上的位置

3.1 broker basics：broker 選型時成本是一級決策維度

判讀徵兆

讀者在自己的系統看到以下訊號時，應該回讀本案例：

Managed Kafka 的月帳單跟實際流量量級不成比例（低流量但高成本）

已有 Redis infrastructure、考慮把 event pipeline 合併到 Redis

Event pipeline 的流量在每秒數百筆以下、持久化要求是 best-effort

Redis 記憶體持續成長但不確定 Streams 的 retention 有沒有正確執行

引用源

Replacing Kafka with Redis Streams

3.C44 Harness：CD 微服務 async state transfer

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 Redis Streams 在 production 落地的三類經常性議題。

觀察

Harness 為 CD 微服務之間的 async state transfer 採用 Redis Streams、避開「每個 service 都要知道怎麼跟其他 service 講話」的 brittle HTTP 模式；初始規模 a few thousand msgs/min、Kafka 在此規模 overkill、又能複用已存在的 Redis 基建。

判讀

落地後揭露三類問題：監控缺口（自寫 app 追 consumer lag）、需要主動 MAXLEN truncation、head-of-line blocking 要用 XAUTOCLAIM 重派並設計 redelivery 策略。揭露「Redis Streams 適合中小規模」這個聲明、實際包含三件 production work。

對應大綱

Redis Streams 進階主題：Consumer group + PEL / XCLAIM + 失敗接管 / Memory + retention 取捨。

下一步路由

回 Redis Streams vendor 頁與 3.5 紅隊章。

引用源

Event-Driven Architecture with Redis Streams

3.C45 Klaxit：Rust + Redis Streams 處理 Heroku Logplex

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 Redis Streams 在高吞吐 log ingestion 的 consumer group 分流。

觀察

Klaxit 用 Redis Streams 處理 Heroku Logplex 匯流的 log、自動偵測並修復 Heroku 平台層 perf 問題（在使用者察覺前）；正式 production 跑超過 6 個月、是團隊第一個 Rust project。

判讀

揭露 high-throughput log ingestion 對 Redis Streams 的壓力：用 consumer group 分流到多個 Rust worker、需要長時間穩定運轉。揭露 client library 品質決定 Redis Streams 在小眾語言（Rust）的可行性。

對應大綱

Redis Streams 進階主題：XADD / XREAD / XREADGROUP 操作 / Consumer group + PEL。

下一步路由

回 Redis Streams vendor 頁與 3.4 consumer 設計。

引用源

Consuming High-Throughput Redis Streams with Rust

3.C46 Learning.com：Redis 事件源退場（反例）

Mon, 18 May 2026 00:00:00 +0000

這個反例的核心責任是說明 Redis 不適合長期事件儲存、揭露「Redis-as-event-store」的退場路徑。

觀察

Learning.com 把 microservice 之間的 event store 放 Redis 上、一年內累積到 GB/週的 memory 成長、AOF fsync + EBS 磁碟 I/O 變成 latency 痛點。

判讀

揭露「Redis 不適合長期事件儲存」的退場路徑：event 移到 PostgreSQL、Redis 留做訊息佇列 + snapshot；中途靠 syncTimeout 調整、提升 IOPS、調整 AOF fsync 緩解。揭露 broker 選型要看「長期存儲是 source-of-truth 還是 transient」。注意：此文討論的是 Redis-as-event-store 整體、Streams 是其中一塊、引用時要小心區分。

對應大綱

Redis Streams 進階主題：Memory + retention 取捨 / Sentinel + Cluster 可靠性（持久化選型）。

下一步路由

回 Redis Streams vendor 頁與 3.3 outbox pattern。

引用源

A Year with Redis Event Sourcing - Lessons Learned

3.C47 PHP 微服務：Redis Streams + S3 hybrid storage

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 in-memory 訊息的 payload 限制要靠 hybrid storage 解決。

觀察

PHP 雙微服務之間的可靠通訊、Kafka 在 PHP 生態工具薄弱、團隊無 Kafka 經驗、production 跑數月後寫此文；明確覆蓋 XADD / XREADGROUP / consumer group / MAXLEN / MINID / XDEL / XACK / XACKDEL（Redis 8.2+）/ XTRIM。

判讀

揭露 in-memory 訊息的 payload 限制：用 payload compression + S3 hybrid storage（大 payload 存 S3、stream 只放 reference）；用 MAXLEN/MINID 控制 stream 成長。揭露 broker 選型常被「語言生態 client 品質」主導、不是純技術 feature。注意：作者是個人工程師、production 經驗但非知名公司。

對應大綱

Redis Streams 進階主題：XADD/XREAD/XREADGROUP 操作 / Retention (MAXLEN/MINID) / Memory + retention 取捨。

下一步路由

回 Redis Streams vendor 頁與 3.C16 Robinhood Faust（語言生態對照）。

引用源

Beyond the Hype: Why We Chose Redis Streams Over Kafka for Our Microservices

3.C48 Airbnb Dynein：SQS 分散式延遲任務排程

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 SQS at-least-once + DLQ 模型在工作排程的對齊邏輯。

觀察

Airbnb 構建 Dynein 分散式延遲任務排程系統取代 Resque（受限於單 Redis 實例）。明確選 SQS、利用 at-least-once delivery、dead letter queue、individual message acknowledgment、access control 與 encryption-at-rest。每個 scheduler instance 達 ~1000 QPS、可水平擴展。

判讀

at-least-once 對工作排程「不丟資料」假設足夠、SQS wrap DynamoDB 處理 > 15 分鐘 delay、DLQ 分離「短暫失敗」與「永久毒訊息」。揭露 managed queue 在工作排程的取捨：trade ordering 換 scaling。

對應大綱

SQS 進階主題：Standard vs FIFO / DLQ 設計。

下一步路由

回 SQS vendor 頁與 3.2 durable queue。

引用源

Dynein: Building a Distributed Delayed Job Queueing System

3.C49 Airbnb Inspekt：Visibility timeout 當 retry budget

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 visibility timeout 不只是「處理時間」、可當隱式的 retry 機制。

觀察

Airbnb 的 Inspekt 隱私資料掃描系統用 SQS task queue 派發 scan task（每 table/object/app 一個 message）、Scanner nodes 水平 pull。“each message reappears N times back into the queue until a scanner node deletes it” 是 visibility timeout 在實戰的應用。

判讀

用 message 重現次數做 retry budget、scanner 失敗時不用自管 retry table。揭露 SQS 的「不刪除即重現」是設計、不是 bug、可以當隱式 retry 機制用。

對應大綱

SQS 進階主題：Visibility timeout + in-flight messages。

下一步路由

回 SQS vendor 頁與 3.4 consumer 設計。

引用源

Automating Data Protection at Scale Part 2

3.C50 Capital One：Visibility timeout 設計與 Lambda event source

Mon, 18 May 2026 00:00:00 +0000

Capital One 的 SQS + Lambda 實務揭露了 visibility timeout 的雙邊風險 — 太短導致重複處理、太長延遲 retry — 以及 Lambda event source mapping 的 scaling 行為跟直覺不同的地方。

業務背景

Capital One 是美國大型金融機構，tech blog 公開分享了 SQS + Lambda 的 event-driven 架構實踐。金融場景的 message 處理對正確性要求極高 — 重複處理一筆交易跟遺失一筆交易的代價都是具體的金錢損失。

SQS 是 AWS 原生的 managed queue，Lambda 是 serverless compute。兩者搭配的 event source mapping 是 AWS 上最常見的 event-driven 入門架構 — 看起來簡單（SQS → Lambda 自動觸發），但 visibility timeout 跟 Lambda scaling 的互動有不少實務細節。

技術挑戰

Visibility timeout 的雙邊風險

SQS 的 visibility timeout 定義了「consumer 取走訊息後，其他 consumer 多久之後才能再看到這筆訊息」。它是 SQS 的核心容錯機制 — consumer 處理失敗（crash、timeout）時，visibility timeout 到期後訊息重新出現在 queue 裡，讓其他 consumer 接手。

Timeout 太短：consumer 還在處理中、visibility timeout 已到期、另一個 consumer 取走同一筆訊息開始處理 — 重複處理。金融場景的重複處理可能導致重複扣款或重複退款。

Timeout 太長：consumer 處理失敗、需要等很久 visibility timeout 才到期、訊息才重新出現 — retry 延遲。原本幾秒就能被其他 consumer 接手的訊息，要等 15 分鐘才 retry。

Capital One 的實務建議是 visibility timeout 設為「最大預期處理時間 + 少量緩衝」。例如：最大處理時間 30 秒 → visibility timeout 設 45 秒。

Lambda event source mapping 的 scaling 行為

Lambda 跟 SQS 的整合透過 event source mapping — Lambda 服務自動從 SQS long polling 取訊息、觸發 Lambda function。使用者不需要自己寫 polling 邏輯。

Capital One 揭露的 scaling 行為跟「Lambda 自動擴展」的直覺不同：

初始狀態：Lambda 啟動 5 個 long polling connection（poller）

Scale up：每分鐘最多新增 60 個 poller instance（每個 instance 處理一批 message）

上限：最多 1000 個並行 batch

這意味著突發流量（queue 瞬間湧入大量訊息）的消化速度不是即時的 — Lambda 需要數分鐘才能 scale 到足夠的並行度。在這段 ramp-up 期間，queue depth 會持續增長。

Batch size 跟 visibility timeout 的互動

Lambda event source mapping 預設 batch size = 10 — 一次取 10 筆訊息、用一個 Lambda invocation 處理。如果 batch 中的某一筆處理特別慢，整個 batch 的處理時間會被拉長。

Visibility timeout 要覆蓋整個 batch 的處理時間（包含最慢的那一筆），否則 batch 還在處理中、早期取走的訊息 visibility timeout 到期、被其他 poller 重新取走 — 導致重複處理。

解法與取捨

設計參數建議值取捨

Visibility timeout 最大處理時間 + 緩衝（例 45 秒）太短重複、太長延遲 retry

Batch size 依處理時間變異度調整 Batch 大省 invocation 費用、但延長 visibility 需求

DLQ 設定 maxReceiveCount（例 3 次）避免 poison message 無限 retry

Concurrency limit 依下游承受能力設定避免 Lambda 爆量壓垮下游 DB

Idempotency 作為安全網

Visibility timeout 無法完全避免重複處理（網路分區、Lambda timeout 等邊界條件）。Capital One 的做法是在 Lambda function 內實作 idempotency — 用 message ID 做去重，確保同一筆訊息被多次處理時結果相同。

Idempotency 把 visibility timeout 的精確度要求降低 — 即使偶爾重複處理，業務結果仍然正確。Visibility timeout 仍然需要合理設定（降低不必要的重複 invocation 成本），但 idempotency 是「即使設錯也不會造成業務錯誤」的安全網。

回寫教材的連結

SQS vendor 頁：visibility timeout、in-flight limit、Lambda event source 的進階主題

3.6 processing recovery semantics：at-least-once 語意下的 consumer 端 idempotency

3.2 durable queue：visibility timeout 是 SQS 的 delivery guarantee 機制

3.8 queue consumer retry replay handoff：DLQ + maxReceiveCount 的 retry 升級策略

判讀徵兆

讀者在自己的系統看到以下訊號時，應該回讀本案例：

SQS + Lambda 架構中出現訊息重複處理（CloudWatch 的 ApproximateNumberOfMessagesNotVisible 跟 NumberOfMessagesReceived 比例異常）

Lambda function 的 timeout 跟 SQS visibility timeout 的關係沒有明確設計

突發流量時 queue depth 持續增長、Lambda 的 concurrent execution 沒有立刻跟上

Batch processing 中的慢訊息拖慢整個 batch、造成 visibility timeout 到期

引用源

Using AWS Solutions for Event-Driven Serverless Architectures

3.C51 Atlassian JiRT：Kinesis + SQS subscription

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 SQS 作為 streaming source 的 per-consumer subscription 模式。

觀察

Atlassian 內部 event bus StreamHub 底層用 Kinesis、但「每個 consumer 自己準備 SQS queue 接收 event」。JiRT 即時服務透過此模式把輪詢式（~1 min）改成 event-driven（秒級）。

判讀

在 Kinesis 上面疊 SQS 讓 consumer 各自設定 retention、各自獨立 visibility timeout。揭露「stream + per-consumer queue」是 fan-out 場景的常見複合 pattern、不是 streaming vs queue 二選一。

對應大綱

SQS 進階主題：Standard vs FIFO / SQS 作為 fan-out subscriber。

下一步路由

回 SQS vendor 頁與 Kafka vendor 頁（streaming + queue 對照）。

引用源

Using an Event-Driven Architecture to Improve Jira Software Responsiveness

3.C52 Nielsen：Spark on EKS 雙 SQS 工作流

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 SQS queue depth 作為 autoscale 訊號的真實案例。

觀察

Nielsen 每日處理 25 TB / 30 billion event。架構用兩個 SQS queue：work queue（待處理工作項）+ completion queue（回報完成）。Lambda 從 DB 拉檔案、組成 work item 推進 work queue、EKS pod 拉取處理、處理完寫 completion queue。基於 queue depth 自動擴 pod。

判讀

不用直接 Lambda invoke（pod 上跑長時間 Spark workload）、queue depth 當 backlog signal driving autoscale。揭露長 workload 場景該用 pod + queue depth、不是 Lambda function。

對應大綱

SQS 進階主題：CloudWatch metric + alarm / Standard queue / 長 workload autoscaling。

下一步路由

回 SQS vendor 頁與 3.C22 Trivago KEDA（lag-based autoscale 對照）。

引用源

How Nielsen Uses Serverless Concepts on Amazon EKS for Big Data Spark Workloads

3.C53 FINRA：S3 → SQS notification 大檔上傳

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 S3 event notification 是 SQS 最經典 trigger、合規場景的 IAM 多層設定。

觀察

FINRA 金融監管機構、處理 broker-dealer 上傳大檔。Large File Service 用 S3 → SQS 通知模式：使用者上傳完 loading dock bucket、S3 推 SQS message 給 LFS、移檔後再推 “file available” SQS message 給下游。

判讀

S3 通知是 SQS 最經典 trigger、KMS + bucket policy + queue 權限的合規場景（金融業要保留稽核軌跡）。揭露金融場景的 IAM 設計不是一道權限、是多層稽核軌跡。

對應大綱

SQS 進階主題：SQS + Lambda event source / IAM + Cross-account。

下一步路由

回 SQS vendor 頁與 7 security 模組。

引用源

FINRA Large File Service

3.C54 Twitch EventSub：SNS+SQS fan-out 給第三方

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 SNS-SQS fan-out + dispatcher pattern 的實戰。

觀察

Twitch 內部 Event Bus 發佈 ~1660 events/sec 到 SNS。EventSub（給第三方應用訂閱 Twitch 事件）用 SQS 接收 async notification、再由 Dispatcher fan-out 給各訂閱者。

判讀

fan-out 後每個 consumer 要自己一個 queue。揭露 SNS → SQS 是 AWS 生態的 fan-out 標配、SQS 是第三方訂閱的 buffer 層、Dispatcher 是 application 級別的分發責任。

對應大綱

SQS 進階主題：Standard queue + SQS + Lambda / SNS-SQS fan-out。

下一步路由

回 SQS vendor 頁與 3.C51 Atlassian JiRT（subscription 對照）。

引用源

Twitch State of Engineering 2023

3.C55 SmugMug：SQS 驅動可重放搜尋管線

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 SQS 作為「workload generator」的分散式平行化角色。

觀察

SmugMug 用 SQS 兩種模式：(1) backfill — script 推 DynamoDB scan-segment 指令進 SQS、Lambda 拉取做平行掃描寫 OpenSearch、(2) 鏡像查詢 — production query 推副本 SQS、Lambda replay 到 replica domain。每小時可 index > 1 billion document、不影響 production。

判讀

SQS 作為「workload generator」分散式平行化、不需協調 worker 數量。揭露 SQS 不只是「事件 queue」、也是「並行任務分散」的協調基礎。

對應大綱

SQS 進階主題：Standard queue / Long polling / SQS + Lambda event source。

下一步路由

回 SQS vendor 頁與 3.4 consumer 設計。

引用源

SmugMug’s Durable Search Pipelines for Amazon OpenSearch Service

3.C56 PostNL EBE：完整 DLQ + retention + redrive 設計

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是業內真正完整的 DLQ + redrive + retention 設計案例、不是 demo 規模。

觀察

PostNL（荷蘭最大物流商、每天 6.9M 信件 + 1.1M 包裹）的 Event Broker E-commerce 系統每天處理 ~10M message。完整列出 SQS 配置：每 producer/consumer 隔離 stack（最小爆炸半徑）、3 天 replay via EventBridge、exponential backoff with jitter、24 小時內最多 retry 100 次、final DLQ 允許 consumer 自己 redrive。max receive count 設 1 觸發 DLQ 告警。

判讀

「每 producer/consumer 隔離 stack」是 mission-critical 系統的 blast radius 設計、不只是 queue 配置。揭露 production-grade SQS 設計含三件事：隔離 + retry 政策 + redrive 流程。

對應大綱

SQS 進階主題：DLQ 設計 / CloudWatch alarm / Cost 模型。

下一步路由

回 SQS vendor 頁與 3.C9 反例：語義誤配。

引用源

Designing a Mission-Critical Serverless Application for High Resilience

3.C57 Lob：自家 fork @lob/sqs-consumer 修 FIFO bug

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明真實 production library 維護成本、FIFO consumer 的隱性 bug。

觀察

Lob（programmatic mail API）原本用 bbc/sqs-consumer 但被鎖在 AWS SDK v2。他們 fork 出 @lob/sqs-consumer：支援 SDK v3（模組化 import 縮 bundle、TypeScript 一級支援、async/await）、修正原 library 對 FIFO queue 的 bug。SQS 用在 Lob API 跟其他內部 service。

判讀

不能只靠 SDK 原生 API、SDK 升級會逼出 library 維護議題。揭露「FIFO queue 跟 standard queue 的 client 行為差異」是 library 層的隱性 bug 來源。

對應大綱

SQS 進階主題：Standard vs FIFO / Long polling / Client library 維護。

下一步路由

回 SQS vendor 頁與 3.4 consumer 設計。

引用源

@lob/sqs-consumer

3.C58 Twilio：SQS 緩衝高流量 webhook

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 webhook → SQS buffer 是 Twilio 推薦的 pattern、FIFO TPS 上限的分片實務。

觀察

Twilio 自己 engineering blog 教使用者用 SQS 緩衝來自 Twilio 的高流量 SMS / status callback webhook（避免下游 app 來不及處理）。用 separate queue 區分 SMS vs status callback、long polling 減少空 API call、特別點出 FIFO 300 TPS 上限要分 queue。

判讀

Webhook 是 push、下游可能來不及、SQS 當 buffer 是常見 pattern。揭露 FIFO 的 300 TPS 上限是 hard limit、要設計分片才能擴張。

對應大綱

SQS 進階主題：Long polling / Standard vs FIFO。

下一步路由

回 SQS vendor 頁與 3.2 durable queue。

引用源

Handling High Volume Inbound SMS and Webhooks with Twilio Functions and Amazon SQS

3.C59 Rapid7：SQS 100 億 message/day 規模

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是建立 SQS 在 10 billion+/day 規模下的成本結構與量級參考點。

觀察

Rapid7 Platform Software Architect 公開引述：「SQS 是我們架構的關鍵元件、讓我們 scale 到處理 10s of billions of messages per day。」是 AWS 官方文中具名客戶 quote、非 marketing 概括。

判讀

SQS 在百億訊息/日規模下仍可用、是 scale 的具體量級參考點。揭露 SQS request-based 計費在這個規模下、cost 模型該被認真評估。

對應大綱

SQS 進階主題：Cost 模型 / Standard queue。

下一步路由

回 SQS vendor 頁與 0.6 成本取捨。

引用源

Amazon SQS — 15 Years and Still Queueing

3.C60 Spotify：Event Delivery 從 Kafka 遷到 Pub/Sub

Mon, 18 May 2026 00:00:00 +0000

Spotify 把全球 event delivery 從 Kafka 遷到 Cloud Pub/Sub 的案例揭露了大規模 pull subscription 的工程現實 — at-least-once 語意意味著應用層去重不可省。

業務背景

Spotify 的 Event Delivery 系統負責把所有使用者行為事件（播放、搜尋、推薦互動、廣告曝光）從客戶端經由資料管線送到下游消費者。事件是推薦引擎、A/B test、廣告計費跟 analytics 的核心輸入。

遷移到 GCP Pub/Sub 後的系統規模：每個 event type 一個 topic、~15 個 microservice 跑在 ~2500 VM 上、Q1 2019 高峰 8M events/sec、每日 350 TB raw event 流量。遷出 Kafka 的動機跟技術評估見 3.C20 Spotify 遷出 Kafka（反例）。

技術挑戰

At-least-once 語意下的重複

Cloud Pub/Sub（早期版本）提供 at-least-once delivery — 同一筆訊息可能被 deliver 多次。在每日 350 TB 的流量下，「偶爾重複」的頻率足以影響 analytics 數據跟廣告計費的準確性。

Pub/Sub 的重複來源有兩個：ack deadline 到期前 consumer 還沒處理完、訊息被重新 deliver 給其他 consumer；以及 Pub/Sub backend 的內部 redelivery（罕見但非零）。

Pull subscription 的流控

Pull subscription 讓 consumer 主動從 Pub/Sub 拉取訊息（vs push subscription 由 Pub/Sub 推送到 HTTP endpoint）。Pull 的好處是 consumer 可以控制自己的消費速度，避免被推送壓垮。

大規模 pull subscription 的挑戰在於流控的精細度 — 每個 consumer VM 要設定合理的 maxOutstandingMessages 跟 maxOutstandingBytes，太大會讓 consumer 記憶體不足、太小會浪費 Pub/Sub 的吞吐能力。Spotify 的 2500 VM 各自獨立做 pull，需要在 fleet 級別保持流控的一致性。

每個 event type 一個 topic 的治理

Spotify 按 event type 建立 topic（例如 play-event、search-event、ad-impression）。Event type 數量成長後，topic 數量跟著增長。每個 topic 需要獨立的 subscription、monitoring、ack deadline 設定跟 retention policy。

Topic 治理的工程問題是「誰 own 這個 topic、schema 變更怎麼協調、retention 該設多久」。Spotify 自建了 event delivery 平台層（Event Delivery Platform）來管理 topic lifecycle — 包括 topic 建立 / 刪除的 self-service API、schema registry、consumer group 管理。

解法與取捨

自建 deduplication 層

Spotify 在 consumer 端自建去重機制。每筆 event 帶 unique event ID，consumer 在處理前查 dedup store（記憶體 + 外部 cache）確認是否已處理過。已處理的 event 直接 ack、跳過處理邏輯。

Dedup store 的挑戰是大小跟 TTL — 要記住多久以前的 event ID 才夠。TTL 太短會漏掉 late redelivery（Pub/Sub 在 ack deadline 之後才重新 deliver）、TTL 太長 dedup store 太大。Spotify 用滑動視窗（retention 跟 ack deadline 的倍數）設定 TTL。

取捨

面向 Pub/Sub + 自建 dedup 自管 Kafka 0.8+

運維成本低（Pub/Sub 全託管）高（自管 broker × 多 region）

語意保證 At-least-once + 應用層 dedup At-least-once（idempotent 0.11+）

跨 region replication 原生支援需要 MirrorMaker 或自建

流控精細度 Pull subscription 可控 Consumer group 自動分配

Topic 治理需要自建平台層 Kafka 生態工具（Confluent 等）

Dedup 成本額外的 cache / store 成本 Idempotent producer 減少需求

自建 dedup 的成本是 Spotify 選 Pub/Sub 的額外付出。這個代價在託管方案的運維節省面前被接受 — 維護一個 dedup cache 的成本遠低於維護跨 5 個 datacenter 的 Kafka broker fleet。

回寫教材的連結

Pub/Sub vendor 頁：push vs pull subscription、ack deadline、ordering 跟 DLT 的進階主題

3.C20 Spotify 遷出 Kafka：遷出 Kafka 的動機跟決策判準

3.6 processing recovery semantics：at-least-once 語意下的 dedup 策略

3.7 event contract replay boundary：event schema 跟 topic lifecycle 的治理

判讀徵兆

讀者在自己的系統看到以下訊號時，應該回讀本案例：

使用 GCP Pub/Sub 且下游消費者偶爾處理到重複事件

Pull subscription 的 consumer 記憶體使用不穩定、maxOutstandingMessages 設定不合理

Topic 數量持續增長但缺少統一的 lifecycle 管理

從自管 Kafka 遷移到 GCP Pub/Sub 的評估階段

引用源

Spotify’s Event Delivery — Life in the Cloud

3.C61 Spotify：Autoscaling Pub/Sub consumer 反效果

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明「subscription backlog 不等於 consumer healthy」、autoscaling 跟 ack deadline 的耦合風險。

觀察

下游 Cloud Storage export 失敗時、consumer 不 ack 仍持續消耗 CPU 處理同批訊息、造成 autoscaling 把 CPU 越拉越高的反效果；解法是 exponential backoff 抑制 CPU 消耗。

判讀

「Subscription backlog 不等於 consumer healthy」— 訊息未 ack 累積跟 autoscaling 的耦合風險。揭露 autoscale signal 該看「處理成功率」而非「CPU + backlog」。

對應大綱

Pub/Sub 進階主題：Ack deadline / autoscaling signal 設計。

下一步路由

回 Pub/Sub vendor 頁與 3.5 紅隊章。

引用源

Autoscaling Pub/Sub Consumers

3.C62 Spotify：Pub/Sub → GCS reliable export

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 ack 是 end-to-end commit 信號、不是 buffer-flush 信號。

觀察

Consumer 只在下游 Completionist 回 200 OK 才 ack 回 Pub/Sub、並用「Oldest Unacknowledged Message」metric 判斷 hourly bucket 何時可安全關閉；ack semantics 直接綁定下游 commit。

判讀

ack 是 end-to-end commit 信號、不是 buffer-flush 信號。揭露為什麼後來原生 GCS subscription 有價值（Spotify 早期沒有原生、自建管線）。

對應大綱

Pub/Sub 進階主題：Ack deadline / Cloud Storage subscription（早期無原生、自建對照）。

下一步路由

回 Pub/Sub vendor 頁與 3.7 event contract / replay boundary。

引用源

Reliable Export of Cloud Pub/Sub Streams to Cloud Storage

3.C63 Mercari Actionable History：ack deadline 是 batch-level

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是揭露 Pub/Sub client lib 「ack deadline 是 batch-level」這個真實的工程陷阱。

觀察

Merpay 支付流水帳服務用 Pub/Sub 做 async messaging、靠 nack 控制處理順序；踩到「ack deadline 是整批 batch 而非單訊息」、acked 訊息會跟同 batch 其他 expired/nacked 訊息一起 redeliver 的設計細節。

判讀

「ack deadline 是 batch-level」是 Pub/Sub client lib 真實的工程陷阱；idempotency 是處理 duplicate 的必要設計、新出的 exactly-once delivery 才有機會降低重複量。揭露 client lib 的批次語意會「污染」單訊息 ack。

對應大綱

Pub/Sub 進階主題：Ack deadline / Push vs Pull / Ordering key（exactly-once / ordering 章節）。

下一步路由

回 Pub/Sub vendor 頁與 3.C9 反例：語義誤配。

引用源

Merpay Actionable History: Displaying Millions of Payments with Lightning Speed

3.C64 Mercari Item Feed：DLT 防 poison message 阻塞

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 DLT 在防止 poison message 阻塞 pipeline 的角色。

觀察

商品 feed 同步用 pull subscription + 自家 batch requester、成功時 ack 整批、失敗時 nack 讓 Pub/Sub 重送；重試多次仍失敗則送 Dead-letter topic、後續訊息優先處理；topic 同時當突發流量的緩衝。

判讀

直接示範 DLT 在防止 poison message 阻塞 pipeline 的角色、以及把 topic 當 load-leveling queue 的設計。揭露「topic = buffer + dispatch」雙重角色。

對應大綱

Pub/Sub 進階主題：Dead-letter topic / Push vs Pull subscription。

下一步路由

回 Pub/Sub vendor 頁與 3.C56 PostNL EBE（DLQ 設計對照）。

引用源

Mercari’s Seamless Item Feed Integration

3.C65 Mercari LINE：Pull subscription 對齊外部 RPS

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明「下游有 RPS 限制」是 Pull subscription 勝過 push 的典型情境。

觀察

Braze webhook 進來後轉成 Pub/Sub event、下游 LINE worker pull subscription「精確控制每秒處理訊息數」、因為外部 LINE API 有 RPS 限制。

判讀

push 會把流量瞬間打到 endpoint、pull 可由 consumer 自行 throttle。揭露 push vs pull 不是「實作偏好」、是「下游能否接受 push 衝擊」的判讀。

對應大綱

Pub/Sub 進階主題：Push vs Pull subscription。

下一步路由

回 Pub/Sub vendor 頁與 3.C58 Twilio webhook buffer（webhook + buffer 對照）。

引用源

Flow Control Challenges in Mercari’s LINE Integration

3.C66 Mercari B2C：自建 PubSub gRPC Pusher

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明原生 push subscription 在特定場景的限制、逼出自建層的工程選擇。

觀察

全球商品同步系統、自建 in-house「PubSub gRPC Pusher」（Pub/Sub 的 gRPC 版 push subscription）解決高吞吐 / 長 job / 彈性 RPS；同時用 message ID 做去重、timestamp 驗證解決重複 + 亂序。

判讀

原生 HTTP push subscription 在「長 job + 高吞吐 + 動態 rate」場景的限制、逼出自建層的工程選擇。揭露 managed broker 的「原生功能」不是所有場景的終點。

對應大綱

Pub/Sub 進階主題：Push vs Pull subscription / Ordering key（亂序的 application-level 處理）。

下一步路由

回 Pub/Sub vendor 頁與 3.4 consumer 設計。

引用源

From Local to Global: Building Seamless B2C Product Integration at Mercari

3.C67 Niantic Pokémon GO：Pub/Sub 當 telemetry ingest

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明大規模遊戲 telemetry 的 ingest backbone 設計。

觀察

Pokémon GO frontend 把玩家事件 publish 到 Pub/Sub topic 餵分析 pipeline、再進 BigQuery streaming；高峰 ~1M TPS、Pub/Sub 是 managed service 因此 SRE 維運成本低。

判讀

Pub/Sub 在 publisher 突發流量下作為 elastic buffer、下游 BigQuery streaming 是常見組合。揭露「managed service 的 SRE 成本」是大規模遊戲場景的關鍵選型理由。

對應大綱

Pub/Sub 進階主題：BigQuery subscription（原生 BQ subscription 出現前的 Dataflow pattern）。

下一步路由

回 Pub/Sub vendor 頁與 3.C68 Wix clickstream（同類組合）。

引用源

How Pokémon GO Scales to Millions of Requests

3.C68 Wix：Pub/Sub decouple + Dataflow + BQ archive

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是「Pub/Sub buffer + Dataflow stream processor + BQ archive」的教科書組合。

觀察

App Engine 收 clickstream → 進 Cloud Pub/Sub queue、再由 Dataflow streaming 處理進 Datastore、dashboard 端到端 latency < 100ms；BigQuery 並行存 raw data 做 recovery。

判讀

「Pub/Sub 當 decouple buffer + Dataflow 當 stream processor + BigQuery 當 raw archive」的 textbook 組合、可作為 BigQuery subscription 出現前的對比 case（為什麼後來原生 BQ subscription 能省掉 Dataflow 中介層）。

對應大綱

Pub/Sub 進階主題：BigQuery subscription / Push vs Pull。

下一步路由

回 Pub/Sub vendor 頁與 3.C67 Niantic Pokémon GO（同類組合）。

引用源

Wix Customer Story

3.C69 Twitter Ad Engagement：把 stream 切成多 topic 做 partition

Mon, 18 May 2026 00:00:00 +0000

這個案例的核心責任是說明 Pub/Sub 沒有 Kafka-style partition 概念下的應對策略。

觀察

Twitter 把 on-prem 服務的 Avro-formatted 訊息 push 到 Pub/Sub（兩條 stream、較不關鍵但量大的那條 ~80K msg/s 切成 6 個 topic）、下游用 Dataflow + Beam 處理進 Bigtable / BigQuery。

判讀

「把單一 high-volume stream 切成多 topic 做 partition」是 Pub/Sub 沒有 Kafka-style partition 概念下的應對策略。揭露 Pub/Sub 跟 Kafka 的選型差異不是 feature parity、是不同的擴張模型。

對應大綱

Pub/Sub 進階主題：Schema enforcement（Avro 是常見 schema 候選）/ Ordering key（topic 切分 vs ordering key 的取捨）。

下一步路由

回 Pub/Sub vendor 頁與 Kafka vendor 頁（partition 對照）。

引用源

Modernizing Twitter’s Ad Engagement Analytics Platform

Consumer Group

Mon, 22 Jun 2026 00:00:00 +0000

Consumer group 的核心概念是「一組 consumer 共同承擔某個 stream 或 topic 的處理進度」。同一 group 內的 consumer 分攤工作（每筆訊息只被 group 內的一個 consumer 處理）；不同 group 可以各自獨立處理同一批事件，實現 fan-out。

概念位置

Consumer group 是事件流跟多服務訂閱的協調模型。分析服務、搜尋索引服務、通知服務可以用不同 group 讀同一 topic — 每個 group 有自己的 offset 進度跟 consumer lag。

在 Kafka 中，consumer group 是一級概念、由 group coordinator 管理 partition 分配（rebalance）。在 Redis Streams 中對應 consumer group（XREADGROUP）。在 RabbitMQ 中沒有原生 consumer group — 多個 consumer 連到同一個 queue 就是 competing consumers、不同 queue 綁到同一個 exchange 就是 fan-out。

使用情境

系統需要 consumer group 的訊號是同一事件要被多個系統各自處理。訂單事件同時給出貨、通知與報表 — 三個 consumer group 各自有自己的處理速度、錯誤率跟重放流程。

Consumer group 的 rebalance（partition 重新分配）是 Kafka 生態的常見運維議題。Consumer 加入或離開 group 時觸發 rebalance、rebalance 期間 partition 暫時無人消費、造成短暫的處理停頓。Rebalance 時間跟 partition 數量、consumer 數量有關。

設計責任

Consumer group 要設計 group 名稱（跟服務名稱對齊、方便辨識）、offset / checkpoint 策略（auto-commit vs manual commit）、rebalance 行為（cooperative vs eager）、consumer lag 告警閾值與 replay runbook 權限。不同 group 的失敗應分開觀測跟處理 — 通知 group 落後不應影響出貨 group 的監控判讀。

Partition

Mon, 22 Jun 2026 00:00:00 +0000

Partition 的核心概念是「把事件流切分成多個可並行處理的片段」。同一 partition 內保留順序，不同 partition 可以平行處理。Partition 數量決定 consumer 的最大並行度 — 一個 consumer group 中 consumer 數量不能超過 partition 數量。

概念位置

Partition 是 throughput、ordering 與 hot key 之間的取捨核心。它跟 topic 的關係是：topic 是邏輯分類（order events、payment events），partition 是 topic 內的物理分片。Partition key 決定同一類事件會落到哪個 partition；選錯 key 會造成 hot partition（單一 partition 過載）或讓需要順序的事件被拆散。

在 Kafka 中 partition 是一級概念；RabbitMQ 沒有原生 partition（用多個 queue + consistent hash exchange 模擬）；SQS 沒有顯式 partition（內部自動分片）。

使用情境

系統需要 partition 設計的訊號是事件量大且需要水平擴展處理能力。訂單事件可以用 order_id 作為 partition key，讓同一訂單的事件保留順序；若所有高流量商家的訂單都 hash 到同一個 partition，會形成 hot partition。

Partition 數量也影響 offset 管理的複雜度 — 每個 partition 有獨立的 offset，consumer group 的 rebalance 要重新分配 partition ownership。

設計責任

Partition 設計要定義 partition key（通常是業務實體 ID）、partition 數量（建議初期設多一點，Kafka partition 數量只能增加不能減少）、順序需求（同 key 保序 vs 全域保序）與 lag 觀測（per-partition lag 能定位 hot partition）。重新分 partition 可能影響順序、consumer group 配置與 replay 範圍。

Offset

Mon, 22 Jun 2026 00:00:00 +0000

Offset 的核心概念是「consumer 在事件流中的讀取位置」。它是 consumer group 的進度記錄，讓 consumer 知道自己已經處理到哪裡，也讓系統可以從某個位置繼續或重放。

概念位置

Offset 是 consumer group 的進度記錄、consumer lag 的計算基準、replay runbook 的起點定位。在 Kafka 中，offset 是每個 partition 內的遞增整數；在 Redis Streams 中是 entry ID（timestamp-sequence）；在 SQS 中沒有顯式 offset，改用 visibility timeout 控制消費進度。

Offset 提交太早（處理前就 commit）可能造成處理遺失 — consumer crash 後從已 commit 的位置繼續，跳過未完成的訊息。提交太晚（處理完成很久才 commit）可能造成重複處理 — consumer crash 後從舊 offset 重新開始，重複處理已完成的訊息。

使用情境

系統需要理解 offset 的訊號是 consumer 重啟後需要接續處理。報表 consumer 處理到某個 offset 後 crash，重啟時要從安全位置繼續，並用 idempotency 承受可能重複的事件。

Offset 也是 replay 操作的控制參數。「重設 offset 到三天前」意味著 consumer group 會從三天前的位置重新處理所有事件 — 下游需要有 idempotent 設計才能承受重播。

設計責任

Offset 提交策略要和業務處理完成條件對齊。Auto-commit（定期自動提交）實作簡單但在 crash 時有遺失風險；manual commit（處理完成後手動提交）更安全但程式碼更複雜。Runbook 應說明如何查 current offset、committed offset、lag、重設 offset 的操作步驟與 replay 對下游的影響。

模組三案例正文

Thu, 07 May 2026 00:00:00 +0000

這個資料夾的核心責任是把 broker、queue 與語義治理的轉換壓力落到可執行判讀、並提供各 vendor 的真實 production case 庫支撐撰寫。案例不是事後舉例、是寫作 finding 的 source — 章節該討論的議題從 case 反推、不是先寫章節再找案例填。

通用案例（跨 vendor / 反例 / 規模對照）

章節主題核心責任

3.C1 Meta FOQS 全域遷移區域佇列如何升級到 disaster-ready 架構

3.C2 VMware Kafka → MSK 自管 broker 轉 managed streaming 的治理重點

3.C3 LinkedIn TopicGC topic 生命週期治理如何影響叢集可靠性

3.C4 LinkedIn Kafka 分層把單叢集使用模式轉成分層叢集治理

3.C5 Slack Job Queue 背景工作通道轉成 Kafka + Redis 組合

3.C6 Uber Kafka 基礎設施把事件平台演進成多租戶共享能力

3.C7 LinkedIn Self-healing Kafka 把手動維運轉成自動修復治理

3.C8 Cloudflare Queues 把全球佇列傳遞模型轉成可治理交付路徑

3.C9 反例：語義切換失敗 at-least-once / exactly-once 語義誤配造成資料錯亂

3.C10 對照：規模差異下佇列模型同一佇列模型在不同規模下有不同治理與失敗邊界

Kafka 案例

章節公司 / 主題對應 Kafka 大綱章節

3.C11 Pinterest Tiered Storage Tiered storage

3.C12 Pinterest Shallow Mirror Cross-region MirrorMaker

3.C13 Shopify Debezium CDC Kafka Connect / CDC

3.C14 Yelp Schematizer Schema Registry / Schema evolution

3.C15 Airbnb Spark Streaming Consumer 設計 / partition + consumer group

3.C16 Robinhood Faust 跨語言 client / stream processing

3.C17 Walmart MPS Rebalance storm / consumer lag / multi-tenant

3.C18 Wix Greyhound Consumer lag / observability / poison message

3.C19 Wix Multi-cluster Topic 生命週期 / 分層叢集

3.C20 Spotify 遷出 Kafka（反例） Replication 失敗模式 / producer 可靠性

3.C21 Goldman Sachs MSK Cross-region MirrorMaker / managed broker 遷移

3.C22 Trivago KEDA Consumer lag / autoscaling

RabbitMQ 案例

章節公司 / 主題對應 RabbitMQ 大綱章節

3.C23 Bloomberg vhost 多租戶多 vhost + 多租戶 / Erlang clustering

3.C24 SoundCloud fan-out 音訊 Prefetch + consumer 併發 / Streams

3.C25 Indeed Delay + DLQ Dead-letter exchange / retry 策略

3.C26 GoCardless Hutch service mesh Exchange types / 多 vhost（反向）

3.C27 Zalando AWS master selection Erlang clustering / Federation / Operator

3.C28 WeWork consistent hash Exchange types / partition-level ordering

3.C29 WeWork Bunny channel pool Prefetch + consumer 併發（client lib）

3.C30 Runtastic mirrored queue 瓶頸 Mirrored queue → Quorum queue 遷移

3.C31 Mozilla Pulse naming isolation 多 vhost + 多租戶（反向：用 ACL + naming）

3.C32 LoyaltyLion 監控數千 queue 監控觀測 / Operator

3.C33 Wargaming game portal 解耦 Federation + Shovel / 多 vhost

NATS 案例

章節公司 / 主題對應 NATS 大綱章節

3.C34 Netlify 全球資料平面 fan-out Core NATS vs JetStream / subject-based routing

3.C35 Form3 多雲低延遲支付 Cluster + Supercluster + Leaf node / JetStream

3.C36 Intelecy 工業 IoT JetStream stream / Subject-based ACL

3.C37 MachineMetrics edge to cloud Leaf node / KV + Object Store / 多租戶 ACL

3.C38 Clarifai NATS Streaming ML JetStream consumer 設計 / Queue groups

3.C39 Choria fleet orchestration Request/Reply / Queue groups / Supercluster

3.C40 Resgate WebSocket-to-NATS Request/Reply / Subject ACL / Core NATS

3.C41 i-flow OT/IT 整合 Cluster + Supercluster + Leaf node

Redis Streams 案例

章節公司 / 主題對應 Redis Streams 大綱章節

3.C42 Bitso Reliable Streams + DLQ Consumer group + PEL / XCLAIM / Sentinel

3.C43 Arcjet 取代 Kafka 省 6 位數 $ Retention / Memory 取捨

3.C44 Harness CD async state transfer Consumer group + PEL / XCLAIM / Memory

3.C45 Klaxit Rust + Heroku Logplex XADD / XREADGROUP / Consumer group

3.C46 Learning.com 退場（反例） Memory + retention / Sentinel 可靠性

3.C47 PHP 微服務 + S3 hybrid XADD/XREAD / Retention / Memory

AWS SQS 案例

章節公司 / 主題對應 SQS 大綱章節

3.C48 Airbnb Dynein 延遲任務 Standard vs FIFO / DLQ 設計

3.C49 Airbnb Inspekt visibility timeout Visibility timeout + in-flight

3.C50 Capital One visibility timeout Visibility timeout / SQS + Lambda

3.C51 Atlassian JiRT Kinesis + SQS Standard vs FIFO / fan-out subscription

3.C52 Nielsen Spark on EKS 雙 SQS CloudWatch metric / autoscaling

3.C53 FINRA S3 → SQS 合規 SQS + Lambda / IAM 多層

3.C54 Twitch EventSub SNS+SQS Standard queue / SNS-SQS fan-out

3.C55 SmugMug 搜尋管線 backfill Standard queue / Long polling / Lambda

3.C56 PostNL EBE 完整 DLQ + redrive DLQ 設計 / CloudWatch alarm / Cost

3.C57 Lob @lob/sqs-consumer Standard vs FIFO / Client library

3.C58 Twilio SQS 緩衝 webhook Long polling / Standard vs FIFO

3.C59 Rapid7 100 億 msg/day 規模 Cost 模型 / Standard queue

Google Pub/Sub 案例

章節公司 / 主題對應 Pub/Sub 大綱章節

3.C60 Spotify Event Delivery 遷入 Pub/Sub vs Lite / Push vs Pull / Ack deadline

3.C61 Spotify Autoscaling 反效果 Ack deadline / autoscaling signal

3.C62 Spotify reliable GCS export Ack deadline / Cloud Storage subscription

3.C63 Mercari ack deadline batch-level Ack deadline / Push vs Pull / Ordering

3.C64 Mercari Item Feed DLT Dead-letter topic / Push vs Pull

3.C65 Mercari LINE 對齊外部 RPS Push vs Pull subscription

3.C66 Mercari B2C 自建 gRPC pusher Push vs Pull / Ordering 應用層處理

3.C67 Niantic Pokémon GO telemetry BigQuery subscription（pattern 對照）

3.C68 Wix clickstream + Dataflow + BQ BigQuery subscription / Push vs Pull

3.C69 Twitter Ad Engagement topic 切分 Schema enforcement / Ordering key

案例覆蓋缺口（待補）

下列大綱章節在本案例庫中公開 customer-side case 偏弱或缺、撰寫正文時要明示「以下分析依官方文件 / KIP / 通用模式推導、非 case-driven」：

訊息佇列 Vendor 清單

Fri, 01 May 2026 00:00:00 +0000

訊息佇列 Vendor 清單的核心責任是把 broker 名稱放回 delivery semantics、processing semantics、replay boundary 與操作治理的判斷。每個服務頁先回答它提供哪種投遞與消費模型，再討論 ordering、retention、consumer group、DLQ、managed 邊界與案例回寫。選 broker 之前、佇列這塊能力先過一次買 vs 建：自管 broker（RabbitMQ、Kafka）自己扛 ordering、retention、DLQ 的運維、managed（SQS、SNS、MSK、Confluent Cloud）把這層交出去、雲端原生事件匯流更省 — 逐能力的判讀見 0.22 能力級買 vs 建。

讀法

佇列服務要從處理語意進入。讀者如果要處理一般工作佇列，先回到 3.2 durable queue；如果要處理事件流與 replay，先回到 3.4 consumer design；如果問題是資料庫交易與事件發布一致性，先回到 3.3 outbox pattern。

教學順序同步

佇列服務頁的教學順序是先建立 work queue baseline，再進入 event log、managed delivery、lightweight messaging 與 embedded stream。這個順序對齊 checkout E3：讀者先理解 delivery、processing、recovery 三層語意，再比較 broker、managed queue、pub/sub 與 stream 如何影響 retry、DLQ、ordering 與 replay。

T1 服務頁大綱

服務類型頁面要回答的核心問題

RabbitMQ Classic broker exchange、routing、ack/nack 與 DLQ 如何支援工作分派

Apache Kafka Event streaming partition、offset、retention 與 replay 如何支援事件流

NATS Messaging / stream subject、JetStream、low-latency 與 durability 如何取捨

Redis Streams Embedded stream Redis 生態中的 stream、consumer group 與 pending entry 邊界

AWS SQS Managed queue standard / FIFO、visibility timeout 與 DLQ 如何支援 managed delivery

Google Cloud Pub/Sub Managed pub/sub topic / subscription、push / pull 與 global delivery 如何取捨

內容覆蓋進度

每個 vendor 服務頁下會擴充兩類文章：deep article（vendor 自身的配置、故障、容量、走 6-section 模板）跟 migration playbook（跨 vendor 遷移流程、走 6-type 結構）。「→ X」代表遷移到 X 的 playbook、「↔ X」代表雙向遷移、其他形式代表 same-vendor 的 topology / version / config 變動。

Vendor Deep article Migration playbook

Kafka rebalance/lag / replication/ISR / retention/tiered / schema registry / multi-tenant ↔ NATS / → MSK

RabbitMQ queue 模型選型 / network partition / DLQ retry escalation → Kafka / → AWS SQS

NATS JetStream/supercluster / JetStream durability/consumer ↔ Kafka（見 Kafka 列）

Redis Streams XCLAIM/PEL → Kafka

AWS SQS visibility/polling/Lambda → Google Pub/Sub

Google Pub/Sub ordering/DLT/schema / push/pull/ack flow control ← Kafka

deep article 走 6-section 模板、指令均經 Docker / emulator 實機驗證（驗不了的標 caveat）；migration playbook 走 6-type 結構。

main 與 feat/backend_03 兩批平行撰寫過 03 deep article、重疊主題已去重：RabbitMQ quorum、Redis Streams PEL、AWS SQS visibility 三組各保留涵蓋較完整、經實機驗證的一篇（主題框架已併入）。NATS 保留兩篇互補定位——core 到 JetStream 邊界是採用決策入口、JetStream 設計與 supercluster/leaf 是完整實作。後續候選見上方「T1 服務頁大綱」段、各 vendor _index.md 進階主題段與下方「後續候選」表。

服務頁撰寫欄位

欄位佇列服務頁要保留的問題

服務責任它承擔 work queue、event log、pub/sub、stream 還是 workflow handoff

適用壓力 throughput、ordering、fan-out、retention、replay、managed operation 哪個壓力最明顯

替代邊界 broker、event streaming、managed queue、workflow engine 的機會成本

操作成本 partition、consumer lag、DLQ drain、schema、ACL、upgrade、quota

Evidence publish rate、consume rate、lag、redelivery、DLQ depth、replay window

案例回寫 Meta FOQS、VMware MSK、LinkedIn TopicGC 如何提供治理判準

服務責任段要先分辨投遞成功與處理成功。Broker 可以保存訊息與重新投遞，但 consumer 的 idempotency、side effect、checkpoint 與補償流程才決定業務結果是否可恢復。

適用壓力段要保留副作用語言。寄信、轉檔、invoice、search index sync、webhook fan-out 與 audit event 的 retry、ordering、DLQ 與 replay 條件不同，服務頁要分別展開。

服務頁標準章節

章節佇列服務頁要補的內容

服務定位它是 work queue、event log、pub/sub、embedded stream 還是 workflow engine

本章目標讀者能判斷 delivery、processing、recovery、ordering 與 replay 邊界

最短判讀路徑用「是否需要 durable retry、fan-out、ordering、replay」快速定位工具類型

日常操作與決策形狀 ack/nack、visibility timeout、DLQ、consumer group、schema、quota

核心取捨表 RabbitMQ、Kafka、SQS、Pub/Sub、NATS、Redis Streams 的機會成本

進階主題 partition、retention、exactly-once claims、multi-region、managed quota

排錯與失敗快速判讀 lag、redelivery、DLQ depth、poison message、consumer pause、offset

何時改走其他服務 human workflow 轉 workflow engine、同步查詢回 API、正式狀態回 database

不在本頁內的主題完整 client API、framework adapter、所有 broker plugin

案例回寫與下一步路由回到 3.C cases、6.12 replay verification、8.19 decision log

跨 vendor 議題對照

橫向議題在不同 vendor 用不同旋鈕達成。本表把同一議題在 6 個 vendor 的對應位置列出、確保大綱不缺漏議題、且讀者跨 vendor 查找對照位置時有索引。

議題 Kafka RabbitMQ NATS Redis Streams AWS SQS Pub/Sub

多租戶配額 / 隔離 quota + ACL vhost + user permission account + subject ACL Redis ACL IAM policy IAM + Service Account

跨區 / 全球交付 MirrorMaker 2 Federation / Shovel Supercluster + Leaf node Redis Cluster（受限） Cross-region replication 內建 global routing

Topic 生命週期治理 TopicGC、auto-cleanup vhost / queue lifecycle Stream lifecycle MAXLEN / XTRIM DLQ + redrive policy Subscription expiration

自動修復 Self-healing automation cluster_partition_handling JetStream raft Sentinel / Cluster failover managed 內建 managed 內建

Delivery 機制 acks + idempotence + ISR manual ack + DLX JetStream ack + AckWait XACK + XCLAIM + PEL visibility timeout + DLQ ack deadline + DLT

路由模型 partition + key exchange + routing key subject + wildcard stream key（無 partition） queue URL topic + subscription

持久化模型 log + retention policy durable queue + TTL JetStream storage append-only log（RAM） managed durable managed durable

Schema 治理 Schema Registry （無原生）（無原生、靠 JSON Schema 慣例）（無）（無） Schema enforcement

主討論案例 C1/C3-C7 + C11-C22 C23-C33 C34-C41 C42-C47 C48-C59 + C2 反面 C60-C69

對照表的用途有三：

寫某 vendor 頁時、檢查橫向議題是否都有對應的進階主題子段、避免缺漏

讀者在 vendor 間遷移時、知道對應旋鈕在另一個 vendor 叫什麼

未來擴充案例時、依 cases/_index 的「案例覆蓋缺口」段判定優先補的章節

下面 8 段把對照表的每行展開、避免單純的表格成為「終點」。每段先解釋議題本質、再展開不同 vendor 的 mechanism 差異、最後給選型判讀。

路由模型

路由模型決定「訊息怎麼送到對的 consumer」、不是同概念換名字。Kafka partition + key 透過 hash 把訊息落在固定 partition、consumer group 靠 rebalance 綁定 partition 跟 consumer；RabbitMQ exchange + routing key 透過 binding rule 比對、可 broadcast（fanout）/ 精準（direct）/ pattern（topic + * 單層 / # 多層）；NATS subject + wildcard（* 單層、> 多層）讓 subscriber 用 pattern 訂閱主題層級；Redis Streams 是單一 stream key、無 partition、跨 shard 要靠 hash tag 強制分散；SQS queue URL 直接對應、無 routing 邏輯；Pub/Sub topic + subscription、subscription 是 first-class entity（跟 Kafka topic + consumer group 不同）。

選型判讀：需要 fan-out 多 subscriber → fanout exchange / subject pattern / multi-subscription；需要 per-key ordering → Kafka partition+key / RabbitMQ consistent hash exchange / NATS queue group；不需 routing 邏輯 → SQS 最簡單。

Delivery 機制

Delivery 機制是「broker 怎麼保證訊息被處理」、不同 vendor 用不同協議層級達成同語意。詳見 3.1 broker-basics 的「語意保證的不同實作機制」。三層核心旋鈕：Kafka acks（0/1/all）+ idempotence + ISR（min.insync.replicas）；RabbitMQ manual ack + DLX + prefetch；NATS JetStream ack + AckWait + MaxDeliver；Redis Streams XACK + XCLAIM + PEL；SQS visibility timeout + DLQ + maxReceiveCount；Pub/Sub ack deadline + DLT + ack extension。

選型判讀：寫入即承諾（事件流）→ Kafka acks=all + ISR；處理即承諾（任務隊列）→ RabbitMQ manual ack / SQS visibility timeout / Pub/Sub ack deadline；wire-level handshake（device 端）→ MQTT QoS（透過 RabbitMQ MQTT plugin 或 EMQX）。

持久化模型

持久化模型決定「訊息能保留多久、能不能 replay」。Kafka log + retention policy（time / size、compact / delete）— 訊息保留到 retention 過期、consumer 可任意 offset replay；RabbitMQ durable queue + TTL — 訊息持久化但 ack 後即刪、不能 replay；NATS JetStream storage（file / memory、配 MaxMsgs / MaxBytes / MaxAge）— 介於 log 跟 queue 之間；Redis Streams append-only log 但受 RAM 限制 — retention 短期、replay 視 MAXLEN 設定；SQS / Pub/Sub managed durable — SQS 最長 14 天、Pub/Sub 7 天、不適合長期 archive。

選型判讀：需要事件 replay（多 consumer 各自進度、長期保留）→ Kafka / Pulsar / JetStream；任務處理即刪（worker pool）→ RabbitMQ / SQS / Pub/Sub；中期 stream 但已在 Redis 生態 → Redis Streams + MAXLEN。

Topic 生命週期治理

當 topic / queue 數量上萬、metadata 本身變成 broker 壓力。Kafka 早期靠人工管 topic、規模化後需 TopicGC（自動清理 unused topic）+ partition 數量上限；RabbitMQ vhost / queue lifecycle 通常手動、queue auto-delete + TTL 是常見 pattern；NATS JetStream stream 有 lifecycle policy（DiscardPolicy / MaxAge）；Redis Streams MAXLEN / XTRIM 手動修剪、無自動 GC；SQS DLQ + redrive policy 是 lifecycle 核心、queue 本身不自動刪；Pub/Sub subscription expiration policy（閒置 N 天自動刪）。

選型判讀：metadata 量大（topic 數 / partition 數）→ 需 Kafka TopicGC 模式；任務隊列 → 需 DLQ + redrive 規範；長期 stream → 需明示 retention policy。

自動修復

自動修復把 SRE 從人工值班轉到自動化、但層次不同。Kafka Self-healing（disk full / broker offline / under-replicated partition 自動處理）；RabbitMQ cluster_partition_handling（ignore / autoheal / pause_minority）— 偏向「腦裂處理策略」、不是全自動 SRE；NATS JetStream raft 自動 leader election + replica sync；Redis Streams 靠 Sentinel / Cluster failover、failover 期間 PEL 可能不一致；SQS / Pub/Sub managed 內建、不需用戶管。

選型判讀：自管要 24/7 → Kafka self-healing 或 NATS raft；不要值班 → managed（SQS / Pub/Sub）；中等規模容忍人工 → RabbitMQ cluster_partition_handling。

多租戶配額 / 隔離

隔離粒度跟 mechanism 不同。Kafka quota（byte rate / request rate）+ ACL（principal / resource / operation）— 流量級 + identity 級；RabbitMQ vhost + user permission — namespace 級隔離（最強）；NATS account + subject ACL — account 是 namespace、subject ACL 是細粒度權限；Redis Streams Redis ACL — command-level 權限；SQS / Pub/Sub IAM policy + Service Account — identity 級、無 namespace 概念。

選型判讀：跨 team 共用 cluster → 需 namespace 隔離（vhost / account）；多 client app → identity 隔離（IAM）；流量公平 → 需 quota（Kafka quota / 自建 rate limit）。

跨區 / 全球交付

跨區拓樸三類：mesh（broker 自己同步）vs hub-spoke（單向轉發）vs managed global。Kafka MirrorMaker 2 是 mesh（active-active / active-passive）；RabbitMQ Federation 是 hub-spoke（upstream → downstream 鬆耦合）、Shovel 是點對點搬運；NATS Supercluster + Leaf node 是 mesh + edge（適合 IoT 廠區）；Redis Cluster 跨區受限（Cluster 是 shard、不是 region）；SQS Cross-region replication（managed）；Pub/Sub 內建 global routing — 無需設定。

選型判讀：自管要 mesh → MirrorMaker 2 / NATS Supercluster；hub-spoke 簡單 → Federation；不想處理跨區 → Pub/Sub global 或 SQS replication。

Schema 治理

Schema 強制度跨 vendor 差異最大。Kafka Schema Registry（Confluent / Apicurio）+ Avro / Protobuf — 強制 producer 帶 schema ID、enforce compatibility；RabbitMQ 無原生 schema 機制 — 靠 application 層約定；NATS 無原生、靠 JSON Schema 慣例；Redis Streams 無 schema 概念；SQS message attribute + body string — 無 enforce；Pub/Sub Schema enforcement（topic 綁 Avro / Protobuf schema）。

選型判讀：跨服務契約嚴 → Kafka + Schema Registry / Pub/Sub Schema enforcement；內部簡單通訊 → RabbitMQ / NATS 靠慣例；schema 演進頻繁 → 需 forward / backward / full compatibility 規範。

服務頁大綱對齊

6 個 vendor 頁套同樣的章節結構、方便讀者跨 vendor 跳讀。對齊參考 LLM 模組 1.0 Ollama 的「觀念 → 原理 → 操作指令」分層寫法：

服務定位（段首段、3 個責任 + 設計取捨）

本章目標（5 條可驗證能力 checklist）

最短路徑（5 分鐘可跑通的 install + verify、bash 範例 placeholder）

日常操作與決策形狀（CLI / API、路由設計、ack 策略三個子段）

進階主題（按需閱讀、每子段對應一個 case 或 vendor 專長議題）

排錯快速判讀（每情境：操作原則 + 指令 + 解法）

何時改走其他服務（對照表）

不在本頁內的主題（明確邊界）

案例回寫（cases/ 引用 + 主討論議題）

下一步路由（上游概念 / 平行 vendor / 下游能力）

每個章節「要回答的問題」「要包含的指令範例 placeholder」「對應 case」都已寫在各 vendor 頁的大綱、但未寫實際正文 — 等到撰寫批次（見下節）開始時才展開。

撰寫批次

批次服務頁撰寫目的

Q1 RabbitMQ 建立 work queue、routing、ack/nack 與 DLQ baseline

Q2 Kafka 建立 event log、partition、retention 與 replay 判準

Q3 AWS SQS / Google Pub/Sub 建立 managed delivery、visibility timeout 與 cloud pub/sub 邊界

Q4 NATS / Redis Streams 建立 lightweight messaging 與 embedded stream 的邊界

Q5 Pulsar / Kinesis / Temporal 補 multi-tenant streaming、managed stream 與 workflow engine 對照

後續候選

類型候選服務寫作重點

Streaming Apache Pulsar、Redpanda、AWS Kinesis、Confluent Cloud / MSK retention、partition、managed Kafka、serverless stream

Managed event bus AWS SNS、EventBridge、Azure Event Grid fan-out、event routing、schema、cloud-native integration

Enterprise queue Azure Service Bus、ActiveMQ、IBM MQ enterprise integration、session、routing、DLQ

Workflow engine Temporal、Cadence durable workflow、activity retry、human / machine workflow 邊界

Lightweight NSQ、ZeroMQ simple broker、library messaging、durability trade-off

IoT messaging MQTT、EMQX、HiveMQ、Mosquitto device connection、QoS、topic hierarchy、edge constraints

主流覆蓋檢查的重點是分開 queue、stream、event bus、workflow 與 device messaging。Kafka / Pulsar / Kinesis 解 event stream；SQS / Service Bus 解 managed queue；SNS / EventBridge / Event Grid 解 cloud event routing；Temporal 解 workflow state；MQTT broker 解 IoT device delivery。

下一步路由

上游：3.2 durable queue

上游：3.4 consumer design

案例：3.C 佇列案例正文

服務路徑：3.8 Queue Consumer Retry 與 Replay Handoff

Queue

Mon, 22 Jun 2026 00:00:00 +0000

Queue 的核心概念是「把等待處理的工作依序放入一個可觀測的等待區」。它讓 producer 和 consumer 在時間上解耦，也讓系統可以用等待長度、等待時間與處理速率評估容量壓力。

概念位置

Queue 可以存在於 application 內部（in-process channel + worker pool），也可以由 broker、database table 或 stream platform 提供。Application 內部的 queue 隨 process 生命週期消失；跨 process、需要保存與重放的 queue 通常需要 durable queue 或 broker。

Queue 跟 topic 的差異：queue 的語意通常是「一筆訊息被一個 consumer 處理」（competing consumers），topic 的語意是「一筆訊息可以被多個 consumer group 各自處理」（fan-out）。但不同 broker 的術語定義不同 — RabbitMQ 的 queue 跟 Kafka 的 partition 在消費語意上有本質差異。

使用情境

系統需要 queue 的訊號是進入速度跟處理速度會短暫不一致。寄信、報表匯出、圖片轉檔、訂單狀態同步都適合先排入 queue，再由 consumer 依照容量處理。Queue depth 跟 oldest item age 會反映延遲壓力 — queue depth 持續增長代表 consumer 來不及消化，需要擴展 consumer 或降低進入速率。

設計責任

Queue 要定義容量上限、排序語意（FIFO / priority / delay）、保存期限（retention）、消費模式（pull vs push）、失敗處理（retry policy + dead-letter queue）、backpressure 策略（滿了怎麼辦 — block / drop / reject）與觀測欄位。設計上要區分「等待可以接受」跟「等待會傷害產品結果」— 付款入帳能短暫排隊，互動式 API response 通常需要更短的等待期限與更明確的拒絕策略。

Consumer

Mon, 22 Jun 2026 00:00:00 +0000

Consumer 的核心概念是「從等待區取得工作、事件或資料並執行處理的角色」。它可以從 queue、broker、stream pipeline、database table 或 in-process channel 取得資料，再更新狀態、呼叫外部服務或產生衍生資料。

概念位置

Consumer 位在資料流的下游。它跟 producer 構成 MQ 的基本角色對 — producer 負責把工作送進等待區，consumer 負責取出並處理。

多個 consumer 組成 consumer group 來分攤處理負載。Consumer 的處理速度跟錯誤行為直接影響 consumer lag（積壓深度）跟 dead-letter queue（無法處理的訊息去處）。

使用情境

系統需要辨識 consumer 的訊號是資料已經送入系統但產品結果還沒完成。付款事件送入後，入帳 consumer 要更新帳務狀態；通知事件送入後，寄信 consumer 要呼叫郵件服務。兩者都要清楚記錄處理成功、暫時失敗與永久拒絕。

Consumer 的處理模式影響系統的可靠性保證。Ack / nack 的時機決定「訊息什麼時候算處理完成」；idempotency 決定「重複收到同一筆訊息時是否會產生副作用」。

設計責任

Consumer 要定義併發數、ack / nack 條件、錯誤分類（暫時性 vs 永久性）、idempotency、retry policy、隔離區、graceful shutdown 與觀測欄位。

操作面要能觀測：處理速率（messages/sec）、失敗類型分布、oldest unprocessed message age、consumer lag、dead-letter queue 累積量與下游 dependency latency。Consumer lag 持續增長是容量不足的 leading indicator。

Topic

Mon, 22 Jun 2026 00:00:00 +0000

Topic 的核心概念是「用主題名稱描述一類事件或訊息」。Producer 把事件發布到 topic，broker 再依照訂閱關係、routing rule 或 stream 模型把事件交給對應 consumer。

概念位置

Topic 是事件分流的命名邊界。它讓訂單、付款、會員、通知、庫存等事件可以被不同服務訂閱，也讓團隊用事件種類思考資料流與責任範圍。

Topic 跟 partition 的關係是：topic 是邏輯命名空間，partition 是 topic 內的物理分片。Topic 跟 fan-out 的關係是：多個 consumer group 訂閱同一個 topic，每個 group 各自消費全量事件，實現 fan-out。

在 RabbitMQ 生態中，topic 對應 exchange + routing key 的組合；在 NATS 中 topic 對應 subject。概念相同但術語跟語意細節不同。

使用情境

系統需要 topic 設計的訊號是同一個事件來源會供多個 downstream 使用。付款完成事件可以給出貨、通知、報表與風控使用；所有事件都混在同一條 queue 時，consumer 會承擔更多過濾與相容性成本。

Topic 命名規則影響長期治理。orders.payment.completed 比 event_1 更容易被搜尋跟管理。命名規則要在團隊間統一、進 queue contract 管理。

設計責任

Topic 設計要定義命名規則、事件 schema、相容性策略（schema evolution）、權限控制（誰能 publish / subscribe）、retention 期限、replay runbook 範圍與 ownership（哪個團隊負責這個 topic）。操作面要能依 topic 查看 publish rate、consumer lag、錯誤率與 dead-letter queue 數量。

Fan-out

Mon, 22 Jun 2026 00:00:00 +0000

Fan-out 的核心概念是「一個事件被多個訂閱者各自獨立處理」。它讓單一 producer 發布一次事件，多個下游各自消費、各自處理、各自管理進度跟錯誤。

概念位置

Fan-out 常搭配 pub/sub 模型、topic 跟 consumer group 實作。在 Kafka 中，多個 consumer group 訂閱同一個 topic 就是 fan-out — 每個 group 各自從 offset 0 開始消費。在 RabbitMQ 中，fanout exchange 把訊息複製到所有綁定的 queue。在 GCP Pub/Sub 中，多個 subscription 訂閱同一個 topic。

Fan-out 跟 fan-in（多個來源合併成一個流）是相反的拓撲。兩者可以組合成事件處理管線。

使用情境

order.paid 事件同時觸發出貨準備（物流服務）、交易通知（通知服務）、營收紀錄（報表服務）與風控評估（風控服務）。Producer 不需要知道有哪些 consumer — 加減 consumer 不影響 producer 的程式碼。

Fan-out 降低了 producer 跟 consumer 之間的耦合，但擴大了排障範圍 — 一筆事件的處理結果散落在多個 consumer，需要用 trace context 或 correlation id 串連。

設計責任

設計 fan-out 時要為每個訂閱者定義可靠性等級跟回復策略。通知服務短暫失敗可以 retry；報表服務落後可以批次追補；但出貨服務的失敗可能需要人工介入。把所有下游綁成同一個失敗域（一個 consumer 卡住就全部暫停）會讓 fan-out 的解耦價值消失。每個 consumer group 應該獨立管理 consumer lag、dead-letter queue 跟 replay runbook。

終端機訊息佇列客戶端：Kafka 的 kaskade/yozefu/ktea 與 Redis 的 iredis

Tue, 16 Jun 2026 00:00:00 +0000

終端機訊息佇列客戶端把 broker 的 topic、partition、consumer group 與訊息內容做成可導航的文字介面，讓遠端只有終端機時也能瀏覽訊息流、消費單一 topic、看消費進度，取代把連線資訊餵給桌面工具（Kafka 的 Conduktor、Redis 的 RedisInsight）的需求。它跟 broker 自帶的純指令工具（kafka-topics.sh、rabbitmqctl、redis-cli）互補：指令工具適合腳本與一次性查詢，TUI 適合「邊看 topic 清單邊翻訊息內容」這種互動探索。

本文承接終端機圖形化工具總覽的訊息佇列客戶端分類。broker 端的純指令操作與 vendor 選型見 Kafka、Redis Streams、RabbitMQ 服務頁。

跟 SQL 客戶端最大的不同：多半綁單一 broker 協議

訊息佇列 TUI 幾乎都綁定單一 broker 協議，這是選型要先認清的一點，也跟 SQL 客戶端剛好相反。SQL 客戶端一個工具靠 adapter 連 Postgres、MySQL、SQLite 多種資料庫；訊息佇列這邊，Kafka 的 TUI 說的是 Kafka protocol、不認 AMQP，RabbitMQ 的 TUI 走 management API、也不讀 Kafka topic。能同時連多種 broker 的工具是少數例外（見後文 queuepeek）。

所以選型順序是先定 broker、再挑該 broker 生態的工具。實機盤點下來，Kafka 的 TUI 生態最成熟（多個活躍專案、安裝管道齊全），Redis 有強的增強型 REPL，RabbitMQ 與跨 broker 工具仍在早期。

兩種範式：全螢幕 TUI 與增強型 REPL

訊息佇列客戶端沿用跟 SQL 客戶端同一組範式區分。全螢幕 TUI（kaskade / yozefu / ktea）把 topic 清單、訊息內容、consumer 狀態排進多個面板，鍵盤導航瀏覽；增強型 REPL（iredis）仍是一行行打指令，但加上補全、語法高亮與型別感知輸出，是原生 client 的升級版。

選哪種看工作型態：要在多個 topic 間翻訊息、看 partition 與 consumer group 全貌，用全螢幕 TUI；要快速接上跑幾條指令、或塞進腳本，用增強型 REPL。

Kafka 全螢幕 TUI：kaskade、yozefu、ktea

Kafka 有三個定位不同的全螢幕 TUI，互動模型與連線設定各異。

kaskade（Python、Textual 寫，實測 4.0.7）分 admin 與 consumer 兩個子命令，連線參數走 -b。kaskade admin -b localhost:9092 進管理模式，實測連上 broker 後渲染出 topics 面板，欄位是 name、partitions、replicas、in sync、groups、members、records，一頁看完叢集的 topic 全貌。kaskade consumer -b localhost:9092 -t orders --from-beginning 進消費模式翻單一 topic 的訊息，-v json 與 -v registry 切 payload 解碼方式，後者配 --registry url=http://localhost:8081 接 Schema Registry。SSL / SASL 不走 -b，要用 --config security.protocol=SSL 逐項帶或 --config-file kafka.properties 餵設定檔。

yozefu（Rust 寫、binary 名是 yozf，MAIF 維護）主打跨 topic 的搜尋查詢，把找特定 record 當成核心場景。它的查詢語言是 SQL 風的，預設 initial_query 是 from end - 10（從尾端往回取 10 筆），search filter 還能用 WebAssembly 自訂（create-filter / import-filter 子命令）。連線走 config 模型而非純 flag：yozf config 會印出設定（檔案在 ~/Library/Application Support/io.maif.yozefu/config.json），每個 cluster 在裡面定義 bootstrap.servers、security.protocol 與 schema registry，再用 yozf -c -t 指定要連哪個。

ktea（Go 寫，Homebrew 0.8.0）同樣是 config-based，cluster 連線設定走首次啟動的互動流程而非命令列旗標。啟動旗標有 -debug 與 -plain-fonts，後者在終端機沒裝 NerdFonts、圖示顯示成亂碼時關掉圖示。本機裝起來、啟動旗標確認過，cluster 連線與深層瀏覽走互動設定流程、未逐步驗證。

判讀：要一頁看完 topic / consumer group 狀態、或邊看邊消費，選 kaskade；要在大量 topic 裡用查詢撈特定 record，選 yozefu 的搜尋模型；ktea 是另一個 Go 單 binary 選擇、偏好互動式設定 cluster 的可評估。

增強型 REPL：iredis（Redis 與 Redis Streams）

iredis（Python 寫，實測 1.16.1）是 redis-cli 的增強版，補上指令補全、語法高亮與型別感知輸出，手感仍是 REPL。它跟 dbcli 家族的 pgcli / litecli 同一類定位。實測非互動可跑，把指令用管線餵進去就回結果：echo "DBSIZE" | iredis -h localhost -p 6390，適合塞腳本。

它對 Redis Streams（03 的 vendor 之一）的檢視特別省事。peek 會先看型別再自動取值，string 顯示 strlen 與內容、stream 走 XINFO；實測對一個 stream 跑 XINFO STREAM 直接回 length、last-generated-id 等欄位，不必先 TYPE 再決定下哪個讀取指令。它是通用 Redis client、不是 stream 專用工具，但 Redis Streams 的 consumer group 操作（XPENDING、XCLAIM、XINFO GROUPS）都在這套指令補全範圍內。

RabbitMQ 與跨 broker：生態仍在早期

RabbitMQ 與「一個工具連多種 broker」這兩塊目前缺乏可直接安裝驗證的成熟工具，列出供參考、本機未實機驗證。

RabbitMQ 的 TUI 候選有 rabbitui（走 RabbitMQ management API）與 rabbithole（帶 exchange / binding 的 topology browser、支援 Protobuf 解碼）。兩者都不在 Homebrew 與 crates.io 的發佈管道，本機未安裝驗證。在缺 TUI 的情況下，RabbitMQ 的互動瀏覽仍以內建的 Management UI（web，預設 15672 埠）為主，純終端機則回到 rabbitmqctl 與 rabbitmqadmin。

跨 broker 的 queuepeek（Rust 寫，宣稱同時連 RabbitMQ、Kafka、MQTT）對應 SQL 類裡 usql 的「一個工具連多種後端」定位。本機 cargo install queuepeek 在編譯 rdkafka-sys（綁定原生 librdkafka）階段失敗、未能驗證。

gotcha（實測）

yozefu 預設帶一個名為 localhost 的 cluster、指向 localhost:9092。連非預設 port（例如本機測試的 9093）要先 yozf configure 改掉 bootstrap.servers，直接用 flag 覆寫不會生效。

kaskade 的 -b 只接 bootstrap server；SSL / SASL 等安全設定一律走 --config key=value 或 --config-file，混在 -b 裡會被當成 broker 位址。

ktea 的 -plain-fonts：終端機沒裝 NerdFonts 時圖示會顯示成亂碼方塊，加這個旗標關掉圖示就恢復可讀。

同類其他選擇

Redis 的全螢幕 TUI（如 redis-tui）與其他 Kafka TUI（如 kafka-tui）未在本輪實機驗證、列出供參考。Kafka TUI 這塊專案數量較多，挑選時以發佈管道（Homebrew / pip / crates.io 直接可裝）與維護活躍度篩選，不追求窮舉。

下一步路由

broker 端純指令工具與 vendor 選型：Kafka、Redis Streams、RabbitMQ 服務頁。

同範式的資料庫客戶端對照：終端機 SQL 客戶端。

把客戶端擺進可持久化的多工器 pane：tmux 基礎。

訊息佇列客戶端在遠端工具分類中的定位：終端機圖形化工具總覽。

維度	估算 / 邊界	警戒
Schema 數量	數千 schema registry 仍可運作（Yelp 等級）	`_schemas` topic 是 single-partition
Wire format overhead	每筆訊息固定 +5 byte	高頻小訊息時相對 overhead 不可忽略
Registry 可用性	consumer cache 命中時可短暫容忍 registry 不可達	冷 consumer / 新 schema ID 時硬依賴
Compatibility 檢查	註冊時做、非 hot path	transitive 對長歷史 subject 檢查較慢
環境隔離	每環境一套 registry、schema ID 不跨環境一致	跨環境 mirror 要同步搬 schema

節點類型	metadata 存放	適用場景
Disc node	記憶體 + 磁碟	預設、cluster 必須至少有一個
Ram node	僅記憶體	metadata 變更極頻繁的特殊場景、現代極少使用

策略	partition 時行為	保住	犧牲	適用
`ignore`	兩邊都繼續服務、不做任何處置	可用性	一致性（會腦裂）	單機 / 不在乎一致性的場景
`pause_minority`	少數派節點暫停 broker、多數派繼續	一致性	少數派可用性	奇數節點 cluster（推薦）
`autoheal`	partition 結束後自動選贏家、輸家重啟丟狀態	自動恢復	輸家側的訊息	可容忍少量訊息遺失的場景

規模 / 場景	建議策略	判讀
單節點	`ignore`（無 partition 可言）	沒有 cluster、不需要 partition 處理
3 / 5 / 7 奇數節點、需一致性	`pause_minority` + quorum queue	少數派暫停、quorum queue 用 Raft 保一致
偶數節點	加一個節點變奇數、再用 pause_minority	偶數節點對 pause_minority 是反模式
可容忍訊息遺失、可用性優先	`autoheal` + classic queue	接受輸家丟狀態、換 partition 期間雙邊可用
跨 AZ / 跨 region	重新評估是否該用單一 cluster	partition 機率高、考慮 federation 拆成獨立 cluster

治理軸	防的是什麼	工具	失控後果
Quota（資源配額）	單租戶吃滿頻寬 / request 容量、餓死其他租戶	`kafka-configs.sh` 設 byte rate	鄰居 producer 寫入卡死、consumer lag
ACL（存取授權）	租戶讀寫不屬於自己的 topic、或被未授權方寫入	`kafka-acls.sh` + broker authorizer	資料外洩、跨租戶污染、誤刪 topic
生命週期（治理）	死 topic 累積、partition 數爆炸壓垮 metadata 面	命名規範 + 活躍判準 + 自動回收	controller 變慢、rebalance 風暴

Quota 鍵	單位	限制對象	飽和訊號
`producer_byte_rate`	bytes/sec	單一 client 每秒寫入 broker 的 bytes	寫入端 network / disk I/O 飽和
`consumer_byte_rate`	bytes/sec	單一 client 每秒從 broker 讀取的 bytes	讀取端 network 飽和、fan-out 過大
`request_percentage`	百分比	單一 client 佔用 broker request handler 的 CPU 時間	broker CPU 飽和、小訊息高頻請求

套用層級	entity 指定	適用情境
client-id	`--entity-type clients --entity-name`	沒有認證、用 client.id 區分服務
user	`--entity-type users --entity-name`	有 SASL 認證、整個租戶共用一個 quota
user + client-id	兩個 entity 同時指定	同租戶內不同服務分別配額（最細）

維度	含義	範例值
principal	操作的發起身分	`User:svc-orders`
resource	被操作的對象（type + name + pattern）	topic `orders.events`、group `fulfillment-workers`
operation	動作	`Write` / `Read` / `Describe` / `All`
host	來源 IP（`*` 為不限）	`10.0.3.21`

維度	估算 / 訊號	警戒與下一步
Quota 總和 vs 物理容量	各租戶 byte rate 加總對 broker network / disk 容量	加總逼近物理上限要重新切分、留 headroom
ACL 條目數	逐 topic 設會隨 topic 數線性成長	改 prefixed ACL 對齊命名規範、降條目數與漏設風險
Partition 總數	controller failover 時間、metadata fetch 延遲	逼近上限先回收死 topic、再評估分群
Topic 活躍率	有 produce / consume 的 topic 佔比	死 topic 比例高代表缺回收流程、補活躍判準

面向	留在 Kafka（升級 0.8+）	遷到 GCP Pub/Sub
一次性遷移成本	中（全量遷移、不可滾動升級）	中（同樣需要改所有 client）
長期運維成本	高（自管 broker × 5 DC）	低（託管、零 broker 維護）
可靠性保證	0.8+ 有 replication、改善大	Pub/Sub 原生 exactly-once
跨 region replication	需要自建 MirrorMaker 2.0	原生支援
生態鎖定	Kafka 生態成熟	GCP 鎖定、跨雲成本高

面向	ha-mode: all	ha-mode: exactly 2	Quorum queue
網路成本	每條訊息 × N node	每條訊息 × 2 node	每條訊息 × majority
可容忍的故障	N-1 node failure	1 node failure	minority node failure
新 node 加入	全量同步（可能暫停 queue）	全量同步（影響面小）	Raft log replay（漸進）
適合場景	小 cluster、低流量	中 cluster、中流量	中大 cluster、推薦路徑

面向	選擇	代價
持久化	放棄（Core NATS）	NATS server 重啟時 in-flight 的訊息遺失
Ack 機制	放棄（fire-and-forget）	Consumer 處理失敗的訊息不會被重送
跨雲連接	NATS cluster	需要跨雲的網路連線、延遲影響 cluster 一致性
Consumer 擴展	多個訂閱者各自訂閱	每個消費者收到全量資料、沒有 consumer group 的分攤機制

面向	Managed Kafka	Redis Streams + Janitor
年成本	六位數 USD	~$1k USD
Retention 管理	內建自動	自寫 Janitor
持久化保證	Replication-based（強）	AOF/RDB（best-effort）
Consumer group	原生支援、offset commit 自動	原生支援、但 trim 要手動協調
生態工具	Kafka Connect、Schema Registry	無（自建）
擴展性	Partition 水平擴展	單 Redis 受限、Cluster 模式複雜
運維知識	Kafka 運維（或交給 managed）	Redis 運維 + 自建 Janitor 維護

設計參數	建議值	取捨
Visibility timeout	最大處理時間 + 緩衝（例 45 秒）	太短重複、太長延遲 retry
Batch size	依處理時間變異度調整	Batch 大省 invocation 費用、但延長 visibility 需求
DLQ	設定 maxReceiveCount（例 3 次）	避免 poison message 無限 retry
Concurrency limit	依下游承受能力設定	避免 Lambda 爆量壓垮下游 DB

面向	Pub/Sub + 自建 dedup	自管 Kafka 0.8+
運維成本	低（Pub/Sub 全託管）	高（自管 broker × 多 region）
語意保證	At-least-once + 應用層 dedup	At-least-once（idempotent 0.11+）
跨 region replication	原生支援	需要 MirrorMaker 或自建
流控精細度	Pull subscription 可控	Consumer group 自動分配
Topic 治理	需要自建平台層	Kafka 生態工具（Confluent 等）
Dedup 成本	額外的 cache / store 成本	Idempotent producer 減少需求

章節	主題	核心責任
3.C1	Meta FOQS 全域遷移	區域佇列如何升級到 disaster-ready 架構
3.C2	VMware Kafka → MSK	自管 broker 轉 managed streaming 的治理重點
3.C3	LinkedIn TopicGC	topic 生命週期治理如何影響叢集可靠性
3.C4	LinkedIn Kafka 分層	把單叢集使用模式轉成分層叢集治理
3.C5	Slack Job Queue	背景工作通道轉成 Kafka + Redis 組合
3.C6	Uber Kafka 基礎設施	把事件平台演進成多租戶共享能力
3.C7	LinkedIn Self-healing Kafka	把手動維運轉成自動修復治理
3.C8	Cloudflare Queues	把全球佇列傳遞模型轉成可治理交付路徑
3.C9	反例：語義切換失敗	at-least-once / exactly-once 語義誤配造成資料錯亂
3.C10	對照：規模差異下佇列模型	同一佇列模型在不同規模下有不同治理與失敗邊界

章節	公司 / 主題	對應 Kafka 大綱章節
3.C11	Pinterest Tiered Storage	Tiered storage
3.C12	Pinterest Shallow Mirror	Cross-region MirrorMaker
3.C13	Shopify Debezium CDC	Kafka Connect / CDC
3.C14	Yelp Schematizer	Schema Registry / Schema evolution
3.C15	Airbnb Spark Streaming	Consumer 設計 / partition + consumer group
3.C16	Robinhood Faust	跨語言 client / stream processing
3.C17	Walmart MPS	Rebalance storm / consumer lag / multi-tenant
3.C18	Wix Greyhound	Consumer lag / observability / poison message
3.C19	Wix Multi-cluster	Topic 生命週期 / 分層叢集
3.C20	Spotify 遷出 Kafka（反例）	Replication 失敗模式 / producer 可靠性
3.C21	Goldman Sachs MSK	Cross-region MirrorMaker / managed broker 遷移
3.C22	Trivago KEDA	Consumer lag / autoscaling

章節	公司 / 主題	對應 RabbitMQ 大綱章節
3.C23	Bloomberg vhost 多租戶	多 vhost + 多租戶 / Erlang clustering
3.C24	SoundCloud fan-out 音訊	Prefetch + consumer 併發 / Streams
3.C25	Indeed Delay + DLQ	Dead-letter exchange / retry 策略
3.C26	GoCardless Hutch service mesh	Exchange types / 多 vhost（反向）
3.C27	Zalando AWS master selection	Erlang clustering / Federation / Operator
3.C28	WeWork consistent hash	Exchange types / partition-level ordering
3.C29	WeWork Bunny channel pool	Prefetch + consumer 併發（client lib）
3.C30	Runtastic mirrored queue 瓶頸	Mirrored queue → Quorum queue 遷移
3.C31	Mozilla Pulse naming isolation	多 vhost + 多租戶（反向：用 ACL + naming）
3.C32	LoyaltyLion 監控數千 queue	監控觀測 / Operator
3.C33	Wargaming game portal 解耦	Federation + Shovel / 多 vhost

章節	公司 / 主題	對應 NATS 大綱章節
3.C34	Netlify 全球資料平面 fan-out	Core NATS vs JetStream / subject-based routing
3.C35	Form3 多雲低延遲支付	Cluster + Supercluster + Leaf node / JetStream
3.C36	Intelecy 工業 IoT	JetStream stream / Subject-based ACL
3.C37	MachineMetrics edge to cloud	Leaf node / KV + Object Store / 多租戶 ACL
3.C38	Clarifai NATS Streaming ML	JetStream consumer 設計 / Queue groups
3.C39	Choria fleet orchestration	Request/Reply / Queue groups / Supercluster
3.C40	Resgate WebSocket-to-NATS	Request/Reply / Subject ACL / Core NATS
3.C41	i-flow OT/IT 整合	Cluster + Supercluster + Leaf node

章節	公司 / 主題	對應 Redis Streams 大綱章節
3.C42	Bitso Reliable Streams + DLQ	Consumer group + PEL / XCLAIM / Sentinel
3.C43	Arcjet 取代 Kafka 省 6 位數 $	Retention / Memory 取捨
3.C44	Harness CD async state transfer	Consumer group + PEL / XCLAIM / Memory
3.C45	Klaxit Rust + Heroku Logplex	XADD / XREADGROUP / Consumer group
3.C46	Learning.com 退場（反例）	Memory + retention / Sentinel 可靠性
3.C47	PHP 微服務 + S3 hybrid	XADD/XREAD / Retention / Memory

章節	公司 / 主題	對應 SQS 大綱章節
3.C48	Airbnb Dynein 延遲任務	Standard vs FIFO / DLQ 設計
3.C49	Airbnb Inspekt visibility timeout	Visibility timeout + in-flight
3.C50	Capital One visibility timeout	Visibility timeout / SQS + Lambda
3.C51	Atlassian JiRT Kinesis + SQS	Standard vs FIFO / fan-out subscription
3.C52	Nielsen Spark on EKS 雙 SQS	CloudWatch metric / autoscaling
3.C53	FINRA S3 → SQS 合規	SQS + Lambda / IAM 多層
3.C54	Twitch EventSub SNS+SQS	Standard queue / SNS-SQS fan-out
3.C55	SmugMug 搜尋管線 backfill	Standard queue / Long polling / Lambda
3.C56	PostNL EBE 完整 DLQ + redrive	DLQ 設計 / CloudWatch alarm / Cost
3.C57	Lob @lob/sqs-consumer	Standard vs FIFO / Client library
3.C58	Twilio SQS 緩衝 webhook	Long polling / Standard vs FIFO
3.C59	Rapid7 100 億 msg/day 規模	Cost 模型 / Standard queue

章節	公司 / 主題	對應 Pub/Sub 大綱章節
3.C60	Spotify Event Delivery 遷入	Pub/Sub vs Lite / Push vs Pull / Ack deadline
3.C61	Spotify Autoscaling 反效果	Ack deadline / autoscaling signal
3.C62	Spotify reliable GCS export	Ack deadline / Cloud Storage subscription
3.C63	Mercari ack deadline batch-level	Ack deadline / Push vs Pull / Ordering
3.C64	Mercari Item Feed DLT	Dead-letter topic / Push vs Pull
3.C65	Mercari LINE 對齊外部 RPS	Push vs Pull subscription
3.C66	Mercari B2C 自建 gRPC pusher	Push vs Pull / Ordering 應用層處理
3.C67	Niantic Pokémon GO telemetry	BigQuery subscription（pattern 對照）
3.C68	Wix clickstream + Dataflow + BQ	BigQuery subscription / Push vs Pull
3.C69	Twitter Ad Engagement topic 切分	Schema enforcement / Ordering key

服務	類型	頁面要回答的核心問題
RabbitMQ	Classic broker	exchange、routing、ack/nack 與 DLQ 如何支援工作分派
Apache Kafka	Event streaming	partition、offset、retention 與 replay 如何支援事件流
NATS	Messaging / stream	subject、JetStream、low-latency 與 durability 如何取捨
Redis Streams	Embedded stream	Redis 生態中的 stream、consumer group 與 pending entry 邊界
AWS SQS	Managed queue	standard / FIFO、visibility timeout 與 DLQ 如何支援 managed delivery
Google Cloud Pub/Sub	Managed pub/sub	topic / subscription、push / pull 與 global delivery 如何取捨

Vendor	Deep article	Migration playbook
Kafka	rebalance/lag / replication/ISR / retention/tiered / schema registry / multi-tenant	↔ NATS / → MSK
RabbitMQ	queue 模型選型 / network partition / DLQ retry escalation	→ Kafka / → AWS SQS
NATS	JetStream/supercluster / JetStream durability/consumer	↔ Kafka（見 Kafka 列）
Redis Streams	XCLAIM/PEL	→ Kafka
AWS SQS	visibility/polling/Lambda	→ Google Pub/Sub
Google Pub/Sub	ordering/DLT/schema / push/pull/ack flow control	← Kafka

欄位	佇列服務頁要保留的問題
服務責任	它承擔 work queue、event log、pub/sub、stream 還是 workflow handoff
適用壓力	throughput、ordering、fan-out、retention、replay、managed operation 哪個壓力最明顯
替代邊界	broker、event streaming、managed queue、workflow engine 的機會成本
操作成本	partition、consumer lag、DLQ drain、schema、ACL、upgrade、quota
Evidence	publish rate、consume rate、lag、redelivery、DLQ depth、replay window
案例回寫	Meta FOQS、VMware MSK、LinkedIn TopicGC 如何提供治理判準

章節	佇列服務頁要補的內容
服務定位	它是 work queue、event log、pub/sub、embedded stream 還是 workflow engine
本章目標	讀者能判斷 delivery、processing、recovery、ordering 與 replay 邊界
最短判讀路徑	用「是否需要 durable retry、fan-out、ordering、replay」快速定位工具類型
日常操作與決策形狀	ack/nack、visibility timeout、DLQ、consumer group、schema、quota
核心取捨表	RabbitMQ、Kafka、SQS、Pub/Sub、NATS、Redis Streams 的機會成本
進階主題	partition、retention、exactly-once claims、multi-region、managed quota
排錯與失敗快速判讀	lag、redelivery、DLQ depth、poison message、consumer pause、offset
何時改走其他服務	human workflow 轉 workflow engine、同步查詢回 API、正式狀態回 database
不在本頁內的主題	完整 client API、framework adapter、所有 broker plugin
案例回寫與下一步路由	回到 3.C cases、6.12 replay verification、8.19 decision log

議題	Kafka	RabbitMQ	NATS	Redis Streams	AWS SQS	Pub/Sub
多租戶配額 / 隔離	quota + ACL	vhost + user permission	account + subject ACL	Redis ACL	IAM policy	IAM + Service Account
跨區 / 全球交付	MirrorMaker 2	Federation / Shovel	Supercluster + Leaf node	Redis Cluster（受限）	Cross-region replication	內建 global routing
Topic 生命週期治理	TopicGC、auto-cleanup	vhost / queue lifecycle	Stream lifecycle	MAXLEN / XTRIM	DLQ + redrive policy	Subscription expiration
自動修復	Self-healing automation	cluster_partition_handling	JetStream raft	Sentinel / Cluster failover	managed 內建	managed 內建
Delivery 機制	acks + idempotence + ISR	manual ack + DLX	JetStream ack + AckWait	XACK + XCLAIM + PEL	visibility timeout + DLQ	ack deadline + DLT
路由模型	partition + key	exchange + routing key	subject + wildcard	stream key（無 partition）	queue URL	topic + subscription
持久化模型	log + retention policy	durable queue + TTL	JetStream storage	append-only log（RAM）	managed durable	managed durable
Schema 治理	Schema Registry	（無原生）	（無原生、靠 JSON Schema 慣例）	（無）	（無）	Schema enforcement
主討論案例	C1/C3-C7 + C11-C22	C23-C33	C34-C41	C42-C47	C48-C59 + C2 反面	C60-C69

批次	服務頁	撰寫目的
Q1	RabbitMQ	建立 work queue、routing、ack/nack 與 DLQ baseline
Q2	Kafka	建立 event log、partition、retention 與 replay 判準
Q3	AWS SQS / Google Pub/Sub	建立 managed delivery、visibility timeout 與 cloud pub/sub 邊界
Q4	NATS / Redis Streams	建立 lightweight messaging 與 embedded stream 的邊界
Q5	Pulsar / Kinesis / Temporal	補 multi-tenant streaming、managed stream 與 workflow engine 對照

類型	候選服務	寫作重點
Streaming	Apache Pulsar、Redpanda、AWS Kinesis、Confluent Cloud / MSK	retention、partition、managed Kafka、serverless stream
Managed event bus	AWS SNS、EventBridge、Azure Event Grid	fan-out、event routing、schema、cloud-native integration
Enterprise queue	Azure Service Bus、ActiveMQ、IBM MQ	enterprise integration、session、routing、DLQ
Workflow engine	Temporal、Cadence	durable workflow、activity retry、human / machine workflow 邊界
Lightweight	NSQ、ZeroMQ	simple broker、library messaging、durability trade-off
IoT messaging	MQTT、EMQX、HiveMQ、Mosquitto	device connection、QoS、topic hierarchy、edge constraints