<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>模組七：跨節點與平台整合 on Tarragon</title><link>https://tarrragon.github.io/blog/go-advanced/07-distributed-operations/</link><description>Recent content in 模組七：跨節點與平台整合 on Tarragon</description><generator>Hugo -- gohugo.io</generator><language>zh-TW</language><copyright>Tarragon (CC BY 4.0)</copyright><lastBuildDate>Wed, 22 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://tarrragon.github.io/blog/go-advanced/07-distributed-operations/index.xml" rel="self" type="application/rss+xml"/><item><title>7.1 資料庫 transaction 與 schema migration</title><link>https://tarrragon.github.io/blog/go-advanced/07-distributed-operations/database-transactions/</link><pubDate>Wed, 22 Apr 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/go-advanced/07-distributed-operations/database-transactions/</guid><description>&lt;p>資料庫整合的核心責任是讓持久化行為符合 application 的狀態規則。Repository port 決定 usecase 需要哪些資料能力；&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/transaction-boundary/" data-link-title="Transaction Boundary" data-link-desc="說明哪些資料變更應在同一個交易中一起成功或一起回復">transaction boundary&lt;/a>、&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/schema-migration/" data-link-title="Schema Migration" data-link-desc="說明資料庫結構如何隨應用程式版本安全演進">schema migration&lt;/a>、&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/expand-contract/" data-link-title="Expand / Contract" data-link-desc="說明先擴充相容面、再收斂舊路徑的遷移做法">Expand / Contract&lt;/a> 與 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/isolation-level/" data-link-title="Isolation Level" data-link-desc="說明資料庫交易隔離級別如何影響並發讀寫結果">isolation level&lt;/a> 則決定這些能力在資料庫中如何保持一致。&lt;/p>
&lt;h2 id="本章目標">本章目標&lt;/h2>
&lt;p>學完本章後，你將能夠：&lt;/p>
&lt;ol>
&lt;li>判斷 [&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/transaction/" data-link-title="Transaction" data-link-desc="說明 transaction 如何讓一組資料變更一起成功或一起回復">transaction&lt;/a> boundary](/go-advanced/backend/knowledge-cards/transaction-boundary) 應該放在 repository 還是 usecase&lt;/li>
&lt;li>理解 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/migration/" data-link-title="Migration" data-link-desc="說明系統如何把資料、流量或結構從舊狀態移到新狀態">migration&lt;/a> 為什麼要維持向前相容&lt;/li>
&lt;li>分辨 application validation、constraint 與 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/isolation-level/" data-link-title="Isolation Level" data-link-desc="說明資料庫交易隔離級別如何影響並發讀寫結果">isolation level&lt;/a> 的責任&lt;/li>
&lt;li>用 contract test 保護 memory repository 與 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/database/" data-link-title="Database" data-link-desc="說明 database 在後端系統中如何承擔正式狀態、查詢與一致性責任">database&lt;/a> repository 的一致行為&lt;/li>
&lt;li>讓 SQL 細節留在 adapter，讓 domain 規則留在 application&lt;/li>
&lt;/ol>
&lt;h2 id="前置章節">前置章節&lt;/h2>
&lt;ul>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go/06-practical/repository-port/" data-link-title="6.6 如何新增 repository port" data-link-desc="先建立儲存邊界，再決定 memory、SQLite 或外部資料庫實作">Go 入門：如何新增 repository port&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go/07-refactoring/state-boundary/" data-link-title="7.4 狀態管理的安全邊界" data-link-desc="用 lock、copy 與 API 限制保護共享狀態">Go 入門：狀態管理的安全邊界&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/source-of-truth/" data-link-title="Source of Truth" data-link-desc="說明正式資料來源如何決定資料判斷、修復與一致性責任">Go 進階：Source of Truth：狀態邊界&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/source-of-truth/" data-link-title="Source of Truth" data-link-desc="說明正式資料來源如何決定資料判斷、修復與一致性責任">Backend：Source of Truth&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/connection-pool/" data-link-title="Connection Pool" data-link-desc="說明連線池如何限制下游資源並影響服務容量">Backend：Connection Pool&lt;/a>&lt;/li>
&lt;/ul>
&lt;h2 id="後續撰寫方向">後續撰寫方向&lt;/h2>
&lt;ol>
&lt;li>Repository method 如何表達交易語意，讓 SQL 細節留在 adapter。&lt;/li>
&lt;li>一個 usecase 需要多筆寫入同時成功或失敗時，transaction boundary 應放在哪裡。&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/migration/" data-link-title="Migration" data-link-desc="說明系統如何把資料、流量或結構從舊狀態移到新狀態">Migration&lt;/a> 如何維持向前相容，避免新舊程式版本互相破壞資料。&lt;/li>
&lt;li>Isolation level、unique constraint 與 application-level validation 如何分工。&lt;/li>
&lt;li>Contract test 如何保護 memory repository 與 database repository 的一致行為。&lt;/li>
&lt;/ol>
&lt;h2 id="觀察transaction-是一致性邊界">【觀察】transaction 是一致性邊界&lt;/h2>
&lt;p>transaction 的核心用途是把一組資料庫操作綁成單一一致性單位。判斷重點是：這個 usecase 哪些狀態要一起成功或一起失敗。效能與寫入便利性都應放在一致性需求之後評估。&lt;/p>
&lt;p>例如建立訂單時，可能同時需要：&lt;/p>
&lt;ul>
&lt;li>寫入 order 主表&lt;/li>
&lt;li>寫入 order items&lt;/li>
&lt;li>更新 inventory&lt;/li>
&lt;li>寫入 outbox event&lt;/li>
&lt;/ul>
&lt;p>如果其中一個步驟失敗，整組操作就應回滾，避免 application 狀態和資料庫狀態分裂。&lt;/p>
&lt;h2 id="判讀transaction-boundary-應該跟-usecase-對齊">【判讀】transaction boundary 應該跟 usecase 對齊&lt;/h2>
&lt;p>交易邊界最常見的錯誤，是把 transaction 放得太低或太高。&lt;/p>
&lt;ul>
&lt;li>放太低：repository 各自開 transaction，usecase 層看起來成功，實際上無法保證整體一致。&lt;/li>
&lt;li>放太高：把不需要一致性的讀取、外部 API、長迴圈也包進 transaction，讓連線被占住太久。&lt;/li>
&lt;/ul>
&lt;p>一般原則是：&lt;/p>
&lt;ul>
&lt;li>要維持同一個 domain 不變式的寫入，應放在同一個 transaction。&lt;/li>
&lt;li>可以重試或可補償的外部互動，通常應放在 transaction 之外。&lt;/li>
&lt;/ul>
&lt;h2 id="策略migration-要讓舊版與新版可以共存">【策略】&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/migration/" data-link-title="Migration" data-link-desc="說明系統如何把資料、流量或結構從舊狀態移到新狀態">Migration&lt;/a> 要讓舊版與新版可以共存&lt;/h2>
&lt;p>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/schema-migration/" data-link-title="Schema Migration" data-link-desc="說明資料庫結構如何隨應用程式版本安全演進">schema migration&lt;/a> 的核心是讓部署期間的新舊版本能同時活著。實務上常見的是 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/expand-contract/" data-link-title="Expand / Contract" data-link-desc="說明先擴充相容面、再收斂舊路徑的遷移做法">Expand / Contract&lt;/a> 流程：&lt;/p></description><content:encoded><![CDATA[<p>資料庫整合的核心責任是讓持久化行為符合 application 的狀態規則。Repository port 決定 usecase 需要哪些資料能力；<a href="/blog/backend/knowledge-cards/transaction-boundary/" data-link-title="Transaction Boundary" data-link-desc="說明哪些資料變更應在同一個交易中一起成功或一起回復">transaction boundary</a>、<a href="/blog/backend/knowledge-cards/schema-migration/" data-link-title="Schema Migration" data-link-desc="說明資料庫結構如何隨應用程式版本安全演進">schema migration</a>、<a href="/blog/backend/knowledge-cards/expand-contract/" data-link-title="Expand / Contract" data-link-desc="說明先擴充相容面、再收斂舊路徑的遷移做法">Expand / Contract</a> 與 <a href="/blog/backend/knowledge-cards/isolation-level/" data-link-title="Isolation Level" data-link-desc="說明資料庫交易隔離級別如何影響並發讀寫結果">isolation level</a> 則決定這些能力在資料庫中如何保持一致。</p>
<h2 id="本章目標">本章目標</h2>
<p>學完本章後，你將能夠：</p>
<ol>
<li>判斷 [<a href="/blog/backend/knowledge-cards/transaction/" data-link-title="Transaction" data-link-desc="說明 transaction 如何讓一組資料變更一起成功或一起回復">transaction</a> boundary](/go-advanced/backend/knowledge-cards/transaction-boundary) 應該放在 repository 還是 usecase</li>
<li>理解 <a href="/blog/backend/knowledge-cards/migration/" data-link-title="Migration" data-link-desc="說明系統如何把資料、流量或結構從舊狀態移到新狀態">migration</a> 為什麼要維持向前相容</li>
<li>分辨 application validation、constraint 與 <a href="/blog/backend/knowledge-cards/isolation-level/" data-link-title="Isolation Level" data-link-desc="說明資料庫交易隔離級別如何影響並發讀寫結果">isolation level</a> 的責任</li>
<li>用 contract test 保護 memory repository 與 <a href="/blog/backend/knowledge-cards/database/" data-link-title="Database" data-link-desc="說明 database 在後端系統中如何承擔正式狀態、查詢與一致性責任">database</a> repository 的一致行為</li>
<li>讓 SQL 細節留在 adapter，讓 domain 規則留在 application</li>
</ol>
<h2 id="前置章節">前置章節</h2>
<ul>
<li><a href="/blog/go/06-practical/repository-port/" data-link-title="6.6 如何新增 repository port" data-link-desc="先建立儲存邊界，再決定 memory、SQLite 或外部資料庫實作">Go 入門：如何新增 repository port</a></li>
<li><a href="/blog/go/07-refactoring/state-boundary/" data-link-title="7.4 狀態管理的安全邊界" data-link-desc="用 lock、copy 與 API 限制保護共享狀態">Go 入門：狀態管理的安全邊界</a></li>
<li><a href="/blog/backend/knowledge-cards/source-of-truth/" data-link-title="Source of Truth" data-link-desc="說明正式資料來源如何決定資料判斷、修復與一致性責任">Go 進階：Source of Truth：狀態邊界</a></li>
<li><a href="/blog/backend/knowledge-cards/source-of-truth/" data-link-title="Source of Truth" data-link-desc="說明正式資料來源如何決定資料判斷、修復與一致性責任">Backend：Source of Truth</a></li>
<li><a href="/blog/backend/knowledge-cards/connection-pool/" data-link-title="Connection Pool" data-link-desc="說明連線池如何限制下游資源並影響服務容量">Backend：Connection Pool</a></li>
</ul>
<h2 id="後續撰寫方向">後續撰寫方向</h2>
<ol>
<li>Repository method 如何表達交易語意，讓 SQL 細節留在 adapter。</li>
<li>一個 usecase 需要多筆寫入同時成功或失敗時，transaction boundary 應放在哪裡。</li>
<li><a href="/blog/backend/knowledge-cards/migration/" data-link-title="Migration" data-link-desc="說明系統如何把資料、流量或結構從舊狀態移到新狀態">Migration</a> 如何維持向前相容，避免新舊程式版本互相破壞資料。</li>
<li>Isolation level、unique constraint 與 application-level validation 如何分工。</li>
<li>Contract test 如何保護 memory repository 與 database repository 的一致行為。</li>
</ol>
<h2 id="觀察transaction-是一致性邊界">【觀察】transaction 是一致性邊界</h2>
<p>transaction 的核心用途是把一組資料庫操作綁成單一一致性單位。判斷重點是：這個 usecase 哪些狀態要一起成功或一起失敗。效能與寫入便利性都應放在一致性需求之後評估。</p>
<p>例如建立訂單時，可能同時需要：</p>
<ul>
<li>寫入 order 主表</li>
<li>寫入 order items</li>
<li>更新 inventory</li>
<li>寫入 outbox event</li>
</ul>
<p>如果其中一個步驟失敗，整組操作就應回滾，避免 application 狀態和資料庫狀態分裂。</p>
<h2 id="判讀transaction-boundary-應該跟-usecase-對齊">【判讀】transaction boundary 應該跟 usecase 對齊</h2>
<p>交易邊界最常見的錯誤，是把 transaction 放得太低或太高。</p>
<ul>
<li>放太低：repository 各自開 transaction，usecase 層看起來成功，實際上無法保證整體一致。</li>
<li>放太高：把不需要一致性的讀取、外部 API、長迴圈也包進 transaction，讓連線被占住太久。</li>
</ul>
<p>一般原則是：</p>
<ul>
<li>要維持同一個 domain 不變式的寫入，應放在同一個 transaction。</li>
<li>可以重試或可補償的外部互動，通常應放在 transaction 之外。</li>
</ul>
<h2 id="策略migration-要讓舊版與新版可以共存">【策略】<a href="/blog/backend/knowledge-cards/migration/" data-link-title="Migration" data-link-desc="說明系統如何把資料、流量或結構從舊狀態移到新狀態">Migration</a> 要讓舊版與新版可以共存</h2>
<p><a href="/blog/backend/knowledge-cards/schema-migration/" data-link-title="Schema Migration" data-link-desc="說明資料庫結構如何隨應用程式版本安全演進">schema migration</a> 的核心是讓部署期間的新舊版本能同時活著。實務上常見的是 <a href="/blog/backend/knowledge-cards/expand-contract/" data-link-title="Expand / Contract" data-link-desc="說明先擴充相容面、再收斂舊路徑的遷移做法">Expand / Contract</a> 流程：</p>
<ol>
<li>先新增欄位、表或索引。</li>
<li>讓新舊程式都能讀寫。</li>
<li>確認流量已切到新版本。</li>
<li>再移除舊欄位或舊邏輯。</li>
</ol>
<p>這樣做的目的，是避免應用版本與資料庫版本在 rolling deploy 時互相踩到。</p>
<h2 id="判讀constraintvalidation-與-isolation-level-各管不同風險">【判讀】constraint、validation 與 isolation level 各管不同風險</h2>
<p>這三者的責任應清楚分工：</p>
<ul>
<li>application validation：在進資料庫前先檢查基本輸入是否合法。</li>
<li>unique / foreign key / check constraint：在資料庫層保底，防止不合法資料落地。</li>
<li>isolation level：處理多交易同時進行時的可見性與衝突問題。</li>
</ul>
<p>如果只靠 application validation，資料庫仍可能被其他路徑寫入不合法資料。如果只靠資料庫 constraint，錯誤回報可能太晚。兩者通常要一起用。</p>
<h2 id="執行contract-test-檢查-repository-語意一致">【執行】contract test 檢查 repository 語意一致</h2>
<p>當你同時有 memory repository 與 database repository 時，測試重點是它們對外暴露的語意是否一致。SQL 細節屬於 database adapter 的內部實作。</p>
<p>通常要測：</p>
<ul>
<li>找不到資料時怎麼回傳</li>
<li>重複寫入時怎麼回傳</li>
<li>transaction 失敗時是否維持一致狀態</li>
<li>欄位驗證與預設值是否相同</li>
</ul>
<p>這類測試可以讓 repository adapter 保持可替換，讓資料庫替換時 usecase 維持穩定。</p>
<h2 id="本章不處理">本章不處理</h2>
<p>本章不會選定特定資料庫或 ORM。真正的重點是 Go application 如何定義資料一致性責任，讓 SQLite、PostgreSQL 或其他儲存技術都能成為可替換 adapter。</p>
<h2 id="和-go-教材的關係">和 Go 教材的關係</h2>
<p>這一章承接的是 Go 的 repository port 與狀態邊界；如果你要先回看語言教材，可以讀：</p>
<ul>
<li><a href="/blog/go/06-practical/repository-port/" data-link-title="6.6 如何新增 repository port" data-link-desc="先建立儲存邊界，再決定 memory、SQLite 或外部資料庫實作">Go：如何新增 repository port</a></li>
<li><a href="/blog/go/07-refactoring/state-boundary/" data-link-title="7.4 狀態管理的安全邊界" data-link-desc="用 lock、copy 與 API 限制保護共享狀態">Go：狀態管理的安全邊界</a></li>
<li><a href="/blog/backend/knowledge-cards/source-of-truth/" data-link-title="Source of Truth" data-link-desc="說明正式資料來源如何決定資料判斷、修復與一致性責任">Go 進階：Source of Truth</a></li>
</ul>
]]></content:encoded></item><item><title>7.2 Durable queue、outbox 與 idempotency</title><link>https://tarrragon.github.io/blog/go-advanced/07-distributed-operations/outbox-idempotency/</link><pubDate>Wed, 22 Apr 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/go-advanced/07-distributed-operations/outbox-idempotency/</guid><description>&lt;p>跨 process 事件傳遞的核心責任是讓事件在失敗、重試與重複投遞下仍維持可預期語意。Channel 只能處理單一 process 內的 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/backpressure/" data-link-title="Backpressure" data-link-desc="說明下游處理速度不足時系統如何讓上游依下游能力送出工作">backpressure&lt;/a> ；[durable &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/queue/" data-link-title="Queue" data-link-desc="說明 queue 如何保存等待處理的工作並形成容量邊界">queue&lt;/a>](/go-advanced/backend/knowledge-cards/durable-queue)、&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/outbox-pattern/" data-link-title="Outbox Pattern" data-link-desc="說明資料庫狀態變更與事件發布如何透過 outbox 維持一致">outbox&lt;/a> 與 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/idempotency/" data-link-title="Idempotency" data-link-desc="說明同一操作執行多次時如何保持結果一致">idempotency&lt;/a> store 才能處理服務重啟、網路失敗與 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/consumer/" data-link-title="Consumer" data-link-desc="說明 consumer 如何取得等待處理的工作並產生業務結果">consumer&lt;/a> 重試。&lt;/p>
&lt;h2 id="本章目標">本章目標&lt;/h2>
&lt;p>學完本章後，你將能夠：&lt;/p>
&lt;ol>
&lt;li>理解 outbox 為什麼能避免半成功&lt;/li>
&lt;li>分辨 domain dedup key 與 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/idempotency/" data-link-title="Idempotency" data-link-desc="說明同一操作執行多次時如何保持結果一致">idempotency&lt;/a> key 的用途&lt;/li>
&lt;li>設計可重入的 consumer / processor&lt;/li>
&lt;li>用 retry、DLQ 與回補流程處理失敗事件&lt;/li>
&lt;li>把事件可靠性寫進資料結構，讓規則可以被程式與測試驗證&lt;/li>
&lt;/ol>
&lt;h2 id="前置章節">前置章節&lt;/h2>
&lt;ul>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go-advanced/01-concurrency-patterns/non-blocking-send/" data-link-title="1.3 非阻塞送出與事件丟棄策略" data-link-desc="設計 channel 滿載時的服務行為">Go 進階：非阻塞送出與事件丟棄策略&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go-advanced/04-architecture-boundaries/dedup-key/" data-link-title="4.2 事件去重與語義鍵設計" data-link-desc="用 entity ID、event type、來源語意與時間窗口建立去重鍵">Go 進階：事件去重與語義鍵設計&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go-advanced/04-architecture-boundaries/event-fusion/" data-link-title="4.4 多來源 event 融合" data-link-desc="合併 HTTP、queue、timer 與外部事件來源">Go 進階：多來源 event 融合&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/ack-nack/" data-link-title="Ack / Nack" data-link-desc="說明 consumer 如何向 broker 回報訊息處理結果">Backend：Ack / Nack&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/retry-policy/" data-link-title="Retry Policy" data-link-desc="說明重試策略如何區分暫時性錯誤、永久錯誤與副作用風險">Backend：Retry Policy&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/dead-letter-queue/" data-link-title="Dead-Letter Queue" data-link-desc="說明 dead-letter queue 如何隔離多次處理失敗的訊息">Backend：Dead-Letter Queue&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/consumer-lag/" data-link-title="Consumer Lag" data-link-desc="說明 consumer lag 如何反映訊息堆積、處理能力與容量風險">Backend：Consumer Lag&lt;/a>&lt;/li>
&lt;/ul>
&lt;h2 id="後續撰寫方向">後續撰寫方向&lt;/h2>
&lt;ol>
&lt;li>Outbox 如何避免「狀態已寫入，但事件沒送出」的半成功。&lt;/li>
&lt;li>Idempotency key 如何和 domain dedup key 分工。&lt;/li>
&lt;li>Consumer retry、&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/dead-letter-queue/" data-link-title="Dead-Letter Queue" data-link-desc="說明 dead-letter queue 如何隔離多次處理失敗的訊息">dead-letter queue&lt;/a> 與 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/poison-message/" data-link-title="Poison Message" data-link-desc="說明特定訊息內容如何穩定造成 consumer 失敗">poison message&lt;/a> 如何設計處理流程。&lt;/li>
&lt;li>At-least-once delivery 下，processor 如何保持可重入。&lt;/li>
&lt;li>Queue lag、retry count、dead-letter count 應如何進入 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/log/" data-link-title="Log" data-link-desc="說明 log 如何記錄單一事件的上下文並支援事故排查">log&lt;/a> 與 metric。&lt;/li>
&lt;/ol>
&lt;h2 id="觀察outbox-是把資料與事件綁在同一個-transaction">【觀察】outbox 是把資料與事件綁在同一個 transaction&lt;/h2>
&lt;p>outbox 的核心概念是：先把業務狀態與待發事件一起寫進資料庫，再由獨立 publisher 把 outbox 內容送到 queue 或 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/broker/" data-link-title="Broker" data-link-desc="說明 broker 在訊息傳遞系統中負責保存、路由與交付訊息">broker&lt;/a>。這樣即使 process 在寫完資料後當機，也不會丟掉事件。&lt;/p>
&lt;p>典型流程是：&lt;/p>
&lt;ol>
&lt;li>usecase 開 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/transaction/" data-link-title="Transaction" data-link-desc="說明 transaction 如何讓一組資料變更一起成功或一起回復">transaction&lt;/a>。&lt;/li>
&lt;li>寫入 domain data。&lt;/li>
&lt;li>寫入 outbox record。&lt;/li>
&lt;li>commit。&lt;/li>
&lt;li>background publisher 讀出未送出的 outbox。&lt;/li>
&lt;li>成功後把 outbox 標成已送出。&lt;/li>
&lt;/ol>
&lt;p>這個模型的重點是讓「至少會被發現並補送」成為可能。它承認跨 process 傳遞很難保證絕對只送一次，所以後續還要搭配 idempotency。&lt;/p>
&lt;h2 id="判讀idempotency-是跨-process-的必要邊界">【判讀】idempotency 是跨 process 的必要邊界&lt;/h2>
&lt;p>只要事件可能重送，consumer 就要能承受重複訊息。idempotent processor 的核心是讓同一筆事件重複進來時，結果仍然穩定。&lt;/p></description><content:encoded><![CDATA[<p>跨 process 事件傳遞的核心責任是讓事件在失敗、重試與重複投遞下仍維持可預期語意。Channel 只能處理單一 process 內的 <a href="/blog/backend/knowledge-cards/backpressure/" data-link-title="Backpressure" data-link-desc="說明下游處理速度不足時系統如何讓上游依下游能力送出工作">backpressure</a> ；[durable <a href="/blog/backend/knowledge-cards/queue/" data-link-title="Queue" data-link-desc="說明 queue 如何保存等待處理的工作並形成容量邊界">queue</a>](/go-advanced/backend/knowledge-cards/durable-queue)、<a href="/blog/backend/knowledge-cards/outbox-pattern/" data-link-title="Outbox Pattern" data-link-desc="說明資料庫狀態變更與事件發布如何透過 outbox 維持一致">outbox</a> 與 <a href="/blog/backend/knowledge-cards/idempotency/" data-link-title="Idempotency" data-link-desc="說明同一操作執行多次時如何保持結果一致">idempotency</a> store 才能處理服務重啟、網路失敗與 <a href="/blog/backend/knowledge-cards/consumer/" data-link-title="Consumer" data-link-desc="說明 consumer 如何取得等待處理的工作並產生業務結果">consumer</a> 重試。</p>
<h2 id="本章目標">本章目標</h2>
<p>學完本章後，你將能夠：</p>
<ol>
<li>理解 outbox 為什麼能避免半成功</li>
<li>分辨 domain dedup key 與 <a href="/blog/backend/knowledge-cards/idempotency/" data-link-title="Idempotency" data-link-desc="說明同一操作執行多次時如何保持結果一致">idempotency</a> key 的用途</li>
<li>設計可重入的 consumer / processor</li>
<li>用 retry、DLQ 與回補流程處理失敗事件</li>
<li>把事件可靠性寫進資料結構，讓規則可以被程式與測試驗證</li>
</ol>
<h2 id="前置章節">前置章節</h2>
<ul>
<li><a href="/blog/go-advanced/01-concurrency-patterns/non-blocking-send/" data-link-title="1.3 非阻塞送出與事件丟棄策略" data-link-desc="設計 channel 滿載時的服務行為">Go 進階：非阻塞送出與事件丟棄策略</a></li>
<li><a href="/blog/go-advanced/04-architecture-boundaries/dedup-key/" data-link-title="4.2 事件去重與語義鍵設計" data-link-desc="用 entity ID、event type、來源語意與時間窗口建立去重鍵">Go 進階：事件去重與語義鍵設計</a></li>
<li><a href="/blog/go-advanced/04-architecture-boundaries/event-fusion/" data-link-title="4.4 多來源 event 融合" data-link-desc="合併 HTTP、queue、timer 與外部事件來源">Go 進階：多來源 event 融合</a></li>
<li><a href="/blog/backend/knowledge-cards/ack-nack/" data-link-title="Ack / Nack" data-link-desc="說明 consumer 如何向 broker 回報訊息處理結果">Backend：Ack / Nack</a></li>
<li><a href="/blog/backend/knowledge-cards/retry-policy/" data-link-title="Retry Policy" data-link-desc="說明重試策略如何區分暫時性錯誤、永久錯誤與副作用風險">Backend：Retry Policy</a></li>
<li><a href="/blog/backend/knowledge-cards/dead-letter-queue/" data-link-title="Dead-Letter Queue" data-link-desc="說明 dead-letter queue 如何隔離多次處理失敗的訊息">Backend：Dead-Letter Queue</a></li>
<li><a href="/blog/backend/knowledge-cards/consumer-lag/" data-link-title="Consumer Lag" data-link-desc="說明 consumer lag 如何反映訊息堆積、處理能力與容量風險">Backend：Consumer Lag</a></li>
</ul>
<h2 id="後續撰寫方向">後續撰寫方向</h2>
<ol>
<li>Outbox 如何避免「狀態已寫入，但事件沒送出」的半成功。</li>
<li>Idempotency key 如何和 domain dedup key 分工。</li>
<li>Consumer retry、<a href="/blog/backend/knowledge-cards/dead-letter-queue/" data-link-title="Dead-Letter Queue" data-link-desc="說明 dead-letter queue 如何隔離多次處理失敗的訊息">dead-letter queue</a> 與 <a href="/blog/backend/knowledge-cards/poison-message/" data-link-title="Poison Message" data-link-desc="說明特定訊息內容如何穩定造成 consumer 失敗">poison message</a> 如何設計處理流程。</li>
<li>At-least-once delivery 下，processor 如何保持可重入。</li>
<li>Queue lag、retry count、dead-letter count 應如何進入 <a href="/blog/backend/knowledge-cards/log/" data-link-title="Log" data-link-desc="說明 log 如何記錄單一事件的上下文並支援事故排查">log</a> 與 metric。</li>
</ol>
<h2 id="觀察outbox-是把資料與事件綁在同一個-transaction">【觀察】outbox 是把資料與事件綁在同一個 transaction</h2>
<p>outbox 的核心概念是：先把業務狀態與待發事件一起寫進資料庫，再由獨立 publisher 把 outbox 內容送到 queue 或 <a href="/blog/backend/knowledge-cards/broker/" data-link-title="Broker" data-link-desc="說明 broker 在訊息傳遞系統中負責保存、路由與交付訊息">broker</a>。這樣即使 process 在寫完資料後當機，也不會丟掉事件。</p>
<p>典型流程是：</p>
<ol>
<li>usecase 開 <a href="/blog/backend/knowledge-cards/transaction/" data-link-title="Transaction" data-link-desc="說明 transaction 如何讓一組資料變更一起成功或一起回復">transaction</a>。</li>
<li>寫入 domain data。</li>
<li>寫入 outbox record。</li>
<li>commit。</li>
<li>background publisher 讀出未送出的 outbox。</li>
<li>成功後把 outbox 標成已送出。</li>
</ol>
<p>這個模型的重點是讓「至少會被發現並補送」成為可能。它承認跨 process 傳遞很難保證絕對只送一次，所以後續還要搭配 idempotency。</p>
<h2 id="判讀idempotency-是跨-process-的必要邊界">【判讀】idempotency 是跨 process 的必要邊界</h2>
<p>只要事件可能重送，consumer 就要能承受重複訊息。idempotent processor 的核心是讓同一筆事件重複進來時，結果仍然穩定。</p>
<p>常見做法包括：</p>
<ul>
<li>用 event ID 記錄已處理過的訊息</li>
<li>用 domain key 去重，讓同一個業務操作不會重複套用</li>
<li>用狀態機檢查 transition 是否已發生</li>
</ul>
<h2 id="策略dlq-是流程的一部分">【策略】DLQ 是流程的一部分</h2>
<p>當事件重試失敗，dead-letter queue 要變成可處理的操作流程。你要知道：</p>
<ul>
<li>為什麼失敗</li>
<li>要重試幾次</li>
<li>什麼錯誤可以直接放棄</li>
<li>什麼錯誤需要人工回補</li>
</ul>
<p>如果沒有這些規則，DLQ 只會變成看不完的黑洞。</p>
<h2 id="執行可重入-processor-的基本形式">【執行】可重入 processor 的基本形式</h2>
<p>可重入的核心要求是同一事件重跑時，不會把資料弄壞。簡化的處理流程通常長這樣：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-go" data-lang="go"><span class="line"><span class="ln"> 1</span><span class="cl"><span class="kd">func</span> <span class="p">(</span><span class="nx">p</span> <span class="o">*</span><span class="nx">Processor</span><span class="p">)</span> <span class="nf">Handle</span><span class="p">(</span><span class="nx">ctx</span> <span class="nx">context</span><span class="p">.</span><span class="nx">Context</span><span class="p">,</span> <span class="nx">evt</span> <span class="nx">Event</span><span class="p">)</span> <span class="kt">error</span> <span class="p">{</span>
</span></span><span class="line"><span class="ln"> 2</span><span class="cl">    <span class="k">if</span> <span class="nx">p</span><span class="p">.</span><span class="nx">store</span><span class="p">.</span><span class="nf">Seen</span><span class="p">(</span><span class="nx">evt</span><span class="p">.</span><span class="nx">ID</span><span class="p">)</span> <span class="p">{</span>
</span></span><span class="line"><span class="ln"> 3</span><span class="cl">        <span class="k">return</span> <span class="kc">nil</span>
</span></span><span class="line"><span class="ln"> 4</span><span class="cl">    <span class="p">}</span>
</span></span><span class="line"><span class="ln"> 5</span><span class="cl">
</span></span><span class="line"><span class="ln"> 6</span><span class="cl">    <span class="k">if</span> <span class="nx">err</span> <span class="o">:=</span> <span class="nx">p</span><span class="p">.</span><span class="nx">store</span><span class="p">.</span><span class="nf">Apply</span><span class="p">(</span><span class="nx">ctx</span><span class="p">,</span> <span class="nx">evt</span><span class="p">);</span> <span class="nx">err</span> <span class="o">!=</span> <span class="kc">nil</span> <span class="p">{</span>
</span></span><span class="line"><span class="ln"> 7</span><span class="cl">        <span class="k">return</span> <span class="nx">err</span>
</span></span><span class="line"><span class="ln"> 8</span><span class="cl">    <span class="p">}</span>
</span></span><span class="line"><span class="ln"> 9</span><span class="cl">
</span></span><span class="line"><span class="ln">10</span><span class="cl">    <span class="k">return</span> <span class="nx">p</span><span class="p">.</span><span class="nx">store</span><span class="p">.</span><span class="nf">MarkSeen</span><span class="p">(</span><span class="nx">ctx</span><span class="p">,</span> <span class="nx">evt</span><span class="p">.</span><span class="nx">ID</span><span class="p">)</span>
</span></span><span class="line"><span class="ln">11</span><span class="cl"><span class="p">}</span></span></span></code></pre></div><p>實際實作時，<code>Seen</code> 與 <code>MarkSeen</code> 通常要跟業務狀態放在同一個一致性邊界裡，避免競態。</p>
<h2 id="延伸queue-lag-與-retry-需要被觀測">【延伸】queue lag 與 retry 需要被觀測</h2>
<p>只要有 durable queue，就一定會有 backlog、retry 與 failure pattern。這些訊號應進入 log 與 metric，讓工程師知道是 <a href="/blog/backend/knowledge-cards/producer/" data-link-title="Producer" data-link-desc="說明 producer 如何把工作、事件或資料送入後續處理路徑">producer</a> 變慢、consumer 壞掉，還是下游依賴正在抖動。</p>
<h2 id="本章不處理">本章不處理</h2>
<p>本章不追求 exactly-once 的口號。教材重點會放在 Go 服務如何承認 at-least-once 的現實，並用 idempotent processor、outbox 與可觀測欄位降低風險。</p>
<h2 id="和-go-教材的關係">和 Go 教材的關係</h2>
<p>這一章承接 Go 的事件邊界與非阻塞送出；如果你要先回看語言教材，可以讀：</p>
<ul>
<li><a href="/blog/go-advanced/01-concurrency-patterns/non-blocking-send/" data-link-title="1.3 非阻塞送出與事件丟棄策略" data-link-desc="設計 channel 滿載時的服務行為">Go 進階：非阻塞送出與事件丟棄策略</a></li>
<li><a href="/blog/go-advanced/04-architecture-boundaries/dedup-key/" data-link-title="4.2 事件去重與語義鍵設計" data-link-desc="用 entity ID、event type、來源語意與時間窗口建立去重鍵">Go 進階：事件去重與語義鍵設計</a></li>
<li><a href="/blog/go-advanced/04-architecture-boundaries/event-fusion/" data-link-title="4.4 多來源 event 融合" data-link-desc="合併 HTTP、queue、timer 與外部事件來源">Go 進階：多來源 event 融合</a></li>
</ul>
]]></content:encoded></item><item><title>7.3 跨節點 WebSocket、presence 與重連協定</title><link>https://tarrragon.github.io/blog/go-advanced/07-distributed-operations/cross-node-websocket/</link><pubDate>Wed, 22 Apr 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/go-advanced/07-distributed-operations/cross-node-websocket/</guid><description>&lt;p>跨節點 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/websocket/" data-link-title="WebSocket" data-link-desc="說明 WebSocket 如何提供長連線雙向即時通訊">WebSocket&lt;/a> 的核心責任是把連線狀態、訂閱狀態與推送路徑從單一記憶體 hub 延伸到多台 server。單一 process 內的 read pump、write pump、heartbeat 與 slow client 策略仍然有效，但跨節點後還需要 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/broker/" data-link-title="Broker" data-link-desc="說明 broker 在訊息傳遞系統中負責保存、路由與交付訊息">broker&lt;/a>、presence store、重連協定與授權邊界。&lt;/p>
&lt;h2 id="本章目標">本章目標&lt;/h2>
&lt;p>學完本章後，你將能夠：&lt;/p>
&lt;ol>
&lt;li>理解單節點 hub 為什麼不夠&lt;/li>
&lt;li>看懂 presence store 與 broker 在系統中的角色&lt;/li>
&lt;li>設計 reconnect 後的補資料流程&lt;/li>
&lt;li>分辨訂閱路由、連線管理與授權邊界&lt;/li>
&lt;li>讓多台 server 在語意上看起來像同一個訊息系統&lt;/li>
&lt;/ol>
&lt;h2 id="前置章節">前置章節&lt;/h2>
&lt;ul>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go-advanced/02-networking-websocket/read-write-pump/" data-link-title="2.1 read pump / write pump 模式" data-link-desc="分離 WebSocket 讀取、寫入與心跳">Go 進階：read pump / write pump 模式&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go-advanced/02-networking-websocket/heartbeat-deadline/" data-link-title="2.2 heartbeat、deadline 與連線清理" data-link-desc="用 ping/pong 和 deadline 偵測失效連線">Go 進階：heartbeat、deadline 與連線清理&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go-advanced/02-networking-websocket/subscription-routing/" data-link-title="2.3 訂閱模型與訊息路由" data-link-desc="將 client action 對應到主題訂閱狀態">Go 進階：訂閱模型與訊息路由&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go-advanced/02-networking-websocket/slow-client/" data-link-title="2.4 慢客戶端與 send buffer 管理" data-link-desc="控制推送佇列與記憶體風險">Go 進階：慢客戶端與 send buffer 管理&lt;/a>&lt;/li>
&lt;/ul>
&lt;h2 id="後續撰寫方向">後續撰寫方向&lt;/h2>
&lt;ol>
&lt;li>多台 server 如何知道某個 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/topic/" data-link-title="Topic" data-link-desc="說明 topic 如何把事件依主題分流給不同訂閱者">topic&lt;/a> 的訂閱者在哪些節點。&lt;/li>
&lt;li>Presence store 如何記錄 client online、offline 與最後活動時間。&lt;/li>
&lt;li>Broker &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/fan-out/" data-link-title="Fan-out" data-link-desc="說明單一事件同時分發給多個下游的訊息拓撲">fan-out&lt;/a> 如何和每個節點本地 send &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/buffer/" data-link-title="Buffer" data-link-desc="說明系統如何用暫存空間吸收短暫速度差與尖峰流量">buffer&lt;/a> 策略銜接。&lt;/li>
&lt;li>Client reconnect 如何使用 cursor、last event ID 或 snapshot 補資料。&lt;/li>
&lt;li>Topic ACL 與 subscription &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/authorization/" data-link-title="Authorization" data-link-desc="說明授權如何判斷誰能對哪些資源執行哪些操作">authorization&lt;/a> 應放在 router、usecase 還是 gateway。&lt;/li>
&lt;/ol>
&lt;h2 id="觀察跨節點-websocket-的核心問題是狀態協調">【觀察】跨節點 WebSocket 的核心問題是狀態協調&lt;/h2>
&lt;p>WebSocket 協定解決的是單一連線的雙向通訊，但跨節點之後，真正麻煩的是狀態分散在多台 server。某個 client 可能連到 A 節點，但它關注的 topic 事件卻從 B 節點產生，這時就需要能夠路由、轉送與補資料。&lt;/p>
&lt;p>所以跨節點 WebSocket 的問題不只是「能不能推送」，而是：&lt;/p>
&lt;ul>
&lt;li>這個 client 現在在哪台 server&lt;/li>
&lt;li>它訂閱了哪些 topic&lt;/li>
&lt;li>推送失敗後要不要重送&lt;/li>
&lt;li>重新連線後要從哪裡補回遺漏事件&lt;/li>
&lt;/ul>
&lt;h2 id="判讀presence-store-是操作查詢">【判讀】presence store 是操作查詢&lt;/h2>
&lt;p>presence store 的用途是讓系統知道某個 client 或節點目前大概在線上還是離線。它通常是操作性資料，不一定是業務真相。&lt;/p>
&lt;p>常見欄位包括：&lt;/p>
&lt;ul>
&lt;li>client ID&lt;/li>
&lt;li>node ID&lt;/li>
&lt;li>connected at&lt;/li>
&lt;li>last seen&lt;/li>
&lt;li>subscription keys&lt;/li>
&lt;/ul>
&lt;p>這類資料要允許過期與清理，因為斷線、網路抖動與 crash 都可能讓狀態暫時不準。&lt;/p>
&lt;h2 id="策略reconnect-一定要有補資料設計">【策略】reconnect 一定要有補資料設計&lt;/h2>
&lt;p>只靠重新連上 WebSocket 並不能保證使用者不漏訊息。當連線中斷時，常見的補資料方式有：&lt;/p>
&lt;ul>
&lt;li>last event ID&lt;/li>
&lt;li>cursor / &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/offset/" data-link-title="Offset" data-link-desc="說明 consumer 在事件流中的讀取位置與重放基準">offset&lt;/a>&lt;/li>
&lt;li>snapshot + delta&lt;/li>
&lt;/ul>
&lt;p>選哪一種，取決於你的事件是否可排序、是否可回放，以及業務能容忍多大的缺口。&lt;/p>
&lt;h2 id="執行推送路徑通常要分三層">【執行】推送路徑通常要分三層&lt;/h2>
&lt;p>跨節點場景下，推送路徑常見會分成：&lt;/p>
&lt;ol>
&lt;li>事件產生端把訊息交給 broker 或 routing layer。&lt;/li>
&lt;li>節點收到後，交給本機 hub / connection manager。&lt;/li>
&lt;li>write pump 再把訊息送到單一 client。&lt;/li>
&lt;/ol>
&lt;p>這樣可以維持單一寫入者原則，避免多個 goroutine 同時寫 WebSocket。&lt;/p></description><content:encoded><![CDATA[<p>跨節點 <a href="/blog/backend/knowledge-cards/websocket/" data-link-title="WebSocket" data-link-desc="說明 WebSocket 如何提供長連線雙向即時通訊">WebSocket</a> 的核心責任是把連線狀態、訂閱狀態與推送路徑從單一記憶體 hub 延伸到多台 server。單一 process 內的 read pump、write pump、heartbeat 與 slow client 策略仍然有效，但跨節點後還需要 <a href="/blog/backend/knowledge-cards/broker/" data-link-title="Broker" data-link-desc="說明 broker 在訊息傳遞系統中負責保存、路由與交付訊息">broker</a>、presence store、重連協定與授權邊界。</p>
<h2 id="本章目標">本章目標</h2>
<p>學完本章後，你將能夠：</p>
<ol>
<li>理解單節點 hub 為什麼不夠</li>
<li>看懂 presence store 與 broker 在系統中的角色</li>
<li>設計 reconnect 後的補資料流程</li>
<li>分辨訂閱路由、連線管理與授權邊界</li>
<li>讓多台 server 在語意上看起來像同一個訊息系統</li>
</ol>
<h2 id="前置章節">前置章節</h2>
<ul>
<li><a href="/blog/go-advanced/02-networking-websocket/read-write-pump/" data-link-title="2.1 read pump / write pump 模式" data-link-desc="分離 WebSocket 讀取、寫入與心跳">Go 進階：read pump / write pump 模式</a></li>
<li><a href="/blog/go-advanced/02-networking-websocket/heartbeat-deadline/" data-link-title="2.2 heartbeat、deadline 與連線清理" data-link-desc="用 ping/pong 和 deadline 偵測失效連線">Go 進階：heartbeat、deadline 與連線清理</a></li>
<li><a href="/blog/go-advanced/02-networking-websocket/subscription-routing/" data-link-title="2.3 訂閱模型與訊息路由" data-link-desc="將 client action 對應到主題訂閱狀態">Go 進階：訂閱模型與訊息路由</a></li>
<li><a href="/blog/go-advanced/02-networking-websocket/slow-client/" data-link-title="2.4 慢客戶端與 send buffer 管理" data-link-desc="控制推送佇列與記憶體風險">Go 進階：慢客戶端與 send buffer 管理</a></li>
</ul>
<h2 id="後續撰寫方向">後續撰寫方向</h2>
<ol>
<li>多台 server 如何知道某個 <a href="/blog/backend/knowledge-cards/topic/" data-link-title="Topic" data-link-desc="說明 topic 如何把事件依主題分流給不同訂閱者">topic</a> 的訂閱者在哪些節點。</li>
<li>Presence store 如何記錄 client online、offline 與最後活動時間。</li>
<li>Broker <a href="/blog/backend/knowledge-cards/fan-out/" data-link-title="Fan-out" data-link-desc="說明單一事件同時分發給多個下游的訊息拓撲">fan-out</a> 如何和每個節點本地 send <a href="/blog/backend/knowledge-cards/buffer/" data-link-title="Buffer" data-link-desc="說明系統如何用暫存空間吸收短暫速度差與尖峰流量">buffer</a> 策略銜接。</li>
<li>Client reconnect 如何使用 cursor、last event ID 或 snapshot 補資料。</li>
<li>Topic ACL 與 subscription <a href="/blog/backend/knowledge-cards/authorization/" data-link-title="Authorization" data-link-desc="說明授權如何判斷誰能對哪些資源執行哪些操作">authorization</a> 應放在 router、usecase 還是 gateway。</li>
</ol>
<h2 id="觀察跨節點-websocket-的核心問題是狀態協調">【觀察】跨節點 WebSocket 的核心問題是狀態協調</h2>
<p>WebSocket 協定解決的是單一連線的雙向通訊，但跨節點之後，真正麻煩的是狀態分散在多台 server。某個 client 可能連到 A 節點，但它關注的 topic 事件卻從 B 節點產生，這時就需要能夠路由、轉送與補資料。</p>
<p>所以跨節點 WebSocket 的問題不只是「能不能推送」，而是：</p>
<ul>
<li>這個 client 現在在哪台 server</li>
<li>它訂閱了哪些 topic</li>
<li>推送失敗後要不要重送</li>
<li>重新連線後要從哪裡補回遺漏事件</li>
</ul>
<h2 id="判讀presence-store-是操作查詢">【判讀】presence store 是操作查詢</h2>
<p>presence store 的用途是讓系統知道某個 client 或節點目前大概在線上還是離線。它通常是操作性資料，不一定是業務真相。</p>
<p>常見欄位包括：</p>
<ul>
<li>client ID</li>
<li>node ID</li>
<li>connected at</li>
<li>last seen</li>
<li>subscription keys</li>
</ul>
<p>這類資料要允許過期與清理，因為斷線、網路抖動與 crash 都可能讓狀態暫時不準。</p>
<h2 id="策略reconnect-一定要有補資料設計">【策略】reconnect 一定要有補資料設計</h2>
<p>只靠重新連上 WebSocket 並不能保證使用者不漏訊息。當連線中斷時，常見的補資料方式有：</p>
<ul>
<li>last event ID</li>
<li>cursor / <a href="/blog/backend/knowledge-cards/offset/" data-link-title="Offset" data-link-desc="說明 consumer 在事件流中的讀取位置與重放基準">offset</a></li>
<li>snapshot + delta</li>
</ul>
<p>選哪一種，取決於你的事件是否可排序、是否可回放，以及業務能容忍多大的缺口。</p>
<h2 id="執行推送路徑通常要分三層">【執行】推送路徑通常要分三層</h2>
<p>跨節點場景下，推送路徑常見會分成：</p>
<ol>
<li>事件產生端把訊息交給 broker 或 routing layer。</li>
<li>節點收到後，交給本機 hub / connection manager。</li>
<li>write pump 再把訊息送到單一 client。</li>
</ol>
<p>這樣可以維持單一寫入者原則，避免多個 goroutine 同時寫 WebSocket。</p>
<h2 id="延伸授權應該在進入路由前就處理">【延伸】授權應該在進入路由前就處理</h2>
<p>Topic ACL 要在訂閱建立時就確認這個 client 是否有資格加入。這能減少不必要的 fan-out 與敏感資料外流。</p>
<h2 id="本章不處理">本章不處理</h2>
<p>本章不會選定特定 broker 或 presence <a href="/blog/backend/knowledge-cards/database/" data-link-title="Database" data-link-desc="說明 database 在後端系統中如何承擔正式狀態、查詢與一致性責任">database</a>。重點是先讓跨節點責任可見，再依服務需求選擇 Redis、NATS、Kafka、PostgreSQL 或其他基礎設施。</p>
<h2 id="和-go-教材的關係">和 Go 教材的關係</h2>
<p>這一章承接的是 WebSocket 連線架構與事件路由；如果你要先回看語言教材，可以讀：</p>
<ul>
<li><a href="/blog/go-advanced/02-networking-websocket/read-write-pump/" data-link-title="2.1 read pump / write pump 模式" data-link-desc="分離 WebSocket 讀取、寫入與心跳">Go 進階：read/write pump 模式</a></li>
<li><a href="/blog/go-advanced/02-networking-websocket/heartbeat-deadline/" data-link-title="2.2 heartbeat、deadline 與連線清理" data-link-desc="用 ping/pong 和 deadline 偵測失效連線">Go 進階：heartbeat、deadline 與連線清理</a></li>
<li><a href="/blog/go-advanced/02-networking-websocket/subscription-routing/" data-link-title="2.3 訂閱模型與訊息路由" data-link-desc="將 client action 對應到主題訂閱狀態">Go 進階：訂閱模型與訊息路由</a></li>
<li><a href="/blog/go-advanced/02-networking-websocket/slow-client/" data-link-title="2.4 慢客戶端與 send buffer 管理" data-link-desc="控制推送佇列與記憶體風險">Go 進階：慢客戶端與 send buffer 管理</a></li>
</ul>
]]></content:encoded></item><item><title>7.4 Observability pipeline、metrics 與 tracing</title><link>https://tarrragon.github.io/blog/go-advanced/07-distributed-operations/observability-pipeline/</link><pubDate>Wed, 22 Apr 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/go-advanced/07-distributed-operations/observability-pipeline/</guid><description>&lt;p>Observability pipeline 的核心責任是把服務訊號整理成可查詢、可聚合、可關聯的診斷資料。&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/log-schema/" data-link-title="Log Schema" data-link-desc="說明結構化 log 欄位如何支援搜尋、關聯與事故排查">Log schema&lt;/a> 描述單次事件，&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/metrics/" data-link-title="Metrics" data-link-desc="說明指標如何描述服務趨勢、容量與健康狀態">metrics&lt;/a> 描述趨勢，&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/trace-context/" data-link-title="Trace Context" data-link-desc="說明跨服務 request 如何用 trace context 串起路徑與耗時">trace context&lt;/a> 描述跨元件路徑，profile 描述 runtime 成本；它們的責任不同，但應使用一致的識別欄位串起來。&lt;/p>
&lt;h2 id="本章目標">本章目標&lt;/h2>
&lt;p>學完本章後，你將能夠：&lt;/p>
&lt;ol>
&lt;li>分辨 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/log/" data-link-title="Log" data-link-desc="說明 log 如何記錄單一事件的上下文並支援事故排查">log&lt;/a>、metric、&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/trace/" data-link-title="Trace" data-link-desc="說明 trace 如何重建跨服務請求的路徑、耗時與依賴關係">trace&lt;/a> 與 profile 各自回答什麼問題&lt;/li>
&lt;li>設計穩定的 correlation 欄位&lt;/li>
&lt;li>讓 Go 服務輸出適合聚合的診斷訊號&lt;/li>
&lt;li>在產生端控制敏感資料進入觀測管線&lt;/li>
&lt;li>了解 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/dashboard/" data-link-title="Dashboard" data-link-desc="說明 dashboard 如何把關鍵訊號組成可判讀的服務狀態畫面">dashboard&lt;/a> 與 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/alert/" data-link-title="Alert" data-link-desc="說明 alert 如何把需要處理的服務症狀轉成可行動通知">alert&lt;/a> 為什麼需要依賴穩定欄位&lt;/li>
&lt;/ol>
&lt;h2 id="前置章節">前置章節&lt;/h2>
&lt;ul>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go/03-stdlib/slog/" data-link-title="3.6 log/slog：結構化日誌" data-link-desc="用 key-value log 設計可查詢、可過濾的程式訊號">Go 入門：log/slog：結構化日誌&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go-advanced/03-runtime-profiling/pprof/" data-link-title="3.2 pprof 基礎診斷流程" data-link-desc="用 pprof endpoint 診斷 heap、goroutine 與 CPU 問題">Go 進階：pprof 基礎診斷流程&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go-advanced/06-production-operations/log-fields/" data-link-title="6.3 結構化日誌欄位設計" data-link-desc="讓 log 可 grep、可聚合、可追蹤">Go 進階：結構化日誌欄位設計&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go-advanced/06-production-operations/health-diagnostics/" data-link-title="6.2 健康檢查與診斷 endpoint" data-link-desc="區分服務可用性與工程診斷入口">Go 進階：健康檢查與診斷 endpoint&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/sli-slo/" data-link-title="SLI / SLO" data-link-desc="說明服務品質指標與服務品質目標如何連接產品承諾">Backend：SLI / SLO&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/metric-cardinality/" data-link-title="Metric Cardinality" data-link-desc="說明 metric label 組合數量如何影響觀測成本與查詢穩定性">Backend：Metric Cardinality&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/alert-runbook/" data-link-title="Alert Runbook" data-link-desc="說明告警如何連到可執行的排障與恢復流程">Backend：Alert Runbook&lt;/a>&lt;/li>
&lt;/ul>
&lt;h2 id="後續撰寫方向">後續撰寫方向&lt;/h2>
&lt;ol>
&lt;li>Log、metric、trace、profile 分別回答哪些問題。&lt;/li>
&lt;li>&lt;code>request_id&lt;/code>、&lt;code>event_id&lt;/code>、&lt;code>trace_id&lt;/code>、&lt;code>span_id&lt;/code> 與 &lt;code>correlation_id&lt;/code> 如何分工。&lt;/li>
&lt;li>OpenTelemetry 導入時，Go 程式碼應保留哪些清楚邊界。&lt;/li>
&lt;li>Sensitive data policy 如何套用到 log、trace attribute 與 error event。&lt;/li>
&lt;li>Dashboard 與 alert 應依賴穩定欄位，讓查詢與告警規則可以被重複執行。&lt;/li>
&lt;/ol>
&lt;h2 id="觀察診斷資料要先可關聯再談漂亮">【觀察】診斷資料要先可關聯，再談漂亮&lt;/h2>
&lt;p>Observability pipeline 的第一個要求是關聯能力。Log、metric、trace 的格式可以各自精緻，但欄位需要對齊，才能把同一筆請求、同一個事件、同一條 goroutine 路徑串起來。&lt;/p>
&lt;p>通常會先建立幾個穩定欄位：&lt;/p>
&lt;ul>
&lt;li>request_id&lt;/li>
&lt;li>event_id&lt;/li>
&lt;li>trace_id&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/span/" data-link-title="Span" data-link-desc="說明 trace 中一段工作如何記錄耗時、狀態與關聯">span&lt;/a>_id&lt;/li>
&lt;li>user_id 或 tenant_id&lt;/li>
&lt;/ul>
&lt;h2 id="判讀不同訊號回答不同問題">【判讀】不同訊號回答不同問題&lt;/h2>
&lt;ul>
&lt;li>log：這次發生了什麼。&lt;/li>
&lt;li>metric：這類事件發生得多不多、快不快、慢不慢。&lt;/li>
&lt;li>trace：它在多個元件之間怎麼走。&lt;/li>
&lt;li>profile：CPU、記憶體、goroutine 與等待成本落在哪裡。&lt;/li>
&lt;/ul>
&lt;p>如果某個問題要靠自由文字 log 去猜，通常代表欄位設計還不夠穩。&lt;/p>
&lt;h2 id="策略敏感資料要在產生端就攔住">【策略】敏感資料要在產生端就攔住&lt;/h2>
&lt;p>敏感資料政策應在產生端執行。Go 服務應該在輸出 log 或 trace attribute 前就決定哪些資訊可以外送。&lt;/p>
&lt;p>常見要注意的資料有：&lt;/p>
&lt;ul>
&lt;li>token&lt;/li>
&lt;li>email&lt;/li>
&lt;li>身分證號&lt;/li>
&lt;li>raw payload&lt;/li>
&lt;li>內部路徑與配置&lt;/li>
&lt;/ul>
&lt;h2 id="執行結構化-log-是-pipeline-的起點">【執行】結構化 log 是 pipeline 的起點&lt;/h2>
&lt;p>當 Go 服務使用結構化 log 時，最重要的是欄位穩定與語意清楚。這些 log 後面可能會被：&lt;/p>
&lt;ul>
&lt;li>集中式 log system 搜尋&lt;/li>
&lt;li>metric extraction 轉成趨勢指標&lt;/li>
&lt;li>alert rule 用來偵測異常&lt;/li>
&lt;/ul>
&lt;p>所以 log 欄位要維持穩定命名，分類資訊要放在結構化欄位裡。&lt;/p></description><content:encoded><![CDATA[<p>Observability pipeline 的核心責任是把服務訊號整理成可查詢、可聚合、可關聯的診斷資料。<a href="/blog/backend/knowledge-cards/log-schema/" data-link-title="Log Schema" data-link-desc="說明結構化 log 欄位如何支援搜尋、關聯與事故排查">Log schema</a> 描述單次事件，<a href="/blog/backend/knowledge-cards/metrics/" data-link-title="Metrics" data-link-desc="說明指標如何描述服務趨勢、容量與健康狀態">metrics</a> 描述趨勢，<a href="/blog/backend/knowledge-cards/trace-context/" data-link-title="Trace Context" data-link-desc="說明跨服務 request 如何用 trace context 串起路徑與耗時">trace context</a> 描述跨元件路徑，profile 描述 runtime 成本；它們的責任不同，但應使用一致的識別欄位串起來。</p>
<h2 id="本章目標">本章目標</h2>
<p>學完本章後，你將能夠：</p>
<ol>
<li>分辨 <a href="/blog/backend/knowledge-cards/log/" data-link-title="Log" data-link-desc="說明 log 如何記錄單一事件的上下文並支援事故排查">log</a>、metric、<a href="/blog/backend/knowledge-cards/trace/" data-link-title="Trace" data-link-desc="說明 trace 如何重建跨服務請求的路徑、耗時與依賴關係">trace</a> 與 profile 各自回答什麼問題</li>
<li>設計穩定的 correlation 欄位</li>
<li>讓 Go 服務輸出適合聚合的診斷訊號</li>
<li>在產生端控制敏感資料進入觀測管線</li>
<li>了解 <a href="/blog/backend/knowledge-cards/dashboard/" data-link-title="Dashboard" data-link-desc="說明 dashboard 如何把關鍵訊號組成可判讀的服務狀態畫面">dashboard</a> 與 <a href="/blog/backend/knowledge-cards/alert/" data-link-title="Alert" data-link-desc="說明 alert 如何把需要處理的服務症狀轉成可行動通知">alert</a> 為什麼需要依賴穩定欄位</li>
</ol>
<h2 id="前置章節">前置章節</h2>
<ul>
<li><a href="/blog/go/03-stdlib/slog/" data-link-title="3.6 log/slog：結構化日誌" data-link-desc="用 key-value log 設計可查詢、可過濾的程式訊號">Go 入門：log/slog：結構化日誌</a></li>
<li><a href="/blog/go-advanced/03-runtime-profiling/pprof/" data-link-title="3.2 pprof 基礎診斷流程" data-link-desc="用 pprof endpoint 診斷 heap、goroutine 與 CPU 問題">Go 進階：pprof 基礎診斷流程</a></li>
<li><a href="/blog/go-advanced/06-production-operations/log-fields/" data-link-title="6.3 結構化日誌欄位設計" data-link-desc="讓 log 可 grep、可聚合、可追蹤">Go 進階：結構化日誌欄位設計</a></li>
<li><a href="/blog/go-advanced/06-production-operations/health-diagnostics/" data-link-title="6.2 健康檢查與診斷 endpoint" data-link-desc="區分服務可用性與工程診斷入口">Go 進階：健康檢查與診斷 endpoint</a></li>
<li><a href="/blog/backend/knowledge-cards/sli-slo/" data-link-title="SLI / SLO" data-link-desc="說明服務品質指標與服務品質目標如何連接產品承諾">Backend：SLI / SLO</a></li>
<li><a href="/blog/backend/knowledge-cards/metric-cardinality/" data-link-title="Metric Cardinality" data-link-desc="說明 metric label 組合數量如何影響觀測成本與查詢穩定性">Backend：Metric Cardinality</a></li>
<li><a href="/blog/backend/knowledge-cards/alert-runbook/" data-link-title="Alert Runbook" data-link-desc="說明告警如何連到可執行的排障與恢復流程">Backend：Alert Runbook</a></li>
</ul>
<h2 id="後續撰寫方向">後續撰寫方向</h2>
<ol>
<li>Log、metric、trace、profile 分別回答哪些問題。</li>
<li><code>request_id</code>、<code>event_id</code>、<code>trace_id</code>、<code>span_id</code> 與 <code>correlation_id</code> 如何分工。</li>
<li>OpenTelemetry 導入時，Go 程式碼應保留哪些清楚邊界。</li>
<li>Sensitive data policy 如何套用到 log、trace attribute 與 error event。</li>
<li>Dashboard 與 alert 應依賴穩定欄位，讓查詢與告警規則可以被重複執行。</li>
</ol>
<h2 id="觀察診斷資料要先可關聯再談漂亮">【觀察】診斷資料要先可關聯，再談漂亮</h2>
<p>Observability pipeline 的第一個要求是關聯能力。Log、metric、trace 的格式可以各自精緻，但欄位需要對齊，才能把同一筆請求、同一個事件、同一條 goroutine 路徑串起來。</p>
<p>通常會先建立幾個穩定欄位：</p>
<ul>
<li>request_id</li>
<li>event_id</li>
<li>trace_id</li>
<li><a href="/blog/backend/knowledge-cards/span/" data-link-title="Span" data-link-desc="說明 trace 中一段工作如何記錄耗時、狀態與關聯">span</a>_id</li>
<li>user_id 或 tenant_id</li>
</ul>
<h2 id="判讀不同訊號回答不同問題">【判讀】不同訊號回答不同問題</h2>
<ul>
<li>log：這次發生了什麼。</li>
<li>metric：這類事件發生得多不多、快不快、慢不慢。</li>
<li>trace：它在多個元件之間怎麼走。</li>
<li>profile：CPU、記憶體、goroutine 與等待成本落在哪裡。</li>
</ul>
<p>如果某個問題要靠自由文字 log 去猜，通常代表欄位設計還不夠穩。</p>
<h2 id="策略敏感資料要在產生端就攔住">【策略】敏感資料要在產生端就攔住</h2>
<p>敏感資料政策應在產生端執行。Go 服務應該在輸出 log 或 trace attribute 前就決定哪些資訊可以外送。</p>
<p>常見要注意的資料有：</p>
<ul>
<li>token</li>
<li>email</li>
<li>身分證號</li>
<li>raw payload</li>
<li>內部路徑與配置</li>
</ul>
<h2 id="執行結構化-log-是-pipeline-的起點">【執行】結構化 log 是 pipeline 的起點</h2>
<p>當 Go 服務使用結構化 log 時，最重要的是欄位穩定與語意清楚。這些 log 後面可能會被：</p>
<ul>
<li>集中式 log system 搜尋</li>
<li>metric extraction 轉成趨勢指標</li>
<li>alert rule 用來偵測異常</li>
</ul>
<p>所以 log 欄位要維持穩定命名，分類資訊要放在結構化欄位裡。</p>
<h2 id="延伸診斷和容量規劃要串在一起">【延伸】診斷和容量規劃要串在一起</h2>
<p>觀測資料不只是事後排障，也會反過來影響容量規劃與 release 判斷。當你看到 goroutine 數、<a href="/blog/backend/knowledge-cards/queue/" data-link-title="Queue" data-link-desc="說明 queue 如何保存等待處理的工作並形成容量邊界">queue</a> lag、DB latency 或 retry rate 持續變高，就代表系統邊界已經開始吃緊。</p>
<h2 id="本章不處理">本章不處理</h2>
<p>本章不會綁定特定 observability SaaS。教材重點會放在 Go 服務如何輸出穩定訊號，讓不同收集平台都能使用。</p>
<h2 id="和-go-教材的關係">和 Go 教材的關係</h2>
<p>這一章承接的是 Go 的結構化日誌與 runtime 診斷；如果你要先回看語言教材，可以讀：</p>
<ul>
<li><a href="/blog/go/03-stdlib/slog/" data-link-title="3.6 log/slog：結構化日誌" data-link-desc="用 key-value log 設計可查詢、可過濾的程式訊號">Go：結構化日誌</a></li>
<li><a href="/blog/go-advanced/03-runtime-profiling/pprof/" data-link-title="3.2 pprof 基礎診斷流程" data-link-desc="用 pprof endpoint 診斷 heap、goroutine 與 CPU 問題">Go 進階：pprof 基礎診斷流程</a></li>
<li><a href="/blog/go-advanced/06-production-operations/log-fields/" data-link-title="6.3 結構化日誌欄位設計" data-link-desc="讓 log 可 grep、可聚合、可追蹤">Go 進階：結構化日誌欄位設計</a></li>
<li><a href="/blog/go-advanced/06-production-operations/health-diagnostics/" data-link-title="6.2 健康檢查與診斷 endpoint" data-link-desc="區分服務可用性與工程診斷入口">Go 進階：健康檢查與診斷 endpoint</a></li>
</ul>
]]></content:encoded></item><item><title>7.5 Kubernetes、systemd 與 load balancer 合約</title><link>https://tarrragon.github.io/blog/go-advanced/07-distributed-operations/deployment-contracts/</link><pubDate>Wed, 22 Apr 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/go-advanced/07-distributed-operations/deployment-contracts/</guid><description>&lt;p>部署平台合約的核心責任是讓 Go 服務的生命週期和外部調度系統對齊。程式內部需要清楚的 context、shutdown &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/timeout/" data-link-title="Timeout" data-link-desc="說明等待外部操作的時間上限如何保護資源與使用者體驗">timeout&lt;/a>、&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/readiness/" data-link-title="Readiness" data-link-desc="說明 instance 何時可以安全接收流量，以及 readiness 如何和部署平台協作">readiness&lt;/a>、&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/health-check-liveness/" data-link-title="Liveness" data-link-desc="說明平台如何判斷 process 是否仍然存活，以及何時應重啟">health / liveness&lt;/a> 與 memory limit；Kubernetes、systemd、load balancer 或雲端平台則決定這些訊號何時被觸發與如何被解讀。&lt;/p>
&lt;h2 id="本章目標">本章目標&lt;/h2>
&lt;p>學完本章後，你將能夠：&lt;/p>
&lt;ol>
&lt;li>理解 shutdown、&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/readiness/" data-link-title="Readiness" data-link-desc="說明 instance 何時可以安全接收流量，以及 readiness 如何和部署平台協作">readiness&lt;/a> 與 connection draining 的順序&lt;/li>
&lt;li>看懂平台 timeout 對 Go server 的影響&lt;/li>
&lt;li>分辨 health 與 readiness 的不同責任&lt;/li>
&lt;li>把 memory limit 與 Go runtime 的資源管理接在一起&lt;/li>
&lt;li>讓部署平台和程式彼此遵守同一份合約&lt;/li>
&lt;/ol>
&lt;h2 id="前置章節">前置章節&lt;/h2>
&lt;ul>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go-advanced/03-runtime-profiling/gc-memory-limit/" data-link-title="3.1 GC 與 memory limit" data-link-desc="理解 debug.SetMemoryLimit 在長時間服務中的用途">Go 進階：GC 與 memory limit&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/graceful-shutdown/" data-link-title="Graceful Shutdown" data-link-desc="說明服務停止前如何排空流量、完成工作與保存狀態">Go 進階：graceful shutdown 與 signal handling&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go-advanced/06-production-operations/health-diagnostics/" data-link-title="6.2 健康檢查與診斷 endpoint" data-link-desc="區分服務可用性與工程診斷入口">Go 進階：健康檢查與診斷 endpoint&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/graceful-shutdown/" data-link-title="Graceful Shutdown" data-link-desc="說明服務停止前如何排空流量、完成工作與保存狀態">Backend：Graceful Shutdown&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/failover/" data-link-title="Failover" data-link-desc="說明主要服務或節點失效時如何切換到備援能力">Backend：Failover&lt;/a>&lt;/li>
&lt;/ul>
&lt;h2 id="後續撰寫方向">後續撰寫方向&lt;/h2>
&lt;ol>
&lt;li>SIGTERM、shutdown timeout、readiness false 與 connection draining 的順序。&lt;/li>
&lt;li>Kubernetes &lt;code>terminationGracePeriodSeconds&lt;/code> 與 Go &lt;code>http.Server.Shutdown&lt;/code> 如何配合。&lt;/li>
&lt;li>Load balancer idle timeout 如何影響 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/websocket/" data-link-title="WebSocket" data-link-desc="說明 WebSocket 如何提供長連線雙向即時通訊">WebSocket&lt;/a> heartbeat 參數。&lt;/li>
&lt;li>Container memory limit、Go memory limit 與 OOM killer 之間的關係。&lt;/li>
&lt;li>systemd restart policy 與 health endpoint 的責任分工。&lt;/li>
&lt;/ol>
&lt;h2 id="觀察平台會主動改變服務生命週期">【觀察】平台會主動改變服務生命週期&lt;/h2>
&lt;p>Go 程式不會在真空裡執行。Kubernetes、systemd、load balancer、container runtime 都會影響服務何時接新請求、何時開始收尾、何時被強制終止。這表示程式不只要「能跑」，還要能跟平台協調。&lt;/p>
&lt;p>常見的生命週期訊號有：&lt;/p>
&lt;ul>
&lt;li>SIGTERM&lt;/li>
&lt;li>readiness false&lt;/li>
&lt;li>HTTP shutdown&lt;/li>
&lt;li>connection draining&lt;/li>
&lt;li>memory pressure&lt;/li>
&lt;/ul>
&lt;h2 id="判讀health-與-readiness-有不同合約">【判讀】health 與 readiness 有不同合約&lt;/h2>
&lt;p>health 通常表示服務自己還活著，readiness 則表示它是否適合接新流量。&lt;/p>
&lt;ul>
&lt;li>health 可以用來讓平台知道 process 還活著。&lt;/li>
&lt;li>readiness 可以用來讓 load balancer 停止送新請求。&lt;/li>
&lt;/ul>
&lt;p>如果兩者混在一起，部署時就容易出現「服務還沒收尾就被塞新流量」或「其實還能接流量卻被誤判下線」的問題。&lt;/p>
&lt;h2 id="策略shutdown-應該是可預期流程">【策略】shutdown 應該是可預期流程&lt;/h2>
&lt;p>典型的 shutdown 順序是：&lt;/p>
&lt;ol>
&lt;li>接收到停止訊號。&lt;/li>
&lt;li>先把 readiness 關掉。&lt;/li>
&lt;li>停止接新流量。&lt;/li>
&lt;li>讓現有 request / worker / websocket 收尾。&lt;/li>
&lt;li>超時後強制結束。&lt;/li>
&lt;/ol>
&lt;p>這個順序能讓平台有時間把流量移走，也讓應用有時間清理資源。&lt;/p>
&lt;h2 id="執行資源限制要和-runtime-觀念一起看">【執行】資源限制要和 runtime 觀念一起看&lt;/h2>
&lt;p>container memory limit 不只是部署平台的事，也會影響 Go runtime 的行為。當可用記憶體變少時，應用更需要控制：&lt;/p>
&lt;ul>
&lt;li>goroutine 數量&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/buffer/" data-link-title="Buffer" data-link-desc="說明系統如何用暫存空間吸收短暫速度差與尖峰流量">buffer&lt;/a> 大小&lt;/li>
&lt;li>cache 體積&lt;/li>
&lt;li>in-memory &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/queue/" data-link-title="Queue" data-link-desc="說明 queue 如何保存等待處理的工作並形成容量邊界">queue&lt;/a> 長度&lt;/li>
&lt;/ul>
&lt;p>如果這些沒有限制，平台的 OOM killer 可能會比你的 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/graceful-shutdown/" data-link-title="Graceful Shutdown" data-link-desc="說明服務停止前如何排空流量、完成工作與保存狀態">graceful shutdown&lt;/a> 先來。&lt;/p></description><content:encoded><![CDATA[<p>部署平台合約的核心責任是讓 Go 服務的生命週期和外部調度系統對齊。程式內部需要清楚的 context、shutdown <a href="/blog/backend/knowledge-cards/timeout/" data-link-title="Timeout" data-link-desc="說明等待外部操作的時間上限如何保護資源與使用者體驗">timeout</a>、<a href="/blog/backend/knowledge-cards/readiness/" data-link-title="Readiness" data-link-desc="說明 instance 何時可以安全接收流量，以及 readiness 如何和部署平台協作">readiness</a>、<a href="/blog/backend/knowledge-cards/health-check-liveness/" data-link-title="Liveness" data-link-desc="說明平台如何判斷 process 是否仍然存活，以及何時應重啟">health / liveness</a> 與 memory limit；Kubernetes、systemd、load balancer 或雲端平台則決定這些訊號何時被觸發與如何被解讀。</p>
<h2 id="本章目標">本章目標</h2>
<p>學完本章後，你將能夠：</p>
<ol>
<li>理解 shutdown、<a href="/blog/backend/knowledge-cards/readiness/" data-link-title="Readiness" data-link-desc="說明 instance 何時可以安全接收流量，以及 readiness 如何和部署平台協作">readiness</a> 與 connection draining 的順序</li>
<li>看懂平台 timeout 對 Go server 的影響</li>
<li>分辨 health 與 readiness 的不同責任</li>
<li>把 memory limit 與 Go runtime 的資源管理接在一起</li>
<li>讓部署平台和程式彼此遵守同一份合約</li>
</ol>
<h2 id="前置章節">前置章節</h2>
<ul>
<li><a href="/blog/go-advanced/03-runtime-profiling/gc-memory-limit/" data-link-title="3.1 GC 與 memory limit" data-link-desc="理解 debug.SetMemoryLimit 在長時間服務中的用途">Go 進階：GC 與 memory limit</a></li>
<li><a href="/blog/backend/knowledge-cards/graceful-shutdown/" data-link-title="Graceful Shutdown" data-link-desc="說明服務停止前如何排空流量、完成工作與保存狀態">Go 進階：graceful shutdown 與 signal handling</a></li>
<li><a href="/blog/go-advanced/06-production-operations/health-diagnostics/" data-link-title="6.2 健康檢查與診斷 endpoint" data-link-desc="區分服務可用性與工程診斷入口">Go 進階：健康檢查與診斷 endpoint</a></li>
<li><a href="/blog/backend/knowledge-cards/graceful-shutdown/" data-link-title="Graceful Shutdown" data-link-desc="說明服務停止前如何排空流量、完成工作與保存狀態">Backend：Graceful Shutdown</a></li>
<li><a href="/blog/backend/knowledge-cards/failover/" data-link-title="Failover" data-link-desc="說明主要服務或節點失效時如何切換到備援能力">Backend：Failover</a></li>
</ul>
<h2 id="後續撰寫方向">後續撰寫方向</h2>
<ol>
<li>SIGTERM、shutdown timeout、readiness false 與 connection draining 的順序。</li>
<li>Kubernetes <code>terminationGracePeriodSeconds</code> 與 Go <code>http.Server.Shutdown</code> 如何配合。</li>
<li>Load balancer idle timeout 如何影響 <a href="/blog/backend/knowledge-cards/websocket/" data-link-title="WebSocket" data-link-desc="說明 WebSocket 如何提供長連線雙向即時通訊">WebSocket</a> heartbeat 參數。</li>
<li>Container memory limit、Go memory limit 與 OOM killer 之間的關係。</li>
<li>systemd restart policy 與 health endpoint 的責任分工。</li>
</ol>
<h2 id="觀察平台會主動改變服務生命週期">【觀察】平台會主動改變服務生命週期</h2>
<p>Go 程式不會在真空裡執行。Kubernetes、systemd、load balancer、container runtime 都會影響服務何時接新請求、何時開始收尾、何時被強制終止。這表示程式不只要「能跑」，還要能跟平台協調。</p>
<p>常見的生命週期訊號有：</p>
<ul>
<li>SIGTERM</li>
<li>readiness false</li>
<li>HTTP shutdown</li>
<li>connection draining</li>
<li>memory pressure</li>
</ul>
<h2 id="判讀health-與-readiness-有不同合約">【判讀】health 與 readiness 有不同合約</h2>
<p>health 通常表示服務自己還活著，readiness 則表示它是否適合接新流量。</p>
<ul>
<li>health 可以用來讓平台知道 process 還活著。</li>
<li>readiness 可以用來讓 load balancer 停止送新請求。</li>
</ul>
<p>如果兩者混在一起，部署時就容易出現「服務還沒收尾就被塞新流量」或「其實還能接流量卻被誤判下線」的問題。</p>
<h2 id="策略shutdown-應該是可預期流程">【策略】shutdown 應該是可預期流程</h2>
<p>典型的 shutdown 順序是：</p>
<ol>
<li>接收到停止訊號。</li>
<li>先把 readiness 關掉。</li>
<li>停止接新流量。</li>
<li>讓現有 request / worker / websocket 收尾。</li>
<li>超時後強制結束。</li>
</ol>
<p>這個順序能讓平台有時間把流量移走，也讓應用有時間清理資源。</p>
<h2 id="執行資源限制要和-runtime-觀念一起看">【執行】資源限制要和 runtime 觀念一起看</h2>
<p>container memory limit 不只是部署平台的事，也會影響 Go runtime 的行為。當可用記憶體變少時，應用更需要控制：</p>
<ul>
<li>goroutine 數量</li>
<li><a href="/blog/backend/knowledge-cards/buffer/" data-link-title="Buffer" data-link-desc="說明系統如何用暫存空間吸收短暫速度差與尖峰流量">buffer</a> 大小</li>
<li>cache 體積</li>
<li>in-memory <a href="/blog/backend/knowledge-cards/queue/" data-link-title="Queue" data-link-desc="說明 queue 如何保存等待處理的工作並形成容量邊界">queue</a> 長度</li>
</ul>
<p>如果這些沒有限制，平台的 OOM killer 可能會比你的 <a href="/blog/backend/knowledge-cards/graceful-shutdown/" data-link-title="Graceful Shutdown" data-link-desc="說明服務停止前如何排空流量、完成工作與保存狀態">graceful shutdown</a> 先來。</p>
<h2 id="延伸平台合約要被測試">【延伸】平台合約要被測試</h2>
<p>部署平台合約需要在測試或預備環境驗證。至少要確認：</p>
<ul>
<li>shutdown 時 request 是否停止接入</li>
<li>worker 是否有機會收尾</li>
<li>WebSocket 是否有 close path</li>
<li>health 與 readiness 是否分工清楚</li>
</ul>
<h2 id="本章不處理">本章不處理</h2>
<p>本章不會完整教 Kubernetes 或 systemd 操作。重點是讓 Go 程式設計能清楚暴露平台需要的生命週期訊號。</p>
<h2 id="和-go-教材的關係">和 Go 教材的關係</h2>
<p>這一章承接的是 Go 的 shutdown 與 runtime 限制；如果你要先回看語言教材，可以讀：</p>
<ul>
<li><a href="/blog/go-advanced/03-runtime-profiling/gc-memory-limit/" data-link-title="3.1 GC 與 memory limit" data-link-desc="理解 debug.SetMemoryLimit 在長時間服務中的用途">Go 進階：GC 與 memory limit</a></li>
<li><a href="/blog/backend/knowledge-cards/graceful-shutdown/" data-link-title="Graceful Shutdown" data-link-desc="說明服務停止前如何排空流量、完成工作與保存狀態">Go 進階：graceful shutdown 與 signal handling</a></li>
<li><a href="/blog/go-advanced/06-production-operations/health-diagnostics/" data-link-title="6.2 健康檢查與診斷 endpoint" data-link-desc="區分服務可用性與工程診斷入口">Go 進階：健康檢查與診斷 endpoint</a></li>
</ul>
]]></content:encoded></item><item><title>7.6 CI、fuzz、load test 與 chaos testing</title><link>https://tarrragon.github.io/blog/go-advanced/07-distributed-operations/reliability-pipeline/</link><pubDate>Wed, 22 Apr 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/go-advanced/07-distributed-operations/reliability-pipeline/</guid><description>&lt;p>可靠性驗證流程的核心責任是讓不同層級的測試回答不同風險。Unit test 驗證規則，integration test 驗證協定協作，race test 檢查資料競爭，&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/fuzz-test/" data-link-title="Fuzz Test" data-link-desc="說明用隨機與變異輸入驗證解析器與邊界處理健壯性">fuzz test&lt;/a> 尋找輸入邊界，&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/load-test/" data-link-title="Load Test" data-link-desc="說明在預期流量下驗證容量、延遲與降級策略的測試">load test&lt;/a> 驗證容量，&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/chaos-test/" data-link-title="Chaos Test" data-link-desc="說明透過受控故障注入驗證系統在異常條件下的恢復能力">chaos test&lt;/a> 驗證失敗復原。&lt;/p>
&lt;h2 id="本章目標">本章目標&lt;/h2>
&lt;p>學完本章後，你將能夠：&lt;/p>
&lt;ol>
&lt;li>分辨不同測試層級各自要防的風險&lt;/li>
&lt;li>把 race、fuzz、load 與 chaos 放到合適的流程裡&lt;/li>
&lt;li>設計能回饋容量規劃的驗證流程&lt;/li>
&lt;li>不把端到端測試當成萬能答案&lt;/li>
&lt;li>讓測試結果回到 deployment 與 runtime 邊界&lt;/li>
&lt;/ol>
&lt;h2 id="前置章節">前置章節&lt;/h2>
&lt;ul>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go/05-error-testing/testing-basics/" data-link-title="5.2 testing 基礎" data-link-desc="用 testing package 驗證函式行為">Go 入門：testing 基礎&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go-advanced/05-testing-reliability/websocket-integration/" data-link-title="5.2 WebSocket integration test" data-link-desc="驗證 client/server 實際互動">Go 進階：WebSocket integration test&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go-advanced/05-testing-reliability/race-check/" data-link-title="5.3 race condition 檢查" data-link-desc="用 go test -race 找資料競爭">Go 進階：race condition 檢查&lt;/a>&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/go-advanced/05-testing-reliability/table-tests/" data-link-title="5.4 table-driven test 的設計邊界" data-link-desc="避免測試資料混雜太多概念">Go 進階：table-driven test 的設計邊界&lt;/a>&lt;/li>
&lt;/ul>
&lt;h2 id="後續撰寫方向">後續撰寫方向&lt;/h2>
&lt;ol>
&lt;li>CI 中哪些測試應每次執行，哪些可以排程或合併前執行。&lt;/li>
&lt;li>Fuzzing 適合驗證 parser、normalizer 與 protocol decoder 的哪些邊界。&lt;/li>
&lt;li>Load test 如何設定 client 數、message rate、payload size 與觀測指標。&lt;/li>
&lt;li>Chaos testing 如何模擬 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/broker/" data-link-title="Broker" data-link-desc="說明 broker 在訊息傳遞系統中負責保存、路由與交付訊息">broker&lt;/a> 斷線、資料庫延遲、server shutdown 與網路抖動。&lt;/li>
&lt;li>測試結果如何回饋到 capacity planning 與 feature gate。&lt;/li>
&lt;/ol>
&lt;h2 id="觀察不同測試層級回答不同問題">【觀察】不同測試層級回答不同問題&lt;/h2>
&lt;p>可靠性驗證最怕的錯誤，是把所有測試都塞成一種樣子。不同層級應該分工：&lt;/p>
&lt;ul>
&lt;li>unit test：規則有沒有寫對&lt;/li>
&lt;li>integration test：協定與元件有沒有接對&lt;/li>
&lt;li>race test：並發邊界有沒有資料競爭&lt;/li>
&lt;li>fuzz test：輸入邊界有沒有漏掉&lt;/li>
&lt;li>load test：容量與延遲是否能接受&lt;/li>
&lt;li>chaos test：失敗發生時系統能不能復原&lt;/li>
&lt;/ul>
&lt;h2 id="判讀race-test-是輔助檢查">【判讀】race test 是輔助檢查&lt;/h2>
&lt;p>&lt;code>go test -race&lt;/code> 能抓出實際跑到的資料競爭，但它不是正確性保證。真正的重點仍然是：&lt;/p>
&lt;ul>
&lt;li>state owner 是誰&lt;/li>
&lt;li>哪些資料需要 lock&lt;/li>
&lt;li>哪些資料應該只讓單一 goroutine 擁有&lt;/li>
&lt;li>哪些資料應該複製而不是共享&lt;/li>
&lt;/ul>
&lt;h2 id="策略load-test-的輸出要能回到容量判斷">【策略】load test 的輸出要能回到容量判斷&lt;/h2>
&lt;p>load test 不應只是跑出一個數字，還要能回答：&lt;/p>
&lt;ul>
&lt;li>哪個 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/queue/" data-link-title="Queue" data-link-desc="說明 queue 如何保存等待處理的工作並形成容量邊界">queue&lt;/a> 開始變長&lt;/li>
&lt;li>哪個 DB &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/connection-pool/" data-link-title="Connection Pool" data-link-desc="說明連線池如何限制下游資源並影響服務容量">connection pool&lt;/a> 開始飽和&lt;/li>
&lt;li>哪種 message rate 會讓 latency 明顯上升&lt;/li>
&lt;li>哪個 memory curve 表示需要調整 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/buffer/" data-link-title="Buffer" data-link-desc="說明系統如何用暫存空間吸收短暫速度差與尖峰流量">buffer&lt;/a> 或 GC 參數&lt;/li>
&lt;/ul>
&lt;p>如果沒有這些觀察點，壓測結果就很難轉成實際修正。&lt;/p>
&lt;h2 id="執行chaos-test-應該模擬真實失敗">【執行】chaos test 應該模擬真實失敗&lt;/h2>
&lt;p>chaos test 的重點是模擬真實世界常見的失敗：&lt;/p>
&lt;ul>
&lt;li>broker 暫時不可用&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/database/" data-link-title="Database" data-link-desc="說明 database 在後端系統中如何承擔正式狀態、查詢與一致性責任">database&lt;/a> 延遲上升&lt;/li>
&lt;li>shutdown 中斷流量&lt;/li>
&lt;li>網路抖動或 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/timeout/" data-link-title="Timeout" data-link-desc="說明等待外部操作的時間上限如何保護資源與使用者體驗">timeout&lt;/a>&lt;/li>
&lt;/ul>
&lt;p>這些情境應該回到 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/graceful-shutdown/" data-link-title="Graceful Shutdown" data-link-desc="說明服務停止前如何排空流量、完成工作與保存狀態">graceful shutdown&lt;/a>、retry、&lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/idempotency/" data-link-title="Idempotency" data-link-desc="說明同一操作執行多次時如何保持結果一致">idempotency&lt;/a> 與 &lt;a href="https://tarrragon.github.io/blog/backend/knowledge-cards/backpressure/" data-link-title="Backpressure" data-link-desc="說明下游處理速度不足時系統如何讓上游依下游能力送出工作">backpressure&lt;/a> 設計。&lt;/p></description><content:encoded><![CDATA[<p>可靠性驗證流程的核心責任是讓不同層級的測試回答不同風險。Unit test 驗證規則，integration test 驗證協定協作，race test 檢查資料競爭，<a href="/blog/backend/knowledge-cards/fuzz-test/" data-link-title="Fuzz Test" data-link-desc="說明用隨機與變異輸入驗證解析器與邊界處理健壯性">fuzz test</a> 尋找輸入邊界，<a href="/blog/backend/knowledge-cards/load-test/" data-link-title="Load Test" data-link-desc="說明在預期流量下驗證容量、延遲與降級策略的測試">load test</a> 驗證容量，<a href="/blog/backend/knowledge-cards/chaos-test/" data-link-title="Chaos Test" data-link-desc="說明透過受控故障注入驗證系統在異常條件下的恢復能力">chaos test</a> 驗證失敗復原。</p>
<h2 id="本章目標">本章目標</h2>
<p>學完本章後，你將能夠：</p>
<ol>
<li>分辨不同測試層級各自要防的風險</li>
<li>把 race、fuzz、load 與 chaos 放到合適的流程裡</li>
<li>設計能回饋容量規劃的驗證流程</li>
<li>不把端到端測試當成萬能答案</li>
<li>讓測試結果回到 deployment 與 runtime 邊界</li>
</ol>
<h2 id="前置章節">前置章節</h2>
<ul>
<li><a href="/blog/go/05-error-testing/testing-basics/" data-link-title="5.2 testing 基礎" data-link-desc="用 testing package 驗證函式行為">Go 入門：testing 基礎</a></li>
<li><a href="/blog/go-advanced/05-testing-reliability/websocket-integration/" data-link-title="5.2 WebSocket integration test" data-link-desc="驗證 client/server 實際互動">Go 進階：WebSocket integration test</a></li>
<li><a href="/blog/go-advanced/05-testing-reliability/race-check/" data-link-title="5.3 race condition 檢查" data-link-desc="用 go test -race 找資料競爭">Go 進階：race condition 檢查</a></li>
<li><a href="/blog/go-advanced/05-testing-reliability/table-tests/" data-link-title="5.4 table-driven test 的設計邊界" data-link-desc="避免測試資料混雜太多概念">Go 進階：table-driven test 的設計邊界</a></li>
</ul>
<h2 id="後續撰寫方向">後續撰寫方向</h2>
<ol>
<li>CI 中哪些測試應每次執行，哪些可以排程或合併前執行。</li>
<li>Fuzzing 適合驗證 parser、normalizer 與 protocol decoder 的哪些邊界。</li>
<li>Load test 如何設定 client 數、message rate、payload size 與觀測指標。</li>
<li>Chaos testing 如何模擬 <a href="/blog/backend/knowledge-cards/broker/" data-link-title="Broker" data-link-desc="說明 broker 在訊息傳遞系統中負責保存、路由與交付訊息">broker</a> 斷線、資料庫延遲、server shutdown 與網路抖動。</li>
<li>測試結果如何回饋到 capacity planning 與 feature gate。</li>
</ol>
<h2 id="觀察不同測試層級回答不同問題">【觀察】不同測試層級回答不同問題</h2>
<p>可靠性驗證最怕的錯誤，是把所有測試都塞成一種樣子。不同層級應該分工：</p>
<ul>
<li>unit test：規則有沒有寫對</li>
<li>integration test：協定與元件有沒有接對</li>
<li>race test：並發邊界有沒有資料競爭</li>
<li>fuzz test：輸入邊界有沒有漏掉</li>
<li>load test：容量與延遲是否能接受</li>
<li>chaos test：失敗發生時系統能不能復原</li>
</ul>
<h2 id="判讀race-test-是輔助檢查">【判讀】race test 是輔助檢查</h2>
<p><code>go test -race</code> 能抓出實際跑到的資料競爭，但它不是正確性保證。真正的重點仍然是：</p>
<ul>
<li>state owner 是誰</li>
<li>哪些資料需要 lock</li>
<li>哪些資料應該只讓單一 goroutine 擁有</li>
<li>哪些資料應該複製而不是共享</li>
</ul>
<h2 id="策略load-test-的輸出要能回到容量判斷">【策略】load test 的輸出要能回到容量判斷</h2>
<p>load test 不應只是跑出一個數字，還要能回答：</p>
<ul>
<li>哪個 <a href="/blog/backend/knowledge-cards/queue/" data-link-title="Queue" data-link-desc="說明 queue 如何保存等待處理的工作並形成容量邊界">queue</a> 開始變長</li>
<li>哪個 DB <a href="/blog/backend/knowledge-cards/connection-pool/" data-link-title="Connection Pool" data-link-desc="說明連線池如何限制下游資源並影響服務容量">connection pool</a> 開始飽和</li>
<li>哪種 message rate 會讓 latency 明顯上升</li>
<li>哪個 memory curve 表示需要調整 <a href="/blog/backend/knowledge-cards/buffer/" data-link-title="Buffer" data-link-desc="說明系統如何用暫存空間吸收短暫速度差與尖峰流量">buffer</a> 或 GC 參數</li>
</ul>
<p>如果沒有這些觀察點，壓測結果就很難轉成實際修正。</p>
<h2 id="執行chaos-test-應該模擬真實失敗">【執行】chaos test 應該模擬真實失敗</h2>
<p>chaos test 的重點是模擬真實世界常見的失敗：</p>
<ul>
<li>broker 暫時不可用</li>
<li><a href="/blog/backend/knowledge-cards/database/" data-link-title="Database" data-link-desc="說明 database 在後端系統中如何承擔正式狀態、查詢與一致性責任">database</a> 延遲上升</li>
<li>shutdown 中斷流量</li>
<li>網路抖動或 <a href="/blog/backend/knowledge-cards/timeout/" data-link-title="Timeout" data-link-desc="說明等待外部操作的時間上限如何保護資源與使用者體驗">timeout</a></li>
</ul>
<p>這些情境應該回到 <a href="/blog/backend/knowledge-cards/graceful-shutdown/" data-link-title="Graceful Shutdown" data-link-desc="說明服務停止前如何排空流量、完成工作與保存狀態">graceful shutdown</a>、retry、<a href="/blog/backend/knowledge-cards/idempotency/" data-link-title="Idempotency" data-link-desc="說明同一操作執行多次時如何保持結果一致">idempotency</a> 與 <a href="/blog/backend/knowledge-cards/backpressure/" data-link-title="Backpressure" data-link-desc="說明下游處理速度不足時系統如何讓上游依下游能力送出工作">backpressure</a> 設計。</p>
<h2 id="延伸測試結果應回饋到-feature-gate">【延伸】測試結果應回饋到 feature gate</h2>
<p>如果某個功能在 load test 或 chaos test 下風險太高，最直接的做法不一定是先修完整系統，也可能是先用 feature gate 逐步推出、觀察與回收。</p>
<h2 id="本章不處理">本章不處理</h2>
<p>本章不會綁定特定 CI 或壓測平台。教材重點會放在測試層級分工，避免把所有風險都塞進端到端測試。</p>
<h2 id="和-go-教材的關係">和 Go 教材的關係</h2>
<p>這一章承接的是 Go 的並發測試與可靠性驗證；如果你要先回看語言教材，可以讀：</p>
<ul>
<li><a href="/blog/go/05-error-testing/testing-basics/" data-link-title="5.2 testing 基礎" data-link-desc="用 testing package 驗證函式行為">Go：測試基礎</a></li>
<li><a href="/blog/go-advanced/05-testing-reliability/websocket-integration/" data-link-title="5.2 WebSocket integration test" data-link-desc="驗證 client/server 實際互動">Go 進階：WebSocket integration test</a></li>
<li><a href="/blog/go-advanced/05-testing-reliability/race-check/" data-link-title="5.3 race condition 檢查" data-link-desc="用 go test -race 找資料競爭">Go 進階：race condition 檢查</a></li>
<li><a href="/blog/go-advanced/05-testing-reliability/table-tests/" data-link-title="5.4 table-driven test 的設計邊界" data-link-desc="避免測試資料混雜太多概念">Go 進階：table-driven test 的設計邊界</a></li>
</ul>
]]></content:encoded></item></channel></rss>