CI/CD 教學 on Tarragon

CI/CD 失敗到修復發布流程

Wed, 06 May 2026 00:00:00 +0000

CI/CD 失敗處理的核心責任是把紅燈轉成明確的下一步路由。紅燈本身是驗證或交付層的訊號；工程流程要做的是找出失敗層、重現同一個條件、修正後重新讓 CI Pipeline 證明變更可發布。

失敗後先看什麼

失敗後第一步是定位 workflow 與 job。CI/CD 系統會把一次 push、pull request、tag 或 release 拆成多個 workflow，每個 workflow 下面又有多個 job；真正的下一步取決於是哪一層失敗。

失敗位置	常見原因	下一步路由
Lint / format	程式碼、文件或設定格式不符	回本機跑同一條 lint / format 命令
Test	單元、整合、瀏覽器或裝置測試回歸	下載 report，回本機用同條件重現
Build	編譯、bundle、package 或靜態產物失敗	回本機跑 production build 入口
Package	image、app bundle、artifact 產生失敗	檢查版本、簽章、registry 或路徑
Deploy	hosting、runtime、store 或權限設定	先確認 build artifact 是否已成功

Lint / format 失敗代表靜態契約沒有通過。常見情境是程式格式、文件格式、型別檢查、schema 或設定規則不符合規範。這類失敗的修復路徑通常很短：讀錯誤訊息、修正來源、必要時跑 formatter，再提交修正。

Test 失敗代表某個行為或契約沒有符合預期。這類失敗要先看 report、screenshot、trace、device log 或 error context，確認是功能真的回歸、測試假設過期，還是測試環境缺少 production-like artifact。直接改測試前，要先確認測試原本守的是哪個使用者或系統行為。

Build 失敗代表 pipeline 尚未產生可部署產物。這類失敗通常來自編譯錯誤、bundle 設定、依賴版本、環境變數、template 或資源路徑。修復時以專案定義的 production build 命令作為最小重現入口。

Deploy 失敗代表發布動作沒有完成。這類失敗需要先區分 artifact 是否存在、發布通道權限是否正確、環境保護是否放行。若測試與 build 已成功，deploy 失敗多半是發布通道問題；若 artifact 沒有產生，應回到 build 或 package 階段。

本機重現流程

本機重現的責任是讓修復建立在同一個驗證條件上。CI 是用乾淨環境執行的一組命令；只要能在本機跑出同樣的失敗，修復就能被快速驗證。

1make build
2make test
3make deploy-dry-run

Build 命令驗證 production artifact 是否能產生。這一步應該接近 CI 使用的 build 入口，避免開發模式遮蔽 production 問題。

Test 命令驗證產物或程式行為。前端可能是 browser test，後端可能是 integration / contract test，App 可能是 device test，Docker 可能是 image scan 或 smoke test。

Deploy dry-run 命令驗證發布前條件。高風險部署至少要能檢查 artifact、權限、環境與版本資訊；沒有 dry-run 的專案，也應保留對等的 preflight check。

修復與重新觸發

修復流程的核心是用新 commit 讓 CI 重新驗證。一般流程不需要刪掉失敗 commit，也不需要 force push；失敗 commit 留在歷史裡，後續 fix commit 會形成清楚的修復脈絡。

讀失敗 job 的 log 或 artifact。
在本機跑對應命令重現。
修改最小必要範圍。
跑同一條本機命令確認修復。
commit 並 push。
等 GitHub Actions 重新跑。

這個流程的好處是保留可追溯性。日後再看到同類失敗，可以從 commit history 與 CI log 找到當時的判讀方式。

發布 gate 路由

發布 gate 的責任是把「是否進入下一階段」變成明確條件。這一頁只處理失敗後的操作路由；required checks、job needs、environment protection 與 artifact handoff 的設計原理，獨立放在 CI gate 與 workflow 邊界。

常見處理情境

CI 失敗但本機通過時，優先檢查環境差異。常見差異包括語言版本、套件管理器版本、缺少子模組、缺少 build artifact、測試依賴未安裝、時區或檔案大小寫差異。這類問題要把版本與建置前置條件寫進 workflow、Makefile 或 script，讓重現條件成為專案的一部分。

測試不穩定時，優先把 Flaky Test 狀態標出來並建立 owner。短期可以隔離或重跑，長期要找到不穩定來源，例如等待條件錯誤、外部網路依賴、時間假設、測試資料不穩或動畫 transition 尚未完成。測試不穩定會降低 gate 信任度，因此它本身就是需要治理的 CI 問題。

Deploy 失敗但測試通過時，優先看 artifact 與權限。若 build output 存在且可下載，問題通常在部署通道、token permission 或 environment protection；若 artifact 缺失，就回到 build job。

反模式與替代做法

反模式	風險	替代做法
看到紅燈直接重跑	掩蓋 flaky 或環境問題	先看失敗 log，再決定是否重跑
用 `--no-verify` 或跳過 CI	把局部問題帶進主線	修掉 gate 或明確記錄例外
CI 與本機命令不同	本機通過但 CI 失敗	把命令收斂到 Makefile / npm script
測試直接打外部服務	網路與第三方狀態污染判斷	使用 fixture、mock 或可控環境

反模式的共同問題是讓 CI 失去判讀價值。CI 的目標是讓綠燈代表「這次變更在定義好的條件下可發布」。

最小可用流程

最小可用流程是讓每次變更都有同一條路徑。對小型靜態網站或個人 blog，先做到以下四件事，就能形成穩定發布節奏。

push 或 PR 觸發 lint / test / build。
production build 有單一入口。
測試失敗時保留 artifact 或 report。
deploy 只接受測試與 build 通過後的產物。

這套流程建立後，CI 紅燈就會成為清楚的路由訊號：哪一層壞、用哪個命令重現、修完後用哪個 gate 放行。

若變更涉及後端服務，可再對照 backend 知識卡的 Runbook、Rollback Strategy 與 Release Gate 進一步細化故障處理順序與放行條件。

下一步路由

需要理解 CI 在可靠性模組的位置：讀 6.1 CI pipeline。
需要看靜態站部署案例：讀本 blog 專案部署。
需要理解 CI gate 設計：讀 CI gate 與 workflow 邊界。
需要理解發布阻擋策略：讀 6.8 Release Gate 與變更節奏。

CI gate 與 workflow 邊界

Wed, 06 May 2026 00:00:00 +0000

CI gate 的核心責任是把「是否進入下一階段」變成明確條件。測試、建置、發布與人工審核可以分成不同 workflow 或 job，但只要它們共同決定同一次發布，就需要有清楚的 gate 關係。

Gate 形式

Gate 形式要依控制範圍選擇。PR 合併、job 執行順序、production 發布與 artifact 傳遞是四種不同責任，混在一起會讓紅燈的意義變模糊。

Gate 形式	責任	判讀方式
Required checks	阻止未通過測試的 commit 合併	PR 或 branch protection 顯示必須通過
Job `needs`	讓 deploy 等 test / build	同一 workflow 內 deploy 依賴前置 job
Environment protection	控制 production / target environment 發布	部署環境需要審核或 required reviewers
Artifact handoff	確保測試與發布使用同一份產物	test job 產生 artifact，deploy job 使用

Required checks 適合保護主線。它讓測試結果成為合併條件，避免紅燈變更進入 main 或 release branch（backend 延伸見 CI Pipeline）。

Job needs 適合同一條 workflow 內的發布管線。它讓 deploy 必須等 test、build 或 package 成功後才執行，避免 deploy job 先於驗證結果流動（platform 延伸見 Deployment Contract）。

Environment protection 適合正式環境。即使 build 與測試通過，production 或其他目標環境仍可要求人工審核、特定分支或特定 reviewer 才能部署（治理延伸見 Release Gate）。

Artifact handoff 適合避免「測試一份、發布另一份」的漂移。較嚴謹的流程會讓 build job 產生 artifact，test job 驗證這份 artifact，deploy job 發布同一份 artifact（供應鏈延伸見 Artifact Provenance）。

Workflow 邊界

Workflow 邊界的責任是決定哪些步驟共享同一條執行圖。放在同一條 workflow 裡的 job 可以用 needs 建立顯式依賴；分散在不同 workflow 裡的流程，通常要靠 branch protection 或 environment protection 建立跨 workflow gate。

結構	適合情境	常見風險
單一 workflow 多 job	test / build / deploy 緊密相依	YAML 變長，但依賴關係清楚
多 workflow	不同觸發條件或責任完全不同	跨 workflow gate 要靠 repo 設定
PR workflow + deploy	PR 驗證、main 發布分離	main push 若缺 required checks 會漏
Artifact pipeline	同一份產物要被測試再發布	artifact 版本與權限要治理

多 workflow 的關鍵風險是順序假設。GitHub Actions 的 workflow 彼此獨立；跨 workflow 順序需要靠 repository 設定或 API 顯式串接。

發布阻擋判讀

發布阻擋要同時看 YAML 與 GitHub repository 設定。YAML 說明 workflow 或 job 如何執行；跨 workflow 的「測試通過才發布」通常要靠 Branch Protection、required status checks 或 environment protection。

問題	只看 YAML 能判斷嗎	應檢查的位置
deploy 是否等 build	可以	同 workflow 的 `needs`
deploy 是否等另一條 test workflow	通常要查設定	Branch Protection / Required Checks
PR 是否必須通過測試才能合併	需要查 repo 設定	Branch Protection
目標環境是否需要人工審核	需要查環境設定	Environment protection
測試與發布是否同一份 artifact	可以部分判斷	workflow artifact upload / download

這個判讀順序能避免錯修。若測試紅燈但目標環境仍發布，問題通常在 deploy gate 尚未把測試狀態納入發布條件。

常見反模式

反模式的共同問題是讓 CI 綠燈與發布安全之間失去因果關係。CI 的目標是讓綠燈代表「這次變更在定義好的條件下可進下一階段」。

反模式	風險	替代做法
deploy workflow 不等 test	測試紅燈仍可能發布	用 required checks 或 `needs`
CI 與本機命令不同	本機通過但 CI 失敗	把命令收斂到 Makefile / npm script
測試與發布各自 build	測試產物與發布產物漂移	用 artifact handoff
看到紅燈直接重跑	掩蓋 flaky 或環境問題	先看失敗 log，再決定是否重跑
用 `--no-verify` 或跳過 CI	把局部問題帶進主線	修掉 gate 或明確記錄例外

Tripwire

Tripwire 的責任是提示什麼時候 workflow 結構需要重切，讓團隊從局部 patch 回到 gate 設計。

測試紅燈仍發布：把 deploy gate 顯式化，使用 required checks 或同 workflow needs。
本機常常重現不出 CI：把命令收斂到 Makefile 或 npm scripts，減少 workflow 專屬命令。
測試常因 artifact 缺失失敗：建立 artifact handoff，讓測試與發布使用同一份產物。
workflow 說明與實作分叉：同步更新 workflow 文件與 YAML，讓維護入口保持可信。

下一步路由

CI 紅燈處理流程：讀 CI 失敗到修復發布流程。
靜態站部署案例：讀本 blog 專案部署。
可靠性層的 release gate：讀 6.8 Release Gate 與變更節奏。

Artifact 與可重播性

Thu, 21 May 2026 00:00:00 +0000

Artifact 可重播性的核心責任是讓每次發布都能追到同一份被驗證的產物。CI/CD 不只是在 runner 上跑命令；它要回答「測試通過的是哪份內容」「發布出去的是哪份內容」「事故時如何找回同一份內容」。

概念定位

Artifact 是 CI/CD 流程中的交付單位。前端可能是 dist/，後端可能是 binary 或 image，App 可能是 IPA / AAB，資料任務可能是 DAG 或 query package；不同形式的 artifact 都承擔同一個責任：把 source change 轉成可驗證、可保存、可推進的產物。

能力	責任	判讀訊號
Build once	同一次變更只產生一次正式 artifact	build job 是否保存產物
Verify once	測試同一份 artifact	test job 是否 download artifact
Artifact handoff	在 job / workflow 間交接產物	checksum、digest、version 是否一致
Promote same artifact	staging / production 推進同一份	production 是否重新 build
Recover artifact	事故時找回上一份可用產物	retention、release、registry 是否保留

Build once 的責任是降低環境漂移。若 test job 與 deploy job 各自 build，一個 lockfile、環境變數或 base image 差異就能讓兩份產物不同；此時 CI 綠燈不再能證明 production 內容可信。

Verify once 的責任是把測試結果綁到具體產物。測試應輸出 artifact identity，例如 checksum、Image Digest、release asset name 或 bundle version，讓 reviewer 能確認紅綠燈對應哪份內容。

Artifact handoff 的責任是在 job 邊界保留身分。Upload / download artifact、registry digest、release asset、package registry 與 object storage 都可以做 handoff；重點是交接時沿用既有產物。

Promote same artifact 的責任是讓環境差異集中在設定與流量。Staging 驗證過的 image、package 或 static artifact 應被推進到 production；若 production 重新 build，就需要重新驗證 production 那份產物。

Recover artifact 的責任是讓 rollback 有實體目標。沒有保留 artifact 的 rollback 會變成「從舊 commit 重新 build」，這會受到依賴、base image、registry、toolchain 與時間漂移影響。

可重播性檢查

可重播性檢查的責任是確認產物身分與建置條件足夠明確。嚴格 reproducible build 很難在所有專案做到，但 CI/CD 至少要達到「同一次 workflow 的產物可以被查詢、保存、驗證與重新部署」。

檢查項	判讀問題	常見做法
Source	artifact 對應哪個 commit	embed git SHA / release version
Dependency	dependency 是否固定	lockfile、base image digest
Environment	build 環境是否固定	runner image、toolchain version
Identity	artifact 是否有不可變身分	checksum、digest、signature
Retention	artifact 保留多久	release asset、registry retention
Provenance	artifact 如何被產生	workflow run、SBOM、attestation

這張表讓團隊知道自己目前在哪個成熟度。初期可以先做到 source、dependency、identity；高治理場景再補 SBOM、signature 與 provenance。

常見反模式

反模式的共同問題是讓「綠燈」失去指向性。當綠燈不知道對應哪份產物，CI/CD 只剩下命令執行紀錄。

反模式	風險	替代做法
test 與 deploy 各自 build	測試與發布內容漂移	build once，artifact handoff
rollback 重新 build 舊 commit	舊 commit 可能產出不同內容	保留上一份 release artifact
只用人類可讀 tag	tag 可被覆寫或語意不精準	搭配 checksum / digest
artifact retention 太短	事故時找不到可回復版本	對 release artifact 設長期保留

下一步路由

Artifact 術語：讀 Artifact。
Artifact handoff：讀 Artifact Handoff。
Gate 邊界：讀 CI gate 與 workflow 邊界。

Flaky test 治理

Thu, 21 May 2026 00:00:00 +0000

Flaky test 治理的核心責任是保護 CI gate 的信任度。Flaky test 會讓團隊開始用重跑取代判讀，最後讓紅燈失去阻擋意義。

概念定位

Flaky test 是非決定性的 gate 訊號。它的危害不只在延遲 merge，而是在心理上訓練團隊忽略紅燈；當真回歸出現時，大家也可能先按 rerun。治理目標是把 flaky 分類、隔離、修復，並保持 required checks 的語意可信。

階段	責任	判讀訊號
Detect	找出非決定性失敗	同 commit 重跑結果不一致
Classify	區分測試、環境、資料與產品問題	failure pattern、log、trace
Contain	降低對主線 gate 的污染	quarantine、owner、expiry
Fix	修掉根因	timing、isolation、mock、resource
Re-admit	恢復 gate 信任	連續穩定、觀測窗口、owner sign-off

Detect 階段負責證明 flakiness。單次失敗不應直接貼 flaky 標籤；要看同一 commit、同一測試、相近環境下是否出現 pass / fail 不一致，並保存 log、trace、screenshot 或 seed。

Classify 階段負責找根因方向。常見來源包含時間競態、測試順序依賴、共享狀態、外部服務、隨機資料、資源不足、瀏覽器 layout timing、網路模擬與 CI runner 差異；不同來源需要不同修法。

Contain 階段負責保護主線。高價值但暫時 flaky 的測試可以進 quarantine workflow，但必須有 owner、issue、到期日與 replacement gate；直接從 required checks 移除而不追蹤，等於降低品質基線。

Fix 階段負責消除非決定性。常見修法是移除固定 sleep、改用可觀察條件等待、隔離資料、固定 random seed、避免測試共享全域狀態、mock 不穩定外部依賴或調整資源限制。

Re-admit 階段負責把測試放回 gate。測試修完後應在多次 workflow、不同 runner 或足夠時間窗口中穩定通過，再恢復 required checks；否則 gate 會反覆被污染。

分類矩陣

分類矩陣的責任是讓 flaky issue 有明確修復路由。沒有分類時，團隊容易只留下「偶發失敗」這種不可執行標籤。

類型	常見訊號	修復方向
Timing	sleep 不足、元素尚未出現	等待可觀察條件、移除固定 sleep
Shared state	單跑通過、整批失敗	隔離資料、清理全域狀態
Order	測試順序改變後失敗	移除順序依賴、獨立 setup
External	第三方 API、網路或時間服務不穩	mock、contract fixture、retry boundary
Resource	CI runner 負載高時失敗	降低 parallelism、設定 resource
Product race	真實功能存在競態	回到產品修復，不只改測試

這張表的邊界是：flaky 可能來自測試，也可能來自產品 race condition。若測試揭露的是產品 race condition，它應該被當成真 bug 處理。

Quarantine 契約

Quarantine 的責任是暫時隔離污染，並維持 gate 的長期品質基線。隔離測試時，要把責任、期限與替代風險控制寫清楚。

每個 quarantine test 必須有 issue 與 owner。
每個 issue 必須標明分類、失敗證據與修復方向。
Required checks 若移除測試，要補 replacement gate 或風險說明。
Quarantine workflow 仍需定期跑，並回報趨勢。
到期未修復時要重新評估：修、刪、改寫或降級測試責任。

這個契約讓 quarantine 成為治理工具。沒有期限與 owner 的 quarantine 會變成測試墓地，讓主線 gate 永久失去一部分覆蓋。

Tripwire

Tripwire 的責任是提示 flaky 已經從局部問題變成流程問題。

團隊看到紅燈第一反應是 rerun：暫停重跑習慣，要求先分類失敗。
同一測試一週內多次 quarantine：提升到測試架構或產品 race 檢討。
Required checks 常因環境問題失敗：檢查 runner、resource、cache 與外部依賴。
Flaky issue 沒 owner 或沒期限：把 quarantine 視為未完成修復，不視為已處理。

下一步路由

Flaky 術語：讀 Flaky Test。
Failure routing：讀 CI 失敗到修復發布流程。
Gate 邊界：讀 CI gate 與 workflow 邊界。