Infra on Tarragon

斷網環境的 infra：沒有網路時怎麼做

Fri, 26 Jun 2026 00:00:00 +0000

斷網環境（air-gapped）是跟網際網路完全隔離的執行環境——沒有 apt install、沒有 terraform init 自動下載 provider、沒有 Docker Hub 可以 pull image、沒有 GitHub Actions 可以跑 CI。這個約束不改變 infra 的原則（可重建、可追蹤、可審查），但改變了幾乎所有工具的使用方式。

常見的斷網情境：政府或軍事機密網路（實體隔離）、工控與 OT 環境（工廠、電廠、SCADA）、金融交易系統的高安全隔離區、醫療設備網路、以及地端機房裡刻意不開 internet access 的 private zone。

這個模組是橫切約束——它影響模組一（IaC 選型）到模組七（PR 流程）的每一個操作步驟。每篇文章處理一個被斷網影響的主要面向。

章節文章

文章	主題
斷網環境的通用原則	離線套件管理、內容搬運、變更追蹤的共通操作模式
斷網環境的 IaC	Terraform provider mirror、離線 state backend、plan/apply 流程
斷網環境的容器與映像管理	Private registry、映像搬運、離線 base image 更新
斷網環境的監控與可觀測性	Self-hosted 監控工具、離線告警、log 收集
斷網環境要自建的服務清單	10 類服務的選型、部署順序、統一管理 vs 個別部署、維護成本
斷網環境的版控與 CI/CD	GitLab CE / Gitea 離線安裝、CI runner、git bundle 跨邊界傳輸
斷網環境的套件與容器 Registry	Nexus 統一 proxy、Harbor 容器 registry、映像搬運 SOP、Helm 離線
斷網環境的基礎服務	DNS (CoreDNS) + NTP (chrony) + CA (step-ca) + Vault
斷網環境的資安與權限控管	威脅模型轉變、實體安全、離線認證、稽核日誌、跨邊界安全審查

跟其他模組的關係

→ 模組一：最小可行 IaC：斷網時 IaC 工具選型和 state backend 的替代做法
→ 模組五：核心服務上 IaC：容器映像和套件依賴的離線管理
→ 模組六：可觀測性：斷網環境的監控不能 phone home
→ 模組七：PR 流程：CI/CD 在內網怎麼跑
→ 接手維運：接手斷網環境的額外約束

環境與系統升級：帶電施工的遷移操作

Fri, 26 Jun 2026 00:00:00 +0000

環境與系統升級跟從零建置的差別在於：從零建置時可以先建好再上線，升級時系統已經在服務客戶，每一步操作都要在不中斷（或可控中斷）的前提下完成。這個約束決定了升級的操作模式——不是「拆掉重建」，而是「在旁邊建一個新的、驗證通過後切過去、確認沒問題再拆舊的」。

這個模組處理的是升級的操作框架與各類型的專屬風險，跟成熟度階梯平行而非串行——升級可能發生在任何成熟度階段。跟接手維運的關係是：接手後的下一步常常就是升級（接手一個 PHP 5.6 的站台，穩定維運後第一個任務就是升 PHP 版本）。

章節文章

文章	主題
升級的共通操作框架	評估差異、建平行環境、分批切換、退役舊環境的四階段模型
Runtime 版本升級	PHP / Node / Python 大版本升級的相容性評估、測試策略、分批部署
平台遷移	FTP 面板主機 → VPS → 雲端的遷移路徑、DNS 切換、資料同步
資料庫大版本升級	MySQL / PostgreSQL 大版本升級的相容性、備份、平行驗證、切換策略
OS 與基礎軟體更換	EOL OS 的遷移、套件相容性、服務重新部署

跟其他模組的關係

→ 接手維運：接手後穩定維運的下一步常是升級
→ 模組負一：還沒有 infra 的環境：升級過程中建立的操作紀律可以對齊這裡
→ 模組一：最小可行 IaC：升級是導入 IaC 的好時機——新環境用 IaC 建、舊環境手動退役
→ 模組五：核心服務上 IaC：資料庫和運算平台的升級涉及 stateful 資源的特殊處理

接手維運：別人建的環境怎麼接管

Fri, 26 Jun 2026 00:00:00 +0000

接手維運跟從零建置的差別在於：從零建置時每一個資源都是自己點的，知道它存在、知道為什麼存在；接手時面對的是一個不確定哪些東西還在用、不知道動什麼會壞的環境。第一個要解的問題不是「怎麼做 infra」，而是「現在到底有什麼、它還能不能跑、改了會怎樣」。

這個模組處理的是接管的操作流程，跟成熟度階梯平行而非串行 — 接手可能發生在任何成熟度階段：接手一個只有 FTP 存取的 PHP 站、接手一個有 SSH 但沒有 IaC 的雲端環境、接手一個有半套 IaC 但文件缺失的專案。每種情境的約束不同，但操作原則相通：先拍現況、再建維運能力、最後逐步正規化。

章節文章

文章	主題
無 SSH 的 FTP / 面板管理環境接管	沒有 SSH、沒有 CLI、只有 FTP 和 phpMyAdmin 的 legacy 環境怎麼接管（總覽）
無 SSH 環境的資料庫備份與變更管理	phpMyAdmin 的限制與對策、備份策略、migration 紀律、還原演練
程式碼版控與 FTP 部署紀律	本地 Git 工作流、config 分離、FTP 部署風險控制、CI 化 FTP
Legacy PHP 的安全盤點	credential 掃描、PHP 版本風險、SQL injection/XSS 模式、.htaccess 防護
無 SSH 環境的監控與告警	外部 HTTP check、錯誤追蹤、效能基線、流量異常偵測
有 SSH 但沒有 IaC 的雲端環境接管	有 Console 和 CLI 存取、但資源全是手動建的雲端環境怎麼盤點和接管
有半套 IaC 但文件缺失的環境接管	IaC 覆蓋不完整、部分資源在 state 外、文件缺失的環境怎麼收斂（總覽）
State 修復與清理	state 損壞診斷、orphaned entry 清理、state surgery、backend 搬遷
Drift 分類處理指南	plan 輸出分類、adopt vs revert 決策、stateful replacement 風險
Unmanaged Resource 批次 Import	優先序、import block、generated HCL review、批次策略
兩套真相並存的過渡期操作	操作規則、ownership 台帳、團隊溝通、import sprint、transition 完成判準

跟其他模組的關係

接手維運的終點是把環境帶到模組負一（可控的手動）或模組一（最小可行 IaC）的狀態。接手流程本身不做 IaC 導入 — 它的責任是讓接手者理解環境、建立維運能力、確認什麼能動什麼不能動。IaC 導入是接手完成之後的下一步。

→ 模組負一：還沒有 infra 的環境：接手完成後，環境的操作紀律對齊這裡
→ 模組零：infra 是什麼：成熟度階梯作為接手後評估現況的座標
→ 模組二：身分與憑證：接手時的 credential 盤點與輪替
→ 模組八：治理好習慣：接手後的 tagging 與 secret 管理

模組負一：還沒有 infra 的環境怎麼盡量做好

Fri, 26 Jun 2026 00:00:00 +0000

理想的 infra 治理是每一個資源都由版本控制描述、每一次變更都走 review、環境之間靠程式碼複製。多數正在運行的服務離這個畫面很遠：資源是有人在 Console 一個一個點出來的，security group 規則靠記憶維護，誰改了什麼只存在當事人腦裡。這一章承接的就是這個落差 — 你現在就在手動環境、還沒有能力或資源導入 IaC，目標是把這個階段做成「可控的手動」、而不是假裝已經納管，把代價最高的傷害先擋住，並為日後納管鋪好輸入。

把手動環境做成「可控的手動」

可控的手動指的是一種中間狀態：資源還是手點的，但關鍵變更有痕跡、高風險操作有護欄、現實長什麼樣有紀錄。它的責任是降低兩種成本 — 當下出事的成本，以及未來把資源 import 進 IaC 的成本。手動起家是絕大多數服務的常態起點，從一個人驗證想法到小團隊接手都會經過這一階，把它當成需要管理的階段、而不是需要修正的錯誤。

判讀自己是否「可控」的訊號很具體：能不能在五分鐘內說出 production 有哪些對外開放的 port、上週誰動過資料庫參數、刪掉某台機器會不會連帶弄壞別的東西。任何一題答不出來，代表這個手動環境的不可見區域正在擴大，下面幾節就是把這些區域逐一收斂。

先守住代價最高的底線

護欄要先上在「一次失誤就難以挽回」的操作上，因為手動環境沒有 IaC 的 plan / diff 當預檢，人為操作直接生效。優先級看的是失誤的回退代價、不是操作頻率。

長期憑證外洩是回退代價最高的一類。手動環境常見的反模式是把長期 access key 寫進腳本、CI 變數或開發者筆電，一旦外流，攻擊者拿到的是不會過期的權限。在還沒有完整 IAM 設計之前，最低成本的護欄是：對人改用會過期的登入工作階段（如 AWS IAM Identity Center 的臨時憑證），對自動化盡量改用平台原生的角色綁定，把還在用的長期 key 列一張清單、設定定期輪替。身分與憑證的完整地基在「模組二：身分與憑證地基」展開，這裡先擋住最容易致命的那一個。

刪除 production 資源是第二類。手動操作沒有「先看會影響什麼」的步驟，刪一個 security group 或 volume 可能瞬間讓服務失聯。對承載狀態的資源（資料庫、儲存桶、有持久資料的磁碟）開啟平台的刪除保護（如 termination protection、deletion protection），讓誤點多一道阻力。網路規則的大改是第三類 — 調整 VPC 路由、subnet 或對外規則時，先確認回退方式存在再動手，網路地基的系統性設計在「模組三：網路地基」。

這三類的共同點是：護欄成本低、失誤代價高，所以即使還沒有 IaC，CP 值也足以先做。

讓變更留下痕跡

變更留痕的責任是讓「誰、在什麼時候、改了什麼、為什麼」事後可追溯，這是手動階段最接近版本控制的替代品。IaC 的 git history 天然提供這件事，手動環境得靠人為紀律補上。

最低限度是一份變更日誌，可以只是 repo 裡的一個 CHANGELOG 或團隊共用文件，每次動 production 就追加一行：時間、操作者、改了哪個資源、原因。它不需要漂亮，需要的是每次都寫。和它互補的是平台的稽核日誌（如 AWS CloudTrail），稽核日誌記錄 API 層級「發生了什麼」，人寫的日誌補上「為什麼」— 前者你查得到某個 security group 在幾點被改，後者你才知道那次改動是為了什麼需求。兩者一起，事故排查時才能從「哪裡變了」一路追到「能不能安全回退」。

常見陷阱是只在「大改動」時才記錄，結果真正出事的往往是某次以為無關緊要的小調整。判準簡化成一句：只要這個操作別人事後可能需要知道，就記。

命名與 tagging 從手動階段就開始

命名規範與資源標籤是降低未來 import 成本的最低成本投資，它的責任是讓每個資源自帶「我是誰、屬於哪個服務、誰負責、哪個環境」的身分資訊。手動點出來的資源若名稱是 test-2、new-db-final，日後納管時得靠人逐一辨認哪個還在用、屬於哪條業務線，這個考古成本遠高於當初多打幾個字。

從手動階段就固定一套規則：資源名稱帶上服務與環境（如 payments-api-prod），標籤至少包含 service、env、owner 三個維度。這套規則在還沒 IaC 時靠人手動填，等到導入 IaC，這些標籤直接成為 Terraform 把現有資源對應到程式碼的依據，也是模組八治理習慣裡成本歸因與批次操作的基礎（見「模組八：治理好習慣」的 tagging 段）。先建立規範的價值在於：早一天統一，需要回頭重命名的資源就少一批。

盤點現有資源作為納管輸入

資源盤點的責任是把「現實長什麼樣」寫成一份清單，它是日後納管的直接輸入 — 不知道有什麼，就無法決定先 import 什麼。手動環境最危險的是沒人記得還開著的資源。

盤點不必一次到位，先用平台工具把現況拉出來，存成可比對的形式：

1# 列出某區域所有 EC2 instance 與其關鍵標籤
2aws ec2 describe-instances \
3 --query 'Reservations[].Instances[].[InstanceId,Tags,State.Name]' \
4 --output table
5
6# 列出所有 security group 與開放規則，找出對外開放的 port
7aws ec2 describe-security-groups \
8 --query 'SecurityGroups[].[GroupId,GroupName,IpPermissions]' \
9 --output json

把輸出存進 repo，定期重跑比對差異，就能看出環境在背景悄悄長出了什麼。這份清單同時服務三件事：當下的安全盤查（有沒有不該開的對外 port）、未來 IaC import 的範圍界定、以及成熟度評估時「全手動到底有多少資源」的事實基礎（成熟度階梯的定位見「模組零：infra 是什麼」）。

資源與信任不足下的高槓桿取捨

當時間、人力或上層信任都不足，無法一次把上面每件事做齊時，取捨原則是先做「失誤代價高且護欄成本低」的少數幾件。在這個情境下，最划算的通常是兩件：先擋長期憑證外洩，因為一次外洩可能拖垮整個帳號；再開啟有狀態資源的刪除保護，因為資料一旦刪除多半無法復原。

變更日誌與資源盤點屬於累積型投資 — 越早開始，未來省的考古成本越多，但晚一週開始不會立刻出事，所以在資源極度受限時可以排在護欄之後。命名與 tagging 的取捨點在於：新建資源時順手套規則幾乎零成本，回頭重整存量資源才貴，所以策略是「新的一律照規範、舊的等有餘力再補」，而不是停下來先整理全部存量。資源不足時怎麼跟上層談這些工作的優先級，在「模組九：怎麼把 infra 推動起來」展開。

該開始導入 IaC 的訊號

手動環境到了某些訊號出現時，繼續手動的邊際成本會超過導入 IaC 的一次性成本，這就是該往模組一跨進去的時機。訊號是規模與協作的函數，不是時間的函數。

第一個訊號是環境數量變多：當你需要 dev、staging、production 三套幾乎一樣的環境，手動複製會在環境之間留下難以察覺的差異，而 IaC 的價值正是用同一份程式碼複製環境。第二個是多人同時動資源：一個人手動操作還能靠記憶維護，兩三個人並行時，沒有 plan / review 的手動變更會互相覆蓋、互相破壞。第三個是環境爆炸頻率上升：如果「改一個設定結果弄壞別的東西」這類事故開始每月發生，代表手動環境的隱性依賴已經超過人腦能追蹤的上限。

任一訊號穩定出現，就是把第一個資源納入 IaC 的起點 — 前面做的命名、tagging、資源盤點此時直接成為 import 的輸入，第一步怎麼跨進去在「模組一：最小可行 IaC」。在訊號出現前過早導入 IaC 也有代價：單人、單環境、低變更頻率時，IaC 的學習與維護成本可能高於它省下的手動工，所以這裡的判準是等訊號、不是趕進度。

章節文章

文章	主題
手動環境的可控底線與納管準備	還沒有 IaC 的環境怎麼守住底線、讓變更可追溯、降低未來納管成本，以及辨識何時該開始導入 IaC

跨分類引用

→ 模組零：infra 是什麼：成熟度階梯上「全手動」這一階的定位
→ 模組一：最小可行 IaC：訊號出現後，第一步怎麼跨進 IaC
→ 模組二：身分與憑證地基：長期憑證護欄的系統性設計
→ 模組三：網路地基：手動階段網路大改的回退考量、之後的系統性設計
→ 模組八：治理好習慣：tagging 在成本歸因與批次操作的後續價值
→ 模組九：怎麼把 infra 推動起來：資源不足時怎麼跟上層談優先級
→ 接手維運：別人建的環境怎麼接管：接手前人的專案時的盤點與接管流程

IaC 工具選型與 state 地基

Fri, 26 Jun 2026 00:00:00 +0000

動手前的前提

以下步驟是寫第一行 IaC 之前需要就位的前置條件。如果已經備妥可以跳過。如果是第一次接觸雲端帳號，先讀拿到雲端帳號的第一天做安全底線和帳號現況判讀。

雲端帳號。需要一個 AWS 帳號（或 GCP / Azure，本模組以 AWS 為主要範例）。註冊完成後立刻對 root 帳號啟用 MFA（Multi-Factor Authentication）——root 帳號是整個雲端環境的最高權限，沒有 MFA 等於大門沒鎖。啟用路徑：AWS Console → 右上角帳號名稱 → Security credentials → Multi-factor authentication (MFA) → Assign MFA device。日常操作用 IAM user 或 IAM Identity Center 登入，root 帳號只在需要 root-only 操作時使用。

本機工具。安裝 IaC CLI（Terraform 或 OpenTofu）和雲端 CLI（AWS CLI）：

1# macOS
2brew install opentofu awscli
3
4# Arch Linux（opentofu 和 aws-cli-v2 在 AUR，需要 AUR helper）
5yay -S opentofu-bin aws-cli-v2
6
7# 驗證安裝
8tofu --version
9aws --version

雲端認證。本機需要能對雲端 API 認證。最直接的方式是用 AWS CLI 設定 credentials：

1aws configure
2# 輸入 Access Key ID、Secret Access Key、預設 region（如 ap-northeast-1）

這組 access key 來自 IAM user。如果帳號裡還沒有 IAM user，到 AWS Console → IAM → Users 建立一個、附加 AdministratorAccess policy、在 Security credentials 分頁建立 access key。正式環境應該用 SSO 或 short-lived credentials 取代長期 key（模組二會展開），但起步階段一組 IAM user key 足以讓 tofu apply 跑起來。

Git repo。IaC 程式碼從 day 1 就應該在版本控制裡——這是模組零「可重建路徑」的落地前提。建一個 Git repo，後續所有 .tf 檔都放在這裡：

1mkdir infra && cd infra
2git init
3echo '.terraform/' > .gitignore
4echo '*.tfstate'  >> .gitignore
5echo '*.tfstate.*' >> .gitignore
6git add .gitignore && git commit -m "init: gitignore for terraform"

.gitignore 排除 .terraform/（provider 快取）和 *.tfstate（state 檔含敏感值，存放策略見下方 remote state 段落）。

踏上成熟度階梯（從全手動到全程式碼治理的五階分級）第二階（宣告式 IaC，也就是 state 檔誕生那一階）的最小路徑，從兩件事開始：選對工具、把 state 管好。工具決定用什麼語言描述基礎設施，state 則是工具對雲端現實的唯一記憶。這份記憶存在哪、怎麼保護、怎麼防止並行寫壞，是整套 IaC 能不能站穩的地基。

IaC 工具選型：宣告式狀態管理 vs 程式語言抽象

IaC 工具的核心職責是把「我要的基礎設施長什麼樣」描述成可版本控制的程式碼，再由工具負責算出現況與目標的差異並收斂。市場上的工具分成兩條路線，差別落在「用什麼語言描述」與「狀態由誰持有」這兩個軸上，而非功能多寡。

宣告式 DSL 路線

第一條路線的代表是 Terraform 與其開源分支 OpenTofu。寫的是 HCL（HashiCorp Configuration Language），描述的是資源的最終樣貌，工具自己維護一份 state 來追蹤每個資源的真實 ID 與屬性。

 1resource "aws_s3_bucket" "artifacts" {
 2  bucket = "acme-deploy-artifacts"
 3}
 4
 5resource "aws_s3_bucket_versioning" "artifacts" {
 6  bucket = aws_s3_bucket.artifacts.id
 7  versioning_configuration {
 8    status = "Enabled"
 9  }
10}

這段 HCL 描述的是「一個開了 versioning 的 S3 bucket 應該存在」。第一次 apply 時工具建立它，之後每次 apply 時工具比對 state 與雲端現況，只做差異收斂。讀的人看 HCL 就知道最終結果長什麼樣，不需要在腦中追蹤執行順序。

這條路線適合團隊成員背景混雜、需要讓非專職後端的人也能讀懂 infra 定義的情境 — HCL 的閱讀門檻低，diff 直觀，review 時看得出「這個 PR 會新增一個 RDS、改掉一條 security group」。缺點是 HCL 的表達力有限：遇到需要大量條件分支或動態生成的場景時，語法會變得笨拙，count、for_each、dynamic 區塊很快就堆出難以閱讀的嵌套。

程式語言路線

第二條路線的代表是 AWS CDK 與 Pulumi。寫的是 TypeScript、Python、Go 這類語言，靠迴圈、函式、類別來生成資源。這條路線適合 infra 邏輯本身複雜、需要大量條件分支與抽象複用的團隊，例如要根據環境清單動態生成數十組對稱資源。

代價是 review 難度上升。一段 for 迴圈展開後到底建了哪些東西，得在腦中執行程式才看得出來，diff 不再等於變更本身。一個抽象類別改了一行建構子參數，展開後可能影響所有繼承它的資源，而 PR diff 上只看到那一行。對跨職能 review（PM、SRE、安全團隊都要看的變更）來說，這是可感知的閱讀成本。

CDK vs Pulumi：狀態由誰持有

CDK 與 Pulumi 同屬程式語言路線，但「狀態由誰持有」這個軸把它們再分開。

CDK 把程式碼 synth 成 CloudFormation 模板，再交給 CloudFormation 服務端執行與追蹤。state 由 AWS 代管 — 沒有一份 tfstate 檔要自己存放、加密、回捲，也不需要額外的鎖表來防並行。這份「狀態維運外包給雲端」正是 CDK 在 AWS 生態內的賣點之一。代價是綁定 CloudFormation 與單一雲 — CloudFormation 的更新速度、resource coverage、錯誤訊息品質都由 AWS 控制，團隊的 debug 能力受限於 CloudFormation 的回報粒度。

Pulumi 走另一邊：它維護一份自己的 state，預設交給 Pulumi Cloud 託管，也能改用 S3 之類的後端自管。形態上更接近 Terraform 的 state 模型，state 的存放、保護與並行控制重回團隊手上。同一條程式語言路線，選 CDK 等於把 state 責任讓給雲端，選 Pulumi 則保留對 state 落點的掌控。

選型判準

選型看的是團隊組成與變更的審查需求，可以用一張決策表歸納：

判準	宣告式 DSL（Terraform / OpenTofu）	程式語言（CDK / Pulumi）
diff 可讀性	HCL diff 即是資源變更	程式碼 diff，要展開才知道結果
跨職能 review	適合	需要讀者熟悉程式語言
抽象複用	有限，靠 module + for_each	完整程式語言能力
state 管理	自管或託管皆可	CDK 交 AWS；Pulumi 自管或託管
跨雲	provider 生態支援多雲	CDK 限 AWS；Pulumi 支援多雲
學習曲線	HCL 語法簡單，概念模型需適應	語言本身熟悉，IaC 概念需適應

若多數變更要跨職能 review、希望 diff 一眼可讀，宣告式 DSL 較划算；若 infra 由專職平台團隊維護、抽象複用的收益大於審查透明度的損失，程式語言路線較划算。

Terraform 與 OpenTofu 之間，OpenTofu 是授權變更後社群分叉出的相容實作，HCL 與 provider 生態幾乎共用；選擇主要看對授權條款與治理模式的偏好，技術判準在這一階沒有實質差異。本模組後續一律以 HCL 示意，換成任一宣告式工具判準仍成立。

上述兩條路線之外，還有兩類工具走不同的運作模型。Kubernetes-native 路線（代表是 Crossplane）用 CRD 描述雲資源、由 controller 持續收斂，state 由 Kubernetes 的 etcd 持有，適合已經重度投入 Kubernetes 的團隊。Serverless-first 框架（代表是 SST）把部署與 IaC 合一，適合全 serverless 架構。這兩條路線的 state 模型與 CLI 驅動的 plan/apply 流程不同，本系列不展開。

state 是工具對現實的唯一記憶

state 是 IaC 工具用來記錄「上一次 apply 之後，每個資源在雲端真實長什麼樣」的快照。它的作用是讓工具能算出「現況」與「目標」之間的最小差異。沒有 state，工具每次都得把所有資源重新查一遍才知道該不該動，而且無法分辨「這個資源是我建的、該由我管」還是「別人手動建的、不歸我管」。

一份 state 的實際內容大致長這樣（簡化版）：

 1{
 2  "resources": [
 3    {
 4      "type": "aws_s3_bucket",
 5      "name": "artifacts",
 6      "instances": [
 7        {
 8          "attributes": {
 9            "id": "acme-deploy-artifacts",
10            "arn": "arn:aws:s3:::acme-deploy-artifacts",
11            "bucket": "acme-deploy-artifacts",
12            "tags": { "env": "prod", "owner": "platform" }
13          }
14        }
15      ]
16    }
17  ]
18}

state 裡通常含有資源的真實 ID、相依關係，以及部分敏感屬性 — 例如資料庫的初始密碼、private key 的輸出值、加密金鑰的 ARN。這帶來兩條硬邊界，違反任一條都會在未來製造代價高昂的事故。

state 絕不能進 git

state 含明文敏感值，一旦推進版控就等於把密碼寫進每個 clone 的歷史裡。事後 rotate 密碼也清不掉 git 歷史 — 因為 git 是 append-only 的，舊版本的 state 永遠留在 commit 裡，除非用 git filter-branch 或 git filter-repo 重寫整條歷史（這本身是一個破壞性操作，會影響所有已經 clone 的副本）。

在 .gitignore 裡搜尋 *.tfstate 和 *.tfstate.backup——如果這兩行不在，state 有進版控的風險。在 repo 根目錄執行一次搜索確認：

1git log --all --diff-filter=A -- '*.tfstate'

如果有任何結果，代表 state 曾經被 commit 過，那些 commit 裡的敏感值已經暴露。

state 不能只放本地

本地 state 的失敗模式是它把整份基礎設施的記憶綁在一台筆電上 — 換人接手、換台機器、或多人同時 apply 時，記憶就分裂了。

具體場景：工程師 A 在自己的筆電 apply 了一次，state 記住「已經建了 3 個 security group」。工程師 B 在另一台筆電上拉了同一份 code，但她的本地沒有 state（或有一份過時的 state），apply 時工具以為那 3 個 security group 不存在，又建了 3 個重複的。更糟的場景是 B 的 state 比 A 舊，工具對比後認為 A 後來新增的 security group「不在記憶裡、是多餘的」，於是 apply 時把它們刪掉 — 而 A 還以為那些規則還在保護服務。

這兩條邊界共同指向同一個結論：state 需要一個團隊共享、有版本、有存取控制、且能防止同時寫入的存放處。這就是 remote state backend 要解的問題。

remote state backend：自管 vs 託管

remote state backend 是把 state 從本地移到團隊共享儲存的機制，它要同時滿足三件事：持久保存、防止並行寫入衝突、以及保護敏感內容。達成方式分成自管儲存與託管服務兩種，差別在維運責任落在誰身上。

自管 backend

自管路線以雲端物件儲存加鎖機制為典型組合。以 AWS 為例，state 檔放 S3、用一張 DynamoDB 鎖表防止兩個人同時 apply：

1terraform {
2  backend "s3" {
3    bucket         = "acme-tf-state"
4    key            = "prod/network/terraform.tfstate"
5    region         = "ap-northeast-1"
6    encrypt        = true
7    dynamodb_table = "acme-tf-lock"
8  }
9}

這段設定的每一項都對應前一節的一條邊界：

encrypt = true 讓 state 在 S3 落地時加密，回應「state 含敏感值」的風險。加密用的是 S3 的 server-side encryption，搭配 KMS key 可以進一步控制誰能解密。

bucket versioning 是這段設定裡沒有出現、但在建立 bucket 時就該開的屬性。apply 寫壞或誤刪 state 時，versioning 是把記憶回捲到上一個正確版本的唯一退路。沒開的話一次壞寫就讓工具失去對現實的記憶，而回復的唯一方式是從雲端逐個資源重新 import。建立 state bucket 的 HCL 應該同時開 versioning 與刪除保護：

 1resource "aws_s3_bucket_versioning" "state" {
 2  bucket = aws_s3_bucket.tf_state.id
 3  versioning_configuration {
 4    status = "Enabled"
 5  }
 6}
 7
 8resource "aws_s3_bucket_lifecycle_configuration" "state" {
 9  bucket = aws_s3_bucket.tf_state.id
10
11  rule {
12    id     = "retain-old-versions"
13    status = "Enabled"
14
15    noncurrent_version_expiration {
16      noncurrent_days = 90
17    }
18  }
19}

舊版本的保留天數是成本與安全的取捨。90 天足以涵蓋大多數「發現 state 壞了再回去找正確版本」的時間差 — 超過 90 天才發現的 state 問題通常已經被後續 apply 覆蓋，回捲到更早的版本反而引入更大的落差。

dynamodb_table 指向一張鎖表。apply 開始時寫入一筆鎖、結束才釋放，第二個人同時跑就會被擋下並提示鎖被誰持有。這正是本地 state 無法提供、卻是多人協作底線的並行保護。鎖表本身的建立只需要幾行 HCL：

 1resource "aws_dynamodb_table" "tf_lock" {
 2  name         = "acme-tf-lock"
 3  billing_mode = "PAY_PER_REQUEST"
 4  hash_key     = "LockID"
 5
 6  attribute {
 7    name = "LockID"
 8    type = "S"
 9  }
10}

鎖表用 PAY_PER_REQUEST 模式足夠，因為它的讀寫頻率很低（只在 apply 開始和結束時各一次）。鎖卡住時（apply 中途失敗、沒有正常釋放鎖），用 terraform force-unlock 手動釋放，但前提是確認沒有其他 apply 正在執行。

key 是 state 在 bucket 內的路徑，這裡先用 prod/network 之類的分層命名。實際怎麼依環境切分 state 留待模組四：環境分離與模組化展開。

自管 backend 的雞生蛋問題

自管 backend 有一個啟動悖論：state bucket 和 lock table 本身也是雲端資源，它們該由誰來管理？用 Terraform 管理 Terraform 的 backend？

務實的做法是接受這個循環：用一份獨立的、最小化的 Terraform code 來建立 state bucket 和 lock table，這份 code 用 local state（因為它只在啟動那一次跑）。建立完成後，所有後續的 Terraform code 都指向這個 remote backend。這份啟動 code 的 local state 可以 commit 進 repo（它不含敏感值，只有 bucket 和 DynamoDB table 的 ID），或直接在跑完後丟棄 — 因為這些資源如果需要重建，幾行 CLI 就能做到。

 1# bootstrap/main.tf — 只用一次，建立 state 基礎設施
 2terraform {
 3  # 刻意用 local state，因為 remote backend 還不存在
 4}
 5
 6resource "aws_s3_bucket" "tf_state" {
 7  bucket = "acme-tf-state"
 8}
 9
10# ... versioning, encryption, lock table

託管 backend

託管路線把上述維運細節包起來，由 Terraform Cloud、Spacelift、env0 這類平台代管 state、鎖與加密，附帶 web UI 與 audit log。

判讀訊號是團隊規模與維運餘裕。自管 backend 的成本是要自己把 bucket versioning、加密、鎖表、IAM 權限配對，配錯任何一項都可能讓 state 失去保護 — 例如忘了開 versioning，一次壞寫就回不去。託管服務用月費換掉這份配置與維運負擔，代價是 state 託付給第三方、且進階治理功能常綁在付費級距。

小團隊起步、不想第一週就花在配 backend 上，託管較划算。對 state 存放位置有合規或主權要求、或希望基礎設施盡量自持的團隊，自管較划算。託管服務（Terraform Cloud / Spacelift）的免費方案涵蓋基本功能，付費級距約 $20-70/user/月；自管 backend 的成本是初次配置半天到一天的工程師時間，加上持續的 IAM 權限與 versioning 維護。

導入時程參考：最小可行 IaC（state backend + 第一批地基資源）的導入約需 2-3 天工程師時間。第一個可見里程碑是「一條指令能在新帳號重建整個地基環境」。之後每批服務的納管約 1-2 天/批，依資源複雜度而定。

State 地基設好後，下一步是立 Console 唯讀鐵律、並用最小可行資源集合驗證整條鏈路，見Console 唯讀鐵律與最小可行資源集合。

跨分類引用

→ Console 唯讀鐵律與最小可行資源集合：state 管好之後，Console 唯讀紀律與最小 apply 閉環
→ 模組二：身分與憑證地基：Console 唯讀鐵律靠權限落地
→ 模組四：環境分離與模組化：state 的 key 怎麼依環境切分

infra 投資的商業論證

Fri, 26 Jun 2026 00:00:00 +0000

技術正確的論述說服不了商業決策者。「我們需要 Infrastructure as Code 來確保環境可重現」這句話在工程會議裡有重量，在預算會議裡沒有 — 決策者聽到的是一個他不懂的技術詞、一個他看不到的好處、以及一筆他得批的時間預算。infra 推不動，多數時候是因為提案的語言跟決策者的語言對不上，而非 infra 本身不重要。

這篇文章提供三條可以直接拿去用的論述線 — 成本、風險、速度 — 以及一套簡報骨架和常見反對意見的回應。目標是讓讀完的人能在下一次預算會議上，用決策者聽得懂的語言講出 infra 投資的必要性。

成本論述：不做 infra 的隱藏成本

infra 投資的成本是可見的（工程師時間），不做的成本是隱藏的（散落在不同科目、由不同人承擔、在不同時間點浮現）。商業論證的第一步是把隱藏成本攤開來算，讓「不做」也有一個價格標籤。

事故恢復時間

沒有環境藍圖（程式碼描述）的系統，出事後的恢復時間取決於「有沒有人記得它當初怎麼建的」。一個手動點出來的環境，主要維護者離開座位的那一刻就進入「沒有藍圖」的狀態 — 重建它需要翻 Console、翻 CloudTrail、翻 Slack 對話、猜測各項設定的用意，這個過程以天計。有環境藍圖的系統，重建是一條指令加上等待資源啟動的時間，以分鐘計。

把這個差距換算成商業數字：停機每小時的營收損失乘以恢復時間的差距，就是「沒有藍圖」在一次事故中的價格。一個日營收 100 萬的服務停機 8 小時和停機 30 分鐘，差距是 750 萬。這個數字不需要精確 — 量級對了就足以讓決策者重新評估「不做」的代價。

人員依賴成本

當只有一個人懂整套環境怎麼運作，這個人的離職成本不只是招聘與交接 — 還包括新人摸索期間的生產力損失、期間無法安全改動環境的機會成本、以及「找不到一樣有經驗的人」的風險。把環境的建立方式寫成程式碼，新人讀程式碼就能理解環境結構，交接從「口耳相傳」變成「讀文件」。

量化方式：目前負責 infra 的人如果下週離職，預估團隊需要多少時間才能重新掌握環境？乘以團隊的平均日薪，就是人員依賴的隱含成本。這個成本隨著環境複雜度增長而加速 — 環境越大、手動設定越多，交接缺口越寬。

殭屍資源成本

沒有資源盤點與標籤的環境，會持續累積「沒有人記得還開著」的資源 — 測試用的機器跑完沒關、舊版服務下線但底層資源沒清、某個實驗用的資料庫一直在計費。這些殭屍資源的月費不大，但它們會無聲地長期累積。

量化方式：請雲端帳號管理者拉出過去三個月的帳單，找出「沒有標籤」或「標籤顯示是非正式環境」的資源，加總它們的費用。多數團隊第一次做這件事時，會發現 10-30% 的月費花在沒有人認領的資源上。這個數字本身就是論證素材。

合規與稽核風險

當外部稽核（SOC 2、ISO 27001、金融監管、客戶的安全問卷）要求「列出所有對外暴露的服務」「提供存取權限的變更紀錄」「證明 production 環境的變更有經過審查」，手動環境的回應方式是花一到兩週人工考古。有 infra 藍圖的環境，這些問題的答案在程式碼倉庫裡，幾分鐘就能產出。

合規的商業代價不是抽象的 — 稽核不過可能導致客戶合約無法續簽、保險費率上調、或直接的監管罰款。把「每次稽核的準備時間」和「稽核不過的潛在損失」列成數字，比講「我們需要更好的治理」有效得多。

風險論述：一張表說明影響範圍

成本論述算的是持續性的隱藏支出，風險論述算的是一次性失效的最壞情況。兩者的語言不同：成本用月費和工時講，風險用客戶影響和法律後果講。

缺口	最壞情況	影響範圍	恢復時間
環境沒有藍圖	核心服務掛了，沒人知道怎麼重建	全部客戶	數天
沒有存取權限管控	一把外洩的密鑰被用來存取所有資源	資料外洩通知 + 法律	數週到數月
測試環境與正式環境共用	測試操作直接影響正式客戶	全部客戶	數小時
沒有變更紀錄	事故排查找不到「誰改了什麼」	排查人力 + 停機延長	數小時
沒有資源標籤	清理資源時誤刪正式服務	受影響的服務客戶	數小時到天
密碼寫在程式碼裡	程式碼被複製或公開後密碼外洩	資料外洩 + 全面換密碼	數天

這張表的用法是：請決策者指出「哪些情境我們現在有可能發生」，命中的每一行都是一個尚未兌現的風險。風險論述的價值在於它把抽象的技術缺口換算成具體的商業後果 — 不是「我們缺乏環境分離」，而是「一次測試操作可以直接打到正式客戶」。

使用這張表時要誠實分級。把每一行都講成即將發生的災難，幾次之後決策者會把所有警告當成危言聳聽。把真正的地基級風險（密鑰外洩、沒有藍圖）跟營運效率級的問題（缺標籤、缺變更紀錄）分開講，前者用「最壞情況」爭取優先級，後者用「累積成本」來排序。

速度論述：infra 是加速器

成本和風險是防守型論述（不做會怎樣），速度是進攻型論述（做了會快多少）。多數決策者對「變快」的興趣高於對「防災」的興趣，因為速度直接對應到他們在意的指標 — 交付頻率、上市時間、團隊效率。

場景	沒有 infra 藍圖	有 infra 藍圖	加速倍數
開一個新環境	3-5 天（逐一比對 Console 設定並手動複製）	30 分鐘（套用同一份程式碼）	10-50 倍
新人理解環境	1-2 週（口耳相傳）	1-2 天（讀程式碼 + PR 歷史）	5-10 倍
事故排查	數小時（翻 Console）	分鐘（查變更紀錄 + log）	10-30 倍
安全稽核準備	1-2 週（人工考古）	幾小時（從程式碼產出報告）	10-20 倍
環境一致性驗證	無法確認	程式碼 diff 一眼可見	從不可能到可能

速度論述的關鍵是把「infra 投入」框架成「一次性投入換取持續性加速」，而不是「持續性的額外負擔」。前 2-4 週是投入期（建立藍圖、設定自動化），之後每一次新環境、每一次排查、每一次稽核都在收割回報。投入是固定的，回報是累積的。

一頁簡報的邏輯

把前面三條論述線收斂成四頁簡報，這是可以直接拿進會議室的骨架：

第一頁：現況盤點

列出具體數字 — 我們有多少個雲端資源、其中多少百分比沒有程式碼描述、多少百分比沒有標籤、有幾把超過 90 天沒輪替的密鑰。這些數字讓決策者看到「我們目前的狀態」而非聽到一個抽象的技術判斷。數字來源是資源盤點（見模組負一）和雲端帳單。

第二頁：風險與成本

從上面的風險表挑出「我們現在確實有可能發生」的 2-3 個情境，附上最壞情況的商業影響估算。加上殭屍資源的月費和稽核準備的人工成本。這一頁的任務是讓「不做」有一個數字。

第三頁：投入規劃

把 infra 工作拆成階段，每階段標明工程師時間和里程碑。階段拆法對應成熟度階梯：第一階段（2-3 週）建立藍圖與版本控制、第二階段（2-3 週）環境分離與權限收斂、第三階段（持續）自動化護欄與治理。每個階段都能獨立交付價值 — 不是一次性的大工程，是分批兌現的投資。

第四頁：回報預期

用速度論述的表格呈現：投入完成後，新環境時間、排查時間、稽核準備時間各縮短多少。加一條「人員依賴風險」的改善 — 從「只有一個人懂」到「任何人讀程式碼都能理解」。

常見反對意見的回應

「我們還小，不需要」

地基類的設定（環境藍圖、權限管控、密鑰管理）的補救成本隨時間複利。5 個資源的環境花半天就能建好藍圖；50 個資源的環境要花兩週逐一考古、逐一對照。問題不是「現在需不需要」，而是「現在做和半年後做，成本差多少」。多數情況下，越早做越便宜 — 這跟技術規模無關，跟補救成本的增長曲線有關。

判斷該不該現在做的方式是看成熟度階梯上三個 day 1 鐵律：環境藍圖、密鑰不進程式碼、有狀態資源的刪除保護。這三項的補救成本最陡，即使「還小」也值得先立。其他的治理機制（自動化護欄、細緻的成本分攤）確實可以等規模到了再做。

「太貴了」

infra 工具本身免費或接近免費（Terraform / OpenTofu 開源、雲端 state 儲存成本極低）。真正的成本是工程師時間 — 但這個時間要跟「不做」的隱藏成本比。如果團隊每個月花 2 天處理手動環境的事故排查、花 1 天回答稽核問題、每季花 1 週準備合規報告，加起來的時間比一次性投入 2-4 週建好基礎更貴，而且是每個月都在付。

另一個角度是問：團隊裡最懂環境的那個人，他每週花多少時間回答「這個怎麼設的」「那個能不能改」這類問題？這些時間乘以他的時薪，就是「沒有程式碼描述」的持續性成本。

「會拖慢開發」

短期會 — 前 2-4 週的投入期確實在做不產出功能的工作。但這跟蓋辦公室一樣：搬進去之前要先裝修，裝修期間不能辦公，但裝修完之後每天都在受益。

具體的加速數字見上面的速度表。比較有效的框架是：這 2-4 週的投入，換到的是之後每次新環境省 3 天、每次排查省幾小時、每次稽核省一週。投入三次之後就回本，之後都是淨賺。如果決策者對時間投入有疑慮，可以提議從最高 ROI 的項目開始（通常是環境藍圖 + 密鑰管理），先用 1 週交付一個可見的改善，再爭取後續階段。

「現在能跑就好」

這個反對意見的翻譯是「我看不到壞掉的風險」。回應的方式是問一個具體問題：「如果我們的主要服務現在掛了，我們能在多久內重建起來？」如果答案超過一小時、或者答案是「不確定」，這本身就是論證 — 決策者通常能理解「不知道能不能救回來」的商業代價。

跨分類引用

→ 模組零：infra 是什麼：成熟度階梯作為投入規劃的座標
→ 模組負一：手動環境：資源盤點作為現況數字的來源
→ 模組八：治理好習慣：tagging 與成本可見性的地基
→ 模組九：怎麼推動 infra：信任赤字、期望值對齊與知識共享的組織面

infra 走 PR 流程與自動化護欄

Fri, 26 Jun 2026 00:00:00 +0000

infra 變更要走跟 application code 一樣的流程：開分支、提 PR、跑檢查、review diff、合併、發布。這條原則把基礎設施變更從「某個人在自己終端機 apply」轉成「團隊可審查的紀錄」，是 IaC 真正兌現價值的地方，也是解開「只有我懂 infra」這個單點依賴的關鍵。基礎設施跟程式碼一樣會出錯、會需要回溯、會交接給別人，所以它需要同一套保護機制。

infra 變更走 code 流程

infra 變更的標準路徑是 PR → plan → review diff → 合併 → apply。這個順序的核心責任是把「執行前先看清楚要改什麼」變成強制步驟，而不是 apply 之後才從事故裡發現改錯了。每個環節各自承擔一段審查責任，少掉任一段，infra 就退回到不可審查的狀態。

plan 是整條鏈最關鍵的一環

terraform plan 把當前 state、雲端實際資源、與目標設定三方比對，產出一份「會新增 / 修改 / 刪除哪些資源」的 diff。這份 diff 是 review 的對象：reviewer 直接看 plan 算出來的實際變更，而非讀 HCL 自行想像結果。

plan 輸出裡最關鍵的判讀訊號是操作類型。+ 是新增，~ 是就地更新，- 是銷毀，-/+ 是先銷毀再重建。前兩者多數情境是安全的，後兩者需要逐行細看。改一個看似無害的欄位可能觸發整個資源重建（-/+），例如某些雲資源的 name 或 identifier 是 immutable 屬性，改它的唯一方式就是銷毀再建。對有狀態的服務（RDS、帶資料的 EBS volume），-/+ 代表資料遺失或停機。Review 階段抓到這個 -/+，比 apply 到一半才發現便宜太多。

 1# plan 輸出中要特別警惕的標記
 2# forces replacement  — 某個 immutable 屬性被修改，將觸發銷毀重建
 3# must be replaced    — 跟上面同義，Terraform 新版的表達方式
 4# will be destroyed   — 資源將被刪除
 5
 6  # aws_db_instance.primary must be replaced
 7  -/+ resource "aws_db_instance" "primary" {
 8      ~ identifier = "app-prod" -> "app-production"  # forces replacement
 9        ...
10    }

把 plan 結果貼回 PR

把 plan 結果貼回 PR 是讓 review 真正生效的做法。流程上，PR 觸發 CI 跑 plan，plan 輸出回貼成 PR comment，reviewer 連同程式碼 diff 一起看；approve 後才允許合併，合併才觸發 apply。

這裡有個取捨：plan 與 apply 之間若隔了很久，雲端實際狀態可能已經漂移（有人手動改了、或別的 PR 先 apply 了），導致 apply 時的 plan 跟 review 時看到的不一致。應對方式分保守與務實兩種。保守做法是 apply 前重跑一次 plan 並比對結果 — 一致才繼續，不一致就中斷。務實做法是在合併觸發 apply 時自動跑 plan 並只在無 destroy / replace 時自動執行，有 destroy / replace 就停下來要人確認。多數團隊從務實做法開始，到遇過一次 plan-apply 不一致的事故後才升級到保守做法。

apply 失敗的回退邊界

infra apply 不像程式碼部署可以直接 rollback 到上一版 image — 中途失敗時部分資源已經建立、state 可能處於半完成狀態。例如 apply 建了一個新 subnet 但在建 route table 時 timeout，此時 subnet 存在於雲端和 state 裡，route table 只在雲端不在 state 裡（或反過來），下一次 plan 的計算基礎就不精準。

應對的紀律是：apply 失敗後，先跑一次 terraform plan 確認 state 與現實的差距，再決定是修正 code 重新 apply 還是手動清理殘留資源後 terraform state rm。在清理之前不要再改 code、不要連發第二次 apply — 第二次 apply 在不確定的 state 上跑，可能把問題擴大。

PR 流程的價值在這裡不只是事前審查，也是事後可追溯：每次變更都對應一個 commit 與一個 PR，要回溯時知道是哪次改的、為什麼改、誰 review 的。

fmt 與 validate：最便宜的第一道檢查

fmt 與 validate 是進到任何安全掃描之前的基礎檢查，責任是擋掉格式不一致與語法 / 型別錯誤這類不需要動腦判斷的問題。它們跑得快（通常不到五秒）、沒有誤判空間，適合放在 CI 最前面當作快速 fail 的關卡。

terraform fmt -check 驗證程式碼是否符合標準排版。它本身不影響基礎設施行為，價值在於消除 diff 噪音：當每個人的編輯器縮排習慣不同，PR diff 會混入大量純排版變動，把真正的邏輯變更淹沒，reviewer 更容易看漏。統一格式後，diff 裡剩下的就是語意變更。在本地開發階段配合 editor plugin 或 pre-commit hook 在存檔時自動 fmt，讓 CI 的 fmt check 幾乎不會再 fail — 它存在的意義是攔住那些沒裝 plugin 的人。

validate 則檢查設定在語法與內部一致性上是否成立 — reference 到不存在的變數、型別不匹配、必填參數缺漏、module 呼叫的 source 解析不了，這些在 validate 階段就會報錯，不必等到 plan 連線雲端才發現。validate 需要先跑 terraform init，但可以用 -backend=false 跳過連線 state backend，這樣在 CI 裡不需要雲端憑證就能跑完。

 1# .github/workflows/terraform.yml — plan 前的基礎檢查
 2jobs:
 3  validate:
 4    runs-on: ubuntu-latest
 5    steps:
 6      - uses: actions/checkout@v4
 7      - uses: hashicorp/setup-terraform@v3
 8      - run: terraform fmt -check -recursive
 9      - run: terraform init -backend=false
10      - run: terraform validate

判讀上，fmt 與 validate 失敗代表的是「這份 code 還沒準備好被認真 review」，屬於作者自己該先修掉的問題，不該佔用 reviewer 注意力。把它們設成 CI 必過的 gate，作者在本地就會先跑、先修，PR 送出時已經是乾淨的。

tflint / checkov / tfsec：抓壞寫法與安全漏洞

fmt 與 validate 確認 code「語法正確」，但語法正確的設定仍然可能是危險的設定。tflint、checkov、tfsec 這類靜態掃描工具承擔的是「語意正確」這層：在不實際建立資源的前提下，從 HCL 裡比對已知的壞寫法與安全反模式，把問題擋在 plan 之前。它們補的是 reviewer 肉眼容易漏掉的盲區 — 人會看漏一個 0.0.0.0/0，規則不會。

三者的側重

工具	側重領域	典型命中
tflint	provider 層正確性與慣例	棄用參數、region 不存在的 instance type、命名違規
checkov	安全與合規（CIS benchmark 導向）	S3 公開、未加密、缺少 log、IAM 過寬
tfsec	安全反模式（HCL 結構導向）	敏感埠全開、未加密、hardcode secret

checkov 與 tfsec 的覆蓋範圍有重疊（都會掃 S3 公開與 SG 全開），差別在規則來源與報告格式。checkov 的規則對標 CIS benchmark 和多雲合規框架（AWS、Azure、GCP、Kubernetes），tfsec 更專注在 Terraform HCL 結構。兩者跑在一起時，重複的命中可以用其中一個的 skip 標記豁免。

兩個最常攔下的反模式

S3 bucket 對外公開。一個漏設 block_public_access 或 ACL 寫成 public-read 的 bucket，會讓裡面的物件對整個網際網路可讀。這類設定在 HCL 裡只是一兩行，肉眼 review 時很容易因為「看起來像樣板」而放過，但後果是資料外洩。checkov 規則 CKV_AWS_19（S3 bucket 未啟用 server-side encryption）和 CKV_AWS_53（block public access 未全開）會標記這類漏洞：

 1# checkov 會攔下的寫法 — 缺少 block_public_access
 2resource "aws_s3_bucket" "data" {
 3  bucket = "acme-customer-data"
 4}
 5
 6# 正確寫法 — 顯式關閉公開存取
 7resource "aws_s3_bucket_public_access_block" "data" {
 8  bucket                  = aws_s3_bucket.data.id
 9  block_public_acls       = true
10  block_public_policy     = true
11  ignore_public_acls      = true
12  restrict_public_buckets = true
13}

Security group 對全世界開放。一條 ingress 寫成 cidr_blocks = ["0.0.0.0/0"] 加上 port 22 或 3306，等於把 SSH 或資料庫埠暴露給全網掃描器。tfsec 與 checkov 都會標記這種「敏感埠 + 全開 CIDR」的組合。這條規則跟模組三：網路地基講的 security group 收斂原則是同一件事的兩端 — 模組三教怎麼把規則寫對，本章用靜態掃描確保寫錯時擋得下來。

1# 三道掃描串在一起，任一 fail 就中斷
2tflint --recursive
3checkov -d . --quiet --compact
4tfsec . --soft-fail=false

命中是候選不是判決

判讀這些工具的命中時，要區分「真漏洞」與「情境合理的例外」。並非每個 0.0.0.0/0 都是錯 — 一個對外的 HTTPS load balancer 在 port 443 開全網是設計本意。所以掃描的命中是候選不是判決。

多數工具支援用行內註解標記豁免。checkov 用 #checkov:skip=CKV_AWS_260:ALB 443 對外是設計本意，tfsec 用 #tfsec:ignore:aws-elb-alb-not-public。豁免的紀律是：每個 skip 都要寫理由、要在 PR 裡可見。沒有理由的 skip 跟關掉整條規則沒有差別 — review 時看到無理由的 skip 應該當成跟看到裸 0.0.0.0/0 一樣的警報。

把例外顯式化、留下為什麼豁免的紀錄，比關掉整條規則安全。隨時間累積的 skip 也要定期盤點：某個當初合理的例外，在架構演進後可能已經不再合理。

Atlantis 與 GitHub Actions：自動化 plan 與 apply

把上述流程自動化，需要一個能監聽 PR 事件、在對的時機跑 plan 與 apply 的執行層。兩種常見做法是直接用 CI 平台（如 GitHub Actions）寫 workflow，或用 Atlantis 這類專為 Terraform PR 流程設計的工具。

Atlantis

Atlantis 是一個常駐服務，掛在 git 平台的 webhook 上。PR 開啟時它自動跑 plan 並把結果貼回 PR comment，reviewer approve 後在 PR 留言 atlantis apply，它才執行 apply 並回報結果。它的價值在於把「誰能 apply、apply 前要不要 approve、plan 結果在哪看」這些規則收斂成一致的、可設定的流程。

Atlantis 內建的 state lock 語意在多 PR 並行時特別有用：當兩個 PR 都改到同一個 Terraform project，第二個 PR 的 plan 會被 lock 擋住，直到第一個 apply 完成或 PR 關閉。這避免了兩個 PR 各自拿到的 plan 基於不同的 state 快照、apply 時互相覆蓋的問題。用 GitHub Actions 要自己實作這個 lock 邏輯（通常靠 Terraform 自己的 state lock + workflow concurrency group），複雜度高得多。

Atlantis 的代價是它本身是一個要部署、要升級、要保護的常駐服務 — 它持有對雲端的寫入權限，所以它的部署環境必須嚴格控制存取。

GitHub Actions

GitHub Actions workflow 的優點是不必額外維運服務、跟既有 CI 共用同一套 runner。缺點是 apply 的 gating 邏輯要自己用 workflow 條件拼出來。一個完整的 workflow 通常分成兩個 job：PR 觸發 plan job（跑 fmt / validate / scan / plan、把結果貼回 PR），合併到 main 才觸發 apply job。

無論哪種執行層，自動化的 apply 都需要對雲端的寫入權限，而這個權限怎麼來是整條管線的安全根基。這裡正是模組二：身分與憑證地基鋪設的 OIDC 兌現的地方 — 管線不該存放長期的 access key，而是在 runner 執行時用 OIDC 向雲端換取短期 token。

 1# 合併到主幹後，用 OIDC 換短期憑證再 apply（呼應模組二）
 2jobs:
 3  apply:
 4    if: github.ref == 'refs/heads/main'
 5    runs-on: ubuntu-latest
 6    permissions:
 7      id-token: write   # 允許 runner 取得 OIDC token
 8      contents: read
 9    steps:
10      - uses: actions/checkout@v4
11      - uses: aws-actions/configure-aws-credentials@v4
12        with:
13          role-to-assume: arn:aws:iam::123456789012:role/infra-apply
14          aws-region: ap-northeast-1
15      - uses: hashicorp/setup-terraform@v3
16      - run: terraform init
17      - run: terraform apply -auto-approve

選型判準

考量	GitHub Actions	Atlantis
維運成本	無額外服務	需部署 + 升級常駐服務
state lock	靠 Terraform 自身 + concurrency	內建 project lock、跨 PR 互斥
apply gating	自己用 environment rule 拼	內建 approve + `atlantis apply` 語意
跨 repo 一致	每 repo 各自寫 workflow	一套 server config 管所有 repo
適合規模	少量 repo、簡單流程	多 repo、需統一 apply 治理

判讀自動 apply 的邊界：對會觸發資源重建或刪除的高風險 plan，多數團隊會保留人工 apply 的關卡（Atlantis 的手動 atlantis apply、或 workflow 加 environment protection rule 要人按確認），不讓這類變更在合併瞬間無人看管地執行。自動化的目的是消除重複勞動與人為遺漏，不是把判斷也一起省掉。

知識留在 code，而不是留在個人腦中

走完整套 PR 流程後，infra 的真正收穫是知識從個人的記憶移到了 repo 裡。每一次「為什麼這個 security group 開這個埠」「為什麼這台機器選這個 instance type」的決策，都以 code + PR 描述 + review 討論的形式留下，新人讀 repo 就能還原當初的判斷，不必去問那個「只有他懂 infra」的人。基礎設施可被閱讀，等於它可被交接。PR 流程上線後，管理層可以從 repo 的 PR merge 歷史與 plan comment 確認所有 infra 變更都經過提案與審查——這本身就是稽核要求的變更紀錄證據，不需要額外產出。

git revert 的能力與邊界

可 revert 是 PR 流程最直接的兌現。當某次變更引發問題，回退手段是 git revert 那個 commit 再走一次 PR 流程，讓基礎設施回到變更前的設定 — 跟回退一段壞掉的程式碼是同一個動作。對照手動操作的舊狀態：回退靠的是當事人記得自己改了什麼、手動在 Console 改回去，記錯或人不在就無從回退。把變更歷史留在 git，回退就從「依賴某人的記憶」變成「依賴版本紀錄」。

這份 revert 能力的邊界要講清楚。revert code 救得回的是「設定」，救不回已經被銷毀的狀態與資料：

revert 掉一個刪除 RDS 的 commit，只是讓設定回到「該資源應該存在」。apply 時 Terraform 會試圖建一個新的空資料庫 — 但被刪掉的資料庫裡的資料不會跟著回來。
rename 或 replace 類的變更 revert 後，可能再觸發一次資源重建 — 因為 identifier 又改回去了，而 identifier 是 immutable 屬性。
apply 到一半失敗的 state 不能直接 revert code 修復，得先處理 state 與雲端現實的不一致。

stateful 變更的真正回退仍然靠備份與快照，這正是模組五：核心服務上 IaC stateful 處理與模組八：治理好習慣 secret / state 保護要顧的事。把 git revert 當「設定層回退」就誠實，把它當「資料層回退」就會在事故裡踩空。

知識共享的判讀訊號

判讀一個團隊是否確實把知識留在 code 的訊號：當主要負責 infra 的人請假，其他人能不能只靠讀 repo 就理解現狀並安全地改一個小設定。如果答案是「得等他回來」，那不論工具鏈多完整，知識還在個人腦中，PR 流程只是形式。這個訊號比任何工具設定都更能反映 infra 的成熟度。

讓知識真正從個人腦中搬進 repo 的方式，除了 PR 流程本身，還需要組織層的配合 — 刻意的 review 輪替、on-call 輪值、配對操作。這條路線在模組九：怎麼把 infra 推動起來展開到組織層。本章解決的是技術機制 — code 留得住知識；模組九解決的是怎麼讓團隊實際願意走這套流程、把知識交出來。

跨分類引用

→ CI/CD 教學：infra 管線用的就是這套驗證 / 發布 gate，plan / apply 對應 build / deploy 階段
→ 模組二：身分與憑證地基：管線用 OIDC 取得 apply 權限，本章是該章 OIDC 設計的回報兌現處
→ 模組三：網路地基：security group 收斂原則，本章用 tfsec / checkov 在 CI 攔下寫錯的全開規則
→ 模組五：核心服務上 IaC：stateful 資源的保護策略，git revert 救不回資料層
→ 模組八：治理好習慣：secret / state 保護
→ 模組九：怎麼把 infra 推動起來：本章把知識留在 code 的技術機制，在該章展開成組織層的採用與知識共享
→ backend 模組七：資安與資料保護：S3 公開、敏感埠全開這類掃描攔截的反模式，對應的資料保護原則
→ 團隊權限分級：權限變更走 PR 流程，讓 policy 調整有審查紀錄
→ 職務交接設計：PR 歷史是交接時的知識載體
→ Terraform CI Pipeline 設定指南：GitHub Actions 完整 workflow
→ checkov 與 tfsec 規則配置：規則選擇、豁免管理、CI 整合

Infrastructure as Code (IaC)

Fri, 26 Jun 2026 00:00:00 +0000

Infrastructure as Code（IaC）的核心概念是用版本控制的程式碼描述基礎設施應該長什麼樣，再由工具負責比對「程式碼描述的目標狀態」與「雲端上的實際狀態」，算出差異並收斂。這個機制把基礎設施從「某個人在 Console 手動點出來的東西」變成「可版本控制、可 review、可重建的描述」。

IaC 工具分兩條路線：宣告式 DSL（Terraform / OpenTofu，用 HCL 描述資源）與程式語言（AWS CDK / Pulumi，用 TypeScript / Python / Go 生成資源）。兩者都能達成「用程式碼描述、由工具收斂」的目標，差別在閱讀門檻與抽象能力。

概念位置

IaC 是 infra 系列的根概念，貫穿所有模組。成熟度階梯的第二階（宣告式 IaC）是 IaC 正式生效的起點，第三階（環境分離）和第四階（PR 流程治理）都建立在 IaC 之上。沒有 IaC，後續所有模組的能力都無法落地。

可觀察訊號

需要 IaC 的訊號是規模與協作的函數：環境數量超過一套、多人同時改資源、環境事故頻率上升、外部稽核要求變更紀錄。詳見模組負一：該開始導入 IaC 的訊號。

設計責任

採用 IaC 時要決定的核心問題：

工具選型：宣告式 DSL vs 程式語言，取捨在審查透明度 vs 抽象複用能力
State 的存放：remote backend 的選擇與保護
Console 唯讀紀律：所有寫入操作回到程式碼，Console 只作觀察
納管範圍：哪些資源先進 IaC、哪些暫時留在手動

鄰卡

State — IaC 工具追蹤現實的記憶機制
Drift — state 與現實不一致時的狀態
環境分離 — 同一份 IaC 描述套用到多環境

Tagging 規範與 Secrets 不進 code

Fri, 26 Jun 2026 00:00:00 +0000

每一個治理習慣單獨看都很小：在資源上多打三個 tag、把一段連線字串挪去別的地方。但少了這些習慣，半年後的代價是另一個量級 — 翻著一頁兩百筆沒有歸屬的資源猜哪個能砍、為了輪替一把外洩的密鑰回頭 grep 整個 repo。Tagging 與 secret 管理是治理習慣裡補救成本最陡的兩項：tag 一旦缺席就得回頭考古幾百個資源，密鑰一旦進了 git 歷史就無法清除。它們共同的特性是 day-1 建立的成本接近零，事後補的代價隨資源數量與時間複利。

Tagging 規範：查帳與清資源的依據

Tag 是貼在每個資源上的結構化標籤，承擔「讓資源能被機器查詢與分群」的責任。沒有 tag 的資源在 console 裡只剩一個隨機後綴的名字，人能勉強認得幾個，但一旦數量過百，任何「列出所有 staging 的資源」「算出 team-a 這個月花多少」的問題都無法用查詢回答，只能逐筆翻。Tag 把這些問題從人工考古變成一行 filter。

最小 tag 集合

值得從第一天就強制的最小 tag 集合是三個維度，各自回答一個治理問題：

Tag	回答的問題	典型值	缺了會怎樣
`env`	這是哪個環境	`prod` / `staging` / `dev`	清資源時不敢動、怕誤刪生產
`owner`	出事找誰	`team-payments` / `platform`	資源孤兒化、沒人認領也沒人敢回收
`cost-center`	這筆錢算誰的	`cc-1024` / `growth`	帳單無法拆分、成本變成一筆沒人負責的公共支出

env 是清資源時的安全護欄。回收動作最大的恐懼是誤刪生產資源。當每個資源都標了 env，「列出所有 env=dev 且 30 天無流量的資源」就是一條可以放心執行的清理查詢，而 env=prod 的資源自動被排除在批次刪除之外。沒有這個 tag，任何自動化清理都因為怕誤傷而不敢落地，最後退回人工逐筆確認，於是根本沒人去清。

owner 解決資源孤兒化。服務出狀況、或是看到一個用途不明的資源時，第一個問題是「這誰的」。標了 owner，告警可以自動路由、清理前可以自動通知認領；沒標，這個資源就停在「沒人敢動、因為不知道砍了會不會弄壞什麼」的狀態，永久占用配額與費用。團隊命名比個人名好 — 人會離職，團隊邊界相對穩定。

cost-center 是成本歸屬的地基，把帳單從「一筆公共支出」拆成「每個團隊各自負責的花費」。這個維度的後續應用在成本可見性與最小可行治理節奏展開。

附加 tag 的合理時機

三個必填之外，隨著團隊規模增長，幾個常見的附加維度會自然浮現：

Tag	用途	加入時機
`managed-by`	區分 IaC 管理 vs 手動建立	導入 IaC 第一天就加
`project`	區分同一團隊下不同產品線	團隊負責超過一個產品時
`ttl`	資源預定存活時間（如 `7d`）	開始有大量開發 / 測試用臨時資源時
`compliance`	標記受法規約束的資源（如 `pci` / `hipaa`）	開始有合規稽核需求時

managed-by = terraform 搭配 env，可以快速找出「不在 IaC 管理下的生產資源」 — 這些就是 Console 唯讀紀律（模組一）鬆動的痕跡。附加 tag 不需要一次規劃完，但一旦加入就要跟必填 tag 一起走自動護欄。

用 IaC 自動標記

Tag 必須在資源建立時就由 IaC 寫進去，而不是事後補。Terraform 的 default_tags 讓一個 provider 區塊內的所有資源自動繼承一組 tag，避免逐個資源手動標、也避免漏標：

 1provider "aws" {
 2  region = "ap-northeast-1"
 3
 4  default_tags {
 5    tags = {
 6      env         = var.env
 7      owner       = var.team
 8      cost-center = var.cost_center
 9      managed-by  = "terraform"
10    }
11  }
12}

用 var 取代寫死的值，讓同一套 provider 設定跨環境複用 — 每個環境的 terraform.tfvars 填入自己的值。這和模組四：環境分離與模組化的參數化設計一致。

個別資源若需要額外 tag（例如 ttl），在資源自身的 tags block 裡寫，它會跟 default_tags 合併，不需要重複寫環境層的三個必填。兩者有相同 key 時資源層優先，所以某個特殊資源要覆蓋 owner 也行。

事後補 tag 是個會無限拖延的工作，因為它不影響任何功能、沒有 deadline、永遠排在 backlog 最後。

Tag 合規護欄

判讀訊號很簡單：定期跑一條「列出缺少必填 tag 的資源」的查詢，數字若持續成長，代表有人繞過 IaC 手動開資源 — 這既是 tag 問題，也是模組一「Console 唯讀」紀律鬆動的徵兆。

1# 列出沒有 env tag 的 EC2 instance
2aws resourcegroupstaggingapi get-resources \
3  --resource-type-filters ec2:instance \
4  --tag-filters Key=env,Values= \
5  --query 'ResourceTagMappingList[].ResourceARN'

手動查詢只是起點。更可靠的做法是用策略引擎在建立期或 PR 階段就擋住不合規的資源：

AWS Tag Policy（Organizations 層級）：定義必填 tag 與允許值的枚舉，不符合就阻止建立。適合整個組織統一推行。
OPA / Sentinel（CI / PR 層級）：在 terraform plan 之後、apply 之前檢查 plan 輸出，缺 tag 就讓 CI fail。適合跟模組七：infra 走 PR 流程整合。
checkov / tfsec 自訂規則：靜態掃描 HCL，在 code push 時就擋。成本最低但只擋得住 IaC 管理的資源。

三層護欄互補：靜態掃描擋寫 code 時的遺漏、plan 檢查擋執行前的偏差、tag policy 擋繞過 IaC 的手動操作。早期只做一層也有價值，三層都做時覆蓋最完整。定期跑 tag 覆蓋率報告（缺少必填 tag 的資源數 / 總資源數）可以作為治理進度的量化指標。覆蓋率從 40% 到 90% 的趨勢比單次數字更有意義，適合放進月報讓管理層追蹤。

Tagging 在合規驅動的基礎設施中還有另一層用途：用 tag 標記資料的地理歸屬，讓合規查詢可以機器化。Hard Rock Digital 的運動博彩平台受美國 Wire Act 約束，不同州的投注資料必須留在州內。它們用 CockroachDB 跨 AWS Outposts 部署，每個 Outpost 的資源用地理 tag 標記歸屬州，合規稽核時用 tag 過濾而非逐台盤查。這個案例的 infra 教訓是：tag 的維度設計在受地理或法規約束的服務中，要提前納入合規需求的維度，而非只做成本和歸屬。詳見 9.C41 Hard Rock Digital：Wire Act 合規。

Secrets 不進 code：機密值的儲存與引用

機密值 — 資料庫密碼、第三方 API key、簽章用的私鑰 — 要存在專用的密鑰管理服務裡，而 code 與 IaC 只持有指向它的參照，不持有值本身。這條規則承擔的責任是把「機密外洩的爆炸半徑」與「程式碼的散布範圍」脫鉤：一旦密碼寫進 repo，它就跟著每一次 clone、每一份 CI 快取、每一個 fork 擴散，輪替時無法保證所有副本都更新，git 歷史更是會把它永久留存，即使後來刪掉那一行。

密鑰管理服務的選型

密鑰管理服務提供的是一個有存取控制、有審計紀錄、可輪替的集中儲存。值放在這裡，誰讀過、什麼時候讀的都有 log，輪替時只改一個地方，所有引用方下次讀取就拿到新值。

服務	定位	適合的情境
AWS Secrets Manager	受管 secret、支援自動輪替	資料庫密碼、需要自動輪替的 key
AWS SSM Parameter Store	輕量級 key-value、有免費額度	設定值、不需要自動輪替的 secret
HashiCorp Vault	自管 / 託管、跨雲、動態 secret	多雲或需要動態產生短期憑證的團隊
GCP Secret Manager	GCP 原生受管 secret	GCP 生態

選型看的是團隊已有的生態與輪替需求。對已在 AWS 上的團隊，Secrets Manager 適合需要自動輪替的資料庫密碼，SSM Parameter Store 適合其餘設定值（免費額度通常夠用）。跨雲或對動態 secret 有需求的團隊會走 Vault。

IaC 怎麼引用 secret

IaC 應該存的是密鑰的 ARN（或等價的資源識別碼）與「在執行期去讀它」的指令，而不是密鑰的明文：

1data "aws_secretsmanager_secret_version" "db" {
2  secret_id = "prod/payments/db-password"
3}
4
5resource "aws_db_instance" "payments" {
6  password = data.aws_secretsmanager_secret_version.db.secret_string
7  # ...
8}

另一種做法是讓 IaC 只建立 secret 的「容器」（空的 Secrets Manager entry），值由人工或自動化流程在 IaC 之外寫入。這樣 state 裡只有 secret 的 metadata（ARN、名稱、版本 ID），完全不碰明文。適合密碼由安全團隊管理、IaC 只負責「確保 secret 存在且有正確的存取策略」的分工模式。

1resource "aws_secretsmanager_secret" "db" {
2  name = "${var.env}/payments/db-password"
3}
4
5# 值不由 Terraform 管理 — 在 Console 或 CLI 手動設定
6# secret version 生命週期在 IaC 之外

state 裡的機密邊界

Terraform 即使從 Secrets Manager 讀值，那個值仍然會以明文落進 state 檔。這是一個常被忽略的邊界。「不進 code」只是第一道，state 後端的加密與存取控制（模組一的 state 地基）是同等重要的第二道 — 否則密鑰只是從 repo 搬到了一個沒鎖好的 state bucket。

State 的保護措施是一道複合防線：

S3 bucket 開 encrypt = true（AES-256 或 KMS）
Bucket 的 IAM policy 只允許跑 apply 的 role 讀寫
Bucket 開 versioning，誤寫或損壞時可以回捲
DynamoDB lock table 防止並行 apply 覆蓋

這些措施在模組一的 remote state backend 段已經詳述，這裡提醒的是：state 的安全程度決定了 secret 引用策略的上限。state 沒鎖好時，把 secret 值拉進 state 的做法等於把密碼從 repo 搬到了另一個不設防的地方。

Secret 掃描

判讀訊號：定期用 secret 掃描工具掃 repo 與 CI log，任何命中都當成需要輪替的外洩事件處理，而不是刪掉那行就算了 — 因為 git 歷史與既有 clone 已經保不住了。

1# gitleaks：掃描整個 git 歷史
2gitleaks detect --source . --report-format json --report-path gitleaks-report.json
3
4# trufflehog：掃描 git、filesystem、CI
5trufflehog git file://. --json

兩個工具覆蓋面不同（gitleaks 用 regex pattern、trufflehog 用 detector + entropy），搭配用覆蓋更完整。放進 CI pipeline 讓每個 PR 自動掃，比人工定期跑更可靠。命中後的處理流程：先輪替被洩露的 secret，再從 repo 清除（git filter-repo），最後通知所有可能受影響的服務。

Secret 命名規範

機密的命名也值得約定。用 {env}/{service}/{purpose} 這類有結構的路徑（如 prod/payments/db-password），讓存取策略可以用前綴授權：

1# 給 payments service 的 role 只能讀自己的 secret
2data "aws_iam_policy_document" "payments_secrets" {
3  statement {
4    actions   = ["secretsmanager:GetSecretValue"]
5    resources = ["arn:aws:secretsmanager:*:*:secret:${var.env}/payments/*"]
6  }
7}

前綴授權的好處是新增 secret 時不需要改 IAM policy — 只要命名落在同一個前綴下，存取權限自動繼承。跟模組二的最小權限設計一致：service A 的 role 只看得到 payments/*，看不到 auth/*，即使它們存在同一個帳號的 Secrets Manager 裡。

跨分類引用

→ 模組一：最小可行 IaC：state 後端的加密與存取控制是 secret 引用策略的安全地基
→ 模組二：身分與憑證地基：誰能讀哪些 secret 的 IAM 權限設計
→ 模組四：環境分離與模組化：tag 的環境值與 module 參數化的對齊
→ 模組七：infra 走 PR 流程：tag 合規與 secret 掃描整合進 CI pipeline
→ backend 模組七：資安與資料保護：密鑰生命週期、輪替策略與資料保護的完整討論

升級的共通操作框架

Fri, 26 Jun 2026 00:00:00 +0000

環境與系統升級的核心約束是系統在升級過程中要持續服務客戶。這個約束排除了「關機 → 換版本 → 開機」的簡單路徑，取而代之的操作模式是四個階段：評估新舊版本的差異、在旁邊建一個新環境驗證、把流量分批切過去、確認沒問題後退役舊環境。這四個階段不管升級的對象是 runtime 版本、資料庫引擎、作業系統還是整個平台，框架相同，差異落在每個階段的具體操作與風險點。

Phase 1：差異評估

差異評估的產出是一份 change manifest——列出所有已知的新舊差異、每項的風險等級、以及需要的應對措施。這份清單是後續所有階段的依據：平行環境要驗證清單上的每一項、切換策略要先處理高風險項、退役前要確認清單上的所有相容性問題都已解決。

差異的三個維度

第一個維度是目標本身的變化。版本升級要看 changelog、breaking changes list、deprecated features list。平台遷移要看兩個平台的功能差異（共享主機沒有的 cron 彈性、VPS 有的 SSH 存取）。資料庫升級要看 SQL 語法差異、預設行為變更（如 MySQL 8.0 的 caching_sha2_password 預設認證方式）。

第二個維度是依賴關係。升級 PHP 版本時，所有 Composer 套件都可能受影響；升級 MySQL 時，ORM 的 SQL 生成可能不相容；遷移平台時，原本靠主機面板設定的 cron job 要改用系統 crontab 或雲端排程。依賴關係沒列完整，平行環境的測試就會漏掉受影響的元件。

第三個維度是過渡期的雙版本相容性。升級不是瞬間完成的——在切換的過程中，系統的某些部分跑新版本、某些部分跑舊版本。這段期間兩個版本必須能共存：資料庫的 schema 要同時相容新舊版本的程式碼、API 的回應格式要讓新舊版本的客戶端都能處理、session 格式要能跨版本延續。

風險分級

風險等級	定義	應對方式	範例
低	向後相容、不需改 code	平行環境驗證即可	PHP 8.x 的效能改善
中	需要改 code 但改動明確	先改 code、確認新舊版本都能跑	deprecated function 替換
高	行為變更、可能影響商業邏輯	需要完整的功能測試 + 人工驗證	浮點數精度變更、排序預設值變更
阻塞	無法在新版本運作、沒有替代方案	必須在升級前解決或決定放棄升級	依賴的套件不支援新版本

每一項差異分級後，高風險和阻塞項決定升級的可行性與時程。阻塞項超過團隊能處理的量時，升級可能需要拆成多個階段（先升到中間版本、再升到目標版本）或延後。

時程與管理層報告

差異評估的時程通常佔整個升級的 20-30%——看起來「還沒開始做」但這段時間的產出（change manifest）決定了後面所有階段的範圍。向管理層報告時用 change manifest 的風險分級表：「共 N 項差異，其中 X 項低風險、Y 項中風險、Z 項高風險、W 項阻塞。中高風險項的處理估計 M 天，阻塞項的替代方案評估需要額外 K 天。」

Phase 2：平行環境驗證

平行環境驗證的責任是用事實證明「新版本在跟 production 相同的條件下能正常運作」。它的產出是一份驗證報告——每一項 change manifest 上的差異都標上「已驗證通過 / 有問題待修 / 不影響」。沒有這份報告就切換，等於在賭新版本會正常。

建立平行環境

平行環境跟 production 越相似，驗證結果越可信。理想狀態是完全複製 production 的架構（同規格、同設定、同網路拓撲），只差目標元件的版本不同。成本限制下的折衷是用縮小版（較小的 instance、較少的資料量），但關鍵設定（PHP 模組、MySQL 參數、安全設定）必須跟 production 一致。

資料的處理要特別注意。用 production 的資料副本驗證最可靠（能觸發真實的邊界狀況），但如果資料含 PII，需要先脫敏處理。另一個選項是用 staging 環境的資料，但要確認 staging 的 schema 跟 production 一致——schema drift 會讓驗證結果失真。

驗證清單

驗證項目	方法	通過標準
應用程式啟動	部署到新環境、觀察 log	無 fatal error、所有服務啟動成功
自動化測試	跑完整測試套件	通過率跟舊環境一致
關鍵業務流程	人工操作核心流程（登入、下單、金流）	每個步驟的結果正確
效能比對	同樣的 workload 打新舊環境	回應時間差異 < 10%（或可解釋）
相容性問題	逐一驗證 change manifest 的中高風險項	每項有「通過」或「已修」的紀錄
外部整合	第三方 API callback、webhook、email	外部服務能正常與新環境互動

平行期的時間長度

平行環境跑多久才能切換？取決於業務週期。如果系統有月結、季結的批次處理，平行環境至少要跑過一次完整週期。電商系統要跑過至少一個促銷活動。沒有明顯週期的系統，一到兩週的平行驗證通常足夠發現主要問題。

Phase 3：分批切換

分批切換的核心原則是不一次切 100%——先把最低風險的流量導到新環境，觀察一段時間確認正常，再逐步增加比例。

切換策略

策略	適用環境	操作方式	回退速度
DNS 權重切換	有多組 server 的環境	Route 53 weighted routing 或類似機制，逐步調整新舊比例	分鐘級（改 DNS 權重）
Blue-green	有 load balancer 的環境	新舊環境各掛在不同 target group，LB 切換指向	秒級（切 target group）
Canary	容器化或 serverless 環境	新版本只接 5% → 20% → 50% → 100% 流量	秒級（調整 weight）
維護窗口	共享主機（無 LB）	公告停機時間、切換、驗證、恢復服務	分鐘級（FTP 上傳舊版）

共享主機通常只能用維護窗口策略——沒有 load balancer 做流量分配、沒有 DNS 權重可調。維護窗口的關鍵是時間規劃：備份（15 分鐘）→ 切換（30 分鐘）→ 驗證（30 分鐘）→ 恢復或回退（15 分鐘），在窗口內必須完成全部步驟，超時就回退。

切換期間的監控

切換開始後要密切觀察的指標：

錯誤率：5xx / 4xx 比例相對於切換前的基線
回應時間：p50 和 p99 相對於基線
業務指標：轉換率、訂單數、付款成功率（如果適用）
外部整合：第三方 callback 是否正常

回退觸發條件

在切換前就定義好回退條件，避免事故發生時還要開會決定要不要退：

錯誤率超過基線的 2 倍持續 5 分鐘 → 回退
核心業務流程失敗（登入、結帳、金流） → 立刻回退
回應時間超過基線的 3 倍持續 10 分鐘 → 回退

回退不是失敗——它是風險控制機制的正常運作。回退後排查問題、修正、重新走 Phase 2 驗證、再嘗試切換。

切換的通知

對象	通知時機	內容
內部團隊	切換前 24 小時 + 切換開始時	切換時間、影響範圍、回退計畫
客戶（如有 SLA）	切換前 1 週	預計維護窗口、預期影響
外部 vendor	切換前 1 週	endpoint 變更（如有）、IP 變更（如有）

Phase 4：退役舊環境

切換完成後不要立刻刪掉舊環境——保留 1-2 週的冷備。這段時間處理長尾問題：DNS 快取還沒更新的客戶端、排程任務還指向舊 endpoint 的外部系統、舊環境上可能還有未遷移的資料。

退役前的檢查

舊環境的存取 log 是否歸零？（有流量代表還有東西指向它）
所有 cron job 是否都已在新環境運行？
外部系統的 webhook / callback URL 是否都已更新？
舊環境上有沒有需要歸檔的資料？（log、上傳檔案、備份快照）

退役步驟

停止舊環境的應用服務（但不刪除）
觀察 1 週——如果有問題可以快速重啟
匯出需要保留的資料（log、uploaded files）
刪除舊環境的運算資源（VM、容器）
保留舊環境的最後一份備份 30 天，作為最後的保險
清理舊環境的 DNS 記錄、SSL 憑證、IAM 角色

貫穿全程的升級紀律

一次只升一個東西

同時升級 PHP 版本 + 遷移到新主機 + 重構資料庫 schema，出問題時無法判斷是哪個變更造成的。每次升級只改一個主要元件，穩定後再升下一個。如果業務壓力要求一次完成，至少在 Phase 2 的驗證環境裡逐一引入、逐一確認。

每個階段轉換前備份

Phase 1 結束前備份 production 現況、Phase 3 切換前備份、Phase 4 退役前備份。三份備份各自獨立、各自有還原驗證。備份不只是「做了」——要實際測試過還原，確認備份的完整性。

記錄每一步

每個升級操作記錄在 repo 的 changelog 裡：什麼時間、誰做的、改了什麼、觀察到什麼結果。升級出問題時，changelog 是回溯「上一步做了什麼」的唯一依據。

在平行階段就練習回退

不要等到 Phase 3 切換時才第一次嘗試回退。在 Phase 2 的平行環境裡，刻意從新版本切回舊版本一次，確認回退路徑能走通、回退後服務能正常恢復。回退的演練跟升級的驗證同等重要。

跨分類引用

→ 接手維運：接手後穩定維運的下一步常是升級
→ 模組五：核心服務上 IaC：stateful 資源（RDS、S3）的升級涉及特殊的備份與切換策略
→ 模組八：治理好習慣：升級期間的變更紀錄對齊治理紀律
→ 模組七：infra 走 PR 流程：升級涉及的 IaC 變更走 PR review

手動環境的可控底線與納管準備

Fri, 26 Jun 2026 00:00:00 +0000

手動起家是絕大多數服務的常態起點。從一個人在 Console 點出第一台 EC2 驗證想法，到小團隊接手開始長出更多資源，環境會經歷一段「全部靠手動、沒有任何程式碼描述」的階段。這個階段在成熟度階梯（從全手動到全程式碼治理的五階分級）上屬於第零階，它的責任是把自己管理成「可控的手動」，而不是假裝已經納管。可控意味著三件事：高風險操作有護欄、關鍵變更有痕跡、現實長什麼樣有紀錄。做好這三件事，當下出事的成本降低，未來把資源 import 進 IaC 的成本也跟著降低。

判讀自己是否可控

可控的手動環境能在五分鐘內回答以下問題：

production 有哪些對外開放的 port？
上週誰動過資料庫參數，動了什麼？
刪掉某台機器會不會連帶弄壞別的東西？
現在用了幾把長期 access key，每把用在哪裡？
有沒有一份清單能對照 Console 上的資源，確認沒有漏掉的？

五題都能答的團隊不多，目標也不是一次全通。辨識出哪些區域不可見，按傷害代價從高到低逐一收斂，就是這一章的路線。

護欄先上在回退代價最高的操作

手動環境沒有 IaC 的 plan / diff 當預檢，人為操作直接生效。護欄的優先級看的是失誤的回退代價，不是操作頻率。回退代價最高的三類操作各自有最低成本的防線。

長期憑證外洩

長期 access key 一旦外流，攻擊者拿到的是不會過期的權限。回退代價高的原因不只是撤銷這把 key 本身，而是要找出所有使用它的地方同步更換 — 而「所有使用它的地方」在手動環境裡幾乎沒有完整清單。一把用了半年的 key 可能已經被複製到 CI 環境變數、某個同事的測試腳本、一個早已被遺忘但還在跑的 cron job 裡。

最低成本的護欄分三步。第一步是盤點：列出帳號裡所有長期 access key，記下建立時間、上次使用時間與對應用途。

1aws iam generate-credential-report
2aws iam get-credential-report --output text --query Content | base64 -d

第二步是替換路徑。對人類操作者，改用會過期的登入工作階段（如 AWS IAM Identity Center 的臨時憑證，幾小時後自動失效）。對跑在雲上的自動化（EC2 上的腳本、ECS task），改用平台原生的角色綁定 — instance profile 或 task role 會自動輪替短期憑證，程式碼不需要存任何 key。對跑在雲外的 CI/CD（如 GitHub Actions），改用 OIDC 聯合（見模組二：身分與憑證地基）。

第三步是輪替紀律。把還在用的長期 key 設定定期輪替提醒（60 天或 90 天，對齊 AWS IAM credential report 的建議週期），每次輪替時問自己：這把 key 能不能這次就換成臨時憑證，讓它成為最後一次輪替？

刪除 production 資源

在 Console 選中一個 security group 按刪除，平台可能只問「確定嗎？」就直接執行，不會告訴你有三個 EC2 instance 正在引用這個 group。EBS volume 被刪除後，上面的資料就不存在了 — 除非之前有做 snapshot，而手動環境裡有沒有做 snapshot 通常取決於某個人的記憶。

對承載狀態的資源，最低成本的護欄是開啟平台的刪除保護：

1aws rds modify-db-instance \
2  --db-instance-identifier payments-prod \
3  --deletion-protection \
4  --apply-immediately
5
6aws ec2 modify-instance-attribute \
7  --instance-id i-0abc123 \
8  --disable-api-termination

RDS 有 deletion_protection，EC2 有 termination_protection，S3 bucket 可以開 MFA delete。這些機制把「一鍵刪除」變成「先關保護再刪除」兩步操作，擋不住蓄意刪除，但能擋住手滑跟批次操作的誤傷。

刪除保護之外，備份是另一道防線。手動環境裡至少確認 RDS 的自動備份是開著的（預設保留 7 天），以及 S3 bucket 的 versioning 是開著的。S3 bucket 的 versioning 預設是關的，一個沒開 versioning 的 bucket，覆寫或刪除物件後就回不去了。

網路規則的大改

手動調整 VPC 路由、subnet 關聯的 route table、或 security group 的入站規則，影響範圍跨越多個服務，而且在手動環境裡沒有版本控制可以 diff 改了什麼。一條路由改錯，某些 private subnet 的服務可能瞬間失去出站能力。

最低成本的護欄是「改之前先把現況存下來」：

1aws ec2 describe-security-groups \
2  --group-ids sg-0abc123 \
3  --output json > sg-backup-$(date +%Y%m%d).json

用 CLI 把當前的 security group 規則、route table 設定匯出一份 JSON。改完後如果出問題，這份 JSON 就是回退的依據。這不是自動回退 — 手動環境沒有那個能力 — 但至少讓「改回去」有個明確的目標狀態。網路地基的系統性設計在模組三：網路地基展開。

該先做什麼

這三類護欄的共同判準是：護欄成本低（幾條 CLI 指令或 Console 設定）、失誤代價高（憑證外洩、資料遺失、服務中斷）。判讀某個資源該不該現在就加護欄，問自己一個問題：「這個資源出事的回退時間是分鐘級、小時級、還是不可回退？」不可回退的（資料刪除、key 外洩）優先加；分鐘級可回退的（重啟一個 stateless service）可以排後面。

讓變更留下痕跡

變更留痕的責任是讓「誰、在什麼時候、改了什麼、為什麼」事後可追溯。IaC 的 git history 天然提供這件事，手動環境得靠人為紀律補上。

人工變更日誌

最低限度是一份變更日誌，可以只是 repo 裡的一個 markdown 檔或團隊共用文件。一條記錄至少包含四個欄位：

1## 2026-06-20
2
3- **操作者**：alice
4- **資源**：sg-0abc123 (payments-api-prod)
5- **變更**：新增 ingress rule, port 8080 from 10.0.0.0/16
6- **原因**：內部監控服務需要存取 health check endpoint
7- **回退方式**：刪除該 ingress rule

格式不需要精美，需要的是「每次都寫」。常見陷阱是只在「大改動」時才記錄，結果真正出事的往往是某次以為無關緊要的小調整 — 改了一個 parameter group 的值、調了一條路由的目標、把某個 instance 的 security group 換了一個。判準簡化成一句：只要這個操作別人事後可能需要知道，就記。

平台稽核日誌

和人工日誌互補的是平台的稽核日誌（如 AWS CloudTrail、GCP Audit Log）。稽核日誌自動記錄 API 層級「發生了什麼」— 某個 IAM user 在某個時間對某個資源呼叫了哪個 API — 不依賴人為紀律、也不會漏。但它只記錄事實，不記錄意圖。它告訴你 security group 在幾點被改，卻不告訴你改的原因。人寫的變更日誌補上的正是「為什麼」這一段。

1aws cloudtrail describe-trails \
2  --query 'trailList[].{Name:Name,S3Bucket:S3BucketName}'
3
4aws cloudtrail lookup-events \
5  --lookup-attributes AttributeKey=EventName,AttributeValue=AuthorizeSecurityGroupIngress \
6  --max-items 10

CloudTrail 在 AWS 帳號裡預設開啟 management event 的 90 天查閱。手動環境裡至少確認 management event 的 trail 存在且在寫入 — 這是事後回推「到底誰動了什麼」的最後防線。兩者一起，事故排查時才能從「哪裡變了」一路追到「為什麼改、能不能安全回退」。

命名與 tagging 從手動階段就開始

命名規範與資源標籤讓每個資源自帶「我是誰、屬於哪個服務、誰負責、哪個環境」的身分資訊。手動點出來的資源若名稱是 test-2、new-db-final、temp-sg，日後納管時得靠人逐一辨認哪個還在用、屬於哪條業務線，考古成本遠高於當初多打幾個字。

命名規範

從手動階段就固定一套命名規則，讓名稱本身攜帶足夠的上下文。一個實用的格式是 {service}-{component}-{env}：

資源類型	命名範例	攜帶的資訊
EC2 instance	`payments-api-prod`	服務 + 角色 + 環境
Security group	`payments-api-prod-sg`	同上 + 資源類型
RDS instance	`payments-db-prod`	服務 + 資源類型 + 環境
S3 bucket	`acme-payments-assets-dev`	組織 + 服務 + 用途 + 環境

命名不需要完美或涵蓋所有維度，需要的是一致。同類資源都用同一套格式，人眼掃一頁 Console 就能分辨「這個屬於 payments 的 prod」跟「這個屬於 auth 的 dev」。不一致的命名（有些用底線、有些用連字號、有些帶 env 有些不帶）會在日後盤點時讓每個資源都變成需要考古的謎題。

最小 tag 集合

標籤至少包含三個維度：

Tag	問的問題	典型值
`service`	這屬於誰	`payments-api` / `auth`
`env`	哪個環境	`prod` / `staging` / `dev`
`owner`	出事找誰	`team-payments` / `platform`

手動階段的 tag 靠人工填。在 Console 建資源時順手加 tag 幾乎零成本 — 多打三行字而已。但如果沒有約定「哪些 tag 是必填」，多數人會跳過。最低限度的紀律是：在團隊文件裡寫下「建任何資源前先填這三個 tag」，並在每次盤點時檢查有沒有漏標的資源。

這套規則在導入 IaC 後直接升級成 Terraform 的 default_tags — 自動套用、不靠人記（見模組八：治理好習慣）。先在手動階段建立習慣，導入 IaC 時只是換一個強制機制，而不是從零學起一套分類法。

盤點現有資源作為納管輸入

資源盤點把「現實長什麼樣」寫成一份清單，它是日後納管的直接輸入。接手別人建的環境時，盤點的範圍和方法更完整的版本見接手維運模組。手動環境裡最難管理的是未標記的閒置資源 — 測試用的 EC2、實驗用的 RDS — 持續計費但沒有標籤，無法用查詢系統性找出，也無法確認是否仍有服務依賴。

盤點方法

按資源類型分批拉，每批存一份 JSON 或 CSV 進 repo：

 1aws ec2 describe-instances \
 2  --query 'Reservations[].Instances[].[InstanceId,InstanceType,State.Name,Tags[?Key==`Name`].Value|[0],Tags[?Key==`env`].Value|[0]]' \
 3  --output table
 4
 5aws rds describe-db-instances \
 6  --query 'DBInstances[].[DBInstanceIdentifier,Engine,DBInstanceClass,MultiAZ,DeletionProtection]' \
 7  --output table
 8
 9aws ec2 describe-security-groups \
10  --query 'SecurityGroups[].[GroupId,GroupName,IpPermissions]' \
11  --output json > security-groups-$(date +%Y%m%d).json
12
13aws s3api list-buckets --query 'Buckets[].Name'

盤點後的三件事

這份清單同時服務三個目的。

當下的安全盤查：security group 清單裡有沒有不該開的對外 port？有沒有 EC2 直接掛著公網 IP 卻不是 load balancer？用 0.0.0.0/0 搜一遍 security group 的輸出，命中的每一條都要能說出「這個全開是故意的、理由是什麼」。

未來 IaC import 的範圍界定：哪些資源該先 import。判準是「改動頻率」與「改錯代價」的乘積 — 頻繁改動且改錯代價高的（security group、IAM role）先排進來，很少動的（一個已經穩定的 S3 bucket）可以排後面。

成熟度評估的事實基礎：成熟度階梯的定位（見模組零：infra 是什麼）需要知道「全手動到底有多少資源、分布在幾個帳號、跨幾個 region」，這份清單就是評估的輸入。

盤點的節奏

第一次盤點最花時間，因為很多資源的用途需要考古。之後每月或每季重跑一次比對差異 — 重點是看「上次到這次之間長出了什麼新資源」。如果每次比對都發現大量未標記的新資源，這本身就是一個訊號：手動操作的可見性不足，該考慮導入 IaC 了。

資源與信任不足下的高槓桿取捨

當時間、人力或上層信任都不足，無法一次把上面每件事做齊時，取捨原則是先做「失誤代價高且護欄成本低」的少數幾件：

護欄	實施成本	失誤代價	優先級
長期 key 盤點	低	極高	立刻做
刪除保護	低	極高	立刻做
變更日誌	低	中	第二順位
命名規範	近零	累積	新資源立刻套用
資源盤點	中	累積	有空就做
存量重命名	高	累積	等有餘力

長期憑證盤點與刪除保護兩者加起來的實施時間可能不到一小時。命名與 tagging 的策略是「新的一律照規範、舊的等有餘力再補」，而不是停下來先整理全部存量。資源不足時怎麼跟上層談這些工作的優先級，在模組九：怎麼把 infra 推動起來展開。

該開始導入 IaC 的訊號

手動環境到了某些訊號出現時，繼續手動的邊際成本會超過導入 IaC 的一次性成本。訊號是規模與協作的函數，不是時間的函數 — 一個人運維一個簡單服務，手動可能撐很久；三個人同時動一個稍微複雜的環境，幾週內就會踩到手動的極限。

環境數量變多：當需要 dev、staging、production 三套幾乎一樣的環境，手動複製會在環境之間留下難以察覺的差異。某個人在 staging 加了一條 security group 規則，忘了在 prod 也加，結果 staging 測通了、prod 部署後服務連不上。IaC 用同一份程式碼複製環境，環境差異只存在於參數值。

多人同時動資源：一個人手動操作還能靠記憶維護，兩三個人並行時，沒有 plan / review 的手動變更會互相覆蓋。A 改了一個設定解了自己的問題，B 幾天後改了另一個設定把 A 的修正覆蓋掉，事故原因得靠翻 CloudTrail 才查得到。

環境爆炸頻率上升：如果「改一個設定結果弄壞別的東西」這類事故開始每月發生，代表手動環境的隱性依賴已經超過人腦能追蹤的上限。一個典型的隱性依賴：security group A 被 instance X 和 instance Y 同時引用，改 A 時只想著 X 的需求、忘了 Y 也依賴它，改完 Y 就斷了。

合規或稽核要求：外部稽核（SOC 2、ISO 27001）開始要求「列出所有對外暴露的服務」「提供存取權限的變更紀錄」「證明 production 環境的變更有經過審查」。手動環境回答這些問題時，每次都是一場考古工程。IaC 加上 PR 流程後，答案就在 repo 裡。

任一訊號穩定出現，就是把第一個資源納入 IaC 的起點 — 前面做的命名、tagging、資源盤點此時直接成為 import 的輸入。第一步怎麼跨進去在模組一：最小可行 IaC。

在訊號出現前過早導入 IaC 也有代價：單人、單環境、低變更頻率時，IaC 的學習與維護成本可能高於它省下的手動工 — 寫一份 HCL、配一個 state backend、設一條 pipeline 的固定成本，在只有三個資源的環境裡不一定划得來。這裡的判準是等訊號、不是趕進度。

跨分類引用

→ 接手維運：如果這個手動環境是接手來的，先走接手維運的盤點流程
→ 模組零：infra 是什麼：成熟度階梯上「全手動」這一階的定位
→ 模組一：最小可行 IaC：訊號出現後，第一步怎麼跨進 IaC
→ 模組二：身分與憑證地基：長期憑證護欄的系統性設計
→ 模組三：網路地基：手動階段網路大改的回退考量、之後的系統性設計
→ 模組八：治理好習慣：tagging 在成本歸因與批次操作的後續價值
→ 模組九：怎麼把 infra 推動起來：資源不足時怎麼跟上層談優先級

可觀測性與 log 同生命週期管理

Fri, 26 Jun 2026 00:00:00 +0000

可觀測性要跟它監控的資源同生命週期：log group、metric 與 alarm 寫進建立資源的同一套 IaC，資源開出來的那一刻監控就在線，而非等出事才補。這條規則的責任是讓基礎設施在出事時可被追查、在日常時可被量化，而它的建立與銷毀和被監控的資源綁在一起，則保證監控的覆蓋率不會隨時間衰退。

沒有同生命週期管理時，新服務上線後的監控覆蓋率取決於有沒有人記得手動建立 log group 和 alarm，而這個記憶在服務數量增長後會衰退。監控缺口在平時不被注意，在事故排查時才浮現 — 需要回溯「什麼時候開始劣化」時，可能發現劣化期間根本沒有對應的 metric 資料。

同生命週期的落地方式

可觀測性是基礎設施的一部分，它的建立、變更與銷毀要跟被監控的資源綁在同一個 apply 單位裡。一個 RDS 實例被 IaC 建立時，它的 log group、它的關鍵 metric alarm 應該在同一份 terraform plan 裡一起出現；這個資源被 destroy 時，對應的 alarm 也一起收掉。

落地方式是把監控宣告收進服務的 module。模組四（環境分離與模組化）談的模組化在這裡延伸成「每個服務模組自帶它的 observability 宣告」。一個 database module 內部除了 aws_db_instance，還包含它的 log group、CPU alarm、連線數 alarm：

 1# modules/database/monitoring.tf — 跟 database 資源同一個 module
 2resource "aws_cloudwatch_log_group" "db_slow_query" {
 3  name              = "/rds/${var.env}/${var.db_identifier}/slowquery"
 4  retention_in_days = var.log_retention_days
 5  kms_key_id        = var.log_kms_key_arn
 6}
 7
 8resource "aws_cloudwatch_metric_alarm" "db_cpu" {
 9  alarm_name          = "${var.env}-${var.db_identifier}-cpu-high"
10  comparison_operator = "GreaterThanThreshold"
11  evaluation_periods  = 3
12  metric_name         = "CPUUtilization"
13  namespace           = "AWS/RDS"
14  period              = 300
15  statistic           = "Average"
16  threshold           = 80
17  alarm_actions       = [var.oncall_sns_arn]
18
19  dimensions = {
20    DBInstanceIdentifier = aws_db_instance.primary.identifier
21  }
22}

這樣 terraform apply 建資料庫的同一刻，監控就存在；terraform destroy 砍資料庫時，孤兒 alarm 也一起清掉。新環境套用同一個 module 時，監控覆蓋率自動跟著資源走，不需要額外的人工記憶。

監控脫鉤造成的兩類漂移

把監控外掛在資源之外（用另一份 IaC、另一個 repo、或手動在 console 設定）會製造兩種方向相反的漂移，兩者的共同根因都是監控跟資源不在同一個 apply 單位裡。

漂移一：新資源沒有監控

service 透過 PR 加上去了，但 alarm 的建立依賴某人事後手動進 console 設定，或等另一個 repo 的 PR 跟上。於是有些 service 有 alarm、有些沒有，覆蓋率取決於「誰記得」。沒有 alarm 的 service 出事時，事故發現路徑從「告警 → 排查」退化成「客訴 → 排查」，反應時間從分鐘級退化到小時級。

用一條查詢就能看出這個漂移有多嚴重：列出所有 RDS instance，比對各自有沒有對應的 CloudWatch alarm。沒有 alarm 的 instance 就是漂移的活證據。

1# 列出所有 RDS instance，比對有沒有對應的 CloudWatch alarm
2aws rds describe-db-instances \
3  --query 'DBInstances[].DBInstanceIdentifier' --output text | tr '\t' '\n' | while read db; do
4  count=$(aws cloudwatch describe-alarms \
5    --alarm-name-prefix "${db}" --query 'MetricAlarms | length(@)')
6  echo "${db}: ${count} alarms"
7done

漂移二：死資源留下殘響

資源砍了但 alarm 還在，orphan alarm 對不存在的 target 持續報 INSUFFICIENT_DATA，跟有效 alarm 混在同一個通知頻道裡，降低告警的訊噪比。訊噪比低到一定程度後，有效的 INSUFFICIENT_DATA（某個服務停止送 metric）也被一起略過 — 告警疲勞讓 alarm 從保護機制退化成背景噪音。

漂移二的成本不只是注意力。殘留的 alarm 會佔用 CloudWatch alarm 的配額（每個帳號有配額上限），大量孤兒 alarm 累積後，新服務要加 alarm 可能需要先清理舊的 — 這在事故當下是最不該花時間的事。

修法是把 alarm 的生命週期綁進 module：資源 destroy 時 alarm 跟著 destroy，不需要另一個流程去「記得清理」。如果因為歷史原因已經有大量孤兒 alarm，可以用 alarm 的 StateValue 為 INSUFFICIENT_DATA 且持續超過 7 天作為清理候選的篩選條件。

log group 設計

Log group 是日誌的歸屬與保存單位，它要回答兩個治理問題：留多久（retention）、誰能讀（access control）。這兩個問題寫進 IaC 才能稽核，而非依賴 vendor 的隱性預設。

Retention：三方取捨

許多雲端服務在沒有明確宣告 log group 時會自動建一個、套上「永久保留」的預設值。永久保留的問題不是技術性的 — CloudWatch Logs 可以存到無限久 — 而是治理性的：日誌無限堆積、帳單緩慢長大，而沒有人做過「這條 log 該留多久」的顯式決定。

Retention 是成本、合規與除錯需求的三方取捨：

日誌類型	除錯需求	合規需求	建議 retention
應用 log（request、error）	近 2-4 週	通常無特殊要求	14-30 天
資料庫 slow query log	近 1-2 週	通常無特殊要求	14 天
存取稽核 log（CloudTrail）	偶爾回溯	1-7 年	90-365 天 + 歸檔 S3
金流 / 交易 log	對帳用、偶爾	依法規 3-7 年	短期保留 + 長期歸檔

較合理的做法是按日誌類型分層：高頻、除錯用的 application log 設短 retention，稽核相關的 access log 按合規要求設長期保留，必要時再把冷資料用 subscription filter 歸檔到更便宜的物件儲存（S3 + Glacier）。把這些值寫進 IaC，讓「為什麼這條 log 留 90 天」是一個能在 PR 上被討論的決定，而非某人半年前在 console 點的一個數字。成本參考：CloudWatch Logs 的儲存費用約 $0.03/GB/月。一個每天產生 10GB log 的服務，30 天 retention 的月費約 $9，7 天約 $2。retention 天數的選擇是合規需求（留多久才合規）與儲存成本的直接取捨，可以按 log 類型分層設定。

觀測平台的帳單在規模化後容易超線性成長，而缺乏 per-team cost attribution 的環境只能靠全域砍 retention 或降 sampling 來控制成本，兩者都會傷害觀測品質。把 log retention 跟 cardinality budget 的決定從全域級拆到團隊級（用 tag 歸因），才能做到「該省的省、該留的留」。這個取捨在 4.C14 觀測平台成本治理有多家企業的具體經驗。

 1resource "aws_cloudwatch_log_group" "api" {
 2  name              = "/app/${var.env}/api"
 3  retention_in_days = var.env == "prod" ? 30 : 7
 4  kms_key_id        = aws_kms_key.logs.arn
 5}
 6
 7resource "aws_cloudwatch_log_group" "audit" {
 8  name              = "/app/${var.env}/audit"
 9  retention_in_days = 365
10  kms_key_id        = aws_kms_key.logs.arn
11}

Dev 環境的 retention 可以大幅縮短（7 天甚至 3 天），因為它不承擔合規責任，存取量也低，帳單節省直接對應這個差值。

存取控制與加密

「誰能讀」是 retention 之外的另一半。Log 經常夾帶 PII（使用者信箱、IP）、token 或內部結構，讀取權限要跟模組二（身分與憑證地基）建立的 IAM 角色一起管。

常見陷阱是 log 在傳輸與儲存都加密了（kms_key_id 有設），卻對整個團隊開放讀取。加密保護的是靜態資料不被未授權存取，但如果整個開發團隊都有 logs:GetLogEvents 權限，加密形同虛設 — read 權限應該縮到值班與稽核需要的最小集合。

 1# 只允許 oncall role 讀取 prod log
 2data "aws_iam_policy_document" "log_read" {
 3  statement {
 4    actions   = ["logs:GetLogEvents", "logs:FilterLogEvents"]
 5    resources = [aws_cloudwatch_log_group.api.arn]
 6  }
 7}
 8
 9resource "aws_iam_role_policy" "oncall_log_read" {
10  role   = var.oncall_role_name
11  policy = data.aws_iam_policy_document.log_read.json
12}

應用層該怎麼決定哪些欄位根本不該進 log（例如在 logger 層做 PII masking），屬於資料保護的範圍，見 backend 模組七：資安與資料保護。

metric 與 alarm 設計

Metric 與 alarm 寫進 IaC，目的是讓「資源被建立的同時就帶著它的健康判準」。Alarm 是一份成文約定：哪條 metric、跨多長的評估窗口、超過什麼值要通知誰。把這份約定寫進 code，它就能被 review、被版本控制、被跨環境複用。

症狀型 vs 成因型告警

閾值設計是訊號與雜訊的取捨。告警可以分成兩類：症狀型（symptom-based）對應的是「使用者已經受影響」的指標 — 5xx 錯誤率、p99 延遲、佇列積壓。成因型（cause-based）對應的是「某個元件在劣化但使用者可能還沒感知」的指標 — CPU 使用率、記憶體使用率、磁碟 IOPS。

收益最高的起點是：症狀型設 alarm 並綁通知，成因型留在 dashboard 上作為診斷線索。理由是成因和症狀之間不一定有直接關係 — CPU 在 80% 不代表使用者受影響（可能 auto-scaling 正在長新節點），而 CPU 在 30% 也不代表安全（可能是某個 goroutine 卡住了，CPU 反而閒下來）。如果每個成因指標都獨立設 alarm，告警數量會與資源數量等比增長，訊噪比下降後症狀型告警容易被成因型告警淹沒。

 1# 症狀型 alarm：5xx 超過閾值代表使用者已受影響
 2resource "aws_cloudwatch_metric_alarm" "api_5xx" {
 3  alarm_name          = "${var.env}-api-5xx-rate"
 4  comparison_operator = "GreaterThanThreshold"
 5  evaluation_periods  = 3
 6  metric_name         = "5XXError"
 7  namespace           = "AWS/ApiGateway"
 8  period              = 60
 9  statistic           = "Sum"
10  threshold           = 10
11  treat_missing_data  = "notBreaching"
12  alarm_actions       = [var.oncall_sns_arn]
13}
14
15# 成因型指標：CPU 放 dashboard、不設 alarm
16# 除非確認「CPU 到 X% 一定代表服務即將不可用」這個因果關係

當成因和症狀之間有明確的因果閾值（例如 RDS 磁碟用量到 90% 就會開始拒絕寫入），那條成因也值得設 alarm — 關鍵是因果關係要確認過、而非假設。

INSUFFICIENT_DATA 的處理

treat_missing_data 決定了「沒收到 metric 資料點」時 alarm 怎麼判定。這個設定常被忽略，但它在兩個情境下會造成顯著差異：

持續有資料的 metric（如 API request count）：資料突然消失通常代表服務掛了或 metric 管線斷了，應該設 treat_missing_data = "breaching" — 沒資料本身就是異常訊號。

間歇性的 metric（如錯誤 count、某個低頻 Lambda 的 invocation）：平常就沒有資料點，沒資料代表正常運作，應該設 treat_missing_data = "notBreaching" — 避免每次低谷時段都觸發假告警。

判讀方式是問自己：「這條 metric 如果 10 分鐘沒有任何資料，代表好事還是壞事？」好事用 notBreaching，壞事用 breaching，不確定用 ignore（不改變 alarm 狀態，等下一個有資料的評估週期再判定）。

告警必須連到動作

一條有用的 alarm 至少要綁定通知去向。alarm_actions 為空的 alarm 只會在 CloudWatch console 裡變色，而事故發生時沒有人會盯著 console 看 — alarm 的價值在於它主動推送到值班的人手上。

1resource "aws_sns_topic" "oncall" {
2  name = "${var.env}-oncall-alerts"
3}
4
5resource "aws_sns_topic_subscription" "pagerduty" {
6  topic_arn = aws_sns_topic.oncall.arn
7  protocol  = "https"
8  endpoint  = var.pagerduty_integration_url
9}

通知去向也該寫進 IaC — SNS topic、subscription、整合端點都是基礎設施的一部分。手動建的 SNS subscription 跟手動建的 alarm 有同樣的問題：沒人記得、沒人維護、出事才發現斷了。

把基礎告警做成 module 預設

如果每次新服務上線都要有人「記得」去加 alarm，代表 alarm 還沒進 module 模板。把基礎告警（錯誤率、延遲、健康檢查失敗）做成服務模組的預設輸出，新服務 apply 時 alarm 跟著一起生出來：

 1# modules/service/variables.tf
 2variable "alarm_5xx_threshold" {
 3  type    = number
 4  default = 10
 5}
 6
 7variable "alarm_latency_p99_ms" {
 8  type    = number
 9  default = 3000
10}

開新服務時 alarm 跟著資源一起生出來，調整閾值才是該服務 owner 的選配。預設值的選擇依據是「保守但不擾民」— 初始閾值設寬一點，上線穩定後再根據實際基線收斂。

觀測訊號的設計有一個容易忽略的盲區：aggregated metric 會遮蔽局部惡化。Discord 在三代儲存架構的遷移過程中反覆遇到同一個問題——整體 p95 延遲正常，但少數 hot partition 或大型群組的延遲已經飆升，直到使用者回報才發現。教訓是 alarm 的維度要跟業務的 fan-out 結構對齊，而非只看全域聚合。詳見 4.C13 Discord：從儲存問題回推觀測缺口。規模化後叢集的動態擴縮也會改變觀測模型——擴縮事件本身要成為觀測對象，見 4.C8 Airbnb：K8s 規模化觀測訊號治理。

基礎設施訊號 vs 客戶端行為訊號

本模組的可觀測性處理基礎設施訊號，Monitoring 監控體系處理客戶端與業務行為訊號。兩者觀測的對象不同、生命週期也不同，因此分屬不同的 code 與不同的部署管道。

基礎設施訊號是資源層的健康狀態：log group retention、CPU、佇列深度、5xx 比例、實例存活。它們跟著資源被 IaC 建立與銷毀，回答的問題是「這個系統還活著嗎、哪裡壞了」。

客戶端行為訊號則是 SDK、Collector、業務埋點那一層：使用者點了什麼、轉換漏斗在哪裡流失、前端 JS 錯誤率、自訂業務事件。它們跟著產品功能演進、不跟著基礎設施資源同生共滅。

判讀分界的問法是：這個訊號是「資源建立時就該存在」還是「功能開發時才埋」。前者進本模組的 IaC，後者進 monitoring 那層的應用程式碼。

兩者在事故排查時會合流 — 基礎設施 alarm 告訴值班「RDS CPU 飆到 95%」，客戶端訊號告訴產品團隊「結帳頁面的失敗率從 0.1% 跳到 12%」。把兩條訊號交叉比對才能判斷影響範圍。但它們的擁有者、變更節奏與部署管道不同 — 基礎設施 alarm 跟著 infra PR 走，前端埋點跟著產品 sprint 走。混在同一份 code 裡會讓「誰負責這條訊號的閾值」變模糊，也讓 infra PR 的 review 範圍擴大到不相干的業務邏輯。

跨分類引用

→ monitoring 監控體系：客戶端 SDK / Collector 那層的監控
→ 模組四：環境分離與模組化：module 化在這裡延伸成「每個模組自帶 observability 宣告」
→ 模組五：核心服務上 IaC：每個核心服務帶自己的 log 與 alarm
→ 模組七：infra 走 PR 流程：observability 變更也走 PR 與自動化護欄
→ backend 模組七：資安與資料保護：哪些欄位不該進 log、PII 處理

身分與憑證地基 — IAM 模型、OIDC 短期憑證與權限邊界設計

Fri, 26 Jun 2026 00:00:00 +0000

權限一旦散落，後面每一層都建在沙上。網路收斂得再好，只要一把權限過大的長期憑證流出，攻擊者就能繞過所有邊界直接動到核心資源；環境分得再乾淨，只要 production 跟 staging 共用同一組身分，一次誤操作就跨環境炸開。身分與憑證是地基層最先該收斂的能力，因為它決定了「誰能動什麼」這個問題有沒有可信的答案。

IAM 的心智模型

IAM（Identity and Access Management）是雲端平台用來回答「某個身分能不能對某個資源做某件事」的授權系統。它把授權拆成三個獨立的零件：identity（身分，發起動作的主體）、policy（政策，描述允許或拒絕的規則）、role（角色，一組可以被臨時取得的權限集合）。理解這三者的分工，是後面所有憑證決策的前提。

identity：長期主體 vs 臨時假扮

identity 分兩類，這個區分在後面設計權限邊界時會反覆用到。一類是 user，代表一個長期存在的主體，通常對應到一個真人或一個固定的服務帳號，本身可以持有長期憑證（密碼或 access key）。另一類是 role，代表一組權限的暫時授予 — 沒有自己的長期密碼，而是讓某個被信任的身分「假扮（assume）」成它、換取一段有時效的臨時憑證。

把 identity 想成「護照」和「通行證」的差別：user 是護照，長期有效、全程攜帶；role 是通行證，到了管制區域臨時換發、離開就失效。多數安全事故源自於把通行證當護照用 — 某個 role 被長期假扮且從未被撤回，或某個 user 持有永不輪替的 access key。

policy：描述「允許對什麼做什麼」

policy 是貼在 user 或 role 上的規則文件，列出 Action（能做什麼，如 s3:GetObject）、Resource（對哪個資源，如特定 bucket 的 ARN）、Effect（Allow 或 Deny）。一條 policy 可以包含多個 statement，每條 statement 描述一組操作許可。

1# 最小權限範例：CI 只能讀寫特定 bucket，不給整個 S3
2data "aws_iam_policy_document" "ci_artifacts" {
3  statement {
4    effect    = "Allow"
5    actions   = ["s3:GetObject", "s3:PutObject"]
6    resources = ["arn:aws:s3:::myapp-artifacts/*"]
7  }
8}

這段 policy 只允許對 myapp-artifacts 這一個 bucket 做讀寫。如果寫成 resources = ["*"]，同一把身分被攻破時，攻擊者就能讀寫帳號內所有 bucket — 差別不在語法，在 Resource 欄位收到多緊。

role：臨時身分的載體

role 本身不持有長期密碼。它靠 trust policy（信任政策）定義「誰能假扮我」，靠 permissions policy 定義「假扮後能做什麼」。trust policy 和 permissions policy 是兩份獨立的文件，分別回答「誰進得來」與「進來後能做什麼」。

 1# trust policy：只允許 ECS 服務假扮此 role
 2data "aws_iam_policy_document" "ecs_trust" {
 3  statement {
 4    actions = ["sts:AssumeRole"]
 5    principals {
 6      type        = "Service"
 7      identifiers = ["ecs-tasks.amazonaws.com"]
 8    }
 9  }
10}
11
12resource "aws_iam_role" "api_task" {
13  name               = "api-task-prod"
14  assume_role_policy = data.aws_iam_policy_document.ecs_trust.json
15}

trust policy 裡的 principals 決定能進門的身分。上面這段把進門權限限給 ECS 服務本身，意味著只有跑在 ECS 上的 task 才能取得這個 role 的臨時憑證 — 一個在本地筆電跑的程式呼叫 AssumeRole 會被拒絕。

最小權限：持續收斂而非一次設定

最小權限（least privilege）是貫穿整套系統的設計原則：一個身分只應該拿到完成它本職工作所需的最小權限集合。多一個 action 是多一條攻擊面，多一個 resource 是多一個爆炸半徑。

最小權限是持續收斂的過程，而非一次設定就結束的靜態狀態。服務初期常為了快速上線給寬鬆權限 — 一個新的 ECS task role 掛上 AmazonS3FullAccess 讓它能跑起來，半年後這個 role 實際只用了 s3:GetObject 和 s3:PutObject 兩個 action、針對一個 bucket，但 policy 裡寫的還是全部 S3 操作對所有 bucket。

收斂的工具是 access analyzer。AWS IAM Access Analyzer 能分析 CloudTrail 日誌，列出某個 role 在過去 N 天內實際用了哪些 action 與 resource，據此產出一份建議的最小 policy。用它的步驟是：開著寬 policy 跑一段時間 → 用 access analyzer 產出實際使用清單 → 把 policy 收斂到這份清單 → 確認服務仍正常。

 1# 產出建議 policy：分析 api-task-prod role 過去 90 天的實際用量
 2aws accessanalyzer generate-policy \
 3  --policy-generation-details '{
 4    "principalArn": "arn:aws:iam::123456789012:role/api-task-prod",
 5    "cloudTrailDetails": {
 6      "trailArn": "arn:aws:cloudtrail:ap-northeast-1:123456789012:trail/main",
 7      "startTime": "2026-03-01T00:00:00Z",
 8      "endTime": "2026-06-01T00:00:00Z"
 9    }
10  }'

一個快速的盤點方式：列出所有掛著 AdministratorAccess、PowerUserAccess、*FullAccess 這類寬鬆 managed policy 的 role，每個命中都問一次「這個 role 確實需要這些權限嗎」。CI role 的 policy 裡出現 *:* 更是明確的收斂目標。

長期 access key 的風險

長期 access key 是一組沒有到期時間的靜態憑證（access key ID + secret），任何持有它的人或程式都能以對應身分的全部權限呼叫 API，直到有人手動撤銷為止。它最大的問題是「沒有時效」這個性質本身，會在三個方向上累積風險，而且風險隨團隊規模與時間單調上升。

散落

長期 key 為了被程式使用，會被複製進 .env 檔、CI 設定、本機 ~/.aws/credentials、Slack 訊息、甚至誤推進 git 歷史。每多一個副本就多一個外洩點。一把 key 在半年內可能被貼到六個地方 — 部署腳本、兩個 CI 平台的環境變數、某台共用跳板機的 profile、一封交接信、一位已離職同事的筆電 — 而這六個副本沒有任何中央清單能列舉。

權限過大

因為輪替麻煩，團隊傾向給一把 key 配足夠寬的權限「一次搞定」。建立時圖方便掛了 AdministratorAccess，打算「等穩定了再收斂」，但那天從來沒有到來。於是一把本來只該讀 artifact 的 key 同時握有刪除 production 資料庫的能力。

難以輪替

輪替一把長期 key 意味著找出所有副本、同步替換、確認沒有遺漏。這個成本高到讓多數團隊選擇拖延，於是 key 的有效期變成「無限」，外洩後的曝險窗口也跟著變成無限。用一個問題辨認風險：能不能在五分鐘內回答「這把 key 被用在哪些地方、上次輪替是什麼時候」？答不出來，它就已經是技術債。

常見的散落路徑：部署腳本使用的 admin key 留在 CI 環境變數，建立者離職後沒人知道這把 key 的存在與權限範圍。這類情境的風險在於外洩後沒有手段限制影響範圍 — key 的權限有多大，影響範圍就有多大。用 credential report 定期盤點帳號內所有 access key 的建立時間與使用時間，見模組負一：還沒有 infra 的環境。

長期憑證風險的實際規模可以從兩個案例看到。Snowflake 2024 事件中，攻擊者利用外洩的長期憑證登入缺少 MFA 的客戶環境，執行大量資料匯出，造成跨客戶的資料竊取與勒索（見 Snowflake 2024：憑證濫用與資料竊取）。LastPass 2022 事件則顯示備份路徑的憑證管理缺口會讓影響範圍沿信任鏈擴散——開發環境取得的資訊被用來存取雲端備份，整條路徑的金鑰隔離不足是根因（見 LastPass 2022：備份路徑與鏈式入侵）。兩個案例的共同教訓是：長期憑證的風險不止於外洩本身，而在於外洩後缺乏限制影響範圍的機制。

OIDC：給 CI/CD 的短期憑證

OIDC（OpenID Connect）聯合讓 CI/CD 平台用一段每次執行才簽發、幾分鐘後就失效的短期憑證取代長期 key，從根本上消掉「靜態密鑰散落」這個問題。它的運作方式是建立信任關係：雲端帳號信任某個外部 identity provider（如 GitHub Actions 的 OIDC issuer），當管線執行時，CI 平台簽發一個帶有可驗證 claim 的 token（描述「這是哪個 repo、哪個 branch、哪個 workflow 在跑」），雲端用這個 token 換出一段臨時憑證。沒有任何長期 secret 需要被儲存在 CI 設定裡。

trust policy 的收斂

關鍵設計在 role 的 trust policy 上 — 它規定「哪個外部身分被允許假扮成這個 role」。trust policy 要用 token 的 claim 把假扮條件收到最緊。

 1# OIDC trust policy：只允許特定 repo 的 main branch 假扮此 role
 2data "aws_iam_policy_document" "ci_trust" {
 3  statement {
 4    actions = ["sts:AssumeRoleWithWebIdentity"]
 5
 6    principals {
 7      type        = "Federated"
 8      identifiers = [aws_iam_openid_connect_provider.github.arn]
 9    }
10
11    condition {
12      test     = "StringEquals"
13      variable = "token.actions.githubusercontent.com:aud"
14      values   = ["sts.amazonaws.com"]
15    }
16
17    condition {
18      test     = "StringLike"
19      variable = "token.actions.githubusercontent.com:sub"
20      values   = ["repo:my-org/my-app:ref:refs/heads/main"]
21    }
22  }
23}

每個 condition 各守一段邊界。aud 的 StringEquals 確認 token 是發給 AWS STS 的（防止用錯 audience 的 token 闖入）。sub 的 StringLike 把假扮限定在特定 repo 的 main branch — 設成 repo:my-org/* 等於讓組織內任何 repo 的任何 branch 都能假扮這個 role，這是常見的設定陷阱。

收斂 trust policy 的判讀問法是：「如果 my-org 底下某個公開 fork 跑了一個惡意 workflow，它能不能假扮這個 role？」如果答案是能，sub 條件就太鬆了。

分離 plan 與 apply 的 role

進一步的收斂是替 plan 和 apply 分別建立 role。plan 只需要唯讀存取（讀 state、讀雲端現況），apply 需要寫入權限。把兩者分成獨立 role，讓 PR 階段的 CI 用唯讀 role 跑 plan、合併後才用寫入 role 跑 apply。任何拿到 plan role 的 token 無法修改基礎設施。

 1# plan role：只需讀取 state 與雲端現況
 2resource "aws_iam_role" "ci_plan" {
 3  name               = "infra-ci-plan"
 4  assume_role_policy = data.aws_iam_policy_document.ci_trust.json
 5}
 6
 7resource "aws_iam_role_policy_attachment" "ci_plan_read" {
 8  role       = aws_iam_role.ci_plan.name
 9  policy_arn = "arn:aws:iam::aws:policy/ReadOnlyAccess"
10}
11
12# apply role：需要寫入權限，trust policy 限定只有 main branch
13resource "aws_iam_role" "ci_apply" {
14  name               = "infra-ci-apply"
15  assume_role_policy = data.aws_iam_policy_document.ci_trust_main_only.json
16}

這一章把 role 與 trust policy 設計好，OIDC 的實際回報要到模組七：infra 走 PR 流程建管線時才兌現 — 屆時管線用這裡定義好的 role 取得短期權限執行 plan 與 apply，CI 環境裡不需要存任何 access key。

權限邊界設計

權限邊界是把不同類型的身分與不同環境之間的權限刻意隔開，讓任何一個身分被攻破時，爆炸半徑都被限制在它本職的範圍內。邊界設計有兩條軸線需要分別處理：人 vs 機器，以及環境之間。

人 vs 機器

兩者的存取模式根本不同，混在同一個身分上會同時喪失兩邊的保護。

人類身分需要互動式登入、應該強制 MFA、權限隨職責變動，且通常透過 SSO 集中管理。機器身分（CI runner、ECS task、Lambda function）需要的是程式化、無人值守的存取，應該用 role 假扮取得短期憑證，永遠不該配長期 key。

機器身分還要再依「跑在哪裡」分兩類。跑在雲上的 workload（EC2 instance、ECS task、Lambda）由平台直接把 role 綁在執行環境上 — AWS 用 instance profile 把 role 掛在 EC2、用 task role 掛在 ECS task，workload 從實例 metadata 端點自動取得輪替的短期憑證。跑在雲外的 CI/CD（GitHub Actions、GitLab CI）拿不到實例 metadata，需要前面那套 OIDC 信任關係換憑證。

一個常見陷阱是工程師用自己的個人 key 跑自動化腳本 — 這把人的廣泛權限直接送進了無人值守的執行環境，MFA 保護形同虛設（API 呼叫不需要 MFA challenge），權限範圍比任何 CI role 都大。

環境之間

環境之間的邊界，目的是讓 production 的權限與 staging、dev 完全不交叉。驗證邊界的方式是用 dev 環境的 CI role 嘗試列出或刪除 production 的資源——能做到，就代表邊界沒有建立。

帳號級護欄：SCP

Organizations 把環境拆成獨立帳號，再用 SCP（Service Control Policy）對整個帳號或組織單位設定權限天花板，連帳號內的管理員都越不過去。SCP 是 deny-based 的頂層限制 — 它不授予任何權限，只限制「即使有人給了權限也不准做」。

 1{
 2  "Version": "2012-10-17",
 3  "Statement": [
 4    {
 5      "Sid": "DenyLeaveOrg",
 6      "Effect": "Deny",
 7      "Action": ["organizations:LeaveOrganization"],
 8      "Resource": "*"
 9    },
10    {
11      "Sid": "DenyDisableCloudTrail",
12      "Effect": "Deny",
13      "Action": [
14        "cloudtrail:StopLogging",
15        "cloudtrail:DeleteTrail"
16      ],
17      "Resource": "*"
18    }
19  ]
20}

這份 SCP 掛在整個組織底下的所有帳號上，確保任何帳號都不能關閉稽核日誌或退出組織 — 即使該帳號裡有人持有 AdministratorAccess。SCP 的定位是組織層的不可踰越底線。

Role 級護欄：Permissions Boundary

Permissions Boundary 是掛在單一 role 上的權限上限。它跟 SCP 的差別在粒度：SCP 管整個帳號，Permissions Boundary 管單一身分。即使有人後來給一個 role 貼了過寬的 policy，Boundary 也會擋住超出上限的部分。

 1# Permissions Boundary：CI role 最多只能操作特定服務
 2resource "aws_iam_policy" "ci_boundary" {
 3  name = "ci-boundary-prod"
 4  policy = jsonencode({
 5    Version = "2012-10-17"
 6    Statement = [
 7      {
 8        Effect   = "Allow"
 9        Action   = ["ecs:*", "ecr:*", "s3:*", "logs:*"]
10        Resource = "*"
11      },
12      {
13        Effect   = "Deny"
14        Action   = ["iam:*", "organizations:*", "account:*"]
15        Resource = "*"
16      }
17    ]
18  })
19}
20
21resource "aws_iam_role" "ci_apply" {
22  name                 = "infra-ci-apply"
23  assume_role_policy   = data.aws_iam_policy_document.ci_trust.json
24  permissions_boundary = aws_iam_policy.ci_boundary.arn
25}

SCP 與 Permissions Boundary 疊起來的效果是：SCP 在帳號層鎖住最危險的操作（關日誌、退組織），Boundary 在 role 層限制單一身分最多能做什麼，permissions policy 在這兩層天花板之內授予實際需要的權限。三者各管一層，缺一層就少一道屏障。

身分控制面本身的韌性在兩個案例中被檢驗。Azure AD 2021 事件中，身分服務的控制面故障導致所有依賴身份驗證的服務同時受影響，事故處理需要在身份恢復與服務降級策略之間排優先序（見 Azure AD：Identity Control-plane 事件）。Microsoft Storm-0558 事件則顯示簽章金鑰一旦失守，token 驗證的信任鏈會跨租戶失效，修復不只是修補漏洞、而是重建整條 key lifecycle 與 issuer 驗證流程（見 Microsoft：Storm-0558 簽章金鑰事件）。這兩個案例揭露的是：權限邊界只管「某個身分能做什麼」，但身分系統本身的控制面如果失效，所有建立在它之上的邊界都跟著失效。

環境隔離的更完整實作（帳號結構、模組化參數）會在模組四：環境分離與模組化展開。

身分層 vs 應用層 secret 的邊界

這一章談的是身分與憑證 — 誰是誰、怎麼證明、能動什麼。憑證背後引用的應用層 secret（資料庫密碼、第三方 API key）怎麼安全儲存與注入，屬於模組八：治理好習慣的 secret management 範圍。兩者的交集是：身分層決定「誰能讀到 secret store」，secret 層決定「secret 怎麼存與輪替」。把 IAM role 的 policy 收到只能讀取該服務路徑下的 secret（如 prod/payments/*），是同時落實最小權限與 secret 隔離的結合點。

身分與憑證的地基備妥後，下一步是劃清服務之間的網路邊界——這正是模組三：網路地基的範圍。

跨分類引用

→ 模組負一：還沒有 infra 的環境：長期 key 盤點與護欄
→ 模組三：網路地基：身分備妥後，劃清服務之間的網路邊界
→ 模組四：環境分離與模組化：環境之間的帳號結構與隔離強度
→ 模組七：infra 走 PR 流程：CI/CD 管線用 OIDC 取得短期權限
→ 模組八：治理好習慣：應用層 secret 的儲存與引用
→ backend 模組七：資安與資料保護：Secret Management 與憑證管理交集
→ Access Key 輪替手冊：key 盤點與輪替的操作步驟
→ OIDC Trust Policy 設定指南：GitHub Actions OIDC 的 step-by-step 設定

從單一環境到環境分離：infra 需求的浮現過程

Fri, 26 Jun 2026 00:00:00 +0000

多數服務的起點是一台運算實例加一台資料庫，部署方式是 SSH 進去拉 code 再重啟。這個結構在單人、單環境、低變更頻率的條件下運作正常，但它的隱性前提是：所有設定只有一份，且只有一個人在操作。機器的配置存在操作者的記憶裡，資料庫參數存在 Console 頁面上，security group 規則是建立時隨手設的。這些設定沒有被記錄在任何能回溯或重建的地方。

這個結構的操作極限會在兩個時間點浮現：第一次需要在正式環境以外的地方驗證變更時，以及第二個人開始操作同一組資源時。以下依序說明每個階段的操作現實與對應的 infra 需求。

資料庫變更需要驗證環境

應用新增功能時經常需要改資料庫的表結構 — 加欄位、改索引、拆表。這類操作（database migration）如果語法有誤或邏輯有缺，可能導致服務中斷或資料不一致。正常做法是先在非正式環境驗證通過，再推到 production 執行。

單一環境的情況下沒有驗證的場所。三種應對方式各有不同的風險邊界：

直接在 production 執行。成本最低，風險最高。migration 腳本跑下去的那一刻，正在使用服務的使用者直接承受後果 — 一個鎖住整張大表的 ALTER TABLE 會讓所有查詢卡住，一個 DROP COLUMN 刪錯欄位會造成不可逆的資料遺失。服務規模小、使用者少時代價尚可承受；一旦服務開始承載營收或外部依賴，這個做法的風險代價就超過了它省下的時間。

手動複製一套環境。到 Console 上照 production 的設定重新建一台 EC2、開一台 RDS、配一組 security group，得到一套「看起來一樣」的 staging。migration 先在 staging 驗證再推 production。這解決了驗證場所的問題，但引入了漂移問題 — 下一節說明。

用程式碼描述環境，讓工具複製。把 production 的設定寫成描述檔，用 Terraform 或 OpenTofu 根據同一份描述建出 staging。初始成本比手動複製高（要學工具、寫描述檔），但它保證了手動複製保證不了的一件事：staging 和 production 的結構來自同一份描述，差異只存在於刻意不同的參數（機器規格、備份天數）。這就是 Infrastructure as Code（IaC）的起點。

手動複製的環境會漂移

手動複製的 staging 在建立當天跟 production 一致。一個月後通常不再一致。

漂移的來源是日常操作中的局部調整：staging 的 security group 多了一條規則（某次除錯時加的，事後忘了刪）、production 的 RDS 參數被調過（線上出現慢查詢，DBA 改了 work_mem 但沒同步 staging）、staging 的 IAM role 多了一條 policy（測試新功能時加的，測完沒拿掉）。每一筆差異都很小，小到不值得專門同步，但它們會累積。

漂移引爆的時機跟產生的時機通常隔很遠。一個 migration 在 staging 通過、推到 production 失敗，排查半天後發現是一個月前的參數調整造成的 — staging 的 work_mem 跟 production 不同，剛好影響了這次 migration 的執行計畫。這種因果關係跨越時間的錯誤，排查成本遠高於錯誤本身。

漂移的根源是「兩套環境各自獨立維護」。只要兩份設定各自存在，同步就完全依賴操作者的記憶與紀律，而記憶會衰退、紀律會在壓力下鬆懈。結構性的解法是讓兩套環境共用同一份設定，差異只存在於刻意控制的參數。

同一份描述、不同的參數

IaC 工具消除漂移的方式，是把環境的結構寫成一份 module，用不同的參數值建出不同環境。程式碼只有一份，結構保證相同；差異全部收斂在參數裡，每一處「故意不同」都是明確且可審查的。

一個描述資料庫的 module：

 1variable "instance_class" {
 2  type = string
 3}
 4
 5variable "backup_retention_days" {
 6  type    = number
 7  default = 7
 8}
 9
10resource "aws_db_instance" "main" {
11  engine                  = "postgres"
12  instance_class          = var.instance_class
13  backup_retention_period = var.backup_retention_days
14}

Production 傳入大機器和長備份，staging 傳入小機器和短備份：

 1# production
 2module "database" {
 3  source                = "./modules/database"
 4  instance_class        = "db.r6g.large"
 5  backup_retention_days = 14
 6}
 7
 8# staging
 9module "database" {
10  source                = "./modules/database"
11  instance_class        = "db.t3.small"
12  backup_retention_days = 3
13}

兩個環境跑的是同一段 module 程式碼。引擎版本、連線方式、安全設定完全相同（寫在 module 裡、不是參數），差異只有機器規格和備份天數（刻意透過參數控制）。改動 module 一次、兩個環境同時生效，漂移的空間被結構性消除。

IaC 工具會維護一份 state 記錄，追蹤每個環境裡實際建了哪些資源和它們的屬性。改了程式碼後跑 terraform plan，工具會比對新的程式碼和 state 的差異，列出「會新增 / 修改 / 刪除什麼」。確認差異符合預期後才執行 apply。state 的角色與安全存放方式在模組一：最小可行 IaC 展開，環境的目錄結構與 module 設計在模組四：環境分離與模組化展開。

環境分離牽出的後續關注點

環境分離解決了「在哪裡驗證」和「為什麼 staging 跟 production 不同」的問題。但多環境運行後，一組後續的操作需求會依序浮現，每一個對應 infra 的一個能力層：

身分與權限隔離。三個環境代表三組資源。如果所有人對所有環境都有完整操作權限，一次誤操作就可能改壞 production。production 的修改權限應該比 staging 嚴格、操作身分應該分開。這是模組二：身分與憑證地基的範圍。

變更審查流程。多人同時操作 infra 時，沒有經過 review 的變更會互相覆蓋。把 infra 變更接上跟應用程式碼相同的 PR 流程 — 開分支、自動跑 plan、review 通過才 apply — 讓每一次改動都有提案、審查和歷史。這是模組七：infra 走 PR 流程的範圍。

機密值管理。資料庫密碼、API key 這些機密值在有版本控制之前可能直接寫在 .env 或 CI 變數裡。一旦有了 IaC 和 git，這些值如果跟著程式碼進了版本歷史，就會隨著每一次 clone 擴散。機密值要存在專用的密鑰管理服務裡，程式碼只持有指向它的參照。這是模組八：治理好習慣的範圍。

可觀測性。三個環境各自需要 log、metric 和告警，這些監控要跟環境本身一起建立，而非等服務中斷後才發現沒有可查的資料。這是模組六：可觀測性與 log 的範圍。

網路邊界。三個環境如果共用同一個網段和防火牆規則，staging 的某個被入侵的服務可能橫向觸及 production 的資料庫。每個環境需要有自己的網路邊界。這是模組三：網路地基的範圍。

這些關注點的共同根源是同一件事：當服務從單人單環境長成多人多環境，原本藏在記憶和手動操作裡的決策，必須變成可描述、可審查、可重建的規則。整套教材的地圖在模組零：infra 是什麼，每個模組各自處理一個能力層。

跨分類引用

→ 模組零：infra 是什麼：責任邊界與成熟度階梯（從全手動到全程式碼治理的五階分級）的完整定義
→ 模組負一：還沒有 infra 的環境：導入 IaC 之前的低成本護欄
→ 模組一：最小可行 IaC：state 與 IaC 工具的選型與起步
→ 模組四：環境分離與模組化：目錄結構、module、參數化的完整設計

部署順序與資料庫上 IaC

Fri, 26 Jun 2026 00:00:00 +0000

地基就緒後，依「地基 → 上層」的順序把實際承載業務的服務寫進 IaC。身分（IAM）、網路（VPC / subnet）與環境分離構成底層平面，這一層在它們之上描述資料庫、運算、儲存與入口 — 業務流量真正落地的地方。順序與依賴的表達方式決定了這層能不能被乾淨地重建、拆除與演進。共通原則是：描述服務的「身分與接線」，而非把每個執行期參數都塞進程式碼。

本篇先確立依賴圖怎麼驅動部署順序，再展開核心服務裡最需要謹慎描述的一類 — 資料庫。資料庫持有無法重建的狀態，它的 IaC 描述比其他 stateless 資源多出保護策略、連線管理與讀寫分流三個維度。

核心服務的部署順序

核心服務的部署順序由依賴方向決定：被依賴的先建，依賴別人的後建。網路與身分是幾乎所有上層服務的共同前置 — 資料庫要放進私有 subnet、運算要套用 IAM role 才能讀 S3、load balancer 要掛在公開 subnet 並引用 security group。這些底層平面若還沒成形，上層資源會在 apply 時因為找不到 subnet ID 或 role ARN 而失敗，或更糟，建在預設 VPC 裡繞過了所有隔離設計。

把順序交給 IaC 工具的依賴圖自動推導，比人工排序可靠。當運算資源的定義引用了 subnet 與 security group 的資源屬性，Terraform 會解析出「subnet 先於運算」的邊，apply 時自動排程。人工維護一份「先做 A 再做 B」的清單會隨資源增加而失準，依賴圖則隨程式碼本身演進。

四層依賴結構

依賴圖的典型展開順序呈現四層結構：

層次	資源	依賴來源
1	VPC、subnet、security group、IAM role	無（地基層，由模組二到四建立）
2	RDS、ElastiCache、S3 bucket	引用 subnet group、security group
3	ECS service / EKS workload、RDS Proxy	引用 subnet、IAM role、DB 端點
4	ALB、listener、target group、ACM 憑證	引用 public subnet、security group、ECS

這四層不需要手動編排。只要程式碼裡的引用關係正確，Terraform 就會自動按這個順序 apply。當 plan 輸出的順序看起來不合直覺 — 例如 ALB 先於 ECS — 通常代表某個引用斷了、兩者之間沒有依賴邊。

順序失控的徵兆

順序失控的早期徵兆是：某個上層資源的定義裡寫了一串 hardcode 的 subnet ID 或 VPC ID。

1# 硬編碼 ID — 依賴圖斷裂，底層重建時上層不會跟上
2resource "aws_db_subnet_group" "private" {
3  subnet_ids = ["subnet-0abc123", "subnet-0def456"]
4}

這段 code 跟底層的 subnet 資源沒有引用關係。底層一旦重建、ID 改變，上層不會自動跟上，state 與雲端現實之間的不一致（即 drift）就此產生。修法是把硬編碼的 ID 換成對底層資源屬性的引用：

1# 引用資源屬性 — 依賴圖自動推導，底層重建時上層自動取得新 ID
2resource "aws_db_subnet_group" "private" {
3  subnet_ids = [for s in aws_subnet.private : s.id]
4}

跨 state 的情境（網路地基與核心服務分屬不同 state）則用 data source 取代直接引用 — 這個取捨在服務依賴與跨 state 引用展開。

隱性依賴與 depends_on

自動推導涵蓋的是「引用屬性時產生的邊」。少數情況下兩個資源之間有依賴卻沒有屬性引用 — 例如一個 IAM policy attachment 必須在某個 role 被 ECS task 使用之前完成，但 task 引用的是 role ARN 而非 attachment 的輸出。這時用 depends_on 顯式宣告邊：

1resource "aws_ecs_service" "api" {
2  # ...
3  depends_on = [aws_iam_role_policy_attachment.ecs_task_s3]
4}

depends_on 應該只出現在自動推導覆蓋不了的場景。如果一個 module 裡到處都是 depends_on，通常代表引用關係寫得不夠明確，該把隱性依賴改成屬性引用。

資料庫（RDS）

資料庫是核心服務裡最需要謹慎描述的資源，因為它持有無法重建的狀態。IaC 定義它的 instance class、引擎版本、所在的 subnet group（決定它落在哪些私有 subnet）、套用的 parameter group 與 security group。連線端點不要硬編碼，改用資源 output 暴露給上層運算引用，這樣端點隨主庫 failover 或重建而改變時，上層引用自動更新。

 1resource "aws_db_instance" "primary" {
 2  identifier             = "app-${var.env}-primary"
 3  engine                 = "postgres"
 4  engine_version         = "16.3"
 5  instance_class         = var.db_instance_class
 6  allocated_storage      = 100
 7  storage_encrypted      = true
 8
 9  db_subnet_group_name   = aws_db_subnet_group.private.name
10  vpc_security_group_ids = [aws_security_group.db.id]
11
12  multi_az                  = var.env == "prod" ? true : false
13  backup_retention_period   = var.env == "prod" ? 14 : 1
14  backup_window             = "03:00-04:00"
15  deletion_protection       = var.env == "prod" ? true : false
16  skip_final_snapshot       = var.env == "prod" ? false : true
17  final_snapshot_identifier = var.env == "prod" ? "app-prod-final-${formatdate("YYYYMMDD", timestamp())}" : null
18
19  tags = { service = "payments" }
20}
21
22output "db_endpoint" {
23  value = aws_db_instance.primary.endpoint
24}

加密的不可逆性

storage_encrypted = true 確保磁碟層級的加密在資源建立時就生效。RDS 不支援事後對既有 instance 開加密 — 漏了只能重建。補救路徑是匯出快照、用加密 KMS key 複製快照成加密版本、再用加密快照還原成新 instance。這個過程需要停機或切換端點，對已經承載流量的 production 資料庫代價很高。prod 的 RDS 若 storage_encrypted 為 false，這筆技術債越早處理越便宜。

parameter group 的角色

parameter group 定義資料庫引擎層級的行為參數（如 max_connections、work_mem、log_min_duration_statement），是 RDS instance 的設定骨架。IaC 描述 parameter group 的好處是讓這些參數進版本控制 — 有人改了 max_connections 會出現在 PR diff 裡，而不是某天在 Console 改了沒人知道。

 1resource "aws_db_parameter_group" "postgres16" {
 2  family = "postgres16"
 3  name   = "app-${var.env}-pg16"
 4
 5  parameter {
 6    name  = "log_min_duration_statement"
 7    value = "1000"
 8  }
 9
10  parameter {
11    name  = "shared_preload_libraries"
12    value = "pg_stat_statements"
13  }
14}

修改 parameter group 的某些參數需要重啟 RDS instance（稱為 apply_method = "pending-reboot"），修改前要先確認這個參數屬於「立即生效」還是「要重啟」。在 Terraform plan 裡不會明確標示重啟，要靠 AWS 文件交叉比對。

連線管理

運算到資料庫之間有一段常被略過的接線：連線管理。無狀態運算水平擴張時，每個實例各自開連線，容易把資料庫的連線數打滿。一個 ECS service 從 5 個 task 擴到 50 個、每個 task 開 10 條連線，就從 50 條跳到 500 條 — 而一台 db.r6g.large 的 max_connections 預設約在 1600 左右，500 條已經吃掉三分之一。

出現「擴運算反而拖垮 DB」的訊號時，解法是引入連線池或受管的連線代理。RDS Proxy 是 AWS 的受管方案：它在運算與 RDS 之間當一層連線池，把下游的數百條短連線收斂成對 RDS 的少量長連線。在 IaC 裡一併定義，輸出 proxy 端點給運算引用：

 1resource "aws_db_proxy" "app" {
 2  name                   = "app-${var.env}-proxy"
 3  engine_family          = "POSTGRESQL"
 4  role_arn               = aws_iam_role.rds_proxy.arn
 5  vpc_subnet_ids         = [for s in aws_subnet.private : s.id]
 6  vpc_security_group_ids = [aws_security_group.db.id]
 7
 8  auth {
 9    auth_scheme = "SECRETS"
10    secret_arn  = aws_secretsmanager_secret.db_password.arn
11  }
12}
13
14output "db_proxy_endpoint" {
15  value = aws_db_proxy.app.endpoint
16}

運算端引用 db_proxy_endpoint 而非 db_endpoint，連線管理就從各 task 自己處理轉成由 proxy 統一收斂。RDS Proxy 同時提供 failover 的連線保持 — 主庫切換到 standby 時，proxy 維護的連線不會全部斷開重建，應用端感受到的是短暫延遲而非連線錯誤。

判讀是否需要 RDS Proxy 的訊號是連線數成長曲線：如果運算的擴縮範圍固定且連線數上限遠低於 max_connections，直連即可；如果運算會頻繁擴縮或連線數可能逼近上限，proxy 值得引入。proxy 本身有額外成本（按 vCPU 計費），不是所有環境都划算 — dev 環境通常直連就夠。

read replica

當讀流量遠大於寫、且能容忍副本的複寫延遲（通常是毫秒到秒級）時，read replica 是把讀請求導離主庫的下一步。replica 在 IaC 裡用獨立資源描述，引用主庫的 identifier：

 1resource "aws_db_instance" "read_replica" {
 2  identifier             = "app-${var.env}-replica"
 3  replicate_source_db    = aws_db_instance.primary.identifier
 4  instance_class         = var.db_replica_class
 5  vpc_security_group_ids = [aws_security_group.db.id]
 6}
 7
 8output "db_replica_endpoint" {
 9  value = aws_db_instance.read_replica.endpoint
10}

運算端依讀寫分流引用不同端點 — 寫走 db_endpoint（或 db_proxy_endpoint），讀走 db_replica_endpoint。這個分流邏輯屬於應用層的責任，infra 只負責把端點暴露出來。

read replica 的邊界要講清楚：它緩解讀流量對主庫的壓力，但它不是備份。replica 會同步複製主庫的所有變更 — 包括誤刪的資料。需要還原到某個時間點的保護由 backup retention 與 PITR（point-in-time recovery）提供，這兩者的 IaC 描述在 stateful 保護策略。

引擎版本升級的取捨

RDS 引擎版本（engine_version）寫進 IaC 後，版本升級就成為一個需要 PR review 的變更。升級分 minor 和 major：minor 升級（16.2 → 16.3）通常向後相容、可在維護視窗自動套用；major 升級（15 → 16）可能有 breaking change，需要先在 dev 環境驗證、備份、排維護窗口。

在 IaC 裡把 engine_version 寫死是刻意的選擇 — 它阻止 AWS 在背景自動升級 major 版本，讓版本變更必須走 PR。代價是需要定期檢查是否有 EOL 版本還在用。如果 engine_version 指向的版本已經超過 AWS 的支援期限，Terraform apply 會在某天失敗（AWS 會強制升級），這比主動升級更不可控。

資料庫在規模放大後的治理維度也會改變。Netflix 把分散的 Aurora 叢集整併後成本降了 28%——多個團隊各自開的 RDS instance 加起來的閒置容量遠超一個整併後的叢集。infra 層的教訓是 RDS 的 IaC 描述不只管單一 instance 的設定，長期還要管叢集的分布與合併策略。另一個維度是合規需求驅動的資料落地：Hard Rock Digital 因為 Wire Act 法規要求資料留在特定州，用 AWS Outposts 在地端跑運算——這類情境下 infra 的 region 與可用區選擇由法規約束驅動，而非純技術決策。

跨分類引用

→ 模組三：網路地基：資料庫的 subnet group 引用 private subnet
→ 模組二：身分與憑證地基：RDS Proxy 的 IAM role 與 secret 存取
→ 模組四：環境分離與模組化：prod / dev 用同一個 module、不同參數值
→ stateful 保護與跨 state 引用：backup retention、deletion protection、multi-AZ 的完整討論
→ 運算上 IaC：運算端怎麼引用資料庫端點
→ backend 模組一：資料庫：schema 設計、migration、query 層面的服務端討論

無 SSH 的 FTP / 面板管理環境接管

Fri, 26 Jun 2026 00:00:00 +0000

接手一個只有 FTP 和網頁面板（cPanel / Plesk / phpMyAdmin）存取的 PHP 專案時，面對的約束跟有 SSH 的環境不同：沒辦法登入下指令、沒有 CLI 工具可以批次操作、部署靠 FTP 上傳檔案、資料庫操作靠 phpMyAdmin 的網頁介面。這類環境常見於共享主機，但也可能出現在只安裝了面板的獨立主機或 VPS 上。前一位維護者的「文件」是他的記憶，而這份記憶已經隨著人一起離開。第一步是穩定維運，不是現代化改造。

這篇文章的操作順序按風險排列：先做不碰 prod 的盤點（零風險），再建本地開發環境（只動本機），然後才是碰 prod 的部署與資料庫紀律。

拍下完整現況（不動 prod）

接手後的第一個工作日只做一件事：把 prod 的完整狀態拍一份下來存到本地。這一步不改 prod 的任何東西，目的是讓自己手上有一份可對照的快照。

環境不同，拍照的工具和流程不同。先判斷自己的情境：

有 cPanel / Plesk 完整備份功能 → 用主機面板一次打包
只有 FTP 存取 → 用 FTP 逐層拍照
有 SSH 存取（部分 VPS 或獨立主機）→ 改讀有 SSH 但沒有 IaC 的雲端環境接管

用主機面板一次打包

如果主機有 cPanel，「備份精靈（Backup Wizard）」可以一次打包程式碼 + 資料庫 + email 設定 + cron jobs，是最快的完整快照方式。Plesk 的對應功能在「工具與設定 → 備份管理員」。

面板備份通常包含：網站檔案（含隱藏檔）、所有 MySQL 資料庫、email 帳戶與轉寄規則、cron job 設定、DNS zone 記錄。下載打包檔後解壓到本地、用 Git 初始化（見下方「初始化 Git repo」段）。

面板備份可能不包含的：SSL 憑證的私鑰（Let’s Encrypt 自動續期的通常不需要手動備份）、PHP 版本與模組設定（需要另外記錄，見環境設定的拍照）、.htaccess 以外的 Apache/LiteSpeed 自訂設定。拿到面板備份後仍然要跑「環境設定的拍照」段，因為面板備份拍的是檔案、不是環境設定。

用 FTP 逐層拍照

沒有主機面板（或面板不提供完整備份）時，要用 FTP 和 phpMyAdmin 分別拍程式碼和資料庫。

程式碼與靜態資源：用 FTP client 把整個網站目錄鏡像到本地。FileZilla 的操作路徑：站台管理員連線後，在遠端面板對根目錄按右鍵 → 「下載」，或用「伺服器 → 同步瀏覽」模式讓本地與遠端目錄結構保持對齊。WinSCP 提供「保持更新（Keep Remote Directory up to Date）」功能，但接手階段只需要一次性的完整下載，不需要持續同步。下載前確認 FTP client 的設定有勾選「顯示隱藏檔案」——.htaccess、.env、.user.ini 這類隱藏檔經常包含關鍵設定。

資料庫：用 phpMyAdmin 的「匯出」功能匯出完整資料庫（詳見下方「資料庫」段）。FTP 只拍程式碼，資料庫要另外匯出。

初始化 Git repo

不論用面板備份還是 FTP 逐層拍，拿到檔案後都初始化成 Git repo：

1mkdir project-takeover && cd project-takeover
2# FTP 下載完整站台到此目錄後
3git init
4git add -A
5git commit -m "initial snapshot from production FTP"

這個 commit 是接手的基準線。之後任何改動都能 diff 回這個起點，知道自己改了什麼。

資料庫

用 phpMyAdmin 的「匯出」功能：選「自訂」模式 → 勾選所有資料表 → 格式選 SQL → 勾選「加入 DROP TABLE / VIEW / PROCEDURE / FUNCTION / EVENT / TRIGGER 敘述」（讓匯入時能乾淨覆蓋）→ 壓縮選 gzip（大型資料庫避免瀏覽器逾時）→ 編碼選 UTF-8 → 執行。

phpMyAdmin 的匯出在資料庫超過幾百 MB 時容易因 PHP max_execution_time 或記憶體限制中斷。替代方案：如果主機有 cPanel，「phpMyAdmin → 匯出」旁邊通常有「MySQL 資料庫備份」或透過 cPanel API 的 mysqldump 介面，比 phpMyAdmin 的 PHP 層匯出更可靠。另一個選項是本地安裝 DBeaver（免費、跨平台）或 TablePlus（macOS/Windows），用主機提供的遠端 MySQL 連線（cPanel → 遠端 MySQL → 加入本機 IP 白名單）直接從本機執行 mysqldump。HeidiSQL（Windows 免費）也支援同樣的遠端連線匯出。

把匯出的 .sql 檔存進 repo：

1mkdir db-snapshots
2# 把 phpMyAdmin 匯出的檔案存到這裡
3mv ~/Downloads/production-dump.sql db-snapshots/$(date +%Y%m%d)-initial.sql
4git add db-snapshots/
5git commit -m "initial database snapshot from phpMyAdmin"

如果主機面板有提供 mysqldump 的 web 介面（部分 cPanel 有），用那個比 phpMyAdmin 的匯出更可靠——phpMyAdmin 在大資料庫上容易因為 PHP 記憶體限制而中斷。

環境資訊記錄

在 repo 根目錄建一份 ENVIRONMENT.md，記錄以下資訊：

 1## Production 環境
 2
 3- **主機商**：[名稱]、方案：[方案名稱]
 4- **PHP 版本**：cPanel/Plesk 的 PHP 設定頁直接顯示；沒有控制面板時，FTP 上傳一個 `phpinfo.php`（內容 `）到站台根目錄、瀏覽器開啟後記錄版本、確認後立刻刪除（phpinfo 會暴露伺服器完整設定）
 5- **MySQL 版本**：phpMyAdmin 首頁顯示
 6- **Web server**：Apache / LiteSpeed / Nginx（控制面板或 response header）
 7- **域名 / DNS**：誰管的、nameserver 指向哪裡
 8- **SSL**：Let's Encrypt 自動續期 / 主機商代管 / 手動上傳
 9- **Cron jobs**：控制面板 → Cron Jobs 頁面截圖或列表
10- **Email**：有沒有用主機的 email 服務、轉寄規則
11- **.htaccess**：已包含在 FTP 下載中（注意隱藏檔有沒有漏）

掃描 hardcoded credential

PHP 專案常見的做法是把資料庫密碼、API key 直接寫在 config.php 或 wp-config.php 裡。在本地 repo 跑一次掃描：

1grep -rn "password\|passwd\|secret\|api_key\|apikey\|api_secret" \
2  --include="*.php" --include="*.ini" --include="*.env" .

把找到的每一筆記錄下來：哪個檔案、什麼 credential、用在哪裡。這份清單是後續 credential 輪替的輸入。

第三方整合清單

翻 code 找出所有對外部服務的呼叫——金流（綠界、藍新、Stripe）、簡訊（Twilio、三竹）、Email（SendGrid、SMTP）、社群登入（Facebook、Google）、CDN、Analytics。每一個整合都有對應的 API key 或 webhook URL，這些都是接手後需要確認存取權的項目。

環境設定的拍照

程式碼和資料庫之外，伺服器的執行環境本身也要記錄。非 container 環境沒有 docker commit 可以一次打包整台機器，要逐層拍：

PHP 設定：在站台根目錄上傳一個 phpinfo.php（內容 ），用瀏覽器打開後把完整輸出另存為 HTML 檔。記錄完立刻刪掉這個檔案——phpinfo 會暴露伺服器的完整設定與路徑。需要記錄的關鍵項：PHP 版本、載入的模組（mysqli、curl、mbstring、gd、imagick）、upload_max_filesize、post_max_size、max_execution_time、memory_limit、error_reporting、session.save_handler。這些值直接影響程式碼能不能在本地環境重現相同的行為。


Cron jobs：cPanel 的 Cron Jobs 頁面或 Plesk 的排程工作清單，截圖或逐條抄到 ENVIRONMENT.md。每一條 cron 記錄三項：排程時間、執行的指令（通常是 /usr/local/bin/php /home/user/public_html/cron.php）、這條 cron 的業務用途（如果能從指令或檔案名推斷）。
SSL 憑證：記錄域名、簽發者（Let’s Encrypt / 自購 / 主機商代管）、到期日。瀏覽器的鎖頭圖示可以查看憑證詳情。從本機也可以用 CLI 確認：





1echo | openssl s_client -connect example.com:443 2>/dev/null | openssl x509 -noout -dates -issuer
如果是 Let’s Encrypt 自動續期，要確認續期機制是 cPanel 內建（AutoSSL）還是某個自訂 cron。手動購買的憑證要記錄到期日並設日曆提醒——過期後站台會直接出現瀏覽器安全警告。
.htaccess 規則：.htaccess 可能散在多個目錄（根目錄、uploads/、wp-admin/、api/）。FTP 下載時已包含在內（前提是 FTP client 有設定顯示隱藏檔案），確認一下這些檔案都在 repo 裡。
外部服務連線：除了前一節的第三方整合清單，用 grep 掃程式碼找出所有對外 URL。這些連線在未來遷移時要同步處理——搬了伺服器但 callback URL 沒改，金流通知就收不到。





1grep -rn "https\?://" --include="*.php" . \
2  | grep -v "localhost\|127\.0\.0\.1\|example\.com" \
3  | sort -u > _environment/external-urls.txt
檔案權限：FileZilla 的遠端檔案清單有權限欄。記錄 uploads/、cache/、sessions/、config 檔案的權限。777 的目錄是安全風險（任何使用者都能寫入），在多租戶的主機上尤其危險——同台主機的其他帳戶也能存取。
把以上資料存進 repo 的 _environment/ 目錄：





1_environment/
2├── phpinfo-20260626.html      # phpinfo 完整輸出
3├── cron-jobs.md               # cron 清單
4├── ssl-cert-info.txt          # 憑證資訊
5├── external-urls.txt          # 外部連線清單
6└── file-permissions.txt       # 目錄權限記錄
_environment/ 可加進 .gitignore（phpinfo 含敏感資訊），或只 ignore HTML 檔、其餘進 Git。
建立本地開發環境
本地能跑起來，才有安全的測試空間。目標是在本機重現 prod 的 PHP + MySQL 版本組合。
選型：Docker vs 本地堆疊

  
      
          工具
          平台
          費用
          適用情境
      
  
  
      
          Docker Compose
          跨平台
          免費
          最精確對齊 prod 版本，特別是 PHP 5.6/7.0 這類舊版本
      
      
          MAMP Pro
          macOS
          付費（約 $50/年）
          圖形介面切 PHP 版本，不熟 Docker 時最快上手
      
      
          Laragon
          Windows
          免費
          比 XAMPP 現代、內建 PHP 版本切換與虛擬網域
      
      
          XAMPP
          Windows / macOS / Linux
          免費
          最老牌、社群資源多，但 PHP 版本切換較麻煩
      
      
          Laravel Valet
          macOS
          免費
          輕量 CLI 為主，適合已經熟悉 CLI 的開發者
      
      
          ServBay
          macOS
          免費版可用
          較新、支援多 PHP 版本共存、內建資料庫管理
      
  

選型判準：如果 prod 的 PHP 版本是 5.6 或 7.0 這類已停止維護的舊版，Docker 是唯一能精確對齊的選項——MAMP/XAMPP 通常只提供仍在維護的版本。常見版本（7.4、8.0、8.1、8.2）用 MAMP/Laragon 會比 Docker 更快跑起來。
Docker 方式
Docker Compose V2（docker compose 指令）不需要 version 欄位。如果使用舊版 docker-compose CLI，在檔案開頭加 version: '3.8'。





 1# docker-compose.yml
 2services:
 3  web:
 4    image: php:8.1-apache
 5    volumes:
 6      - ./:/var/www/html
 7    ports:
 8      - "8080:80"
 9  db:
10    image: mysql:8.0
11    environment:
12      MYSQL_ROOT_PASSWORD: localdev
13      MYSQL_DATABASE: project
14    volumes:
15      - ./db-snapshots/initial.sql:/docker-entrypoint-initdb.d/init.sql
16    ports:
17      - "3306:3306"
18  phpmyadmin:
19    image: phpmyadmin/phpmyadmin
20    environment:
21      PMA_HOST: db
22    ports:
23      - "8081:80"
PHP 版本要對齊 prod。如果 prod 是 PHP 7.4，本地用 php:7.4-apache。版本差異會導致函式行為不同（str_contains 在 8.0 才有、mysql_* 系列在 7.0 移除），測試通過但 prod 壞掉。phpmyadmin service 讓本地也有跟 prod 相同的資料庫操作介面，方便驗證 phpMyAdmin 上要執行的操作。
匯入資料庫
Docker 啟動後匯入初始快照：





1docker exec -i project-db-1 mysql -uroot -plocaldev project < db-snapshots/20260626-initial.sql
MAMP/Laragon/XAMPP 的匯入方式：開啟對應的 phpMyAdmin（通常在 localhost/phpmyadmin）→ 選資料庫 → 匯入 → 選 .sql 檔案 → 執行。或用 DBeaver/TablePlus 連本地 MySQL 後執行 SQL 檔。
常見的「本地跑不起來」原因

  
      
          症狀
          原因
          修法
      
  
  
      
          白頁或 500
          config 裡寫了 prod 的絕對路徑
          改成相對路徑或用環境變數
      
      
          連不上資料庫
          DB host 寫了 localhost 但 Docker 裡 DB 是另一個容器
          改成 Docker service 名稱（db）
      
      
          某些功能壞掉
          prod 有裝特定 PHP extension（gd、mbstring、curl）
          Dockerfile 加 docker-php-ext-install
      
      
          .htaccess rewrite 不生效
          Apache mod_rewrite 沒啟用
          Dockerfile 加 a2enmod rewrite
      
      
          圖片上傳失敗
          上傳目錄權限不對
          chmod 777 uploads/（僅限本地）
      
  

本地能完整跑起來之後，這個環境就是所有變更的測試場。任何改動都先在這裡驗證。
資料庫變更紀律
phpMyAdmin 讓修改 prod DB 只需要幾次點擊，這正是它危險的原因——沒有 preview、沒有 undo、沒有 review。紀律要靠流程補上。
變更流程

在本地 DB 寫好 SQL 並執行，確認結果正確
把 SQL 存進 repo 的 migrations/ 目錄，檔名帶日期：






1# migrations/2026-06-26-add-status-column.sql
2ALTER TABLE orders ADD COLUMN status VARCHAR(20) DEFAULT 'pending';

在 phpMyAdmin 上對要改的資料表做匯出（只匯出該表的結構 + 資料），存進 db-snapshots/ 作為回退依據
在 phpMyAdmin 的 SQL 頁籤貼上已驗證的 SQL 執行
在 repo 的 CHANGELOG.md 記錄：時間、操作者、改了什麼、為什麼

高風險操作的額外防護
修改欄位型別、刪除欄位、刪除資料表、批次更新資料——這些操作在 phpMyAdmin 上執行就生效，沒有乾淨的 undo。額外防護是在執行前先確認：

有沒有剛做的該資料表備份（不是上週的，是剛剛做的）
這張表有沒有 foreign key 或觸發器會連帶影響其他表
如果改錯了，回退的具體步驟是什麼（從備份 SQL 重建整張表？還是用 UPDATE 改回來？）

部署紀律
FTP 部署沒有 CI pipeline 的自動化保護，但不代表不能有流程。流程的目標是讓每次部署都可追溯、可回退。
部署步驟





11. git diff HEAD~1 --name-only          # 確認這次改了哪些檔案
22. 本地測試通過
33. FTP client 開兩個窗格：左邊本地、右邊 prod
44. 用 FileZilla 的目錄比較功能確認差異
55. 只上傳有變更的檔案（不要整站覆蓋）
66. 上傳完在瀏覽器驗證功能
77. git tag deploy-20260626 && git push   # 標記這次部署的版本
備份策略
無 SSH 的主機環境通常不提供自動快照。備份要自己做：

  
      
          備份項目
          頻率
          方式
          保留
      
  
  
      
          程式碼
          每次部署前
          Git tag
          永久（在 repo 裡）
      
      
          資料庫
          每週 + 每次 schema 變更前
          phpMyAdmin 匯出
          至少保留 4 週
      
      
          上傳檔案
          每週
          FTP 下載 uploads/ 目錄
          至少保留 4 週
      
      
          主機設定
          每次變更
          控制面板截圖 + ENVIRONMENT.md 更新
          在 repo 裡
      
  

如果主機面板有自動備份功能（cPanel 的 Backup Wizard），確認它有開並且能還原。但不要把它當唯一備份——主機商的備份可能在主機出問題時一起不見。
備份自動化（沒 SSH 也能做）
無 SSH 的環境沒有 cron + CLI 的組合，但可以用本機排程 + FTP client 的 CLI 模式達成自動化備份。
用 lftp（macOS/Linux 可透過 Homebrew 或 apt 安裝）做定期站台鏡像：





1# backup.sh — 加入本機的 cron 或 launchd 每日執行
2lftp -e "mirror --verbose /public_html/ /local/backup/site/; quit" \
3  -u username,password ftp.example.com
rclone 是另一個選項，支援 FTP/SFTP 且有更好的增量同步（只傳有變更的檔案）：





1# 設定 rclone remote（首次）
2rclone config  # 選 FTP、填入主機資訊
3
4# 同步（之後每次只傳差異）
5rclone sync myhost:/public_html/ /local/backup/site/ --progress
macOS 用 launchd plist、Windows 用工作排程器（Task Scheduler）排定每日執行這些腳本，讓備份不再依賴人工記得。
資料庫的自動備份較受限——phpMyAdmin 沒有 CLI 介面。如果主機允許遠端 MySQL 連線，可以在本機 cron 裡加一條 mysqldump：





1mysqldump -h mysql.example.com -u dbuser -p'password' dbname | gzip > /local/backup/db/$(date +%Y%m%d).sql.gz
不允許遠端連線時，退而求其次：每週手動從 phpMyAdmin 匯出一次、存進 repo。
回退方式
FTP 部署沒有 rollback 按鈕。回退的方式是：





1git checkout deploy-20260625 -- path/to/changed/file.php
2# 把特定檔案回到上一次部署的版本，再 FTP 上傳
整站回退則是 checkout 到上一個 deploy tag，再整批 FTP 上傳。這就是為什麼 deploy tag 重要——沒有 tag 就不知道要回退到哪個版本。
credential 盤點與保護
接手後要回答的問題是：有哪些 credential、誰有存取權、哪些需要輪替。
盤點清單

  
      
          類型
          常見位置
          輪替難度
      
  
  
      
          資料庫密碼
          config.php、wp-config.php、.env
          低（phpMyAdmin + 改 config）
      
      
          主機面板登入
          主機商帳號
          中（可能綁前人的 email）
      
      
          金流 API key
          payment.php 或 config 檔
          中（需要登入金流後台）
      
      
          SMTP 密碼
          mail.php 或 config 檔
          低
      
      
          域名管理
          DNS 服務商帳號
          高（可能綁前人的帳號）
      
      
          SSL 憑證
          主機面板或 Let’s Encrypt
          低（自動續期則不用管）
      
  

最高優先輪替的是前人可能仍持有存取權的 credential：主機面板密碼、資料庫密碼。如果前人的離開不是善意的（被解僱、爭端），這些應該在接手的第一天就改。
從 hardcode 到 config 分離
長期目標是把 credential 從 code 裡搬出來。即使在沒有 SSH 的環境也能做：





1// 改前：password 直接寫在 code 裡
2$db_password = 'p@ssw0rd123';
3
4// 改後：從 .env 讀取（用 vlucas/phpdotenv 或手寫 parse）
5$db_password = getenv('DB_PASSWORD') ?: parse_ini_file(__DIR__ . '/.env')['DB_PASSWORD'];
.env 放在 webroot 之外（如果主機允許）或在 .htaccess 裡禁止存取：





1 ".env">
2    Require all denied
3
外部監控（prod 不用裝東西）
無 SSH 的環境裝不了監控 agent，但可以用外部 HTTP 檢查服務從外面看。這類服務從多個地理位置定期對網站發送 HTTP request，回應異常時通知。
UptimeRobot 的免費方案提供 50 個 monitor、每 5 分鐘檢查一次，夠用於一個站台的首頁 + 幾個關鍵頁面（登入頁、API endpoint、金流回呼 URL）。Better Stack（原 Better Uptime）提供類似功能並附帶 status page。兩者都只需要填入 URL 和通知方式（email / Slack / webhook），不需要在 server 上裝任何東西。
設定後至少加三個 monitor：首頁（網站是否活著）、登入或後台入口（PHP 是否正常執行）、以及任何有外部依賴的頁面（金流 callback、API endpoint）。這不是完整的可觀測性，但至少讓「網站掛了」這件事從「使用者打電話來」變成「手機收到通知」。
時程參考
完整走完盤點（FTP mirror + DB dump + 環境記錄）約需半天到一天。本地環境建立與驗證約需半天到一天（取決於 PHP 版本對齊的難度）。紀律建立（changelog + 部署流程）是持續的、但框架搭建約需 2-3 小時。CI 化 FTP 部署約需半天。整體從接手到穩定維運約 2-3 個工作天。
升級路徑的切入點
接手穩定後，逐步脫離無 SSH 環境的約束。每一步都獨立且可回退。
最低成本的第一步：CI 化 FTP 部署
在 GitHub repo 設定 GitHub Actions，推到 main 時自動跑測試（如果有的話）+ 自動 FTP 部署。FTP credential 存在 GitHub Secrets 裡，不在 code 裡。





 1# .github/workflows/deploy.yml
 2name: Deploy via FTP
 3on:
 4  push:
 5    branches: [main]
 6jobs:
 7  deploy:
 8    runs-on: ubuntu-latest
 9    steps:
10      - uses: actions/checkout@v4
11      - uses: SamKirkland/FTP-Deploy-Action@v4
12        with:
13          server: ${{ secrets.FTP_HOST }}
14          username: ${{ secrets.FTP_USER }}
15          password: ${{ secrets.FTP_PASS }}
16          server-dir: /public_html/
這一步的價值是部署從「開 FileZilla 手動上傳」變成「push to main 自動部署」，人為失誤的空間顯著縮小。Prod 伺服器不需要任何改動。
下一步：遷移到有 SSH 的 VPS
當以下任一條件出現時，無 SSH 環境的約束會變成瓶頸：

需要 SSH 存取（裝 Git、跑 CLI 工具、設排程）
需要自訂 PHP extension 或 PHP 版本
需要更多的運算資源或記憶體
需要環境分離（dev / staging / prod）

遷移到 VPS（DigitalOcean、Linode、AWS Lightsail）後，SSH 存取讓所有雲端環境的工具鏈成為可用——Git on server、composer、artisan、mysqldump CLI、cron 的完整控制。這一步之後，接手維運的環境開始對齊模組負一：還沒有 infra 的環境的操作紀律，後續可以按成熟度階梯逐步往 IaC 推進。
跨分類引用

→ 有 SSH 但沒有 IaC 的雲端環境接管：搬到 VPS 或雲端後的接管流程
→ 模組負一：還沒有 infra 的環境：接手完成、環境穩定後，操作紀律對齊這裡
→ 模組零：infra 是什麼：成熟度階梯作為接手後評估現況的座標
→ 模組二：身分與憑證地基：credential 盤點與輪替的系統性設計
→ 模組八：治理好習慣：tagging、secret 管理、成本可見性

工具	平台	費用	適用情境
Docker Compose	跨平台	免費	最精確對齊 prod 版本，特別是 PHP 5.6/7.0 這類舊版本
MAMP Pro	macOS	付費（約 $50/年）	圖形介面切 PHP 版本，不熟 Docker 時最快上手
Laragon	Windows	免費	比 XAMPP 現代、內建 PHP 版本切換與虛擬網域
XAMPP	Windows / macOS / Linux	免費	最老牌、社群資源多，但 PHP 版本切換較麻煩
Laravel Valet	macOS	免費	輕量 CLI 為主，適合已經熟悉 CLI 的開發者
ServBay	macOS	免費版可用	較新、支援多 PHP 版本共存、內建資料庫管理

症狀	原因	修法
白頁或 500	config 裡寫了 prod 的絕對路徑	改成相對路徑或用環境變數
連不上資料庫	DB host 寫了 `localhost` 但 Docker 裡 DB 是另一個容器	改成 Docker service 名稱（`db`）
某些功能壞掉	prod 有裝特定 PHP extension（gd、mbstring、curl）	Dockerfile 加 `docker-php-ext-install`
.htaccess rewrite 不生效	Apache mod_rewrite 沒啟用	Dockerfile 加 `a2enmod rewrite`
圖片上傳失敗	上傳目錄權限不對	`chmod 777 uploads/`（僅限本地）

備份項目	頻率	方式	保留
程式碼	每次部署前	Git tag	永久（在 repo 裡）
資料庫	每週 + 每次 schema 變更前	phpMyAdmin 匯出	至少保留 4 週
上傳檔案	每週	FTP 下載 uploads/ 目錄	至少保留 4 週
主機設定	每次變更	控制面板截圖 + ENVIRONMENT.md 更新	在 repo 裡

類型	常見位置	輪替難度
資料庫密碼	`config.php`、`wp-config.php`、`.env`	低（phpMyAdmin + 改 config）
主機面板登入	主機商帳號	中（可能綁前人的 email）
金流 API key	`payment.php` 或 config 檔	中（需要登入金流後台）
SMTP 密碼	`mail.php` 或 config 檔	低
域名管理	DNS 服務商帳號	高（可能綁前人的帳號）
SSL 憑證	主機面板或 Let’s Encrypt	低（自動續期則不用管）



網路地基 — VPC、subnet 分層與 security group 設計
Fri, 26 Jun 2026 00:00:00 +0000
網路地基要先於核心服務存在。VPC、subnet、route table 與 security group 構成一張「服務能落在哪、誰能跟誰講話」的地圖，資料庫、運算節點與對外入口都得落在這張地圖規劃好的格子裡。先把邊界畫清楚，後面每個核心服務上線時只需要選一塊已經定義好安全等級的位置，而不是邊開服務邊補洞。
這篇文章建立四層邊界：最外層的 VPC 隔離、中層的 public / private subnet 切分、流量進出的 route table 與 NAT、以及最貼近服務的 security group。每一層解決的問題不同，疊起來才是一個可審計、可收斂的網路。
VPC：網路隔離的最外層邊界
VPC（Virtual Private Cloud）先圈定整個系統的網路地址空間 — 一塊邏輯隔離的私有網段，是其餘所有網路切分的起點。在 VPC 裡開出來的所有資源預設只看得到同一個 VPC 內的成員，與其他 VPC、與其他帳號的網路天然隔離。它是後面所有切分動作的容器 — 沒有 VPC，subnet 與 security group 無處依附。
CIDR 規劃：一次決定、事後難改
建立 VPC 時最關鍵的決策是 CIDR 區塊的大小。這個範圍要一次規劃足夠大，因為事後擴張地址空間在多數雲上是麻煩且容易出錯的操作。AWS 雖然允許在 VPC 上追加 secondary CIDR，但追加的網段不能與原有的重疊，也不是所有服務都能自然使用跨 CIDR 的 subnet，routing 的複雜度會因此上升。
CIDR 規劃要同時考慮三件事。第一是容量：/16 提供約六萬五千個位址，對多數單一環境的 VPC 足夠寬裕，切成 /24 的 subnet 也有 256 個可用子網。第二是不重疊：未來若要透過 VPC peering、Transit Gateway 或 VPN 把這個 VPC 接回地端機房或其他環境，重疊的 CIDR 會讓路由無法解析。三個環境各自是 10.0.0.0/16，在彼此不需要互連時不是問題，但一旦要開 peering 就會撞車 — 這時候改 CIDR 的代價是重建整個 VPC。第三是預留：如果公司同時有多個 VPC（不同環境或不同產品線），用連續但不重疊的大段分配（如 dev 10.0.0.0/16、staging 10.1.0.0/16、prod 10.2.0.0/16）讓路由表更乾淨。





 1resource "aws_vpc" "main" {
 2  cidr_block           = "10.0.0.0/16"
 3  enable_dns_support   = true
 4  enable_dns_hostnames = true
 5
 6  tags = {
 7    Name        = "platform-prod"
 8    Environment = "production"
 9  }
10}
enable_dns_support 和 enable_dns_hostnames 在多數場景都該開啟。沒開 DNS hostname 時，EC2 instance 不會拿到可解析的 hostname，某些服務依賴 DNS 尋址而非 IP（如 VPC endpoint 的 private DNS），關著會讓它們靜靜失敗而不報錯。
判讀訊號：規劃 CIDR 時先問「這個環境三年後會有幾個 subnet、跨幾個可用區、要不要跟其他 VPC 或地端互連」。風險集中在地址耗盡與網段衝突 — 兩者都得在開第一個 subnet 之前定案。VPC 只負責隔離與定址，它不決定哪個服務能對外，那是 subnet 與 security group 的工作。環境之間的 VPC 該怎麼分，是模組四：環境分離與模組化的主題。
public 與 private subnet 的切分原則
一塊資源對外暴露到什麼程度，取決於它被放進哪個 subnet。VPC 內部按可用區與暴露程度切出來的子網段，決定資源有沒有一條通往網際網路的路徑。判斷一個資源該放 public 還是 private，問題只有一個：它需不需要被網際網路直接定址。
兩類 subnet 的定位
public subnet 放的是必須接收外部入站流量的元件 — 對外的負載平衡器、NAT Gateway、堡壘主機（bastion）。這些資源透過 route table 連到 Internet Gateway，因此能被外部 IP 直接觸及。private subnet 放的是只該在內網被存取的元件 — 應用伺服器、資料庫、快取、內部佇列。它們沒有通往 Internet Gateway 的路由，外部無法主動連入，需要對外時才透過 NAT 出去。

  
      
          Subnet 類型
          典型住戶
          對外路徑
      
  
  
      
          public
          對外 LB、NAT Gateway、bastion
          經 Internet Gateway 雙向
      
      
          private
          應用節點、資料庫、快取、佇列
          僅經 NAT 單向出站、不可入站
      
  

public subnet 的真實樣貌是「薄薄一層」：它通常只住負載平衡器與 NAT 這類入口設施，而不是業務邏輯。常見陷阱是為了 SSH 方便把應用伺服器直接開在 public subnet 並配公網 IP，等於把每一台業務主機的管理埠暴露在掃描流量下 — 全球的 bot 會在秒級頻率對公網 IP 的 22 埠嘗試登入。private subnet 的住戶反而是系統的主體 — 資料庫放這裡是因為它一旦能被外網定址，攻擊面就從「打穿入口層」變成「直接連資料庫埠試密碼」。
跨可用區冗餘
每個 subnet 綁定單一可用區（Availability Zone）。高可用設計通常是每種角色跨至少兩個可用區各開一個 subnet：兩個 public、兩個 private，讓單一可用區故障時另一區的同類 subnet 還能承接。subnet 的 CIDR 切法要留足空間 — 如果 VPC 是 /16，每個 subnet 用 /20（約四千個位址）可以在三個可用區各開 public + private 共六個 subnet，還有大量空間留給未來擴展。





 1locals {
 2  azs = ["ap-northeast-1a", "ap-northeast-1c", "ap-northeast-1d"]
 3}
 4
 5resource "aws_subnet" "public" {
 6  for_each          = toset(local.azs)
 7  vpc_id            = aws_vpc.main.id
 8  cidr_block        = cidrsubnet(aws_vpc.main.cidr_block, 4, index(local.azs, each.key))
 9  availability_zone = each.key
10
11  tags = { Name = "public-${each.key}" }
12}
13
14resource "aws_subnet" "private" {
15  for_each          = toset(local.azs)
16  vpc_id            = aws_vpc.main.id
17  cidr_block        = cidrsubnet(aws_vpc.main.cidr_block, 4, index(local.azs, each.key) + length(local.azs))
18  availability_zone = each.key
19
20  tags = { Name = "private-${each.key}" }
21}
cidrsubnet 函式自動切分子網段，避免手動計算 CIDR。第二個參數 4 表示在 /16 基礎上加 4 bit 得到 /20，第三個參數是序號。public 與 private 各佔不同序號區間，保證不重疊。
對外入口怎麼把流量分到跨可用區的 private 後端，是 devops 層負載平衡的範圍。這裡只要確保 subnet 的地圖在多 AZ 下對稱。
route table 與 NAT：流量的進出路徑
離開一個 subnet 的封包往哪走，逐條寫在 route table 這組轉送規則裡 — 它掛在 subnet 上，是封包出口方向的依據。一個 subnet 是 public 還是 private，技術上的差別就在它關聯的 route table 裡有沒有一條指向 Internet Gateway 的預設路由。subnet 的對外性質由它關聯的 route table 賦予，而非寫在 subnet 自身的屬性。
public 與 private 的路由差異
public subnet 的 route table 有一條 0.0.0.0/0 → Internet Gateway，讓未知目的地的流量直接出網、也讓外部可達。private subnet 的 route table 則把 0.0.0.0/0 指向 NAT Gateway。
NAT（Network Address Translation）解決的問題是：private subnet 的資源需要主動對外（拉套件、呼叫第三方 API、抓 OS 更新），但不能因此變得可被外部入站連入。NAT 讓出站流量借用一個公網位址出去、把回應導回原請求者，同時不開放任何外部主動發起的連線。
每 AZ 一個 NAT vs 共享 NAT 的取捨
NAT Gateway 是綁定單一可用區的資源 — 一個 NAT Gateway 活在某一個 public subnet，也就活在那個可用區裡。這帶來一個架構取捨：
共享 NAT（成本優先）：全部 private subnet 的 route table 都指向同一個 NAT。用一份 NAT 成本服務整個 VPC，代價是把 NAT 所在的可用區變成出站方向的單點 — 該可用區故障時，所有 private subnet 的對外連線同時中斷，即使其他可用區的節點本身健康。
每 AZ 一個 NAT（可用性優先）：每個可用區各放一個 NAT Gateway，並讓每一區的 private subnet route table 指向同區的 NAT。出站路徑與 subnet 的跨可用區冗餘對齊，單一 AZ 故障只影響該區。每個 NAT Gateway 的固定月費約 $32 加流量費 $0.045/GB 處理量。三個可用區各一個就是三倍固定費。這筆成本與業務對出站中斷的容忍度對齊——如果單一可用區故障導致全部出站中斷可接受（例如有重試機制），共享 NAT 的成本效益較高。





 1resource "aws_eip" "nat" {
 2  for_each = toset(local.azs)
 3  domain   = "vpc"
 4  tags     = { Name = "nat-${each.key}" }
 5}
 6
 7resource "aws_nat_gateway" "per_az" {
 8  for_each      = aws_subnet.public
 9  allocation_id = aws_eip.nat[each.key].id
10  subnet_id     = each.value.id
11  tags          = { Name = "nat-${each.key}" }
12}
13
14resource "aws_route_table" "private" {
15  for_each = aws_subnet.private
16  vpc_id   = aws_vpc.main.id
17
18  route {
19    cidr_block     = "0.0.0.0/0"
20    nat_gateway_id = aws_nat_gateway.per_az[each.key].id
21  }
22
23  tags = { Name = "private-rt-${each.key}" }
24}
25
26resource "aws_route_table_association" "private" {
27  for_each       = aws_subnet.private
28  subnet_id      = each.value.id
29  route_table_id = aws_route_table.private[each.key].id
30}
判讀訊號：private subnet 的服務拉不到外部套件、或第三方 API 全部逾時，先查它關聯的 route table 有沒有指向健康的 NAT；若只有某一個可用區的節點受影響，多半是那一區的 NAT 或其所在 subnet 出狀況。
NAT 的成本邊界
NAT Gateway 按處理流量計費（每 GB 一個費率），把大量出站流量長期走 NAT 會讓帳單可觀。常見的高流量場景包括：備份上傳到 S3、跨區資料同步、大量 API 呼叫。對於走向 AWS 自家服務的流量，成本效益較好的做法是用 VPC Endpoint（Gateway 型或 Interface 型）讓流量直連服務、繞過 NAT。S3 與 DynamoDB 的 Gateway Endpoint 是免費的，光是把 S3 備份流量從 NAT 改走 Gateway Endpoint 就能在流量大的環境省下可觀的費用。





1resource "aws_vpc_endpoint" "s3" {
2  vpc_id       = aws_vpc.main.id
3  service_name = "com.amazonaws.ap-northeast-1.s3"
4
5  route_table_ids = [for rt in aws_route_table.private : rt.id]
6
7  tags = { Name = "s3-gateway-endpoint" }
8}
NAT 的數量取捨與出站成本的更完整討論在 devops 模組八：成本管理。route table 與 NAT 只管「能不能出去、走哪條路」，至於某個埠允不允許連，是 security group 的職責。
security group 設計：最小開放
一條連線究竟能不能打到某個埠，由 security group 逐埠拍板 — 它是掛在資源網卡（ENI）層級的有狀態防火牆，規則描述的是哪些來源連得進這個資源。它是貼著服務的最後一道網路邊界 — 即使封包順著 route table 抵達了 private subnet，security group 仍能逐埠決定放不放行。「有狀態」的意思是：放行一條入站連線後，對應的回應出站自動允許，規則只需描述入站方向想開放什麼。
用 group 引用取代 IP 範圍
設計原則是最小開放：每條規則只開「這個服務確實需要被誰連的那個埠」。資料庫的 security group 入站只允許來自應用層 security group 的資料庫埠，而不是某個 IP 範圍。用 security group 互相引用、而非寫死網段，是因為應用節點會隨擴縮而換 IP — 引用來源 group 讓規則跟著成員身分走、不跟著位址走。





 1resource "aws_security_group" "app" {
 2  name_prefix = "app-"
 3  vpc_id      = aws_vpc.main.id
 4  tags        = { Name = "app-sg" }
 5}
 6
 7resource "aws_security_group" "database" {
 8  name_prefix = "db-"
 9  vpc_id      = aws_vpc.main.id
10  tags        = { Name = "db-sg" }
11}
12
13resource "aws_security_group_rule" "db_from_app" {
14  type                     = "ingress"
15  from_port                = 5432
16  to_port                  = 5432
17  protocol                 = "tcp"
18  security_group_id        = aws_security_group.database.id
19  source_security_group_id = aws_security_group.app.id
20}
這條規則表達的語意是「資料庫只接受來自 app group 成員的 5432 連線」。app 的 instance 數量從 2 台增長到 20 台時，規則本身不需要改 — 新 instance 只要也掛了 app 的 security group 就自動被允許。
0.0.0.0/0 的盤點紀律
把入站來源設成 0.0.0.0/0 等於允許整個網際網路連這個埠。對資料庫埠（5432、3306、6379）或管理埠（22、3389）這麼做，會讓服務暴露在持續性的自動掃描與暴力嘗試下。
合理出現 0.0.0.0/0 的位置只有對外負載平衡器的 80 / 443 入站 — 因為它的工作本來就是接收公開流量。其餘所有 0.0.0.0/0 都該被質疑。
盤點的做法：列出所有 security group，過濾 source 是 0.0.0.0/0 的 ingress rule，逐條問「這個埠確實需要全世界都連得到嗎」。在 CLI 上可以用一條查詢掃：





1aws ec2 describe-security-groups \
2  --query 'SecurityGroups[].{
3    ID:GroupId,
4    Name:GroupName,
5    OpenPorts:IpPermissions[?IpRanges[?CidrIp==`0.0.0.0/0`]].[FromPort,ToPort]
6  }' \
7  --output table
資料庫埠、SSH、內部 API 出現在這份清單上就是該收斂的目標。管理埠的存取更安全的替代方案是 SSM Session Manager — 它讓你透過 IAM 權限建立 shell session，完全不需要開 22 埠，連線經由 Systems Manager 的控制通道走、不走公網，同時自動留下 session log。誰能透過 IAM 改動這些規則，銜接模組二：身分與憑證地基。
在 CI 層面，模組七：infra 走 PR 流程用 tfsec / checkov 做靜態掃描，自動攔截「敏感埠 + 全開 CIDR」的組合，把 security group 的盤點從人工定期做變成每次 PR 自動做。
邊界設備漏洞帶來的教訓同樣適用於 security group 設計。Check Point CVE-2024-24919 事件顯示 VPN 邊界設備的資訊外洩漏洞可以直接轉為憑證與會話濫用，攻擊路徑是「邊界入口 → 會話竊取 → 內部橫向擴散」。Citrix Bleed 2023 則是邊界設備的會話資料外洩導致重放攻擊。這兩個案例的 infra 層教訓是：邊界設備（VPN concentrator、ADC、bastion）的 security group 只開必要的管理埠，且事件後需要全域 session/token 失效流程。
網路控制面的自動化也有風險。Cloudflare 2026 Route Leak 事件中，自動化路由政策配置的錯誤導致流量擁塞。infra 層的教訓是：路由與 security group 規則的自動化變更需要 pre-check 與影響範圍評估，且要有快速撤回機制——這正是 infra 走 PR 流程的 plan → review → apply 流程要擋的。
NACL 與 security group 的分工
subnet 這一層還有另一道防火牆 — network ACL（NACL），它與 security group 分工在兩個層級。

  
      
          屬性
          Security Group
          NACL
      
  
  
      
          掛在哪裡
          資源網卡（ENI）
          Subnet
      
      
          狀態
          有狀態（回程自動放行）
          無狀態（回程要另寫規則）
      
      
          規則方向
          只寫入站
          入站與出站各寫
      
      
          能否 deny
          只能列允許清單
          支援顯式 deny
      
      
          評估順序
          所有規則一起評估
          按規則編號順序，命中即停
      
  

NACL 的特點是無狀態與支援顯式 deny。無狀態意味著放行了入站不代表回應的出站自動放行，回程封包得自己對得上另一條出站規則 — 這讓 NACL 的維護比 security group 複雜。支援顯式 deny 則是它獨有的能力：security group 只能說「誰可以進」，NACL 能說「誰一定不能進」，這在需要 subnet 邊界封鎖特定已知惡意網段時有用。
多數設計的主力是 security group：它貼著服務、用 group 互相引用就能表達「誰能連誰」，已經涵蓋大部分最小開放需求。NACL 留給少數情境 — 需要在 subnet 邊界擋掉一整段已知惡意網段、或要對某類流量做顯式 deny 時才展開。多數環境讓 NACL 維持預設全通、把存取控制集中在 security group，是可以接受的選擇。重點是知道這一層存在、在需要 subnet 層粗篩時記得它。
為什麼網路要先於核心服務鋪好
網路地基先行，是因為核心服務的安全位置由網路拓樸決定，而不是反過來。資料庫該落在哪個 private subnet、它的 security group 只接受哪個來源、它的出站走不走 NAT — 這些都是服務「出生時」就該確定的屬性。
先有規劃好的 subnet 與 security group，新服務上線只是挑一塊已定義安全等級的位置放進去。網路還沒鋪就先開服務，則往往落在預設 VPC 與寬鬆規則上。預設 VPC 是所有人共享的、CIDR 不可控的、security group 預設全通的 — 把正式服務放在這裡，等於跳過了所有隔離設計。事後再回頭收斂，要在服務已經有流量、有依賴的情況下改網段與防火牆，風險和協調成本都高得多。
這也呼應模組零：infra 是什麼的 day-1 鐵律：邊界與隔離屬於一開始就該存在的地基，不是長出問題後才補的修補。網路規劃好之後，照「從零建置」路線下一步先進模組四：環境分離與模組化確定環境怎麼切，再讓核心服務落進這些 subnet（見模組五：核心服務上 IaC）。
跨分類引用

→ 模組二：身分與憑證地基：誰有權改動 security group 與路由表
→ 模組四：環境分離與模組化：環境之間的 VPC 怎麼分
→ 模組五：核心服務上 IaC：核心服務怎麼落進規劃好的 subnet
→ 模組七：infra 走 PR 流程：tfsec / checkov 自動攔截 security group 全開
→ devops 模組八：成本管理：NAT 與出站流量的成本取捨
→ Security Group 稽核與清理：SG 規則盤點、未使用 SG 識別、清理工作流




模組一：最小可行 IaC — state 地基與 Console 唯讀鐵律
Fri, 26 Jun 2026 00:00:00 +0000
踏上成熟度階梯第二階（宣告式 IaC，也就是 state 檔誕生那一階，見模組零：infra 是什麼）的最小路徑，只做兩件具體的事：把 state 管好，並立下所有資源都走程式碼的鐵律。這兩件事決定了往後每一階的地基穩不穩 — state 是 IaC 工具對現實的唯一記憶，Console 唯讀鐵律則保證這份記憶不會在背後被偷偷改掉。其餘的網路、身分、服務都還沒上場，先把這兩件事釘死，後面的擴張才有可重現的起點。
IaC 工具選型：宣告式狀態管理 vs 程式語言抽象
IaC 工具的核心職責是把「我要的基礎設施長什麼樣」描述成可版本控制的程式碼，再由工具負責算出現況與目標的差異並收斂。市場上的工具分成兩條路線，差別落在「用什麼語言描述」與「狀態由誰持有」這兩個軸上，而非功能多寡。
第一條路線是宣告式 DSL，代表是 Terraform 與其開源分支 OpenTofu。寫的是 HCL，描述的是資源的最終樣貌，工具自己維護一份 state 來追蹤每個資源的真實 ID 與屬性。這條路線適合團隊成員背景混雜、需要讓非專職後端的人也能讀懂 infra 定義的情境 — HCL 的閱讀門檻低，diff 直觀，review 時看得出「這個 PR 會新增一個 RDS、改掉一條 security group」。
第二條路線是用通用程式語言寫 infra，代表是 AWS CDK 與 Pulumi。寫的是 TypeScript、Python、Go 這類語言，靠迴圈、函式、類別來生成資源。這條路線適合 infra 邏輯本身複雜、需要大量條件分支與抽象複用的團隊，例如要根據環境清單動態生成數十組對稱資源。代價是 review 難度上升：一段 for 迴圈展開後到底建了哪些東西，得在腦中執行程式才看得出來，diff 不再等於變更本身。
CDK 與 Pulumi 同屬程式語言路線，但「狀態由誰持有」這個軸把它們再分開。CDK 把程式碼 synth 成 CloudFormation 模板，再交給 CloudFormation 服務端執行與追蹤，state 由 AWS 代管 — 沒有一份 tfstate 檔要自己存放、加密、回捲，也不需要額外的鎖表來防並行，這份「狀態維運外包給雲端」正是 CDK 在 AWS 生態內的賣點之一，代價是綁定 CloudFormation 與單一雲。Pulumi 走的是另一邊：它維護一份自己的 state，預設交給 Pulumi Cloud 託管，也能改用 S3 之類的後端自管 — 形態上更接近 Terraform 的 state 模型，state 的存放、保護與並行控制重回團隊手上。同一條程式語言路線，選 CDK 等於把 state 責任讓給雲端，選 Pulumi 則保留對 state 落點的掌控。
選型看的是團隊組成與變更的審查需求。若多數變更要跨職能 review、希望 diff 一眼可讀，宣告式 DSL 較划算；若 infra 由專職平台團隊維護、抽象複用的收益大於審查透明度的損失，程式語言路線較划算。Terraform 與 OpenTofu 之間，OpenTofu 是授權變更後社群分叉出的相容實作，HCL 與 provider 生態幾乎共用；選擇主要看對授權條款與治理模式的偏好，技術判準在這一階沒有實質差異。本模組後續一律以 HCL 示意，換成任一宣告式工具判準仍成立。
state 是工具對現實的唯一記憶
state 是 IaC 工具用來記錄「上一次 apply 之後，每個資源在雲端真實長什麼樣」的快照，它的作用是讓工具能算出「現況」與「目標」之間的最小差異。沒有 state，工具每次都得把所有資源重新查一遍才知道該不該動，而且無法分辨「這個資源是我建的、該由我管」還是「別人手動建的、不歸我管」。
state 裡通常含有資源的真實 ID、相依關係，以及部分敏感屬性 — 例如資料庫的初始密碼、private key 的輸出值。這帶來兩條邊界。
第一條：state 絕不能進 git。state 含明文敏感值，一旦推進版控就等於把密碼寫進每個 clone 的歷史裡，事後 rotate 也清不掉 git 歷史。
第二條：state 不能只放本地。本地 state 的失敗模式是它把整份基礎設施的記憶綁在一台筆電上 — 換人接手、換台機器、或多人同時 apply 時，記憶就分裂了。兩個人各自拿著不同版本的本地 state 去 apply，工具會用各自過時的記憶去算差異，互相把對方建的資源判定成「不該存在、刪掉」，基礎設施被反覆來回破壞。
這兩條邊界共同指向同一個結論：state 需要一個團隊共享、有版本、有存取控制、且能防止同時寫入的存放處。這就是 remote state backend 要解的問題。
remote state backend：自管 vs 託管
remote state backend 是把 state 從本地移到團隊共享儲存的機制，它要同時滿足三件事：持久保存、防止並行寫入衝突、以及保護敏感內容。達成方式分成自管儲存與託管服務兩種，差別在維運責任落在誰身上。
自管路線以雲端物件儲存加鎖機制為典型組合。以 AWS 為例，state 檔放 S3、用一張鎖表防止兩個人同時 apply：





1terraform {
2  backend "s3" {
3    bucket         = "acme-tf-state"
4    key            = "prod/network/terraform.tfstate"
5    region         = "ap-northeast-1"
6    encrypt        = true
7    dynamodb_table = "acme-tf-lock"
8  }
9}
這段設定的每一項都對應前一節的一條邊界，值得逐項拆開。encrypt = true 讓 state 在 S3 落地時加密，回應「state 含敏感值」的風險。承載 state 的 bucket 必須開 versioning：apply 寫壞或誤刪 state 時，versioning 是把記憶回捲到上一個正確版本的唯一退路，沒開的話一次壞寫就讓工具失去對現實的記憶。dynamodb_table 指向一張鎖表，apply 開始時寫入一筆鎖、結束才釋放，第二個人同時跑就會被擋下並提示鎖被誰持有 — 這正是本地 state 無法提供、卻是多人協作底線的並行保護。key 則是 state 在 bucket 內的路徑，這裡先用 prod/network 之類的分層命名，實際怎麼依環境切分 state 留待模組四：環境分離與模組化展開。
託管路線把這些維運細節包起來，由 Terraform Cloud、Spacelift 這類平台代管 state、鎖與加密，附帶 web UI 與 audit log。判讀訊號是團隊規模與維運餘裕：自管 backend 的成本是要自己把 bucket versioning、加密、鎖表、IAM 權限配對，配錯任何一項都可能讓 state 失去保護；託管服務用月費換掉這份配置與維運負擔，代價是 state 託付給第三方、且進階治理功能常綁在付費級距。小團隊起步、不想第一週就花在配 backend 上，託管較划算；對 state 存放位置有合規或主權要求、或希望基礎設施盡量自持的團隊，自管較划算。
Console 唯讀鐵律：把 Console 當儀表板，不當方向盤
Console 唯讀鐵律是一條操作紀律：雲端 Console 只用來觀察與排查，所有會改變資源的動作都回到程式碼走 apply。這條紀律維護的是 state 與現實的一致 — IaC 工具能正確運作的前提，是它的 state 反映得了真實世界，而每一次在 Console 點按鈕改設定，都是在 state 不知情的情況下動了現實。
這種 state 與現實的分歧叫 drift。drift 的代價會延遲引爆，而非當下浮現。某人在 Console 臨時把一條 security group 規則打開救火，state 並不知道；下一次別人為了不相干的變更跑 apply，工具拿過時的 state 去比對，會把那條手動規則判定成「不在我的記憶裡、刪掉」，於是悄悄關掉，救火的洞重新出現，而且沒人在 PR 裡看得到這件事發生過。Console 改得越多、與程式碼分歧越久，某次例行 apply 就越可能掃掉一批沒人記得的手動設定。
鐵律越早立越好，因為回頭納管的代價隨時間累積。手動建的資源要納入 IaC，得先用 terraform import 把現實資源綁進 state，再補一段與現實完全吻合的 HCL：





1terraform import aws_security_group.web sg-0abc123def456
import 只把資源 ID 寫進 state，不會幫忙生程式碼。那個資源在 Console 上被點出來的每一個屬性 — 每條 ingress 規則、每個 tag、每項關聯設定 — 都得一字不差地補成 HCL，任何一項對不上，下次 apply 就會試圖把現實改回程式碼寫的版本。一個資源還能忍，等到累積了幾十個各自手動微調過的資源才想納管，逆向工程的工作量會大到讓人乾脆放棄，基礎設施就此分裂成「程式碼管的」與「沒人敢動的」兩塊。第一天就立鐵律，要納管的存量永遠是零。
讓鐵律落地靠的是權限、不是自律。光靠約定「別在 Console 改」撐不久，救火當下手最快的永遠是 Console。真正讓鐵律站得住的，是把人的日常身分收斂成唯讀、把寫入權限留給跑 apply 的自動化身分，讓「在 Console 改不動」變成預設狀態 — 這道權限地基屬於模組二：身分與憑證地基的範圍，本階先確立紀律方向。
最小可行：能 apply 出一個完整環境的最小資源集合
最小可行 IaC 的目標是用最少的資源，跑出一條「改程式碼 → review → apply → 環境真的變了」的完整迴路。它承擔的責任是驗證地基本身能動，把所有服務都搬上來是後面的事。判準是這套程式碼能獨立 apply 出一個雖小但自洽、別人能重現的環境。
這一階的最小集合通常包含：一個設定好 versioning、加密與鎖表的 remote state backend；一個收斂後人類唯讀的身分權限基線；一個能放東西的網路骨架（一個 VPC 加最少的 subnet）；以及一個微不足道但真實存在的資源（例如一個 S3 bucket 或一台最小的測試機），用來證明 apply 確實作用到了雲端。把這個微小資源刻意留在最小集合裡，是因為它是最便宜的端到端驗證 — apply 跑完後它真的出現、terraform destroy 後它真的消失，就證明從程式碼到雲端的整條鏈路是通的。
刻意不放進來的東西同樣重要：正式的應用服務、資料庫、跨環境的複製、複雜的模組抽象，全部留到地基驗證通過之後。在 state 與 Console 唯讀都還沒站穩前就堆服務，等於把房子蓋在還沒灌漿的地基上。網路骨架怎麼長、身分怎麼切，分別由模組三：網路地基與模組二：身分與憑證地基接手深入；這一階只需要它們各自最薄的一層，湊出一個能 apply、能 destroy、能交接的閉環。
第一篇文章開頭有一段「動手前的前提」，列出寫第一行 IaC 之前需要就位的前置條件（雲端帳號 + MFA、CLI 工具安裝、雲端認證、Git repo 初始化）。已經備妥的讀者可以跳過。
章節文章

  
      
          文章
          主題
      
  
  
      
          IaC 工具選型與 state 地基
          Terraform / OpenTofu / CDK / Pulumi 選型判準，state 作為唯一記憶，remote state backend 的自管與託管路線
      
      
          Console 唯讀鐵律與最小可行資源集合
          Console 唯讀的操作紀律、drift 的延遲引爆與偵測，以及第一個完整 apply 迴路的最小資源集合
      
  

跨分類引用

→ 模組二：身分與憑證地基：Console 唯讀鐵律靠權限落地，人類唯讀、自動化身分持有寫入權
→ 模組三：網路地基：最小集合裡的 VPC 與 subnet 怎麼設計
→ 模組四：環境分離與模組化：state 的 key 怎麼依環境切分、state 跟環境怎麼對應
→ 模組七：infra 走 PR 流程：state 變更與 apply 怎麼納入 review
→ 接手維運：接手既有環境後的 IaC 導入路徑




環境分離與模組化 — 目錄結構、module 參數化與 retrofit 路徑
Fri, 26 Jun 2026 00:00:00 +0000
環境分離的核心責任是讓 dev 的實驗、staging 的驗證、prod 的真實流量彼此不可見也不可達。從目錄結構就定好環境邊界的專案，dev 跟 prod 是兩棵獨立的 state 樹、改錯一邊不會波及另一邊；等資源都長出來、流量都上線了才回頭切的專案，每一次 retrofit 都在帶電作業，動到的是正在服務客戶的網路與身分。同樣一套 module、同樣的工程師，差別只在「環境邊界是設計出來的、還是事後補的」，而這個差別在第一天幾乎零成本、在第一百天可能是一個季度的遷移專案。
環境分離從第一天的目錄結構就定好
環境分離的本質是把「同一套基礎設施定義」複製成多份隔離的執行實例，每份有自己的 state、自己的雲端資源、自己的故障半徑。它承擔的責任是讓 dev 的實驗、staging 的驗證、prod 的真實流量彼此不可見也不可達 — 在 dev 跑壞一個資料庫、套錯一條 security group 規則，prod 完全無感。
這個邊界要在第一天就用目錄結構表達出來，原因是 state 一旦混在一起就難以無痛拆開。Terraform 這類工具用 state 檔記錄「哪個資源由哪段 code 管理」，如果 dev 跟 prod 的資源都登記在同一份 state，後續想把 prod 移出去，等於要對正在服務的資源做 state mv 或 import/remove 操作 — 任何一步算錯，工具可能判定資源該銷毀重建，而那是 prod 的資料庫。第一天就分目錄，dev 與 prod 從來不曾共用 state，這個風險根本不存在。
檢查自己的 repo：如果現在只有一份 main.tf、裡面同時宣告了 dev-db 跟 prod-db，或者 terraform.tfstate 裡同時記錄了兩個環境的資源，這個專案已經欠下環境分離的債，債齡每天都在增加。下一步路由是先確立目錄骨架，再決定差異怎麼參數化。
目錄分離 vs Terraform workspace 的取捨
切分環境有兩條主流路徑：每個環境一個獨立目錄（各自持有 backend 與 state），或共用一份 code 用 Terraform workspace 切換不同 state。兩者都能讓 state 隔離，差別在「環境差異藏在哪裡」以及「誤操作的故障半徑多大」。
隔離強度光譜
在挑這兩條路之前，先把它們放回完整的分離強度光譜。環境分離橫跨一條從帳號到 workspace、隔離由粗到細的階梯：

  
      
          隔離層級
          邊界機制
          適用情境
          初始成本
      
  
  
      
          帳號級隔離
          各環境獨立雲端帳號
          prod 需法規等級的權限與計費分離
          高
      
      
          獨立 repo
          各環境獨立程式碼庫與 CI pipeline
          各環境由不同團隊維護或受不同合規約束
          中高
      
      
          目錄分離
          同 repo 內各環境有獨立目錄與 state
          多數早期團隊的平衡點
          低
      
      
          Workspace
          同份 code、執行期切換 state
          環境高度同構、數量多
          最低
      
  

光譜越靠粗的一端，隔離越強、跨環境共用越少、初始與維運成本越高；越靠細的一端，重複越少、邊界越隱性。多數早期團隊在目錄分離這一格落腳，因為它在顯式邊界與維運成本之間平衡得宜。當隔離需求升高（例如 prod 要法規等級的帳務與權限隔離），再沿光譜往帳號級或獨立 repo 移。帳號級隔離的權限邊界設計見模組二：身分與憑證地基。
目錄分離的結構
目錄分離把每個環境寫成可獨立進入的工作目錄，差異透過各自的 terraform.tfvars 表達，prod 的 backend 設定、變數值、甚至 provider 版本都各自鎖定。





 1infra/
 2├── modules/                  # 可重用模組、不含任何環境專屬值
 3│   ├── network/
 4│   ├── database/
 5│   └── service/
 6└── environments/
 7    ├── dev/
 8    │   ├── main.tf           # 呼叫 modules、傳 dev 參數
 9    │   ├── backend.tf        # state 指向 dev 專屬位址
10    │   └── terraform.tfvars  # dev 的差異值
11    ├── staging/
12    │   └── ...
13    └── prod/
14        ├── main.tf
15        ├── backend.tf        # state 指向 prod 專屬位址
16        └── terraform.tfvars  # prod 的差異值
它的代價是目錄之間有重複的 boilerplate（main.tf 裡的 module 呼叫在每個環境幾乎一樣），好處是邊界顯式 — cd 進哪個目錄、apply 就只會動那個環境，prod 的 state 位址寫死在 prod 目錄的 backend 設定裡，不會因為忘記切換而打錯環境。
每個環境目錄的 backend.tf 各自指向獨立的 state 路徑，這是邊界的物理保證：





 1# environments/prod/backend.tf
 2terraform {
 3  backend "s3" {
 4    bucket         = "acme-tf-state"
 5    key            = "prod/terraform.tfstate"
 6    region         = "ap-northeast-1"
 7    encrypt        = true
 8    dynamodb_table = "acme-tf-lock"
 9  }
10}




 1# environments/dev/backend.tf
 2terraform {
 3  backend "s3" {
 4    bucket         = "acme-tf-state"
 5    key            = "dev/terraform.tfstate"
 6    region         = "ap-northeast-1"
 7    encrypt        = true
 8    dynamodb_table = "acme-tf-lock"
 9  }
10}
Terragrunt 收斂 boilerplate
目錄分離的 boilerplate 重複可以用 Terragrunt 收斂。Terragrunt 的存在理由正是把跨環境目錄共通的 backend、provider、module 呼叫抽成一份範本，各環境目錄只留差異值，等於在保留目錄顯式邊界的前提下補上一層 DRY。它值得引入的情境是環境數量多（超過三個）、共通 boilerplate 開始拖慢維護時；環境只有兩三個時，直接維護幾份目錄的成本通常還低於多引入一個工具與它的學習曲線。
Workspace 的邊界
Workspace 共用同一份 code、用 terraform workspace select prod 在執行期切換 state。它的好處是零重複，所有環境的 code 保證同步；代價是環境差異只能靠 terraform.workspace 在 code 裡寫條件判斷，而當前選中哪個 workspace 是 shell 的隱性狀態。
這個隱性狀態正是早期最該避免的失誤來源。在 dev workspace 以為自己在改 dev、其實上一個指令切到了 prod，apply 下去才發現故障半徑是 prod。沒有任何檔案層級的信號能防止這件事 — workspace 的當前狀態存在本地的 .terraform/ 目錄裡，git diff 看不到、code review 也看不到。
早期推薦目錄分離，理由是故障半徑與認知負荷的取捨在小團隊明顯偏向「顯式邊界」這一側：團隊還沒有成熟的 CI gate 攔截誤 apply，顯式目錄是最便宜的防呆。Workspace 較划算的情境是環境數量多且高度同構（例如每個客戶一個隔離環境、差異只有名稱與配額），重複目錄的維護成本開始超過 workspace 隱性狀態的風險時，再切過去。每個環境的 state 要怎麼各自隔離、backend 怎麼設定，見模組一：最小可行 IaC。
module 化：同一套 code、不同參數
Module 是把一組會被多環境重複使用的資源封裝成有輸入參數的單元，承擔的責任是讓 dev 與 prod 共享同一份邏輯定義、只在參數上分歧。沒有 module 時，dev 與 prod 各自維護一份 copy-paste 的資源宣告，兩份會隨時間漂移 — 有人只在 prod 補了一條 security group 規則、忘了同步 dev，於是「dev 能跑、prod 卻爆掉」或更糟的「dev 測過了、prod 行為不同」。
避免漂移的關鍵是讓環境之間唯一合法的差異來源是傳進 module 的參數，而不是 module 內部的 code 分支。Module 內部不寫 if env == "prod" 這類判斷，所有環境相關的值都從 variable 進來：





 1# modules/database/variables.tf — module 只宣告它需要什麼參數
 2variable "instance_class" {
 3  type        = string
 4  description = "RDS instance type"
 5}
 6
 7variable "multi_az" {
 8  type    = bool
 9  default = false
10}
11
12variable "backup_retention_days" {
13  type    = number
14  default = 7
15}
16
17variable "deletion_protection" {
18  type    = bool
19  default = true
20}




 1# modules/database/main.tf — module 用參數建資源，不含環境判斷
 2resource "aws_db_instance" "primary" {
 3  identifier              = "${var.service_name}-${var.env}"
 4  engine                  = "postgres"
 5  engine_version          = var.engine_version
 6  instance_class          = var.instance_class
 7  multi_az                = var.multi_az
 8  backup_retention_period = var.backup_retention_days
 9  deletion_protection     = var.deletion_protection
10  db_subnet_group_name    = var.subnet_group_name
11  vpc_security_group_ids  = var.security_group_ids
12}




 1# environments/prod/main.tf — prod 傳自己的值
 2module "database" {
 3  source                = "../../modules/database"
 4  service_name          = "payments"
 5  env                   = "prod"
 6  instance_class        = "db.r6g.xlarge"
 7  engine_version        = "16.3"
 8  multi_az              = true
 9  backup_retention_days = 30
10  deletion_protection   = true
11  subnet_group_name     = module.network.private_subnet_group
12  security_group_ids    = [module.network.db_security_group_id]
13}




 1# environments/dev/main.tf — dev 傳縮小版的值
 2module "database" {
 3  source                = "../../modules/database"
 4  service_name          = "payments"
 5  env                   = "dev"
 6  instance_class        = "db.t3.micro"
 7  engine_version        = "16.3"
 8  multi_az              = false
 9  backup_retention_days = 1
10  deletion_protection   = false
11  subnet_group_name     = module.network.private_subnet_group
12  security_group_ids    = [module.network.db_security_group_id]
13}
這樣 dev 與 prod 跑的是位元層級相同的 module code，差異全部收斂在 main.tf 的呼叫參數裡、一眼可審。Review 時只要 diff 各環境的參數區塊就能看完所有環境差異。如果發現有人為了某環境的特例去改 module 內部，那是漂移正在發生的徵兆——該把特例改寫成新的參數，而非在 module 裡加 if env == "prod" 分支。核心服務怎麼用 module 跨環境重用，見模組五：核心服務上 IaC。
環境差異參數化：prod 放大、dev 縮小
環境之間真正該不同的是規模與冗餘等級，而這些差異全部表達成參數值、不表達成不同的 code。Prod 承擔真實流量與可用性承諾，所以跨多個可用區（multi-AZ）部署、機器規格放大、備份保留更久、開啟刪除保護；dev 承擔的是迭代速度與成本控制，所以單 AZ、最小機型、短備份甚至無備份，壞了重建即可。
把這些差異參數化的好處是「環境拓樸的形狀一致、只有刻度不同」。Dev 與 prod 都經過同一段 module 邏輯，prod 不會出現一段 dev 從未執行過的 code path — 真正上線的設定，在 dev 已經以縮小版驗證過邏輯正確性。

  
      
          參數
          prod
          staging
          dev
      
  
  
      
          instance_class
          db.r6g.xlarge
          db.r6g.large
          db.t3.micro
      
      
          multi_az
          true
          true
          false
      
      
          backup_retention
          30
          14
          1
      
      
          deletion_protection
          true
          true
          false
      
      
          desired_count
          6
          2
          1
      
  

常見陷阱是把成本差異做成「dev 直接砍掉某個元件」：例如 dev 為了省錢不建負載平衡器、prod 才建，結果 prod 的 LB 相關設定從來沒在 dev 測過。較合理的做法是 dev 也建同型元件、只把規格與數量縮到最小，讓拓樸保持同構、只縮放刻度。
邊界在於少數差異無法只靠刻度表達。Prod 需要合規要求的稽核 log、dev 不需要；prod 要開 WAF、dev 不需要。這類差異用 count 或 for_each 配一個布林參數開關：





1resource "aws_cloudwatch_log_group" "audit" {
2  count             = var.enable_audit_log ? 1 : 0
3  name              = "/app/${var.env}/audit"
4  retention_in_days = 365
5}
仍然走參數化、不分叉 code — 分叉 code 是漂移的起點。跨可用區與冗餘的網路面怎麼鋪，見模組三：網路地基。
retrofit 路徑：把單環境拆成 per-env module
很多專案是先在單一環境把 IAM、VPC、核心資源都建起來、跑通了，才意識到需要環境分離 — 這是常見且合理的演進順序，尤其是先救火上線、之後才回頭納管的情況。Retrofit 的目標是在不破壞正在服務的資源前提下，把這份「隱含為 prod」的單環境，重構成「modules + per-env 呼叫」的結構，並讓現有資源平移成 prod 環境。
安全的步驟順序是先重構 code、再動資源歸屬，且每一步都用 terraform plan 確認「零變更」。
第一步：抽 module、宣告搬遷
把現有資源宣告抽成 module：把 main.tf 裡的資源搬進 modules/，原地用 module 呼叫取代，所有值先寫死成現況。資源在 state 裡的位址會從 aws_db_instance.primary 變成 module.database.aws_db_instance.primary，用 moved {} 區塊宣告搬遷，避免工具誤判為「銷毀舊的、建新的」：





1moved {
2  from = aws_db_instance.primary
3  to   = module.database.aws_db_instance.primary
4}
5
6moved {
7  from = aws_security_group.db
8  to   = module.database.aws_security_group.db
9}
此時 plan 必須顯示無任何新增或銷毀 — 只是重新組織 code。如果 plan 出現任何 destroy 或 forces replacement，在 prod 路徑上停下來查 moved 區塊哪裡寫錯。
第二步：參數化
把寫死的值換成 prod 的參數：把現況值搬進 environments/prod/terraform.tfvars，module 改吃參數。plan 仍須零變更，因為參數值就等於現況值。這一步的驗證方式很機械：每個從字面值改成變數引用的欄位，都能在 tfvars 裡找到完全相同的值。
第三步：新增其他環境
複製 prod 的呼叫結構成 environments/dev/，給它自己的 backend（獨立 state）與縮小的參數值。這一步是純新增、不碰 prod。先在 dev apply 出一套完整的縮小版環境、確認 module 在新環境也能 plan/apply 乾淨，再回頭確信 prod 的重構沒有副作用。
風險控制
最大的風險集中在前兩步：現有資源是活的，任何讓工具判定「需要替換」的改動，對 IAM 角色可能是短暫權限真空、對 VPC 可能是子網重建導致服務中斷。防護措施有三個層級：
第一，把每一次 plan 的輸出當成必須為零的驗收條件。非零就停下來查 moved 區塊或參數值哪裡跟現況不符。狀態危險的訊號是 plan 出現任何 destroy 或 forces replacement，在 prod 路徑上這幾乎都該暫停。
第二，在 retrofit 開始前備份 state 檔。S3 backend 有 versioning 可以回捲，但多一份本地備份增加保險層：





1# retrofit 前備份 state
2aws s3 cp s3://acme-tf-state/prod/terraform.tfstate \
3  ./state-backup-$(date +%Y%m%d).tfstate
第三，moved 區塊優先用宣告式（可 review、可回滾），手動 state mv 留給 moved 表達不了的跨 module 搬遷。整個 retrofit 走 PR 流程、讓 plan 輸出在 review 時可見，見模組七：infra 走 PR 流程。
時程參考：10-20 個資源的典型環境，從單環境拆成 module + per-env 結構約需 1-2 週（含每步 plan 驗證與跨環境推送）。50 個以上資源的環境需要 3-4 週分階段執行，每階段以一組功能相關的資源為單位。這些時程的主要變數是 stateful 資源的數量——每個 stateful 資源的 moved/import 操作都需要額外的 plan 驗證與備份保險。
跨分類引用

→ 模組一：最小可行 IaC：每個環境的 state 怎麼隔開
→ 模組二：身分與憑證地基：帳號級隔離的權限邊界
→ 模組三：網路地基：跨可用區冗餘的網路面
→ 模組五：核心服務上 IaC：核心服務怎麼用 module 跨環境重用
→ 模組七：infra 走 PR 流程：retrofit 的 plan 輸出怎麼進 review
→ 跨帳號策略：帳號級隔離是環境分離光譜最粗的一端




斷網環境的通用原則
Fri, 26 Jun 2026 00:00:00 +0000
斷網環境的 infra 原則跟連網環境相同——可重建、可追蹤、可審查。差別在於連網環境用網路解決的事情（下載套件、推送 code、拉取映像、發送告警），斷網環境要用替代路徑解決。這些替代路徑有一個共通模式：把內容在有網路的環境準備好，經過安全審查後搬進隔離網路。本篇建立這個共通模式的操作框架，後續的 IaC、容器、監控各篇在這個框架上展開各自的細節。
內容搬運模式（Content Ferry）
斷網環境裡的所有外部依賴（套件、映像、工具、更新）都要經過一條可控的搬運路徑進入。這條路徑的設計決定了環境的安全性和維護效率。
搬運路徑的三種形態
離線媒介搬運：用 USB 隨身碟、外接硬碟或光碟把檔案從有網路的工作站搬進隔離網路。適合高安全環境（軍事、政府機密網路），搬運頻率通常是週或月級。每次搬運的內容要經過掃毒和完整性驗證。





1# 外部工作站：準備搬運包
2mkdir -p ferry/$(date +%Y%m%d)
3# 把需要的套件、映像、工具複製進去
4cp -r packages/ images/ tools/ ferry/$(date +%Y%m%d)/
5# 產生 checksum
6find ferry/$(date +%Y%m%d) -type f -exec sha256sum {} \; > ferry/$(date +%Y%m%d)/manifest.sha256




1# 隔離網路內：驗證搬運包完整性
2cd /mnt/usb/ferry/20260626
3sha256sum -c manifest.sha256
跨網段閘道搬運：在隔離網路的邊界放一台 staging gateway（跳板機），它有兩張網卡——一張連外部網路（或 DMZ）、一張連內部隔離網路。外部的內容先傳到閘道、經過掃描和審查後再推進內部。適合金融和工控環境，搬運頻率可以是日級。
閘道的安全約束：只允許特定的檔案類型通過、所有傳入的檔案經過掃毒、傳輸記錄要保留 audit log、閘道本身定期更新安全軟體。
單向資料二極體（Data Diode）：硬體層面只允許資料單向流動（外 → 內），物理上無法從內部網路傳資料出去。用在最高安全等級的環境。搬運頻率和內容由二極體的設定決定。
搬運的操作紀律
每次搬運都要記錄：日期、搬運者、搬運內容清單（檔名 + 版本 + checksum）、搬運理由。這份紀錄存在內部網路的版本控制裡，讓「這個套件是誰、什麼時候、為什麼帶進來的」事後可追溯。
搬運內容的安全審查至少包含：掃毒（ClamAV 或商業掃毒）、checksum 驗證（確認搬運過程沒有被竄改）、版本確認（確認搬進來的版本跟預期的一致、不是被降級的舊版）。
時程參考：建立搬運流程（含閘道設定、掃描工具安裝、紀錄模板）約需 2-3 天。之後每次搬運操作約 1-2 小時（含準備、掃描、驗證、紀錄）。
離線套件管理
連網環境的 apt install、yum install、npm install 背後都在連線到公開的套件倉庫。斷網環境需要在內部建立這些倉庫的離線鏡像。
作業系統套件
Debian/Ubuntu：用 apt-mirror 或 aptly 在有網路的環境建立 mirror，把整個 mirror 搬進內部網路，內部機器的 /etc/apt/sources.list 指向內部 mirror。





1# 外部：建立 mirror（首次約 50-200GB，後續增量）
2apt-mirror /etc/apt/mirror.list
3
4# 內部：設定 sources.list 指向內部 mirror
5echo "deb http://internal-mirror.local/ubuntu jammy main restricted" > /etc/apt/sources.list
6apt update
RHEL/CentOS：用 reposync 把 yum repo 同步到本地，搬進內部後用 createrepo 建立 repo metadata。





1# 外部：同步 repo
2reposync --repoid=baseos --download-metadata -p /path/to/mirror/
3
4# 內部：建立 repo 並設定
5createrepo /path/to/mirror/baseos
應用層套件
Node.js（npm）：npm pack 把每個依賴打包成 .tgz，搬進內部後用 npm install --offline 或建立 Verdaccio private registry。





1# 外部：打包所有依賴
2npm pack --pack-destination ./offline-packages/
3# 或用 npm-offline-mirror
4npm install --prefer-offline --cache ./npm-cache
Python（pip）：pip download 把依賴下載成 wheel 或 tarball，搬進內部後 pip install --no-index --find-links=./packages/。
PHP（Composer）：composer install 後整個 vendor/ 目錄打包搬進去。或建立 Satis 作為 private Packagist mirror。
套件鏡像的維護節奏
離線 mirror 需要定期更新——安全補丁、版本升級都要透過搬運流程進入。更新頻率取決於安全需求：高安全環境至少月更（安全補丁）、一般環境季更可接受。每次更新都是一次搬運操作，要走完整的審查流程。
多格式統一：Nexus Repository
上面的做法是每個套件生態各自建 mirror（apt-mirror + Verdaccio + Satis + pip local index）。Nexus Repository 是多格式統一的 artifact proxy，同時支援 apt / yum / npm / Maven / PyPI / Docker / Helm——在企業級斷網環境裡，用一個 Nexus 實例取代多個獨立的離線 repo mirror，維護成本較低。代價是 Nexus 本身的安裝和維運（Java 應用、需要磁碟空間和記憶體），小團隊各自建 mirror 可能反而更簡單。
離線 Configuration Management：Ansible
斷網環境的 OS 設定、套件安裝、服務啟動等 configuration management 需求，Ansible 是運作良好的工具——它不需要在目標機器安裝 agent、透過 SSH 推送 playbook 執行，playbook 本身是 YAML 可版本控制。在沒有雲端 IaC（Terraform 管的是雲端資源 API）的地端斷網環境裡，Ansible 負責 configuration management 層。Ansible 自身的安裝只需要 Python，控制端安裝後即可透過 SSH 管理內部所有機器。
變更追蹤：沒有 GitHub 怎麼辦
斷網環境不能 push 到 GitHub、不能開 PR、不能用 GitHub Actions。但 git 本身是離線工具——git 的所有操作（commit、branch、merge、log、diff）都不需要網路。
內部 Git Server
在隔離網路內架設 git server：Gitea（輕量、單一二進位、適合小團隊）、GitLab CE（功能完整、含 CI/CD runner、適合中大團隊）、或最簡單的 bare repo on NFS。





1# 最簡單的方式：bare repo on 共用檔案系統
2git init --bare /shared/repos/infra.git
3
4# 開發者 clone
5git clone /shared/repos/infra.git
Git Bundle 跨網段傳遞
如果需要在有網路的環境開發、完成後搬進隔離網路，用 git bundle 把 commit 打包成單一檔案：





1# 外部：把 main branch 的所有 commit 打包
2git bundle create infra-$(date +%Y%m%d).bundle main
3
4# 搬運後，在內部 clone 或 pull
5git clone infra-20260626.bundle infra-repo
6# 或增量更新
7git pull infra-20260626.bundle main
bundle 檔案可以用 git bundle verify 驗證完整性。增量 bundle（只包含某個 tag 之後的 commit）可以減少搬運的資料量：





1git bundle create incremental.bundle last-imported-tag..main
Code Review 的替代方案
沒有 GitHub PR，code review 可以用：

GitLab CE / Gitea 的內建 merge request（如果架了內部 git server）
git format-patch 產出 patch 檔 + email review（傳統做法、不需要 web UI）
git diff main..feature | less 直接在終端機 review（最簡陋但可行）

Staging Gateway 的設計
staging gateway 是搬運路徑的關鍵節點——它決定了什麼能進、什麼不能進。設計要點：
最小安裝：閘道上只裝搬運需要的工具（scp、rsync、掃毒軟體、checksum 工具），不裝開發工具、不跑應用服務。攻擊面越小越好。
雙網卡隔離：一張網卡連外部（或 DMZ）、一張連內部。兩張網卡之間沒有自動路由——檔案必須經過人工或腳本從外部目錄搬到內部目錄，中間經過掃描。
審計紀錄：閘道上的所有檔案操作（建立、複製、刪除）都要記錄。auditd 或等價工具提供核心層級的操作追蹤。
定期輪替：閘道本身的 OS 和掃毒軟體需要更新。這是一個遞迴問題（用什麼搬運閘道的更新？）——通常用離線媒介搬運閘道自身的更新，或用另一台更上游的閘道。
時程參考：閘道的初次設定（含 OS 安裝、雙網卡配置、掃描工具、審計設定）約需 1-2 天。搬運流程文件化約需半天。
安全審查：什麼能跨越隔離邊界
每一筆跨越隔離邊界的內容都是潛在的攻擊向量。審查的原則是：預設拒絕，逐項允許。
審查清單：

  
      
          項目
          檢查方式
          通過條件
      
  
  
      
          掃毒
          ClamAV / 商業掃毒
          0 偵測
      
      
          完整性
          sha256sum 比對
          checksum 與外部記錄一致
      
      
          版本
          比對預期版本號
          跟申請單的版本一致
      
      
          來源
          驗證下載來源
          來自官方 repo 或已知 mirror
      
      
          必要性
          申請理由審查
          有明確的使用場景
      
  

對決策者的重點：斷網環境的安全不是「隔離就安全」——搬運路徑是唯一的攻擊面，這條路徑的安全審查品質決定了整個隔離環境的安全水位。
跨分類引用

→ 斷網環境的 IaC：Terraform provider 和 module 的離線管理
→ 斷網環境的容器管理：映像搬運用的是本篇的 content ferry 模式
→ 模組八：治理好習慣：斷網環境的搬運紀錄是治理的一部分




Console 唯讀鐵律與最小可行資源集合
Fri, 26 Jun 2026 00:00:00 +0000
state 管好之後，下一件要釘死的事是保證 state 與現實不會分歧。IaC 工具選型與 state 地基建立了 state 作為工具記憶的角色，這篇處理的是怎麼讓這份記憶不被背後偷改 — Console 唯讀鐵律，以及怎麼用最小資源集合驗證整條 IaC 鏈路端到端可運作。
Console 唯讀鐵律：把 Console 當儀表板，不當方向盤
Console 唯讀鐵律是一條操作紀律：雲端 Console 只用來觀察與排查，所有會改變資源的動作都回到程式碼走 apply。這條紀律維護的是 state 與現實的一致 — IaC 工具能正確運作的前提，是它的 state 反映得了真實世界，而每一次在 Console 點按鈕改設定，都是在 state 不知情的情況下動了現實。
drift 的延遲浮現
state 與現實的分歧叫 drift。drift 的後果在後續某次 apply 時才浮現——工具用過時的 state 比對雲端現況、把手動設定判定為「不該存在」並覆蓋掉，手動改的當下一切正常。手動改的當下一切正常，後果要等到下一次不相關的 apply 才出現。
常見的 drift 路徑：在 Console 手動加了一條 security group 規則（例如讓外部監控系統連進來），state 不知道這條規則存在。後續某次 apply 時，工具比對 state 和雲端現況、把這條規則判定為「不在記憶裡」而刪除。同樣的機制也發生在手動調整的 RDS parameter group（例如增加 max_connections）— 後續 apply 會把參數重設回程式碼裡的值。
Console 改得越多、與程式碼分歧越久，某次例行 apply 就越可能掃掉一批沒人記得的手動設定。drift 的累積是單調遞增的 — 每一次手動改動都加一筆，沒有任何自然機制會讓它減少。
drift 偵測
主動偵測 drift 的方式是定期跑 terraform plan 而不做 apply — plan 的輸出會列出「code 描述的狀態」與「雲端現況」之間的差異。如果 plan 在沒有 code 變更的情況下顯示非零差異，代表有人在背後動了資源。





1# 定期 drift 偵測：plan 結果非零就告警
2terraform plan -detailed-exitcode
3# exit code 0 = 無差異, 1 = 錯誤, 2 = 有差異
把這個 plan 接進 CI，讓 drift 在累積之前就被發現。判讀 plan 輸出時，重點看那些「會被 Terraform 改回去」的差異 — 它們就是手動變更的痕跡。
import 的痛苦
鐵律越早立越好，因為回頭納管的代價隨時間累積。手動建的資源要納入 IaC，得先用 terraform import 把現實資源綁進 state，再補一段與現實完全吻合的 HCL：





1terraform import aws_security_group.web sg-0abc123def456
import 只把資源 ID 寫進 state，不會幫忙生程式碼。那個資源在 Console 上被點出來的每一個屬性 — 每條 ingress 規則、每個 tag、每項關聯設定 — 都得一字不差地補成 HCL。任何一項對不上，下次 apply 就會試圖把現實改回程式碼寫的版本 — 對 security group 來說可能是把一條正在用的規則刪掉，對 RDS 來說可能是觸發一次重啟。
Terraform 1.5 之後提供了 import 區塊，可以在 HCL 裡宣告式地寫 import，配合 terraform plan -generate-config-out=generated.tf 自動生成對應的資源描述。這比手寫減少了大量逆向工程，但生成的 code 仍然需要人工確認每一個屬性是否正確 — 自動生成是起點，不是終點。





1import {
2  to = aws_security_group.web
3  id = "sg-0abc123def456"
4}
import 成本隨資源數量非線性增長。一個資源的逆向工程可控，幾十個各自手動微調過的資源累積起來，團隊會停止嘗試納管，環境分裂成 IaC 管理的部分和手動管理的部分。第一天就立鐵律，要納管的存量永遠是零。
鐵律靠權限落地，不靠自律
光靠約定「別在 Console 改」撐不久，救火當下手最快的永遠是 Console。真正讓鐵律站得住的，是把人的日常身分收斂成唯讀、把寫入權限留給跑 apply 的自動化身分，讓「在 Console 改不動」變成預設狀態。
這道權限地基屬於模組二：身分與憑證地基的範圍，本階先確立紀律方向：人類日常用的 IAM 身分只有 ReadOnlyAccess，寫入權限只存在於 CI pipeline 使用的 role，這個 role 靠 OIDC 取得短期憑證（不存長期 key）。具體的 IAM 設計和 OIDC 信任關係在模組二展開。
最小可行：能 apply 出一個完整環境的最小資源集合
最小可行 IaC 的目標是用最少的資源，跑出一條「改程式碼 → review → apply → 環境真的變了」的完整迴路。它承擔的責任是驗證地基本身能動，把所有服務都搬上來是後面的事。判準是這套程式碼能獨立 apply 出一個雖小但自洽、別人能重現的環境。
最小集合的組成

  
      
          資源
          職責
          驗證標準
      
  
  
      
          S3 bucket + DynamoDB（鎖表）
          remote state backend
          state 能寫入、鎖能取得和釋放
      
      
          IAM role（唯讀 + apply）
          人類唯讀、自動化寫入的身分基線
          人登入後 Console 改不動東西
      
      
          VPC + 最少的 subnet
          網路骨架
          資源能被放進正確的 subnet
      
      
          一個微小的真實資源
          端到端驗證
          apply 出現、destroy 消失
      
  

把一個微小資源（例如一個 S3 bucket 或一台最小的測試 EC2）刻意留在最小集合裡，是因為它是最便宜的端到端驗證。apply 跑完後它確實出現、terraform destroy 後它確實消失，就證明從程式碼到雲端的整條鏈路是通的。





1resource "aws_s3_bucket" "smoke_test" {
2  bucket = "acme-smoke-test-${var.env}"
3
4  tags = {
5    purpose = "validate-iac-pipeline"
6    env     = var.env
7    owner   = "platform"
8  }
9}
刻意不放進來的東西
正式的應用服務、資料庫、跨環境的複製、複雜的模組抽象，全部留到地基驗證通過之後。在 state 與 Console 唯讀都還沒站穩前就堆服務，等於把房子蓋在還沒灌漿的地基上。
常見的過早引入包括：在最小集合裡就加 RDS（state 操作出問題時資料庫可能被影響）、在還沒有環境分離前就建多層 module 嵌套（驗證地基的複雜度不應該來自抽象層）、在一個人開發時就配好 Atlantis 或 Terraform Cloud 的完整 PR 流程（固定成本太高、且需要模組七的完整護欄才能發揮價值）。
網路骨架怎麼長、身分怎麼切，分別由模組三：網路地基與模組二：身分與憑證地基接手深入；這一階只需要它們各自最薄的一層，湊出一個能 apply、能 destroy、能交接的閉環。
驗證閉環
最小集合就位後的驗證步驟：

terraform init — 確認 backend 設定正確、provider 能下載
terraform plan — 確認 plan 輸出符合預期、沒有意外的 destroy 或 replace
terraform apply — 確認資源在雲端確實出現
terraform plan（再跑一次）— 確認輸出是零差異，代表 state 與現實一致
terraform destroy — 確認資源能被乾淨拆除（smoke test 資源）

第四步「再跑一次 plan」是容易被跳過卻最關鍵的一步。如果第一次 apply 之後立刻 plan 就出現差異，代表 provider 的行為和 HCL 描述之間有落差（例如某些屬性是雲端自動設的、HCL 沒寫），這類落差要在最小集合階段就修掉，等到正式服務上線後再修，成本會高很多。
最小可行 IaC 跑通後，下一步是收斂身分與憑證——把 Console 唯讀鐵律從紀律升級成權限限制，見模組二：身分與憑證地基。
跨分類引用

→ IaC 工具選型與 state 地基：state 怎麼管、backend 怎麼選
→ 模組二：身分與憑證地基：Console 唯讀鐵律靠權限落地，人類唯讀、自動化身分持有寫入權
→ 模組三：網路地基：最小集合裡的 VPC 與 subnet 怎麼設計
→ 模組七：infra 走 PR 流程：state 變更與 apply 怎麼納入 review




infra 的責任邊界、成熟度階梯與 day 1 鐵律
Fri, 26 Jun 2026 00:00:00 +0000
基礎設施（infrastructure，簡稱 infra）是承載應用程式的那層資源與規則：運算、網路、身分、儲存、可觀測性，以及定義它們如何被建立、變更、回收的治理機制。它的責任是讓應用程式有一個可被信任、可被重建、可被審計的執行環境。本篇建立的責任邊界、成熟度階梯與 day 1 鐵律，是後續所有 infra 模組共用的心智模型，其他章節會直接引用這裡定義的詞彙。
infra 的責任邊界
infra 承擔的是「應用程式之下、作業系統之上」那層共享資源的供應與治理。把責任拆成五個面向比較好對齊：每一面都有自己的失效模式，混在一起談會讓判斷失焦。
運算（compute）
運算負責「程式跑在哪、用多少資源、怎麼擴縮」。它的衡量點是容量與彈性：流量尖峰時能不能長出更多實例、閒置時能不能縮回去省錢。一台手動開的 VM 也是運算資源，差別只在它是否被納入可重建的描述。
運算涵蓋的光譜從 VM（EC2 instance）到容器（ECS task、Kubernetes pod）到 serverless function（Lambda）。抽象層級越高，infra 需要直接管理的細節越少——VM 要管 OS 更新與磁碟擴容，容器只需管映像與編排，serverless 幾乎只管程式碼與觸發條件。但抽象層級不改變運算的基本問題：它跑在什麼網路裡、用什麼身分存取其他資源、出了問題怎麼查。這些「接線」正是 infra 其他四個面向的職責。
運算層常見的失效模式有兩類。第一類是容量不足：流量上來了但 auto-scaling 沒設或設錯，新實例來不及啟動就超時，表現為使用者端的 502 或延遲飆高。這類事故的排查路徑是先看 scaling policy 的觸發條件與 cooldown 是否跟真實流量匹配，再看運算節點的啟動時間是否在可接受的範圍內。第二類是殭屍資源：跑完的測試機器沒關，停掉的開發環境仍掛著 EBS volume，閒置著燒錢卻沒人發現。殭屍資源的判讀訊號是 CPU 使用率長期趨近於零且沒有對外連線——靠定期盤點加上 tag 過濾最能系統性地收斂，詳見模組八：治理好習慣。
網路（network）
誰能連到誰、流量走哪條路？這兩個問題的答案在網路層。VPC 切分、子網路、route table、security group 把可達性變成明確規則，而非預設全通。邊界沒畫清楚時，一個被入侵的服務就能橫向打穿整個環境。
網路的失效模式分兩極。過度開放的代價是安全事故：一條 security group 入站規則寫成 0.0.0.0/0 允許任何來源連到資料庫埠（5432、3306），等於把密碼驗證當作唯一防線，而暴力嘗試的掃描流量在公網上是持續的。意外隔離的代價是服務中斷：有人改了一條 route table 的預設路由，導致 private subnet 的服務失去出站能力——拉不到外部套件、連不上第三方 API，服務看起來在跑但功能全部退化。兩者在平時都不被注意，事故發生時才現形。排查網路問題的第一步通常是「這個封包走的那條路上，每一層有沒有放行」——route table → NACL → security group，逐層確認。網路地基的系統性設計在模組三：網路地基展開。
身分與憑證（identity）
即使網路邊界畫得完美，一把權限過大的 access key 外洩了，攻擊者可以用 API 繞過所有網路規則直接操作資源——身分與憑證是五個面向中失守代價最高的一層。它的職責是讓人、服務、CI pipeline 各拿剛好夠用的權限（最小權限），並確保憑證有明確的生命週期。
身分層的失效模式有兩類常見形態。權限擴散指的是一個 role 隨時間累積了遠超本職所需的權限——每次需求都加一條新的 action，卻從來沒人收斂已經用不到的舊權限。典型場景是一個 CI role 一開始只需要讀 S3、後來加了建 ECR image、再後來加了改 RDS parameter group，半年後這個 role 的 policy 有三十幾行 action，其中只有不到一半還在使用。憑證散落則指同一把 access key 被複製到越來越多地方——CI 環境變數、開發者筆電的 ~/.aws/credentials、某段部署腳本裡的 hardcode。每多一個副本就多一個外洩點，而外洩後的回退要找出所有副本同步輪替，這在手動環境裡幾乎做不到。這兩者的完整處理在模組二：身分與憑證地基。
儲存（storage）
運算可以隨時重建，資料一旦遺失通常無法重來——這條分界線劃出了儲存層的職責。備份策略、版本保留、刪除保護構成儲存的三道防線，每一道都要在出事前就驗證過，而非事後才發現沒開。
儲存涵蓋從物件儲存（S3）到區塊儲存（EBS）到受管資料庫（RDS）的底層磁碟。這些資源的共同特性是它們承載狀態，而狀態的失效模式跟運算不同——運算節點掛了重開一台就好，資料刪了就是刪了。具體的失效場景包括：一台 RDS 沒開刪除保護（deletion protection），有人清理開發資源時誤刪了 production 的資料庫；一個 S3 bucket 沒開 versioning，一段錯誤的腳本把整批物件覆寫成空內容，回不去了；一份 EBS snapshot 只保留了 3 天，周五出事、周一上班才發現，快照已經被自動清除。把刪除保護、備份保留天數、版本控制這些防線寫進 IaC，讓保護策略本身成為可審查、可追蹤的程式碼，是模組五：核心服務上 IaC 的重點之一。
可觀測性（observability）
可觀測性負責「系統現在發生什麼、出事後查得到嗎」。它把 log、metric、trace 變成可查詢的事實來源。這層常被當成事後再補的附加品，但它和被它觀測的服務應該同生命週期一起建立。
後補的可觀測性有一個結構性缺陷：出事之前沒有監控，代表出事當下最關鍵的那段資料不存在——知道服務「現在壞了」，但看不到「壞之前發生了什麼」。CPU 從什麼時候開始上升、錯誤率從哪個部署開始出現、某個 API 的延遲從什麼時候劣化——這些問題的答案需要連續的歷史資料，而歷史資料只能在事前就開始收集。另一個常見失效是 alarm 設了但通知沒有接到人：alarm 綁到一個 SNS topic，topic 的 subscription 是某個已停用的 email，值班工程師從頭到尾沒收到通知，直到使用者自己回報。可觀測性的 IaC 描述在模組六：可觀測性與 log。
五面的共同根源
這五面的共同點是：它們都不是應用功能，使用者看不到，但任何一面崩了，上面的功能全部跟著崩。這正是地基隱形的根源——它的價值只在缺席時被感知。
地基為什麼隱形
infra 的特性是「運作正常時完全不被感知，失效時才一次現形」。地基鋪得好的環境，工程師每天部署、擴縮、改設定，卻幾乎不會意識到底下有一層在支撐，因為它安靜地做對了每件事。這種隱形讓 infra 在資源排序上長期吃虧：看得見的功能有人催，看不見的地基沒人提。
現形的時刻通常是環境失效的時刻，而且會在不同規模的團隊裡反覆出現——差別只在影響範圍。
沒有描述檔的資源在需要重建時，必須從 Console 逐頁反推它的設定——屬於哪個 VPC、掛了哪些 security group、用了什麼 IAM role。這些資訊散落在不同頁面，拼湊一個資源的完整設定要半天，而且每個找到的設定都帶著「不確定是不是還有漏掉的」疑慮。
一次安全稽核要求列出所有對外開放的連接埠，才發現 security group 散落在三個帳號、沒人說得清哪條規則還有用。有些規則是兩年前為了某個已經下線的服務開的，但沒人敢刪——萬一那條規則還被某個看不到的服務依賴呢？稽核結果是「我們列出了 37 條規則，其中 12 條無法確認是否仍在使用」。
一台資料庫磁碟滿了要擴容，才發現它從來沒進過任何納管流程。改它的 instance class 或磁碟大小，在 Console 上操作意味著可能觸發重啟，而這台資料庫是 production 唯一的寫入端點。操作時無法預測影響範圍，因為沒有可對照的描述檔；不操作則等著服務因為磁碟寫不進去而停擺。
這些場景有一個共同的累積模式：每一次「這次先手動救」的決定本身是合理的——救火當下沒有時間走流程。問題在於這些決定的殘留會堆疊。手動改了一條 security group 但沒記錄，下一個月又手動改了另一條，半年後沒人說得清哪些規則是原始設計、哪些是臨時補丁。每一次救火都在增加下一次排查的成本，而這個成本在平時完全隱形，只在下一次事故裡一次性浮現。
隱形債務的徵兆很直接：當團隊開始用這些語言描述某項資源，債就已經在累積——「不敢動那台機器」代表依賴關係不可見；「只有某某知道怎麼改」代表知識沒有沉澱在程式碼裡；「上次碰它好像出過事」代表變更缺乏 review 與回退機制；「那個先別管，能跑就好」代表技術債被刻意延後、沒有 tripwire。
地基的價值無法在平順時被看見，只能在它缺席的代價裡被回推，所以它需要一條和功能不同的論證路徑——這條路徑怎麼用商業語言講給上層聽，是模組九：怎麼把 infra 推動起來的主題。
day 1 鋪地基與事後補的成本差
在資源剛開始長出來時就用程式碼描述它，和等環境長大後再回頭納管，兩者的成本差距是非線性的。早期鋪地基的成本接近固定：寫一份描述檔、建一個 state、設一條 pipeline，環境只有三五個資源時這些都很輕。事後補的成本則隨資源數量、相互依賴與「不確定能不能動」的恐懼一起放大。
事後納管的痛具體長這樣：一個手動建出來的資源要納入 IaC，得先把它當前的真實狀態完整反推成程式碼（import）。這個過程要逐欄比對 Console 上的設定——一個 RDS instance 的 parameter group、backup retention、storage type、multi-AZ 設定，Console 上看到什麼 HCL 裡就得寫什麼，漏一個欄位下次 apply 就可能把線上設定改掉。資源彼此有依賴時，納管順序也得排——一個 security group 引用另一個 security group 作為 source，兩個都還沒進 IaC 時，要決定哪個先 import、程式碼怎麼暫時處理另一個的引用。當這些手動資源還是線上服務正在用的，整個納管過程等於在開著的引擎上換零件。
import 之後的第一次 plan 是真正的考驗。如果 HCL 跟雲端現實有任何落差——哪怕只是一個 tag 的大小寫不同、或某個欄位在 Console 上有預設值但 HCL 裡沒寫——plan 會把那些落差列為需要修改的變更。在 stateless 資源上這只是小修正，在 production 的 RDS 上如果 plan 判定需要 replace（先刪後建），那就是一個會造成資料遺失的操作，必須在 apply 之前被攔截。手動環境累積的資源越多，這類 plan 裡的「驚喜」越多，整理每一個驚喜都要時間和注意力。這就是事後補的成本隨時間複利的具體機制。
務實的判準不是「day 1 就把所有東西寫成完美的 IaC」，而是「day 1 就讓新長出來的資源預設走可重建的路徑」。多數早期環境合理的選擇是讓地基類資源（網路、身分、state 本身）從一開始就在程式碼裡，而把還在高速試錯的應用層資源留一點手動彈性，等形狀穩定再納管。
哪些資源屬於「地基類」的判斷依據是回頭改的代價。VPC 的 CIDR 一旦確定、裡面的 subnet 都分配出去了，要改地址範圍幾乎等於重建整個網路。IAM 的 role 和 policy 一旦被多個服務引用，改動任一條的影響範圍是整個授權模型。state 後端的 bucket 和 lock table 如果第一天沒設好、用了本地 state，後續要搬到 remote backend 要處理 state migration——而 state 搬遷失敗可能讓工具失去對所有資源的記憶。這類地基的回頭成本是階梯式的（一旦長歪就很貴）。應用層資源的回頭成本是線性到多項式的（越晚越貴但不至於一步跳崖）。差別在於：前者的回頭成本固定，後者隨時間複利。模組一：最小可行 IaC 會示範這條最小路徑怎麼落地。
成熟度階梯
infra 的成熟度可以排成一條從「全手動」到「全程式碼治理」的階梯，每一階用「資源怎麼被建立與變更」來定義。這條階梯是全系列共用的座標：後續模組描述某個能力時，會說它對應到哪一階，所以這裡先把刻度釘清楚。

  
      
          階段
          名稱
          資源怎麼被建立
          真實狀態的來源
          對應模組
      
  
  
      
          0
          Console 手動
          在網頁介面點選建立
          只存在於雲端，無描述
          模組負一
      
      
          1
          腳本化
          用 CLI 或腳本建立
          腳本，但無狀態追蹤
          —
      
      
          2
          宣告式 IaC
          寫描述檔、由工具 apply
          state 檔記錄已建資源
          模組一
      
      
          3
          環境分離
          同一份模組套用多環境
          各環境獨立 state
          模組四
      
      
          4
          PR 流程治理
          變更走 PR、CI 自動 plan
          state + 版控歷史 + 審查紀錄
          模組七
      
  

第 0 階：Console 手動
所有環境的起點，也是該優先離開的一階。特徵是真實狀態只存在雲端，沒有任何離線描述，所以無法 review、無法重建、無法回答「這個環境長什麼樣」。它不是錯誤的起點，是還沒鋪地基的起點。
問自己兩個問題：「我們的 VPC 長什麼樣」能不能不打開 Console 就回答？「上一次 security group 什麼時候改過」能不能不翻 CloudTrail 就查到？兩題都要靠手動查，就還在第零階。停在這一階的環境怎麼盡量做好，見模組負一：還沒有 infra 的手動環境。
第 1 階：腳本化
把建立動作寫成 CLI 或 shell 腳本，比手動可重複，但腳本只描述「怎麼建」，不追蹤「現在有什麼」。重跑同一支腳本可能重複建立或報錯，因為它不知道資源已經存在。
這一階的常見陷阱是誤以為「有腳本就等於有 IaC」。差別在狀態這塊地基——一份 setup.sh 能把環境從零建起來，但它回答不了「跑完後環境裡有哪些資源」「哪些資源是這個腳本建的、哪些是之前手動建的」「如果腳本裡的設定改了，下次重跑會不會把現有資源改壞」。這些都是 state 要解的問題。辨認自己在哪一階的方式是試一次：刪掉某個資源後重跑腳本，能自動把它補回來而不影響其他資源，那就已經在接近第 2 階的行為；重跑會報「already exists」錯誤或重複建立，就還在第 1 階。
第 2 階：宣告式 IaC
地基真正成形的一階：用 Terraform / OpenTofu 這類工具寫下「環境應該長什麼樣」，工具負責比對現況與描述、算出差異再套用。state 檔在這裡誕生，成為「目前納管了哪些資源」的事實來源。
怎麼知道自己在第 2 階
試回答一個問題：能不能從程式碼把整個環境在另一個帳號重建出來？「可以，apply 一次就好」代表 IaC 覆蓋率足夠。「大部分可以，但有些東西還是要手動補」——那些手動補的部分就是下一批該 import 的資源。另一個觀察角度：跑 terraform plan 時如果出現大量 drift（state 與現實不符），代表有人繞過 IaC 直接在 Console 改東西，Console 唯讀紀律在鬆動。工具選型與 state 管理的具體做法在模組一：最小可行 IaC。
第 3 階：環境分離
把同一份描述模組化，套用到 dev / staging / production 等多個環境，各自獨立 state。它解決的問題是「在 staging 驗證過的變更，能用同一套描述安全地推到 production」。
判讀訊號：dev 和 prod 的設定差異是否全部表達在參數裡、還是散落在不同的 code 分支中。如果 prod 目錄裡有一段 dev 目錄沒有的 code，那段 code 就是從來沒在低環境驗證過的生產設定——這是漂移的起點。另一個訊號：如果部署到 staging 和部署到 production 走的是兩條不同的 pipeline 或手動流程，代表環境分離只做了一半。完整切法在模組四：環境分離與模組化。
第 4 階：PR 流程治理
把 infra 變更接上和應用程式碼相同的協作流程：變更走 pull request，CI 自動跑 plan 把預期差異貼上來，人審查後才 apply。到這一階，infra 的每次變更都有提案、審查、歷史與回退點。
用兩個問題定位：任意一次 infra 變更，能不能在 git log 裡找到對應的 PR、看到 plan 輸出、知道誰 review 的？如果某些變更是直接在 main 上 push 的、或是某人在本地 apply 的，代表流程有漏洞。更進一步：主要負責 infra 的人請假時，其他人能不能只靠讀 repo 就理解現狀並安全地改一個小設定？完整的治理護欄在模組七：infra 走 PR 流程。
階梯不是單向命令
這條階梯是一把對齊現況的尺，用來判斷某項資源該停在哪一階，不是越高越好的單向命令。停在哪一階的依據是務實節奏——一個只有三個人、五個資源的早期團隊，強上第四階的 PR 流程，review 成本可能超過它擋下的風險。反過來，一個已經有二十個人在改 infra 的團隊，停在第二階不走 PR，就是在賭每次 apply 都不會出錯。
早期新創的務實節奏
早期團隊的合理目標是「地基類資源先上到階梯第 2 階，應用層資源容許暫時留在低階」，而不是一步衝到第 4 階。資源有限、需求還在劇烈變動的階段，把全部資源都套上完整治理流程，收益正的機率不高——治理的固定成本會壓到本來就稀缺的開發頻寬。
判斷節奏的依據是「這項資源的形狀穩不穩、動它的代價高不高」：

  
      
          資源類型
          形狀穩定度
          改錯代價
          判準
      
  
  
      
          VPC / subnet
          高
          極高
          day 1 進 IaC
      
      
          IAM role / policy
          高
          極高
          day 1 進 IaC
      
      
          state backend
          高
          極高
          day 1 進 IaC
      
      
          RDS（已穩定的）
          中高
          極高
          形狀確定後立刻進
      
      
          對外 LB
          中
          高
          開始有流量就進
      
      
          應用層 EC2 / ECS
          低到中
          中
          開始被依賴或第二人要改時進
      
      
          測試用臨時資源
          低
          低
          可以留在手動，設 tag 方便清理
      
  

day 1 鐵律
網路拓撲、身分權限、state 後端這三類地基資源，一旦長歪回頭改的代價極高，值得 day 1 就進 IaC——這是少數接近「該照做」的硬判準，因為它牽涉安全邊界：

VPC / subnet：CIDR 一旦確定、subnet 分配出去，改地址範圍幾乎等於重建整個網路（見模組三）
IAM role / policy：權限模型被多個服務引用後，改動任一條的影響範圍是整個授權體系（見模組二）
state backend：state 的存放位置與鎖機制如果第一天沒設好，後續 state migration 失敗可能讓工具失去對所有資源的記憶（見模組一）

反過來，一個還在每週改三次規格的功能用的運算資源，過早凍進嚴格流程反而拖慢試錯。這時容許它手動，但設一條 tripwire：當它開始被線上流量依賴、或開始有第二個人需要改它時，就是把它納管的時機。
tripwire 的操作方式是在建立資源時就決定「觸發納管的條件」，而非等到某天靈感來了才想到要 import。例如：一台跑開發用途的 EC2，建立時在內部文件標記「當這台開始接 staging 或 production 流量時納管」；一個 S3 bucket 正在測試用，標記「當開始存正式用戶上傳的檔案時納管」。tripwire 讓「什麼時候該進 IaC」變成一個可追蹤的條件，而非一個持續被拖延的意願。
兩個反向誤判
過度設計和放任手動是這個階段的兩個反向誤判。
過度設計的訊號：環境只有五個資源，卻已經有多層抽象模組和還用不到的多環境結構，維護抽象的時間比省下的時間多。常見的觸發是照搬最佳實踐文章的全部教條——三層 module 嵌套、Terragrunt 全家桶、每個資源都有 for_each——結果團隊裡只有一個人看得懂這套結構。對這類過度設計的自測是：「如果今天不做這個抽象，三個月後補的成本是多少？」如果答案是花一小時就能補，那就三個月後再說。
放任手動的訊號：每次有人問「這個怎麼建的」都只能去翻某個人的記憶，地基債務在無聲累積。放任手動的常見藉口是「我們還在早期、先把功能做出來再說」——這句話在創業前三個月合理，但如果三個月後還在這麼說、而環境已經有二十個資源、三個人在改，債就開始複利了。
務實節奏就是在這兩者之間，讓地基先穩、讓應用層保留試錯彈性，再隨著形狀固定逐項往階梯上推。
跨分類引用

→ 模組負一：還沒有 infra 的手動環境：階梯第 0 階的環境怎麼盡量做好
→ 模組一：最小可行 IaC：地基資源跨上成熟度階梯第 2 階的最小路徑
→ 模組二：身分與憑證地基：身分層的權限收斂與憑證生命週期
→ 模組三：網路地基：網路層的隔離、路由與 security group 設計
→ 模組四：環境分離與模組化：成熟度階梯第 3 階的切法
→ 模組五：核心服務上 IaC：運算與儲存資源的 IaC 描述
→ 模組六：可觀測性與 log：可觀測性同生命週期管理
→ 模組七：infra 走 PR 流程：成熟度階梯第 4 階的治理護欄
→ 模組八：治理好習慣：殭屍資源盤點與 tagging 規範
→ 模組九：怎麼把 infra 推動起來：地基的價值怎麼用商業語言講給上層聽




Runtime 版本升級
Fri, 26 Jun 2026 00:00:00 +0000
Runtime 版本升級改變的是既有程式碼的執行環境。程式碼是針對某個版本的行為寫的——函式存不存在、預設值是什麼、型別檢查嚴不嚴格——新版本可能移除函式、改變預設行為、引入更嚴格的型別系統。升級的工作量不在「切換版本」這個動作本身（多數環境只需要改一個設定），而在「讓既有程式碼在新版本下行為正確」的驗證與修正。
本篇以 PHP 為主要範例（legacy 升級最常見的情境），Node.js 和 Python 的對應工具在各段併列。
相容性評估
升級前要先知道「現有程式碼跟新版本有多少不相容」。不相容的類型分四種：

  
      
          類型
          範例（PHP 7→8）
          影響
      
  
  
      
          移除的函式
          each()、create_function()、mysql_* 系列
          呼叫直接 fatal error
      
      
          改變的預設行為
          error_reporting 預設含 E_DEPRECATED、字串比較更嚴格
          行為靜默改變、不一定報錯
      
      
          更嚴格的型別
          內部函式的參數型別檢查從警告升級為 TypeError
          之前能跑的呼叫現在拋例外
      
      
          擴充模組可用性
          json 從可選變內建、mcrypt 已移除
          部分功能無法使用
      
  

PHP 相容性掃描
PHPCompatibility 是 PHP_CodeSniffer 的規則集，可以自動掃描程式碼裡哪些寫法在目標版本不相容：





1# 安裝
2composer global require phpcompatibility/php-compatibility
3
4# 掃描：目標版本 8.0
5phpcs --standard=PHPCompatibility \
6  --runtime-set testVersion 8.0 \
7  --extensions=php \
8  -p \
9  src/
掃描結果會列出每一處不相容的位置、原因和嚴重度。常見的命中包括：





1FILE: src/legacy/Database.php
2----------------------------------------------------------------------
3FOUND 3 ERRORS:
4 42 | ERROR | Function mysql_connect() is removed since PHP 7.0
5 89 | ERROR | Function each() is removed since PHP 8.0
6156 | ERROR | Curly brace access syntax is deprecated since PHP 7.4
7----------------------------------------------------------------------
php -l 可以做基本的語法檢查，但它只抓語法錯誤、抓不到 deprecated 函式和行為變更。PHPCompatibility 掃描的覆蓋面更廣。
PHP 升級的高頻修改項

  
      
          項目
          PHP 5.6→7.x
          PHP 7.x→8.x
      
  
  
      
          資料庫連線
          mysql_* → mysqli_* 或 PDO
          —
      
      
          陣列遍歷
          —
          each() → foreach
      
      
          字串存取
          —
          $str{0} → $str[0]
      
      
          錯誤處理
          set_error_handler 行為變更
          內部函式 TypeError 取代 warning
      
      
          建構函式
          同名建構函式 deprecated
          同名建構函式 removed
      
      
          正則表達式
          ereg_* → preg_*
          —
      
      
          加密
          mcrypt_* → openssl_* 或 sodium
          —
      
  

Node.js 相容性掃描





1# 用 nvm 切換版本後跑測試
2nvm install 20
3nvm use 20
4npm test
5
6# 檢查 package.json 的 engines 欄位
7cat package.json | jq '.engines'
Node.js 的 breaking change 集中在 V8 引擎行為（Buffer 建構式、fs 的 callback 簽章）和原生模組的 ABI 相容性。如果專案用了原生模組（node-gyp 編譯的），版本升級後要重新 npm rebuild。
Python 相容性掃描





1# Python 2→3：用 2to3 掃描
22to3 --no-diffs -w src/
3
4# Python 3.x 小版本：用 pyupgrade
5pip install pyupgrade
6pyupgrade --py310-plus src/**/*.py
Python 2→3 的修改量通常很大（print 語法、unicode 處理、dict 方法），是接近重寫等級的升級。Python 3.x 之間的升級相對溫和，主要是 deprecation 移除和 typing 語法的演進。
本地驗證
相容性掃描找出的是靜態分析能偵測的不相容。執行期的行為變更（如字串比較規則改變、排序穩定性改變）只有跑起來才看得到。
建立目標版本的本地環境
用 Docker 建一個精確匹配目標版本的環境：





 1services:
 2  app:
 3    image: php:8.2-apache
 4    volumes:
 5      - ./src:/var/www/html
 6    ports:
 7      - "8080:80"
 8  db:
 9    image: mysql:8.0
10    environment:
11      MYSQL_ROOT_PASSWORD: localdev
12      MYSQL_DATABASE: app
如果不用 Docker，MAMP Pro 或 Laragon 可以切換 PHP 版本。關鍵是本地環境的 runtime 版本要跟升級目標完全一致——PHP 8.0 跟 8.2 之間也有差異。
驗證策略
有測試套件的專案跑測試套件。沒有測試套件的專案（legacy 專案的常態）按照這個優先序手動驗證：

首頁能載入：最基本的 smoke test，確認 PHP 不 fatal error
登入流程：session 處理是版本升級最常出問題的區域
資料庫操作：CRUD 的每一種至少各跑一次
金流 / 第三方 API：callback URL 和 API 呼叫是否正常
表單提交：file upload、驗證邏輯

PHP 升級時把 error_reporting 開到最大：





1// 開發環境設定（不要在 prod 開）
2error_reporting(E_ALL);
3ini_set('display_errors', '1');
所有 notice、warning、deprecation 都要修——它們在下一個版本可能升級為 error。
第三方依賴相容性





1# Composer：檢查哪些套件需要更新
2composer outdated
3
4# 檢查各套件是否支援目標 PHP 版本
5composer why-not php 8.2
composer why-not 會列出哪些套件的 require.php 限制不允許目標版本。這些套件要先升級到支援新版本的版號，才能升 PHP。
如果某個套件已經不再維護且不支援新 PHP 版本，要評估替代方案或 fork 修改。這個評估的工作量可能佔整個升級的大部分時間。
分批部署策略
有獨立環境控制的情境（VPS / 雲端）
最安全的策略是建一套平行環境跑新版本：

用新 PHP 版本建一台新的 VM 或容器
部署相同的程式碼
匯入 prod 資料庫的副本
在新環境跑完整驗證
DNS 或 load balancer 切換流量到新環境
舊環境保留一段時間作為 rollback 目標

rollback 是把流量切回舊環境。舊環境在確認新環境穩定之前不要關——保留期至少一週。
面板管理主機（無 SSH）的情境
面板管理主機（cPanel / Plesk）的 PHP 版本切換通常是 per-domain 的設定：

cPanel：MultiPHP Manager，選域名 → 選 PHP 版本 → Apply
Plesk：PHP Settings → PHP version 下拉選單

切換是即時生效的，rollback 也是即時的（選回舊版本）。但沒有「平行環境驗證」的能力——除非主機商提供 staging subdomain 可以先測。
面板管理主機的升級策略：

如果有 staging subdomain：先在 staging 切換版本、驗證、再切 prod
如果沒有：選流量最低的時段切換（如凌晨），切換後立刻驗證關鍵流程，出問題立刻切回
切換前備份（FTP mirror + DB dump），確認 rollback 路徑存在

WordPress / 框架的版本矩陣
WordPress 和主流框架有明確的 PHP 版本支援矩陣。升級 PHP 前要先確認框架版本是否支援目標 PHP 版本：

  
      
          框架
          查詢方式
      
  
  
      
          WordPress
          官方需求頁
      
      
          Laravel
          各版本 composer.json 的 require.php
      
      
          Symfony
          Release and support 頁面
      
  

如果框架不支援目標 PHP 版本，要先升級框架。框架升級和 PHP 升級不要同時做——先升框架、驗證穩定、再升 PHP，每一步都有獨立的 rollback 點。
常見的升級陷阱
Session 序列化格式
PHP 的 session 序列化格式在某些版本之間有變更。版本切換後舊 session 檔案可能無法反序列化，使用者會被強制登出。處理方式：

在維護窗口切換版本（使用者預期重新登入）
或在切換前清除所有 session 檔案

opcache 快取
PHP 的 opcache 會快取編譯後的 bytecode。版本切換後如果 opcache 沒清，可能用舊版本編譯的 bytecode 跑在新版本上。切換後的第一件事：





1# CLI 方式清除（如果有 SSH）
2php -r "opcache_reset();"
3
4# 或重啟 PHP-FPM / Apache
5systemctl restart php8.2-fpm
Composer 的 PHP 版本鎖定
composer.lock 裡的套件版本是根據當時的 PHP 版本解析的。PHP 版本變了之後，要重新 composer update 讓 Composer 用新版本重新解析依賴。但 composer update 可能升級其他套件——較安全的做法是 composer update --lock 只更新 lock file 的 metadata、不升級套件版本。
隱性的行為變更
PHP 8.0 起，字串跟數字的比較規則改了（0 == "foo" 從 true 變 false）。這類變更不會報錯、不會拋例外，程式碼照跑但行為不同。靜態分析抓不到，只有業務邏輯測試能覆蓋。
如果沒有測試套件，至少在切換後的一週內密切監控錯誤日誌和業務指標（訂單數、登入數、API 錯誤率），用業務指標的異常作為行為變更的偵測手段。
時程與管理層溝通

  
      
          升級類型
          典型時程
          主要成本來源
      
  
  
      
          PHP 小版本（8.0→8.2）
          2-5 天
          依賴更新 + 測試
      
      
          PHP 跨大版本（7.4→8.x）
          1-2 週
          函式替換 + 行為驗證
      
      
          PHP 跳代（5.6→8.x）
          4-8 週
          大量程式碼修改 + 框架升級
      
      
          Node.js 大版本
          3-5 天
          原生模組重編 + API 變更
      
      
          Python 2→3
          8-16 週
          接近重寫等級
      
  

向管理層溝通時要說明：「升級 runtime 版本不只是在伺服器改一個設定。程式碼裡用到的函式和行為在新版本有不同的定義，需要逐一修改和驗證。時程取決於程式碼用了多少舊版本的專屬功能。」
成本參考：PHP 版本升級本身的工具和環境不花錢（PHPCompatibility 開源、Docker 免費、cPanel 版本切換內建）。成本全在工程師時間。
跨分類引用

→ 升級的共通操作框架：四階段模型（評估 → 平行環境 → 切換 → 退役）
→ Legacy PHP 的安全盤點：PHP 版本風險評估與漏洞掃描
→ 程式碼版控與 FTP 部署紀律：升級前的 Git 基準線與 rollback 策略




Security Group 稽核與清理
Fri, 26 Jun 2026 00:00:00 +0000
Security group 的規則會隨時間累積：某次救火加了一條 0.0.0.0/0、某個已下線的服務留下沒人認領的 SG、某條規則的用途只存在建立者的記憶裡。稽核的目標是把這些累積的規則攤開來，逐條回答「這條規則還有在用嗎、來源該這麼寬嗎」，然後安全地清理不需要的部分。
匯出所有 security group 與規則
稽核的第一步是把當前所有 SG 和它們的規則拉出來存成可查詢的 JSON。這份 JSON 是後續所有分析的輸入，也是「稽核那天環境長什麼樣」的快照。





 1aws ec2 describe-security-groups \
 2  --query 'SecurityGroups[].{
 3    GroupId:GroupId,
 4    GroupName:GroupName,
 5    VpcId:VpcId,
 6    Description:Description,
 7    IngressRules:IpPermissions,
 8    EgressRules:IpPermissionsEgress,
 9    Tags:Tags
10  }' \
11  --output json > sg-inventory-$(date +%Y%m%d).json
這份檔案通常幾百 KB 到幾 MB，存進 repo 的 inventory/ 目錄，方便日後比對變化。如果帳號有多個 region，每個 region 各跑一次並標明 region。
用 jq 快速看有多少 SG 和總規則數：





1jq 'length' sg-inventory-*.json
2jq '[.[].IngressRules | length] | add' sg-inventory-*.json
找出 0.0.0.0/0 全開的入站規則
0.0.0.0/0 入站代表允許整個網際網路連到這個埠。對外 ALB 的 80/443 開 0.0.0.0/0 是設計意圖，但資料庫埠（5432、3306、6379）、SSH（22）或管理埠開 0.0.0.0/0 是需要收斂的目標。





1jq -r '.[] | select(.IngressRules[]?.IpRanges[]?.CidrIp == "0.0.0.0/0") |
2  {GroupId, GroupName, OpenPorts: [.IngressRules[] |
3    select(.IpRanges[]?.CidrIp == "0.0.0.0/0") |
4    "\(.FromPort // "all")-\(.ToPort // "all")/\(.IpProtocol)"
5  ]}' sg-inventory-*.json
輸出會列出每個有全開規則的 SG 和對應的 port 範圍。對每一條命中，判斷：

  
      
          場景
          全開是否合規
          處理方式
      
  
  
      
          ALB 的 80/443
          合規 — 負載平衡器的職責就是接收公開流量
          保留，標記為已審查
      
      
          SSH (22) 或 RDP (3389)
          需收斂 — 管理埠暴露在持續的暴力掃描下
          改用 SSM Session Manager 或限縮到辦公室 IP
      
      
          資料庫埠 (5432/3306/6379)
          需收斂 — 資料庫不應從公網可達
          改為只允許應用層 SG 來源
      
      
          全埠 (0-65535 / -1)
          需收斂 — 等於沒有防火牆
          拆成具體需要的埠和來源
      
  

IPv6 的 ::/0 也要一併查：





1jq -r '.[] | select(.IngressRules[]?.Ipv6Ranges[]?.CidrIpv6 == "::/0") |
2  .GroupId' sg-inventory-*.json
找出未使用的 security group
未使用的 SG 是沒有任何網路介面（ENI）掛載的 SG。它不影響任何正在運行的資源，但佔用 SG 配額（每個 VPC 預設上限 2500 個），而且它的規則會讓稽核清單更長、更難判讀。





1aws ec2 describe-network-interfaces \
2  --query 'NetworkInterfaces[].Groups[].GroupId' \
3  --output text | tr '\t' '\n' | sort -u > sg-in-use.txt
4
5jq -r '.[].GroupId' sg-inventory-*.json | sort -u > sg-all.txt
6
7comm -23 sg-all.txt sg-in-use.txt > sg-unused.txt
8cat sg-unused.txt
sg-unused.txt 裡列出的就是當前沒有任何 ENI 引用的 SG。注意幾個例外：

default SG：每個 VPC 都有一個 default SG，即使未使用也無法刪除，可以跳過
被其他 SG 引用：某個 SG 雖然沒有掛在任何 ENI 上，但被另一個 SG 的入站規則引用為 source — 刪除它會讓引用方的規則失效
被 launch template 或 auto-scaling group 引用：新啟動的實例會套用這個 SG，刪了之後新實例啟動會失敗

依賴檢查：刪除前確認沒有間接引用
直接刪一個 SG 之前，確認沒有其他資源引用它。AWS 在 SG 被引用時會擋住刪除（報 DependencyViolation），但提前知道引用方可以避免白跑一趟。





 1SG_ID="sg-0abc123"
 2
 3# 哪些 SG 的入站規則引用了這個 SG 作為來源
 4jq -r --arg sg "$SG_ID" '.[] |
 5  select(.IngressRules[]?.UserIdGroupPairs[]?.GroupId == $sg) |
 6  "\(.GroupId) (\(.GroupName)) 的入站規則引用了 \($sg)"' sg-inventory-*.json
 7
 8# 哪些 ENI 掛了這個 SG
 9aws ec2 describe-network-interfaces \
10  --filters Name=group-id,Values=$SG_ID \
11  --query 'NetworkInterfaces[].{Id:NetworkInterfaceId,Desc:Description,Status:Status}' \
12  --output table
13
14# 哪些 RDS instance 使用這個 SG
15aws rds describe-db-instances \
16  --query "DBInstances[?VpcSecurityGroups[?VpcSecurityGroupId=='$SG_ID']].[DBInstanceIdentifier]" \
17  --output text
18
19# 哪些 ELB 使用這個 SG
20aws elbv2 describe-load-balancers \
21  --query "LoadBalancers[?SecurityGroups[?contains(@,'$SG_ID')]].[LoadBalancerName]" \
22  --output text
如果所有查詢都回傳空，這個 SG 可以安全刪除。
清理流程：標記 → 通知 → 等待 → 刪除
批量清理不是一次 delete-security-group 的事。安全的流程有四步：
標記候選
對每個要清理的 SG 加一個 tag 標明狀態和預定刪除日期：





1aws ec2 create-tags \
2  --resources sg-0abc123 sg-0def456 \
3  --tags Key=cleanup-status,Value=pending-deletion \
4         Key=cleanup-date,Value=2026-07-10 \
5         Key=cleanup-reason,Value="unused-no-eni-no-reference"
通知
如果 SG 有 owner tag，通知該 owner：「這個 SG 預計在 cleanup-date 刪除，如果仍在使用請回報」。如果沒有 owner tag（多數需要清理的 SG 都沒有），在團隊頻道公告清理清單。
等待
給 7-14 天的寬限期。期間如果有人回報某個 SG 仍在使用，把 cleanup-status 改成 retained 並補上正確的 owner tag。
刪除
寬限期過後，對仍是 pending-deletion 的 SG 執行刪除：





1for sg in $(aws ec2 describe-security-groups \
2  --filters Name=tag:cleanup-status,Values=pending-deletion \
3  --query 'SecurityGroups[].GroupId' --output text); do
4  echo "Deleting $sg"
5  aws ec2 delete-security-group --group-id $sg 2>&1
6done
DependencyViolation 代表有遺漏的引用，跳過該 SG 並重新調查。
自動化持續治理
手動稽核適合第一次清理，持續治理靠自動化：
AWS Config 規則
restricted-ssh 和 restricted-common-ports 是 AWS Config 的 managed rule，啟用後會持續監控 SG 規則，新增的 0.0.0.0/0 規則會在幾分鐘內被標記為 non-compliant。
Prowler 定期掃描
在 CI 排程中定期跑 Prowler，掃描結果存進 repo 作為趨勢追蹤：





1prowler aws --services ec2 --checks ec2_securitygroup_allow_ingress_from_internet_to_any_port \
2  -M json-ocsf -o inventory/prowler/
PR 流程攔截
模組七的 checkov/tfsec 護欄在 PR 階段攔截新增的 0.0.0.0/0 規則。這是把治理從「事後稽核」推到「事前攔截」的關鍵一步：稽核能發現已存在的問題，PR 護欄能阻止新問題被引入。
AWS Security Hub 啟用 Foundational Security Best Practices 標準後，會自動聚合 SG 相關的合規 finding 並提供統一 dashboard，適合作為管理層報告的來源。Security Hub 整合了 Config rules 和 Prowler 各自能發現的問題，提供單一窗口追蹤合規趨勢。
稽核節奏
第一次稽核最花時間（半天到一天，取決於 SG 數量）。之後的節奏取決於環境變動速度：

  
      
          環境類型
          建議節奏
          理由
      
  
  
      
          有 PR 流程 + checkov 的環境
          每季
          新規則已被 PR 攔截，稽核主要看 drift
      
      
          有 IaC 但沒有 PR 護欄
          每月
          手動 apply 可能繞過審查
      
      
          全手動環境
          每月或每次事故後
          沒有任何自動攔截機制
      
  

稽核產出一份報告：SG 總數、0.0.0.0/0 規則數、未使用 SG 數、上次稽核以來的變化。這份報告可以作為治理進度的量化指標，納入月報。
跨分類引用

→ 網路地基 — security group 設計：SG 的設計原則（最小開放、group 互相引用）
→ infra 走 PR 流程：checkov/tfsec 在 PR 階段攔截 0.0.0.0/0
→ 治理好習慣 — tagging：tag 是識別 SG owner 和清理候選的依據




State（IaC 狀態檔）
Fri, 26 Jun 2026 00:00:00 +0000
State 是 IaC 工具用來記錄「上一次 apply 之後，每個資源在雲端長什麼樣」的快照。它的作用是讓工具能算出「程式碼描述的目標」與「雲端上的現況」之間的最小差異。沒有 state，工具每次都得把所有資源重新查一遍才知道該不該動，而且無法分辨「這個資源是我建的、該由我管」還是「別人手動建的、不歸我管」。
State 裡通常含有資源的真實 ID、相依關係，以及部分敏感屬性（例如資料庫的初始密碼、private key 的輸出值）。這帶來兩條硬邊界：state 不能進 git（含敏感值，推進版控等於把密碼寫進每個 clone 的歷史）、state 不能只放本地（本地 state 的失敗模式是記憶綁在一台筆電上，多人並行 apply 會互相覆蓋）。
概念位置
State 是 IaC 的記憶機制。模組一：最小可行 IaC 的核心主題就是怎麼把 state 管好——remote backend、加密、鎖機制。State 管不好，後續所有 IaC 操作都建立在不可靠的記憶上。
可觀察訊號
State 出問題的訊號包括：terraform plan 顯示大量非預期的變更（state 與現實不一致）、兩個人同時 apply 後環境出現矛盾狀態、state list 的資源數與 Console 上看到的不一致。
設計責任
管理 state 時要決定：

存放位置：S3 + DynamoDB（自管）vs Terraform Cloud（託管），取捨在維運負擔 vs 控制權
加密：state 含敏感值，落地加密（S3 SSE）是底線
版本保留：bucket versioning 讓 state 損壞時能回捲到上一個正確版本
鎖機制：防止兩個人同時 apply 互相覆蓋
分割策略：一個大 state vs 多個小 state，取捨在引用便利性 vs 影響範圍控制

鄰卡

IaC — state 是 IaC 工具的核心依賴
Drift — state 與現實的落差



Terraform CI Pipeline 設定指南
Fri, 26 Jun 2026 00:00:00 +0000
Terraform 的 PR 流程要發揮價值，plan 和 apply 需要在 CI 裡自動執行，而非在工程師的本機跑。本篇用 GitHub Actions 建立一條完整的 pipeline：PR 開啟時跑檢查和 plan、plan 結果貼回 PR comment 讓 reviewer 看、合併到主幹後才 apply。整條管線的 credential 用 OIDC 取得短期 token（見 OIDC Trust Policy 設定），不存任何長期 key。
Pipeline 的兩個階段
整條 pipeline 分成兩個觸發時機，各自承擔不同責任：

  
      
          階段
          觸發條件
          責任
          失敗時
      
  
  
      
          Plan
          PR 開啟或更新
          檢查格式、驗證語法、靜態掃描、產出 plan diff
          PR 無法合併
      
      
          Apply
          合併到 main
          把 plan 過的變更套用到雲端
          需要人工介入
      
  

兩個階段用不同的 IAM role：plan role 只有唯讀權限（能跑 terraform plan 但不能改任何資源），apply role 有寫入權限。這個分離確保 PR 階段的任何 code 都沒辦法偷偷改動雲端資源。
Plan 階段的完整 workflow





 1name: Terraform Plan
 2on:
 3  pull_request:
 4    paths:
 5      - 'infra/**'
 6
 7permissions:
 8  id-token: write
 9  contents: read
10  pull-requests: write
11
12jobs:
13  plan:
14    runs-on: ubuntu-latest
15    defaults:
16      run:
17        working-directory: infra/environments/prod
18
19    steps:
20      - uses: actions/checkout@v4
21
22      - uses: aws-actions/configure-aws-credentials@v4
23        with:
24          role-to-assume: arn:aws:iam::123456789012:role/infra-plan
25          aws-region: ap-northeast-1
26
27      - uses: hashicorp/setup-terraform@v3
28        with:
29          terraform_version: 1.9.0
30
31      - name: Format check
32        run: terraform fmt -check -recursive -diff
33
34      - name: Init
35        run: terraform init -input=false
36
37      - name: Validate
38        run: terraform validate
39
40      - name: TFLint
41        uses: terraform-linters/setup-tflint@v4
42        with:
43          tflint_version: latest
44      - run: tflint --recursive --format compact
45
46      - name: Plan
47        id: plan
48        run: |
49          terraform plan -no-color -input=false -out=tfplan \
50            -detailed-exitcode 2>&1 | tee plan-output.txt
51        continue-on-error: true
52
53      - name: Comment plan on PR
54        uses: actions/github-script@v7
55        with:
56          script: |
57            const fs = require('fs');
58            const plan = fs.readFileSync('infra/environments/prod/plan-output.txt', 'utf8');
59            const truncated = plan.length > 60000
60              ? plan.substring(0, 60000) + '\n\n... (truncated)'
61              : plan;
62            await github.rest.issues.createComment({
63              owner: context.repo.owner,
64              repo: context.repo.repo,
65              issue_number: context.issue.number,
66              body: `### Terraform Plan\n\`\`\`\n${truncated}\n\`\`\``
67            });
68
69      - name: Fail if plan errored
70        if: steps.plan.outcome == 'failure'
71        run: exit 1
各步驟的職責
Format check 驗證 HCL 是否符合標準排版。它不影響功能，但消除 diff 噪音——排版不一致時 PR diff 會混入純格式變更，reviewer 分不清哪些是邏輯改動。-diff flag 讓 CI 輸出具體哪幾行不符合，作者在本地跑 terraform fmt 就能修。
Init 初始化 provider 和 backend。-input=false 避免 CI 卡在等待互動式輸入。如果 backend 設定錯了（bucket 不存在、權限不足），這一步就會失敗，不會跑到後面浪費時間。
Validate 檢查 HCL 的語法和內部一致性——變數沒宣告、型別不匹配、必填參數缺漏。它不連線雲端，只讀 code，所以不需要 AWS credential 也能跑（但放在 init 之後是因為 validate 需要 provider schema）。
TFLint 做 provider 層的正確性檢查：instance type 在該 region 不存在、已棄用的參數、命名不符規範。它補的是 validate 抓不到的「語法對但值不對」的問題。
Plan 是整條 pipeline 的核心產出。-detailed-exitcode 讓 exit code 區分三種狀態：0 = 無差異、1 = 錯誤、2 = 有差異。-out=tfplan 把 plan 結果存成二進位檔，apply 階段可以直接用這份 plan 執行，避免 plan 和 apply 之間的時間差導致不一致。
Comment 把 plan 輸出貼回 PR，reviewer 看 code diff 的同時看到 plan 的實際變更。plan 輸出可能很長（幾百行），超過 GitHub comment 上限時截斷，但保留開頭（通常包含 add/change/destroy 的摘要行）。
Apply 階段





 1name: Terraform Apply
 2on:
 3  push:
 4    branches: [main]
 5    paths:
 6      - 'infra/**'
 7
 8permissions:
 9  id-token: write
10  contents: read
11
12jobs:
13  apply:
14    runs-on: ubuntu-latest
15    environment: production
16    defaults:
17      run:
18        working-directory: infra/environments/prod
19
20    steps:
21      - uses: actions/checkout@v4
22
23      - uses: aws-actions/configure-aws-credentials@v4
24        with:
25          role-to-assume: arn:aws:iam::123456789012:role/infra-apply
26          aws-region: ap-northeast-1
27
28      - uses: hashicorp/setup-terraform@v3
29        with:
30          terraform_version: 1.9.0
31
32      - name: Init
33        run: terraform init -input=false
34
35      - name: Plan (verify)
36        run: terraform plan -no-color -input=false -detailed-exitcode
37
38      - name: Apply
39        run: terraform apply -auto-approve -input=false
environment protection rule
environment: production 這一行啟用 GitHub 的環境保護功能。在 repo 的 Settings → Environments → production 設定：

Required reviewers：指定至少一個人 approve 才能執行 apply job
Wait timer：合併後等 N 分鐘才開始 apply（給人反應時間）
Deployment branches：限定只有 main branch 能觸發

這層保護讓高風險的變更（plan 顯示 destroy 或 replace）在 apply 前多一道人工確認。日常低風險變更（加一個 tag、調一個參數）可以直接通過。取捨點是：每次 apply 都要人按確認會拖慢頻繁的小變更，可以用 deployment rule 的條件只攔 production 環境。
Apply 階段重跑 plan 的理由
apply 之前重跑一次 plan，是為了驗證合併後的現實跟 PR review 時看到的一致。PR 從開啟到合併可能隔了幾小時或幾天，期間有人可能手動改了雲端資源（drift）或別的 PR 先 apply 了。重跑 plan 確認差異跟預期一致，不一致就停下來而非盲目 apply。
如果使用了 plan 階段的 -out=tfplan 保存 plan 檔，apply 可以改為 terraform apply tfplan 直接執行已 review 過的 plan。代價是 plan 檔需要跨 job 傳遞（GitHub Actions 的 artifact），且 plan 檔有時效——state 在 plan 之後被修改，apply 會拒絕執行。
多環境的 pipeline 設計
管理 dev / staging / prod 三個環境時，pipeline 有兩種常見結構：
單 workflow 加 matrix：一份 YAML 用 strategy.matrix 跑三個環境，每個環境有自己的 working directory 和 IAM role。好處是維護一份 YAML；代價是三個環境的 plan 都在同一次 PR run 裡，reviewer 要看三份 plan 輸出。
每環境獨立 workflow：三份 YAML 各自觸發在對應環境目錄的變更上（paths: ['infra/environments/dev/**']）。好處是只有改到的環境才跑、PR comment 乾淨；代價是三份 YAML 有重複。
多數團隊起步時用單 workflow + matrix，環境數量超過三個或各環境的 apply 策略不同（dev 自動、prod 要 approval）時切到獨立 workflow。
安全邊界
CI pipeline 是 infra 變更的自動化執行者，它的安全性等同於 apply role 的權限。幾個邊界要守住：
OIDC claim 收斂：apply role 的 trust policy 只允許特定 repo 的 main branch 假扮（見 OIDC Trust Policy 設定）。如果 claim 只驗 repo 不驗 branch，任何人在 feature branch 推一個修改過的 workflow 就能觸發 apply。
Workflow 修改的 review：.github/workflows/ 底下的 YAML 變更應該跟 infra code 一樣走 PR review。修改 workflow 等於修改 pipeline 的行為——加一個 terraform destroy step 就能在合併時清掉整個環境。GitHub 的 CODEOWNERS 功能可以強制特定人 review workflow 變更。
Secret 與 environment variable：OIDC 取代了存在 repo secrets 裡的 access key，但 workflow 可能還用到其他 secret（Terraform Cloud token、Slack webhook URL）。這些 secret 要限定在特定 environment 才能存取，不開放給所有 branch。
本篇聚焦 GitHub Actions。如果團隊選擇 Atlantis（常駐服務、內建 state lock 與 apply 語意），見主文章的 Atlantis 段的選型討論。
跨分類引用

→ OIDC Trust Policy 設定：pipeline 的 credential 來源
→ checkov / tfsec 規則配置：pipeline 裡的靜態安全掃描怎麼配
→ infra 走 PR 流程與自動化護欄：pipeline 背後的審查原則
→ 模組四：環境分離與模組化：多環境的目錄結構決定 pipeline 的 working directory




成本可見性與最小可行治理節奏
Fri, 26 Jun 2026 00:00:00 +0000
治理習慣的責任是讓基礎設施在規模長大後仍然可被盤點、可被追責、可被回收。資源歸屬靠 tagging、密鑰安全靠 secret 管理（見 tagging 與 secrets），本篇處理兩個後續問題：成本怎麼拆解到擁有者，以及治理規範的節奏怎麼拿捏 — 什麼該第一天就立、什麼等到痛點出現再加。
先界定邊界。成本這一塊分兩層：把資源歸屬到擁有者與用途的地基（tagging、chargeback 的依據）在這裡，運行期怎麼用 reserved instance、spot、rightsizing 去壓低帳單，是 devops 模組八：成本管理 的範圍。
成本可見性：每筆花費都對得到擁有者與用途
成本可見性的目標是讓帳單上的每一筆花費都能回答「這是誰的、為了什麼」。雲帳單預設是一筆按服務類型加總的數字 — EC2 多少、RDS 多少 — 這個視角能告訴你花在哪類資源，卻答不出花在哪個團隊、哪個產品線、哪個功能。當這個問題答不出來，成本就變成一筆沒人負責的公共支出，沒有人有動機去優化自己看不到的帳。
Tag 驅動的成本分攤
把成本拆解到擁有者的地基，正是 tagging。雲廠商的成本分攤工具（AWS Cost Explorer、Cost Allocation Tags、GCP 的 billing label）能用 tag 當分群維度，前提是那些 tag 要先在 billing 後台啟用為「成本分攤標籤（Cost Allocation Tag）」。啟用是一次性設定，之後新建的資源只要帶了這個 tag，費用就會自動歸入對應維度。
啟用後，cost-center 和 owner 就從單純的標籤升級成帳單的可查詢維度：





1# 用 AWS CLI 查某個 cost-center 的月費用
2aws ce get-cost-and-usage \
3  --time-period Start=2026-06-01,End=2026-06-30 \
4  --granularity MONTHLY \
5  --filter '{"Tags":{"Key":"cost-center","Values":["cc-1024"]}}' \
6  --metrics BlendedCost \
7  --group-by Type=TAG,Key=owner
「team-payments 這個月花多少」「staging 環境占總成本幾成」變成一張報表而不是一場會議。
成本異常告警
可見性先於優化，這個順序不能反。看不見的成本無法被歸屬，無法歸屬就無法問責，沒有問責就沒有人去做優化。在可見性建立之後，下一步是設一條成本異常告警：





 1resource "aws_ce_anomaly_monitor" "cost" {
 2  name              = "daily-cost-anomaly"
 3  monitor_type      = "DIMENSIONAL"
 4  monitor_dimension = "SERVICE"
 5}
 6
 7resource "aws_ce_anomaly_subscription" "alert" {
 8  name      = "cost-anomaly-alert"
 9  frequency = "DAILY"
10
11  monitor_arn_list = [aws_ce_anomaly_monitor.cost.arn]
12
13  subscriber {
14    type    = "SNS"
15    address = aws_sns_topic.cost_alerts.arn
16  }
17
18  threshold_expression {
19    dimension {
20      key           = "ANOMALY_TOTAL_IMPACT_ABSOLUTE"
21      values        = ["100"]
22      match_options = ["GREATER_THAN_OR_EQUAL"]
23    }
24  }
25}
當告警觸發時，因為有 tag，可以立刻定位是哪個團隊的哪類資源在漲，而不是面對一個無法拆解到具體團隊或資源類型的總數。常見的成本異常來源：開發者開了一組大型 instance 測試後忘了關、某個 auto-scaling group 的最大值設太高在流量尖峰長出了大量機器、NAT Gateway 被大量出站流量灌到帳單翻倍。這些情境只要 tag 到位，都能在異常告警觸發後幾分鐘內找到根因。
到了「知道誰花多少、接下來怎麼省」這一步 — reserved instance 的承諾折扣、spot 的可中斷算力、閒置資源的 rightsizing 與排程關機 — 就進入 devops 模組八：成本管理 的運行期優化範圍。這一章負責的是讓那些優化「有帳可查、有人可問」。
成本治理在不同規模下的操作形態差異很大。Netflix 把多套關聯式資料庫統一到 Aurora 後成本下降 28%，核心操作是「把資源種類收斂、讓成本歸因的維度減少」——這在 tagging 已經到位的前提下才做得到，見 9.C23 Netflix：Aurora 整併。另一個極端是 Arcjet 用 Redis Streams 取代 managed Kafka，年費從六位數美金降到約 $1k，代價是自行維護 retention 與 consumer group 監控——這個取捨的前提是團隊有能力承擔額外的運維面，見 3.C43 Arcjet：Redis Streams 取代 Kafka。
最小可行節奏：先把地基跑起來，再逐步加
治理的最小可行節奏，是早期只立「拔掉就會痛、補起來很貴」的那幾條規範，其餘留到規模逼出需求時再加。治理機制本身有維護成本 — 每一條策略規則、每一個審批關卡、每一套標籤分類法都要有人維護、有人解釋、有人在它擋錯東西時來救。在團隊還小、資源還少時堆滿企業級治理框架，付出的是當下的速度，換來的是一套還用不到的複雜度。
補救成本曲線
判斷一條治理規範該不該現在就立，看它的「補救成本曲線」— 越晚導入、事後補救的代價越高的規範，越應該提前立：

  
      
          規範
          補救成本曲線
          day-1 該立
          說明
      
  
  
      
          Tagging
          陡峭
          是
          幾百個沒 tag 的資源要回頭考古，建立時順手標只要幾秒
      
      
          Secrets 不進 code
          幾乎垂直
          是
          密鑰一旦進了 git 歷史就無法清除，只能輪替
      
      
          成本分攤維度
          中等
          是（輕量）
          依賴 tagging，tag 立了它就近乎免費啟用
      
      
          Secret 自動輪替
          平緩
          等
          手動輪替在早期可接受，自動化在 secret 數量增多後再投入
      
      
          細緻的審批流程
          平坦
          等
          補救成本低、可以隨時加，早期硬上反而拖慢交付
      
      
          多層級策略引擎（OPA / Sentinel）
          平坦
          等
          等到 tag policy 擋不住的邊界案例出現再引入
      
  

這個曲線給出的節奏是：補救成本陡的從第一天就用 IaC 強制，補救成本平的等到痛點確實出現 — 開始有人手滑誤刪、開始有跨團隊的權限爭議 — 再有針對性地加。那時你也才知道該往哪個方向加。
過度治理的訊號
過度治理跟過度設計是同一類問題，訊號很類似：

建一個測試用的小資源需要走三層審批流程
團隊花在解釋為什麼某個護欄擋錯的時間，比護欄實際擋住的風險還多
策略規則的 exception 清單比規則本身還長
新人第一週的大部分時間花在理解治理框架而非理解業務

這些訊號出現時，該回頭簡化 — 砍掉沒帶來價值的規則、把誤判率高的規則降級為 warning 而非 blocking。治理框架跟程式碼一樣需要重構。
和其他模組的節奏對齊
這個節奏跟模組零的成熟度階梯是同一套思路：基礎設施的治理跟基礎設施本身一樣，是逐級長出來的，不是一次到位設計完的。把規範變成自動護欄的工程（PR 階段擋缺 tag、CI 掃 secret）值得早投入，因為自動化的護欄維護成本低、且越早接管越省人力 — 這部分怎麼落地在模組七：infra 走 PR 流程 展開。
跨分類引用

→ 模組零：infra 是什麼：成熟度階梯的務實節奏思路
→ 模組七：infra 走 PR 流程：tag 合規與 secret 掃描整合進 CI pipeline
→ devops 模組八：成本管理：運行期的成本控制與優化手段




有 SSH 但沒有 IaC 的雲端環境接管
Fri, 26 Jun 2026 00:00:00 +0000
雲端資源存在且正在服務 production 流量，但沒有人能回答「我們有什麼、為什麼這樣設定、改了會影響什麼」。Console 裡有幾十個資源，有些名稱是 test-final-v2，有些沒有名稱，security group 規則不知道哪條還在用，IAM user 清單裡有幾個已離職的人。這是接手全手動雲端環境的典型起點。
接管的操作順序是：先拍下現況（盤點）、再理解結構（依賴）、再收斂風險（credential、備份）、再建立紀律（變更紀錄）、最後才考慮 IaC 導入。每一步都在不改動 production 的前提下進行。
資源盤點：拍下雲端現況
盤點的目標是把「雲端上有什麼」轉成一份可版本控制的清單。這份清單是後續所有操作的事實基礎 — 沒有清單就無法判斷哪些資源重要、哪些可以回收、哪些的設定有風險。
盤點的工具依環境類型不同：

VM 為主（EC2 / GCE） → 先跑 VM 快照與系統清單，再跑 CLI 資源盤點
Managed service 為主（RDS / Lambda / S3） → 直接跑 CLI 資源盤點
混合（VM + managed） → 兩個都跑：先 VM 快照（拍下機器狀態），再 CLI 盤點（拍下所有雲端資源）

用 CLI 拉清單
盤點有三層工具可用，從粗到細：
全貌掃描：先用跨服務工具拿到「到底有多少資源」的量級感。AWS Resource Explorer 在 Console 開啟後可以用搜尋語法跨 region、跨 service 查資源（例如搜 resourcetype:ec2:instance 列出所有 EC2）。Steampipe 是開源的 SQL 介面雲端查詢工具，用 select * from aws_ec2_instance 這類語法查詢，對習慣 SQL 的人比 CLI flag 直覺。兩者都能在幾分鐘內拿到環境的全貌。
Tag 層掃描：AWS Resource Groups Tagging API 能跨服務撈出所有被標記的資源，但會漏掉沒有 tag 的 — 而接手環境裡沒 tag 的資源往往是風險最高的（沒人認領、不敢動）。





1aws resourcegroupstaggingapi get-resources \
2  --output json > inventory/tagged-resources.json
Per-service 細節：全貌掃描只告訴你資源存在，細節（備份設定、SG 規則、IAM policy）要用 per-service describe 拉。以下是接手時最該優先盤點的四類：





 1# EC2：哪些機器在跑、什麼規格、在哪個 subnet
 2aws ec2 describe-instances \
 3  --query 'Reservations[].Instances[].[InstanceId,InstanceType,State.Name,SubnetId,SecurityGroups[].GroupId,Tags]' \
 4  --output json > inventory/ec2.json
 5
 6# RDS：資料庫的備份設定、刪除保護、Multi-AZ
 7aws rds describe-db-instances \
 8  --query 'DBInstances[].[DBInstanceIdentifier,Engine,DBInstanceClass,MultiAZ,BackupRetentionPeriod,DeletionProtection]' \
 9  --output json > inventory/rds.json
10
11# Security Group：哪些規則對外開放
12aws ec2 describe-security-groups \
13  --query 'SecurityGroups[].[GroupId,GroupName,IpPermissions]' \
14  --output json > inventory/security-groups.json
15
16# S3：哪些 bucket、versioning 是否開啟
17for bucket in $(aws s3api list-buckets --query 'Buckets[].Name' --output text); do
18  echo "$bucket: $(aws s3api get-bucket-versioning --bucket $bucket --query 'Status' --output text)"
19done > inventory/s3-versioning.txt
把所有輸出存進一個 Git repo 的 inventory/ 目錄。這份快照的價值在於：一週後再跑一次比對差異，就能看出環境在背景長出了什麼新資源。
優先查三件事
盤點不需要一次做完所有服務，但三件事要第一天就查：
對外暴露面：security group 裡有沒有 0.0.0.0/0 入站規則指向非 HTTP/HTTPS 的 port（22、3306、5432、6379）。手動逐條查很慢 — 用安全掃描工具一次跑完更可靠。Prowler 是開源的 AWS 安全掃描工具，一次執行就能產出「哪些 SG 對外開放、哪些 S3 public、哪些 IAM 過寬」的分類報告：





1# 安裝後執行，針對最相關的服務掃描
2prowler aws --services ec2 iam s3 rds -M json-ocsf -o inventory/
3
4# 如果只想快速查 SG 暴露面，用 CLI：
5aws ec2 describe-security-groups \
6  --query 'SecurityGroups[].IpPermissions[?contains(IpRanges[].CidrIp, `0.0.0.0/0`)]' \
7  --output json | jq '[.[][] | select(.FromPort != 80 and .FromPort != 443)]'
ScoutSuite 是類似工具、支援多雲（AWS / GCP / Azure）。AWS Trusted Advisor 的免費 tier 也有基本安全檢查（S3 public access、SG 開放埠），但覆蓋面比 Prowler 窄。接手時三者選一跑一次，比手動翻 Console 快且不會漏。
備份狀態：RDS 的 BackupRetentionPeriod 是不是 0（代表沒有自動備份）。S3 的 versioning 是不是關的。如果是，這是接手後第一個要改的設定 — 改備份設定不影響服務運作，但沒有備份時任何資料操作失誤都不可逆。
誰最近在動環境：CloudTrail 記錄了所有 API 呼叫。查最近 30 天的變更事件，能看出哪些資源被頻繁修改、被誰修改。這比逐一問前團隊成員可靠——CloudTrail 不會漏記。





1aws cloudtrail lookup-events \
2  --lookup-attributes AttributeKey=ReadOnly,AttributeValue=false \
3  --start-time $(date -v-30d +%Y-%m-%dT%H:%M:%S) \
4  --max-items 50 \
5  --query 'Events[].[EventTime,Username,EventName,Resources[0].ResourceName]' \
6  --output table
VM 層級的快照
如果接手的環境包含 EC2 或 GCE 等 VM，在做任何改動之前先對每台 VM 建一個 AMI（AWS）或 machine image（GCP）。這是最粗粒度但最完整的「拍照」——整台機器的 OS、安裝的軟體、設定檔、磁碟內容全部打包成一個可重建的映像。





 1# AWS: 對 EC2 建 AMI（--no-reboot 避免服務中斷）
 2aws ec2 create-image \
 3  --instance-id i-0abc123 \
 4  --name "takeover-baseline-$(date +%Y%m%d)" \
 5  --no-reboot
 6
 7# 確認 AMI 建立完成
 8aws ec2 describe-images \
 9  --owners self \
10  --filters "Name=name,Values=takeover-baseline-*" \
11  --query 'Images[].[ImageId,Name,State]' \
12  --output table
--no-reboot 讓快照過程中服務不中斷，代價是檔案系統快照的一致性不如有 reboot 的版本（記憶體中的寫入可能還沒 flush 到磁碟），但對接手基線已經足夠。AMI 的費用是底層 EBS 快照的儲存費用（按 GB 計費、差異儲存），作為接手保險措施這筆成本值得。
除了 VM 快照，有 SSH 存取時也要拍 VM 內部的軟體環境——AMI 可以還原整台機器，但看不到「裡面裝了什麼、跑了什麼」的摘要：





 1# 作業系統與版本
 2cat /etc/os-release
 3
 4# 已安裝的套件清單
 5dpkg -l > ~/takeover/packages-$(date +%Y%m%d).txt   # Debian/Ubuntu
 6rpm -qa > ~/takeover/packages-$(date +%Y%m%d).txt    # RHEL/CentOS/Amazon Linux
 7
 8# 執行中的服務
 9systemctl list-units --type=service --state=running > ~/takeover/services.txt
10
11# 所有使用者的 cron jobs
12for user in $(cut -f1 -d: /etc/passwd); do
13  echo "=== $user ===" >> ~/takeover/crontabs.txt
14  crontab -u "$user" -l 2>/dev/null >> ~/takeover/crontabs.txt
15done
16
17# 網路監聽的 port（哪個 process 在聽哪個 port）
18ss -tlnp > ~/takeover/listening-ports.txt
把這些輸出存進盤點 repo，跟 CLI 資源盤點（describe 指令的輸出）放在一起。listening-ports.txt 跟 security group 規則對照，可以看出「哪些 port 有服務在聽但 SG 沒開」（可能是內部服務）和「哪些 port SG 開了但沒有服務在聽」（可能是殘留規則）。
依賴關係推導
盤點回答「有什麼」，依賴推導回答「改一個會連帶影響什麼」。手動環境沒有 Terraform 的依賴圖可以看，需要從資源的引用關係反推。
從 security group 開始
Security group 是依賴推導的最佳起點，因為它的引用關係最密集 — 幾乎每個資源都掛著至少一個 SG，而 SG 之間可以互相引用（app SG 的入站來源是 LB SG、DB SG 的入站來源是 app SG）。





1# 列出每個 SG 被哪些 ENI（網卡）使用
2aws ec2 describe-network-interfaces \
3  --query 'NetworkInterfaces[].[NetworkInterfaceId,Description,Groups[].GroupId]' \
4  --output json > inventory/sg-usage.json
AWS Console 的 VPC 頁面有 Resource Map 功能，可以視覺化 subnet → instance → SG 的對應關係，接手時第一次瀏覽依賴用它比 CLI 直覺。要產出可存檔的依賴圖，draw.io（有 AWS icon set）或 Lucidchart 都能畫，重點是圖要存進 repo、不是畫完就丟。
如果後續打算導入 Terraform，Former2 可以掃描現有 AWS 資源、自動產出 Terraform / CloudFormation / CDK 程式碼。產出的程式碼不會完美（屬性常漏、命名要改），但作為反推依賴關係的起點比從零寫快。Inframap 則是從 Terraform state 產出依賴關係圖（在 import 階段才用得到）。
從 SG 的引用鏈可以畫出一張粗略的依賴圖：

  
      
          層次
          資源
          入站來自
          出站到
      
  
  
      
          入口
          ALB
          0.0.0.0/0:443
          app SG
      
      
          應用
          EC2 / ECS
          ALB SG
          DB SG、外部 API
      
      
          資料
          RDS
          app SG:5432
          —
      
  

這張圖不需要精確到每個 port — 它的用途是在改動任何資源前，快速判斷影響範圍。例如要改 app SG 的規則時，先查它被哪些 EC2 和 ECS 引用、它的入站來源 ALB SG 是否受影響。
其他依賴面向
除了 SG，以下幾個引用關係也要記錄：

EC2 → IAM role：instance profile 決定這台機器能存取什麼（S3 bucket、Secrets Manager、其他 AWS 服務）
RDS → subnet group：決定資料庫在哪些 subnet 裡，改 VPC 或 subnet 時會受影響
ALB → target group → EC2/ECS：流量路徑，改 target group 的 health check 或移除成員會影響服務可用性
Lambda → VPC 設定：如果 Lambda 被放進 VPC，它的出站走 NAT，改 NAT 或 route table 會影響它
Route 53 → ALB/EC2：DNS 指向哪個資源，改資源 IP 或 ALB 時要同步更新

credential 盤點與收斂
接手環境時，credential 是風險最高的一類 — 前團隊建立的 IAM user 和 access key 可能還在活躍狀態，而那些人已經不在團隊裡了。
接手後第一件事是用 aws-vault 管理自己的 credential。aws-vault 把 AWS access key 存在 OS keychain（macOS Keychain / Windows Credential Manager），而非明文放在 ~/.aws/credentials。執行 AWS 指令時由 aws-vault 注入臨時 session，本地磁碟上不留長期 key 的明文。不要沿用前人留下的 AWS CLI profile — 那些 profile 的權限範圍和用途都不確定。





1# 安裝後設定新的 profile
2aws-vault add takeover-admin
3# 用臨時 session 執行指令
4aws-vault exec takeover-admin -- aws sts get-caller-identity
產出 credential 報告





1aws iam generate-credential-report
2aws iam get-credential-report \
3  --query 'Content' --output text | base64 -d > inventory/credential-report.csv
這份 CSV 列出所有 IAM user、每把 access key 的建立時間、上次使用時間、MFA 是否啟用。從中篩出三類需要處理的：

  
      
          類別
          判斷方式
          處理
      
  
  
      
          已離職人員的 key
          user 名稱對照離職清單
          停用 key → 觀察 7 天無異常 → 刪除 user
      
      
          超過 90 天未使用的 key
          access_key_last_used 超過 90 天
          停用 → 觀察是否有服務中斷 → 確認無影響後刪除
      
      
          有 admin 權限的 key
          policy 含 AdministratorAccess 或 *:*
          降權到實際需要的最小權限
      
  

停用（deactivate）而非直接刪除是關鍵 — 停用後如果某個自動化腳本依賴這把 key 會立刻報錯，這時候可以快速重新啟用；直接刪除就回不去了。觀察期設 7 天，涵蓋一個完整的業務週期（含週末的 cron job）。
檢查 key 散落的位置
Access key 可能被寫在不只一個地方：





 1# EC2 user data 裡是否有 hardcode 的 key
 2aws ec2 describe-instance-attribute \
 3  --instance-id i-xxx --attribute userData \
 4  --query 'UserData.Value' --output text | base64 -d | grep -i "aws_access_key\|aws_secret"
 5
 6# Lambda 環境變數
 7aws lambda list-functions --query 'Functions[].FunctionName' --output text | \
 8  xargs -I{} aws lambda get-function-configuration --function-name {} \
 9  --query 'Environment.Variables' --output json | grep -i "key\|secret\|password"
10
11# SSM Parameter Store
12aws ssm describe-parameters --query 'Parameters[].Name' --output text
找到 hardcode 的 key 後，替換路徑是改用 IAM role（EC2 用 instance profile、Lambda 用 execution role）。替換前先確認 role 的 policy 涵蓋這把 key 原本在做的操作。
備份驗證
盤點出的每個 stateful 資源（RDS、S3、EBS）都要確認備份狀態。接手環境時不能假設「前團隊應該有設定備份」— 要親自驗證。
RDS 備份





1# 檢查每個 RDS instance 的備份設定
2aws rds describe-db-instances \
3  --query 'DBInstances[].[DBInstanceIdentifier,BackupRetentionPeriod,LatestRestorableTime,DeletionProtection]' \
4  --output table
BackupRetentionPeriod 為 0 代表沒有自動備份 — 立刻改成至少 7 天。DeletionProtection 為 false 代表一個誤操作就能刪掉資料庫 — 立刻開啟。這兩項設定的修改不需要重啟、不影響服務。
備份存在不等於備份可用。接手後的第一週內，從最近的 snapshot 還原一台測試 RDS、連進去確認資料完整。這個步驟的成本是一台 RDS 跑幾小時的費用，換到的是「備份確定能用」的確認 — 等到要用備份的時候才發現不能還原，代價是另一個量級。
S3 versioning
沒有開 versioning 的 bucket，物件被覆寫或刪除後不可回復。對承載業務資料的 bucket（上傳的檔案、匯出的報表、設定檔），開啟 versioning：





1aws s3api put-bucket-versioning \
2  --bucket my-business-data \
3  --versioning-configuration Status=Enabled
開啟 versioning 不影響既有物件，但會讓後續的每次覆寫都保留舊版本。儲存成本會因為保留歷史版本而增加 — 配一條 lifecycle rule 設定 noncurrent version 的過期天數來控制。
建立變更紀律
盤點、依賴推導、credential 收斂做完後，環境的現況已經有一份可查的記錄。下一步是確保從現在開始的每一次變更都留下痕跡。
變更日誌
在 inventory repo 裡建一份 CHANGELOG.md，每次改動 production 就追加一筆：





1## 2026-06-26
2
3- **操作者**：alice
4- **資源**：rds/payments-prod
5- **變更**：BackupRetentionPeriod 0 → 14, DeletionProtection false → true
6- **原因**：接手盤點發現備份未開啟
7- **回退方式**：BackupRetentionPeriod 改回 0（不建議）
CloudTrail 確認
確認 CloudTrail 正在記錄 management events。如果沒有 trail 存在，建一個指向 S3 bucket 的 trail — 這是事後追溯「誰動了什麼」的最後防線。





1aws cloudtrail describe-trails --query 'trailList[].{Name:Name,S3:S3BucketName,IsLogging:IsLogging}'
開始標 tag
盤點過程中辨識出的每個資源，標上 env、owner、service 三個 tag。接手階段的 owner 通常標「待確認」或新接手的團隊名稱。tag 的價值在於讓後續的盤點和清理可以用查詢系統性地進行 — 沒有 tag 的資源無法被 filter 找到。
往 IaC 的銜接
盤點和紀律建立完成後，環境已經從「不知道有什麼」推進到「知道有什麼、知道誰在動、改了有紀錄」。這個狀態對應成熟度階梯的第零階到第一階之間。
成本現況
接手環境通常伴隨「這個月帳單多少」的問題。AWS Cost Explorer（免費）能看過去幾個月的花費分布，按服務類型、帳號、tag 維度拆。接手時先拉一次 Cost Explorer 的月度趨勢，看有沒有異常成長或不預期的高額服務。後續導入 IaC 後，Infracost 可以在 terraform plan 階段預估變更的成本影響（例如「升 RDS 規格會多花多少」），讓成本決策在 apply 之前就被看見。
往 IaC 的銜接不需要一次做完。按穩定度和改動風險排序：

  
      
          優先級
          資源類型
          理由
      
  
  
      
          先做
          VPC、subnet、route table
          形狀穩定、幾乎不會改、import 風險低
      
      
          次做
          security group
          規則明確、import 後 plan 容易驗證
      
      
          後做
          RDS、EC2、ALB
          stateful 或與部署耦合、import 風險較高
      
      
          最後
          Lambda、API Gateway
          通常跟應用程式碼耦合、import 後維護邊界需要釐清
      
  

每批 import 的操作流程是：terraform import → terraform plan 確認零變更 → 寫 HCL 補齊差異 → 再跑 plan 直到零變更。具體的 import 步驟和工具選型在模組一：最小可行 IaC。
時程參考：10-20 個資源的環境，完成盤點 + credential 收斂 + 備份驗證約需 3-5 天；往 IaC 的 import 約需 1-2 週。兩者可以平行進行但建議先完成盤點 — 沒有完整的資源清單就開始 import，容易漏掉關鍵的依賴關係。
跨分類引用

→ 有半套 IaC 但文件缺失的環境接管：如果盤點過程中發現環境裡已有部分 Terraform code
→ 模組負一：還沒有 infra 的環境：盤點完成後的操作紀律對齊
→ 模組零：infra 是什麼：成熟度階梯作為接手後現況評估的座標
→ 模組一：最小可行 IaC：盤點完成後的第一步 IaC 導入
→ 模組二：身分與憑證：credential 收斂的完整設計
→ 團隊權限分級與存取管理：接手後重新建立權限分級




怎麼把 infra 推動起來 — 信任赤字、期望值對齊與知識共享
Fri, 26 Jun 2026 00:00:00 +0000
一套技術上正確的 infra 推不動，後果會往回退、不只是停在原地。state 上了版控但團隊照樣手改 Console、PR 護欄建好了卻被繞過、tagging 規範寫進文件但沒人填，這些都會讓 infra 從「資產」變成「擺設」。更糟的情況是推到一半就停：一部分環境上了 IaC、一部分還是手動，兩套真相並存，排查問題時不知道該信哪邊，infra 反而成了扣分項。本系列的技術模組（從最小可行 IaC 到 PR 流程治理）講的是怎麼做對，這一章講技術做對之後、怎麼跨過商業優先級與組織信任這兩道更難的關卡。
為什麼 infra 常推不動
infra 是一種看不到立即回報的投入，這是它在商業優先級裡天然吃虧的根本原因。產品功能上線當天就能看到使用者數字、營收曲線、客訴下降；infra 投入當天看到的只有「花了時間，但畫面上什麼都沒變」。把 state 搬上遠端後端、把 IAM 從長期 access key 換成 OIDC、把環境拆成獨立帳號 — 這些工作的價值要等到某次事故、某次稽核、某次擴張才會兌現。在價值兌現之前，它在排程會議上跟一個能立刻帶來轉換率的功能競爭，幾乎必輸。
回報曲線的錯位
徵兆很直接：當 infra 工作總是被排進「有空再做」的待辦、季度結束時總是第一個被砍，根源在於它的回報曲線跟決策者的時間視窗對不上，而不是團隊不重視。決策者看的是這一季的可交付，infra 的回報落在下一次危機，兩者中間隔著一段沒有反饋的真空期。
這個落差在三種組織場景裡特別明顯，各自有不同的困局與突破口。
第一種是早期新創：每個人都在趕功能，infra 被當成「等有規模再說」的奢侈品。創辦人或技術負責人在 Console 手動把環境點起來，跑得動就不再碰。結果等到規模來的時候 — 第一個客戶進來了、需要 staging 環境了、第二個工程師要動資源了 — 手動環境的債已經高到要花整個季度去還。這個場景的突破口通常是某次事故：誤刪了 production 的資源、或者安全掃描發現長期 key 外洩，這個事件才會把 infra 從「有空再做」推進「下一個 sprint」。
第二種是成長期的公司：已經有幾十個手動資源了，每次出事都靠一兩個人熟手救火，管理層看到的是「反正每次都救回來了」，結論是「所以現在不急」。這個結論會一直成立、直到那個熟手離職的那天。更隱蔽的版本是熟手沒離職但開始成為瓶頸 — 所有 infra 變更都排隊等他、他無法去做其他事、團隊的開發速度被他一個人的頻寬卡住。
第三種是大組織裡的平台團隊：infra 是跨團隊的公共投入，每個產品團隊都想用但沒人想出資源，因為投入算自己的 headcount、收益算大家的。這個場景的常見僵局是平台團隊建了一套 IaC 模組，但產品團隊不願意學、不願意遷移、也不願意從自己的 sprint 裡撥時間，因為遷移的收益算在平台團隊的 OKR 裡而非自己的。
歸因的陷阱
理解這個落差，就不會把推不動歸因成「同事不懂技術」。把它當成溝通態度問題去硬碰，結果是工程端越說越委屈、業務端越聽越像本位主義。也別矯枉過正 — infra 確實有一部分屬於可以延後的優化，不是每一項都該現在做。
常見的歸因錯誤有兩種方向。第一種是工程端把所有 infra 需求都當成「技術上正確所以該做」，忽略優先級與時機 — 在產品還沒找到 PMF 的階段要求花三週做完整的多環境 IaC，即使技術上正確，對組織也是錯誤的資源配置。第二種是管理端把所有 infra 請求都歸入「工程師的潔癖」，因為上次某個 infra 改造確實沒帶來可見的業務效果 — 但那次可能是一個優化級的工作，跟這次的地基級需求（例如長期 key 散落）風險等級完全不同。兩種歸因都把 infra 當成一個不分層的整體，而拆層正是解開這個僵局的關鍵。
真正該做的是把「哪些 infra 屬於不能延後的地基」跟「哪些屬於可排程的優化」分開談。這條線在模組零：infra 是什麼的成熟度階梯與 day 1 鐵律裡有完整討論 — 地基類資源（網路、身分、state）回頭改的代價極高，是接近「該照做」的硬判準；應用層資源可以容許暫時手動，等形狀穩定再納管。把這條線講清楚，決策者才有辦法區分「這真的急」跟「這只是工程師想整理」，而不是把所有 infra 工作當成同一類。
信任赤字下的兩難
信任赤字指的是團隊對「動 infra 會不會把東西弄壞」的預設懷疑。當一個服務運作正常，任何對它底層的改動在旁人眼裡都是多此一舉，一旦改出問題，責任全記在發起改動的人頭上。這種不對稱讓人傾向不動，於是技術債持續累積，而累積本身又讓下一次改動更危險，形成越不敢動就越不能動的循環。
兩難的具體形狀
大改動風險高、需要的信任額度也高，但信任正是現在缺的；小改動安全，卻又解不了結構性的問題。更尷尬的中間態是改到一半 — 把一半服務遷上 IaC、另一半留在手動。這時系統同時揹著舊流程的隨意性跟新流程的約束，兩邊的缺點都拿到、好處都沒拿滿。排查問題的人要先猜這個資源歸哪套管，認知成本比改造前還高。
一個常見的情境是：平台工程師花了兩週把網路地基寫進 Terraform，PR review 通過、plan 乾淨、apply 成功。但因為只做了網路、還沒做 IAM 和核心服務，團隊日常操作還是在 Console 手動改 security group。某次手動改動造成 drift，下一次 Terraform apply 把手動改的規則覆蓋掉了，服務斷線。這個事故的結論是「半套管的中間態比全手動更危險」— 這正是信任赤字的來源：團隊看到的是 infra 造成的新風險，而非 infra 的價值。
用可回退性換取授權
可操作的判準是用改動的「可回退性」換取授權，而不是用「保證不出錯」去爭取。把一次大遷移切成多個獨立可回退的 PR，每個 PR 都能單獨 review、單獨 apply、單獨 revert，這樣每一步的風險都是有界的，團隊願意給的信任額度也跟著提高。
切片的原則有兩個邊界。第一，每個切片都要讓系統落在一個自洽的狀態 — 不能切到一半的 security group 在 IaC 裡、另一半在手動，因為這個中間態正是信任消耗最大的狀態。一個常見的錯誤切法是「先 import VPC 但不 import 它底下的 subnet」，結果 Terraform 看到 VPC 歸自己管但 subnet 不歸，下次有人改 VPC 的某個屬性做 apply，plan 裡不會顯示 subnet 的相關影響，而實際上那些手動管的 subnet 可能依賴 VPC 的那個屬性。功能相關的資源要整批進、整批出。
第二，切片不能切到讓中間態長期懸著 — 如果第一個切片是「import 網路」，但第二個切片（import IAM）排在三個月後，這三個月裡網路由 Terraform 管、IAM 還是手動，drift 風險每天都在。比較安全的節奏是把緊鄰的兩三個切片排在同一個 sprint 或同一個月裡，讓中間態存在的時間越短越好。
一個實際可行的切片順序：先用 terraform import 把一組功能相關的資源（例如一個服務的 VPC + subnet + security group）整批納管，同一個 PR 裡完成。這批資源 import 完後跑 plan 確認零變更，就算一個完整的切片。這個切片的回退方式是 terraform state rm 把資源從 state 移除（資源本身不受影響），系統回到手動狀態。每完成一個切片且沒出事，下一步能拿到的授權就多一點，原本越不敢動就越不能動的循環才會倒過來轉。
切片的排序有一條實務經驗可以參考：先納管唯讀性質的地基（VPC、subnet、route table），再納管 security group 與 IAM role，最後才碰 stateful 資源（RDS、S3）。原因是地基層的 import 風險最低 — 即使 plan 出現非零差異，VPC 或 subnet 的 update-in-place 不會中斷服務。security group 的風險稍高但仍可控。RDS 是風險最高的，因為任何觸發 replace 的欄位差異都意味著資料庫重建 — 這類資源留到信任累積足夠之後再處理，屆時團隊已經對 import 流程有經驗、對 plan 輸出的判讀有信心。
把改動綁進 PR 流程取得 review 與自動護欄的做法，見模組七：infra 走 PR 流程。
期望值對齊
期望值對齊指的是在動工之前，先跟相關角色講好 infra 工作的價值、時程、以及它「慢」的原因，讓慢成為事前的共識而不是事後的指責。infra 的改造之所以慢，是因為它要動的是正在承載流量的地基 — 每一步都得確認沒有破壞既有服務、得保留回退路徑、得跨環境驗證。這種慢是風險控制的成本，不是效率問題。但如果沒有事先說明，旁人看到的只有「一個簡單的事情做了兩週」。
對齊三件事
第一：價值翻成對方語言。對 PM 講的是「這個改動讓未來新環境從三天縮到三十分鐘」，不是「我們把 state 上了遠端後端」。對財務講的是「這批 tag 上完後，下個月的雲帳單能拆到各產品線」，不是「我們需要統一 tagging 規範」。對 CTO 講的是「這讓下一次安全稽核只需要跑一條指令就能列出所有對外開放的端口」，不是「我們要把 security group 從手動改成 IaC」。翻譯的技巧是找到對方在意的度量 — 時間、錢、風險 — 然後用那個度量描述 infra 的效果。
第二：時程給範圍而非單點。infra 工作有很多步驟是不可壓縮的驗證：每一次 import 都要跑 plan 確認零變更、每一個環境都要各自 apply 再驗收、高風險的 stateful 資源要額外的 review 和手動確認。這些步驟佔了大部分時間但產出不可見。給時程時把「估計 2-3 週」拆成「1 週 import + 驗證、1 週跨環境推送、0.5-1 週 buffer 處理 drift」，讓每一段都有對應的產出。比起一個「3 週」的黑盒，分段時程讓進度可被追蹤、延遲可被歸因。
分段時程的另一個好處是讓「卡住了」的原因可被理解。infra 工作常被卡在非技術因素上：等某個人 review PR（那個人在趕自己的 deadline）、等 staging 環境空出來跑驗證（另一個團隊正在用）、等安全團隊確認 IAM 變更符合政策。如果時程只有一個總數，這些等待全部會被歸因為「infra 太慢」。分段後，卡在哪個環節、等的是誰，一目了然 — 這讓延遲的責任回歸到真正的阻塞點，而非無差別地歸到 infra 團隊身上。
第三：把「慢」的來源攤開。告訴對方哪幾步是在跨環境驗證（dev 跑通了才推 staging、staging 跑通了才推 prod）、哪幾步是在等 plan review（PR 送出到有人 review 可能隔一天），讓等待變成可理解的過程。這跟模組七：infra 走 PR 流程裡用 plan 預覽變更、讓改動在 apply 前就被看見是同一個邏輯，只是把對象從程式碼擴大到人。
對齊的自測
一個具體的自測：如果每次進度同步都要重新解釋「為什麼還沒好」，代表期望值沒對齊在前面。最常見的失手是把對齊做成單向報告 — 工程師把計畫寫好丟出去就算對齊了。真正的對齊需要對方有機會在動工前提出他的時間壓力，雙方各退一步排出優先序。有些 infra 工作可以拆成「先做不中斷服務的前半段（import + 驗證），高風險的後半段（切換 apply 流程）排到下一個季度」，這種拆法同時回應了業務的時間壓力跟 infra 的安全需求。
對齊也不等於承諾零風險。反而要在這個階段就把可能的失敗模式講清楚：「import 過程中如果發現某個資源的 Console 設定跟我們以為的不一樣，這個步驟會卡住，需要人工確認現況後才能繼續」。事先講比事後解釋便宜得多。
一個被低估的對齊技巧是拆半交付。有些 infra 工作可以拆成「先做不中斷服務的前半段（import + 驗證），高風險的後半段（切換 apply 流程）排到下一個季度」。前半段的產出是一份跟現況一致的 IaC 程式碼，它本身就有價值 — 新人讀 code 就能理解環境、稽核時有可查的描述。後半段才是讓後續變更走 PR 流程。這種拆法同時回應了業務的時間壓力跟 infra 的安全需求：前半段拿到的價值足以讓決策者看到回報，後半段就有信任基礎去爭取。
知識共享優於個人英雄主義
infra 知識要分散在團隊裡、並盡量沉澱進可執行的程式碼，這樣組織才不會把營運連續性押在單一個人身上。當只有一個人懂整套 infra 怎麼運作，這個人請假、轉組、離職的那一刻，組織就失去了安全改動地基的能力 — 剩下的人不敢動，因為沒人知道動了會牽連到什麼。這是一種典型的單點故障，只是故障點是人不是機器。
英雄主義的代價
個人英雄主義在短期看起來很有效率：一個熟手能繞過所有流程、直接在 Console 把問題解掉。但這種效率有三個隱性成本。第一，它不會留下痕跡 — 下一個人遇到同樣狀況時得從零重來，或者更常見的是直接去問那個熟手，而那個熟手變成了所有人的瓶頸。第二，它會阻礙流程建立 — 當「找某人手動修」比「走 PR 流程」快，團隊就沒有動力採用流程，於是流程永遠停在「有但沒人用」的狀態。第三，它對個人也是負擔 — 組織越依賴他，他越難抽身去做別的事、越難請長假、越難轉組。
判讀知識集中度的訊號是問一個問題：如果最懂 infra 的人下週離職，團隊還敢動 production 的網路設定嗎？如果答案是「得等他回來」或「只能凍結變更等新人到」，那不論工具鏈多完整，知識還在個人腦中，PR 流程只是形式。
可以用更細緻的分級來評估集中度：能不能看懂 plan 輸出（讀的能力）、能不能寫一個新的小資源（寫的能力）、能不能處理一次 import（操作的能力）、能不能在 apply 出問題時判斷該回退還是繼續（決策的能力）。這四級能力分布在幾個人身上，比所有能力集中在一個人身上，組織韌性高得多。
兩條互補的分散路徑
把知識搬出個人腦袋有兩條路徑，互補使用。
第一條是把運作邏輯寫進程式碼與流程。當環境的建立方式是一份 IaC、變更方式是一個 PR，知識就內建在可執行的物件裡，新人讀 code 跟 PR 歷史就能重建脈絡。PR 的描述不只是「改了什麼」，還要寫「為什麼這樣改」— 三個月後有人翻 git log，看到「把 NAT 從單一改成 per-AZ，因為上週 ap-northeast-1a 故障時全部 private subnet 出站斷了」，這個決策脈絡就永久保留了。這正是模組七：infra 走 PR 流程的核心價值之一。
第二條是刻意的輪替與配對。讓不同人輪流負責 infra 的 review 與 apply，用實際操作累積分散的熟悉度。具體做法包括：

第二 reviewer 制度：每次 infra PR 指定一個「非平常負責 infra 的人」做第二 reviewer。這個人不需要能獨立寫 HCL，但需要能讀懂 plan 輸出、問出「這個 replace 是故意的嗎」這類問題。review 本身就是學習。
輪值部署：每季度讓不同人負責一次環境部署或擴容。第一次由熟手配對帶著做，第二次獨立執行、熟手待命。兩次之後這個人就能獨立處理同類操作。
on-call 不自動轉派：on-call 輪值時 infra 問題不自動轉給專家，先讓當值的人用 code 和文件嘗試處理，15 分鐘內搞不定再 escalate。這 15 分鐘裡他會學到的比任何文件都多 — 而且會發現哪些 runbook 缺了、哪些步驟寫得不清楚，這些回饋又改善了文件品質。
infra 變更的 runbook：把常見操作（加一條 security group rule、擴容 RDS、加一個新環境）寫成 step-by-step 的操作文件，包含「跑這條指令」「確認這個輸出」「看到這個就停」。Runbook 降低的是「開始做」的門檻 — 有 runbook 的操作，非專家也敢接手。

這些做法的共同點是刻意把操作機會分散出去，讓知識透過做而非透過講來傳遞。
共享不必走到人人都是專家。只要關鍵操作有第二個人能接手、關鍵決策的脈絡留得下來，瓶頸就不再卡在單一個人身上。
把 infra 重要性翻成商業語言
infra 的重要性要翻譯成商業後果才能進入決策者的優先級，因為決策者用的是成本與風險的語言，不是技術術語的語言。「我們缺乏環境分離」對 PM 沒有重量，但「測試環境的一次誤操作可以直接打到正式資料庫、波及全部客戶」有重量，因為後者描述的是一個可以標價的損失。翻譯的本質是把抽象的技術缺口換算成一個具體的、會痛的場景。
缺口兌現時的商業後果
把地基失效時會發生什麼攤開來算。每一項 infra 缺口都有對應的失效情境：

  
      
          infra 缺口
          失效情境
          商業後果
      
  
  
      
          沒有 state 版控
          兩人併發 apply，環境記錄錯亂
          重建要數天，期間服務不可用
      
      
          沒有身分隔離
          一把外洩的長期 key 橫向存取所有資源
          資料外洩，客戶通知，可能的法律責任
      
      
          沒有環境分離
          本該打在 staging 的變更直接改了 production
          生產服務中斷，影響所有客戶
      
      
          沒有 Console 唯讀鐵律
          手動改動造成 drift，下一次 apply 覆蓋手動設定
          不可預期的服務中斷
      
      
          沒有 tagging
          清理資源時無法區分 prod 與 dev，不敢動
          殭屍資源永久燒錢，配額被佔滿
      
      
          沒有 secret 管理
          資料庫密碼存在 git 歷史裡，某次 fork 外洩
          全面輪替 + 潛在資料外洩
      
  

這些場景的共同點是平時完全看不見、失效時一次性兌現巨大成本，這也正是模組零：infra 是什麼裡地基隱形、出事才現形的論證。把這條論證從技術語境搬到商業語境，就是這一章要做的翻譯。
準備這份表格時，數字不需要精確到小數點，但需要有依據。「重建要數天」可以改成「上次類似事故花了兩天半」；「影響所有客戶」可以改成「影響約 N 個帳號」。有具體數字的描述比泛泛的「可能很嚴重」有說服力得多 — 決策者每天處理的都是模糊的風險，一個有量級的損失估計才會從背景噪音裡跳出來。如果團隊沒發生過類似事故、沒有歷史數字可引用，可以用行業公開的事故報告作為參照（例如某知名服務因為 S3 bucket 公開導致的資料外洩事件），說明同類事故在別的組織造成的代價。
誠實分級
可操作的做法是替每一項想推動的 infra 工作，準備一句「不做的話，最壞情況是什麼、影響多少客戶、要救多久」。這句話本身就是一道篩子：講不出對應商業後果的工作，可能確實優先級不高、可以排到後面；講得出而且後果嚴重的，這句話就是排程的籌碼。
要小心的陷阱是把每件事都講成最嚴重的情況。幾次之後狼來了效應會讓所有警告失效 — 決策者開始把所有 infra 請求當成「工程師又在危言聳聽」。翻譯要誠實分級：

  
      
          嚴重度
          特徵
          適用的 infra 工作
      
  
  
      
          地基級
          出事不可逆或回退代價極高
          身分隔離、secret 不進 code、刪除保護
      
      
          營運效率級
          出事可恢復但耗時且反覆發生
          環境分離、PR 流程、tagging
      
      
          優化級
          不做也不會出事，做了省時間或省錢
          自動化護欄、進階成本分攤、Terragrunt
      
  

三種嚴重度對應三種論證語言：
地基級的工作用「最壞情況」爭取優先級 — 「如果這把外洩的 admin key 被拿去開一百台礦機，我們的帳號會在幾小時內燒掉整個季度的雲端預算，而且清理過程中所有服務都得暫停」。營運效率級的用「過去 N 次事故的累積成本」來論證 — 「過去半年因為 dev/prod 共用環境，已經發生了三次誤操作影響到正式客戶，每次修復花了半天到一天，加上客戶溝通的時間，累計約六個工作天」。優化級的用「投入 X 天、之後每次省 Y 小時」的 ROI 來排序 — 「導入 Terragrunt 需要三天，之後每次加新環境從兩小時縮到十分鐘」。
三種語言混著用、各自對應到正確嚴重度的工作，才能讓決策者建立「這個人的優先級判斷值得信任」的印象，而不是「這個人不分輕重」。
商業語言是用來爭取優先級、不是用來嚇人；爭取到之後，怎麼安全地做仍然回到本系列技術模組的判準。把成本量化的延伸方法，可參考 devops 模組八：成本管理 對基礎設施成本的拆解視角。
跨分類引用

→ 模組零：infra 是什麼：地基隱形、爆炸時才現形的論證，成熟度階梯與 day 1 鐵律
→ 模組七：infra 走 PR 流程：用流程把 infra 知識從個人腦裡搬進 code，PR 作為知識載體
→ devops 模組八：成本管理：把 infra 缺口換算成可標價成本的拆解視角
→ 團隊權限分級：權限分級讓知識不集中在 admin 一個人身上
→ 職務交接設計：交接的操作清單與結構性降低交接成本的設計




單環境到多環境的 Retrofit 操作手冊
Fri, 26 Jun 2026 00:00:00 +0000
單環境的 Terraform 設定在資源數量少、只有一個人操作時運作順暢。當需要第二個環境（dev 或 staging）、或第二個人開始改 infra 時，單環境的限制會開始浮現：沒有地方安全地測試變更、apply 一次就是對 production 動手。Retrofit 的目標是把這份單環境設定拆成「module + per-env 目錄」的結構，讓 dev 與 prod 各持獨立 state、共用同一套邏輯，而且在整個過程中 production 的資源不受任何影響。
Retrofit 前的準備
Retrofit 操作的是正在服務的 production 資源，每一步都要確認「plan 顯示零變更」才能往下走。準備工作的目的是降低操作過程中的風險。
State 備份
開始之前把 state 拉一份完整備份到本地：





1terraform state pull > state-backup-$(date +%Y%m%d).json
這份備份是最後的回退手段。如果 retrofit 過程中 state 被弄壞（例如 moved block 指向錯誤的位置），可以用 terraform state push state-backup.json 回到起點重來。state push 會覆蓋遠端 state，屬於危險操作——只在回退時使用。
識別 stateful 資源
列出所有 state 裡的資源，標記哪些是 stateful（RDS、S3 含資料、EBS volume）：





1terraform state list | sort
Stateful 資源在 retrofit 過程中的風險最高：如果 moved block 寫錯導致 Terraform 判定需要 replace（先刪後建），stateful 資源的 replace 代表資料遺失。後面每一步的 plan 輸出都要特別檢查 stateful 資源有沒有出現 must be replaced 或 forces replacement。
確認 plan baseline
在還沒改任何 code 之前先跑一次 plan，確認起點是乾淨的：





1terraform plan -detailed-exitcode
Exit code 0 代表 state 與現實一致、沒有 drift。如果此時就有 drift（exit code 2），先解決 drift 再做 retrofit——在已經有 drift 的基礎上做結構重構，plan 的差異訊號會被 drift 淹沒，無法區分「drift 造成的差異」和「retrofit 造成的差異」。
步驟一：把資源宣告抽成 module
第一步純粹是程式碼重組——把 main.tf 裡的資源宣告搬進 modules/ 目錄，原地改成 module 呼叫。這一步不改任何資源屬性、不改 backend、不改 provider，所有值先寫死成當前的值。
目標目錄結構





 1infra/
 2├── modules/
 3│   ├── network/
 4│   │   ├── main.tf        # VPC、subnet、SG 從根目錄搬過來
 5│   │   ├── variables.tf   # 先把所有值寫死在 default 裡
 6│   │   └── outputs.tf     # 暴露 VPC ID、subnet IDs 等
 7│   └── database/
 8│       ├── main.tf        # RDS 從根目錄搬過來
 9│       ├── variables.tf
10│       └── outputs.tf
11├── main.tf                # 改成 module 呼叫
12├── backend.tf             # 不動
13└── terraform.tfvars       # 這一步還不存在
用 moved block 告訴 Terraform 搬家
資源從根目錄搬進 module 後，Terraform 的內部位址從 aws_vpc.main 變成 module.network.aws_vpc.main。如果不告訴 Terraform 這個對應關係，它會判定舊位址的資源「要刪」、新位址的資源「要建」——對 VPC 或 RDS 來說這代表服務中斷。
moved block 宣告式地描述搬遷：





 1moved {
 2  from = aws_vpc.main
 3  to   = module.network.aws_vpc.main
 4}
 5
 6moved {
 7  from = aws_subnet.public
 8  to   = module.network.aws_subnet.public
 9}
10
11moved {
12  from = aws_subnet.private
13  to   = module.network.aws_subnet.private
14}
15
16moved {
17  from = aws_db_instance.primary
18  to   = module.database.aws_db_instance.primary
19}
每個搬進 module 的資源都需要一條 moved block。遺漏任何一條，plan 就會顯示該資源要 destroy + create。
Zero-change plan 驗證





1terraform plan
這一步的 plan 輸出必須是：





1Plan: 0 to add, 0 to change, 0 to destroy.
如果 plan 顯示任何 add、change 或 destroy，先停下來檢查：

destroy + create：moved block 遺漏或位址寫錯
change：module 內的 resource 屬性跟搬進來之前不一致（漏了某個 attribute、default 值不同）
add：新的 module output 或 data source 被 Terraform 當成新資源

修到 plan 顯示零變更才能 apply。apply 之後 state 裡的資源位址從 aws_vpc.main 更新成 module.network.aws_vpc.main，雲端資源本身不受影響。
安全暫停點：本步完成後 code 已重組、state 位址已更新、雲端資源未變，環境處於自洽狀態，可隔日繼續。
步驟二：把寫死的值換成參數
Module 內部的寫死值搬到 variables.tf，module 呼叫端從 terraform.tfvars 讀入。這一步的 plan 仍然必須是零變更——因為參數的值就等於原本寫死的值。





 1# modules/database/variables.tf
 2variable "instance_class" {
 3  type = string
 4}
 5
 6variable "multi_az" {
 7  type    = bool
 8  default = false
 9}
10
11variable "backup_retention_days" {
12  type    = number
13  default = 7
14}




1# main.tf — module 呼叫端
2module "database" {
3  source                = "./modules/database"
4  instance_class        = var.db_instance_class
5  multi_az              = var.db_multi_az
6  backup_retention_days = var.db_backup_retention_days
7}




1# terraform.tfvars — prod 的值
2db_instance_class        = "db.r6g.large"
3db_multi_az              = true
4db_backup_retention_days = 30
再跑一次 plan 確認零變更。值從寫死改成參數傳入，但傳入的值跟原來一樣，所以 Terraform 算出的差異是零。
安全暫停點：本步完成後 module 已參數化、prod 行為不變，可隔日繼續。
步驟三：建立新環境目錄
prod 確認穩定後，建 dev 環境的獨立目錄。這一步是純新增——不碰 prod 的任何檔案。





 1infra/
 2├── modules/           # 共用（不動）
 3├── environments/
 4│   ├── prod/
 5│   │   ├── main.tf          # 原本根目錄的 module 呼叫搬過來
 6│   │   ├── backend.tf       # prod 的 state 位址
 7│   │   └── terraform.tfvars # prod 的值
 8│   └── dev/
 9│       ├── main.tf          # 複製 prod 的 module 呼叫
10│       ├── backend.tf       # dev 的獨立 state 位址
11│       └── terraform.tfvars # dev 的縮小值
dev 的 terraform.tfvars 用縮小的規格：





1# environments/dev/terraform.tfvars
2db_instance_class        = "db.t3.micro"
3db_multi_az              = false
4db_backup_retention_days = 1
dev 的 backend.tf 指向獨立的 state 路徑——dev 和 prod 的 state 從一開始就是分開的，不存在「事後拆」的需求：





1terraform {
2  backend "s3" {
3    bucket         = "acme-tf-state"
4    key            = "dev/terraform.tfstate"
5    region         = "ap-northeast-1"
6    encrypt        = true
7    dynamodb_table = "acme-tf-lock"
8  }
9}
如果原本的 prod 是在根目錄操作（不是在 environments/prod/ 目錄），這一步還需要把 prod 的操作也搬進 environments/prod/。這個搬遷本身又是一次 moved block + zero-change plan 驗證的循環。
安全暫停點：本步是純新增（建目錄和檔案），不影響 prod 的 state 或資源，可隔日繼續。
步驟四：先在 dev apply 驗證





1cd environments/dev
2terraform init
3terraform plan
4terraform apply
dev 是全新環境、全新 state，apply 會建出一整套資源。這一步驗證的是 module 在「從零建立」的情境下能否正常運作。如果 dev apply 成功且環境可用，代表 module 的邏輯正確。
dev 環境 apply 後跑一次 plan 確認零 drift：





1terraform plan -detailed-exitcode
2# 預期 exit code 0
安全暫停點：dev 環境已驗證、prod 未受影響，可隔日繼續最後的 prod 驗證。
步驟五：驗證 prod 未受影響
回到 prod 目錄，跑 plan 確認 prod 的資源沒有任何變化：





1cd environments/prod
2terraform plan -detailed-exitcode
3# 預期 exit code 0
如果此時 prod plan 顯示差異，可能的原因：

prod 的 module 呼叫路徑變了（source = "./modules/..." → source = "../../modules/..."）但 moved block 沒跟著更新
terraform.tfvars 的某個值跟原本寫死的不一致
provider 版本在 init 時升級了

修到零變更。這一步結束後 retrofit 完成——prod 和 dev 各持獨立 state、共用同一套 module、環境差異全部收斂在 tfvars 裡。
常見陷阱
moved block vs terraform state mv
兩者都能告訴 Terraform 資源搬了家。moved block 是宣告式的——寫在 HCL 裡、可以 review、可以 revert（刪掉 moved block 就回去）。terraform state mv 是命令式的——直接改 state，沒有 review 機制、改完沒有 undo。
優先用 moved block。state mv 留給 moved block 表達不了的情境：跨 state 搬遷（把資源從一份 state 移到另一份）、或 Terraform 版本太舊不支援 moved block（0.13 以下）。
forces replacement 觸發
某些 resource 的某些 attribute 是「改了就要重建」的（immutable attribute）。常見的觸發：

  
      
          Resource
          Attribute
          改了會怎樣
      
  
  
      
          aws_db_instance
          identifier
          forces replacement（資料遺失）
      
      
          aws_db_instance
          engine
          forces replacement
      
      
          aws_instance
          ami
          forces replacement
      
      
          aws_s3_bucket
          bucket
          forces replacement（bucket 名稱不可改）
      
      
          aws_vpc
          cidr_block
          forces replacement
      
  

Retrofit 過程中如果不小心改了這些 attribute（例如把 identifier = "mydb" 參數化時打錯了值），plan 會顯示 must be replaced。stateful 資源的 replacement 代表先刪後建——對 RDS 來說就是資料遺失。所以每一步 plan 都要特別檢查有沒有 forces replacement 的輸出。
State locking 與並行操作
Retrofit 期間如果有其他人同時 apply（CI pipeline 被觸發、同事在操作），兩邊的 state 操作會衝突。DynamoDB lock table 會擋下並行的 apply，但 init 和 plan 不一定會被擋。
操作建議：retrofit 開始前在團隊頻道通知「infra 暫停操作」，retrofit 完成後再解除。如果用 Atlantis，可以暫時鎖定 apply 權限。時程參考：10-20 個資源的環境，步驟一到五約需半天到一天。
跨分類引用

→ 環境分離與模組化：retrofit 的目標結構與設計原則
→ IaC 工具選型與 state 地基：state backend 的設定與 lock 機制
→ 模組五：Stateful 資源保護：stateful 資源的 replacement 風險
→ infra 走 PR 流程：retrofit 的每一步走 PR 讓 plan 可被 review




跨帳號策略 — Organizations、SCP 與帳號工廠
Fri, 26 Jun 2026 00:00:00 +0000
單一帳號走到某個規模後，帳號本身會變成隔離的瓶頸。IAM policy 能控制「誰能做什麼」，但同一個帳號裡的所有資源共用同一組 service quota、同一份 CloudTrail、同一張帳單，一個團隊的操作失誤或資源耗盡會波及整個帳號。把環境拆成獨立帳號，讓每個帳號只承載一個職責，是 IAM 之上的第二層隔離 — 模組二的身分與憑證地基控制的是「誰能做什麼」，帳號邊界控制的是「做錯了波及多遠」。
單帳號 vs 多帳號：什麼時候該切
單帳號在早期是合理的起點 — 資源少、人少、管理成本低。帳號邊界帶來的隔離收益要跟它的管理成本比較：每多一個帳號就多一份 CloudTrail、多一組 IAM 基線、多一個需要管理的 state backend。
三個訊號出現時，單帳號的邊際風險開始超過多帳號的管理成本：
第一，production 和 dev 的資源開始互相影響。一個 dev 環境的壓力測試把帳號的 EC2 instance quota 吃滿，production 的 auto-scaling 因為拿不到新 instance 而失敗 — 這個故障跟程式碼品質無關，純粹是兩個環境共用同一組配額。帳號分開後，dev 吃滿自己的 quota 不會碰到 production。
第二，權限邊界用 IAM 已經管不住。一個工程師的 IAM policy 限制他只能操作 env=dev 的資源，但他手滑用了一個沒有 tag 條件的 policy、或者某個 IAM role 的 trust policy 太寬，他就能碰到 production 資源。帳號邊界是比 IAM policy 更硬的護欄 — 即使 IAM 設定出錯，帳號邊界本身就是物理隔離。
第三，合規或稽核要求明確區分環境。SOC 2 或金融監管可能要求 production 環境有獨立的存取紀錄和變更審計，與開發環境完全分離。同帳號裡做這件事要靠大量的 IAM 條件和 CloudTrail filter，跨帳號則天然滿足。
OU 結構：帳號怎麼分群
AWS Organizations 用 Organizational Unit（OU）把帳號分群，OU 是 SCP 的掛載點 — 一條 SCP 掛在 OU 上，底下所有帳號都受約束。OU 的設計決定了護欄的作用範圍。
常見的 OU 拓撲有四層：

  
      
          OU
          底下的帳號
          職責
      
  
  
      
          Security
          Log Archive、Security Tooling
          集中存放 CloudTrail / Config 日誌、安全工具帳號
      
      
          Workload / Prod
          每個產品線或服務的 production 帳號
          承載正式流量，SCP 最嚴格
      
      
          Workload / NonProd
          dev、staging 帳號
          承載開發與驗證，SCP 較寬鬆但仍有底線
      
      
          Sandbox
          個人實驗帳號
          可隨時重建，SCP 限制預算上限和禁止的服務
      
  

環境怎麼對應到帳號，跟模組四的環境分離是同一個問題的不同層次 — 模組四用目錄和 state 分離環境的 IaC，這裡用帳號分離環境的雲端資源。兩者可以疊加：每個帳號裡的 IaC 仍然用獨立目錄和 state 管理。
OU 結構的設計原則是「按信任等級分群、按職責隔離」。Prod 跟 NonProd 分開是因為信任等級不同（prod 的 SCP 更嚴格）。Security 獨立是因為它的職責是「監控其他所有帳號」— 如果 security 帳號被攻破，攻擊者能修改稽核日誌來掩蓋行蹤，所以它的存取權限要收到最小。
一個常見的錯誤是把 OU 當成組織架構的映射（按部門分 OU）。OU 的分群依據是安全邊界和 SCP 策略，不是彙報線。兩個部門如果需要相同的 SCP，它們的帳號應該在同一個 OU 底下；一個部門如果有 prod 和 dev 環境，它們應該在不同 OU 底下。
SCP：連管理員都越不過的護欄
Service Control Policy（SCP）是掛在 OU 或帳號上的權限天花板。它跟 IAM policy 的差別是層級：IAM policy 控制「這個身分能做什麼」，SCP 控制「這個帳號裡的任何身分最多能做什麼」。即使帳號內的 root user 或 AdministratorAccess role，也受 SCP 約束。
SCP 的設計策略以 deny-list 為主 — 預設允許所有動作，用 SCP 明確禁止少數高風險操作。相比 allow-list（預設禁止、逐一開放），deny-list 的管理成本低得多，因為 AWS 的 service 和 action 數量龐大，逐一列舉允許清單容易漏、也容易在新服務上線時擋住正常使用。
三條適合從第一天就掛上去的 SCP：
禁止關閉 CloudTrail





 1{
 2  "Version": "2012-10-17",
 3  "Statement": [{
 4    "Sid": "DenyCloudTrailDisable",
 5    "Effect": "Deny",
 6    "Action": [
 7      "cloudtrail:StopLogging",
 8      "cloudtrail:DeleteTrail",
 9      "cloudtrail:UpdateTrail"
10    ],
11    "Resource": "*"
12  }]
13}
CloudTrail 是事後追溯「誰做了什麼」的唯一來源。攻擊者入侵帳號後的第一步往往是關掉稽核日誌來掩蓋行蹤，用 SCP 禁止這個動作，讓日誌在帳號層級不可關閉。
禁止離開指定 region





 1{
 2  "Version": "2012-10-17",
 3  "Statement": [{
 4    "Sid": "DenyOutsideRegion",
 5    "Effect": "Deny",
 6    "NotAction": [
 7      "iam:*",
 8      "sts:*",
 9      "organizations:*",
10      "support:*"
11    ],
12    "Resource": "*",
13    "Condition": {
14      "StringNotEquals": {
15        "aws:RequestedRegion": ["ap-northeast-1", "us-east-1"]
16      }
17    }
18  }]
19}
限制資源只能建在指定 region，避免有人在沒人注意的 region（如 af-south-1）開資源 — 不管是誤操作還是攻擊者利用。NotAction 裡排除 IAM 和 STS 等全域服務，因為它們不分 region。us-east-1 通常要保留，因為 CloudFront、ACM（global cert）等服務的 API 端點在 us-east-1。
禁止刪除 VPC Flow Logs





1{
2  "Version": "2012-10-17",
3  "Statement": [{
4    "Sid": "DenyDeleteFlowLogs",
5    "Effect": "Deny",
6    "Action": "ec2:DeleteFlowLogs",
7    "Resource": "*"
8  }]
9}
VPC Flow Logs 記錄網路層的流量軌跡，是安全事件排查的關鍵資料。跟 CloudTrail 的邏輯一樣 — 稽核資料不允許被帳號內的操作者刪除。
SCP 的繼承模型
SCP 沿著 OU 樹向下繼承：掛在 Root OU 的 SCP 對所有帳號生效，掛在子 OU 的 SCP 只對該 OU 底下的帳號生效。多層 SCP 的效果是交集 — 父 OU 禁止的動作，子 OU 無法用 SCP 重新允許。這個交集模型讓安全團隊能在頂層設「絕對底線」，各子 OU 只能在底線之內進一步收斂、不能放寬。
把 SCP 用 Terraform 管理：





 1resource "aws_organizations_policy" "deny_cloudtrail_disable" {
 2  name        = "deny-cloudtrail-disable"
 3  description = "Prevent anyone from stopping or deleting CloudTrail"
 4  type        = "SERVICE_CONTROL_POLICY"
 5  content     = file("policies/deny-cloudtrail-disable.json")
 6}
 7
 8resource "aws_organizations_policy_attachment" "root_deny_cloudtrail" {
 9  policy_id = aws_organizations_policy.deny_cloudtrail_disable.id
10  target_id = aws_organizations_organization.main.roots[0].id
11}
SCP 的 JSON 存在 repo 的 policies/ 目錄，變更走 PR review，讓護欄本身也在版本控制與審查流程裡。
控制面 token 的治理是 SCP 護欄之外需要同步處理的議題。Cloudflare 2023 事件中，控制面 token 的生命週期與最小權限沒有對齊，機器憑證形成跨服務的高權限風險（見 Cloudflare：Control-plane Token 事件）。Okta 2023 事件則顯示身份治理若只覆蓋生產系統而忽略支援工具鏈，支援系統的 session 和 token 會成為跨租戶的風險放大點（見 Okta：Support System 事件）。兩個案例的共同教訓是：SCP 管的是 AWS API 層的動作上限，但 token / session 這類應用層的機器憑證需要獨立的 lifecycle 治理。
帳號工廠：每個新帳號自帶安全基線
跨帳號策略（帳號數量、OU 結構、SCP 規則）屬於影響全組織的架構決策，建議在實施前取得技術主管或 CTO 的對齊。SCP 一旦套用到 OU，該 OU 下所有帳號立即受影響，回退需要修改 SCP 或移動帳號到不同 OU。
手動建帳號的問題跟手動建資源一樣 — 每次都靠人記得「開完帳號後要開 CloudTrail、要刪預設 VPC、要設基線 IAM role」。帳號工廠（Account Factory）把這些步驟自動化成一個可重複的流程：建一個帳號、自動套用安全基線、自動加進正確的 OU。
AWS Control Tower 是 AWS 提供的帳號工廠實作，它包裝了 Organizations、SCP、Config Rules 和 CloudFormation StackSet，提供一個「建帳號 → 自動配置」的流水線。它的好處是一鍵啟用、內建一組 AWS 建議的護欄；代價是它對 OU 結構和 SCP 有自己的意見，跟團隊已有的設計可能衝突，而且它用 CloudFormation StackSet 做基線配置，跟 Terraform 管理的資源需要劃清邊界。
不用 Control Tower 時，帳號工廠可以用 Terraform + 腳本自建。核心是一個 module 接受帳號名稱和 OU 作為參數，產出：帳號建立、CloudTrail trail、預設 VPC 刪除、基線 IAM role（讓管理帳號能 assume 進來做維護）、Config recorder 啟用。
每個新帳號該自帶的安全基線至少包含：

CloudTrail 開啟並寫到集中的 Log Archive 帳號
預設 VPC 刪除（預設 VPC 的 security group 全通、CIDR 固定且跨帳號重複，留著是隱患）
基線 IAM role 讓管理帳號能 assume 進來
Config recorder 啟用（記錄資源設定變更歷史）
掛上所屬 OU 的 SCP

導入時程參考：初次設定 Organizations + OU 結構 + day-1 SCP 約需 2-3 天；之後每開一個新帳號（含基線配置）約需 2-4 小時。
跨帳號存取：role assumption
多帳號架構裡，人或自動化需要在不同帳號之間切換操作。跨帳號存取用 IAM role 的 trust policy 實現 — 目標帳號建一個 role，trust policy 允許來源帳號的特定身分 assume 這個 role。
AWS Organizations 在建子帳號時會自動建一個 OrganizationAccountAccessRole，讓管理帳號的 admin 能 assume 進去。這個 role 的權限是 AdministratorAccess — 它的用途是初始設定和緊急存取，日常操作不該用它。日常的跨帳號存取應該建立職責專用的 role：部署用的 role 只有部署相關權限、唯讀稽核用的 role 只有 read 權限。





 1resource "aws_iam_role" "deploy_from_cicd" {
 2  name = "deploy-from-cicd-account"
 3
 4  assume_role_policy = jsonencode({
 5    Version = "2012-10-17"
 6    Statement = [{
 7      Effect    = "Allow"
 8      Principal = { AWS = "arn:aws:iam::111111111111:role/cicd-runner" }
 9      Action    = "sts:AssumeRole"
10      Condition = {
11        StringEquals = { "sts:ExternalId" = "deploy-prod-2026" }
12      }
13    }]
14  })
15}
ExternalId 是防止 confused deputy 攻擊的機制 — 如果 trust policy 只用帳號 ID 驗證，任何能在來源帳號建 role 的人都能 assume 目標 role。加上 ExternalId 讓 assumption 多一個只有雙方知道的驗證值。
跨帳號存取的設計與模組二的 OIDC 短期憑證互補 — OIDC 解決「雲外到雲內」的身分聯合（CI/CD → AWS），role assumption 解決「雲內帳號之間」的身分切換。
帳單整合
Organizations 的附帶收益是合併帳單（Consolidated Billing）。所有子帳號的用量合併到管理帳號的帳單裡，一方面簡化付款流程（一張帳單而非多張），另一方面可以享受跨帳號的用量折扣 — 例如 S3 的定價階梯是看總用量，三個帳號各用 1TB 分開計費跟合併成 3TB 計費，後者的單位價格更低。
合併帳單跟成本歸屬的 tagging 互補。合併帳單讓所有費用匯到一張帳單，tagging 讓這張帳單能拆到各團隊和用途 — 這兩件事在模組八的成本可見性展開。帳號邊界本身也是一層成本隔離：每個帳號的用量可以獨立查看，讓「這個帳號這個月花了多少」變成自動可查、不需要依賴 tag。
跨分類引用

→ 身分與憑證地基：IAM role / policy / OIDC 是帳號內的身分控制，本篇是帳號間的隔離
→ 環境分離與模組化：目錄與 state 分離環境的 IaC，帳號分離是雲端資源層的對應
→ 成本可見性：合併帳單 + tagging 的成本歸屬
→ infra 走 PR 流程：SCP 的 JSON 存 repo、變更走 PR review




運算平台上 IaC — ECS 與 EKS
Fri, 26 Jun 2026 00:00:00 +0000
運算是業務程式碼的執行載體。infra 這層描述的是「運算容量與接線」— 它跑在哪些 subnet、套用哪個 IAM role、掛到哪個 load balancer 的 target group、以及容量怎麼隨負載擴縮。實際跑什麼版本的程式碼由部署流程決定，這個邊界讓 infra 變更與應用發布各走各的節奏 — infra apply 不會因此改動映像，部署 pipeline 不會因此改動 subnet。
核心服務的部署順序由依賴方向決定（被依賴的先建），運算在這個四層依賴結構裡位於第三層：它引用底層的 subnet、security group 與 IAM role，同時被上層的 load balancer target group 引用。所以運算資源的 IaC 定義裡，subnet ID、security group ID、IAM role ARN 都應該是引用而非硬編碼 — 底層重建時上層才會自動跟上。
ECS vs EKS 選型
ECS 與 EKS 都能跑容器，差異在控制平面的維運模型與生態適配。選型看的是團隊能力與業務需求，而非功能多寡 — 兩者都能達成「容器跑在私有 subnet、用 IAM role 存取資源、掛到 ALB 接收流量」這個基本目標。

  
      
          維度
          ECS
          EKS
      
  
  
      
          控制平面維運
          AWS 完全代管
          AWS 代管 API server，附加元件自行管理
      
      
          學習曲線
          低（AWS 原生概念）
          高（Kubernetes 生態）
      
      
          跨雲可攜
          低（AWS 專屬）
          高（Kubernetes 標準）
      
      
          IaC 工具鏈
          全部用 Terraform AWS provider
          Terraform 建 cluster，workload 走 Helm
      
      
          適合場景
          AWS 單雲、團隊無 K8s 經驗
          已有 K8s 能力或需要其生態時
      
  

ECS 的控制平面由 AWS 代管，service、task definition、target group 都是 AWS 原生資源，Terraform 的 provider 直接描述，心智負擔低。它的 Fargate 啟動類型更進一步 — 連 EC2 instance 都不用管，只描述 task 要多少 CPU 和記憶體，AWS 負責排程到底層主機。
EKS 的控制平面是受管的 Kubernetes，IaC 描述的是 cluster 本身與 node group，workload（Deployment、Service）則走 Kubernetes manifest 或 Helm chart。這代表 infra 工具鏈跨越了 Terraform 與 Kubernetes 兩套系統 — Terraform 負責 cluster 基礎設施，kubectl / Helm 負責工作負載，兩者的 state 與變更流程是分開的。
團隊已有 Kubernetes 能力或需要其生態（service mesh、自訂排程器、多雲部署、社群的 operator 生態）時，EKS 的複雜度才值得承擔。否則 ECS 的低負擔是預設起點。一個自測方式：團隊選了 EKS 但只用到最基本的 Deployment + Service，沒有碰 service mesh、CRD 或跨雲，那等於承擔了 Kubernetes 的維運成本卻沒用到它的回報——退回 ECS 通常更合理。
Fargate vs EC2 launch type
ECS 的執行模式再分 EC2 launch type 和 Fargate launch type。EC2 launch type 需要自己管理 EC2 instance 組成的 capacity provider — AMI 更新、instance 擴縮、OS 層安全修補都是團隊的責任。Fargate 由 AWS 代管運算實例，不需要配 capacity provider、不需要管 AMI，進一步降低運維面。
Fargate 的代價是三個面向：單位成本較高（同規格的 vCPU/記憶體比 EC2 貴約 20-40%）、不支援 GPU workload、啟動延遲稍長（cold start 約 30-60 秒，EC2 已有 instance 時近乎即時）。多數 web API 和非 GPU 的背景工作的初始選擇是 Fargate — 省掉的運維時間通常抵得過溢價。流量穩定且需要成本最佳化時再切回 EC2 launch type，屆時增加的是 capacity provider 的設定與 instance 管理。量級參考：一個持續運行 2 vCPU / 4GB 的 Fargate task 月費約 $70，同規格 EC2 t3.medium 約 $30。月費差距在服務數量少時不顯著，當 task 數量超過 10-20 個且流量穩定時，切回 EC2 launch type 的節省量才值得投入切換工程。
後續 HCL 範例以 ECS Fargate 示意，EKS 的接線骨架（subnet、IAM、target group）相近，差異落在編排層的資源類型。
Task definition：描述容器規格與接線
Task definition 是 ECS 描述「一個工作單元長什麼樣」的宣告：要跑哪個容器映像、給多少 CPU 和記憶體、開哪些 port、用哪個 IAM role、log 送到哪裡。它是運算 IaC 的核心資源。





 1resource "aws_ecs_task_definition" "api" {
 2  family                   = "api-${var.env}"
 3  requires_compatibilities = ["FARGATE"]
 4  network_mode             = "awsvpc"
 5  cpu                      = var.task_cpu
 6  memory                   = var.task_memory
 7  execution_role_arn       = aws_iam_role.ecs_execution.arn
 8  task_role_arn            = aws_iam_role.api_task.arn
 9
10  container_definitions = jsonencode([{
11    name  = "api"
12    image = "${var.ecr_repo_url}:${var.image_tag}"
13    portMappings = [{ containerPort = 8080, protocol = "tcp" }]
14    logConfiguration = {
15      logDriver = "awslogs"
16      options = {
17        "awslogs-group"         = aws_cloudwatch_log_group.api.name
18        "awslogs-region"        = var.region
19        "awslogs-stream-prefix" = "api"
20      }
21    }
22  }])
23}
這段定義裡有三個刻意的設計：
映像版本解耦：var.image_tag 在 infra 的 tfvars 裡給一個穩定的預設值（如 latest 或某個基線版本），部署管線覆寫這個值推新版本。infra apply 不會因此改動映像、部署 pipeline 不會因此改動 subnet — 兩者的變更頻率與審查強度不同，混在一起會讓快的等慢的。如果每次部署新版本都要改 infra 的 Terraform code 並跑 apply，代表映像版本跟 infra 沒有解耦——應該讓部署管線直接用 aws ecs update-service 或修改 task definition 的 image tag，不走 Terraform。
兩個 IAM role 的分工：execution_role_arn 是 ECS 代理用來拉映像和寫 log 的身分 — 它的權限是 ECS 平台層級的，跟業務邏輯無關。task_role_arn 是容器內的應用程式碼在執行期取得的身分 — 它的權限對應業務需求，例如讀寫某個 S3 bucket 或呼叫某個 SQS queue。兩者混在同一個 role 上，就是把平台權限跟業務權限混在一起，違反最小權限（見模組二：身分與憑證地基）。





 1resource "aws_iam_role" "api_task" {
 2  name               = "api-task-${var.env}"
 3  assume_role_policy = data.aws_iam_policy_document.ecs_assume.json
 4}
 5
 6resource "aws_iam_role_policy" "api_task" {
 7  role   = aws_iam_role.api_task.id
 8  policy = data.aws_iam_policy_document.api_permissions.json
 9}
10
11data "aws_iam_policy_document" "api_permissions" {
12  statement {
13    actions   = ["s3:GetObject", "s3:PutObject"]
14    resources = ["${aws_s3_bucket.uploads.arn}/*"]
15  }
16  statement {
17    actions   = ["sqs:SendMessage"]
18    resources = [aws_sqs_queue.notifications.arn]
19  }
20}
Log 接線：logConfiguration 把容器的 stdout/stderr 導向 CloudWatch Logs，log group 名稱引用的是同一份 IaC 裡宣告的資源 — 這正是模組六：可觀測性與 log 說的「監控跟資源同生命週期」。
ECS service：部署模式與網路接線
ECS service 控制「要跑幾個 task、怎麼部署新版本、掛到哪個 target group」。它是 task definition 的執行實例管理者。





 1resource "aws_ecs_service" "api" {
 2  name            = "api-${var.env}"
 3  cluster         = aws_ecs_cluster.main.id
 4  task_definition = aws_ecs_task_definition.api.arn
 5  desired_count   = var.api_desired_count
 6  launch_type     = "FARGATE"
 7
 8  network_configuration {
 9    subnets          = [for s in aws_subnet.private : s.id]
10    security_groups  = [aws_security_group.api.id]
11    assign_public_ip = false
12  }
13
14  load_balancer {
15    target_group_arn = aws_lb_target_group.api.arn
16    container_name   = "api"
17    container_port   = 8080
18  }
19
20  deployment_circuit_breaker {
21    enable   = true
22    rollback = true
23  }
24}
network_configuration 把 task 放進 private subnet 並套用 security group — 它決定了這些容器在網路拓撲裡的位置（見模組三：網路地基）。assign_public_ip = false 讓容器不拿公網 IP，對外流量經由 NAT 出去、入站流量經由 ALB 進來。
deployment_circuit_breaker 是 ECS 的內建保護：部署新版本時如果 task 持續啟動失敗（health check 不過、容器 crash），ECS 會自動回滾到上一版。這個行為需要明確開啟、預設是關的 — 關著的話，壞版本的 task 會反覆啟動失敗，新版始終上不來但舊版也不會回來，服務陷入降級狀態。
連線管理：運算到資料庫的接線
運算到資料庫之間有一段常被略過的接線：連線管理。無狀態運算水平擴張時，每個 task 各自開連線到 RDS，容易把資料庫的連線數打滿。RDS 的連線上限由 instance class 決定（例如 db.r6g.large 約 1000 個連線），而一個跑了 50 個 task 的 ECS service，每個 task 開 20 個連線就到上限了。
出現「擴運算反而拖垮 DB」的訊號時，要引入連線池或受管的連線代理。RDS Proxy 在運算與 RDS 之間代理連線，把運算端的大量短命連線收斂成少量長期連線再進資料庫。它也可以寫進 IaC 並輸出端點給運算引用：





 1resource "aws_db_proxy" "main" {
 2  name                   = "api-proxy-${var.env}"
 3  engine_family          = "POSTGRESQL"
 4  role_arn               = aws_iam_role.rds_proxy.arn
 5  vpc_subnet_ids         = [for s in aws_subnet.private : s.id]
 6  vpc_security_group_ids = [aws_security_group.rds_proxy.id]
 7
 8  auth {
 9    auth_scheme = "SECRETS"
10    secret_arn  = aws_secretsmanager_secret.db_password.arn
11  }
12}
13
14output "db_endpoint" {
15  value = aws_db_proxy.main.endpoint
16}
運算端的連線字串指向 proxy 端點而非 RDS 端點。proxy 的 security group 允許來自運算 security group 的流量，proxy 到 RDS 的流量則由 proxy 自己的 security group 對 RDS security group 的規則控制 — 安全邊界多了一層但更清晰。
Auto-scaling：容量隨負載擴縮
ECS service 的 desired_count 是靜態的起始容量。要讓容量隨負載動態調整，需要加上 Application Auto Scaling。它的責任是在負載上升時長出更多 task、負載下降時縮回去省錢。
auto-scaling 的核心決策是「用什麼指標觸發擴縮」。常見的指標分兩類：

  
      
          指標類型
          典型指標
          適用情境
      
  
  
      
          資源利用率
          CPU utilization、memory utilization
          運算密集型服務，CPU 與負載正相關
      
      
          業務吞吐量
          ALB request count per target
          I/O 密集型服務，CPU 低但併發高
      
  

CPU utilization 是最直覺的指標，但它在 I/O 密集型服務上會失準 — 一個等待外部 API 回應的 task，CPU 很低但已經沒有多餘的能力處理新請求。這時用 ALB 的 request count per target（每個 task 平均處理幾個請求）更能反映真實負載。





 1resource "aws_appautoscaling_target" "api" {
 2  max_capacity       = var.api_max_count
 3  min_capacity       = var.api_min_count
 4  resource_id        = "service/${aws_ecs_cluster.main.name}/${aws_ecs_service.api.name}"
 5  scalable_dimension = "ecs:service:DesiredCount"
 6  service_namespace  = "ecs"
 7}
 8
 9resource "aws_appautoscaling_policy" "api_cpu" {
10  name               = "api-cpu-${var.env}"
11  policy_type        = "TargetTrackingScaling"
12  resource_id        = aws_appautoscaling_target.api.resource_id
13  scalable_dimension = aws_appautoscaling_target.api.scalable_dimension
14  service_namespace  = aws_appautoscaling_target.api.service_namespace
15
16  target_tracking_scaling_policy_configuration {
17    target_value       = 60
18    predefined_metric_specification {
19      predefined_metric_type = "ECSServiceAverageCPUUtilization"
20    }
21    scale_in_cooldown  = 300
22    scale_out_cooldown = 60
23  }
24}
target_value = 60 表示目標 CPU 平均維持在 60% — 留 40% 的餘裕應對突發。scale_out_cooldown 設短（60 秒），讓擴張反應快；scale_in_cooldown 設長（300 秒），避免負載短暫下降就立刻縮容、結果下一波流量來了又要重新擴張。
設了 auto-scaling 後要定期看 scaling activity log 確認它在正確的時機擴縮。從來沒觸發過有兩種可能：min_capacity 已經高於實際需求（資源浪費），或 target value 設太高（來不及擴）。
max_capacity 是成本護欄 — 設一個你能接受的上限，避免異常流量（爬蟲、攻擊、上游重試風暴）把 task 數推到遠超預期的帳單。運行期的成本優化在 devops 模組八：成本管理 展開。
規模放大後，auto-scaling 的行為模式會改變。Pokémon GO 上線時實際流量達預估的 50 倍，這類突發不是 auto-scaling 能事前規劃的——50 倍的 headroom 會讓平日成本不合理。Niantic 的 infra 層前提是 GKE 把容器啟動時間降到秒級，讓 surge 反應成為可能；同時依賴 Google CRE 即時補 node 容量。Zoom COVID 期間的 30 倍突發 則是結構性成長——日活從 1000 萬升到 3 億後不會回落，容量規劃的 baseline 需要永久重新校準。兩個案例的共同教訓是：auto-scaling 的 max_capacity 設定要預留突發空間，但極端突發的處理靠的是平台能力（容器化的快速啟動）和 vendor 支援（managed service 的彈性），不是 IaC 配置能獨立解決的。
多叢集治理是另一個規模維度。Riot Games 用 246 個 EKS cluster 跨多遊戲多地區，每個遊戲一個獨立叢集（避免跨遊戲互相影響），搭配 Terraform 做 IaC、Karpenter 做 node lifecycle，年省 1000 萬美金。infra 層的教訓是：當運算叢集數量從個位數長到數十甚至數百，叢集本身變成需要 IaC 治理的資源——叢集的建立、版本升級、安全基線都要標準化。Condé Nast 的 EKS 平台整併也印證了同樣的模式：多團隊各自維護異質 K8s 叢集會造成安全基線不一致，整併到統一平台後把 kube2iam（有 race condition 風險）換成 IRSA（OIDC federation），消除了 node-level 的 credential 共用。
跨分類引用

→ 模組二：身分與憑證地基：execution role 與 task role 的最小權限設計
→ 模組三：網路地基：運算放在 private subnet、security group 接線
→ 模組六：可觀測性與 log：log group 與 task definition 同生命週期
→ devops 模組八：成本管理：auto-scaling 的成本護欄與 spot/Fargate Spot 混用




模組二：身分與憑證地基 — IAM 與 OIDC
Fri, 26 Jun 2026 00:00:00 +0000
權限一旦散落，後面每一層都建在沙上。網路收斂得再好，只要一把權限過大的長期憑證流出，攻擊者就能繞過所有邊界直接動到核心資源；環境分得再乾淨，只要 production 跟 staging 共用同一組身分，一次誤操作就跨環境炸開。身分與憑證是地基層最先該收斂的能力，因為它決定了「誰能動什麼」這個問題有沒有可信的答案。這一章把這個地基設計好，讓後面的網路、環境分離、服務上線都有一個明確的權限模型可以掛靠。
IAM 的心智模型
IAM（Identity and Access Management）是雲端平台用來回答「某個身分能不能對某個資源做某件事」的授權系統。它把授權拆成三個獨立的零件：identity（身分，發起動作的主體）、policy（政策，描述「允許/拒絕對哪些資源做哪些動作」的規則）、role（角色，一組可以被臨時取得的權限集合）。理解這三者的分工，是後面所有憑證決策的前提。
identity 分兩類，這個區分在後面設計權限邊界時會反覆用到。一類是 user，代表一個長期存在的主體，通常對應到一個真人或一個固定的服務帳號，本身可以持有長期憑證。另一類是 role，代表一組權限的暫時授予 — 沒有自己的長期密碼，而是讓某個被信任的身分「假扮（assume）」成它、換取一段有時效的臨時憑證。policy 則是貼在 user 或 role 上的規則文件，列出 Action（能做什麼，如 s3:GetObject）、Resource（對哪個資源）、Effect（允許或拒絕）。
最小權限（least privilege）是貫穿這套系統的設計原則：一個身分只應該拿到完成它本職工作所需的最小權限集合，多一個 action、多一個 resource 都是攻擊面。最小權限是持續收斂的過程，而非一次設定就結束的靜態狀態 — 服務初期常為了快速上線給寬鬆權限，之後要靠 access analyzer 這類工具觀察「實際用到哪些 action」，再把沒用到的權限收掉。判讀訊號很直接：如果一個 CI role 的 policy 裡有 *:* 或 AdministratorAccess，它就是下一個 incident 的入口。





1# 最小權限：CI 只能讀寫特定 bucket、不給整個 S3
2data "aws_iam_policy_document" "ci_artifacts" {
3  statement {
4    actions   = ["s3:GetObject", "s3:PutObject"]
5    resources = ["arn:aws:s3:::myapp-artifacts/*"]
6  }
7}
長期 access key 的風險
長期 access key 是一組沒有到期時間的靜態憑證（access key ID + secret），任何持有它的人或程式都能以對應身分的全部權限呼叫 API，直到有人手動撤銷為止。它最大的問題是「沒有時效」這個性質本身，會在三個方向上累積風險，而且風險隨團隊規模與時間單調上升。
第一是散落。長期 key 為了被程式使用，會被複製進 .env 檔、CI 設定、本機 ~/.aws/credentials、Slack 訊息、甚至誤推進 git 歷史。每多一個副本就多一個外洩點，而你很難盤點清楚一把 key 到底被貼進了多少地方。第二是權限過大。因為輪替麻煩，團隊傾向給一把 key 配足夠寬的權限「一次搞定」，於是一把本來只該讀 artifact 的 key 同時握有刪除 production 資料庫的能力。第三是難以輪替。輪替一把長期 key 意味著找出所有副本、同步替換、確認沒有遺漏，這個成本高到讓多數團隊選擇拖延，於是 key 的有效期變成「無限」，外洩後的曝險窗口也跟著變成無限。
判讀訊號是：如果你無法在五分鐘內回答「這把 key 被用在哪些地方、上次輪替是什麼時候」，它就已經是技術債。早期新創特別容易踩這個坑 — 一個工程師為了讓部署腳本跑起來，在筆電上建了一把 admin key，半年後這把 key 還在 CI 環境變數裡，建立它的人已經離職。這類事故的代價不在於「key 外洩」這個事件本身，而在於外洩之後你沒有任何手段限制爆炸半徑。
OIDC：給 CI/CD 的短期憑證
OIDC（OpenID Connect）聯合讓 CI/CD 平台用一段每次執行才簽發、幾分鐘後就失效的短期憑證取代長期 key，從根本上消掉「靜態密鑰散落」這個問題。它的運作方式是建立信任關係：雲端帳號信任某個外部 identity provider（如 GitHub Actions、GitLab CI 的 OIDC issuer），當管線執行時，CI 平台簽發一個帶有可驗證 claim 的 token（描述「這是哪個 repo、哪個 branch、哪個 workflow 在跑」），雲端用這個 token 換出一段臨時憑證。沒有任何長期 secret 需要被儲存在 CI 設定裡。
關鍵設計在 role 的 trust policy（信任政策）上 — 它規定「哪個外部身分被允許假扮成這個 role」。trust policy 要用 token 的 claim 把假扮條件收到最緊：限定 issuer、限定 audience、限定特定 repo 與 branch。收得太鬆（例如只驗 issuer、不驗 repo）等於任何掛在同一個 CI 平台的專案都能假扮你的 role，這是常見的設定陷阱。





 1# OIDC trust policy：只允許特定 repo 的 main branch 假扮此 role
 2data "aws_iam_policy_document" "ci_trust" {
 3  statement {
 4    actions = ["sts:AssumeRoleWithWebIdentity"]
 5    principals {
 6      type        = "Federated"
 7      identifiers = [aws_iam_openid_connect_provider.github.arn]
 8    }
 9    condition {
10      test     = "StringEquals"
11      variable = "token.actions.githubusercontent.com:aud"
12      values   = ["sts.amazonaws.com"]
13    }
14    condition {
15      test     = "StringLike"
16      variable = "token.actions.githubusercontent.com:sub"
17      values   = ["repo:my-org/my-app:ref:refs/heads/main"]
18    }
19  }
20}
這一章只把 role 與 trust policy 設計好，OIDC 的實際回報要到模組七：infra 走 PR 流程建管線時才兌現 — 屆時管線用這裡定義好的 role 取得短期權限執行 plan 與 apply，CI 環境裡不需要存任何 access key。下一步路由很明確：role 與最小權限的 policy 屬於這裡的地基，管線怎麼觸發、怎麼卡 review 屬於模組七。
權限邊界設計
權限邊界是把不同類型的身分與不同環境之間的權限刻意隔開，讓任何一個身分被攻破時，爆炸半徑都被限制在它本職的範圍內。邊界設計有兩條軸線需要分別處理：人 vs 機器，以及環境之間。
人 vs 機器的邊界，源自兩者的存取模式根本不同。人類身分需要互動式登入、應該強制 MFA、權限隨職責變動，且通常透過 SSO 集中管理而非各自持有 key。機器身分（CI、跑在運算資源上的服務）需要的是程式化、無人值守的存取，應該用 role 假扮取得短期憑證，永遠不該配長期 key。機器身分還要再分跑在哪裡：跑在雲上的 workload（運算實例、容器任務）由平台直接把 role 綁在執行環境上 — AWS 用 instance profile 把 role 掛在 EC2 instance、用 ECS task role 把 role 掛在容器任務，workload 從實例 metadata 自動取得輪替的短期憑證，這是早於 OIDC 就存在的標準解；只有跑在雲外的 CI/CD（如 GitHub Actions）拿不到實例 metadata，才需要前面那套 OIDC 信任關係換憑證。把這兩類混在同一個身分上，會讓你既無法對人強制 MFA，也無法對機器收斂權限。一個常見陷阱是工程師用自己的個人 key 跑自動化腳本 — 這把人的廣泛權限直接送進了無人值守的執行環境。
環境之間的邊界，目的是讓 production 的權限與 staging、dev 完全不交叉，避免一次誤操作或一個被攻破的低敏感環境波及到核心資產。實作上常見的做法是每個環境用獨立的帳號（account）或獨立的 role，部署到 production 的身分拿不到 staging 的資源、反之亦然。這條邊界在 AWS 上有兩層具體機制可以落地：帳號級的護欄用 Organizations 把環境拆成獨立帳號，再用 SCP（Service Control Policy）對整個帳號或組織單位設定權限天花板，連帳號內的管理員都越不過去；role 級的護欄用 Permissions Boundary 這個 IAM 字面功能，給單一 role 設一個權限上限，限制它「最多能拿到什麼」，即使有人後來給它貼了過寬的 policy 也會被天花板擋住。前者收的是帳號與組織的整體範圍，後者收的是單一身分的上限，兩者疊起來才讓「權限邊界」從概念變成擋得住誤設的具體工具。判讀訊號是：如果一個 dev 環境的 CI role 能列出或刪除 production 的資源，邊界就沒有真正建立。環境隔離的更完整實作（帳號結構、模組化參數）會在模組四：環境分離與模組化展開，這裡先確保身分層的權限不跨環境。
這一章談的是身分與憑證 — 誰是誰、怎麼證明、能動什麼。憑證背後引用的應用層 secret（資料庫密碼、第三方 API key）怎麼安全儲存與注入，屬於模組八：治理好習慣的 secret management 範圍，不在這裡處理。兩者的交集是：身分層決定「誰能讀到 secret store」，secret 層決定「secret 怎麼存與輪替」。
章節文章

  
      
          文章
          主題
      
  
  
      
          身分與憑證地基 — IAM 模型、OIDC 短期憑證與權限邊界設計
          IAM 的 identity / policy / role 三元件、最小權限的持續收斂、用 OIDC 取代長期 access key，以及 SCP 與 Permissions Boundary 的環境隔離
      
      
          跨帳號策略 — Organizations、SCP 與帳號工廠
          用 Organizations 把環境拆成獨立帳號、用 SCP 設定帳號級護欄、用帳號工廠自動化新帳號的建立流程
      
      
          團隊權限分級與存取管理
          三級權限模型（admin / operator / viewer）、臨時提權、定期 access review、contractor 存取
      
      
          Access Key 輪替手冊
          access key 盤點、輪替步驟、Secrets Manager 自動化輪替、key age 監控
      
      
          OIDC Trust Policy 設定指南
          GitHub Actions OIDC provider 設定、trust policy claim 收斂、plan/apply role 分離、常見錯誤排查
      
  

跨分類引用

→ 模組三：網路地基：身分備妥後，劃清服務之間的網路邊界
→ backend 模組七：資安與資料保護：Secret Management 與這裡的憑證管理交集
→ 模組七：infra 走 PR 流程：CI/CD 用 OIDC 取得短期權限
→ 接手維運：接手時的 credential 盤點與輪替




斷網環境的 IaC
Fri, 26 Jun 2026 00:00:00 +0000
Terraform 在連網環境執行 init 時會自動從 HashiCorp 的 registry 下載 provider plugin 和 module。斷網環境沒有這個路徑——provider、module、state backend 全部要用離線替代。IaC 的核心價值（宣告式描述 + state 追蹤 + plan 預覽）不因斷網而改變，改變的只是依賴的取得方式和 state 的存放位置。
Provider 離線管理
Provider Mirror
Terraform 的 providers mirror 指令在有網路的環境把指定 provider 的二進位檔下載到本地目錄，產出符合 filesystem mirror 結構的檔案：





 1# 在有網路的工作站執行
 2mkdir -p /path/to/mirror
 3terraform providers mirror -platform=linux_amd64 /path/to/mirror
 4
 5# mirror 目錄結構
 6# /path/to/mirror/
 7# └── registry.terraform.io/
 8#     └── hashicorp/
 9#         └── aws/
10#             └── 5.50.0/
11#                 └── terraform-provider-aws_5.50.0_linux_amd64.zip
把整個 mirror 目錄搬進隔離網路後，在 Terraform 設定裡指定 filesystem mirror：





 1# ~/.terraformrc 或 terraform.rc（Windows）
 2provider_installation {
 3  filesystem_mirror {
 4    path    = "/opt/terraform/providers"
 5    include = ["registry.terraform.io/*/*"]
 6  }
 7  direct {
 8    exclude = ["registry.terraform.io/*/*"]
 9  }
10}
direct 區塊的 exclude 確保 Terraform 不會嘗試連網下載——如果 mirror 裡沒有某個 provider，init 會直接報錯而非 hang 在網路連線。
Plugin Cache
替代 mirror 的另一個做法是 plugin cache directory。在有網路的環境跑過 init 後，.terraform/providers/ 裡會有已下載的 plugin。把這整個目錄搬進隔離網路，用 TF_PLUGIN_CACHE_DIR 環境變數指向它：





1export TF_PLUGIN_CACHE_DIR="/opt/terraform/plugin-cache"
2terraform init
mirror 跟 plugin cache 的差別：mirror 是正式的離線分發機制（有版本結構、支援多平台）、plugin cache 是快取機制（省重複下載、但目錄結構跟 mirror 不同）。長期運作用 mirror，臨時驗證用 cache。
Provider 版本鎖定
斷網環境的 provider 版本管理比連網更嚴格——升級一個 provider 代表要重新搬運整個 provider binary。在 versions.tf 裡鎖定精確版本（= 5.50.0 而非 ~> 5.50），避免 init 期待一個 mirror 裡沒有的版本：





1terraform {
2  required_providers {
3    aws = {
4      source  = "hashicorp/aws"
5      version = "= 5.50.0"
6    }
7  }
8}
Module 離線來源
連網環境的 module source 常指向 Terraform Registry 或 GitHub：source = "terraform-aws-modules/vpc/aws"。斷網環境要改成本地路徑或內部 git server。
本地路徑
最簡單——module 放在同一個 repo 或共用檔案系統的目錄裡：





1module "network" {
2  source = "../../modules/network"
3}
內部 Git Server
如果有架 Gitea 或 GitLab CE（見斷網通用原則），module 可以指向內部的 git repo：





1module "network" {
2  source = "git::http://gitea.internal/infra/modules.git//network?ref=v1.2.0"
3}
ref=v1.2.0 鎖定版本。內部 git server 的 module repo 用 git bundle 從外部搬運更新。
State Backend：沒有 S3 時的替代
連網環境的 state 通常放 S3 + DynamoDB lock。斷網環境如果沒有 AWS（地端機房或隔離網路），state backend 的替代選項：

  
      
          Backend
          適用情境
          Lock 機制
      
  
  
      
          本地檔案 + 共用磁碟
          小團隊、單人操作
          無（靠紀律避免並行 apply）
      
      
          Consul
          內網有 Consul cluster
          內建 lock
      
      
          PostgreSQL
          內網有 PostgreSQL
          內建 lock
      
      
          GitLab managed state
          內網有 GitLab CE
          內建 lock
      
      
          HTTP backend
          自建簡易 API
          自建 lock
      
  

最常見的組合是 PostgreSQL backend——多數環境已經有 PostgreSQL，不需要額外裝服務：





1terraform {
2  backend "pg" {
3    conn_str = "postgres://terraform:password@db.internal/terraform_state?sslmode=disable"
4  }
5}
PostgreSQL backend 的 lock 機制用 PostgreSQL 的 advisory lock，多人同時 apply 時第二個人會被擋住。
state 的備份紀律不變——定期 terraform state pull > backup.json，backup 存在版本控制或另一台機器上。
Plan / Apply 流程
斷網不影響 plan 和 apply 的執行——它們操作的是本地 provider 和目標基礎設施（地端伺服器、內部雲、VMware vSphere 等）。影響的是 provider 初始化和 module 取得，這些在前面幾節已處理。
沒有雲端 API 的情境
如果基礎設施不是雲端（地端 VMware、OpenStack、裸機），Terraform 有對應的 provider：

VMware vSphere：hashicorp/vsphere
OpenStack：terraform-provider-openstack/openstack
Proxmox：telmate/proxmox（社群維護）
裸機管理：用 null_resource + local-exec 呼叫 Ansible 或 shell script

provider 的離線管理方式相同——mirror 或 plugin cache。
Plan 輸出的離線 Review
沒有 GitHub PR 的環境，plan 輸出用檔案分享 review：





1# 產出 plan 並存成可讀格式
2terraform plan -out=plan.tfplan
3terraform show plan.tfplan > plan-review-$(date +%Y%m%d).txt
4
5# 把 review 檔放到內部共用位置供 reviewer 閱讀
6cp plan-review-*.txt /shared/reviews/
reviewer 讀完後以 email、內部 chat、或直接在 review 檔旁邊放一個 approved-by-alice-20260626.txt 標記核准。不優雅但可追溯。
內網 CI/CD
斷網環境的 CI/CD 用自架的 CI server：

  
      
          工具
          特性
          適用規模
      
  
  
      
          GitLab CE + Runner
          完整的 git + CI + review，功能最豐富
          中大團隊
      
      
          Gitea + Drone / Woodpecker
          輕量 git + 輕量 CI
          小團隊
      
      
          Jenkins
          老牌 CI、plugin 生態豐富
          任何規模（但維護成本高）
      
  

CI server 本身也需要離線安裝——GitLab CE 有 offline 安裝指南（.deb / .rpm 包）、Gitea 是單一二進位。CI runner 執行 Terraform 時使用內部的 provider mirror 和 module source。
CI workflow 的離線版本跟連網版本結構相同（init → fmt → validate → plan → review → apply），差別在 init 用 -plugin-dir 而非連網下載。
時程參考：內網 CI server 的初次建置（含 git server + CI runner + Terraform 離線環境）約需 3-5 天。之後的維護主要是 provider 版本更新的搬運（每次 1-2 小時）。
跨分類引用

→ 斷網環境的通用原則：provider 和 module 的搬運走 content ferry 模式
→ 模組一：最小可行 IaC：連網環境的 IaC 選型和 state 管理
→ 模組七：infra 走 PR 流程：連網環境的 CI pipeline 設定




checkov 與 tfsec 規則配置
Fri, 26 Jun 2026 00:00:00 +0000
checkov 和 tfsec 安裝後直接跑，通常會產出幾十到幾百條命中。全部修完不切實際、全部忽略又失去價值。這篇處理的是怎麼從「裝了工具」走到「工具的產出可信且可操作」——規則選擇、嚴重度過濾、豁免管理、自訂規則、CI 整合，以及 false positive 的處理流程。
規則選擇策略
兩個工具的內建規則集都超過數百條，涵蓋從加密設定到命名慣例。全開跑會讓命中清單長到沒人看。規則選擇的判準是「這條規則命中後，團隊會不會真的去修」——答案是不會的規則，開著只是製造噪音。
分層啟用
把規則分成三層逐步啟用，而非一次全開：

  
      
          層次
          規則類型
          範例
          啟用時機
      
  
  
      
          地基層
          資料外洩與權限失控
          S3 public access、SG 0.0.0.0/0、IAM wildcard
          day 1
      
      
          營運層
          加密與備份
          RDS encryption、EBS encryption、backup retention
          IaC 覆蓋率 >50%
      
      
          規範層
          命名、tagging、logging
          缺 tag、缺 log group、resource naming
          治理成熟後
      
  

地基層是即使其他規則都關掉也要開的——S3 bucket 對外公開（CKV_AWS_19、CKV_AWS_53）和 security group 全開（CKV_AWS_24、CKV_AWS_25）這類規則命中就是真問題。營運層在 IaC 覆蓋率夠高時啟用，否則會掃到大量不在 IaC 管理內的資源。規範層等團隊有能力消化命中量再開。
checkov 的規則過濾





1# 只跑地基層規則
2checkov -d . --check CKV_AWS_19,CKV_AWS_53,CKV_AWS_24,CKV_AWS_25,CKV_AWS_40,CKV_AWS_145
3
4# 或者用 framework 過濾（只掃 Terraform）
5checkov -d . --framework terraform --compact --quiet
checkov 支援 --check（白名單，只跑這些）和 --skip-check（黑名單，跳過這些）。初期用 --check 白名單比較可控——明確列出要跑的規則，而非從全集去扣。隨著團隊消化能力提升再擴大白名單。
tfsec 的嚴重度過濾





1# 只報 CRITICAL 和 HIGH
2tfsec . --minimum-severity HIGH
3
4# 排除特定規則
5tfsec . --exclude aws-s3-specify-public-access-block
tfsec 的嚴重度分 CRITICAL / HIGH / MEDIUM / LOW。初期設 --minimum-severity HIGH 把低嚴重度的過濾掉，減少噪音量。降低閾值的時機是 HIGH 以上的命中清零後。
豁免管理
不是每個命中都是錯——對外的 ALB 在 port 443 開 0.0.0.0/0 是設計意圖、不是漏洞。豁免的重點是讓例外顯式化、有理由、可被 review。
行內豁免





1resource "aws_security_group_rule" "alb_https" {
2  type        = "ingress"
3  from_port   = 443
4  to_port     = 443
5  protocol    = "tcp"
6  cidr_blocks = ["0.0.0.0/0"]
7  #checkov:skip=CKV_AWS_24:ALB 的 HTTPS 入站需要對外開放
8}
tfsec 的行內豁免：





1resource "aws_security_group_rule" "alb_https" {
2  #tfsec:ignore:aws-ec2-no-public-ingress-sgr -- ALB HTTPS listener requires public access
3  cidr_blocks = ["0.0.0.0/0"]
4}
行內豁免的好處是理由跟程式碼在一起，review 時一眼可見。壞處是散落在各檔案裡，盤點所有豁免要 grep。
集中式豁免
checkov 支援 .checkov.yaml 集中管理豁免：





1# .checkov.yaml
2skip-check:
3  - CKV_AWS_24  # ALB public-facing SG rules
4  - CKV_AWS_19  # Legacy S3 buckets pending migration
集中式的好處是一個地方看到所有豁免，適合全域性的例外（如「這批 legacy S3 bucket 還沒遷完、暫時跳過 public access 檢查」）。壞處是理由離程式碼太遠，三個月後沒人記得為什麼跳過。
豁免紀律
每個豁免都要寫理由（-- 之後的文字）。沒有理由的豁免等於靜默跳過——review 時看不出是故意的還是為了讓 CI 過而隨手加的。定期（每季度）跑一次豁免盤點：





1# 盤點所有 checkov 豁免
2grep -rn "checkov:skip" --include="*.tf" .
3
4# 盤點所有 tfsec 豁免
5grep -rn "tfsec:ignore" --include="*.tf" .
每個命中問一句：當初跳過的原因還成立嗎？legacy 遷移完了嗎？臨時的例外變成永久的了嗎？
自訂規則
內建規則覆蓋通用安全實踐，但專案特有的規範（如「所有 RDS 必須有 cost-center tag」「所有 S3 bucket 名稱必須以公司前綴開頭」）需要自訂。
checkov 自訂規則（Python）





 1# custom_checks/require_cost_center_tag.py
 2from checkov.terraform.checks.resource.base_resource_check import BaseResourceCheck
 3from checkov.common.models.enums import CheckResult, CheckCategories
 4
 5class CostCenterTagRequired(BaseResourceCheck):
 6    def __init__(self):
 7        name = "Ensure cost-center tag is present"
 8        id = "CUSTOM_001"
 9        supported_resources = ["aws_instance", "aws_db_instance", "aws_s3_bucket"]
10        categories = [CheckCategories.GENERAL_SECURITY]
11        super().__init__(name=name, id=id, categories=categories,
12                         supported_resources=supported_resources)
13
14    def scan_resource_conf(self, conf):
15        tags = conf.get("tags", [{}])[0]
16        if isinstance(tags, dict) and "cost-center" in tags:
17            return CheckResult.PASSED
18        return CheckResult.FAILED
19
20check = CostCenterTagRequired()




1# 跑自訂規則
2checkov -d . --external-checks-dir ./custom_checks
tfsec 自訂規則（YAML）





 1# .tfsec/custom_rules.yaml
 2- id: CUSTOM_001
 3  description: S3 bucket name must start with company prefix
 4  impact: Non-standard naming breaks cross-account policies
 5  resolution: Add company prefix to bucket name
 6  requiredTypes:
 7    - resource
 8  requiredLabels:
 9    - aws_s3_bucket
10  severity: MEDIUM
11  matchSpec:
12    name: bucket
13    action: startsWith
14    value: acme-
自訂規則的數量保持精簡——每條規則都是維護成本。只有「違反後會在後續流程造成問題」的規範值得寫成自動化規則，純粹的風格偏好留給 review 時口頭提醒。
CI 整合
把掃描接進 CI 的目標是「PR 合併前就攔下問題」，而非 apply 之後才發現。
GitHub Actions 範例





 1jobs:
 2  security-scan:
 3    runs-on: ubuntu-latest
 4    steps:
 5      - uses: actions/checkout@v4
 6
 7      - name: Run checkov
 8        uses: bridgecrewio/checkov-action@v12
 9        with:
10          directory: .
11          check: CKV_AWS_19,CKV_AWS_53,CKV_AWS_24,CKV_AWS_25
12          quiet: true
13          compact: true
14          soft_fail: false
15
16      - name: Run tfsec
17        uses: aquasecurity/tfsec-action@v1
18        with:
19          minimum_severity: HIGH
20          soft_fail: false
soft_fail: false 讓掃描命中時 CI 失敗、阻擋合併。初期可以先設 soft_fail: true（掃描報告但不阻擋），讓團隊觀察命中量，確認規則集合理後再切成強制。
掃描結果回貼 PR
checkov 和 tfsec 的 GitHub Actions 都支援把結果以 PR comment 回貼。讓 reviewer 在 PR 頁面直接看到掃描結果，不用去翻 CI log。checkov-action 預設會回貼；tfsec-action 需要額外的 github_token 設定。
漸進式導入





1Week 1-2：soft_fail=true，觀察命中量和 false positive 率
2Week 3：修完所有真問題，豁免所有合理的 false positive
3Week 4：切 soft_fail=false，掃描變成強制 gate
這個節奏讓團隊在掃描變成強制之前就清理完存量，避免「一開 hard fail 所有 PR 都過不了」的窘境。
False positive 處理
false positive 的處理有三條路，依復發頻率選：

  
      
          路徑
          適用情境
          做法
      
  
  
      
          行內豁免
          單一資源的合理例外
          在該資源加 checkov:skip + 理由
      
      
          全域跳過
          整個規則不適用於此專案
          加進 .checkov.yaml skip-check
      
      
          自訂規則覆蓋
          內建規則的判準不適合
          寫自訂規則取代內建規則
      
  

最常見的 false positive 是 ALB 的 public-facing security group（設計就是要開 443）和開發環境的寬鬆設定（dev 允許、prod 不允許）。後者可以用 checkov 的 --var-file 搭配環境變數區分——dev 跑寬鬆規則集、prod 跑嚴格規則集。
處理 false positive 時要抵抗「加 skip 讓 CI 過」的捷徑衝動。每個 skip 都要問：這是設計意圖（ALB 要開放）還是技術債（dev 環境暫時放寬）？前者寫永久豁免加理由，後者寫臨時豁免加 TODO 和預計修復時間。
跨分類引用

→ infra 走 PR 流程與自動化護欄：掃描在 PR 流程裡的定位與 plan/apply 的關係
→ Terraform CI Pipeline 設定：掃描步驟怎麼嵌入完整的 CI workflow
→ 模組三：Security Group 稽核與清理：掃描命中 0.0.0.0/0 後的處理流程




Drift（設定漂移）
Fri, 26 Jun 2026 00:00:00 +0000
Drift 指的是 IaC 的 state 記錄與雲端上的實際資源狀態之間的不一致。最常見的來源是有人繞過 IaC、直接在 Console 手動修改資源設定——state 不知道這次改動發生了，下一次 plan 時工具會把手動改的設定判定為「不在我的記憶裡、要修正回程式碼的版本」。
Drift 的代價會延遲浮現。手動改的當下看起來沒問題——設定改了、服務正常。問題出在後續某次不相關的 apply：工具用過時的 state 去比對，把手動改的設定覆蓋掉，服務因此斷線，而且在 PR 裡看不到這件事發生過。Drift 累積越多，每次 apply 的不確定性越高，最終團隊會開始害怕跑 apply，IaC 名存實亡。
概念位置
Drift 是 Console 唯讀鐵律存在的根本理由。模組一：Console 唯讀鐵律用權限機制（人類身分唯讀、寫入權限留給自動化身分）讓「在 Console 改不動」成為預設狀態，從源頭消除 drift 的產生。
可觀察訊號
Drift 存在的訊號：terraform plan 在沒人改過程式碼的情況下顯示變更（代表有人在 Console 動了東西）、團隊開始說「跑 plan 前先看看有沒有奇怪的差異」、某次例行 apply 意外改掉了不該改的設定。
偵測 drift 的主動方式是定期跑 terraform plan 但不 apply，把 diff 輸出當成 drift 偵測的報告。Terraform Cloud 有內建的 drift detection 功能，定期比對 state 與雲端現實。
設計責任
處理 drift 時要決定：

偵測頻率：每次 PR 觸發 plan（被動偵測）vs 定期排程 plan（主動偵測）
修正方向：把雲端改回程式碼的版本（apply），還是把程式碼改成雲端的版本（更新 HCL）——取捨在「程式碼是 source of truth」vs「手動改的設定有它的理由」
預防機制：Console 唯讀權限、CI gate 攔截未經 review 的 apply

鄰卡

State — drift 是 state 與現實的落差
IaC — drift 破壞 IaC 的 source of truth 地位



平台遷移
Fri, 26 Jun 2026 00:00:00 +0000
平台遷移改變的是系統跑在哪裡，不是系統跑什麼。應用程式碼不動，改變的是網路拓樸、儲存位置、運算環境與存取方式。遷移成功的判準是應用程式在新平台上以等同或更好的效能運作，且舊平台可以被安全退役。
遷移的核心約束是帶電施工——系統在搬遷過程中要持續服務。這決定了操作模式：在新平台建起平行環境、驗證通過後用 DNS 切換流量、確認沒問題再拆舊環境。每一步都保留回退到舊環境的能力，直到新環境穩定運行一段時間。
遷移路徑的常見組合

  
      
          路徑
          獲得
          失去
          主要變動
      
  
  
      
          共享主機 → VPS
          SSH、cron 彈性、自訂軟體安裝
          主機商代管的面板、email、自動備份
          需要自己管 OS、web server、SSL
      
      
          VPS → 雲端
          Auto-scaling、managed DB、IaC、多 AZ
          固定月費的簡單計費
          計費模型改按用量、運維複雜度上升
      
      
          地端 → 雲端
          彈性擴縮、不管硬體
          對硬體的直接控制
          網路重新設計、合規審查、資料主權確認
      
  

每條路徑的遷移工程量級不同：共享主機 → VPS 是最輕的（應用層搬家）、地端 → 雲端是最重的（整個基礎設施重建）。選擇遷移路徑時先確認商業目標——如果目標是「能裝自訂軟體」，共享主機 → VPS 就夠了，不需要一步跳到雲端。
共享主機 → VPS 遷移
遷移前的記錄
把共享主機的所有設定記下來，作為 VPS 上重建的 checklist。需要記錄的項目：

  
      
          項目
          記錄方式
          用途
      
  
  
      
          PHP 版本與模組
          phpinfo() 匯出
          VPS 上安裝對應版本
      
      
          Cron jobs
          主機面板截圖或匯出
          VPS 上重建 crontab
      
      
          Email 帳號與轉發規則
          面板匯出
          另外處理（見下方）
      
      
          DNS 記錄（A / CNAME / MX）
          域名管理介面匯出
          切換時需要
      
      
          SSL 憑證
          簽發者、到期日
          VPS 上重新簽發或遷移
      
      
          .htaccess 規則
          從站台下載
          轉換成 nginx 設定
      
  

接手維運模組的環境設定拍照有更完整的盤點方法。
VPS 環境建立
VPS 上從零安裝 web stack：





 1# Ubuntu 22.04 為例
 2sudo apt update && sudo apt upgrade -y
 3
 4# Web server
 5sudo apt install nginx -y
 6
 7# PHP（對齊共享主機的版本）
 8sudo apt install php8.1-fpm php8.1-mysql php8.1-curl php8.1-mbstring php8.1-gd php8.1-xml -y
 9
10# MySQL
11sudo apt install mysql-server -y
12
13# SSL（Let's Encrypt）
14sudo apt install certbot python3-certbot-nginx -y
15sudo certbot --nginx -d example.com -d www.example.com
安裝完成後用 php -m 比對共享主機的 phpinfo 記錄，確認所有模組都已安裝。缺少的模組用 apt install php8.1- 補上。
資料搬移





1# 程式碼：從本地 Git repo 部署（不從共享主機直接搬）
2git clone git@github.com:org/site.git /var/www/site
3
4# 資料庫：從備份匯入
5mysql -u root -p site_db < backup-latest.sql
6
7# 使用者上傳檔案：從共享主機 FTP 下載後 rsync 到 VPS
8rsync -avz /local/backup/uploads/ user@vps:/var/www/site/uploads/
.htaccess → nginx 設定轉換
共享主機用 Apache 的 .htaccess，VPS 如果改用 nginx 需要手動轉換。常見的規則對照：





 1# .htaccess: RewriteEngine On / RewriteRule ^(.*)$ index.php/$1
 2# nginx 等價：
 3location / {
 4    try_files $uri $uri/ /index.php?$query_string;
 5}
 6
 7# .htaccess: Options -Indexes
 8# nginx 等價：
 9autoindex off;
10
11# .htaccess: deny from all (某目錄)
12# nginx 等價：
13location ~ /\.env { deny all; }
轉換後在本地或 staging 驗證每條規則的行為是否一致。WordPress、Laravel 等框架有現成的 nginx 設定範例可參考。
Email 處理
共享主機通常附帶 email 服務（用主機面板建 email 帳號）。VPS 預設不含 email。三個處理方式：

自架 email server（Postfix + Dovecot）：維運成本高、不推薦除非有特殊需求
改用第三方 email 服務（Google Workspace / Zoho Mail）：設定 MX 記錄指向服務商
只轉發（不收信）：應用程式的寄信功能改用 SMTP relay（SendGrid / Mailgun）

DNS 的 MX 記錄要在切換前就改好指向新的 email 服務，否則切換後 email 會中斷。
SSL 自動續期
共享主機的 SSL 通常由主機商代管續期。VPS 上用 Let’s Encrypt 的 certbot 會自動設定 systemd timer 或 cron 做續期，但要驗證它確實在跑：





1# 確認 certbot 的自動續期排程存在
2sudo systemctl list-timers | grep certbot
3
4# 模擬續期測試（不實際續期）
5sudo certbot renew --dry-run
VPS → 雲端遷移
服務盤點與雲端對照
VPS 上的每個 process 都需要對應到雲端的服務：

  
      
          VPS 上的角色
          雲端對應
          備註
      
  
  
      
          nginx + PHP-FPM
          ECS Fargate / EC2 + ALB
          容器化或直接搬
      
      
          MySQL
          RDS
          managed DB、自動備份
      
      
          cron jobs
          EventBridge + Lambda / ECS task
          排程觸發的獨立 task
      
      
          背景 worker
          ECS service / SQS + Lambda
          依工作模式選型
      
      
          檔案儲存
          S3 + CloudFront
          上傳檔案搬到物件儲存
      
  

自動化遷移工具
AWS Application Migration Service（MGN）可以自動化 VM workload 的搬遷——把現有 server 的 block-level data 持續複製到 AWS、切換時啟動 EC2 instance。適合大量 VM 的 lift-and-shift，但不處理應用層的重構（nginx config、cron 轉 EventBridge 等仍需手動）。單台 VM 的遷移用 MGN 反而比手動 dump/restore 多一層設定成本，適用場景是同時搬 5 台以上。
IaC 的導入時機
VPS → 雲端是導入 IaC 的最佳時機——新環境從零建起，沒有歷史包袱。用 Terraform 描述 VPC、subnet、RDS、ECS、ALB 等資源，讓新環境可重現（見模組一：最小可行 IaC）。遷移完成後，這套 IaC 直接成為持續維運的基礎。
資料庫遷移
小型資料庫（< 10GB）：mysqldump + 匯入 RDS，遷移期間短暫唯讀即可。





1# 從 VPS dump
2mysqldump -u user -p --single-transaction site_db | gzip > site_db.sql.gz
3
4# 匯入 RDS
5gunzip -c site_db.sql.gz | mysql -h rds-endpoint.region.rds.amazonaws.com -u admin -p site_db
大型資料庫（> 10GB 或需要零停機）：使用 AWS DMS（Database Migration Service）做持續複寫，VPS 上的 MySQL 作為 source、RDS 作為 target，DMS 做初始全量複製後持續同步增量，切換時把應用指向 RDS 端點。
網路設計
雲端環境的網路要在遷移前規劃好。VPC、subnet、security group 的設計見模組三：網路地基。VPS 上的 iptables 規則要映射成 security group 規則——iptables 的每條 accept 對應一條 SG ingress rule，但 SG 不支援 deny（用「不開就是 deny」的白名單模式）。
資料同步策略

  
      
          策略
          停機時間
          複雜度
          適用場景
      
  
  
      
          一次性 dump + restore
          分鐘到小時級
          低
          資料 < 10GB、可接受維護窗口
      
      
          持續複寫（DMS / 邏輯複寫）
          秒級（切換瞬間）
          高
          資料大、不允許停機
      
      
          檔案 rsync 增量同步
          取決於差異量
          低
          靜態檔案、上傳內容
      
  

選擇策略時先問兩個問題：資料量多大（決定 dump 時間）、業務能接受多長的唯讀或停機窗口（決定要不要持續複寫）。
對於上傳檔案（圖片、文件），遷移到雲端時通常從本地檔案系統搬到 S3：





1# 從 VPS 同步上傳目錄到 S3
2aws s3 sync /var/www/site/uploads/ s3://site-uploads/ --delete
應用程式碼裡的檔案路徑要改成 S3 URL 或用 CDN 代理。
DNS 切換與驗證
切換前準備
遷移前 48 小時，降低 DNS TTL 到 300 秒（5 分鐘）。正常的 TTL 通常是 3600 秒（1 小時）或更長——如果切換出問題需要回退，短 TTL 讓 DNS 傳播更快。





1# 確認當前 TTL
2dig example.com +short +ttlid
切換操作





1# 更新 A record 指向新平台的 IP / ALB endpoint
2# 如果用 Route 53：
3aws route53 change-resource-record-sets --hosted-zone-id Z123 --change-batch '{
4  "Changes": [{"Action": "UPSERT", "ResourceRecordSet": {
5    "Name": "example.com", "Type": "A",
6    "AliasTarget": {"HostedZoneId": "Z456", "DNSName": "alb-xxx.region.elb.amazonaws.com", "EvaluateTargetHealth": true}
7  }}]
8}'
切換後監控
切換後的驗證窗口至少等 2 倍 TTL（短 TTL 設 300 秒的話，至少等 10 分鐘）。在這段時間內：

新平台：監控 HTTP 狀態碼、回應時間、錯誤率
舊平台：觀察流量是否遞減到零（仍有流量代表 DNS 還沒完全傳播）
功能驗證：跑一次關鍵流程（登入、查詢、交易）

回退
如果新平台出問題，回退方式是把 DNS 切回舊平台的 IP。回退的生效時間等於當前的 TTL——這正是切換前降低 TTL 的理由。舊平台在 DNS 切換後要保留至少 72 小時（全球 DNS 快取最慢的清除時間），確認完全沒有流量後再退役。
切換後收尾
穩定運行 1-2 週後：

把 DNS TTL 恢復到正常值（3600 秒）
退役舊平台（關機 → 保留快照 → 一個月後刪除）
更新文件：新環境的存取方式、部署流程、監控端點

時程與管理層溝通

  
      
          遷移路徑
          典型時程
          主要風險
      
  
  
      
          共享主機 → VPS
          1-2 週
          .htaccess 轉換、email 處理、SSL 續期
      
      
          VPS → 雲端
          2-4 週
          資料庫遷移、網路設計、IaC 建立
      
      
          地端 → 雲端
          4-8 週
          網路重建、合規審查、資料主權
      
  

向管理層溝通時的關鍵訊息：「應用程式碼不變、改的是運行環境。風險集中在資料搬移和 DNS 切換這兩個步驟，兩者都有回退路徑。」
成本變化也要提前說明：共享主機 → VPS 的月費通常持平或略增（$5-30/月）；VPS → 雲端的月費取決於資源用量，初期可能增加 50-200%（換到的是彈性和 managed 服務），但可以透過 reserved instance 和 rightsizing 後續優化。
跨分類引用

→ 升級的共通操作框架：評估差異 → 平行環境 → 切換 → 退役的四階段模型
→ 接手維運：無 SSH 的 FTP 環境：遷移前的環境盤點方法
→ 模組一：最小可行 IaC：雲端遷移是導入 IaC 的最佳時機
→ 模組三：網路地基：雲端環境的 VPC / subnet 設計




有半套 IaC 但文件缺失的環境接管
Fri, 26 Jun 2026 00:00:00 +0000
接手一個有半套 IaC 的環境，比接手全手動的環境更難處理。全手動環境的規則簡單：所有東西都在 Console，逐一盤點就好。半套 IaC 的環境則有兩套真相並存 — 有些資源由程式碼管理、有些是手動加的、有些曾經由程式碼管理但後來被手動改過。terraform plan 跑出來一長串 diff，哪些是該收進來的手動變更、哪些是該回退的設定漂移、哪些資源根本不在 state 裡，都要逐一判斷。在搞清楚這些之前，任何 apply 都可能覆蓋正在服務客戶的設定。
本篇的操作流程從盤點差距開始，經過 state 健康檢查、drift 收斂、文件重建，到最後排出收斂的優先序。每一步都在不影響線上服務的前提下進行。
state 與現實的差距盤點
盤點的第一步是跑 terraform plan 但不 apply — plan 的輸出就是程式碼描述的狀態與雲端現實之間的完整差距清單。





1terraform plan -no-color > plan-baseline-$(date +%Y%m%d).txt
把這份輸出存進 repo，它是接手時的基線快照。之後每一次收斂動作的效果都用「跟這份基線比少了幾項 diff」來衡量。
三類 diff 的判讀
plan 輸出的每一項 diff 歸屬三類，各自的風險等級與處理方式不同：

  
      
          diff 類型
          plan 標記
          含義
          風險
          處理方式
      
  
  
      
          要改
          ~ (update in-place)
          資源存在於 state 與雲端，但屬性不一致
          中
          逐項判斷是採納手動變更還是回退
      
      
          要建
          + (create)
          資源在程式碼裡但雲端不存在
          低
          通常是前人寫了但沒 apply、或曾 destroy
      
      
          要刪
          - (destroy)
          資源在 state 裡但雲端不存在、或雲端有但程式碼想移除
          高
          絕對不要盲目 apply — 先確認資源是否仍在使用
      
  

「要刪」是最危險的一類。常見成因是：前人在 Console 手動刪了某個資源但沒同步從程式碼移除（state 裡還有紀錄），或者前人在程式碼裡移除了某段 HCL 但沒跑 apply（雲端資源還在、state 記得它）。兩種情況都需要先確認該資源在雲端是否存在、是否仍被服務依賴，再決定是從 state 移除（terraform state rm）還是補回 HCL。
另一個需要留意的標記是 -/+（forces replacement）— 它代表 Terraform 判定這個屬性的變更無法原地更新，必須先刪除再重建。對 stateful 資源（RDS、EBS volume）來說這等於資料遺失，在接手階段看到這個標記要先暫停、查清楚是哪個屬性觸發了 replacement。
哪些資源在 state 裡、哪些不在
terraform state list 列出所有被 IaC 管理的資源。配合 terraform show -json 可以取得更結構化的 managed resource 摘要：





1# state 裡有什麼（清單）
2terraform state list > managed-resources.txt
3
4# state 裡有什麼（結構化摘要：type + name + provider）
5terraform show -json | jq '.values.root_module.resources[] | {type, name, provider}' > managed-summary.json
但 state 只是一份已知的清單 — 雲端上可能還有大量不在這份清單裡的資源。用 CLI 列舉雲端資源跟 state 做比對：





1
2# 雲端上有什麼（以 EC2 + RDS + SG 為例）
3aws ec2 describe-instances --query 'Reservations[].Instances[].InstanceId' --output text > cloud-ec2.txt
4aws rds describe-db-instances --query 'DBInstances[].DBInstanceIdentifier' --output text > cloud-rds.txt
5aws ec2 describe-security-groups --query 'SecurityGroups[].GroupId' --output text > cloud-sg.txt
用這兩份清單做比對，分成三類：

  
      
          類別
          定義
          下一步
      
  
  
      
          已管理
          state 裡有、雲端也有
          處理 drift（上一節的 diff）
      
      
          未管理
          雲端有、state 裡沒有
          評估是否需要 import
      
      
          孤兒
          state 裡有、雲端沒有
          terraform state rm 清除過時紀錄
      
  

未管理的資源需要逐一判斷：這個資源是前人刻意排除在 IaC 外的（例如一個還在實驗的測試機），還是應該納管但漏了？判斷依據是它的角色 — security group、IAM role、VPC 這類地基資源應該優先 import；一台跑完就該關的測試 EC2 可以暫時留在手動。
手動比對 state list 與 CLI 輸出的效率有限，driftctl（現由 Snyk 維護、開源）可以自動掃描雲端資源與 Terraform state 的差異，一次列出所有 unmanaged resource。它跟 terraform plan 的差別在於 plan 只看已管理資源的 drift，driftctl 同時涵蓋根本不在 state 裡的資源。兩者互補：先用 driftctl 產出完整的 unmanaged 清單，再用 plan 處理已管理資源的 drift。
state 的健康檢查
state 本身的存放方式決定了後續所有操作的安全性。接手後第一件事是確認 state 的健康狀態。
存放位置





1# 查看 backend 設定
2grep -A 10 'backend' *.tf
如果 backend 是 local（或沒有 backend 設定），state 檔只存在某台機器的磁碟上。這代表如果有第二個人從自己的機器跑 apply，兩人會用不同版本的 state 互相覆蓋。把 state 搬到 remote backend（S3 + DynamoDB lock）是接手後的第一優先事項，做法見IaC 工具選型與 state 地基。
加密與版本控制
如果 state 已經在 S3，確認三件事：





1# bucket 有沒有 versioning
2aws s3api get-bucket-versioning --bucket 
3
4# bucket 有沒有加密
5aws s3api get-bucket-encryption --bucket 
6
7# 有沒有 lock table
8aws dynamodb describe-table --table-name  2>/dev/null
versioning 沒開的話，一次壞掉的 apply 寫壞 state 就回不去了。加密沒開的話，state 裡的敏感值（資料庫密碼、private key 輸出）以明文存在 S3。
state 裡的敏感值
state 檔經常包含不該暴露的值。確認 state 有沒有在 Git 歷史裡：





1git log --all --diff-filter=A -- '*.tfstate' '*.tfstate.backup'
如果命中，代表 state 曾經被推進 repo。此時 Git 歷史裡的敏感值已經無法徹底清除（git filter-branch 或 git filter-repo 可以嘗試，但無法保證所有 clone 都更新）。務實的處理是：列出 state 裡的敏感值，全部輪替。





1# 用 jq 從 state JSON 撈敏感值候選
2terraform show -json | jq -r '
3  [.. | objects | to_entries[] |
4   select(.key | test("password|secret|key|token"; "i"))] |
5  unique_by(.key) | .[] | "\(.key): \(.value)"
6' 2>/dev/null
這個 jq 查詢會遞迴掃描 state JSON 裡所有欄位名稱含 password / secret / key / token 的值。命中的每一筆都要確認是否為真實密鑰、是否需要輪替。
drift 收斂策略
盤點完差距、確認 state 健康之後，逐項收斂 drift。對 plan 輸出的每一項 diff 做一個二選一的決定：採納手動變更（改 HCL 去符合現實），或回退到程式碼版本（讓下一次 apply 把現實改回來）。
採納 vs 回退的判斷
多數 drift 應該採納。前人在 Console 手動改設定通常有一個操作理由（即使沒有記錄下來）— 加了一條 security group 規則可能是為了讓某個新服務連進來，改了 RDS 的 max_connections 可能是為了解決連線數不足。在沒有充分理解這些改動的背景之前，回退它們等於撤銷一個可能正在支撐服務運作的設定。
回退適用的情境是：drift 明顯是誤操作（例如 0.0.0.0/0 打開了不該打開的埠）、或 drift 的屬性是有標準答案的（例如 S3 的 block_public_access 被關掉了）。
操作步驟





1# 1. 刷新 state 到最新雲端狀態（不改資源、只更新 state 的快照）
2terraform apply -refresh-only
3
4# 2. 再跑一次 plan — 刷新後 diff 會減少（純 state 過期的 diff 消失）
5terraform plan -no-color > plan-after-refresh.txt
6
7# 3. 對剩餘的 diff 逐項處理
8#    採納：改 HCL 讓程式碼跟現實一致 → plan 確認該項 diff 消失
9#    回退：不改 HCL、讓 apply 把現實改回程式碼版本 → 先確認影響
-refresh-only 是安全的操作 — 它只更新 state 裡的屬性快照，不會改動任何雲端資源。但它會把手動變更「記進」state，讓後續 plan 的 diff 只剩程式碼與 state 的差異（而非程式碼與雲端的差異）。刷新後 plan 的 diff 更精確、更少、更容易逐項處理。
import 未管理的資源
對未管理的資源，用 import 區塊一次處理一個，每次 import 後都跑 plan 確認零新增 diff：





1import {
2  to = aws_security_group.legacy_app
3  id = "sg-0abc123def456"
4}




1# 生成對應的 HCL
2terraform plan -generate-config-out=generated_legacy_app.tf
3
4# 確認生成的 HCL 跟現實一致
5terraform plan
6# 預期：只有 import 動作、沒有 change/destroy
生成的 HCL 需要人工確認 — 有些屬性是雲端自動設的預設值，Terraform 會把它們全部列出來，造成 HCL 冗長。移除純預設值的屬性、只保留有意義的設定，讓 HCL 反映設計意圖而非雲端預設。
對於大量未管理資源需要一次性反推 HCL 的情境，Former2 可以從現有 AWS 資源批量生成 Terraform code。它掃描帳號裡的資源、產出對應的 HCL，品質不完美（命名會用資源 ID 而非有意義的名稱、屬性可能包含大量預設值），但作為起點比從零手寫每個資源快得多。產出後仍需逐檔清理命名與移除預設值。
文件重建
接手的環境通常沒有文件、或者文件已經過時到比沒有更糟（記載的是兩個版本前的架構）。文件重建的目標是讓下一個接手者不需要重複同樣的盤點過程，而非追求一份完美的架構文件。
來源
能重建的資訊來源有限，但每個都有價值：

  
      
          來源
          能找到什麼
      
  
  
      
          Git log
          commit 訊息裡可能有「為什麼這樣改」的線索
      
      
          PR 歷史
          review 討論裡可能有決策脈絡
      
      
          HCL 程式碼
          變數命名、module 結構反映架構意圖
      
      
          CloudTrail
          過去 90 天的 API 呼叫紀錄
      
      
          帳單
          哪些服務在花錢、量級多大
      
      
          terraform-docs
          從 HCL 自動產出 module 文件（inputs/outputs）
      
      
          Inframap
          從 state 產出依賴關係視覺化圖
      
  

terraform-docs 用一條指令就能從現有 HCL 產出每個 module 的 inputs、outputs 和 resources 清單，省去手動整理 module 介面的時間。Inframap 從 state 或 HCL 產出依賴關係圖，比 terraform graph | dot 好用的地方在於它自動過濾掉 provider 和 data source 的噪音，大型 state 也能產出可讀的圖。
最小可行文件
寫一份 INFRA-STATE.md 放在 repo 根目錄，包含：

管理範圍：哪些資源由 IaC 管理、哪些是手動的、為什麼手動的沒有 import（例：還在實驗、不穩定、計畫廢棄）
已知 drift：目前 plan 輸出裡還有哪些未處理的 diff、每個 diff 的處理方向（採納/回退/待調查）
state 存放位置：backend 設定、bucket 名稱、lock table 名稱
credential 狀態：有幾把 access key、哪些還在用、上次輪替時間
接手日期與盤點結果：盤點時的資源數量、覆蓋率（managed / total）

這份文件不需要精美，需要的是準確且持續更新。每次收斂一項 drift 或 import 一個資源，就更新對應的段落。前任團隊的知識已經不在了，這份文件取代它成為環境的記憶。
收斂到完整 IaC 的優先序
把整個收斂過程排成四個階段，每個階段都能獨立交付價值：

  
      
          階段
          目標
          交付物
          預估時間
      
  
  
      
          1
          state 健康
          remote backend + 加密 + versioning + lock
          1-2 天
      
      
          2
          地基 import
          security group、IAM role、VPC 納管
          1-2 週
      
      
          3
          drift 收斂
          已管理資源的 plan 歸零
          1-2 週
      
      
          4
          覆蓋率提升
          應用層資源逐批 import
          持續
      
  

每個階段的驗證方式相同：terraform plan 的輸出是否比上一階段乾淨。階段一完成後，plan 的可信度才成立；階段二和三是把 plan 的 diff 清到零；階段四是擴大 plan 的管轄範圍。
每一步操作之前都先備份 state：





1# 手動備份 state（不論 bucket 有沒有 versioning 都先拉一份）
2terraform state pull > state-backup-$(date +%Y%m%d).json
state 操作失敗時的回退路徑是 terraform state push state-backup.json 從備份還原 — 資源本身不受影響，只是工具對現實的記憶回到上一個正確的版本。state push 是覆寫操作，只在確認備份版本正確時使用。
需要搬移資源在 state 裡的位址時（例如重構 module 結構），優先用 moved {} 區塊而非 terraform state mv。moved 是宣告式的、寫在 HCL 裡、可以被 PR review、plan 時會顯示搬移動作。state mv 是指令式的、直接改 state、沒有 review 機制、操作紀錄只在 CLI 歷史裡。





1moved {
2  from = aws_security_group.old_name
3  to   = module.network.aws_security_group.app
4}
跨分類引用

→ IaC 工具選型與 state 地基：state 怎麼從 local 搬到 remote backend
→ Console 唯讀鐵律：drift 的來源與偵測
→ 環境分離與模組化：收斂完成後怎麼把單環境拆成 per-env module
→ infra 走 PR 流程：收斂完成後的變更怎麼走 review
→ State 修復與清理：state 損壞的操作修復步驟
→ Drift 分類處理：逐項判斷 adopt vs revert
→ 批次 Import 工作流：unmanaged resource 的 import 操作
→ 過渡期操作：兩套真相並存時的安全操作規則




團隊權限分級與存取管理
Fri, 26 Jun 2026 00:00:00 +0000
IAM 的 role 與 policy 提供「某個身分能不能對某個資源做某件事」的技術機制（見身分與憑證地基）。機制備妥後，下一個問題是組織層面的設計：團隊裡每個角色該拿到哪一級權限、臨時需要更高權限時怎麼提權、離職或合約結束時怎麼確保存取被回收。這些設計的目的是讓「誰能動什麼」在任何時間點都有可稽核的答案。
權限分級：admin / operator / viewer
團隊成員的日常操作權限用三級來劃分，每一級對應不同的操作範圍與風險。分級的依據是「這個角色的日常工作需要碰到什麼層級的資源」，不是職稱或年資。
Admin
Admin 能修改 IAM policy、網路拓撲、帳號層級設定（Organizations、SCP、billing）。這是影響範圍最大的一級——一條 SCP 寫錯可以鎖死整個帳號的操作，一條 IAM policy 開太寬可以讓任何角色取得不該有的權限。
持有 admin 權限的人數應該收斂到最少：通常是平台團隊的 1-2 人加上一個 break-glass 備援角色。Admin 權限不應該是某個人的「日常身分」——即使是平台工程師，日常操作也用 operator 等級，只有在需要改 IAM 或帳號設定時才 assume 到 admin role。





 1# Admin role 的信任政策：只允許特定 IAM user assume
 2data "aws_iam_policy_document" "admin_trust" {
 3  statement {
 4    actions = ["sts:AssumeRole"]
 5    principals {
 6      type        = "AWS"
 7      identifiers = [
 8        "arn:aws:iam::123456789012:user/platform-lead",
 9        "arn:aws:iam::123456789012:user/platform-backup",
10      ]
11    }
12    condition {
13      test     = "Bool"
14      variable = "aws:MultiFactorAuthPresent"
15      values   = ["true"]
16    }
17  }
18}
19
20resource "aws_iam_role" "admin" {
21  name               = "infra-admin"
22  assume_role_policy = data.aws_iam_policy_document.admin_trust.json
23  max_session_duration = 3600  # 1 小時後自動失效
24}
max_session_duration 限制 assume 後的有效時間。Admin session 設 1 小時是讓操作者完成當次任務後權限自動回收，不需要手動登出。MFA 條件確保即使帳號密碼外洩，沒有第二因素也無法提權。
Operator
Operator 能部署服務、修改應用層資源（ECS task、RDS parameter group、S3 lifecycle）、查看與操作日常維運所需的一切。多數工程師的日常身分落在這一級。
Operator 的 policy 用 resource scope 限制它碰不到 IAM 和帳號層級設定——能改 ECS service 但不能改 ECS service 用的 IAM role，能改 RDS 參數但不能改 RDS 的 subnet group。這個邊界讓 operator 的操作失誤影響範圍停在服務層，不會擴散到地基層。





 1data "aws_iam_policy_document" "operator" {
 2  # 允許操作應用層資源
 3  statement {
 4    actions = [
 5      "ecs:UpdateService", "ecs:DescribeServices",
 6      "rds:ModifyDBInstance", "rds:DescribeDBInstances",
 7      "s3:GetObject", "s3:PutObject",
 8      "logs:GetLogEvents", "logs:FilterLogEvents",
 9    ]
10    resources = ["*"]
11  }
12
13  # 明確拒絕碰 IAM 和帳號設定
14  statement {
15    effect = "Deny"
16    actions = [
17      "iam:*",
18      "organizations:*",
19      "account:*",
20    ]
21    resources = ["*"]
22  }
23}
Deny 語句確保即使未來有人不小心把過寬的 managed policy attach 到 operator role，IAM 和帳號操作仍然被擋。Deny 在 IAM 評估中優先於 Allow。
Viewer
Viewer 能讀取 Console、查 log、看 metric dashboard，但不能修改任何資源。適合的角色包括：值班但不需要改設定的 on-call、需要查 log 排查問題的 support 團隊、需要看資源狀態的管理層。
Viewer 用 AWS 的 managed policy ReadOnlyAccess 作為基線，再根據需要排除敏感資料的讀取（例如 Secrets Manager 的 GetSecretValue）。
三級的對應關係：

  
      
          級別
          能做什麼
          典型角色
          人數控制
      
  
  
      
          Admin
          改 IAM、網路、帳號設定
          平台 lead + break-glass
          2-3 人
      
      
          Operator
          部署、改服務設定、查 log
          工程師
          團隊規模
      
      
          Viewer
          讀 Console、查 log、看 metrics
          on-call、support、管理層
          依需求開放
      
  

導入時程參考：三級權限的 IAM role 與 policy 建立約需 1-2 天，包含 trust policy 設定與初次分配。後續的權限變更走版本控制的 PR 流程，讓每次 policy 調整都有提案、審查與歷史紀錄（見infra 走 PR 流程）。
臨時提權（break-glass）
Operator 在日常工作中偶爾需要 admin 層級的操作——排查一個涉及 IAM 的事故、緊急修改一條 security group 規則、回應安全事件。常態性地把 admin 權限開給所有 operator 會讓三級分級失效，但每次都等 admin 角色的人上線又太慢。Break-glass 流程處理的就是這個中間地帶。
機制
Break-glass 的實作是一個平時不被 assume 的 admin role，加上一套提權紀錄。Operator 在需要時 assume 這個 role，取得一段時效有限的 admin session。這個 assume 動作會在 CloudTrail 留下紀錄（誰、什麼時候、session 多長），事後可稽核。





1resource "aws_iam_role" "break_glass" {
2  name                 = "infra-break-glass"
3  assume_role_policy   = data.aws_iam_policy_document.break_glass_trust.json
4  max_session_duration = 3600
5
6  tags = { Purpose = "emergency-escalation" }
7}
如果團隊有 ChatOps 或 ticketing 系統，把 break-glass 的觸發綁進去可以增加一層人為確認：operator 在 Slack 或 ticket 裡申請提權、另一個人核可、系統開放 assume。這層確認的目的是在事後稽核時留下一條清楚的「誰授權了這次提權」紀錄，而非阻止操作本身。
事後回顧
每一次 break-glass 使用都應該進入事後回顧：為什麼需要提權？這個操作能不能改寫成 operator 層級的權限就能完成？如果某類操作反覆觸發 break-glass，代表 operator 的權限邊界需要調整——把那類操作從 admin 降到 operator，而不是讓 break-glass 變成常態。
回顧的輸出是權限邊界的校準，不是對操作者的檢討。
定期 access review
權限分配不是一次性的設定。人會換組、離職、從 contractor 轉正職、從開發角色轉管理角色，每一次角色變動都可能讓既有的權限配置過期。定期 review 的責任是找出「權限比當前角色需要的更寬」的身分，把它們收斂回來。
節奏與方法
每季做一次 access review 是多數團隊能維持的最小節奏。Review 的步驟：

拉出所有 IAM user 和 role 的清單，標注每個身分目前的分級（admin / operator / viewer）
比對每個身分的實際角色——這個人現在還在做需要 operator 權限的工作嗎？
用 IAM Access Analyzer 檢查哪些權限在過去 90 天沒被使用過——沒用到的權限是收斂候選
特別檢查 break-glass 的使用紀錄——有沒有人的 break-glass 使用頻率高到代表他的基線權限該調整






1# 產出 credential report，列出所有 user 的 key 建立時間與使用時間
2aws iam generate-credential-report
3aws iam get-credential-report --output text --query Content | base64 -d | head -20
4
5# 查 Access Analyzer 的 finding（哪些權限可收斂）
6aws accessanalyzer list-findings --analyzer-arn  \
7  --filter '{"status": {"eq": ["ACTIVE"]}}'
管理層報告
Access review 的結果適合用兩個數字向管理層報告：覆蓋率（已 review 的身分數 / 總身分數）與異常數（權限過寬或長期未使用的身分數）。異常數的趨勢比單次數字更有意義——持續上升代表新人 onboarding 時的權限配置流程有缺口，持續下降代表 review 在發揮作用。
導入時程參考：第一次 access review 約需半天到一天（盤點 + 比對 + 收斂），後續每季約需 2-4 小時。
職務交接與離職處理
一個人離開團隊時，他持有的所有存取路徑都需要被回收。手動建立的存取路徑越多，離職處理越容易遺漏。
離職 checklist

  
      
          項目
          操作
          驗證方式
      
  
  
      
          IAM user / SSO 帳號
          停用或刪除
          credential report 裡不再出現
      
      
          長期 access key
          撤銷所有 key
          list-access-keys 回傳空
      
      
          個人 MFA 裝置
          解除綁定
          list-mfa-devices 回傳空
      
      
          被加進的 IAM group
          移除成員
          get-group 裡不再出現
      
      
          可 assume 的 role trust policy
          從 principal 清單移除
          trust policy 裡沒有該 user ARN
      
      
          第三方服務的 SSO 授權
          撤銷（GitHub org、CI 平台、Slack workspace 等）
          該帳號無法登入
      
      
          共用密碼 / shared credential
          輪替（如果存在的話）
          Secrets Manager 版本更新
      
  

權限設計越集中在 role-based（用 IAM group 或 SSO permission set），離職處理越簡單——停用 SSO 帳號就自動切斷所有透過 SSO 取得的 role。反過來，如果有大量手動 attach 的 policy 或直接寫在 trust policy 裡的 user ARN，離職時要逐一找出並移除，容易遺漏。
離職後的 credential rotation 有一個常被忽略的風險：輪替範圍沒有按作用域分批。一個反例是多個服務共用同一把 secret，輪替時切新憑證的服務跟還只認舊憑證的服務之間出現認證窗口不一致，導致跨系統連鎖中斷。穩定的做法是先分域隔離受影響服務、恢復雙憑證窗口、再逐批收斂（見 反例：憑證輪替未分 Scope）。
交接的可執行性
交接的成本取決於知識有多少沉澱在程式碼裡、有多少留在個人腦中。如果環境的建立方式是一份 IaC、變更方式是 PR 歷史，新接手的人讀 code 跟 PR 描述就能重建脈絡。如果關鍵操作（某台資料庫的特殊 parameter、某條 security group 規則的理由）只存在離職者的記憶裡，交接窗口一過就永久遺失。
可操作的檢驗：問「如果這個人下週離職，團隊能不能只靠讀 repo 就安全地操作他負責的環境？」答案是否定的部分，就是交接的優先補強項——優先把它們寫進 IaC 或 PR 描述，而不是寫進交接文件（交接文件會過期，IaC 跟著環境一起演進）。
這個議題在知識共享優於個人英雄主義有組織層面的展開。
Contractor 與外部 vendor 存取
外部人員（contractor、顧問、SaaS vendor 的技術支援）需要存取雲端環境時，原則是給最小範圍、設明確時限、留完整紀錄。
範圍限制
外部人員的 role 用 Permissions Boundary 設定權限天花板，確保即使有人誤 attach 了過寬的 policy，操作範圍也不超過 boundary 允許的上限。Scope 到具體的資源 ARN（某個 S3 bucket、某台 RDS instance），而非帳號級別的 wildcard。
如果團隊已經有跨帳號策略，把外部人員的 workload 放在獨立帳號或 sandbox OU 裡，用 SCP 限制該帳號能操作的服務類型，是比 role 級別限制更強的隔離。
時限控制
外部存取的 IAM user 或 SSO 帳號在建立時就設定到期日。多數雲端平台支援 session duration 限制（role 的 max_session_duration）和帳號層級的停用排程。合約結束日應該對應到存取到期日——這個對應關係寫進 IaC（用 tag 標注到期日）或團隊的 access review checklist，避免合約結束後存取仍然開著。
稽核紀錄
外部人員的操作需要比內部人員更嚴格的稽核。CloudTrail 預設記錄所有 API 呼叫，但 review 的頻率要提高——外部人員的操作紀錄每週抽查，而非等到季度 access review 才回頭看。查的是：有沒有存取超出約定範圍的資源？有沒有在非工作時間操作？有沒有大量的 read 操作指向敏感資料？
這些紀錄同時也是合約管理的依據——如果外部 vendor 的技術支援存取了超出約定範圍的資源，紀錄是釐清責任的事實基礎。
跨分類引用

→ 身分與憑證地基：IAM role / policy / OIDC 的技術機制
→ 跨帳號策略：用 OU 和 SCP 在帳號層級隔離外部人員
→ 治理好習慣：tagging 標注存取到期日、secrets 不進 code
→ 怎麼把 infra 推動起來：知識共享與交接的組織面




模組三：網路地基 — VPC 與分層
Fri, 26 Jun 2026 00:00:00 +0000
網路地基要先於核心服務存在。VPC、subnet、route table 與 security group 構成一張「服務能落在哪、誰能跟誰講話」的地圖，資料庫、運算節點與對外入口都得落在這張地圖規劃好的格子裡。先把邊界畫清楚，後面每個核心服務上線時只需要選一塊已經定義好安全等級的位置，而不是邊開服務邊補洞。
這一章建立四層邊界：最外層的 VPC 隔離、中層的 public / private subnet 切分、流量進出的 route table 與 NAT、以及最貼近服務的 security group。每一層解決的問題不同，疊起來才是一個可審計、可收斂的網路。
VPC：網路隔離的最外層邊界
VPC（Virtual Private Cloud）先圈定整個系統的網路地址空間 — 一塊邏輯隔離的私有網段，是其餘所有網路切分的起點。在 VPC 裡開出來的所有資源預設只看得到同一個 VPC 內的成員，與其他 VPC、與其他帳號的網路天然隔離。它是後面所有切分動作的容器 — 沒有 VPC，subnet 與 security group 無處依附。
建立 VPC 時最關鍵的決策是 CIDR 區塊的大小，例如 10.0.0.0/16 提供約六萬五千個位址。這個範圍要一次規劃足夠大，因為事後擴張地址空間在多數雲上是麻煩且容易出錯的操作。同時要避免與公司其他網段重疊：未來若要透過 VPC peering、Transit Gateway 或 VPN 把這個 VPC 接回地端機房或其他環境，重疊的 CIDR 會讓路由無法解析。





 1resource "aws_vpc" "main" {
 2  cidr_block           = "10.0.0.0/16"
 3  enable_dns_support   = true
 4  enable_dns_hostnames = true
 5
 6  tags = {
 7    Name        = "platform-main"
 8    Environment = "production"
 9  }
10}
判讀訊號：規劃 CIDR 時先問「這個環境三年後會有幾個 subnet、跨幾個可用區、要不要接地端」。風險集中在地址耗盡與網段衝突 — 兩者都得在開第一個 subnet 之前定案。邊界是：VPC 只負責隔離與定址，它不決定哪個服務能對外，那是 subnet 與 security group 的工作。環境之間的 VPC 該怎麼分，是「模組四：環境分離與模組化」的主題，這裡只先確保單一 VPC 的地址規劃站得住。
public 與 private subnet 的切分原則
一塊資源對外暴露到什麼程度，取決於它被放進哪個 subnet — VPC 內部按可用區與暴露程度切出來的子網段，決定資源有沒有一條通往網際網路的路徑。判斷一個資源該放 public 還是 private，問題只有一個：它需不需要被網際網路直接定址。
public subnet 放的是必須接收外部入站流量的元件 — 對外的負載平衡器、需要公開的 NAT Gateway、堡壘主機（bastion）。這些資源透過 route table 連到 Internet Gateway，因此能被外部 IP 直接觸及。private subnet 放的是只該在內網被存取的元件 — 應用伺服器、資料庫、快取、內部佇列。它們沒有通往 Internet Gateway 的路由，外部無法主動連入，需要對外時才透過 NAT 出去。

  
      
          Subnet 類型
          典型住戶
          對外路徑
      
  
  
      
          public
          對外 LB、NAT Gateway、bastion
          經 Internet Gateway 雙向
      
      
          private
          應用節點、資料庫、快取、佇列
          僅經 NAT 單向出站、不可入站
      
  

public subnet 的真實樣貌是「薄薄一層」：它通常只住負載平衡器與 NAT 這類入口設施，而不是業務邏輯。常見陷阱是為了 SSH 方便把應用伺服器直接開在 public subnet 並配公網 IP，等於把每一台業務主機的管理埠暴露在掃描流量下。private subnet 的住戶反而是系統的主體 — 資料庫放這裡是因為它一旦能被外網定址，攻擊面就從「打穿入口層」變成「直接連資料庫埠試密碼」。
每個 subnet 綁定單一可用區，所以高可用設計通常是每種角色跨至少兩個可用區各開一個 subnet：兩個 public、兩個 private，讓單一可用區故障時另一區的同類 subnet 還能承接。對外入口怎麼把流量分到跨可用區的 private 後端，是「devops 模組一：負載平衡」的範圍。
route table 與 NAT：流量的進出路徑
離開一個 subnet 的封包往哪走，逐條寫在 route table 這組轉送規則裡 — 它掛在 subnet 上，是封包出口方向的依據。一個 subnet 是 public 還是 private，技術上的差別就在它關聯的 route table 裡有沒有一條指向 Internet Gateway 的預設路由。換句話說，subnet 的對外性質由它關聯的 route table 賦予，而非寫在 subnet 自身。
public subnet 的 route table 有一條 0.0.0.0/0 → Internet Gateway，讓未知目的地的流量直接出網、也讓外部可達。private subnet 的 route table 則把 0.0.0.0/0 指向 NAT Gateway。NAT（Network Address Translation）解決的問題是：private subnet 的資源需要主動對外（拉套件、呼叫第三方 API、抓 OS 更新），但不能因此變得可被外部入站連入。NAT 讓出站流量借用一個公網位址出去、把回應導回原請求者，同時不開放任何外部主動發起的連線。
NAT Gateway 的核心取捨是成本與可用性。它是綁定單一可用區的資源 — 一個 NAT Gateway 活在某一個 public subnet、也就活在那個可用區裡。若全部 private subnet 的 route table 都指向同一個 NAT，這個設計用一份 NAT 成本服務整個 VPC，代價是把 NAT 所在的可用區變成出站方向的單點：該可用區故障時，所有 private subnet 的對外連線同時中斷，即使其他可用區的節點本身健康。要讓出站路徑與 subnet 的跨可用區冗餘對齊，做法是每個可用區各放一個 NAT Gateway，並讓每一區的 private subnet route table 指向同區的 NAT。下面用 for_each 在每個可用區建立一個 NAT，再讓每個 private subnet 的 route table 走本區出口。





 1resource "aws_nat_gateway" "per_az" {
 2  for_each      = aws_subnet.public
 3  allocation_id = aws_eip.nat[each.key].id
 4  subnet_id     = each.value.id
 5}
 6
 7resource "aws_route_table" "private" {
 8  for_each = aws_subnet.private
 9  vpc_id   = aws_vpc.main.id
10
11  route {
12    cidr_block     = "0.0.0.0/0"
13    nat_gateway_id = aws_nat_gateway.per_az[each.key].id
14  }
15
16  tags = { Name = "private-rt-${each.key}" }
17}
每個可用區一個 NAT 是可用性優先的版本；若環境對成本敏感、且能接受出站在單一可用區故障時短暫中斷，也可以退回單一 NAT，但要把它當成明示的取捨、而非預設。判讀訊號：private subnet 的服務拉不到外部套件、或第三方 API 全部逾時，先查它關聯的 route table 有沒有指向健康的 NAT；若只有某一個可用區的節點受影響，多半是那一區的 NAT 或其所在 subnet 出狀況。風險與成本在這裡交會 — NAT Gateway 按處理流量計費，把大量出站流量（例如備份上傳、跨區同步）長期走 NAT 會讓帳單可觀，這類流量較划算的做法是改走 VPC Endpoint 直連雲服務、繞過 NAT。NAT 的數量取捨與出站成本在「devops 模組八：成本管理」有更完整的討論。邊界是：route table 與 NAT 只管「能不能出去、走哪條路」，至於某個埠允不允許連，是 security group 的職責。
security group 設計：最小開放
一條連線究竟能不能打到某個埠，由 security group 逐埠拍板 — 它是掛在資源網卡層級的有狀態防火牆，規則描述的是哪些來源連得進這個資源。它是貼著服務的最後一道網路邊界 — 即使封包順著 route table 抵達了 private subnet，security group 仍能逐埠決定放不放行。它有狀態的意思是：放行一條入站連線後，對應的回應出站自動允許，規則只需描述入站方向想開放什麼。
設計原則是最小開放：每條規則只開「這個服務確實需要被誰連的那個埠」。資料庫的 security group 入站只允許來自應用層 security group 的資料庫埠，而不是某個 IP 範圍。用 security group 互相引用、而非寫死網段，是因為應用節點會隨擴縮而換 IP，引用來源 group 讓規則跟著成員身分走、不跟著位址走。





1resource "aws_security_group_rule" "db_from_app" {
2  type                     = "ingress"
3  from_port                = 5432
4  to_port                  = 5432
5  protocol                 = "tcp"
6  security_group_id        = aws_security_group.database.id
7  source_security_group_id = aws_security_group.app.id
8}
要特別防的是 0.0.0.0/0 全開。把入站來源設成 0.0.0.0/0 等於允許整個網際網路連這個埠，對資料庫埠（5432、3306、6379）或管理埠（22、3389）這麼做，會讓服務暴露在持續性的自動掃描與暴力嘗試下。合理出現 0.0.0.0/0 的位置只有對外負載平衡器的 80 / 443 入站 — 因為它的工作本來就是接收公開流量。判讀訊號：盤點所有 security group，列出 source 是 0.0.0.0/0 的規則，逐條問「這個埠真的需要全世界都連得到嗎」；資料庫埠、SSH、內部 API 出現在這份清單上就是該收斂的目標。管理埠的存取較划算的替代方案是 SSM Session Manager 或堡壘主機，把 22 埠從公網清單上拿掉。誰能透過 IAM 改動這些規則，銜接「模組二：身分與憑證地基」。
subnet 這一層還有另一道防火牆 — network ACL（NACL），它與 security group 分工在兩個層級。NACL 掛在 subnet 上、作用於進出整個 subnet 的流量，而且是無狀態的：入站與出站要各寫一條規則，放行了入站不代表回應的出站自動放行，回程封包得自己對得上另一條規則。security group 則掛在資源網卡（ENI）層、有狀態，放行入站後對應回應自動允許。兩者的另一個差別是 NACL 支援顯式 deny、security group 只能列允許清單，所以 NACL 適合做 subnet 層的粗篩或針對特定來源的明確封鎖。實務上多數設計的主力是 security group：它貼著服務、用 group 互相引用就能表達「誰能連誰」，已經涵蓋大部分最小開放需求。NACL 留給少數情境 — 需要在 subnet 邊界擋掉一整段已知惡意網段、或要對某類流量做顯式 deny 時才展開；多數環境讓 NACL 維持預設全通、把存取控制集中在 security group，是可以接受的選擇，重點是知道這一層存在、在需要 subnet 層粗篩時記得它。
為什麼網路要先於核心服務鋪好
網路地基先行，是因為核心服務的安全位置由網路拓樸決定，而不是反過來。資料庫該落在哪個 private subnet、它的 security group 只接受哪個來源、它的出站走不走 NAT — 這些都是服務「出生時」就該確定的屬性。先有規劃好的 subnet 與 security group，新服務上線只是挑一塊已定義安全等級的位置放進去；網路還沒鋪就先開服務，則往往落在預設 VPC 與寬鬆規則上，事後再回頭收斂，要在服務已經有流量、有依賴的情況下改網段與防火牆，風險和協調成本都高得多。
這也呼應「模組零：infra 是什麼」的 day-1 鐵律：邊界與隔離屬於一開始就該存在的地基，不是長出問題後才補的修補。網路規劃好之後，照「從零建置」路線下一步先進「模組四：環境分離與模組化」確定環境怎麼切，再讓核心服務落進這些 subnet。
章節文章

  
      
          文章
          主題
      
  
  
      
          網路地基 — VPC、subnet 分層與 security group 設計
          VPC CIDR 規劃、public / private subnet 切分、route table 與 NAT 的可用性成本取捨、security group 最小開放設計與 NACL 定位
      
      
          Security Group 稽核與清理
          0.0.0.0/0 偵測、未使用 SG 識別、依賴檢查、清理工作流、自動化治理
      
  

跨分類引用

→ 模組二：身分與憑證地基：誰有權改動 security group 與路由表
→ 模組五：核心服務上 IaC：核心服務怎麼落進規劃好的 subnet
→ devops 模組一：負載平衡：入口流量怎麼分到 private subnet 的後端
→ devops 模組八：成本管理：NAT 與出站流量的成本取捨




儲存上 IaC — S3 bucket 的安全與生命週期
Fri, 26 Jun 2026 00:00:00 +0000
S3 bucket 描述的是物件儲存的存在、命名、加密設定、版本控制與存取政策。bucket 本身沒有重建代價意義上的狀態問題 — 困難在它「裝的東西」。空 bucket 可隨時重建，裝了正式資料的 bucket 與 RDS 一樣不可隨意 destroy。把安全設定與生命週期規則寫進 IaC，讓這些防線成為可版本控制、可審查的程式碼，而非散落在 Console 的隱性設定。
bucket 的四道安全防線
一個 S3 bucket 在 IaC 裡至少要描述四個獨立資源，各自對應一道防線。Terraform 把它們拆成獨立資源是設計選擇 — 每道防線可以單獨 review、單獨調整、單獨追蹤變更歷史。





 1resource "aws_s3_bucket" "assets" {
 2  bucket = "acme-${var.env}-assets"
 3
 4  tags = { service = "cdn-origin", env = var.env }
 5}
 6
 7resource "aws_s3_bucket_versioning" "assets" {
 8  bucket = aws_s3_bucket.assets.id
 9  versioning_configuration { status = "Enabled" }
10}
11
12resource "aws_s3_bucket_server_side_encryption_configuration" "assets" {
13  bucket = aws_s3_bucket.assets.id
14  rule {
15    apply_server_side_encryption_by_default {
16      sse_algorithm = "aws:kms"
17    }
18  }
19}
20
21resource "aws_s3_bucket_public_access_block" "assets" {
22  bucket                  = aws_s3_bucket.assets.id
23  block_public_acls       = true
24  block_public_policy     = true
25  ignore_public_acls      = true
26  restrict_public_buckets = true
27}
versioning
versioning 讓物件的每次覆寫都保留前一版。誤覆寫時可以從版本歷史回退到前一個正確版本，誤刪時物件只是被標記為 delete marker、前一版仍然存在。這道防線對承載正式資料的 bucket 是必要的 — 沒有 versioning 的 bucket，一次誤操作就是資料永久遺失。
versioning 開啟後會累積歷史版本的儲存量。搭配生命週期規則設定 noncurrent_version_expiration 可以控制保留多少天的舊版本，避免儲存成本無限成長。這個天數是「保留能力」跟「儲存成本」的取捨 — 保留 30 天通常足以涵蓋發現問題到回退的時間差，受合規要求的資料則依規定延長。
server-side encryption
server_side_encryption 確保物件在 S3 落地時加密。aws:kms 使用 KMS 管理的金鑰，加密操作對應用程式透明 — 寫入時自動加密、讀取時自動解密，不需要改應用程式碼。選 aws:kms 而非 AES256（SSE-S3）的判斷依據是存取控制粒度：KMS 金鑰可以獨立設定 key policy，讓「誰能解密」這件事跟「誰能讀 bucket」分開管理，適合跨帳號或跨團隊的場景。
使用 KMS 加密的 bucket 在跨帳號存取時，目標帳號除了要有 bucket 的讀取權限，還需要 KMS key 的 kms:Decrypt 權限 — 少了這一步會拿到 AccessDenied，錯誤訊息通常指向 S3 權限而非 KMS，排查時容易走錯方向。
public access block
public_access_block 的四個布林全設 true，等於從 bucket 層級封死對外公開的可能。即使有人之後誤加了一條公開的 bucket policy 或 ACL，這個 block 也會擋住。它是一道兜底機制 — 擋的是設定錯誤，不是正常操作。
靜態掃描工具（checkov / tfsec）會標記缺少 public access block 的 bucket。這正是模組七：infra 走 PR 流程裡自動化護欄的典型攔截對象 — 漏設的 bucket 會在 PR 階段被擋下，而非部署到線上才發現。
定期用 CLI 掃一遍帳號內所有 bucket 的公開狀態，命中的每個 bucket 都要能回答「這個公開是故意的、理由是什麼」：





1aws s3api list-buckets --query 'Buckets[].Name' --output text | tr '\t' '\n' | \
2  while read b; do
3    status=$(aws s3api get-public-access-block --bucket "$b" 2>/dev/null | \
4      jq -r '.PublicAccessBlockConfiguration | to_entries[] | select(.value==false) | .key')
5    [ -n "$status" ] && echo "$b: $status"
6  done
生命週期規則
儲存成本隨物件數量與保留時間線性成長。生命週期規則讓 IaC 描述「某類物件多久後搬到更便宜的儲存層、再多久後刪掉」，把成本控制變成可版本控制的設定。





 1resource "aws_s3_bucket_lifecycle_configuration" "assets" {
 2  bucket = aws_s3_bucket.assets.id
 3
 4  rule {
 5    id     = "archive-old-logs"
 6    status = "Enabled"
 7    filter { prefix = "logs/" }
 8
 9    transition {
10      days          = 30
11      storage_class = "GLACIER_IR"
12    }
13    expiration { days = 365 }
14  }
15
16  rule {
17    id     = "cleanup-old-versions"
18    status = "Enabled"
19    filter {}
20
21    noncurrent_version_expiration {
22      noncurrent_days = 30
23    }
24  }
25}
儲存層的取捨
S3 提供多個儲存層，各自在存取延遲與儲存單價之間取捨：

  
      
          儲存層
          存取延遲
          適用場景
      
  
  
      
          Standard
          毫秒級
          頻繁讀取的熱資料
      
      
          Standard-IA
          毫秒級
          不常存取但需要時立即讀到
      
      
          Glacier Instant
          毫秒級
          每季存取一次的歸檔
      
      
          Glacier Flexible
          分鐘到小時級
          稽核留存、年度查閱
      
      
          Glacier Deep Archive
          12 小時級
          法規留存、極少存取
      
  

transition 規則的日數設定要回推自業務需求：log 在除錯期間需要即時讀取（Standard），超過 30 天後幾乎只在事故回顧時才翻（Glacier Instant Retrieval 或 Standard-IA），超過一年可以淘汰或移到更深的歸檔層。把這些規則寫進 IaC，「為什麼 logs 只留一年」就是一個能在 PR 上被討論的決定，而非某人在 Console 點了不知道大家知不知道的設定。
bucket policy 與跨帳號存取
bucket policy 描述誰能對這個 bucket 做什麼操作，是 bucket 層級的存取控制。它跟 IAM policy 的差別在施力點：IAM policy 貼在身分上、定義「這個身分能做什麼」；bucket policy 貼在資源上、定義「這個 bucket 允許誰來」。兩者同時生效 — 一個請求要同時被身分端和資源端允許才會放行（除非有顯式 deny）。
跨帳號存取是 bucket policy 最常見的使用場景。一個帳號的 S3 bucket 要讓另一個帳號的 IAM role 讀取，需要兩端同時授權：bucket policy 允許那個 role 的 ARN，對方帳號的 IAM policy 也允許對這個 bucket 操作。





 1resource "aws_s3_bucket_policy" "cross_account_read" {
 2  bucket = aws_s3_bucket.assets.id
 3
 4  policy = jsonencode({
 5    Version = "2012-10-17"
 6    Statement = [{
 7      Sid       = "AllowCrossAccountRead"
 8      Effect    = "Allow"
 9      Principal = { AWS = "arn:aws:iam::111222333444:role/data-reader" }
10      Action    = ["s3:GetObject", "s3:ListBucket"]
11      Resource = [
12        aws_s3_bucket.assets.arn,
13        "${aws_s3_bucket.assets.arn}/*"
14      ]
15    }]
16  })
17}
bucket policy 的常見陷阱是 Principal: "*" — 允許任何人存取。這跟 security group 的 0.0.0.0/0 是同一類風險。除了做為 CloudFront Origin Access Control（OAC）的配合設定，幾乎沒有合理場景需要把 Principal 設成 wildcard。checkov 的 CKV_AWS_70 規則專門攔這個。
把 bucket policy 寫進 IaC 的好處是每一條授權都有 PR 紀錄 — 誰在什麼時候加了一條跨帳號存取、為什麼加、reviewer 同意了沒有。散落在 Console 的 bucket policy 沒有這些追蹤，某天發現一條不認得的授權時，只能去翻 CloudTrail 猜它是什麼時候加的。
事件通知
S3 事件通知讓 bucket 在物件被建立、刪除或還原時，自動觸發下游處理 — 寫入後自動縮圖、上傳後自動掃毒、刪除後自動通知。這些觸發關係寫進 IaC，讓「這個 bucket 會觸發什麼」成為可查詢的事實，而非散落在 Console 的隱性接線。





 1resource "aws_s3_bucket_notification" "assets" {
 2  bucket = aws_s3_bucket.assets.id
 3
 4  lambda_function {
 5    lambda_function_arn = aws_lambda_function.thumbnail.arn
 6    events              = ["s3:ObjectCreated:*"]
 7    filter_prefix       = "uploads/"
 8    filter_suffix       = ".jpg"
 9  }
10}
11
12resource "aws_lambda_permission" "allow_s3" {
13  statement_id  = "AllowS3Invoke"
14  action        = "lambda:InvokeFunction"
15  function_name = aws_lambda_function.thumbnail.function_name
16  principal     = "s3.amazonaws.com"
17  source_arn    = aws_s3_bucket.assets.arn
18}
事件通知的兩個配置常被忽略。第一是權限：S3 要觸發 Lambda，Lambda 的 resource-based policy 必須允許 S3 呼叫它（上面的 aws_lambda_permission），少了這段 apply 會成功但事件不會觸發，除錯時不容易發現。第二是 filter：不設 prefix / suffix 的通知會對 bucket 裡每一個物件操作都觸發，包括生命週期搬遷產生的物件變動 — 流量遠超預期。用 filter 把觸發範圍收斂到需要處理的路徑與檔案類型。
事件通知也可以導向 SQS 或 SNS，適合需要非同步佇列處理或 fan-out 到多個消費者的場景。選擇依據是下游的消費模式：Lambda 適合輕量即時處理（毫秒級回應），SQS 適合需要 backpressure 和重試的批次處理，SNS 適合同一事件需要同時通知多個服務。
跨分類引用

→ 模組七：infra 走 PR 流程：checkov / tfsec 攔截缺少 public access block 或加密的 bucket
→ 模組八：治理好習慣：bucket 的 tagging 與成本歸因
→ 模組二：身分與憑證地基：bucket policy 與 IAM policy 的權限模型交集




斷網環境的容器與映像管理
Fri, 26 Jun 2026 00:00:00 +0000
容器化應用在斷網環境的主要挑戰不是容器本身——Docker 和 containerd 不需要網路就能啟動容器。挑戰在映像的取得和更新：沒有 Docker Hub、沒有 ECR、沒有 ghcr.io，每一個 base image 和應用映像都要經過搬運路徑進入隔離網路。映像的管理在斷網環境裡需要一條完整的 pipeline：外部下載 → 安全掃描 → 搬運 → 推送到內部 registry → 各節點 pull。
Private Registry
隔離網路裡需要一個容器映像倉庫，讓內部的 Docker host / Kubernetes 節點能 pull image。
Harbor
Harbor 是 VMware 開源的企業級 registry，功能包含：映像儲存、漏洞掃描（整合 Trivy）、存取控制（RBAC）、映像簽章（Cosign / Notary）、複製策略。適合中大規模的斷網環境。
離線安裝：Harbor 提供 offline installer（.tgz，約 600MB），包含所有需要的容器映像。搬進隔離網路後解壓、跑 install.sh。





1# 外部：下載 offline installer
2wget https://github.com/goharbor/harbor/releases/download/v2.11.0/harbor-offline-installer-v2.11.0.tgz
3
4# 搬運後，在內部解壓安裝
5tar xzf harbor-offline-installer-v2.11.0.tgz
6cd harbor
7cp harbor.yml.tmpl harbor.yml
8# 編輯 harbor.yml：設定 hostname、HTTPS 憑證、admin 密碼
9./install.sh
Docker Registry（官方輕量版）
如果不需要 Harbor 的進階功能（RBAC、掃描），官方的 Docker Registry 是單一容器、設定最簡單：





1# registry image 也要先搬進來
2docker load < registry-2.8.3.tar
3docker run -d -p 5000:5000 --restart=always --name registry \
4  -v /data/registry:/var/lib/registry \
5  registry:2.8.3
內部機器的 Docker daemon 要設定信任這個 registry（如果是 HTTP 而非 HTTPS）：





1{
2  "insecure-registries": ["registry.internal:5000"]
3}
映像搬運
docker save / load
最直接的搬運方式——把映像匯出成 tar 檔、搬運後匯入：





1# 外部：匯出
2docker pull nginx:1.25-alpine
3docker save nginx:1.25-alpine -o nginx-1.25-alpine.tar
4
5# 搬運後，內部匯入
6docker load < nginx-1.25-alpine.tar
7# 重新 tag 指向內部 registry
8docker tag nginx:1.25-alpine registry.internal:5000/nginx:1.25-alpine
9docker push registry.internal:5000/nginx:1.25-alpine
多個映像可以打包成一個 tar：docker save img1 img2 img3 -o bundle.tar。
skopeo copy
skopeo 是不需要 Docker daemon 的映像操作工具，適合 CI 環境或沒有裝 Docker 的工作站：





1# 外部：從 Docker Hub 複製到本地目錄
2skopeo copy docker://nginx:1.25-alpine dir:/path/to/export/nginx-1.25
3
4# 搬運後，從本地目錄推送到內部 registry
5skopeo copy dir:/path/to/export/nginx-1.25 docker://registry.internal:5000/nginx:1.25-alpine
skopeo 的優勢是不需要 pull 整個映像到本地 Docker（省磁碟空間）、支援 OCI layout、且可以在沒有 root 權限的環境執行。
搬運清單管理
映像搬運容易變成「需要什麼才搬什麼」的臨時操作。建議維護一份搬運清單（manifest），列出所有需要的 base image 和版本：





 1# image-manifest.yaml
 2images:
 3  - name: nginx
 4    tag: 1.25-alpine
 5    source: docker.io/library/nginx
 6  - name: postgres
 7    tag: "16.3"
 8    source: docker.io/library/postgres
 9  - name: node
10    tag: 20-alpine
11    source: docker.io/library/node
搬運腳本讀這份清單自動 pull + save，確保每次搬運的內容一致且可追蹤。
Base Image 更新週期
斷網環境的 base image 不會自動更新——nginx:1.25-alpine 搬進去之後就是那個版本，裡面的 Alpine 套件不會收到安全補丁。需要定期用新版 base image 替換舊的。
更新流程

外部：pull 最新版 base image
外部：用 Trivy 掃描漏洞（見下一節）
搬運：走 content ferry 帶進內部
內部：push 到內部 registry、更新 tag
內部：重新 build 所有依賴這個 base image 的應用映像
內部：部署更新後的應用映像

更新頻率：安全敏感環境月更、一般環境季更。每次更新都要記錄哪些 base image 換了、從哪個版本換到哪個版本。
Helm Chart 離線
如果內部有 Kubernetes 且使用 Helm，chart 也要離線管理：





1# 外部：下載 chart
2helm pull bitnami/postgresql --version 15.5.0
3
4# 搬運後，內部用本地檔案安裝
5helm install pg ./postgresql-15.5.0.tgz -f values.yaml
或架設 ChartMuseum 作為內部 Helm repo：chart 搬進來後 push 到 ChartMuseum，helm repo add 指向它。
離線漏洞掃描
連網環境的 Trivy 會自動下載漏洞資料庫（CVE DB）。斷網環境要先在外部下載 DB、搬進來。





1# 外部：下載 Trivy 漏洞資料庫
2trivy image --download-db-only --cache-dir /path/to/trivy-db/
3
4# 搬運 DB 檔案（~30MB）
5# db.tar.gz 在 /path/to/trivy-db/db/ 裡
6
7# 內部：用離線 DB 掃描
8trivy image --skip-db-update --cache-dir /path/to/trivy-db/ registry.internal:5000/nginx:1.25-alpine
掃描結果的處理方式跟連網環境相同——critical 和 high 的 CVE 要評估是否影響、是否有 base image 更新可修。差別是斷網環境的修復週期更長（要走搬運流程），所以掃描要更頻繁（至少跟 base image 更新同步）。
Harbor 整合 Trivy 後可以在 push 時自動掃描——Trivy DB 的更新同樣需要定期搬運。
時程參考：Private registry 建置（Harbor offline）約需 1 天。映像搬運流程建立約需半天。第一批 base image 搬運 + 掃描約需半天。之後每次更新約 2-4 小時。
跨分類引用

→ 斷網環境的通用原則：映像搬運走 content ferry 模式
→ 模組五：核心服務上 IaC — 運算：連網環境的容器部署
→ ECS 知識卡：容器編排的基礎概念




職務交接與存取撤銷設計
Fri, 26 Jun 2026 00:00:00 +0000
人員異動（離職、轉調、承包合約結束）是常態營運事件。基礎設施的設計決定了這件事的成本：如果環境的建立方式寫在程式碼裡、存取路徑收斂在 SSO、變更歷史留在 PR，交接是一兩天的帳號操作加上 repo 權限移交。如果環境靠個人記憶維護、存取散落在多組長期 key、變更歷史只在當事人的 shell history 裡，交接是數週的考古加上「不確定有沒有漏掉什麼」的持續焦慮。這篇文章處理兩件事：人走的時候怎麼安全撤銷存取，以及怎麼設計 infra 讓未來的交接成本結構性降低。
離職或轉調的存取撤銷清單
存取撤銷的目標是在人員離開的同一天（最晚 24 小時內）關閉所有該身分能存取雲端資源的路徑。撤銷的順序按影響範圍從大到小排：先關能連鎖失效的上游入口，再逐一清理下游殘留。
第一步：停用 SSO / IdP 帳號
如果雲端存取統一走 SSO（如 AWS IAM Identity Center、Okta、Google Workspace），停用 IdP 帳號會連鎖撤銷所有透過 SSO 取得的雲端權限 — 這是單一操作影響最大的一步。停用後，該人無法再透過 SSO 登入任何已接 SSO 的 AWS 帳號、CI 平台或內部工具。
這一步能覆蓋多少取決於 SSO 的覆蓋率。如果某些雲端帳號還沒接 SSO（用獨立 IAM user 登入），停用 IdP 帳號不會影響那些路徑，需要額外處理。
第二步：處理長期 access key
從 credential report 找出該人名下的所有長期 access key：





1aws iam generate-credential-report
2aws iam get-credential-report --output text --query Content | base64 -d \
3  | grep "departed-user"
每把 key 判斷處理方式：

  
      
          key 狀態
          處理方式
      
  
  
      
          只有該人在用
          直接 deactivate，觀察 24 小時無異常後刪除
      
      
          被自動化腳本引用
          先建新 key 並更新引用處，再 deactivate 舊 key
      
      
          用途不明
          先 deactivate（不刪），監控 CloudTrail 看有沒有存取失敗
      
  

deactivate 而非直接刪除是因為刪除不可逆 — 如果某個沒記錄在案的自動化正在用這把 key，deactivate 會讓它報權限錯誤，CloudTrail 會記錄失敗的 API 呼叫，方便追蹤；直接刪除後這把 key 的 ID 就消失了，追蹤更困難。
第三步：刪除個人 IAM user
確認沒有自動化依賴這個 user 後刪除。刪除前先檢查該 user 是否有 inline policy 或 group membership 被其他流程引用：





1aws iam list-user-policies --user-name departed-user
2aws iam list-groups-for-user --user-name departed-user
3aws iam list-attached-user-policies --user-name departed-user
第四步：第三方服務帳號
雲端以外的存取路徑同樣需要撤銷：

版本控制（GitHub / GitLab）：移除組織 membership 或降為 read-only
CI 平台（GitHub Actions secrets、GitLab CI variables）：如果該人曾設定過 CI secret，確認那些 secret 是否需要輪替
監控與告警（Grafana、PagerDuty、Datadog）：移除帳號或降權
基礎設施管理平台（Terraform Cloud、Spacelift）：移除 team membership

第五步：MFA 裝置解除註冊
如果該人的 MFA 裝置仍然綁在帳號上（例如 root account 的 MFA），需要管理員介入解除並重新綁定。root account 的 MFA 裝置異動屬於高敏感操作，需要有第二人確認。
時程與回報

  
      
          項目
          時限
          回報內容
      
  
  
      
          SSO 停用
          離職當天
          確認 IdP 帳號已停用
      
      
          長期 key 處理
          24 小時內
          key 數量、各 key 處理方式（deactivate / 替換 / 刪除）
      
      
          IAM user 刪除
          48 小時內
          確認無殘留 user
      
      
          第三方服務
          48 小時內
          各平台的處理狀態
      
      
          管理層回報
          48 小時內
          一份清單確認所有存取路徑已關閉
      
  

這份回報不是形式 — 它是對管理層證明「離職者已無法存取任何系統」的書面紀錄，合規稽核時會被要求出示。
離職時的 credential rotation
存取撤銷處理的是「這個人自己的 key 和帳號」。如果離職者曾有 admin 級別的存取權，還需要處理他可能接觸過的共用 secret。
rotation 的範圍取決於該人的權限等級：

  
      
          權限等級
          rotation 範圍
      
  
  
      
          只有特定服務的讀取
          不需額外 rotation
      
      
          特定服務的讀寫
          該服務的 API key 和連線密碼
      
      
          跨服務或帳號的管理權限
          所有 Secrets Manager 裡該人可讀的 secret
      
      
          root 或 admin 等級
          全面 rotation + CloudTrail 審計最近 30 天活動
      
  

admin 級別離職時的 CloudTrail 審計：





1aws cloudtrail lookup-events \
2  --lookup-attributes AttributeKey=Username,AttributeValue=departed-user \
3  --start-time $(date -v-30d +%Y-%m-%dT%H:%M:%SZ) \
4  --max-items 100 \
5  --query 'Events[].[EventTime,EventName,Resources[0].ResourceName]' \
6  --output table
審計的目的是確認離職前 30 天內有沒有異常操作（大量資料下載、權限變更、新 key 建立），而非預設離職者有惡意。這是標準的安全衛生程序。
如果團隊已經全面採用 OIDC 短期憑證（見模組二：身分與憑證地基），離職時的 credential rotation 範圍會大幅縮小 — 沒有長期 key 就沒有需要輪替的靜態憑證，SSO 停用後短期 token 自然失效。
IaC 與 PR 歷史怎麼降低交接成本
存取撤銷是離職當天的緊急操作。交接成本的高低則取決於新接手的人能多快理解環境的結構與歷史。
環境結構寫在 IaC 裡時，新人讀 repo 就能回答「我們有幾個 VPC、subnet 怎麼切、哪些服務在哪個 private subnet」。PR 歷史回答「為什麼 NAT 從共享改成 per-AZ」（因為上個月 ap-northeast-1a 故障時全部出站斷了）。這些資訊不依賴任何個人的記憶，新人第一天就能取得。
程式碼和 PR 歷史能涵蓋的是環境的結構與變更理由。以下資訊不在程式碼裡，需要額外文件或交接：

營運脈絡：哪些服務是流量敏感的、哪個時段不能做變更、哪些客戶有特殊 SLA
事故歷史：過去發生過什麼事故、當時怎麼處理的、有沒有遺留的 workaround
vendor 關係：support contract 的聯絡方式、升級路徑、合約到期時間
進行中的工作：正在做的遷移、已知但未處理的技術債、已規劃但未執行的變更

時程參考：環境完全在 IaC 裡的團隊，infra 角色交接通常 1-2 天能讓新人開始獨立操作（讀 code + 第一次 PR）。沒有 IaC 的環境，交接需要 1-2 週的口頭傳授加上新人自行摸索。
最小交接清單
任何 infra 角色變更（不只是離職，包括長假、轉組、新人 onboarding）都應該走過一次這份清單：
帳號與存取盤點

所有雲端帳號的列表（帳號 ID、用途、環境對應）
CI/CD 平台的組織與 repo 存取
監控與告警平台的帳號
DNS 管理（域名註冊商、Route 53 hosted zone）
SSL 憑證管理（ACM、Let’s Encrypt）

憑證盤點

長期 access key 清單（從 credential report 取得）
Secrets Manager / SSM Parameter Store 裡的 secret 清單
第三方服務的 API key（付費服務、SaaS 整合）

聯絡與升級路徑

雲端 vendor 的 support 聯絡方式與 support plan 等級
資安事件的通報對象與流程
on-call chain 與升級規則

進行中的工作

正在執行的遷移或重構（目前到哪一步、下一步是什麼）
已知的技術債與風險（哪些資源還沒納管、哪些 key 該輪替但還沒輪替）
已排程但未開始的變更

這份清單的維護成本很低 — 多數項目在日常工作中已經存在（credential report、repo 結構、ticket board），交接時只需要把散落的資訊收斂到一份文件。如果每次交接都要花時間「找資訊在哪裡」，代表日常的資訊組織有改善空間。
讓交接成本結構性降低的設計
上面的清單處理的是每次交接的操作成本。以下設計原則處理的是讓這個成本隨時間趨近固定值、而非隨環境複雜度增長：
SSO 作為單一存取撤銷點：所有雲端存取走 SSO，離職時停用一個帳號就關閉所有路徑。沒有 SSO 時，每多一個平台就多一個需要手動撤銷的路徑，漏撤任何一個都是安全缺口。SSO 的覆蓋率越高，撤銷操作越接近 O(1)。
消除個人長期 key：用 OIDC + role assumption 取代長期 access key（見模組二：身分與憑證地基）。沒有長期 key，離職時就沒有需要逐一追蹤和輪替的靜態憑證。credential rotation 的範圍從「所有 key」縮小到「共用 secret」。
環境描述在程式碼裡：IaC 讓環境結構對任何有 repo 存取的人可讀。交接的知識成本從「口頭傳授整個環境長什麼樣」降到「讀 code + PR 歷史」。見模組七：infra 走 PR 流程。
PR 描述記錄「為什麼」：程式碼記錄「什麼」，PR 描述記錄「為什麼」。三個月後翻 git log，看到「把 NAT 從共享改成 per-AZ」知道改了什麼；看到 PR 描述裡的「因為上週 ap-northeast-1a 故障時全部出站斷了」才知道為什麼。這段脈絡在交接時的價值最高 — 新人最常問的問題就是「為什麼這樣設定」。
on-call 輪替分散操作知識：讓不同人輪流負責 infra 的 review、apply 和事故處理，用操作經驗分散知識。判斷知識是否過度集中的方式：如果團隊裡只有一個人敢對 production 做 apply，那個人就是交接的瓶頸。見模組九：怎麼把 infra 推動起來。
這些設計的共同效果是讓交接的固定成本保持在「停用帳號 + 移交 repo 權限 + 走一次交接清單」，不隨環境複雜度或人員流動頻率等比增長。
跨分類引用

→ 模組二：身分與憑證地基：IAM 設計、OIDC 短期憑證、權限邊界
→ 模組七：infra 走 PR 流程：PR 作為知識載體、變更可追溯
→ 模組九：怎麼把 infra 推動起來：知識共享與 on-call 輪替
→ backend 模組七：資安與資料保護：Secret 輪替策略




拿到雲端帳號的第一天
Tue, 30 Jun 2026 00:00:00 +0000
這篇寫給一種特定的讀者：你的專業可能是後端、前端、資料工程或其他領域，但因為組織需要，你被指派處理雲端基礎設施。公司（或主管）給了你一個 AWS / GCP / Azure 帳號，你登入之後看到一個很大的 Console，不確定該做什麼、也不確定動了什麼會出事。
這是 infra 工作最常見的真實入口。比起從零自學建一套環境，「接到指派、拿到帳號、搞清楚狀況」才是多數工程師第一次碰 infra 的方式。
這篇用 AWS 為主要範例。GCP 和 Azure 的判讀邏輯相同（安全底線 → 現況盤點 → 路線分流），但具體服務名稱、IAM 模型和 Console 操作位置不同。
第一小時：安全底線
登入帳號後，在做任何其他事之前先完成這些。這些步驟的共同目的是確保帳號的存取控制處於安全狀態——雲端帳號被入侵的代價遠高於本機電腦被入侵，因為雲端資源可以在幾分鐘內被大量建立（產生帳單）或被刪除（資料遺失）。
確認 root 帳號的 MFA
Root 帳號是雲端環境的最高權限，能做任何事，包括關閉整個帳號。如果 root 帳號沒有 MFA（Multi-Factor Authentication，多因子驗證），任何拿到 root 密碼的人都能完全控制整個環境。
確認路徑（AWS）：Console 右上角帳號名稱 → Security credentials → Multi-factor authentication (MFA)。如果顯示「No MFA device」，立刻設定一個——手機 app（Google Authenticator / Authy）或硬體 key（YubiKey）都可以。
如果你拿到的帳號是公司用 AWS Organizations 開出來的子帳號，子帳號 root 的密碼和 MFA 是獨立的——管理帳號無法代設。子帳號 root 通常需要先用帳號 email 做密碼重置才能首次登入。確認 root MFA 後，日常操作用 IAM Identity Center 登入。
確認你的登入身分
你登入用的是哪種身分？這決定了你的權限範圍和操作方式。
IAM user：Console 右上角會顯示 username @ account-id。這是最傳統的登入方式——帳號管理員幫你建了一個使用者，給了你一組帳密。
IAM Identity Center（SSO）：你透過一個特別的登入頁面（通常是 https://d-xxxxxxxxxx.awsapps.com/start）登入，然後選擇帳號和角色。這是較新的做法，多帳號組織常用。
Root 帳號：Console 右上角顯示帳號 email 而非 username。如果你拿到的是 root 帳號的帳密，日常操作應該換成 IAM user 或 SSO 登入——root 帳號只在需要 root-only 操作（如設定 MFA、關閉帳號）時使用。建立 IAM user 的方式見模組一的動手前的前提段。
檢查既存的 access key
帳號如果被前人用過，可能有暴露風險的 access key——之前的管理員建了 IAM user、生了 key，但那組 key 可能已經寫在某個 Git repo 或環境變數裡而沒有停用。
確認路徑：Console → IAM → Users → 逐一點每個 user → Security credentials 分頁 → Access keys。檢查每組 key 的狀態（Active / Inactive）和建立時間。超過 90 天未 rotate 的 Active key 是風險——帳號接手後優先 rotate 或停用這些 key。如果帳號裡沒有任何 IAM user，這步跳過。
確認 CloudTrail 是否開啟
CloudTrail 記錄帳號內所有 API 操作（誰在什麼時間做了什麼）。AWS 預設會開啟 90 天的事件歷史，但長期保存需要建一個 Trail 把 log 寫到 S3。
確認路徑：Console 搜尋 CloudTrail → Dashboard。如果有 Trail 已建立，表示操作紀錄有長期保存。如果只有預設的 Event history，90 天前的紀錄會消失——這是一個需要但不緊急的改善點，模組六：可觀測性會展開。
現階段只需要確認 CloudTrail 存在，不需要馬上改它。
設定帳單警報
雲端帳單是開放式的——資源跑著就持續產生費用，被入侵後被開出大量資源更可能在幾小時內累積數千美元帳單。設一個帳單警報，超過閾值時收到通知。
設定路徑（AWS）：Console 搜尋 Billing → Budgets → Create budget → Cost budget。設一個月預算（如 $50 或 $100，依你的環境規模），超過 80% 和 100% 時發 email 通知。
帳號現況判讀：空帳號還是有東西？
安全底線做完後，下一步是搞清楚帳號的現況。這決定了你接下來走哪條路線。
怎麼判斷
EC2 Dashboard 只顯示當前 region 的資源。Console 右上角有 region 選擇器——先切幾個主要 region（us-east-1、ap-northeast-1、ap-southeast-1）看一下，確認資源是否分散在不同 region。
打開 EC2 Dashboard（Console 搜尋 EC2）。如果 Running instances 是 0、沒有 volumes、沒有 security groups（除了 default）——大概率是空帳號。也檢查 Lambda（Console 搜尋 Lambda → Functions）——如果有 function 在跑但 EC2 是空的，可能是 serverless 架構，帳號不是空的。
再看 S3（Console 搜尋 S3）。S3 是全域服務，不分 region。如果沒有 bucket，或只有 CloudTrail 的 log bucket——大概率是空帳號。
如果有正在跑的 EC2 instance、有 Lambda function、有 RDS 資料庫、有 S3 bucket 存著資料——這是一個有東西的帳號，可能是前人建的、可能是其他團隊在用的。
空帳號 → 從零建置
帳號是空的，你要從零開始建基礎設施。這是最乾淨的起點。
路線：先讀模組零建立心智模型（什麼是 infra、成熟度階梯），然後照模組一到五的順序走。模組一的動手前的前提段會帶你設好本機工具和認證。
有東西的帳號 → 接手維運
帳號裡已經有資源在跑。你需要先搞清楚「有什麼」「誰建的」「哪些還在用」，再決定怎麼處理。
路線：讀接手維運模組。它按環境類型（全手動的遺留環境、部分有 IaC、多帳號結構）分篇，教你怎麼盤點、怎麼在不搞壞的前提下逐步接管。
不確定 → 先盤點再說
如果帳號裡有東西但你不確定是不是還在用、能不能動，先盤點。以下指令需要 AWS CLI 並完成認證——安裝和 aws configure 設定見模組一的前提段（macOS 快速安裝：brew install awscli && aws configure）：





 1# 列出所有 region 的 EC2 instance
 2for region in $(aws ec2 describe-regions --query 'Regions[].RegionName' --output text); do
 3  echo "=== $region ==="
 4  aws ec2 describe-instances --region "$region" \
 5    --query 'Reservations[].Instances[].[InstanceId,State.Name,Tags[?Key==`Name`].Value|[0]]' \
 6    --output table
 7done
 8
 9# 列出所有 S3 bucket
10aws s3 ls
11
12# 列出所有 RDS instance
13aws rds describe-db-instances \
14  --query 'DBInstances[].[DBInstanceIdentifier,Engine,DBInstanceStatus]' \
15  --output table
這些指令只做讀取，不會改變任何東西。如果輸出很多資源，去讀接手維運再決定下一步。如果幾乎是空的，走「從零建置」路線。
雲端 Console 的基本導覽
AWS Console 列出幾百個服務，日常 infra 工作常用的集中在以下幾個：

  
      
          服務
          做什麼
          什麼時候用
      
  
  
      
          EC2
          虛擬機器（運算）
          看有什麼機器在跑、管 security group
      
      
          S3
          物件儲存
          放檔案、放 Terraform state、放 log
      
      
          IAM
          身分與權限
          管使用者、角色、權限
      
      
          VPC
          虛擬網路
          管網路拓撲、子網路、路由
      
      
          RDS
          託管資料庫
          看有沒有資料庫在跑
      
      
          CloudWatch
          監控與 log
          看 metric、設 alarm、查 log
      
      
          CloudTrail
          操作審計
          查誰做了什麼
      
      
          Billing
          帳單
          看花了多少錢
      
  

Console 左上角的搜尋列可以直接搜服務名稱，不用從選單找。
每個服務在 Console 上的操作都有一個對應的 AWS CLI 指令和 API 呼叫。這個對應關係是 IaC 的基礎——模組一會教怎麼把 Console 上的操作轉成程式碼。
你接下來該讀什麼
根據你的情境選一條路線：

  
      
          你的情境
          路線
          從哪裡開始
      
  
  
      
          完全沒碰過雲端、想先理解概念
          入門認識
          個人專案到團隊服務
      
      
          空帳號、要從零建 infra
          從零建置
          模組一：最小可行 IaC
      
      
          帳號有東西、要接手維運
          接手前人專案
          接手維運
      
      
          手動環境、暫時無法導入 IaC
          還沒有 IaC
          模組負一：還沒有 infra 的環境
      
      
          要跟主管解釋為什麼要做 infra
          說服決策者
          給非工程人員的 infra 說明
      
      
          拿到一台主機、要從 OS 層連入初始化
          機器初始化
          Linux 安裝與機器初始化
      
  

如果你不確定自己屬於哪種情境，先做完本篇的「帳號現況判讀」再決定。



Access Key 輪替手冊
Fri, 26 Jun 2026 00:00:00 +0000
長期 access key 的風險隨時間單調上升——每多存在一天，被複製到新地方的機率就多一分，而輪替的難度也跟著副本數量增長。輪替不是「發現外洩才做」的緊急動作，而是定期執行的維運操作。本篇是操作手冊，從盤點開始、逐步完成輪替、最後建立自動化。
盤點：帳號裡有哪些 key
第一步是拿到帳號內所有 IAM user 的 access key 清單。AWS 的 credential report 是這個問題的標準資料來源，它列出每個 user 的 key 狀態、建立時間與最後使用時間。





1aws iam generate-credential-report
2aws iam get-credential-report \
3  --query 'Content' --output text | base64 -d > credential-report.csv
產出的 CSV 包含每個 IAM user 的兩把 key（access_key_1、access_key_2）各自的狀態。關注的欄位：

  
      
          欄位
          用途
      
  
  
      
          user
          key 的擁有者
      
      
          access_key_1_active
          key 是否啟用
      
      
          access_key_1_last_used_date
          最後使用時間——長期未使用代表可能是遺棄的 key
      
      
          access_key_1_last_rotated
          建立或上次輪替的時間
      
  

用 csvkit 或試算表打開這份報告，按 access_key_1_last_rotated 排序，最舊的 key 排最前面。超過 90 天未輪替的 key 列為第一批處理對象。
以下腳本使用 gawk 的 systime() 函式。如果系統的 awk 是 mawk（Ubuntu 預設），改用 gawk 或用 date 指令替代時間計算。





 1# 快速列出所有啟用中、超過 90 天的 key
 2aws iam list-users --query 'Users[].UserName' --output text | tr '\t' '\n' | while read user; do
 3  aws iam list-access-keys --user-name "$user" \
 4    --query "AccessKeyMetadata[?Status=='Active'].[UserName,AccessKeyId,CreateDate]" \
 5    --output text
 6done | awk -F'\t' '{
 7  cmd = "date -d \"" $3 "\" +%s 2>/dev/null || date -jf \"%Y-%m-%dT%H:%M:%S+00:00\" \"" $3 "\" +%s"
 8  cmd | getline created; close(cmd)
 9  age = (systime() - created) / 86400
10  if (age > 90) printf "%s\t%s\t%.0f days\n", $1, $2, age
11}'
識別每把 key 的用途
知道 key 存在之後，下一個問題是「這把 key 用在哪裡」。credential report 只告訴你 key 最後被用來呼叫什麼 service（access_key_1_last_used_service），但不告訴你它被存放在哪裡。
用途識別需要交叉比對多個來源：

  
      
          可能的存放位置
          檢查方式
      
  
  
      
          CI 環境變數（GitHub Actions）
          repo Settings → Secrets and variables → Actions
      
      
          CI 環境變數（GitLab CI）
          repo Settings → CI/CD → Variables
      
      
          EC2 instance 的 user data
          aws ec2 describe-instance-attribute --attribute userData
      
      
          Lambda 環境變數
          aws lambda get-function-configuration --function-name NAME
      
      
          SSM Parameter Store
          aws ssm get-parameters-by-path --path / --recursive
      
      
          開發者筆電
          ~/.aws/credentials — 需要口頭確認
      
      
          程式碼 repo
          git log --all -p | grep AKIA — AKIA 是 access key 的固定前綴
      
      
          Slack / email 歷史
          無法自動掃描，靠團隊回報
      
  

對每把要輪替的 key，在以上位置逐一確認。找不到用途的 key 可以先停用觀察（而非直接刪除），停用後如果有服務壞了就知道它用在哪裡。
輪替步驟：五步流程
輪替一把 key 的標準流程分五步，順序不能跳：
第一步：建立新 key





1aws iam create-access-key --user-name deploy-bot
輸出會包含新的 AccessKeyId 和 SecretAccessKey。SecretAccessKey 只在這一刻顯示一次，存進密碼管理器或 Secrets Manager，不要貼在 Slack 或 email 裡。
一個 IAM user 最多同時有兩把 key。如果已經有兩把，需要先刪除一把不用的才能建新的。
第二步：更新所有消費者
把新 key 部署到上一節識別出的所有存放位置。CI 變數、Lambda 環境變數、SSM Parameter Store、開發者的 ~/.aws/credentials 都要同步更新。
每更新一個消費者就做一次功能驗證——CI 跑一次 pipeline、Lambda 觸發一次、開發者跑一次 aws sts get-caller-identity 確認新 key 能用。
第三步：驗證新 key 生效
所有消費者更新完後，等待一個完整的業務週期（至少 24 小時），確認沒有任何服務還在用舊 key。檢查方式是看舊 key 的 LastUsedDate 有沒有在更新之後還被使用：





1aws iam get-access-key-last-used --access-key-id AKIAOLD12345
如果 LastUsedDate 在你更新消費者之後仍有新的使用紀錄，代表有漏網的消費者還在用舊 key。
第四步：停用舊 key
確認無殘留使用後，停用（不是刪除）舊 key：





1aws iam update-access-key \
2  --user-name deploy-bot \
3  --access-key-id AKIAOLD12345 \
4  --status Inactive
停用是安全的中間狀態——用到這把 key 的服務會開始報 InvalidClientTokenId 錯誤，但 key 還在、可以隨時重新啟用。如果停用後有意料之外的服務壞了，重新啟用就能立刻恢復。
第五步：寬限期後刪除
停用後保持 7-14 天的寬限期。這段時間是「如果有漏掉的消費者」的安全網。寬限期內無異常，刪除：





1aws iam delete-access-key \
2  --user-name deploy-bot \
3  --access-key-id AKIAOLD12345
刪除後不可回復。如果有服務還在用這把 key，只能建一把新 key 然後去更新那個服務。
自動化輪替：Secrets Manager
手動輪替的瓶頸在「找到所有消費者」這一步。如果 key 的消費者都從 Secrets Manager 讀取（而非各自存一份副本），輪替就簡化成「在 Secrets Manager 裡更新值」——所有消費者下次讀取時自動拿到新 key。
Secrets Manager 支援自動輪替：設定一個 Lambda function 作為 rotation function，它負責建新 key → 更新 secret value → 停用舊 key 的全流程。





 1resource "aws_secretsmanager_secret" "deploy_key" {
 2  name = "prod/deploy-bot/access-key"
 3}
 4
 5resource "aws_secretsmanager_secret_rotation" "deploy_key" {
 6  secret_id           = aws_secretsmanager_secret.deploy_key.id
 7  rotation_lambda_arn = aws_lambda_function.key_rotator.arn
 8
 9  rotation_rules {
10    automatically_after_days = 90
11  }
12}
自動輪替的前提是所有消費者都改成從 Secrets Manager 讀 key，而非從環境變數或設定檔。這個前提本身就是一次 migration——跟手動輪替的固定成本（盤點 + 更新 + 驗證）相比，migration 的一次性成本更高，但之後的每次輪替接近零成本。
判斷該不該投入自動化的依據是 key 的數量和輪替頻率。3 把 key、每季輪替一次，手動流程 2-3 小時可以完成，自動化的 ROI 不高。10 把以上、或合規要求 30 天輪替，手動已經吃掉固定的工程師時間，自動化的投入才有回報。
Key age 監控
輪替做完不代表可以不管——如果沒有監控，三個月後又會回到「不知道有幾把超齡的 key」的狀態。
最低成本的監控是一條定期跑的 check，掃描所有 key 的年齡並在超過閾值時告警：





1# 列出所有超過 90 天的 active key（用 AWS Config 規則更可靠）
2aws configservice put-config-rule --config-rule '{
3  "ConfigRuleName": "access-keys-rotated",
4  "Source": {
5    "Owner": "AWS",
6    "SourceIdentifier": "ACCESS_KEYS_ROTATED"
7  },
8  "InputParameters": "{\"maxAccessKeyAge\":\"90\"}"
9}'
AWS Config 的 ACCESS_KEYS_ROTATED managed rule 會持續掃描所有 IAM user 的 key age，超過設定天數的標記為 non-compliant。把 Config 的 non-compliant 事件接到 SNS → Slack 或 email，就有了持續的 key 超齡告警。
Prowler 也提供 key age 檢查（prowler aws --checks access_key_1_rotated），適合當一次性掃描工具。Config rule 適合持續監控。
管理層報告可以用 Config 的 compliance dashboard：compliant key 數 / 總 key 數 = key rotation 覆蓋率，這個百分比適合放進月報。
IAM Access Analyzer 的 unused access 功能（需啟用 analyzer）可以持續掃描帳號內未使用的 key 和 permission，跟 Config rule 互補——Config 看 key age，Access Analyzer 看 key 是否被使用。兩者搭配可以同時回答「這把 key 多久沒輪替」和「這把 key 有沒有在用」。
跨分類引用

→ 身分與憑證地基：access key 風險的系統性分析、OIDC 作為長期 key 的替代方案
→ 團隊權限分級與存取管理：離職時的 key 撤銷流程
→ 治理好習慣：secret 的儲存與引用紀律




VPC（Virtual Private Cloud）
Fri, 26 Jun 2026 00:00:00 +0000
VPC（Virtual Private Cloud）是雲端帳號內的一塊邏輯隔離私有網段，是其餘所有網路切分的起點。在 VPC 裡開出來的所有資源預設只看得到同一個 VPC 內的成員，與其他 VPC、與其他帳號的網路天然隔離。沒有 VPC，subnet 與 security group 無處依附。
VPC 用 CIDR 區塊定義地址空間。建立時的 CIDR 大小是一次性決策——事後擴張地址空間在多數雲端平台上是麻煩且容易出錯的操作（AWS 允許追加 secondary CIDR，但追加的網段在 routing 與服務相容性上有限制）。
概念位置
VPC 是模組三：網路地基的最外層邊界。Infra 系列的網路設計從 VPC 開始：先圈定地址空間，再往內切 subnet、掛 route table、設 security group。環境之間的 VPC 怎麼分（每個環境一個 VPC），屬於模組四：環境分離的設計決策。
可觀察訊號
VPC 設計需要關注的訊號：CIDR 空間快用完（subnet 切不出新的子網段）、需要跟其他 VPC 或地端互連時發現 CIDR 重疊（peering 無法建立）、服務被放在預設 VPC 裡（預設 VPC 是所有人共享的、CIDR 不可控的、security group 預設全通的）。
設計責任
規劃 VPC 時要決定：

CIDR 大小：/16 提供約六萬五千個位址，對多數單一環境足夠
不重疊：多個 VPC（不同環境或產品線）用連續但不重疊的大段分配
DNS 設定：enable_dns_support 和 enable_dns_hostnames 在多數場景都該開啟
預設 VPC 的處理：正式服務不該放在預設 VPC，新帳號的預設 VPC 可以刪除或保留唯讀

鄰卡

Subnet — VPC 內按可用區與暴露程度切出的子網段
Security Group — 掛在資源上的有狀態防火牆
CIDR — VPC 的地址空間定義方式
NAT — 讓 private subnet 出站的地址轉換機制



入口上 IaC — ALB、TLS 與健康檢查
Fri, 26 Jun 2026 00:00:00 +0000
ALB（Application Load Balancer）描述流量進入系統的第一站。它在 IaC 裡的接線責任是把三個層次釘清楚：listener 決定監聽哪些 port 與協定、target group 決定流量導向哪些運算後端、health check 決定後端是否健康到可以接流量。ALB 本身是 stateless 的 — 重建不會遺失資料，但會換掉它的 DNS 名稱，所以對外服務通常在它前面再掛一層穩定的 DNS 記錄（Route 53 alias 或 CNAME），讓使用者看到的網域不隨 ALB 重建而改變。
ALB 掛在 public subnet、引用專屬的 security group，security group 的入站通常只開 80 和 443 對 0.0.0.0/0（這是少數合理出現全開的位置，因為 ALB 的工作本來就是接收公開流量）。後端運算節點住在 private subnet，它們的 security group 入站只允許來自 ALB security group 的流量 — 這個 group-to-group 引用讓規則跟著成員身分走，不跟著 IP 走（見模組三：網路地基）。
ALB 與 listener 設定
ALB 資源本身描述的是它掛在哪些 subnet、用哪個 security group、是對外（internal = false）還是內部。Listener 則是掛在 ALB 上的監聽端點，每個 listener 綁定一個 port + protocol 的組合。





1resource "aws_lb" "api" {
2  name               = "api-${var.env}"
3  internal           = false
4  load_balancer_type = "application"
5  security_groups    = [aws_security_group.alb.id]
6  subnets            = [for s in aws_subnet.public : s.id]
7}
HTTP 到 HTTPS 的強制跳轉
正式服務通常同時建兩個 listener：port 443 接受 HTTPS 流量並轉發到後端，port 80 接收 HTTP 流量後直接回一個 301 redirect 到 HTTPS — 確保使用者即使用 http:// 開頭訪問也會被導到加密連線。





 1resource "aws_lb_listener" "https" {
 2  load_balancer_arn = aws_lb.api.arn
 3  port              = 443
 4  protocol          = "HTTPS"
 5  ssl_policy        = "ELBSecurityPolicy-TLS13-1-2-2021-06"
 6  certificate_arn   = aws_acm_certificate.api.arn
 7
 8  default_action {
 9    type             = "forward"
10    target_group_arn = aws_lb_target_group.api.arn
11  }
12}
13
14resource "aws_lb_listener" "http_redirect" {
15  load_balancer_arn = aws_lb.api.arn
16  port              = 80
17  protocol          = "HTTP"
18
19  default_action {
20    type = "redirect"
21    redirect {
22      port        = "443"
23      protocol    = "HTTPS"
24      status_code = "HTTP_301"
25    }
26  }
27}
ssl_policy 決定 ALB 接受哪些 TLS 版本與密碼套件。選擇以安全與相容性為取捨 — ELBSecurityPolicy-TLS13-1-2-2021-06 只接受 TLS 1.2 和 1.3，能阻擋過時協定的降級攻擊，但會拒絕仍在使用 TLS 1.0/1.1 的極舊用戶端。對面向公眾的 API 或網站，TLS 1.2 以上是合理的底線；如果有明確的舊用戶端需求（例如嵌入式設備），再往下調但要知道代價。
多服務共用 ALB
一個 ALB 可以掛多個 listener rule，用 host header 或 path 把流量分到不同的 target group。這讓多個微服務共用一個 ALB（省成本），而不需要每個服務各開一個：





 1resource "aws_lb_listener_rule" "auth" {
 2  listener_arn = aws_lb_listener.https.arn
 3  priority     = 10
 4
 5  condition {
 6    path_pattern { values = ["/auth/*"] }
 7  }
 8
 9  action {
10    type             = "forward"
11    target_group_arn = aws_lb_target_group.auth.arn
12  }
13}
一個常見的收斂機會：如果每個服務都各自開了一個 ALB，但流量都從同一個入口進來、只是路徑不同，可以收斂成一個 ALB 加 listener rule。每個 ALB 有固定的小時費，少開幾個月費就少幾筆。反過來，當不同服務的安全等級或流量特性差異大到需要獨立的 security group 和 WAF 規則時，分開 ALB 才合理。
target group 與健康檢查
Target group 定義一組接收流量的後端（ECS task、EC2 instance 或 IP），以及判斷這些後端是否健康的檢查邏輯。它是 ALB 和實際運算之間的橋樑。





 1resource "aws_lb_target_group" "api" {
 2  name        = "api-${var.env}-tg"
 3  port        = 8080
 4  protocol    = "HTTP"
 5  vpc_id      = aws_vpc.main.id
 6  target_type = "ip"
 7
 8  health_check {
 9    path                = "/healthz"
10    interval            = 15
11    healthy_threshold   = 2
12    unhealthy_threshold = 3
13    timeout             = 5
14    matcher             = "200"
15  }
16}
健康檢查的閾值設計
健康檢查的路徑與閾值是最常被忽略的判讀點。各參數之間的交互作用決定了兩個時間窗口：新後端多久後開始接流量、壞後端多久後被移出。
healthy_threshold = 2 配 interval = 15 代表一個新啟動的後端要等 30 秒（兩次通過）才開始接流量。unhealthy_threshold = 3 代表連續三次失敗（45 秒）才被移出。閾值太寬鬆會把壞掉的後端留在輪替裡，讓部分使用者持續收到錯誤；太嚴格會在部署瞬間 — 新容器啟動、應用還在初始化 — 就判定不健康，反覆移出移入，使用者看到間歇性失敗。

  
      
          參數
          過小的風險
          過大的風險
          起點建議
      
  
  
      
          interval
          ALB 對後端造成額外負擔
          壞後端被偵測到的延遲增加
          15-30 秒
      
      
          healthy_threshold
          還沒完全就緒就接流量
          部署後等太久才開始分流
          2-3 次
      
      
          unhealthy_threshold
          暫時性波動導致健康的後端被移出
          壞後端繼續收流量太久
          2-3 次
      
      
          timeout
          正常但偏慢的回應被誤判為失敗
          確實掛了卻要等很久才確認
          5 秒
      
  

健康檢查路徑的選擇
path 指向的端點應該能反映應用是否確實能服務請求，而不只是 process 還活著。一個只回 200 的空端點（所謂 liveness check）證明 HTTP server 在跑，但不代表它能連到資料庫、能讀到必要的 config。較合理的做法是讓 /healthz 至少檢查核心依賴的連線（例如 ping 一下 DB），失敗時回 503。代價是健康檢查會跟著核心依賴一起報不健康 — 如果 DB 暫時斷了，所有後端都會被判定不健康，ALB 會回 503 給使用者。這是正確的行為：如果應用確實無法服務請求，把它標成不健康比假裝健康好。
判讀方式：部署後觀察 target group 裡的 healthy / unhealthy 轉換次數。如果每次部署都看到新 target 在 healthy 與 unhealthy 之間跳動，代表初始等待不夠 — 應用的啟動時間超出 healthy_threshold * interval，考慮加大 healthy_threshold 或設定 ECS 的 startPeriod（啟動寬限期）讓健康檢查在應用初始化期間暫停。
TLS 憑證：ACM 簽發、DNS 驗證與自動續期
HTTPS listener 引用的 TLS 憑證也屬於 ALB 的接線。用 ACM（AWS Certificate Manager）簽發的憑證在 IaC 裡完整描述 — 涵蓋網域與 DNS 驗證方式 — 讓「憑證存在、驗證、掛載」整條鏈都進版本控制，而非在 Console 手動上傳一份會過期沒人盯的憑證。
ACM 簽發的憑證使用 DNS 驗證時，ACM 要求在指定的 DNS 記錄上放一段驗證值。Terraform 可以自動建立這段記錄並等待驗證通過：





 1resource "aws_acm_certificate" "api" {
 2  domain_name       = "api.${var.domain}"
 3  validation_method = "DNS"
 4
 5  lifecycle { create_before_destroy = true }
 6}
 7
 8resource "aws_route53_record" "cert_validation" {
 9  for_each = {
10    for dvo in aws_acm_certificate.api.domain_validation_options : dvo.domain_name => dvo
11  }
12  zone_id = data.aws_route53_zone.main.zone_id
13  name    = each.value.resource_record_name
14  type    = each.value.resource_record_type
15  records = [each.value.resource_record_value]
16  ttl     = 60
17}
18
19resource "aws_acm_certificate_validation" "api" {
20  certificate_arn         = aws_acm_certificate.api.arn
21  validation_record_fqdns = [for r in aws_route53_record.cert_validation : r.fqdn]
22}
create_before_destroy 的必要性
create_before_destroy = true 確保憑證更新（例如加 SAN 或續期觸發重建）時先建新的再刪舊的，避免 listener 在交接期間沒有可用憑證。Terraform 預設行為是先刪後建，會造成一個短暫的 HTTPS 中斷窗口 — listener 找不到憑證、所有 HTTPS 連線失敗直到新憑證簽發並驗證完畢。
ACM 簽發的憑證自動續期：只要 DNS 驗證記錄還在（由 Terraform 管理，所以會一直在），ACM 在到期前 60 天自動續期。這是把憑證管理成本降到接近零的做法 — 不需要排程提醒、不需要手動下載上傳。判讀訊號：如果 CloudWatch 出現 DaysToExpiry 降到 30 以下的 alarm，代表自動續期失敗，通常是 DNS 驗證記錄被手動刪了或 Route 53 zone 變了。
多網域憑證（SAN）
一張 ACM 憑證可以涵蓋多個網域（Subject Alternative Names），例如 api.example.com 和 admin.example.com 共用一張。在 IaC 裡用 subject_alternative_names 列舉：





1resource "aws_acm_certificate" "multi" {
2  domain_name               = "api.${var.domain}"
3  subject_alternative_names = ["admin.${var.domain}", "*.internal.${var.domain}"]
4  validation_method         = "DNS"
5
6  lifecycle { create_before_destroy = true }
7}
共用一張還是分開簽取決於生命週期：如果這幾個網域總是一起上下線、一起變更，共用一張省維護；如果各自獨立演進，分開簽讓變更範圍更小。
DNS zone 管理與 ALB 的銜接
Hosted zone：DNS 記錄的容器
Route 53 的 hosted zone 是一個網域下所有 DNS 記錄的容器。public hosted zone 管理對外可見的網域（如 example.com），private hosted zone 管理只在 VPC 內可解析的內部網域（如 internal.example.com），讓服務之間用 DNS 名稱互連而不靠 IP。
多環境的 DNS 管理常用子網域 delegation：production 用 example.com（主 zone），dev 和 staging 各用 dev.example.com 和 staging.example.com（子 zone）。子 zone 可以放在不同帳號、由不同團隊管理，主 zone 只需要一組 NS 記錄指向子 zone。這讓環境之間的 DNS 邊界跟帳號邊界對齊。





 1resource "aws_route53_zone" "main" {
 2  name = var.domain
 3}
 4
 5resource "aws_route53_zone" "staging" {
 6  name = "staging.${var.domain}"
 7}
 8
 9resource "aws_route53_record" "staging_ns" {
10  zone_id = aws_route53_zone.main.zone_id
11  name    = "staging.${var.domain}"
12  type    = "NS"
13  ttl     = 300
14  records = aws_route53_zone.staging.name_servers
15}
hosted zone 也是 ACM 憑證 DNS 驗證的依賴 — ACM 簽發憑證時需要在對應的 zone 寫入一條驗證記錄，zone 不存在或不在同帳號就接不上。把 zone 的建立排在 ACM 之前，讓依賴圖自然正確。
ALB 的穩定 DNS 記錄
ALB 重建後 DNS 名稱會改變。穩定對外的方式是在 Route 53 建一條 alias 記錄指向 ALB，使用者連的是 api.example.com，DNS 自動解析到 ALB 目前的位址：





 1resource "aws_route53_record" "api" {
 2  zone_id = data.aws_route53_zone.main.zone_id
 3  name    = "api.${var.domain}"
 4  type    = "A"
 5
 6  alias {
 7    name                   = aws_lb.api.dns_name
 8    zone_id                = aws_lb.api.zone_id
 9    evaluate_target_health = true
10  }
11}
evaluate_target_health = true 讓 Route 53 在 ALB 所有 target 都不健康時把這條記錄標為不健康。如果有多個 region 的 ALB 做了 failover routing，這個設定能讓 DNS 層自動切換到健康的 region — 屬於跨區域容災的地基，在 devops 模組展開。
WAF 與下一步
ALB 支援掛載 AWS WAF（Web Application Firewall），在流量進到應用之前先過一層規則 — 擋已知惡意 IP、防 SQL injection / XSS 的常見模式、限制單一 IP 的請求速率。WAF 的規則也可以寫進 IaC，讓「哪些流量被擋」成為可審查的程式碼而非 Console 上的設定。WAF 的詳細設計屬於安全層的範圍（見 backend 模組七：資安與資料保護），這裡只確認它的掛載點是 ALB。
四類核心服務的 IaC 描述到此完成。下一步是讓這些服務可被觀測——log、metric、alarm 跟資源同生命週期建立，見模組六：可觀測性與 log。
跨分類引用

→ 模組三：網路地基：ALB 的 security group 設計，group-to-group 引用
→ 模組五：stateful 資源的保護策略：ALB 是 stateless，但它引用的 ACM 憑證和 DNS 記錄有自己的生命週期考量
→ devops 模組一：負載平衡：ALB 的運行期調校 — 跨 AZ 流量分配、connection draining、sticky session
→ backend 模組七：資安與資料保護：WAF 規則設計




資料庫大版本升級
Fri, 26 Jun 2026 00:00:00 +0000
資料庫大版本升級是所有升級類型中風險最高的一種，因為資料庫承載的是不可重建的狀態。Runtime 升級（PHP 5.6→8.x）改壞了可以切回舊版本重新部署（切換 PHP 版本即可回退）；平台遷移（共享主機→雲端）改壞了可以把 DNS 切回去（TTL 期間內生效）。資料庫升級改壞了，回退手段是從備份還原——而還原需要時間，還原期間服務不可用，且還原點之後的寫入會遺失。這個不對稱決定了資料庫升級的操作模式：每一步都需要驗證通過才進下一步，且每一步都有明確的回退路徑。
升級前的相容性評估
大版本升級不只是換一個二進位檔——新版本可能改變 SQL 行為、儲存格式、認證方式與預設值。在動任何生產資源之前，先在本地或測試環境把相容性問題找出來。
MySQL 5.7 → 8.0 的常見破壞性變更

  
      
          變更項
          影響
          檢查方式
      
  
  
      
          GROUP BY 隱式排序移除
          依賴 GROUP BY 順序的查詢結果可能改變
          搜尋沒有 ORDER BY 的 GROUP BY 查詢
      
      
          預設字元集 utf8 → utf8mb4
          欄位長度與索引大小計算改變，索引可能超過限制
          檢查 VARCHAR(255) + 唯一索引的欄位
      
      
          認證方式改為 caching_sha2
          舊版 client / driver 可能無法連線
          確認應用程式的 MySQL driver 版本支援 caching_sha2_password
      
      
          保留字新增（RANK、ROW_NUMBER）
          用這些字當欄位名或別名的查詢會報語法錯
          grep -rn "RANK|ROW_NUMBER|GROUPS|CUME_DIST" --include="*.sql"
      
      
          JSON 函式行為變更
          JSON_MERGE 改名為 JSON_MERGE_PRESERVE、行為語意不同
          搜尋 JSON_MERGE 呼叫
      
  

PostgreSQL 大版本升級的檢查點
PostgreSQL 的大版本升級相對穩定，但仍有需要確認的項目：extension 版本是否跟新 PostgreSQL 版本相容（特別是 PostGIS、pg_partman、timescaledb 這類複雜 extension）、pg_upgrade 的 --check 模式可以在不實際升級的前提下驗證相容性。





1# PostgreSQL: 升級前 dry-run 檢查
2pg_upgrade --old-datadir /var/lib/postgresql/13/main \
3           --new-datadir /var/lib/postgresql/16/main \
4           --old-bindir /usr/lib/postgresql/13/bin \
5           --new-bindir /usr/lib/postgresql/16/bin \
6           --check
應用程式層的查詢相容性
把應用程式的所有 SQL 查詢（ORM 產生的也算）對新版本跑一遍。重點是行為變更而非語法錯誤——語法錯誤會立刻報錯、容易抓；行為變更（排序結果不同、型別轉換規則不同）不會報錯、但結果錯誤。





1# MySQL 升級前檢查工具
2mysqlcheck --all-databases --check-upgrade
3mysql_upgrade --upgrade-system-tables --dry-run
ORM 和 database driver 也要確認版本支援。PHP 的 mysqli 在 PHP 7.4+ 預設支援 caching_sha2_password、但舊版不支援。Node.js 的 mysql2 原生支援、但 mysql（舊套件）不支援。Python 的 mysqlclient 1.4+ 支援。
備份：升級前的保險
升級前的備份不是日常備份——它是一份明確的、經過驗證的、標記為「升級前保險點」的快照。
備份操作





1# MySQL: 完整 dump（InnoDB 用 --single-transaction 避免鎖表）
2mysqldump --all-databases --single-transaction --routines --triggers \
3  --set-gtid-purged=OFF > pre-upgrade-$(date +%Y%m%d-%H%M).sql
4
5# PostgreSQL: 完整 dump
6pg_dumpall > pre-upgrade-$(date +%Y%m%d-%H%M).sql
RDS 環境：在升級操作前手動建立 snapshot，而非依賴自動備份。自動備份在升級過程中可能被新的快照覆蓋，手動 snapshot 不會被自動清除。





1aws rds create-db-snapshot \
2  --db-instance-identifier mydb-prod \
3  --db-snapshot-identifier pre-upgrade-$(date +%Y%m%d)
備份驗證
備份存在不等於備份可用。驗證方式是把備份還原到一台獨立的測試實例、確認資料完整：





1# 還原到測試實例
2mysql -h test-instance -u admin -p < pre-upgrade-20260626-1400.sql
3
4# 驗證關鍵表的 row count
5mysql -h test-instance -e "SELECT COUNT(*) FROM orders; SELECT COUNT(*) FROM users;"
記錄還原時間：「從這份備份還原到可服務狀態需要 N 分鐘/小時」。這個數字是升級失敗時的停機時間下限——管理層需要這個數字來評估升級的風險。
平行驗證策略
在生產環境切換之前，先在新版本的平行環境上跑完所有驗證。平行驗證的目標是讓切換那一刻的風險降到最低——切換時已經知道新版本在相同資料和相同負載下的行為。
建立平行環境

  
      
          方式
          適用情境
          資料同步方式
      
  
  
      
          Read replica + 版本升級
          RDS 環境、支援跨版本 replica
          RDS 原生複寫
      
      
          Logical replication
          需要跨大版本
          pg_logical / binlog → 新實例
      
      
          Dump / restore
          任何環境、資料量可控
          一次性 dump + 增量 binlog 回放
      
  

驗證項目

  
      
          項目
          方法
          通過標準
      
  
  
      
          應用程式測試套件
          對新版本實例跑完整測試
          0 failure
      
      
          查詢效能
          對比兩個版本的 slow query log
          p99 延遲無顯著退化（<10% 差異）
      
      
          資料一致性
          關鍵表 row count + checksum
          完全一致
      
      
          連線行為
          應用程式連新版本、觀察連線池
          無 authentication failure
      
      
          備份還原
          從新版本做一次 dump + restore
          還原成功、資料完整
      
  

平行驗證至少跑一週。時間越長、覆蓋到的邊界情境越多——月結批次、週期性報表、低頻排程任務都可能觸發只在特定條件下才出現的相容性問題。
切換策略
切換策略的選擇取決於三個變數的取捨：操作複雜度、停機時間、回退速度。
In-place 升級
直接在原實例上升級版本。RDS 的操作是修改 engine version、等待升級完成。

停機：升級期間實例不可用（MySQL 5.7→8.0 在 RDS 上約 10-30 分鐘，視資料量而定）
回退：從 pre-upgrade snapshot 還原，需要 snapshot restore 時間（分鐘到小時級）
適用：可接受計畫性停機的環境、資料量不大

Blue-green 切換
在新版本上建立獨立實例、透過 replication 同步資料、切換應用程式的連線端點。

停機：接近零（DNS TTL 或 endpoint 切換的傳播時間）
回退：把連線端點切回舊實例，舊實例持續運行
複雜度：需要維護兩個實例的同步、切換時要處理複寫延遲
適用：不能接受停機的 production 環境

RDS 從 2022 年開始提供原生的 Blue/Green Deployments 功能，簡化了同步與切換的操作：





1aws rds create-blue-green-deployment \
2  --blue-green-deployment-name mydb-upgrade \
3  --source arn:aws:rds:ap-northeast-1:123456789012:db:mydb-prod \
4  --target-engine-version 8.0.35
Read replica 升級後提升
建立指定新版本的 read replica，replica 同步完成後提升為獨立實例，應用程式切換連線。

停機：提升 replica 的幾秒 + 連線切換
回退：舊 primary 仍在，切回即可
限制：不是所有版本組合都支援跨版本 replica

選型判準

  
      
          考量
          In-place
          Blue-green
          Replica 提升
      
  
  
      
          操作複雜度
          低
          中
          中
      
      
          停機時間
          10-30 分鐘
          接近零
          幾秒
      
      
          回退速度
          慢（snapshot restore）
          快（切回舊端點）
          快（切回舊 primary）
      
      
          成本
          最低
          升級期間雙倍
          升級期間雙倍
      
  

升級後的驗證與監控
切換完成後的 48-72 小時是觀察期。這段時間舊實例保持可用狀態，直到確認新版本穩定才退役。
切換後立即驗證

應用程式的所有關鍵路徑可正常操作（登入、查詢、寫入、交易）
連線池行為正常（沒有持續的 authentication failure 或 connection reset）
排程任務（cron job、背景 worker）正常連線並執行

效能監控
比較升級前後的關鍵指標：





1# 觀察升級後的 slow query 數量
2mysql -e "SHOW GLOBAL STATUS LIKE 'Slow_queries';"
3
4# 比較 p99 延遲（需要 application-level metrics）
5# CloudWatch: DBInstanceIdentifier → ReadLatency, WriteLatency
升級後效能退化的常見原因：optimizer 行為改變（新版本選了不同的執行計畫）、buffer pool 冷啟動（升級後快取是空的、前幾小時延遲偏高是正常的）。如果 48 小時後延遲仍未回到基線，檢查 slow query log 找出退化的具體查詢。
舊實例退役
觀察期結束、新版本確認穩定後：

停止舊實例的 replication（如果仍在同步）
保留舊實例的 final snapshot
刪除舊實例（先確認 deletion protection 關閉是刻意的、不是誤操作）
更新文件：記錄升級日期、版本號、升級過程中遇到的問題

時程與管理層溝通

  
      
          升級類型
          典型時程
          停機窗口
      
  
  
      
          Minor version（5.7.x → 5.7.y）
          2-4 小時計畫維護
          10-15 分鐘
      
      
          Major version（5.7 → 8.0）in-place
          1-2 週（評估 + 驗證 + 切換 + 監控）
          10-30 分鐘
      
      
          Major version blue-green
          2-3 週（含平行運行期）
          接近零
      
  

向管理層說明時的關鍵框架：資料是不可重建的，升級策略是「在旁邊建一個新版本的資料庫、驗證它在相同資料和相同負載下行為正確、然後切過去」。多出來的時間買的是「切換那一刻的信心」和「出問題時能快速回退」——兩者對生產服務都是必要的保險。
跨分類引用

→ 升級的共通操作框架：四階段模型的通用說明
→ Stateful 資源保護與依賴表達：multi-AZ、備份、deletion protection 的 IaC 描述
→ 無 SSH 環境的資料庫備份與變更管理：接手環境的資料庫備份策略




模組四：環境分離與模組化
Fri, 26 Jun 2026 00:00:00 +0000
從目錄結構就定好環境邊界的專案，dev 跟 prod 是兩棵獨立的 state 樹、改錯一邊不會波及另一邊；等資源都長出來、流量都上線了才回頭切的專案，每一次 retrofit 都在帶電作業，動到的是正在服務客戶的網路與身分。同樣一套 module、同樣的工程師，差別只在「環境邊界是設計出來的、還是事後補的」，而這個差別在第一天幾乎零成本、在第一百天可能是一個季度的遷移專案。這一章談的是怎麼讓 dev 跟 prod 共用同一套 code、卻不互相污染，以及已經單環境建好地基的人怎麼安全地補上這條邊界。
環境分離從第一天的目錄結構就定好
環境分離的本質是把「同一套基礎設施定義」複製成多份隔離的執行實例，每份有自己的 state、自己的雲端資源、自己的故障半徑。它承擔的責任是讓 dev 的實驗、staging 的驗證、prod 的真實流量彼此不可見也不可達 — 在 dev 跑壞一個資料庫、套錯一條 security group 規則，prod 完全無感。
這個邊界要在第一天就用目錄結構表達出來，原因是 state 一旦混在一起就難以無痛拆開。Terraform 這類工具用 state 檔記錄「哪個資源由哪段 code 管理」，如果 dev 跟 prod 的資源都登記在同一份 state，後續想把 prod 移出去，等於要對正在服務的資源做 state mv 或 import/remove 操作 — 任何一步算錯，工具可能判定資源該銷毀重建，而那是 prod 的資料庫。第一天就分目錄，dev 與 prod 從來不曾共用 state，這個風險根本不存在。
判讀訊號很簡單：如果現在只有一份 main.tf、裡面同時宣告了 dev-db 跟 prod-db，這個專案已經欠下環境分離的債，債齡每天都在增加。下一步路由是先確立目錄骨架，再決定差異怎麼參數化。
目錄分離 vs Terraform workspace 的取捨
切分環境有兩條主流路徑：每個環境一個獨立目錄（各自持有 backend 與 state），或共用一份 code 用 Terraform workspace 切換不同 state。兩者都能讓 state 隔離，差別在「環境差異藏在哪裡」以及「誤操作的故障半徑多大」。
在挑這兩條路之前，先把它們放回完整的分離強度光譜：環境分離橫跨一條從帳號到 workspace、隔離由粗到細的階梯，目錄與 workspace 只是相鄰的兩格，依隔離需求與維運成本取捨決定落在哪一格。最粗也最強的是帳號級隔離 — dev 與 prod 落在不同雲端帳號，憑證、計費與權限邊界天然分開，帳號邊界讓誤操作止於單一帳號（見模組二：身分與憑證地基）。次強的是每環境一個獨立 repo，把 code、IAM 權限與 CI pipeline 都按環境切開，適合各環境由不同團隊維護或受不同合規等級約束。再往細是本章主要討論的目錄分離 — 同一 repo 內各環境有獨立目錄與 state，邊界仍顯式、但共用一套 code 與一組權限。最細的是 workspace，code 完全共用、只在執行期切換 state。光譜越靠粗的一端，隔離越強、跨環境共用越少、初始與維運成本越高；越靠細的一端，重複越少、邊界越隱性。多數早期團隊在目錄分離這一格落腳，因為它在顯式邊界與維運成本之間平衡得宜；當隔離需求升高（例如 prod 要法規等級的帳務與權限隔離），再沿光譜往帳號級或獨立 repo 移。
目錄分離把每個環境寫成可獨立進入的工作目錄，差異透過各自的 terraform.tfvars 表達，prod 的 backend 設定、變數值、甚至 provider 版本都各自鎖定。它的代價是目錄之間有重複的 boilerplate，好處是邊界顯式 — 你 cd 進哪個目錄、apply 就只會動那個環境，prod 的 state 位址寫死在 prod 目錄的 backend 設定裡，不會因為忘記切換而打錯環境。
目錄分離的 boilerplate 重複可以用 Terragrunt 這類工具收斂。Terragrunt 的存在理由正是把跨環境目錄共通的 backend、provider、module 呼叫抽成一份範本，各環境目錄只留差異值，等於在保留目錄顯式邊界的前提下補上一層 DRY。它划算的情境是環境數量多、共通 boilerplate 開始拖慢維護時，這層強化值得引入；環境只有兩三個時，直接維護幾份目錄的成本通常還低於多引入一個工具與它的學習曲線。





 1infra/
 2├── modules/                  # 可重用模組、不含任何環境專屬值
 3│   ├── network/
 4│   ├── database/
 5│   └── service/
 6└── environments/
 7    ├── dev/
 8    │   ├── main.tf           # 呼叫 modules、傳 dev 參數
 9    │   ├── backend.tf        # state 指向 dev 專屬位址
10    │   └── terraform.tfvars  # dev 的差異值
11    ├── staging/
12    │   └── ...
13    └── prod/
14        ├── main.tf
15        ├── backend.tf        # state 指向 prod 專屬位址
16        └── terraform.tfvars  # prod 的差異值
Workspace 共用同一份 code、用 terraform workspace select prod 在執行期切換 state。它的好處是零重複，所有環境的 code 保證同步；代價是環境差異只能靠 terraform.workspace 在 code 裡寫條件判斷，而當前選中哪個 workspace 是 shell 的隱性狀態 — 在 dev workspace 以為自己在改 dev、其實上一個指令切到了 prod，apply 下去才發現故障半徑是 prod。這個隱性狀態正是早期最該避免的失誤來源。
早期推薦目錄分離，理由是故障半徑與認知負荷的取捨在小團隊明顯偏向「顯式邊界」這一側：團隊還沒有成熟的 CI gate 攔截誤 apply，顯式目錄是最便宜的防呆。Workspace 較划算的情境是環境數量多且高度同構（例如每個客戶一個隔離環境、差異只有名稱與配額），重複目錄的維護成本開始超過 workspace 隱性狀態的風險時，再切過去。每個環境的 state 要怎麼各自隔離、backend 怎麼設定，見模組一：最小可行 IaC。
module 化：同一套 code、不同參數
Module 是把一組會被多環境重複使用的資源封裝成有輸入參數的單元，承擔的責任是讓 dev 與 prod 共享同一份邏輯定義、只在參數上分歧。沒有 module 時，dev 與 prod 各自維護一份 copy-paste 的資源宣告，兩份會隨時間漂移 — 有人只在 prod 補了一條 security group 規則、忘了同步 dev，於是「dev 能跑、prod 卻爆掉」或更糟的「dev 測過了、prod 行為不同」。
避免漂移的關鍵是讓環境之間唯一合法的差異來源是傳進 module 的參數，而不是 module 內部的 code 分支。Module 內部不寫 if env == "prod" 這類判斷，所有環境相關的值都從 variable 進來：





 1# modules/database/variables.tf — module 只宣告它需要什麼參數
 2variable "instance_class" {
 3  type = string
 4}
 5
 6variable "multi_az" {
 7  type    = bool
 8  default = false
 9}
10
11variable "backup_retention_days" {
12  type    = number
13  default = 7
14}




1# environments/prod/main.tf — prod 傳自己的值
2module "database" {
3  source                = "../../modules/database"
4  instance_class        = "db.r6g.xlarge"
5  multi_az              = true
6  backup_retention_days = 30
7}
這樣 dev 與 prod 跑的是位元層級相同的 module code，差異全部收斂在 main.tf 的呼叫參數裡、一眼可審。判讀訊號是 review 時只要 diff 各環境的參數區塊就能看完所有環境差異；如果發現有人為了某環境的特例去改 module 內部，那是漂移正在發生的徵兆，該把特例改寫成新的參數。核心服務怎麼用 module 跨環境重用，見模組五：核心服務上 IaC。
環境差異參數化：prod 放大、dev 縮小
環境之間真正該不同的是規模與冗餘等級，而這些差異全部表達成參數值、不表達成不同的 code。Prod 承擔真實流量與可用性承諾，所以跨多個可用區（multi-AZ）部署、機器規格放大、備份保留更久、開啟刪除保護；dev 承擔的是迭代速度與成本控制，所以單 AZ、最小機型、短備份甚至無備份，壞了重建即可。
把這些差異參數化的好處是「環境拓樸的形狀一致、只有刻度不同」。Dev 與 prod 都經過同一段 module 邏輯，prod 不會出現一段 dev 從未執行過的 code path — 真正上線的設定，在 dev 已經以縮小版驗證過邏輯正確性。常見陷阱是把成本差異做成「dev 直接砍掉某個元件」：例如 dev 為了省錢不建負載平衡器、prod 才建，結果 prod 的 LB 相關設定從來沒在 dev 測過。較划算的做法是 dev 也建同型元件、只把規格與數量縮到最小，讓拓樸保持同構、只縮放刻度。
邊界在於少數差異無法只靠刻度表達 — 例如 prod 需要合規要求的稽核 log、dev 不需要。這類用 count 或 for_each 配一個布林參數開關，仍然走參數化、不分叉 code。跨可用區與冗餘的網路面怎麼鋪，見模組三：網路地基。
retrofit 路徑：把單環境拆成 per-env module
很多專案是先在單一環境把 IAM、VPC、核心資源都建起來、跑通了，才意識到需要環境分離 — 這是常見且合理的演進順序，尤其是先救火上線、之後才回頭納管的情況。Retrofit 的目標是在不破壞正在服務的資源前提下，把這份「隱含為 prod」的單環境，重構成「modules + per-env 呼叫」的結構，並讓現有資源平移成 prod 環境。承接模組二：身分與憑證地基與模組三：網路地基先建好的單環境地基，這一段就是把它們納入 per-env 管理的路線。
安全的步驟順序是先重構 code、再動資源歸屬，且每一步都用 terraform plan 確認「零變更」：

把現有資源宣告抽成 module：把 main.tf 裡的資源搬進 modules/、原地用 module 呼叫取代，所有值先寫死成現況。此時 plan 必須顯示無任何新增或銷毀 — 只是重新組織 code，資源在 state 裡的位址若有變，用 moved {} 區塊宣告搬遷、避免工具誤判為「銷毀舊的、建新的」。
把寫死的值換成 prod 的參數：把現況值搬進 environments/prod/terraform.tfvars，module 改吃參數。plan 仍須零變更，因為參數值就等於現況值。
建立其他環境目錄：複製 prod 的呼叫結構成 environments/dev/，給它自己的 backend（獨立 state）與縮小的參數值。這一步是純新增、不碰 prod。
逐一驗證：先在 dev apply 出一套完整的縮小版環境、確認 module 在新環境也能 plan/apply 乾淨，再回頭確信 prod 的重構沒有副作用。

最大的風險集中在前兩步：現有資源是活的，任何讓工具判定「需要替換」的改動，對 IAM 角色可能是短暫權限真空、對 VPC 可能是子網重建導致服務中斷。防護是把每一次 plan 的輸出當成必須為零的驗收條件，非零就停下來查 moved 區塊或參數值哪裡跟現況不符。狀態危險的訊號是 plan 出現任何 destroy 或 forces replacement，在 prod 路徑上這幾乎都該先暫停。第二個風險是 state 操作本身 — retrofit 期間務必先備份 state 檔，state mv 與 moved 區塊優先用後者（宣告式、可 review、可回滾），手動 state mv 留給 moved 表達不了的跨 module 搬遷。整個 retrofit 走 PR 流程、讓 plan 輸出在 review 時可見，見模組七：infra 走 PR 流程。
章節文章

  
      
          文章
          主題
      
  
  
      
          環境分離與模組化 — 目錄結構、module 參數化與 retrofit 路徑
          用目錄結構隔開 dev 與 prod 的 state，用 module 讓環境共用同一套邏輯只差參數，以及單環境跑起來後怎麼安全拆分
      
      
          單環境到多環境的 Retrofit 操作手冊
          moved block 步驟、zero-change plan 驗證、state 備份、forces replacement 風險控制
      
  

跨分類引用

→ 模組一：最小可行 IaC：每個環境的 state 怎麼隔開
→ 模組五：核心服務上 IaC：核心服務怎麼用 module 跨環境重用




斷網環境的監控與可觀測性
Fri, 26 Jun 2026 00:00:00 +0000
斷網環境不能用 Datadog、New Relic、Sentry Cloud、PagerDuty Cloud 這些 SaaS 監控服務——它們全部需要往外發送資料。監控的三個核心能力（metric 收集、log 彙整、告警通知）全部要用 self-hosted 的開源工具在隔離網路內搭建。原則跟連網環境相同（metric 跟資源同生命週期、alarm 要連到動作），差別在工具的部署和儲存規劃要自己管。
Metric 收集：Prometheus + Grafana
Prometheus 是 pull-based 的 metric 收集系統——它主動去 scrape 各服務的 metric endpoint，不需要服務往外推資料。這個架構天然適合斷網：所有流量都在內網、不需要出站連線。
離線安裝
Prometheus 和 Grafana 都是單一二進位或容器映像，離線安裝跟映像搬運相同的流程：





1# 外部：下載 release binary
2wget https://github.com/prometheus/prometheus/releases/download/v2.53.0/prometheus-2.53.0.linux-amd64.tar.gz
3wget https://dl.grafana.com/oss/release/grafana-11.1.0.linux-amd64.tar.gz
4
5# 搬運後解壓、設定 systemd service
6tar xzf prometheus-2.53.0.linux-amd64.tar.gz
7sudo mv prometheus-2.53.0.linux-amd64 /opt/prometheus
如果用容器部署，先把映像搬進內部 registry 再 pull：





1# 內部：從內部 registry 啟動
2docker run -d -p 9090:9090 \
3  -v /etc/prometheus:/etc/prometheus \
4  -v /data/prometheus:/prometheus \
5  registry.internal:5000/prometheus:v2.53.0
Scrape 設定
Prometheus 的 prometheus.yml 定義要 scrape 的目標。斷網環境通常用 static config（手動列出目標）而非 service discovery（需要雲端 API）：





 1scrape_configs:
 2  - job_name: 'node-exporter'
 3    static_configs:
 4      - targets:
 5          - 'server-01:9100'
 6          - 'server-02:9100'
 7          - 'db-01:9100'
 8
 9  - job_name: 'app'
10    static_configs:
11      - targets:
12          - 'app-01:8080'
13          - 'app-02:8080'
14    metrics_path: '/metrics'
新增機器時手動把它加進 targets 清單。如果用 Consul（內網 service discovery），Prometheus 支援 Consul SD、可以自動發現新服務。
Node Exporter
每台需要監控的 Linux 機器裝一個 node_exporter（單一二進位、無依賴），暴露 CPU、記憶體、磁碟、網路等系統 metric。離線安裝同理——下載 binary、搬運、解壓、設成 service。





1# 搬運後安裝
2tar xzf node_exporter-1.8.1.linux-amd64.tar.gz
3sudo cp node_exporter-1.8.1.linux-amd64/node_exporter /usr/local/bin/
4sudo useradd --no-create-home --shell /bin/false node_exporter
5# 建立 systemd service（略）
Log 收集：Loki 或 ELK
Grafana Loki（輕量）
Loki 是 Grafana 生態的 log 彙整系統，架構類似 Prometheus（pull/push 都支援），但儲存的是 log stream 而非 metric。它不索引 log 內容（只索引 label），所以儲存成本遠低於 Elasticsearch。





 1# loki-config.yaml 基本設定
 2auth_enabled: false
 3server:
 4  http_listen_port: 3100
 5storage_config:
 6  filesystem:
 7    directory: /data/loki/chunks
 8schema_config:
 9  configs:
10    - from: 2024-01-01
11      store: tsdb
12      object_store: filesystem
13      schema: v13
14      index:
15        prefix: index_
16        period: 24h
搭配 Promtail（log 收集 agent）在每台機器上收集 log 並推送到 Loki：





 1# promtail-config.yaml
 2clients:
 3  - url: http://loki.internal:3100/loki/api/v1/push
 4scrape_configs:
 5  - job_name: system
 6    static_configs:
 7      - targets: [localhost]
 8        labels:
 9          job: syslog
10          __path__: /var/log/*.log
ELK Stack（功能豐富）
Elasticsearch + Logstash + Kibana 是功能最完整的 log 平台，但資源消耗大（Elasticsearch 建議至少 4GB RAM 起跳）。適合需要全文搜索 log 內容的場景。
離線安裝：Elastic 提供離線安裝包（.deb / .rpm），或用 Docker 映像。三個組件都要搬運。
選型判準：5 台以下的小環境用 Loki（輕量、跟 Prometheus + Grafana 同一套 dashboard）。需要全文搜索、已有 ELK 經驗的團隊用 ELK。
告警：沒有外部 webhook 怎麼通知
連網環境的告警通常發到 Slack webhook、PagerDuty API、或 email relay service。斷網環境這些路徑都不通。
內部 SMTP
如果隔離網路內有 email server（很多企業內網有 Exchange 或 Postfix），Prometheus Alertmanager 可以發 email 告警：





 1# alertmanager.yml
 2route:
 3  receiver: 'email-team'
 4receivers:
 5  - name: 'email-team'
 6    email_configs:
 7      - to: 'oncall@internal.corp'
 8        from: 'alertmanager@internal.corp'
 9        smarthost: 'smtp.internal.corp:25'
10        require_tls: false
內部即時通訊
如果內網有 Mattermost（Slack 的 self-hosted 替代）或 Rocket.Chat，Alertmanager 可以用 webhook 發送到這些工具的 incoming webhook endpoint。
實體告警
極端情境（沒有 email、沒有 chat）：Alertmanager 把告警寫到檔案或資料庫、搭配值班制度定期查看。或用 Grafana 的 dashboard + 控制室大螢幕，值班人員直接看板。
告警的設計原則跟連網環境相同——symptom-based（錯誤率、延遲）優先於 cause-based（CPU、記憶體），閾值設計避免告警疲勞。差別在通知的到達速度可能慢一些（email 比 Slack push 慢），所以閾值要稍微保守（提早告警）。
Metric 與 Log 的儲存規劃
SaaS 監控的儲存是雲端自動擴展的。Self-hosted 的儲存要自己規劃——磁碟滿了 Prometheus 就停止收集、Loki 就停止寫入。
容量估算
Prometheus 的儲存量取決於 series 數量 × scrape 間隔 × 保留天數。粗估公式：





1每日儲存 ≈ active_series × sample_size(2B) × (86400 / scrape_interval) × compression_ratio(~0.1)
1 萬個 active series、15 秒 scrape interval、保留 30 天 ≈ 約 5GB。保留 90 天 ≈ 約 15GB。
Loki 的儲存量取決於 log 流量。粗估：每天 10GB 的 raw log 在 Loki 壓縮後約 1-2GB，保留 30 天 ≈ 30-60GB。
Retention 設定





1# prometheus.yml
2global:
3  scrape_interval: 15s
4storage:
5  tsdb:
6    retention.time: 30d
7    retention.size: 10GB  # 以先到的為準
超過容量時 Prometheus 自動刪除最舊的資料。設定 retention 前先確認磁碟空間足夠——斷網環境擴容磁碟的流程（採購 + 安裝）可能需要週到月級的時間。
NTP 時間同步
斷網環境容易被忽略的一個問題是時間同步。沒有 NTP server（pool.ntp.org）可連的機器，時鐘會漂移——幾天後各台機器的時間差可能達到秒級。當 Prometheus 收到的 metric timestamp 跟 Loki 收到的 log timestamp 有幾秒落差，事故排查時 metric 跟 log 對不上。
解法是在隔離網路內架一台 NTP server，所有機器從它同步：





1# 內部 NTP server（chrony）
2# /etc/chrony/chrony.conf
3local stratum 10         # 沒有外部來源時、自己當 stratum 10
4allow 10.0.0.0/16        # 允許內部網段同步
5
6# 其他機器指向內部 NTP
7server ntp.internal iburst
如果隔離網路的閘道可以開 NTP（UDP 123），讓閘道從外部 NTP 同步、內部機器從閘道同步，時間精度可以維持在毫秒級。
時程參考：Prometheus + Grafana + Alertmanager 的初次建置約需 1-2 天。Loki + Promtail 約需半天到一天。NTP server 約需 2 小時。後續維護主要是 Prometheus/Loki 版本更新的搬運（每次 1-2 小時）和儲存容量監控。
跨分類引用

→ 斷網環境的通用原則：監控工具的離線安裝走 content ferry 模式
→ 斷網環境的容器管理：Prometheus/Grafana/Loki 的容器映像搬運
→ 模組六：可觀測性與 log：連網環境的可觀測性 IaC
→ 無 SSH 環境的監控與告警：另一個極端——完全外部監控
→ Monitoring 04：Collector 架構與部署：SDK 和 Collector 的應用層監控，斷網環境需要把 Collector endpoint 指向 self-hosted backend
→ Monitoring 06：Self-hosted vs Commercial：斷網環境只能走 self-hosted 路線




OIDC Trust Policy 設定指南
Fri, 26 Jun 2026 00:00:00 +0000
OIDC 聯合讓 CI/CD pipeline 用短期 token 取代長期 access key 存取雲端資源。設定本身不複雜，但 trust policy 的 claim 條件寫錯一個字就會變成「任何 repo 都能假扮這個 role」或「完全無法 assume」。本篇是 GitHub Actions 與 AWS 之間的 OIDC 聯合的完整設定步驟，從建立 provider 到 trust policy 設計到測試驗證。其他 CI 平台（GitLab CI、CircleCI）的原理相同，差別只在 issuer URL 和 claim 結構：

  
      
          平台
          Issuer URL
          sub claim 格式範例
      
  
  
      
          GitHub Actions
          token.actions.githubusercontent.com
          repo:{org}/{repo}:ref:refs/heads/{branch}
      
      
          GitLab CI
          gitlab.com
          project_path:{group}/{project}:ref_type:branch:ref:main
      
      
          CircleCI
          oidc.circleci.com/org/{org-id}
          org/{org-id}/project/{project-id}/user/{user-id}
      
  

本篇以 GitHub Actions 為主，其他平台替換 issuer URL 和 sub condition 即可。
建立 OIDC Provider
OIDC provider 是 AWS 帳號裡的一個資源，聲明「我信任這個外部 identity provider 簽發的 token」。GitHub Actions 的 OIDC issuer URL 是固定的，每個 AWS 帳號只需要建一個 provider。





1resource "aws_iam_openid_connect_provider" "github" {
2  url             = "https://token.actions.githubusercontent.com"
3  client_id_list  = ["sts.amazonaws.com"]
4  thumbprint_list = ["ffffffffffffffffffffffffffffffffffffffff"]
5}
client_id_list 設為 sts.amazonaws.com 是 GitHub 官方建議的 audience 值。thumbprint_list 在 2023 年之後 AWS 不再用它驗證 GitHub 的憑證鏈（改用 AWS 自己維護的根憑證清單），但欄位仍然是必填，填 40 個 f 作為佔位值即可。
這個 provider 建一次就好。多個 role 可以共用同一個 provider，差別在各自的 trust policy 怎麼寫。
Trust Policy 設計：claim 收斂
Trust policy 決定「誰能假扮這個 role」。OIDC token 裡帶有多個 claim（描述「這是哪個 repo、哪個 branch、哪個 workflow 在跑」），trust policy 用 condition 比對這些 claim，全部命中才允許 assume。
最小可行的 trust policy





 1data "aws_iam_policy_document" "ci_trust" {
 2  statement {
 3    actions = ["sts:AssumeRoleWithWebIdentity"]
 4
 5    principals {
 6      type        = "Federated"
 7      identifiers = [aws_iam_openid_connect_provider.github.arn]
 8    }
 9
10    condition {
11      test     = "StringEquals"
12      variable = "token.actions.githubusercontent.com:aud"
13      values   = ["sts.amazonaws.com"]
14    }
15
16    condition {
17      test     = "StringLike"
18      variable = "token.actions.githubusercontent.com:sub"
19      values   = ["repo:my-org/my-app:ref:refs/heads/main"]
20    }
21  }
22}
兩個 condition 各守一個邊界。aud 驗證 audience 對不對（防止其他用途的 token 被拿來 assume）。sub 驗證請求來自哪個 repo 和 branch——這是最關鍵的收斂點。
sub claim 的結構
GitHub Actions 的 sub claim 格式是 repo:{owner}/{repo}:{context}，其中 context 隨觸發方式不同：

  
      
          觸發方式
          sub claim 值
      
  
  
      
          push to branch
          repo:my-org/my-app:ref:refs/heads/main
      
      
          pull request
          repo:my-org/my-app:pull_request
      
      
          environment deploy
          repo:my-org/my-app:environment:production
      
      
          tag push
          repo:my-org/my-app:ref:refs/tags/v1.0.0
      
      
          manual dispatch
          repo:my-org/my-app:ref:refs/heads/main
      
  

Trust policy 的 sub condition 要根據實際需要選擇收斂到哪個層級。只允許 main branch 的 push 就寫 repo:my-org/my-app:ref:refs/heads/main；只允許 production environment 的 deploy 就寫 repo:my-org/my-app:environment:production。
environment-based 收斂（推薦）
GitHub Actions 的 environment 功能讓 sub claim 帶上 environment 名稱。搭配 environment protection rules（required reviewers、wait timer），可以在 trust policy 層和 GitHub 層各設一道 gate：





1condition {
2  test     = "StringEquals"
3  variable = "token.actions.githubusercontent.com:sub"
4  values   = ["repo:my-org/my-app:environment:production"]
5}
Workflow 裡對應的設定：





1jobs:
2  apply:
3    environment: production
4    permissions:
5      id-token: write
6      contents: read
只有 workflow 宣告了 environment: production 且通過 environment 的 protection rules 後，runner 拿到的 token 才會帶上 environment:production 的 sub claim，才能 assume 這個 role。
Plan Role 與 Apply Role 分離
把 plan 和 apply 拆成兩個 role，各自給最小權限。plan 只需要 read 權限（讀 state、讀雲端現況），apply 需要 write 權限（建立/修改/刪除資源）。分離的好處是 PR 階段的 plan 即使被攻破，攻擊者也只能讀不能改。





 1resource "aws_iam_role" "infra_plan" {
 2  name               = "infra-plan"
 3  assume_role_policy = data.aws_iam_policy_document.plan_trust.json
 4}
 5
 6resource "aws_iam_role" "infra_apply" {
 7  name               = "infra-apply"
 8  assume_role_policy = data.aws_iam_policy_document.apply_trust.json
 9}
10
11resource "aws_iam_role_policy_attachment" "plan_readonly" {
12  role       = aws_iam_role.infra_plan.name
13  policy_arn = "arn:aws:iam::aws:policy/ReadOnlyAccess"
14}
Trust policy 的差異：plan role 允許任何 branch 的 PR 觸發（repo:my-org/my-app:pull_request）；apply role 只允許 main branch 或 production environment（repo:my-org/my-app:environment:production）。





 1jobs:
 2  plan:
 3    if: github.event_name == 'pull_request'
 4    permissions:
 5      id-token: write
 6      contents: read
 7      pull-requests: write
 8    steps:
 9      - uses: aws-actions/configure-aws-credentials@v4
10        with:
11          role-to-assume: arn:aws:iam::123456789012:role/infra-plan
12          aws-region: ap-northeast-1
13      - run: terraform plan -out=plan.tfplan
14
15  apply:
16    if: github.ref == 'refs/heads/main'
17    environment: production
18    permissions:
19      id-token: write
20      contents: read
21    steps:
22      - uses: aws-actions/configure-aws-credentials@v4
23        with:
24          role-to-assume: arn:aws:iam::123456789012:role/infra-apply
25          aws-region: ap-northeast-1
26      - run: terraform apply -auto-approve
常見設定錯誤
audience 不匹配





1Error: Not authorized to perform sts:AssumeRoleWithWebIdentity
最常見的原因是 trust policy 的 aud condition 值跟 OIDC provider 的 client_id_list 不一致。兩者都要是 sts.amazonaws.com。如果用了舊版的 configure-aws-credentials action（v1），它預設用 sigstore 作為 audience，跟 sts.amazonaws.com 對不上。確認 action 版本是 v4+。
sub condition 太寬





1condition {
2  test     = "StringLike"
3  variable = "token.actions.githubusercontent.com:sub"
4  values   = ["repo:my-org/*"]
5}
這允許 my-org 底下任何 repo 的任何 branch assume 這個 role。如果組織裡有公開 repo 或 fork 權限寬鬆的 repo，攻擊者可以在那些 repo 裡觸發 workflow 來 assume 生產環境的 role。至少收斂到 repo 層級（repo:my-org/my-app:*），生產環境收斂到 branch 或 environment。
sub condition 太緊





1condition {
2  test     = "StringEquals"
3  variable = "token.actions.githubusercontent.com:sub"
4  values   = ["repo:my-org/my-app:ref:refs/heads/main"]
5}
這只允許 push to main 觸發的 workflow。PR 觸發的 workflow 拿到的 sub 是 repo:my-org/my-app:pull_request，跟這個 condition 不匹配，plan 階段會失敗。如果 plan 需要在 PR 階段跑，plan role 的 trust policy 要加 PR 的 sub pattern。
忘記設 permissions





1jobs:
2  deploy:
3    # 缺少 permissions 區塊
4    steps:
5      - uses: aws-actions/configure-aws-credentials@v4
GitHub Actions 的 OIDC token 只有在 workflow 宣告 permissions: { id-token: write } 時才會簽發。缺了這一行，configure-aws-credentials 拿不到 token，報「OIDC token not available」。這個錯誤訊息不直觀——它說的是 token 不存在，不是權限不夠。
多帳號時忘記指定 provider
如果組織有多個 AWS 帳號，每個帳號都要各自建 OIDC provider。trust policy 的 Federated principal 要指向本帳號的 provider ARN，不能跨帳號引用。跨帳號部署時，workflow 用不同的 role-to-assume 切換帳號，每個帳號的 role 各自信任同一個 GitHub OIDC issuer 但是各自獨立的 provider 資源。
測試與驗證
設定完成後的驗證步驟：

手動觸發 workflow：push 一個無害的 commit 到 main、開一個 test PR，觀察 configure-aws-credentials 步驟是否成功
檢查 CloudTrail：搜尋 AssumeRoleWithWebIdentity 事件，確認 source identity 和 assumed role 正確
反向驗證：從一個不在 trust policy 允許範圍的 repo 或 branch 觸發 workflow，確認 assume 被拒絕
權限範圍驗證：在 plan job 裡嘗試一個 write 操作（如 aws s3 rm），確認被拒絕——驗證 plan role 的 read-only 限制確實生效






1# 在 CloudTrail 搜尋 OIDC assume 事件
2aws cloudtrail lookup-events \
3  --lookup-attributes AttributeKey=EventName,AttributeValue=AssumeRoleWithWebIdentity \
4  --max-items 5
驗證通過後，這套 OIDC 設定就取代了所有存放在 CI 環境變數裡的 access key。原有的 key 可以排程停用和刪除，排程的節奏見access key 輪替。trust policy 的持續維護重點是：新增 repo 時 sub condition 要同步更新、組織改名時 issuer 的 repo 路徑要全面修正。
時程參考：OIDC provider 建立 + trust policy 設計 + workflow 驗證約需 1-2 小時。OIDC provider 與 IAM role 本身不產生額外費用。
跨分類引用

→ 身分與憑證地基：OIDC 的概念基礎與權限邊界設計
→ infra 走 PR 流程：plan/apply 的 CI pipeline 怎麼用這裡設定好的 role
→ 跨帳號策略：多帳號環境下的 OIDC provider 配置




OS 與基礎軟體更換
Fri, 26 Jun 2026 00:00:00 +0000
作業系統到達 end-of-life（EOL）後不再收到安全修補——每一個新發現的漏洞都會永久敞開。EOL OS 上跑的服務不是「可能有風險」，而是「風險只會隨時間單調增加」。遷移的問題是何時做和怎麼做，不是要不要做。
EOL 風險評估
EOL 在操作層面的意義是三件事同時停止：安全修補（CVE 不再被回填到該版本的 patch release）、核心更新（kernel 的錯誤修正與硬體支援停止）、套件庫維護（官方 repository 凍結或下架，新裝套件或更新依賴都做不到）。
風險時間軸
EOL 是一段逐漸惡化的過程，而非單一時間點：

  
      
          階段
          事件
          影響
      
  
  
      
          宣告
          官方公布 EOL 日期（通常提前 1-2 年）
          開始規劃遷移的訊號
      
      
          正式 EOL
          最後一個安全修補發布
          新 CVE 不再有 patch
      
      
          套件庫凍結
          官方 mirror 停止同步或下架
          yum update / apt update 失敗
      
      
          合規失效
          稽核認定執行環境不符標準
          PCI DSS / SOC 2 / ISO 27001 判定不合規
      
  

常見的 EOL 情境
CentOS 7 在 2024 年 6 月結束支援，但仍有大量 production 環境在使用。CentOS 8 在 2021 年 12 月被轉向 CentOS Stream，打破了原本預期到 2029 年的支援承諾，迫使使用者重新選型。Ubuntu 18.04 的標準支援在 2023 年 4 月結束，Canonical 提供 ESM（Extended Security Maintenance）付費延長到 2028 年，但 ESM 只涵蓋 main 套件庫。
ESM 或類似的付費延長支援（RHEL 的 ELS、CentOS 的第三方 TuxCare）是「買時間做遷移」的合理策略——付月費取得額外 2-5 年的安全修補，讓團隊有餘裕規劃平行建置而非被迫緊急遷移。Ubuntu Pro 免費涵蓋 5 台 instance 的 ESM，超過才需要付費。ESM 是給遷移專案爭取時間的保險，而非長期方案——延長支援的套件覆蓋範圍通常比標準期窄。
合規的影響很直接：PCI DSS 要求所有面對持卡人資料的系統都執行在有安全修補支援的軟體上；SOC 2 和 ISO 27001 的定期稽核會檢查作業系統的支援狀態。在 EOL OS 上跑的 production 環境會讓稽核結果出現 finding，需要額外的補償控制（compensating control）才能通過——而補償控制的維護成本通常高於遷移本身。
目標 OS 選型
選型看四個維度：LTS 發布週期（支援年限多長）、社群與商業支援（問題能不能查到答案、能不能買付費支援）、套件可用性（應用層需要的 runtime 和 library 在官方 repo 裡有沒有）、團隊熟悉度（操作指令和設定路徑的學習成本）。
常見選擇

  
      
          OS
          支援週期
          適用情境
      
  
  
      
          Ubuntu 22.04 / 24.04 LTS
          5 年標準 + 5 年 ESM
          社群最大、套件最新、學習資源最多
      
      
          Debian 12 (Bookworm)
          ~5 年
          穩定性優先、更新保守
      
      
          Amazon Linux 2023
          5 年
          AWS 生態深度整合、EC2 預設選項
      
      
          Rocky Linux 9 / AlmaLinux 9
          ~10 年
          CentOS 替代、RHEL 相容
      
  

同家族 vs 跨家族
CentOS → Rocky Linux / AlmaLinux 是同家族遷移：套件名稱、設定路徑、init 系統（systemd）幾乎不變，應用層的改動最少。CentOS → Ubuntu 是跨家族遷移：套件管理從 yum/dnf 換成 apt、設定路徑從 /etc/httpd/ 變成 /etc/apache2/、某些服務名稱不同。
同家族遷移的優勢是應用層風險低——多數設定檔可以直接搬過去。跨家族遷移的優勢是可以借機切到更活躍的生態（Ubuntu 的社群回答量和第三方套件支援在多數指標上領先），代價是設定檔要全面調整。
選型判準：如果團隊已經有 Ubuntu 經驗、或其他系統已經跑 Ubuntu，統一到 Ubuntu 的長期維護成本較低。如果團隊對 RHEL 系操作更熟、或有 RHEL 付費支援合約，Rocky/Alma 是阻力最小的路。
遷移策略：原地升級 vs 平行建置
原地升級
在現有伺服器上直接換 OS 版本。做法是用 OS 提供的升級工具（如 do-release-upgrade、leapp）在跑著的系統上切換。
風險集中在升級過程中系統處於不確定狀態——kernel 換了但 userland 還沒、init 系統切了但服務設定還指向舊路徑。如果中途失敗、伺服器可能開不了機，而 rollback 意味著從備份還原整台機器。原地升級只在同 OS 家族的小版本升級（如 Ubuntu 20.04 → 22.04）且有完整 VM 快照保底時才值得考慮。
平行建置
在旁邊建一台新 OS 的伺服器、安裝應用層、遷移資料、用 DNS 或 load balancer 切換流量。舊伺服器保留作為 rollback 目標，確認新環境穩定後再退役。
平行建置的成本是短期多付一台伺服器的費用（通常是幾天到幾週）。收益是：升級失敗時舊伺服器完好無損、切回去只需要改 DNS 或 LB 的 target；新伺服器可以在切換前充分測試、不影響線上服務；整個過程可以在非尖峰時段進行。
對多數環境來說平行建置是預設策略。原地升級只在無法多開一台伺服器（預算極度受限、或裸機硬體無備品）時才退而求其次。
應用層的遷移清單
新 OS 上要重建整個應用執行環境。以下是逐項需要確認的面向：
Web 伺服器
如果新舊 OS 都用 Apache，設定檔的路徑可能不同（RHEL 系 /etc/httpd/conf.d/、Debian 系 /etc/apache2/sites-available/），模組載入方式也不同（LoadModule 指令 vs a2enmod 工具）。逐一比對現有的 VirtualHost 設定、rewrite 規則、SSL 設定。
如果同時換成 nginx，見下一節。
Runtime 版本對齊
新 OS 的官方 repo 裡的 PHP / Node / Python 版本可能跟舊 OS 不同。Ubuntu 22.04 預設 PHP 8.1、如果應用需要 PHP 7.4 要加第三方 PPA（如 ondrej/php）。確認所有 PHP extension（mysqli、curl、gd、mbstring、redis）在新 OS 上都有對應的套件名稱且已安裝。





1# 舊伺服器：列出所有已載入的 PHP module
2php -m > old-php-modules.txt
3
4# 新伺服器：比對缺了什麼
5php -m > new-php-modules.txt
6diff old-php-modules.txt new-php-modules.txt
資料庫客戶端程式庫
應用連接 MySQL / PostgreSQL 用的 client library（libmysqlclient、libpq）版本要跟資料庫伺服器相容。跨大版本（MySQL 5.7 client → MySQL 8.0 server）通常向前相容，但反過來可能有驗證方式不匹配的問題（如 MySQL 8.0 的 caching_sha2_password 預設驗證方式）。
Cron jobs
從舊伺服器匯出 crontab（crontab -l），在新伺服器重建。如果舊 OS 使用 /etc/cron.d/ 的檔案式 cron，確認新 OS 的 cron daemon 支援同樣的格式。Cron 的環境變數（PATH、MAILTO）在不同 OS 可能有不同預設。
日誌路徑
Apache 的預設 log 路徑在 RHEL 系是 /var/log/httpd/、Debian 系是 /var/log/apache2/。應用程式如果 hardcode 了日誌路徑，要在新 OS 上對齊。同時確認 logrotate 的設定在新 OS 上存在且正確。
檔案權限與使用者
不同 OS 的 web server 執行使用者不同（RHEL 的 apache、Debian 的 www-data）。如果應用依賴特定使用者名稱的檔案權限（如 upload 目錄的 owner），遷移後要調整 chown。
服務管理
現代 OS 都使用 systemd。但如果舊 OS 還有 sysvinit 腳本（/etc/init.d/），遷移時要轉換成 systemd unit file。轉換的核心是把 init 腳本的 start/stop/restart 邏輯對應到 systemd 的 ExecStart、ExecStop、Restart 欄位。





 1# /etc/systemd/system/myapp.service
 2[Unit]
 3Description=My Application
 4After=network.target mysql.service
 5
 6[Service]
 7Type=simple
 8User=www-data
 9ExecStart=/usr/bin/php /var/www/myapp/worker.php
10Restart=on-failure
11RestartSec=5
12
13[Install]
14WantedBy=multi-user.target
基礎軟體切換（Apache → nginx）
如果已經在為 OS 遷移建新伺服器，同時切換 web server 是成本最低的時機——反正設定檔要重寫、不如一次到位。分開做的話要拆兩次遷移、測兩次、承受兩次風險。
.htaccess → nginx 設定轉換
Apache 的 .htaccess 是分散式設定——每個目錄可以有自己的 .htaccess，Apache 在每次請求時逐層讀取。nginx 沒有這個機制，所有設定集中在 /etc/nginx/ 的設定檔裡。
轉換的第一步是找出所有 .htaccess 檔案：





1find /var/www/ -name ".htaccess" -exec echo "=== {} ===" \; -exec cat {} \;
常見的轉換對應：

  
      
          Apache .htaccess
          nginx 對應
      
  
  
      
          RewriteRule ^old$ /new [R=301]
          rewrite ^/old$ /new permanent;
      
      
          RewriteCond %{HTTPS} off + RewriteRule
          if ($scheme = http) { return 301 https://...; }
      
      
          Options -Indexes
          autoindex off;（通常是預設）
      
      
          php_flag engine off
          location /uploads/ { deny all; } 或不傳給 PHP
      
      
           + Deny from all
          location ~ /\.env { deny all; }
      
      
          AuthType Basic + .htpasswd
          auth_basic + auth_basic_user_file
      
  

平行測試
在新伺服器上同時安裝 nginx（port 80）和 Apache（port 8080）。用 curl 比對兩者的回應：





1# 比對首頁
2diff <(curl -s http://new-server/) <(curl -s http://new-server:8080/)
3
4# 比對一個有 rewrite 規則的 URL
5diff <(curl -sI http://new-server/old-path) <(curl -sI http://new-server:8080/old-path)
回應一致後再把 Apache 移除。重點比對項：HTTP status code（rewrite 的 301/302）、response body（PHP 輸出）、response header（cache control、security header）。
常見陷阱
.htaccess 的分散式設定在 WordPress 或其他 CMS 中常被用來動態控制 URL rewrite。WordPress 的 permalink 功能依賴根目錄的 .htaccess，切到 nginx 需要在設定檔裡加 try_files $uri $uri/ /index.php?$args; 才能讓 permalink 運作。其他 CMS（Drupal、Laravel）也有各自的 nginx 設定範例，通常在官方文件裡可以找到。
時程與管理層溝通
OS 遷移（平行建置）的時程取決於應用層的複雜度：

  
      
          環境複雜度
          時程估算
          典型特徵
      
  
  
      
          簡單
          1-2 週
          單一 web app、標準 LAMP/LEMP stack
      
      
          中等
          2-3 週
          多個服務、自訂套件、cron 密集
      
      
          複雜
          3-4 週
          多台伺服器、叢集、自建 daemon
      
  

跟管理層溝通時用三個框架：
為什麼現在做：「目前的 OS 已經停止安全修補，每個月不遷移等於多一個月的曝險窗口。如果有合規要求（PCI DSS / SOC 2），下次稽核會被標記。」
做什麼：「在旁邊建一台新 OS 的伺服器，把應用搬過去、驗證通過後切換。舊伺服器保留一到兩週作為 rollback。」
花多久和多少錢：「工程師時間 1-3 週（依複雜度）。多一台伺服器的費用只有切換期間的短期成本。不做的隱藏成本是安全事故的潛在損失和合規罰款。」
跨分類引用

→ 升級的共通操作框架：四階段模型（評估差異 → 平行環境 → 分批切換 → 退役）
→ 平台遷移：如果 OS 遷移同時伴隨平台搬遷（地端 → 雲端）
→ Runtime 版本升級：PHP / Node 版本升級常伴隨 OS 遷移
→ 接手維運：接手一個 EOL OS 的環境後的下一步




Stateful 資源保護與跨服務依賴表達
Fri, 26 Jun 2026 00:00:00 +0000
核心服務寫進 IaC 之後，stateful 資源需要一套與 stateless 截然不同的保護與操作規範。資料庫、裝了正式資料的 S3 bucket、持久化 volume 這類資源的共同特性是：重建代價極高甚至不可逆。運算節點掛了重開一台，資料刪了就是刪了。這個差別會傳導到 IaC 的描述方式、變更的審查強度、以及 drift 的處理策略。
本篇同時處理服務之間依賴的表達方式 — output 與 data source — 因為依賴表達直接影響 stateful 資源的爆炸半徑：同一份 state 裡的資料庫跟運算綁在一起 apply，還是拆成獨立 state 各自演進，決定了一次 apply 失敗會波及多少資源。
stateful 資源的保護策略
stateful 資源的 IaC 描述要把「保護狀態」當成第一類需求，而非事後補上的選項。保護的三個面向 — 可用性、可還原性、防誤刪 — 各自對應不同的機制，混在一起談會讓判斷失焦。
multi-AZ 的職責邊界
multi-AZ 用一個布林屬性開啟，背後是 RDS 在另一個可用區維護同步副本。它承擔的是可用性：主庫所在的可用區故障時，RDS 自動 failover 到 standby，服務在秒級到一兩分鐘的窗口後恢復。
multi-AZ 的邊界要明確界定，因為把它當成超出職責的工具會在事故裡踩空：

standby 是熱備不可讀。multi-AZ 的 standby 不接受任何查詢流量，所以它不提供讀取擴展。要分攤讀流量得另開 read replica，這是另一個資源、另一個端點、另一套複寫延遲要管。
failover 有切換窗口。切換期間應用的資料庫連線會中斷、需要重連。應用層如果沒有處理連線中斷的重試邏輯，failover 就會變成一段可見的服務中斷，而非透明切換。
它不防邏輯損壞。誤刪一張 table、一筆錯誤的批次 UPDATE、一段有 bug 的 migration script — 這些操作會同步複製到 standby。multi-AZ 防的是硬體與可用區故障，邏輯損壞的防線是備份與時間點還原（PITR）。

這三條邊界說明 multi-AZ 和 backup 的職責正交：前者解可用性，後者解可還原性。兩者要分別配置、分別驗證。成本參考：multi-AZ RDS 的費用約為 single-AZ 的兩倍（standby instance 按相同規格計費）。這筆費用對應的能力是可用區故障時的分鐘級自動 failover——判斷值不值得時，用主庫所承載的服務停機每小時的商業代價來衡量。
備份保留與時間點還原
backup 用保留天數與備份視窗描述。RDS 依此每日自動快照並保留交易日誌，以支援還原到任意時間點（PITR）。自動備份的保留上限是 35 天，更長的留存要靠手動快照或匯出到 S3 自行管理。
backup_retention_period 取多少天，以 RPO（Recovery Point Objective）與合規要求反推。RPO 問的是「出事時最多能接受遺失多久的資料」— PITR 能還原到最近 5 分鐘內的時間點，但前提是自動備份有開、交易日誌有保留。保留天數決定的是「能回溯多遠」：14 天是 AWS RDS 自動備份 35 天上限的保守折衷，足以涵蓋多數營運場景下「發現問題到決定還原」的時間差；受監理的服務往 30 天推，以滿足稽核追溯窗口。





1resource "aws_db_instance" "primary" {
2  multi_az                  = true
3  backup_retention_period   = 14
4  backup_window             = "03:00-04:00"
5  deletion_protection       = true
6  skip_final_snapshot       = false
7  final_snapshot_identifier = "app-prod-final-${formatdate("YYYYMMDD", timestamp())}"
8}
備份視窗選在流量低谷（如 UTC 凌晨），避免快照 IO 跟尖峰流量競爭。手動快照用獨立資源描述，常見用途是重大變更前的保險點 — 大版本升級、schema migration、或任何會改變資料結構的操作。
刪除保護與 final snapshot
deletion_protection = true 讓 terraform destroy 無法直接刪除這個 instance — 要先用另一次 apply 把保護關掉，這一步本身就會出現在 plan 裡、被 review 攔住。skip_final_snapshot = false 確保即使確實要刪，也會先拍一份最終快照。兩者搭配是正式資料庫的硬性下限。
該在 review 攔下的訊號是：正式環境的 stateful 資源若 backup_retention_period 為 0 或 deletion_protection 為 false，代表狀態保護沒有寫進程式碼。把這些屬性視為正式資料庫的預設值，而非可調的偏好。
S3 bucket 的保護同理但機制不同。versioning 讓覆寫或刪除的物件可以回到先前版本；MFA delete 要求刪除前提供第二因素驗證；lifecycle rule 控制舊版本的保留時間 — 這三者分別對應「可還原」「防誤刪」「控成本」三個職責，見儲存（S3）。
跨 region 災難復原的邊界
multi-AZ 解的是可用區級故障 — 單一資料中心出問題時，同 region 的另一個可用區接手。跨 region 的災難復原（cross-region read replica、S3 cross-region replication、Route 53 failover routing）屬於更高級的可用性投資，解的是整個 region 不可用的極端情境。它的成本與複雜度顯著上升：跨 region 複寫有延遲、failover routing 需要健康檢查與 DNS TTL 配合、兩個 region 的 infra 要各自維護。多數服務在單 region 的 multi-AZ + 備份做完之後再評估是否需要跨 region，依據是業務的 RTO（Recovery Time Objective）對 region 級故障的容忍度。
跨 region 的 infra 投資在 B2B SaaS 的合約義務下更容易成立。Genesys 的客服平台跨 15 個 region 用 DynamoDB 達成 99.999% 可用性——年停機只有 5 分鐘。對 B2B SaaS 來說，客戶服務中斷等於客戶的終端使用者打不通電話，可用性是合約義務而非行銷敘述。infra 層的判斷依據是：multi-AZ 不夠用（業務需要跨 region failover）的情況通常由合約 SLA 驅動，而非技術判斷驅動。
stateful 與 stateless 的操作差異
stateful 與 stateless 資源的根本差別在重建代價。這個差別傳導到三個操作後果，每一個都影響日常的 PR review 與 apply 流程。
刪除保護的必要性
stateless 資源（ECS service、ALB、無狀態運算）重建只是換一組新實例，幾分鐘內恢復、沒有資料損失，所以它們可以被頻繁地 destroy 與 recreate — 這是 IaC 最擅長的對象。stateful 資源重建意味著資料遺失或漫長的還原，代價可能是數小時的停機與不可逆的損失。開啟 deletion protection 讓「不小心 destroy」需要先顯式關閉保護這一步，多一道人為確認。
drift 容忍度
stateless 資源的 drift 可以靠重建抹平 — apply 一次就回到程式碼的狀態，副作用只是新實例的短暫滾動更新。stateful 資源的 drift 要謹慎處理，因為 IaC 的「修正回程式碼狀態」動作可能觸發重啟甚至重建。
一個常見的情境：某人手動改了 RDS 的 parameter group，Terraform plan 顯示要把它改回程式碼的版本。這個改回動作是 update in-place（改設定、不重建）還是 replace（先刪後建），取決於哪個參數被改了 — 某些 parameter 的修改需要重啟，而某些需要整個 instance 重建。判讀方式是先跑 plan、看 drift 修正的結果，update in-place 通常安全（可能觸發重啟），replace 對資料庫意味著先刪後建，在 prod 上需要額外的確認。
變更審查強度
改動 stateful 資源的 plan 輸出要逐行看，特別警惕任何顯示為 replace（-/+）或標記 forces replacement 的項目。某些欄位的改動看似無害但會觸發 replace：

  
      
          欄位
          預期行為
          實際行為
      
  
  
      
          RDS identifier 改名
          改個名字而已
          forces replacement
      
      
          RDS engine_version 大版本
          升級引擎版本
          可能 replace 或 in-place
      
      
          RDS storage_type 變更
          換儲存類型
          部分組合 forces replacement
      
      
          S3 bucket bucket 改名
          改個名字而已
          forces replacement
      
  

Review 時看到 stateful 資源出現 forces replacement，在 prod 路徑上幾乎都該先暫停、確認回退路徑（手動快照是否已拍）再決定是否繼續。常見做法是把這個差別寫進流程：stateful 資源的變更走更嚴格的 PR review 與分階段套用（先在 dev apply 驗證、確認是 in-place 後再推 prod），自動化護欄在模組七：infra 走 PR 流程展開。
服務之間的依賴怎麼表達
服務間依賴用 output 與 data source 表達，讓引用關係成為程式碼裡可追蹤的邊，而非靠人記憶的隱性約定。引用方式的選擇直接影響 state 的大小與爆炸半徑。
同 state 內的引用
同一個 state 內，直接引用資源屬性即可建立依賴。運算資源引用資料庫的端點，IaC 自動推導出「資料庫先於運算」的邊，也讓端點變更時上層自動取得新值：





1resource "aws_ecs_task_definition" "api" {
2  container_definitions = jsonencode([{
3    environment = [
4      { name = "DB_HOST", value = aws_db_instance.primary.endpoint }
5    ]
6  }])
7}
同 state 引用的好處是依賴圖最完整 — apply 一次就把所有引用解析到正確的值。代價是 state 越大、單次 apply 的爆炸半徑越大。一份包含網路、資料庫、運算、LB 的 state，一次 apply 失敗可能讓所有資源處於半完成狀態。
跨 state 的 data source
跨 state（例如網路地基與核心服務分屬不同 Terraform state，呼應模組四：環境分離與模組化的拆分）時，下游用 data source 唯讀地讀取上游已建立的資源：





 1data "aws_vpc" "main" {
 2  tags = { Name = "app-${var.env}" }
 3}
 4
 5data "aws_subnets" "private" {
 6  filter {
 7    name   = "vpc-id"
 8    values = [data.aws_vpc.main.id]
 9  }
10  tags = { tier = "private" }
11}
下游查詢上游的 VPC 與 subnet，取得 ID 來放置自己的資源，而不複製貼上硬編碼的值。
同 state vs 跨 state 的取捨
兩種方式的取捨在耦合與隔離之間：

  
      
          維度
          同 state 引用
          跨 state data source
      
  
  
      
          依賴圖
          完整、自動推導
          跨 state 邊界，需約定上游先 apply
      
      
          爆炸半徑
          state 越大、單次 apply 越大
          各 state 獨立、爆炸半徑小
      
      
          適合場景
          少量緊密耦合的資源
          地基層與服務層分離
      
      
          drift 風險
          低（引用自動追蹤）
          中（上游重建後 data source 可能查不到）
      
  

用 grep 搜一遍核心服務的 HCL：如果出現大量寫死的 subnet ID 或 VPC ID，代表該用 data source 而沒用。這些硬編碼是日後上游重建時 drift 與 broken reference 的來源。把它們換成 data source，依賴關係才會在程式碼裡顯性化、可被工具與 review 看見。
data source 查詢的可靠性取決於查詢條件的穩定度。用 tags 查比用 Name 查更穩 — tag 是自己定義的、可控的值，而某些資源的 Name 可能在重建時改變。用 terraform_remote_state data source 直接讀上游的 state output 是最精確的方式，但它把兩份 state 的 backend 設定耦合在一起，上游搬 state 時下游也要跟著改。在團隊規模小、state 拆分不多的階段，terraform_remote_state 的耦合代價通常可接受；團隊變大後，用 tag-based data source 或 SSM Parameter Store 當中間層，能讓上下游各自獨立演進。
跨分類引用

→ 模組三：網路地基：核心服務落在哪些 subnet、security group 怎麼引用
→ 模組四：環境分離與模組化：跨 state 的拆分策略
→ 模組七：infra 走 PR 流程：stateful 變更的自動化護欄




Subnet（子網路）
Fri, 26 Jun 2026 00:00:00 +0000
Subnet 是 VPC 內部按可用區（Availability Zone）與暴露程度切出來的子網段。一塊資源對外暴露到什麼程度，取決於它被放進哪個 subnet——技術上的差別在於該 subnet 關聯的 route table 裡有沒有一條指向 Internet Gateway 的預設路由。
Subnet 分兩類：

Public subnet：route table 有 0.0.0.0/0 → Internet Gateway，讓資源能被外部 IP 直接觸及。典型住戶是對外負載平衡器、NAT Gateway。
Private subnet：route table 把 0.0.0.0/0 指向 NAT Gateway，外部無法主動連入。典型住戶是應用伺服器、資料庫、快取。

Public subnet 的真實樣貌是「薄薄一層」——它通常只住入口設施，業務邏輯跟資料儲存都在 private subnet。
概念位置
Subnet 是模組三：網路地基的中層邊界。VPC 定好地址空間後，subnet 決定「哪些資源能被外網碰到、哪些只能在內網存取」。每個 subnet 綁定單一可用區，高可用設計通常是每種角色跨至少兩個可用區各開一個 subnet。
可觀察訊號
Subnet 配置有問題的訊號：應用伺服器被放在 public subnet 並配了公網 IP（管理埠暴露在掃描流量下）、private subnet 的服務拉不到外部套件（route table 沒指向健康的 NAT）、新服務上線時找不到適合的 subnet（CIDR 切得太小、空間不夠）。
設計責任
規劃 subnet 時要決定：

CIDR 切法：VPC 是 /16 時，每個 subnet 用 /20（約四千位址）可以在三個可用區各開 public + private 共六個 subnet
跨可用區對稱：每種角色至少跨兩個 AZ，讓單一 AZ 故障時另一區能承接
public 的住戶限制：只放入口設施，業務邏輯一律放 private

鄰卡

VPC — subnet 的容器
NAT — 讓 private subnet 出站的機制
Security Group — 掛在資源上的埠級存取控制



模組五：核心服務上 IaC
Fri, 26 Jun 2026 00:00:00 +0000
地基就緒後，依「地基 → 上層」的順序把實際承載業務的服務寫進 IaC。前四個模組建立的身分、網路與環境分離是底層平面，這一層在它們之上描述資料庫、運算、儲存與入口 — 業務流量真正落地的地方。順序與依賴的表達方式決定了這層能不能被乾淨地重建、拆除與演進。
上核心服務的順序
核心服務的部署順序由依賴方向決定：被依賴的先建，依賴別人的後建。網路與身分是幾乎所有上層服務的共同前置 — 資料庫要放進私有 subnet、運算要套用 IAM role 才能讀 S3、load balancer 要掛在公開 subnet 並引用 security group。這些底層平面若還沒成形，上層資源會在 apply 時因為找不到 subnet ID 或 role ARN 而失敗，或更糟，建在預設 VPC 裡繞過了所有隔離設計。
把順序交給 IaC 工具的依賴圖自動推導，比人工排序可靠。當運算資源的定義引用了 subnet 與 security group 的資源屬性，Terraform 會解析出「subnet 先於運算」的邊，apply 時自動排程。人工維護一份「先做 A 再做 B」的清單會隨資源增加而失準，依賴圖則隨程式碼本身演進。
順序失控的早期徵兆是：某個上層資源的定義裡寫了一串 hardcode 的 subnet ID 或 VPC ID，代表它沒有透過依賴圖連到底層平面。底層一旦重建、ID 改變，上層不會自動跟上，state 與雲端現實之間的不一致（即 drift）就此產生。把硬編碼的 ID 換成對底層資源屬性或 data source 的引用，順序才會回到工具掌控之內。
各類服務怎麼描述
四類核心服務承擔不同責任，IaC 描述它們時關注的屬性也不同。共通原則是：描述服務的「身分與接線」，而非把每個執行期參數都塞進程式碼。
資料庫（RDS） 是這層裡最需要謹慎描述的資源，因為它持有無法重建的狀態。IaC 定義它的 instance class、引擎版本、所在的 subnet group（決定它落在哪些私有 subnet）、套用的 parameter group 與 security group。連線端點不要硬編碼，改用資源 output 暴露給上層運算引用。





1resource "aws_db_instance" "primary" {
2  identifier             = "app-prod-primary"
3  engine                 = "postgres"
4  engine_version         = "16.3"
5  instance_class         = "db.r6g.large"
6  db_subnet_group_name   = aws_db_subnet_group.private.name
7  vpc_security_group_ids = [aws_security_group.db.id]
8}
運算（ECS / EKS） 描述的是業務程式碼的執行載體。重點屬性是它跑在哪些 subnet、套用哪個 task / pod 的 IAM role、掛到哪個 load balancer 的 target group，以及與容器映像版本解耦 — 映像 tag 通常由 CI/CD 在部署期注入，不寫死在 infra 程式碼裡。這層只描述「運算容量與接線」，實際跑什麼版本由部署流程決定，這個邊界讓 infra 變更與應用發布各走各的節奏。
ECS 與 EKS 在這裡被併寫，但兩者的維運模型不同、存在實際選型：ECS 是受管的容器編排，控制平面由雲商代管、心智負擔低，接線概念貼近 AWS 原生資源；EKS 是受管的 Kubernetes，換來跨雲可攜的生態與更細的編排控制，代價是要承擔 Kubernetes 自身的運維面（升級、附加元件、RBAC）。團隊已有 Kubernetes 能力或需要其生態時 EKS 的成本才划算，否則 ECS 的低負擔通常是預設起點。IaC 描述的接線骨架相近，差異主要落在編排層的資源類型。
運算到資料庫之間還有一段常被略過的接線：連線管理。無狀態運算水平擴張時，每個實例各自開連線，容易把資料庫的連線數打滿 — 出現「擴運算反而拖垮 DB」的訊號時，要引入連線池或受管的連線代理（如 RDS Proxy），把連線收斂後再進資料庫，這層也可寫進 IaC 並輸出端點給運算引用。當讀流量遠大於寫、且能容忍副本的複寫延遲時，read replica 是把讀請求導離主庫的下一步，運算端依讀寫分流引用不同端點。
儲存（S3） 描述的是 bucket 的存在、命名、加密設定、版本控制與存取政策。bucket 本身幾乎沒有重建代價意義上的狀態問題 — 困難在它「裝的東西」。空 bucket 可隨時重建，裝了正式資料的 bucket 與 RDS 一樣不可隨意 destroy。描述時把加密、public access block、生命週期規則寫進去，這些是安全與成本的預設防線。
入口（ALB） 描述流量進入系統的第一站。它定義 listener（監聽哪些 port 與協定）、target group（流量導向哪些運算後端）、health check 條件與 TLS 憑證。ALB 本身是 stateless 的 — 重建一個 load balancer 不會遺失資料，但會換掉它的 DNS 名稱，所以對外服務通常在它前面再掛一層穩定的 DNS 記錄。健康檢查的路徑與閾值是這裡最常被忽略的判讀點：閾值太寬鬆會把壞掉的後端留在輪替裡，太嚴格會在部署瞬間誤判健康的新實例。HTTPS listener 引用的 TLS 憑證也屬於這層的接線 — 憑證由 ACM 簽發與自動續期，IaC 用憑證資源描述它（涵蓋網域與驗證方式），再把憑證 ARN 接到 listener 上，讓「憑證存在、續期、掛載」整條鏈都進版本控制，而非在 Console 手動上傳一份會過期沒人盯的憑證。
stateful 資源的特殊處理
stateful 資源的 IaC 描述要把「保護狀態」當成第一類需求，而非事後補上的選項。RDS 是典型 — 它的高可用、備份與還原能力全都能、也應該用程式碼描述，這樣保護策略本身就進入版本控制與審查流程，而非散落在某人手動點過的 Console 設定裡。
multi-AZ 用一個布林屬性開啟，背後是 RDS 在另一個可用區維護同步副本。它解的是可用性：主庫故障時 failover 到 standby，但這個切換有秒級到一兩分鐘的窗口而非零停機，期間連線會中斷重連。要先界定它的邊界，才不會把它當成超出職責的工具。standby 副本是熱備不可讀，所以 multi-AZ 不提供讀取擴展 — 要分攤讀流量得另開 read replica 或改用 multi-AZ cluster 形態。它也不防邏輯損壞：誤刪一張表或一筆錯誤的批次更新會同步複製到 standby，這類風險由 backup 與時間點還原（PITR）負責，與 multi-AZ 的可用性職責正交，兩者要分別配置。
backup 用保留天數與備份視窗描述，RDS 依此每日自動快照並保留交易日誌以支援還原到任意時間點。自動備份的保留上限是 35 天，更長的留存要靠手動快照或匯出到 S3 自行管理。下方 backup_retention_period 取 14 是以 RPO 與合規要求反推的結果 — 一般營運場景 14 天足以涵蓋「發現問題到決定還原」的時間差，受監理或需要更長追溯窗口的服務則往 30 天甚至接上手動快照保險。手動快照用獨立資源描述，常見於重大變更前的保險點。





1resource "aws_db_instance" "primary" {
2  multi_az                   = true
3  backup_retention_period    = 14
4  backup_window              = "03:00-04:00"
5  deletion_protection        = true
6  skip_final_snapshot        = false
7  final_snapshot_identifier  = "app-prod-final"
8}
該在 review 攔下的訊號是：正式環境的 stateful 資源若 backup_retention_period 為 0 或 deletion_protection 為 false，代表狀態保護沒有寫進程式碼。把這些屬性視為正式資料庫的硬性下限，而非可調的偏好。
stateful 與 stateless 的差異怎麼影響操作
stateful 與 stateless 資源的根本差別在重建代價，這個差別會傳導到刪除保護與 drift 風險的處理方式。stateless 資源（ECS service、ALB、無狀態運算）重建只是換一組新實例，幾分鐘內恢復、沒有資料損失，所以它們可以被頻繁地 destroy 與 recreate，是 IaC 最擅長的對象。
stateful 資源（RDS、裝了資料的 S3、持久化 volume）重建意味著資料遺失或漫長的還原，代價可能是數小時的停機與不可逆的損失。這個差別帶來三個操作後果。第一，刪除保護是必要的：stateful 資源開啟 deletion protection，讓「不小心 destroy」需要先顯式關閉保護這一步，多一道人為確認。第二，state drift 的容忍度不同：stateless 資源的 drift 可以靠重建抹平，stateful 資源的 drift（例如有人手動改了 parameter group）要謹慎處理，因為 IaC 的「修正回程式碼狀態」動作可能觸發重啟或重建。第三，變更的審查強度不同：改動 stateful 資源的 plan 輸出要逐行看，特別警惕任何顯示為 replace（先刪後建）而非 update in-place 的項目 — 對資料庫而言這通常代表資料會被丟棄。
實務上把這個差別寫進流程：stateful 資源的變更走更嚴格的 PR review 與分階段套用，這部分的自動化護欄在「模組七：infra 走 PR 流程與自動化護欄」展開。
服務之間的依賴怎麼表達
服務間依賴用 output 與 data source 表達，讓引用關係成為程式碼裡可追蹤的邊，而非靠人記憶的隱性約定。同一個 state 內，直接引用資源屬性即可建立依賴 — 運算資源引用資料庫的端點 output，IaC 自動推導出「資料庫先於運算」，也讓端點變更時上層自動取得新值。





1output "db_endpoint" {
2  value = aws_db_instance.primary.endpoint
3}
跨 state（例如網路地基與核心服務分屬不同 Terraform state，呼應「模組四：環境分離與模組化」的拆分）時，下游用 data source 唯讀地讀取上游已建立的資源。下游查詢上游的 VPC 與 subnet，取得 ID 來放置自己的資源，而不複製貼上硬編碼的值。





1data "aws_vpc" "main" {
2  tags = { Name = "app-prod" }
3}
兩種方式的取捨在耦合與隔離之間。同 state 引用最直接、依賴圖最完整，但 state 越大、單次 apply 的爆炸半徑越大。跨 state 的 data source 把爆炸半徑切小、讓網路地基能獨立演進，代價是依賴關係跨越了 state 邊界、需要約定上游一定先 apply。判讀訊號是：若一份核心服務程式碼裡出現大量寫死的 ID，通常代表該用 data source 而沒用 — 這是日後上游重建時 drift 與 broken reference 的來源。把硬編碼的引用換成 data source，依賴關係才會在程式碼裡顯性化、可被工具與 review 看見。
服務都接上後，下一個關注點是讓它們可被觀測 — log 與 metric 與服務同生命週期建立，這部分在「模組六：可觀測性與 log 同生命週期」展開。
章節文章

  
      
          文章
          主題
      
  
  
      
          部署順序與資料庫上 IaC
          依賴圖決定部署順序，RDS 接線、連線管理、read replica 與端點暴露
      
      
          運算平台上 IaC — ECS 與 EKS
          ECS 與 EKS 選型、task definition 與映像版本解耦、IAM task role、auto-scaling
      
      
          儲存上 IaC — S3 bucket 的安全與生命週期
          加密、版本控制、公開存取封鎖、生命週期規則、bucket policy 與事件通知
      
      
          入口上 IaC — ALB、TLS 與健康檢查
          listener、target group、健康檢查閾值設計、ACM 憑證與 DNS 別名
      
      
          Stateful 資源保護與跨服務依賴表達
          multi-AZ 邊界、備份保留、刪除保護、stateful vs stateless 操作差異、output 與 data source
      
      
          ACM 憑證、DNS 與 HTTPS 設定
          hosted zone、DNS 驗證、TLS listener、HTTP redirect、SAN 憑證、續期監控
      
      
          ECS Fargate 成本分析與優化
          Fargate vs EC2 成本比較、Fargate Spot、Savings Plans、task rightsizing
      
  

跨分類引用

→ backend 模組五：部署平台：PaaS / container 平台跑在這層之上
→ devops 實務指南：這些服務上線後的運行期維運




斷網環境要自建的服務清單
Fri, 26 Jun 2026 00:00:00 +0000
連網環境的 infra 團隊消費數十個 SaaS 服務：程式碼放 GitHub、CI 用 GitHub Actions、套件從 npm 和 PyPI 拉、container image 從 Docker Hub pull、憑證用 Let’s Encrypt 自動簽、監控用 Datadog。這些服務的共同特性是「有人幫你維護」——infra 團隊只需要設定和使用，不需要部署、升級、備份。
斷網環境裡這些服務全部要自建。每一個 SaaS 變成一個內部服務，infra 團隊承擔它的部署、設定、升級、備份、監控和使用者管理。這篇文章盤點完整的服務清單、推薦的自建工具、部署順序，以及容易被低估的維護成本。
服務清單與選型

  
      
          服務類別
          連網環境的 SaaS
          自建替代
          部署複雜度
          維護頻率
      
  
  
      
          版本控制
          GitHub / GitLab.com
          GitLab CE / Gitea
          中
          月級更新
      
      
          CI/CD
          GitHub Actions
          Jenkins / GitLab CI
          高
          週級維護
      
      
          套件 registry
          npm / PyPI / Maven / apt
          Nexus Repository
          中
          月級更新
      
      
          容器 registry
          Docker Hub / ECR
          Harbor / Docker Registry
          中
          月級更新
      
      
          內部 CA
          Let’s Encrypt
          step-ca / cfssl
          低
          季級輪替
      
      
          內部 DNS
          Route 53 / Cloud DNS
          CoreDNS / BIND
          低
          變更時維護
      
      
          時間同步
          pool.ntp.org
          chrony
          低
          部署後極少
      
      
          監控
          Datadog / New Relic
          Prometheus + Grafana + Loki
          高
          週級維護
      
      
          機密管理
          AWS Secrets Manager
          HashiCorp Vault
          高
          月級維護
      
      
          IaC state 後端
          S3 + DynamoDB
          PostgreSQL / Consul
          低
          變更時維護
      
  

「部署複雜度」指首次部署到可用狀態的工程量。「維護頻率」指部署完成後的持續性工作——安全更新、容量擴充、故障排查。
各服務的選型判斷
版本控制：GitLab CE 功能完整（含 CI/CD、container registry、package registry），但資源消耗大（建議 4 核 / 8GB 以上）。Gitea 輕量（512MB 記憶體可跑），適合小團隊或只需要 Git hosting 的情境。如果選 GitLab CE，版控 + CI/CD + registry 可以用同一個實例，減少部署數量。
CI/CD：如果已部署 GitLab CE，內建的 GitLab CI 是最低成本的選擇——Runner 裝在同一網段的機器上即可。Jenkins 的生態更大（plugin 多），但 plugin 的離線安裝和更新需要額外的搬運流程。
套件 registry：Nexus Repository 是斷網環境的首選，因為它用一個實例同時支援 apt / yum / npm / Maven / PyPI / Docker / Helm——維護一個服務取代六個獨立的離線 repo mirror。Artifactory 是商業替代品，功能相似但需要授權費。
容器 registry：Harbor 提供映像掃描（整合 Trivy）、RBAC、複寫、稽核 log。如果只需要儲存和拉取映像、不需要掃描和稽核，Docker Registry（開源）足夠。
內部 CA：step-ca 支援 ACME 協定（跟 Let’s Encrypt 相同的自動簽發流程），內部服務可以用跟外部一樣的 certbot 工具自動續期。cfssl 是更輕量的選擇但沒有 ACME 支援、需要手動或腳本續期。
內部 DNS：CoreDNS 用設定檔驅動、輕量、適合 Kubernetes 環境。BIND 是傳統選擇、功能完整但設定複雜。多數斷網環境的 DNS 需求簡單（幾十筆 A record），CoreDNS 的 file plugin 足夠。
時間同步：chrony 是 NTP 的現代替代——啟動快、適應性強、低資源。內網裡指定一台機器當 NTP server（stratum 1 如果有 GPS 時鐘、stratum 2 如果手動校時），其他機器指向它。時間不同步會讓 log correlation 失效、TLS 憑證驗證失敗、Kerberos 認證拒絕。
監控：Prometheus（metric 收集）+ Grafana（視覺化）+ Loki（log 聚合）是最常見的 self-hosted 監控組合。三者都支援離線部署、不需要外部依賴。詳見斷網環境的監控與可觀測性。
機密管理：HashiCorp Vault 提供 secret 儲存、動態 secret 產生、PKI、加密即服務。部署和維護複雜度高——Vault 本身需要 unseal、HA 需要 Raft 或 Consul 後端、稽核 log 需要儲存規劃。如果機密數量少且變更不頻繁，加密的 ansible-vault 或 git-crypt 是輕量替代。
IaC state 後端：PostgreSQL 是 Terraform 支援的 state backend 之一（backend "pg"），斷網環境裡用既有的 PostgreSQL 實例存 state、用 PostgreSQL 的 advisory lock 防並行。比自建 S3 + DynamoDB 簡單得多。Consul 是另一個選擇（Terraform 原生支援），但引入 Consul 只為了存 state 的 ROI 通常不划算、除非環境裡已經有 Consul 跑 service discovery。
部署順序
服務之間有依賴關係，部署順序由依賴方向決定：





 1第一層（基礎設施服務）
 2  DNS → 所有服務都需要名稱解析
 3  NTP → 所有服務都需要時間同步
 4  CA  → 所有服務都需要 TLS 憑證
 5
 6第二層（開發平台服務）
 7  版本控制 → 程式碼要有地方存才能跑 CI
 8  套件 + 容器 registry → build 需要依賴
 9
10第三層（自動化服務）
11  CI/CD → 依賴版控 + registry
12  IaC state backend → Terraform 需要 state 存放處
13
14第四層（營運服務）
15  機密管理 → 其他服務的 secret 集中管理
16  監控 → 監控所有上述服務的健康
第一層的三個服務可以平行部署——它們彼此不依賴。第四層的監控放最後是因為它要監控的對象都還沒就位時、設定 target 沒有意義。
每一層部署完成後做一次整體驗證（所有服務能互相連通、TLS 正常、時間同步），再進下一層。
統一管理 vs 個別部署
GitLab CE 把版控、CI/CD、container registry、package registry 打包在一個實例裡。用 GitLab CE 取代四個獨立服務的優缺點：

  
      
          面向
          統一（GitLab CE）
          個別部署
      
  
  
      
          部署成本
          部署 1 個服務
          部署 4 個服務
      
      
          維護
          升級 1 個服務
          各自升級週期
      
      
          資源消耗
          單機 8GB+ 記憶體
          分散在多台
      
      
          故障半徑
          GitLab 掛 = 版控 + CI + registry 全停
          某一個掛不影響其他
      
      
          靈活性
          綁 GitLab 生態
          各服務可獨立替換
      
  

小團隊（5-15 人）的斷網環境，GitLab CE 統一管理的 ROI 通常較高——維護一個服務比維護四個省力，故障半徑的風險靠備份和 HA（GitLab 支援 Geo replication）緩解。
大團隊或高安全環境，個別部署的隔離性較好——CI runner 跟版控分開、registry 跟 CI 分開，每個服務的存取控制和稽核獨立。
同樣的邏輯適用於 Nexus：它用一個實例服務 6 種格式的套件，比為每種格式各建一個離線 mirror 省力。
維護的隱藏成本
自建服務的維護成本容易被低估，因為部署完成時感覺「已經做完了」，但持續性維護才剛開始。每個自建服務需要：

  
      
          維護項目
          頻率
          漏做的後果
      
  
  
      
          安全更新
          月級
          已知漏洞暴露在內網（斷網不代表零風險）
      
      
          備份
          日級
          服務掛了資料沒了
      
      
          容量監控
          週級
          磁碟滿了服務停擺
      
      
          憑證續期
          季級
          TLS 過期、服務拒絕連線
      
      
          使用者管理
          變更時
          離職員工仍有存取權
      
      
          監控的監控
          持續
          監控系統本身掛了沒人知道
      
  

10 個自建服務各自都有這六項維護需求。時程參考：每月的例行維護（安全更新 + 備份驗證 + 容量檢查）約需 2-3 天工程師時間。這筆時間是隱性的——不在任何 sprint 或 ticket 裡，但不做的後果是累積的。
管理層溝通時的關鍵數字：自建 10 個服務的維護成本約等於 0.3-0.5 個全職工程師。這筆人力投入是斷網環境的結構性成本，跟應用開發無關。
跨分類引用

→ 斷網環境的通用原則：內容搬運、離線套件管理的共通模式
→ 斷網環境的 IaC：state backend（PostgreSQL）和 CI 的詳細設定
→ 斷網環境的容器與映像管理：Harbor 和映像搬運的詳細操作
→ 斷網環境的監控與可觀測性：Prometheus + Grafana + Loki 的部署
→ 模組二：身分與憑證地基：Vault 的身分管理與 infra IAM 的關係
→ 模組八：治理好習慣：自建服務的 secret 管理與成本歸因




ACM 憑證、DNS 與 HTTPS 設定
Fri, 26 Jun 2026 00:00:00 +0000
HTTPS 的運作需要三個元件配合：一個管理網域記錄的 DNS zone、一張證明網域所有權的 TLS 憑證、以及一個用這張憑證終結 TLS 連線的入口（ALB listener）。這三者在 IaC 裡各自是獨立資源，但建立順序有依賴——zone 先存在、憑證才能用 DNS 驗證、驗證通過才能掛到 listener。把這條鏈路寫進 Terraform，讓憑證的申請、驗證與續期都在版本控制裡，是避免「憑證過期才發現沒人盯」的結構性做法。
Route 53 Hosted Zone
Hosted zone 是 Route 53 用來管理某個網域的 DNS 記錄集合。建立 zone 後，Route 53 會分配一組 NS（Name Server）記錄，網域的 DNS 解析就由這組 NS 負責。
Public vs Private Zone
Public hosted zone 對應的是可從網際網路解析的網域（如 example.com），用於對外服務的 A / CNAME / MX 記錄。Private hosted zone 只在指定的 VPC 內可解析，用於內部服務發現（如 db.internal.example.com 解析到 RDS 的 private IP）。多數專案兩者都需要：public zone 給對外流量、private zone 給內部服務互連。





 1resource "aws_route53_zone" "public" {
 2  name = "example.com"
 3  tags = { Environment = "production" }
 4}
 5
 6resource "aws_route53_zone" "private" {
 7  name = "internal.example.com"
 8
 9  vpc {
10    vpc_id = aws_vpc.main.id
11  }
12
13  tags = { Environment = "production" }
14}
子網域 delegation
當 dev / staging / prod 各用獨立帳號時，每個帳號建自己的 hosted zone 管理子網域（如 dev.example.com）。父網域的 zone 需要加一組 NS 記錄指向子網域的 zone，這個動作叫 delegation。





1resource "aws_route53_record" "dev_ns" {
2  zone_id = aws_route53_zone.public.zone_id
3  name    = "dev.example.com"
4  type    = "NS"
5  ttl     = 300
6  records = aws_route53_zone.dev.name_servers
7}
delegation 的 NS 記錄指向子帳號 zone 的 name server。子帳號內的所有 DNS 記錄（如 api.dev.example.com）由子帳號的 zone 管理，父帳號不需要逐條設定。跨帳號 delegation 需要兩邊的 Terraform 各自管理自己的 zone，NS 記錄在父帳號的 state 裡。
判讀設定是否正確：用 dig dev.example.com NS 查回的 name server 應該是子帳號 zone 的 NS，不是父帳號的。如果查回父帳號的 NS，代表 delegation 沒生效，子網域的 DNS 記錄不會被解析。
ACM 憑證申請與 DNS 驗證
AWS Certificate Manager（ACM）提供免費的 TLS 憑證，條件是透過 DNS 或 email 驗證網域所有權。DNS 驗證是 IaC 友善的方式——ACM 要求在指定網域下建一條 CNAME 記錄，記錄值由 ACM 提供，驗證通過後憑證自動簽發。





 1resource "aws_acm_certificate" "main" {
 2  domain_name               = "example.com"
 3  subject_alternative_names = ["*.example.com"]
 4  validation_method         = "DNS"
 5
 6  lifecycle {
 7    create_before_destroy = true
 8  }
 9
10  tags = { Environment = "production" }
11}
subject_alternative_names 加 *.example.com 讓同一張憑證涵蓋所有子網域（如 api.example.com、admin.example.com），省去為每個子網域各申請一張。
DNS 驗證記錄
ACM 簽發後會產出一組驗證用的 CNAME 記錄。用 Terraform 自動在 Route 53 建立這些記錄，讓驗證流程不需要手動操作：





 1resource "aws_route53_record" "cert_validation" {
 2  for_each = {
 3    for dvo in aws_acm_certificate.main.domain_validation_options : dvo.domain_name => {
 4      name   = dvo.resource_record_name
 5      record = dvo.resource_record_value
 6      type   = dvo.resource_record_type
 7    }
 8  }
 9
10  zone_id = aws_route53_zone.public.zone_id
11  name    = each.value.name
12  type    = each.value.type
13  ttl     = 300
14  records = [each.value.record]
15
16  allow_overwrite = true
17}
18
19resource "aws_acm_certificate_validation" "main" {
20  certificate_arn         = aws_acm_certificate.main.arn
21  validation_record_fqdns = [for record in aws_route53_record.cert_validation : record.fqdn]
22}
aws_acm_certificate_validation 資源會等到 ACM 確認驗證通過才算 apply 成功。如果 DNS 記錄設錯或 zone 的 NS delegation 有問題，這個資源會卡住直到 timeout——排查方向是先確認驗證 CNAME 記錄能被公網 DNS 解析。
create_before_destroy
lifecycle { create_before_destroy = true } 在憑證需要替換時（如增加 SAN、更換網域），讓 Terraform 先建新憑證、再刪舊憑證。沒有這個設定，預設行為是先刪後建——刪除的瞬間 ALB listener 失去憑證，HTTPS 連線全部中斷直到新憑證驗證通過（可能要幾分鐘到幾十分鐘）。
ALB HTTPS Listener
憑證驗證通過後，把它掛到 ALB 的 HTTPS listener：





 1resource "aws_lb_listener" "https" {
 2  load_balancer_arn = aws_lb.main.arn
 3  port              = 443
 4  protocol          = "HTTPS"
 5  ssl_policy        = "ELBSecurityPolicy-TLS13-1-2-2021-06"
 6  certificate_arn   = aws_acm_certificate_validation.main.certificate_arn
 7
 8  default_action {
 9    type             = "forward"
10    target_group_arn = aws_lb_target_group.app.arn
11  }
12}
ssl_policy 決定 TLS 版本與加密套件。ELBSecurityPolicy-TLS13-1-2-2021-06 支援 TLS 1.2 和 1.3、停用已知不安全的舊版協定。選型判準是相容性與安全性的平衡——TLS 1.3-only policy 最安全但可能排除舊版客戶端，多數場景用 1.2+1.3 的組合。
certificate_arn 引用的是 aws_acm_certificate_validation 而非直接引用 aws_acm_certificate，確保 listener 只在憑證驗證通過後才建立。
HTTP → HTTPS 重導
同時建立一個 HTTP listener，把所有 80 埠流量重導到 443：





 1resource "aws_lb_listener" "http_redirect" {
 2  load_balancer_arn = aws_lb.main.arn
 3  port              = 80
 4  protocol          = "HTTP"
 5
 6  default_action {
 7    type = "redirect"
 8    redirect {
 9      port        = "443"
10      protocol    = "HTTPS"
11      status_code = "HTTP_301"
12    }
13  }
14}
301 永久重導讓瀏覽器記住後續直接走 HTTPS。security group 仍然需要開放 80 埠入站，否則重導不會發生——client 連 80 埠被擋、收到的是連線失敗而非重導回應。
多網域與 SAN 憑證
一張 ACM 憑證最多支援 10 個 SAN（Subject Alternative Name）。多數場景用主網域 + wildcard（example.com + *.example.com）就夠用。如果有多個不同根網域（如 example.com 和 example-app.com），可以加進同一張憑證：





 1resource "aws_acm_certificate" "multi_domain" {
 2  domain_name               = "example.com"
 3  subject_alternative_names = [
 4    "*.example.com",
 5    "example-app.com",
 6    "*.example-app.com",
 7  ]
 8  validation_method = "DNS"
 9
10  lifecycle {
11    create_before_destroy = true
12  }
13}
每個 SAN 網域都需要獨立的 DNS 驗證記錄。如果不同網域在不同的 hosted zone 裡，驗證記錄的建立要分別指向各自的 zone。
當 SAN 數量超過 10、或不同網域的憑證需要獨立管理（不同 team 負責不同網域），改用 aws_lb_listener_certificate 額外掛載：





1resource "aws_lb_listener_certificate" "additional" {
2  listener_arn    = aws_lb_listener.https.arn
3  certificate_arn = aws_acm_certificate.other_domain.arn
4}
ALB 會根據 SNI（Server Name Indication）自動選擇匹配的憑證。
穩定的 DNS 別名記錄
ALB 重建後 DNS 名稱會改變，對外服務不應該直接用 ALB 的 DNS 名稱。用 Route 53 的 alias record 把穩定的網域名指向 ALB：





 1resource "aws_route53_record" "app" {
 2  zone_id = aws_route53_zone.public.zone_id
 3  name    = "api.example.com"
 4  type    = "A"
 5
 6  alias {
 7    name                   = aws_lb.main.dns_name
 8    zone_id                = aws_lb.main.zone_id
 9    evaluate_target_health = true
10  }
11}
alias record 不收費（一般的 A/CNAME 記錄每百萬次查詢 $0.40，alias 到 AWS 資源免費），且支援 zone apex（如 example.com，一般 CNAME 不支援 zone apex）。evaluate_target_health = true 讓 Route 53 在 ALB 不健康時停止回應該記錄，配合 failover routing 使用。
憑證續期監控
ACM 的 DNS 驗證憑證會自動續期——條件是驗證用的 CNAME 記錄仍然存在且可解析。只要那條記錄沒被刪掉，憑證到期前 60 天 ACM 會自動續期。
自動續期失敗的常見原因：驗證 CNAME 記錄被手動刪除、hosted zone 的 NS delegation 失效、或 zone 本身被刪除重建導致 NS 改變。用 CloudWatch alarm 監控憑證到期日，在自動續期失敗時提前收到通知：





 1resource "aws_cloudwatch_metric_alarm" "cert_expiry" {
 2  alarm_name          = "acm-cert-expiry-${aws_acm_certificate.main.domain_name}"
 3  comparison_operator = "LessThanThreshold"
 4  evaluation_periods  = 1
 5  metric_name         = "DaysToExpiry"
 6  namespace           = "AWS/CertificateManager"
 7  period              = 86400
 8  statistic           = "Minimum"
 9  threshold           = 30
10  alarm_actions       = [aws_sns_topic.oncall.arn]
11
12  dimensions = {
13    CertificateArn = aws_acm_certificate.main.arn
14  }
15}
這個 alarm 在憑證距離到期不足 30 天時觸發。正常情況下 ACM 在到期前 60 天就會完成續期，收到 30 天警報代表自動續期失敗了、需要人工介入確認驗證記錄。
跨分類引用

→ 入口上 IaC — ALB：ALB listener、target group、健康檢查的完整設定
→ 模組三：網路地基：ALB 所在的 public subnet 與 security group 設計
→ 模組七：infra 走 PR 流程：憑證與 DNS 變更走 PR review




Security Group
Fri, 26 Jun 2026 00:00:00 +0000
Security group 是掛在資源網卡（ENI）層級的有狀態防火牆，規則描述的是「哪些來源能連到這個資源的哪個埠」。「有狀態」的意思是放行一條入站連線後，對應的回應出站自動允許——規則只需描述入站方向想開放什麼。
設計原則是最小開放：每條規則只開「這個服務確實需要被誰連的那個埠」。資料庫的 security group 入站只允許來自應用層 security group 的資料庫埠（如 5432），而不是某個 IP 範圍。用 security group 互相引用（source 指向另一個 group 而非 CIDR）讓規則跟著成員身分走、不跟著位址走——應用節點會隨擴縮而換 IP，引用 group 不會因此失效。
概念位置
Security group 是模組三：網路地基的最內層邊界——貼著服務的最後一道網路防線。即使封包順著 route table 抵達了 private subnet，security group 仍能逐埠決定放不放行。模組七：infra 走 PR 流程用 tfsec / checkov 在 CI 攔截 0.0.0.0/0 全開的規則。
可觀察訊號
Security group 需要收斂的訊號：入站來源是 0.0.0.0/0（允許全網連入），且目標埠是資料庫（5432、3306、6379）或管理埠（22、3389）——合理出現 0.0.0.0/0 的位置只有對外負載平衡器的 80 / 443。盤點方式是列出所有 source 為 0.0.0.0/0 的規則，逐條問「這個埠需要全世界都連得到嗎」。
設計責任
設計 security group 時要決定：

引用方式：用 group 互相引用（推薦）vs 用 CIDR 限定範圍
開放範圍：只開需要的埠與來源，0.0.0.0/0 只給對外 LB
管理埠存取：SSH（22）改用 SSM Session Manager 取代，從公網清單上拿掉
與 NACL 的分工：security group 是主力（有狀態、group 引用），NACL 留給少數需要 subnet 層顯式 deny 的情境

鄰卡

VPC — security group 依附的網路容器
Subnet — security group 與 subnet 各守不同層級的邊界



模組六：可觀測性與 log 一併寫進 code
Fri, 26 Jun 2026 00:00:00 +0000
可觀測性要跟它監控的資源同生命週期：log group、metric 與 alarm 寫進建立資源的同一套 IaC，資源開出來的那一刻監控就在線，而非等出事才補。少了這條規則的代價很具體：凌晨資料庫 CPU 飆到 100%、API 開始逾時，值班工程師打開 console 想看 log，卻發現那個服務根本沒接 log group、metric 也只有 vendor 預設的幾條粗線，追不到呼叫鏈、查不到錯誤訊息，只能靠重啟賭它恢復。
observability 跟 infra 同一套 code、同生命週期
可觀測性是基礎設施的一部分，承擔「讓資源在出事時可被追查」的責任，因此它的建立、變更與銷毀要跟被監控的資源綁在同一個生命週期裡。一個 RDS 實例、一個 Lambda、一個 ECS service 被 IaC 建立時，它的 log group、它的關鍵 metric alarm 應該在同一份 plan 裡一起 apply；這個資源被 destroy 時，對應的 alarm 也一起收掉，不留下對著空資源狂叫的孤兒告警。
把監控外掛在資源之外會製造兩種漂移。第一種是新資源沒有監控：service 透過 PR 加上去了，但 alarm 要某人事後手動進 console 點，於是有些 service 有 alarm、有些沒有，覆蓋率取決於誰記得。第二種是死資源留下殘響：資源砍了但 alarm 還在，半夜對著不存在的 target 噴 INSUFFICIENT_DATA，值班的人學會忽略它，告警疲勞讓真的事故也被一起忽略。兩種漂移的共同根因都是監控跟資源不在同一個 apply 單位裡。
判讀訊號很直接：如果有人能回答「這個服務有沒有 alarm」要去翻 console 而不是讀 code，監控就已經跟資源脫鉤了。修法是把監控宣告收進該資源的 module——模組四（環境分離與模組化）談的模組化在這裡延伸成「每個服務模組自帶它的 observability 宣告」，模組五（核心服務上 IaC）談的每個核心服務也應該在同一個 module 裡帶上自己的 log 與 alarm。
log group 與 retention 設計
Log group 是日誌的歸屬與保存單位，它要回答兩個治理問題：留多久、誰能讀。這兩個問題寫進 IaC 才能稽核，而非依賴 vendor 的隱性預設。許多雲端服務在你沒宣告 log group 時會自動建一個、套上「永久保留」的預設值，於是日誌無限堆積、帳單緩慢長大，而真正敏感的內容反而沒人管控存取。
Retention 是成本、合規與除錯需求的三方取捨。除錯通常只需要近幾天到幾週的熱資料；合規（如稽核軌跡、金流紀錄）可能要求保留數年；而每多留一天就多一天的儲存費。划算的做法是按日誌類型分層：高頻、除錯用的 application log 設短 retention（例如 14 到 30 天），稽核相關的 access log 按合規要求設長期保留，必要時再把冷資料歸檔到更便宜的物件儲存。把這些值寫進 IaC，讓「為什麼這條 log 留 90 天」是一個能在 PR 上被討論的決定。





1resource "aws_cloudwatch_log_group" "api" {
2  name              = "/app/${var.env}/api"
3  retention_in_days = var.env == "prod" ? 30 : 7
4  kms_key_id        = aws_kms_key.logs.arn
5}
「誰能讀」是 retention 之外的另一半，因為 log 經常夾帶 PII、token 或內部結構，讀取權限要跟身分地基一起管。存取控制掛在模組二（身分與憑證地基）建立的 IAM 角色上，加密金鑰則對應模組三、模組七一路延伸的金鑰治理。常見陷阱是 log 在傳輸與儲存都加密了，卻對整個團隊開放讀取，等於把敏感資料攤在所有人面前；read 權限應該縮到值班與稽核需要的最小集合。應用層該怎麼決定哪些欄位根本不該進 log，屬於資料保護的範圍，可往 /backend/07-security-data-protection/ 對齊。
metric 與 alarm 寫進 IaC
Metric 與 alarm 寫進 IaC，目的是讓「資源被建立的同時就帶著它的健康判準」。Alarm 不只是一個閾值，它是一份對「這個資源什麼狀態算不正常」的成文約定：哪條 metric、跨多長的評估窗口、超過什麼值要通知誰。把這份約定寫進 code，它就能被 review、被版本控制、被跨環境複用，而不是散落在某個人腦中或 console 的某個角落。
Alarm 的價值在於它連到動作，而非只是亮一盞燈。一條有用的 alarm 至少要綁定通知去向（on-call 的 SNS topic、PagerDuty、Slack），並寫清楚 INSUFFICIENT_DATA 怎麼處理——資料不足到底算正常還是異常，取決於這條 metric 平常是否持續有資料。閾值設計是訊號與雜訊的取捨：設太敏感會頻繁誤報、養出告警疲勞，設太鈍則錯過真正的劣化。划算的起點是針對「使用者已經受影響」的症狀型 metric 設 alarm（錯誤率、p99 延遲、佇列積壓），而把成因型指標（CPU、記憶體）留作 dashboard 上的診斷線索，避免每個成因都獨立告警。





 1resource "aws_cloudwatch_metric_alarm" "api_5xx" {
 2  alarm_name          = "${var.env}-api-5xx-rate"
 3  comparison_operator = "GreaterThanThreshold"
 4  evaluation_periods  = 3
 5  metric_name         = "5XXError"
 6  namespace           = "AWS/ApiGateway"
 7  period              = 60
 8  statistic           = "Sum"
 9  threshold           = 10
10  treat_missing_data  = "notBreaching"
11  alarm_actions       = [aws_sns_topic.oncall.arn]
12}
判讀訊號是：每次新服務上線都要有人「記得」去加 alarm，代表 alarm 還沒進 module 模板。修法是把基礎告警（錯誤率、延遲、健康檢查失敗）做成服務模組的預設輸出，讓開新服務時 alarm 跟著資源一起生出來，調整閾值才是該服務 owner 的選配。
跟 monitoring 系列的分工：基礎設施訊號 vs 客戶端行為訊號
本模組的可觀測性處理基礎設施訊號，monitoring 系列處理客戶端與業務行為訊號，兩者觀測的對象不同、生命週期也不同，因此分屬不同的 code 與不同的章節。基礎設施訊號是資源層的健康狀態：log group、CPU、佇列深度、5xx 比例、實例存活，它們跟著資源被 IaC 建立與銷毀，回答「這個系統還活著嗎、哪裡壞了」。
客戶端行為訊號則是 SDK、Collector、業務埋點那一層：使用者點了什麼、轉換漏斗、前端錯誤、自訂事件，它們跟著產品功能演進、不跟著基礎設施資源同生共滅，所以放在 /monitoring/。判讀分界的問法是：這個訊號是「資源建立時就該存在」還是「功能開發時才埋」。前者進本模組的 IaC，後者進 monitoring 那層的應用程式碼。兩者在事故排查時會合流——基礎設施 alarm 告訴你哪個資源異常，客戶端訊號告訴你使用者實際受了什麼影響——但它們的擁有者、變更節奏與部署管道不同，混在一起會讓「誰負責這條訊號」變模糊。
收斂成一句判準：資源建立時就該存在的訊號歸本模組的 IaC，功能開發時才埋的客戶端行為訊號歸另一層；各條延伸章節見下方跨分類引用。
章節文章

  
      
          文章
          主題
      
  
  
      
          可觀測性與 log 同生命週期管理
          log group、metric、alarm 寫進同一套 IaC，讓監控跟資源同生共滅，出事時追得到查得到
      
  

跨分類引用

→ Monitoring 監控體系：客戶端 SDK / Collector 那層的監控
→ 模組五：核心服務上 IaC：每個核心服務帶自己的 log 與 alarm
→ 模組七：infra 走 PR 流程：observability 變更也走 PR 與自動化護欄
→ backend 模組七：資安與資料保護：哪些欄位不該進 log、PII 處理




斷網環境的版本控制與 CI/CD
Fri, 26 Jun 2026 00:00:00 +0000
版本控制和 CI/CD 是所有 infra 操作的前提——程式碼要有地方存、變更要能被 review、build 和 deploy 要自動化。正常環境裡這些由 GitHub + GitHub Actions 提供，斷網環境裡這兩個服務都不存在，需要在內網自建替代品。
GitLab CE vs Gitea：選型判準
兩個主流的自建版本控制方案定位不同：

  
      
          維度
          GitLab CE
          Gitea
      
  
  
      
          定位
          VCS + CI + Container Registry + Issue Tracker 一體
          純 VCS（輕量 Git 伺服器）
      
      
          資源需求
          4GB+ RAM、推薦 8GB
          512MB RAM 即可運作
      
      
          CI 內建
          GitLab CI（.gitlab-ci.yml）
          無（搭配 Drone / Woodpecker / Jenkins）
      
      
          Container Registry
          內建
          無（搭配 Harbor）
      
      
          安裝複雜度
          中（Omnibus 包裝簡化了安裝、但設定項多）
          低（單一二進位檔、啟動即可用）
      
      
          維護負擔
          高（PostgreSQL、Redis、Sidekiq 都在裡面）
          低（SQLite 或 MySQL、無背景服務）
      
  

選型判準是團隊規模和需要的功能範圍。5 人以下、只需要 VCS + 輕量 CI 的團隊，Gitea + Drone 的組合維護成本低。10 人以上、需要 MR review + CI pipeline + Container Registry 一站到位的團隊，GitLab CE 的整合度值得它的資源消耗。
接下來以 GitLab CE 為主線說明（功能最完整），Gitea 的差異在各段附註。
GitLab CE 離線安裝
GitLab Omnibus 包把所有依賴打包成單一安裝檔，不需要在目標機器上 apt install 任何前置套件。
在外網機器下載安裝包





1# Ubuntu/Debian
2wget https://packages.gitlab.com/gitlab/gitlab-ce/packages/ubuntu/jammy/gitlab-ce_17.0.0-ce.0_amd64.deb/download.deb
3
4# RHEL/CentOS
5wget https://packages.gitlab.com/gitlab/gitlab-ce/packages/el/9/gitlab-ce-17.0.0-ce.0.el9.x86_64.rpm/download.rpm
把下載的 .deb 或 .rpm 透過內容搬運機制（USB、光碟、跨邊界傳輸站）帶進斷網環境。
在斷網機器安裝





1# Ubuntu/Debian
2sudo dpkg -i gitlab-ce_17.0.0-ce.0_amd64.deb
3
4# RHEL/CentOS
5sudo yum localinstall gitlab-ce-17.0.0-ce.0.el9.x86_64.rpm
離線設定
安裝後編輯 /etc/gitlab/gitlab.rb，把所有外部連線關掉：





 1# 設定內部域名（不是公網域名）
 2external_url 'https://gitlab.internal.example.com'
 3
 4# 關閉 Gravatar（頭像服務、需要外網）
 5gitlab_rails['gravatar_enabled'] = false
 6
 7# 關閉 usage ping（回報使用統計到 GitLab Inc）
 8gitlab_rails['usage_ping_enabled'] = false
 9
10# 關閉 version check
11gitlab_rails['gitlab_check_on_connect'] = false
12
13# 如果沒有內部 SMTP，用 sendmail 或關閉 email
14gitlab_rails['smtp_enable'] = false
15
16# TLS 憑證用內部 CA 簽發
17nginx['ssl_certificate'] = "/etc/gitlab/ssl/gitlab.crt"
18nginx['ssl_certificate_key'] = "/etc/gitlab/ssl/gitlab.key"




1sudo gitlab-ctl reconfigure
Gitea 的離線安裝更簡單：下載單一二進位檔 gitea、設定 app.ini、用 systemd 管理即可。
升級策略
GitLab CE 的升級包也要從外部下載帶進來。升級前先備份（gitlab-backup create），升級路徑要按 GitLab 的版本跳級規則——不能任意跳版、某些大版本之間需要中繼版本。在斷網環境裡，每次升級要預先規劃中繼版本、一次帶進所有需要的安裝包。
CI Runner 離線設定
CI pipeline 在斷網環境裡跑的最大差異是 runner 不能即時拉依賴。
Runner 安裝與註冊





1# 下載 runner 二進位檔（外網下載、帶進來）
2# https://docs.gitlab.com/runner/install/linux-manually.html
3
4sudo gitlab-runner register \
5  --url https://gitlab.internal.example.com \
6  --token $RUNNER_TOKEN \
7  --executor docker \
8  --docker-image alpine:3.20
Executor 選擇

  
      
          Executor
          隔離性
          前置條件
          斷網適用度
      
  
  
      
          shell
          低（直接跑在 runner 機器上）
          無
          高（最簡單）
      
      
          docker
          高（每個 job 一個容器）
          需要 Docker + 預拉 image
          中（image 管理成本）
      
      
          kubernetes
          高（每個 job 一個 pod）
          需要 K8s cluster
          低（斷網 K8s 維護重）
      
  

斷網環境推薦 shell executor（最少依賴）或 docker executor 搭配預拉好的 image。
Docker executor 的 image 管理
Docker executor 的每個 job 都基於一個 base image。斷網環境裡這些 image 必須預先存在於內網的 private registry：





1# runner 的 /etc/docker/daemon.json 指向內部 registry
2{
3  "insecure-registries": ["registry.internal:5000"],
4  "registry-mirrors": ["https://registry.internal:5000"]
5}
CI pipeline 裡用到的每個 image（build 用的 golang/node/php、lint 用的 tflint/checkov、deploy 用的 awscli）都要事先搬進內部 registry。
依賴快取
沒有 npm registry / PyPI / Maven Central 可以拉，CI job 的依賴安裝必須用本地來源：





1# .gitlab-ci.yml — 使用內部 Nexus 作為套件來源
2variables:
3  NPM_CONFIG_REGISTRY: "https://nexus.internal/repository/npm-proxy/"
4  PIP_INDEX_URL: "https://nexus.internal/repository/pypi-proxy/simple/"
或者把 node_modules / vendor 打包成 CI artifact 快取，避免每次 job 都重新安裝。
Git Bundle 跨邊界傳輸
某些斷網環境不允許直接 git push 到內網 GitLab（例如開發在外網、部署在內網）。Git bundle 是把 commit 歷史打包成單一檔案的機制：





1# 外網開發機：打包最近的 commit
2git bundle create changes.bundle main~5..main
3
4# 帶進斷網環境後
5git bundle verify changes.bundle
6git fetch changes.bundle main:incoming
7git merge incoming
bundle 檔案包含完整的 Git 物件（commit、tree、blob），可以通過任何檔案傳輸方式帶過邊界——USB、光碟、審批後的檔案傳輸閘道。
跨邊界傳輸的安全考量：bundle 的內容應該在傳入前被掃描（至少 git bundle verify），確認不包含預期外的分支或異常大的物件。某些高安全環境要求所有跨邊界檔案經過人工審批。
MR Review 流程
斷網環境的 MR（Merge Request）review 流程跟模組七：infra 走 PR 流程的原則相同——變更走 MR → CI 跑 plan → reviewer 看 diff + plan 輸出 → 合併 → apply。差別在於所有環節都在內網：





 1# .gitlab-ci.yml — Terraform plan 貼回 MR comment
 2plan:
 3  stage: plan
 4  script:
 5    - terraform init -plugin-dir=/opt/terraform/plugins
 6    - terraform plan -no-color -out=plan.tfplan | tee plan.txt
 7    - |
 8      curl --request POST \
 9        --header "PRIVATE-TOKEN: $GITLAB_TOKEN" \
10        --data-urlencode "body=$(cat plan.txt)" \
11        "https://gitlab.internal/api/v4/projects/$CI_PROJECT_ID/merge_requests/$CI_MERGE_REQUEST_IID/notes"
12  only:
13    - merge_requests
GitLab CI 的 merge_requests trigger 跟 GitHub Actions 的 pull_request 等價——MR 開啟或更新時自動跑 pipeline。
reviewer 在 GitLab 的 MR 頁面看 code diff + plan 輸出 comment，approve 後合併，合併觸發 apply pipeline。流程跟有網路時完全相同，只是所有元件（GitLab、runner、Terraform、provider plugin）都在內網。
時程與維護

  
      
          項目
          初始設定
          持續維護
      
  
  
      
          GitLab CE 安裝 + 設定
          1 天
          每季升級（含帶包 + 備份 + 升級 + 驗證）~半天
      
      
          CI runner 設定
          半天
          image 更新隨 registry 同步
      
      
          Gitea + Drone（替代方案）
          半天
          極低（二進位更新即可）
      
      
          Git bundle 流程建立
          2 小時
          按需（有跨邊界需求時）
      
  

GitLab CE 的主要維護成本在升級——斷網環境的升級不能一鍵 apt upgrade，要預先下載正確版本的安裝包帶進來。跳版規則讓這個過程比正常環境多一層規劃。
跨分類引用

→ 斷網環境的通用原則：內容搬運、離線套件管理的共通模式
→ 斷網環境的容器與映像管理：CI runner 的 Docker image 管理
→ 模組七：infra 走 PR 流程：MR review 流程的原則與護欄




ECS Fargate 成本分析與優化
Fri, 26 Jun 2026 00:00:00 +0000
Fargate 把運算的維運面外包給 AWS — 不需要管 EC2 instance、不需要管 AMI 更新、不需要管 capacity provider 的擴縮邏輯。這份簡化的代價是單位成本較高。當服務規模小或流量不穩定時，Fargate 的簡化值回票價；當服務規模穩定且持續運行時，EC2 launch type 的單位成本優勢會累積到值得切換的量級。本篇的目標是讓讀者能判斷自己的服務在成本曲線的哪個位置、以及有哪些槓桿可以調。
Fargate 計價模型
Fargate 按 task 的 vCPU 時數和記憶體時數分別計費，從 task 啟動（pull image 完成、進入 RUNNING）到停止。計費的最小粒度是一分鐘，不足一分鐘按一分鐘算。
以 ap-northeast-1（東京）為例的單價（截至撰寫時的量級參考，實際以 AWS 定價頁為準）：

  
      
          資源
          單價（每小時）
      
  
  
      
          1 vCPU
          ~$0.05056
      
      
          1 GB RAM
          ~$0.00553
      
  

一個 1 vCPU / 2 GB 的 task 持續運行一個月（730 小時）的費用約為 $0.05056 × 730 + $0.00553 × 2 × 730 ≈ $44.97。這個數字是所有後續比較的基線。
Fargate 的計費粒度還有一個常被忽略的面向：task 規格只能從 AWS 預定義的 vCPU/memory 組合中選。如果應用只需要 0.3 vCPU / 512 MB，最小可選的配置是 0.25 vCPU / 0.5 GB，但如果需要 0.3 vCPU / 1 GB，就得選 0.5 vCPU / 1 GB — 多付了 0.2 vCPU 的費用。這個「階梯式浪費」在小規格 task 上比例最高。
Fargate vs EC2 launch type 的成本比較
EC2 launch type 的成本結構不同：付的是 EC2 instance 的時數（不管上面跑幾個 task），加上 ECS 本身不收費。省的是 Fargate 的 markup，多的是 instance 管理（AMI 更新、capacity provider 設定、instance 閒置時仍計費）。

  
      
          場景
          Fargate 月費
          EC2（t3.medium）月費
          差異
      
  
  
      
          1 task, 1 vCPU / 2 GB, 持續
          ~$45
          ~$30（共享 instance）
          +50%
      
      
          5 tasks, 各 0.5 vCPU / 1 GB
          ~$113
          ~$30（1 台 t3.medium 裝得下）
          +277%
      
      
          20 tasks, 各 1 vCPU / 2 GB
          ~$900
          ~$240（4 台 t3.xlarge）
          +275%
      
      
          流量波動大，尖峰 10 tasks / 離峰 1
          ~$180（加權平均）
          ~$150（需預留尖峰容量）
          +20%
      
  

幾個判讀要點：

task 數量少且持續運行時，Fargate 的溢價比例最高（+50% 到 +277%），但絕對金額小（$15-$80/月的差距），不值得為此承擔 instance 管理的維運負擔
task 數量多且持續運行時，EC2 的絕對節省量開始可觀（$660/月），這時候切換的維運成本有回報
流量波動大時，Fargate 的優勢是按需計費 — 離峰時 task 數降下來就停止計費，EC2 instance 閒置時仍然計費。波動越大，Fargate 的成本效益越接近或超過 EC2

Fargate Spot
Fargate Spot 使用 AWS 的閒置容量，價格約為 on-demand 的 30%（折扣幅度 ~70%），代價是 AWS 可以隨時回收容量、task 會收到 SIGTERM 後被終止。
適用條件：task 能在 120 秒內優雅停止、應用有重試機制或上游有 load balancer 自動移除不健康的 target。批次處理、背景 worker、可中斷的佇列消費者是典型的 Spot 候選。對外直接服務的 API 通常混合部署 — 基線容量用 on-demand、彈性擴張部分用 Spot。





 1resource "aws_ecs_service" "api" {
 2  # ...
 3
 4  capacity_provider_strategy {
 5    capacity_provider = "FARGATE"
 6    weight            = 1
 7    base              = 2  # 至少 2 個 on-demand task 保底
 8  }
 9
10  capacity_provider_strategy {
11    capacity_provider = "FARGATE_SPOT"
12    weight            = 3  # 擴張時 3/4 的 task 用 Spot
13  }
14}
base = 2 確保至少有兩個 on-demand task 在線（不會被回收），weight 比例讓後續擴張的 task 優先使用 Spot。中斷發生時 ECS 會自動在 on-demand 上補充，但補充需要時間（task 啟動 + health check 通過），這段期間服務容量會短暫下降。
Compute Savings Plans
Compute Savings Plans 是對 Fargate（和 EC2、Lambda）的預付承諾折扣：承諾每小時固定消費 X 美元的運算量，換取 1 年或 3 年的折扣（1 年約 -20%、3 年約 -40%，視具體方案）。
關鍵判斷：承諾量（$/hr）設在實際用量的多少比例。保守做法是設在過去 3 個月最低用量的 80% — 這部分幾乎確定會用到，享受折扣；超過承諾量的部分自動按 on-demand 計費，不會浪費。





1# 查過去 90 天的 Fargate 用量趨勢
2aws ce get-cost-and-usage \
3  --time-period Start=2026-03-01,End=2026-06-01 \
4  --granularity MONTHLY \
5  --metrics "UnblendedCost" \
6  --filter '{"Dimensions":{"Key":"SERVICE","Values":["Amazon Elastic Container Service"]}}'
Savings Plans 跟 Fargate Spot 可以疊加：Spot task 的費用也能用 Savings Plans 折抵。先用 Savings Plans 降低基線成本，再用 Spot 降低彈性擴張的成本，兩層折扣疊起來可以把 Fargate 的實際單價壓到接近 EC2 on-demand。
Task 規格的 rightsizing
Fargate task 的 vCPU 和記憶體配置如果設得過大，多出來的資源每小時都在計費。rightsizing 的目標是讓 task 規格貼合實際使用量，但留足安全餘裕。
量測實際使用量
開啟 CloudWatch Container Insights 後，每個 task 的 CPU 和記憶體使用量會自動上報。觀察 7-14 天的 p95 值：





1# 查 ECS service 過去 7 天的 CPU p95
2aws cloudwatch get-metric-statistics \
3  --namespace ECS/ContainerInsights \
4  --metric-name CpuUtilized \
5  --dimensions Name=ServiceName,Value=api Name=ClusterName,Value=prod \
6  --start-time 2026-06-19T00:00:00Z \
7  --end-time 2026-06-26T00:00:00Z \
8  --period 3600 \
9  --statistics p95
判斷調整方向

  
      
          p95 使用率
          判斷
          動作
      
  
  
      
          CPU < 30%
          過度配置，浪費明顯
          降一級 vCPU
      
      
          CPU 30-70%
          合理範圍，有足夠餘裕應對尖峰
          維持
      
      
          CPU > 80%
          餘裕不足，尖峰時可能觸發 throttling
          升一級 vCPU 或增加 task 數
      
      
          Memory < 40%
          過度配置
          降一級 memory
      
      
          Memory > 80%
          OOM kill 風險
          升一級 memory
      
  

調整後觀察 3-5 天確認沒有效能退化再進入下一輪。每次只調一個維度（CPU 或 memory），避免同時改兩個變數無法歸因。
Fargate 可選的規格組合
Fargate 的 vCPU 和 memory 不能任意搭配。常用的組合：

  
      
          vCPU
          可選 Memory 範圍
          典型用途
      
  
  
      
          0.25
          0.5 / 1 / 2 GB
          輕量 sidecar、cron job
      
      
          0.5
          1 / 2 / 3 / 4 GB
          小型 API、worker
      
      
          1
          2 / 3 / 4 / 5 / 6 / 7 / 8 GB
          標準 API、中型 worker
      
      
          2
          4 ~ 16 GB
          高負載 API、批次處理
      
      
          4
          8 ~ 30 GB
          資料處理、ML inference
      
  

選的時候從最小的「能跑」組合開始，用 Container Insights 量測後再調。常見的浪費是把所有 task 都設成 1 vCPU / 2 GB — 一個只用 0.1 vCPU / 256 MB 的 sidecar 也配了同樣的規格。
何時從 Fargate 切到 EC2
切換的判斷不只看成本差額，還要看維運能力。EC2 launch type 需要管理：AMI 更新（安全 patch）、instance draining（rolling update 時把 task 遷走再關 instance）、capacity provider 的擴縮邏輯、instance 的 security group 與 IAM role。

  
      
          判斷維度
          留在 Fargate
          切到 EC2
      
  
  
      
          月費差額
          < $200
          > $500 且持續 3 個月
      
      
          團隊維運能力
          沒有專人管 instance
          有平台工程師或 DevOps
      
      
          流量型態
          波動大、有明顯離峰
          穩定、24/7 持續運行
      
      
          GPU 需求
          不需要
          需要（Fargate 不支援 GPU）
      
      
          啟動速度
          可接受 cold start
          需要 <1s 啟動（EC2 instance 已在線）
      
  

混合部署是常見的中間路線：基線容量用 EC2（成本低、啟動快），尖峰彈性用 Fargate Spot（按需、不需預留）。這需要同時維護兩種 capacity provider，複雜度較高。
成本監控
把 ECS 的成本歸因到服務層級需要兩個機制：task 層的 tag propagation 和 Cost Explorer 的 tag 維度。





 1resource "aws_ecs_service" "api" {
 2  # ...
 3  propagate_tags = "SERVICE"
 4
 5  tags = {
 6    service     = "payment-api"
 7    env         = "prod"
 8    cost-center = "cc-payments"
 9  }
10}
propagate_tags = "SERVICE" 讓 service 的 tag 自動傳播到每個 task，Cost Explorer 就能按 service 或 cost-center 維度拆分 Fargate 費用。這跟模組八：治理好習慣的 tagging 規範對齊 — tag 是成本可見性的地基。
定期（月初或月中）檢查 Cost Explorer 的 Fargate 費用趨勢：





1aws ce get-cost-and-usage \
2  --time-period Start=2026-06-01,End=2026-06-26 \
3  --granularity DAILY \
4  --metrics "UnblendedCost" \
5  --group-by Type=TAG,Key=service \
6  --filter '{"Dimensions":{"Key":"SERVICE","Values":["Amazon Elastic Container Service"]}}'
費用突然跳升時，先看是 task 數增加（auto-scaling 觸發）還是單價變化（Savings Plans 過期或 Spot 中斷後自動回補為 on-demand）。這兩者的處理方式不同：前者檢查 scaling policy、後者檢查 Savings Plans 到期日和 Spot 回收頻率。
跨分類引用

→ 運算平台上 IaC：ECS vs EKS 選型、Fargate 的定位
→ 模組八：治理好習慣：tagging 與成本可見性的地基
→ devops 模組八：成本管理：運行期的 RI / Spot / rightsizing 策略




NAT Gateway
Fri, 26 Jun 2026 00:00:00 +0000
NAT Gateway（Network Address Translation Gateway）的核心職責是讓 private subnet 的資源能主動發起對外連線（拉套件、呼叫第三方 API、下載 OS 更新），同時不開放任何外部主動發起的入站連線。它借用一個公網 IP 把出站封包送出去，再把回應導回原請求者。
概念位置
NAT Gateway 在網路地基裡的角色是 private subnet 的出站閘道。它解決的問題是：private subnet 的設計意圖是「外部連不進來」，但服務仍需要主動對外。沒有 NAT，private subnet 的資源完全無法對外通訊 — 連 apt update 或 pip install 都做不到。
NAT Gateway 是綁定單一可用區的資源，活在某個 public subnet 裡。這帶來一個架構取捨：共享一個 NAT（成本低、出站方向有單點）還是每個可用區各放一個（成本高、出站與 subnet 冗餘對齊）。
可觀察訊號
以下狀況指向 NAT 相關問題：

Private subnet 的服務拉不到外部套件或第三方 API 全部逾時 — 先查 route table 有沒有指向健康的 NAT
只有某一個可用區的節點受影響 — 該區的 NAT 或其所在 subnet 可能故障
雲帳單裡 NAT Gateway 的流量費用異常高 — 大量走 NAT 的流量（S3 備份、跨區同步）可用 VPC Endpoint 繞過

設計責任
使用 NAT Gateway 時要決定：

數量：每個可用區一個（可用性優先）還是全 VPC 共享一個（成本優先）。每個 NAT 固定月費約 $32 加流量費 $0.045/GB
高流量路徑：對 AWS 自家服務的流量（S3、DynamoDB）改用 Gateway Endpoint 直連，繞過 NAT 省流量費
route table 關聯：每個 private subnet 的 route table 要明確指向哪個 NAT

鄰卡

Subnet — NAT 放在 public subnet、服務放在 private subnet
VPC — NAT 屬於 VPC 內部的出站路徑設施



模組七：infra 走 PR 流程與自動化護欄
Fri, 26 Jun 2026 00:00:00 +0000
infra 變更要走跟 application code 一樣的流程：開分支、提 PR、跑檢查、review diff、合併、發布。這條原則把基礎設施變更從「某個人在自己終端機 apply」轉成「團隊可審查的紀錄」，是 IaC 真正兌現價值的地方，也是解開「只有我懂 infra」這個單點依賴的關鍵。基礎設施跟程式碼一樣會出錯、會需要回溯、會交接給別人，所以它需要同一套保護機制。
infra 變更走 code 流程
infra 變更的標準路徑是 PR → plan → review diff → 合併 → apply。這個順序的核心責任是把「執行前先看清楚要改什麼」變成強制步驟，而不是 apply 之後才從事故裡發現改錯了。每個環節各自承擔一段審查責任，少掉任一段，infra 就退回到不可審查的狀態。
terraform plan 是這條鏈裡最關鍵的一環。它把當前 state、雲端實際資源、與目標設定三方比對，產出一份「會新增 / 修改 / 刪除哪些資源」的 diff。這份 diff 是 review 的對象：reviewer 直接看 plan 算出來的實際變更，而非讀 HCL 自行想像結果。一個容易被低估的判讀訊號是 plan 裡的 destroy 與 replace（顯示為 -/+）— 改一個看似無害的欄位（例如某些雲資源的 name、或資料庫的 identifier）可能觸發整個資源重建，對有狀態的服務代表資料遺失或停機。Review 階段抓到這個 -/+，比 apply 到一半才發現便宜太多。
把 plan 結果貼回 PR 是讓 review 真正生效的做法。流程上，PR 觸發 CI 跑 plan，plan 輸出回貼成 PR comment，reviewer 連同程式碼 diff 一起看；approve 後才允許合併，合併才觸發 apply。這裡有個取捨：plan 與 apply 之間若隔了很久，雲端實際狀態可能已經漂移（有人手動改了、或別的 PR 先 apply 了），導致 apply 時的 plan 跟 review 時看到的不一致。多數團隊在 apply 階段會重跑一次 plan 並要求它與 review 時一致，代價是流程多一道、但換到「review 看到的就是實際執行的」這個保證。
風險邊界落在 apply 失敗的回退上。infra apply 不像程式碼部署可以直接 rollback 到上一版 image — 中途失敗時部分資源已經建立、state 可能處於半完成狀態。所以 PR 流程的價值不只在事前審查，也在事後可追溯：每次變更都對應一個 commit 與一個 PR，要回溯時知道是哪次改的、為什麼改、誰 review 的。
fmt 與 validate：最便宜的第一道檢查
fmt 與 validate 是進到任何安全掃描之前的基礎檢查，責任是擋掉格式不一致與語法 / 型別錯誤這類不需要動腦判斷的問題。它們跑得快、沒有誤判空間，適合放在 CI 最前面當作快速 fail 的關卡。
terraform fmt -check 驗證程式碼是否符合標準排版。它本身不影響基礎設施行為，價值在於消除 diff 噪音：當每個人的編輯器縮排習慣不同，PR diff 會混入大量純排版變動，把真正的邏輯變更淹沒，reviewer 更容易看漏。統一格式後，diff 裡剩下的就是語意變更。validate 則檢查設定在語法與內部一致性上是否成立 — reference 到不存在的變數、型別不匹配、必填參數缺漏，這些在 validate 階段就會報錯，不必等到 plan 連線雲端才發現。
判讀上，fmt 與 validate 失敗代表的是「這份 code 還沒準備好被認真 review」，屬於作者自己該先修掉的問題，不該佔用 reviewer 注意力。把它們設成 CI 必過的 gate，作者在本地就會先跑、先修，PR 送出時已經是乾淨的。





 1# .github/workflows/terraform.yml — plan 前的基礎檢查
 2jobs:
 3  validate:
 4    runs-on: ubuntu-latest
 5    steps:
 6      - uses: actions/checkout@v4
 7      - uses: hashicorp/setup-terraform@v3
 8      - run: terraform fmt -check -recursive
 9      - run: terraform init -backend=false
10      - run: terraform validate
tflint / checkov / tfsec：抓壞寫法與安全漏洞
fmt 與 validate 確認 code「語法正確」，但語法正確的設定仍然可能是危險的設定。tflint、checkov、tfsec 這類靜態掃描工具承擔的是「語意正確」這層：在不實際建立資源的前提下，從 HCL 裡比對已知的壞寫法與安全反模式，把問題擋在 plan 之前。它們補的是 reviewer 肉眼容易漏掉的盲區 — 人會看漏一個 0.0.0.0/0，規則不會。
這三者的側重不同，組合起來覆蓋面才完整。tflint 偏向 provider 層的正確性與慣例規範：用了已棄用的參數、instance type 在該 region 不存在、命名不符規範。checkov 與 tfsec 偏向安全與合規：掃的是會造成資料外洩或權限過大的設定。兩個最常被它們攔下、也最常釀成真實事故的模式，值得單獨說明。
第一個是 S3 bucket 對外公開。一個漏設 block_public_access 或 ACL 寫成 public-read 的 bucket，會讓裡面的物件對整個網際網路可讀。這類設定在 HCL 裡只是一兩行，肉眼 review 時很容易因為「看起來像樣板」而放過，但後果是資料外洩。checkov 有專門規則比對 bucket 的 public access 設定，命中就讓 CI fail，逼作者在合併前說明或修正。
第二個是 security group 對全世界開放。一條 ingress 寫成 cidr_blocks = ["0.0.0.0/0"] 加上 port 22 或 3306，等於把 SSH 或資料庫埠暴露給全網掃描器。tfsec 與 checkov 都會標記這種「敏感埠 + 全開 CIDR」的組合。這條規則跟模組三：網路地基講的 security group 收斂原則是同一件事的兩端 — 模組三教怎麼把規則寫對，本章用靜態掃描確保寫錯時擋得下來。





1# 三道掃描串在一起，任一 fail 就中斷
2tflint --recursive
3checkov -d . --quiet --compact
4tfsec . --soft-fail=false
判讀這些工具的命中時，要區分「真漏洞」與「情境合理的例外」。並非每個 0.0.0.0/0 都是錯 — 一個對外的 HTTPS load balancer 在 port 443 開全網是設計本意。所以這些掃描的命中是候選不是判決：多數工具支援用行內註解標記豁免（例如 checkov 的 #checkov:skip），代價是豁免要寫理由、要被 review，避免變成無聲略過。把例外顯式化、留下為什麼豁免的紀錄，比關掉整條規則安全。
Atlantis 與 GitHub Actions：自動化 plan 與 apply
把上述流程自動化，需要一個能監聽 PR 事件、在對的時機跑 plan 與 apply 的執行層。兩種常見做法是直接用 CI 平台（如 GitHub Actions）寫 workflow，或用 Atlantis 這類專為 Terraform PR 流程設計的工具。Atlantis 是一個常駐服務，掛在 git 平台的 webhook 上：PR 開啟時它自動跑 plan 並把結果貼回 PR comment，reviewer approve 後在 PR 留言 atlantis apply，它才執行 apply 並回報結果。它的價值在於把「誰能 apply、apply 前要不要 approve、plan 結果在哪看」這些規則收斂成一致的、可設定的流程，而不是散落在各 repo 各自的 workflow 腳本裡。
選哪一種是機會成本的取捨。GitHub Actions workflow 的優點是不必額外維運一個服務、跟既有 CI 共用同一套權限與 runner；缺點是 apply 的 gating 邏輯（approve 後才能 apply、apply lock 避免兩個 PR 同時改同一份 state）要自己用 workflow 條件拼出來。Atlantis 的優點是這些 gating 與 state lock 是內建語意、跨多 repo 一致；缺點是它本身是一個要部署、要升級、要保護的常駐服務。團隊 repo 少、流程簡單時 Actions 划算；管理大量 Terraform repo、需要統一 apply 治理時 Atlantis 划算。
無論哪種執行層，自動化的 apply 都需要對雲端的寫入權限，而這個權限怎麼來是整條管線的安全根基。這裡正是模組二：身分與憑證地基鋪設的 OIDC 兌現的地方 — 管線不該存放長期的 access key，而是在 runner 執行時用 OIDC 向雲端換取短期 token。模組二講的是怎麼建立這個信任關係，本章是它的回報處：因為有了 OIDC，自動 apply 才能在不持有靜態憑證的前提下安全執行，憑證外洩的攻擊面從「一把長期金鑰」縮到「單次執行的短期 token」。





 1# 合併到主幹後，用 OIDC 換短期憑證再 apply（呼應模組二）
 2jobs:
 3  apply:
 4    if: github.ref == 'refs/heads/main'
 5    runs-on: ubuntu-latest
 6    permissions:
 7      id-token: write   # 允許 runner 取得 OIDC token
 8      contents: read
 9    steps:
10      - uses: actions/checkout@v4
11      - uses: aws-actions/configure-aws-credentials@v4
12        with:
13          role-to-assume: arn:aws:iam::123456789012:role/infra-apply
14          aws-region: ap-northeast-1
15      - uses: hashicorp/setup-terraform@v3
16      - run: terraform init
17      - run: terraform apply -auto-approve
判讀自動 apply 的邊界時，要留意它不適合所有變更。對會觸發資源重建或刪除的高風險 plan，多數團隊會保留人工 apply 的關卡（Atlantis 的手動 atlantis apply、或 workflow 加 environment protection rule 要人按確認），不讓這類變更在合併瞬間無人看管地執行。自動化的目的是消除重複勞動與人為遺漏，不是把判斷也一起省掉。
知識留在 code，而不是留在個人腦中
走完整套 PR 流程後，infra 的真正收穫是知識從個人的記憶移到了 repo 裡。每一次「為什麼這個 security group 開這個埠」「為什麼這台機器選這個 instance type」的決策，都以 code + PR 描述 + review 討論的形式留下，新人讀 repo 就能還原當初的判斷，不必去問那個「只有他懂 infra」的人。這是這個模組從第一章開始累積的目的地：基礎設施可被閱讀，等於它可被交接。
可 revert 是這套機制最直接的兌現。當某次變更引發問題，回退手段是 git revert 那個 commit 再走一次 PR 流程，讓基礎設施回到變更前的設定 — 跟回退一段壞掉的程式碼是同一個動作。對照「只有我懂 infra」的舊狀態：那時候回退靠的是當事人記得自己改了什麼、手動在 console 改回去，記錯或人不在就無從回退。把變更歷史留在 git，回退就從「依賴某人的記憶」變成「依賴版本紀錄」。
這份 revert 能力的邊界要講清楚，跟本章前面講的 apply 半完成 state 是同一個誠實。revert code 救得回的是「設定」，救不回已經被銷毀的狀態與資料：revert 掉一個刪除 stateful 資源的 commit，只是讓設定回到「該資源存在」，但被刪掉的資料庫內容不會跟著回來；rename 或 replace 類的變更 revert 後，可能再觸發一次資源重建。所以 stateful 變更的真正回退仍然靠備份與快照，這正是模組五 stateful 處理與模組八 secret / state 保護要顧的事。把 git revert 當「設定層回退」就誠實，把它當「資料層回退」就會在事故裡踩空。
這條知識共享的路線會在模組九：怎麼把 infra 推動起來展開到組織層。本章解決的是技術機制 — code 留得住知識；模組九解決的是怎麼讓一個習慣手動操作的團隊真的願意走這套流程、把知識交出來。技術上能審查、能回溯、能交接是前提，但讓團隊實際採用它是另一層問題。
判讀一個團隊是否真的把知識留在 code 的訊號很具體：當主要負責 infra 的人請假，其他人能不能只靠讀 repo 就理解現狀並安全地改一個小設定。如果答案是「得等他回來」，那不論工具鏈多完整，知識還在個人腦中，PR 流程只是形式。這個訊號比任何工具設定都更能反映 infra 的成熟度。
章節文章

  
      
          文章
          主題
      
  
  
      
          infra 走 PR 流程與自動化護欄
          PR → plan → review diff → 合併 → apply，配 fmt / validate / tflint / checkov / tfsec 與 Atlantis 自動化，讓基礎設施可審查、可回溯、可交接
      
      
          Terraform CI Pipeline 設定指南
          GitHub Actions 完整 workflow（fmt → validate → tflint → plan → PR comment → apply）、OIDC credential、環境保護規則
      
      
          checkov 與 tfsec 規則配置
          三階段漸進啟用、規則選擇策略、inline vs 集中式豁免管理、自訂規則、false positive 處理
      
  

跨分類引用

→ CI/CD 教學：infra 管線用的就是這套驗證 / 發布 gate，plan / apply 對應 build / deploy 階段
→ 模組二：身分與憑證地基：管線用 OIDC 取得 apply 權限，本章是該章 OIDC 設計的回報兌現處
→ 模組三：網路地基：security group 收斂原則，本章用 tfsec / checkov 在 CI 攔下寫錯的全開規則
→ 模組九：怎麼把 infra 推動起來：本章把知識留在 code 的技術機制，在該章展開成組織層的採用與知識共享
→ backend 模組七：資安與資料保護：S3 公開、敏感埠全開這類掃描攔截的反模式，對應的資料保護原則




斷網環境的套件與容器映像 Registry
Fri, 26 Jun 2026 00:00:00 +0000
連網環境的套件安裝和映像拉取，背後都有一個公開的 registry 在服務：apt 走 archive.ubuntu.com、npm 走 registry.npmjs.org、Docker 走 Docker Hub。斷網環境裡這些 endpoint 全部不可達，每一條 apt install、npm install、pip install、docker pull 都會失敗。替代做法是在內網部署自己的 registry，把需要的套件和映像從外部下載、經過安全審查後搬進來。
本篇涵蓋兩個 registry 的部署與操作：Nexus Repository（多格式套件）和 Harbor（容器映像）。兩者可以獨立運作，也可以搭配使用——Nexus 管套件依賴、Harbor 管容器映像，各自負責不同的 artifact 類型。
Nexus Repository：統一的離線套件 proxy
Nexus Repository OSS（開源版）支援 apt、yum、npm、PyPI、Maven、NuGet、Go modules 等多種格式，用一個實例取代多個獨立的離線 repo mirror。部署在內網後，所有開發機器和 CI runner 把套件 source 指向 Nexus。
部署
Nexus 本身是一個 Java 應用，用 Docker 部署最簡單。映像需要事先從外部搬進來：





1# 外部機器下載映像
2docker pull sonatype/nexus3:latest
3docker save sonatype/nexus3:latest -o nexus3.tar
4
5# 搬運到內網後載入
6docker load -i nexus3.tar
7docker run -d -p 8081:8081 --name nexus \
8  -v nexus-data:/nexus-data \
9  sonatype/nexus3:latest
初始管理員密碼在容器內 /nexus-data/admin.password，首次登入後強制修改。
Hosted repo 模式
連網環境的 Nexus 通常用 proxy repo（代理公開 registry、快取下載過的套件）。斷網環境 proxy 模式無法運作，改用 hosted repo——手動上傳套件到 Nexus，Nexus 作為唯一的分發來源。
以 npm 為例，workflow 是在外部機器打包、搬運、上傳：





 1# 外部機器：打包專案的所有依賴
 2npm pack --pack-destination ./npm-packages/
 3# 或用 npm-offline-packager 批次下載整棵依賴樹
 4npx npm-offline-packager --package ./package.json --output ./npm-packages/
 5
 6# 搬運到內網後上傳到 Nexus
 7for pkg in ./npm-packages/*.tgz; do
 8  curl -u admin:password \
 9    --upload-file "$pkg" \
10    "http://nexus.internal:8081/repository/npm-hosted/"
11done
apt 和 yum 的做法類似：外部機器用 apt-get download 或 yumdownloader 抓 .deb / .rpm 檔案，搬進來後上傳到 Nexus 的 hosted repo。
客戶端設定
開發機器和 CI runner 的套件 source 指向 Nexus：





1# npm
2npm config set registry http://nexus.internal:8081/repository/npm-hosted/
3
4# pip
5pip install --index-url http://nexus.internal:8081/repository/pypi-hosted/simple/ package-name
6
7# apt（在 /etc/apt/sources.list.d/ 加一份）
8deb http://nexus.internal:8081/repository/apt-hosted/ focal main
Harbor：容器映像的 private registry
Harbor 是 CNCF 畢業專案的企業級容器 registry，支援映像簽章、漏洞掃描（Trivy）、存取控制、映像複製。在斷網環境裡它是 Docker Hub 和 ECR 的替代品。
部署
Harbor 用 Docker Compose 部署。安裝包需要從外部下載後搬進來：





 1# 外部機器下載離線安裝包
 2wget https://github.com/goharbor/harbor/releases/download/v2.11.0/harbor-offline-installer-v2.11.0.tgz
 3
 4# 搬運到內網後解壓
 5tar xzf harbor-offline-installer-v2.11.0.tgz
 6cd harbor
 7
 8# 複製並編輯設定
 9cp harbor.yml.tmpl harbor.yml
10# 修改 hostname、storage 路徑、HTTPS 憑證（內部 CA 簽發）
11
12# 安裝
13./install.sh --with-trivy
--with-trivy 啟用內建的漏洞掃描。Trivy 的漏洞資料庫需要離線更新——從外部下載 DB 檔案、搬進來放到指定路徑。
專案與存取控制
Harbor 用「專案」（project）組織映像。每個專案可以設定獨立的存取控制：

library：公開專案、所有使用者可 pull
platform：平台團隊專用、限定成員可 push
vendor：第三方 base image、由 infra 團隊管理更新

robot account 提供 CI/CD 用的非互動式認證（限定 pull / push 權限、可設定到期時間）。
映像搬運 SOP
映像從外部搬進斷網環境是一個需要標準化的操作，涉及格式、大小、多架構支援：
搬運工具比較

  
      
          工具
          優點
          限制
      
  
  
      
          docker save/load
          最直覺、不需要額外安裝
          只能處理本地已 pull 的映像、不支援跨 registry 直接搬
      
      
          skopeo copy
          不需要 Docker daemon、支援跨 registry、支援 manifest list
          需要安裝 skopeo
      
      
          crane
          輕量 CLI、支援 manifest 操作
          功能比 skopeo 少
      
  

skopeo 的操作流程：





1# 外部機器：從 Docker Hub 複製到本地目錄
2skopeo copy docker://nginx:1.25-alpine dir:./images/nginx-1.25-alpine
3
4# 搬運到內網後：從本地目錄推到 Harbor
5skopeo copy dir:./images/nginx-1.25-alpine \
6  docker://harbor.internal/library/nginx:1.25-alpine \
7  --dest-tls-verify=false  # 如果 Harbor 用內部 CA
多架構映像
如果環境同時有 amd64 和 arm64 的機器，搬運時要帶整個 manifest list：





1# 外部：複製所有架構
2skopeo copy --all docker://nginx:1.25-alpine \
3  dir:./images/nginx-1.25-alpine-multiarch
4
5# 內網：推送所有架構
6skopeo copy --all dir:./images/nginx-1.25-alpine-multiarch \
7  docker://harbor.internal/library/nginx:1.25-alpine
--all flag 確保 manifest list 裡的每個架構都被複製，而非只複製本機架構。
套件與映像的更新週期
斷網環境的套件和映像不會自動更新——每一次更新都是一次有意識的搬運操作。更新週期的頻率由安全需求決定：

  
      
          安全等級
          更新頻率
          適用場景
      
  
  
      
          一般
          每月一次
          開發工具、非直接面對外部的服務
      
      
          中等
          每兩週
          有外部接口的服務、包含網路元件
      
      
          高
          每週或 CVE 驅動
          安全敏感環境、合規要求
      
  

每次更新的標準流程：

外部機器下載：按清單下載指定版本的套件和映像
安全掃描：在外部（或 staging gateway）跑 Trivy / Snyk 掃描，確認沒有已知的高風險 CVE
審查核准：掃描報告給安全團隊或負責人簽核
搬運：核准的 artifact 寫入唯讀媒體或加密通道搬進內網
上傳到 registry：推到 Nexus 和 Harbor
通知團隊：哪些套件/映像有新版本可用

這個流程的產出是一份更新清單（什麼版本、掃描結果、核准人），存進版控作為稽核紀錄。
Helm chart 離線管理
Kubernetes 環境用 Helm 部署應用。斷網時 Helm chart 需要離線管理：





1# 外部機器：下載 chart
2helm repo add bitnami https://charts.bitnami.com/bitnami
3helm pull bitnami/postgresql --version 15.5.0
4
5# 搬運到內網後有兩個存放選項
選項一：Harbor 內建 chart 支援。Harbor 2.0+ 支援 OCI artifact，Helm chart 可以直接推到 Harbor：





1helm push postgresql-15.5.0.tgz oci://harbor.internal/charts
選項二：ChartMuseum。獨立的 chart repository server：





1# 上傳 chart
2curl --data-binary "@postgresql-15.5.0.tgz" \
3  http://chartmuseum.internal:8080/api/charts
Harbor 的 OCI 方式較簡單（不需要額外維護 ChartMuseum），但需要 Helm 3.8+ 的 OCI 支援。
時程與管理層溝通

  
      
          項目
          初次部署時間
          持續維護
      
  
  
      
          Nexus Repository
          1 天（部署 + 初始套件上傳）
          每次更新週期 2-4 小時
      
      
          Harbor
          1 天（部署 + 初始映像搬運）
          每次更新週期 2-4 小時
      
      
          搬運 SOP 建立
          半天（腳本化 + 文件）
          每次執行 1-2 小時
      
      
          Trivy 離線 DB 更新
          含在 Harbor 部署內
          每次更新週期 30 分鐘
      
  

管理層需要知道的成本：registry 的維護不是一次性投入，每個更新週期都需要工程師時間執行搬運和掃描。這筆成本在連網環境裡由公開 registry 和自動更新吸收，斷網環境裡由團隊承擔。
跨分類引用

→ 斷網環境的通用原則：content ferry pattern 和安全審查流程
→ 斷網環境的容器與映像管理：映像搬運的更完整討論（本篇聚焦 registry 部署、該篇聚焦映像生命週期）
→ 斷網環境的 IaC：Terraform provider 也需要離線 mirror、可用 Nexus 的 raw hosted repo 存放




OIDC 聯合
Fri, 26 Jun 2026 00:00:00 +0000
OIDC（OpenID Connect）聯合的核心職責是讓跑在雲外的 CI/CD 平台（GitHub Actions、GitLab CI）用每次執行才簽發、幾分鐘後就失效的短期憑證存取雲端資源，從根本上消除「在 CI 環境裡存放長期 access key」這個攻擊面。
概念位置
OIDC 聯合在身分與憑證地基裡的角色是「雲外機器身分的認證機制」。跑在雲上的 workload（EC2、ECS task）可以用平台原生的 instance profile 或 task role 取得短期憑證；跑在雲外的 CI/CD 沒有這個管道，OIDC 就是替代方案。
運作方式是建立信任關係：雲端帳號信任某個外部 identity provider（如 GitHub Actions 的 OIDC issuer），CI 執行時平台簽發一個帶 claim 的 token（描述哪個 repo、哪個 branch、哪個 workflow），雲端用這個 token 換出一段臨時憑證。
可觀察訊號
以下狀況指向 OIDC 相關問題：

CI pipeline 裡有 AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY 環境變數 — 這是長期 key，應該替換成 OIDC
Trust policy 只驗 issuer 不驗 repo — 任何掛在同一個 CI 平台的專案都能假扮這個 role
Pipeline 突然無法取得權限 — 可能是 trust policy 的 condition 跟 token claim 不匹配（常見於 repo 改名或 branch 改名後）

設計責任
設定 OIDC 聯合時要決定：

Trust policy 的 claim 收斂：限定 issuer + audience + 特定 repo + 特定 branch，每個條件都收到最緊
Role 的權限範圍：OIDC 換到的 role 仍然要遵循最小權限 — 只給 pipeline 需要的 action
Plan 與 apply 分開的 role：plan 只需要 read 權限、apply 需要 write 權限，用兩個 role 降低 PR 階段的風險

鄰卡

IAM — OIDC 是 IAM 身分系統的一種外部身分來源
Security Group — OIDC 解的是身分層的認證問題，跟網路層的 security group 正交



模組八：治理好習慣 — 規模長大後不失控的最小節奏
Fri, 26 Jun 2026 00:00:00 +0000
每一個治理習慣單獨看都很小：在資源上多打三個 tag、把一段連線字串挪去別的地方、給帳單欄位填個用途。但少了這些習慣，半年後的代價是另一個量級 — 翻著一頁兩百筆沒有歸屬的資源猜哪個能砍、為了輪替一把外洩的密鑰回頭 grep 整個 repo、對著一張看不出誰花的雲帳單開跨部門會議。這一章談的就是這組「現在花幾分鐘、未來省幾天」的最小節奏。
治理習慣的責任是讓基礎設施在規模長大後仍然可被盤點、可被追責、可被回收。資源數量從幾十個長到幾百個時，「這是誰的、為什麼存在、花了多少」這三個問題若沒有預先在資源上留下答案，就只能靠人腦記憶與口頭考古，而記憶會隨著人員流動蒸發。
先界定這一章的邊界。身分與憑證本身怎麼設計 — IAM role、OIDC、最小權限 — 是模組二「身分與憑證地基」的範圍，這一章只談 secret 的儲存與引用：機密值放在哪、IaC 怎麼安全地指到它。成本這一塊也分兩層：把資源歸屬到擁有者與用途的地基（tagging、chargeback 的依據）在這一章，運行期怎麼用 reserved instance、spot、rightsizing 去壓低帳單，是 devops 模組八：成本管理 的範圍。
Tagging 規範：查帳與清資源的依據
Tag 是貼在每個資源上的結構化標籤，承擔「讓資源能被機器查詢與分群」的責任。沒有 tag 的資源在 console 裡只剩一個隨機後綴的名字，人能勉強認得幾個，但一旦數量過百，任何「列出所有 staging 的資源」「算出 team-a 這個月花多少」的問題都無法用查詢回答，只能逐筆翻。Tag 把這些問題從人工考古變成一行 filter。
值得從第一天就強制的最小 tag 集合是三個維度，各自回答一個治理問題：

  
      
          Tag
          回答的問題
          典型值
          缺了會怎樣
      
  
  
      
          env
          這是哪個環境
          prod / staging / dev
          清資源時不敢動、怕誤刪生產
      
      
          owner
          出事找誰
          team-payments / platform
          資源孤兒化、沒人認領也沒人敢回收
      
      
          cost-center
          這筆錢算誰的
          cc-1024 / growth
          帳單無法拆分、成本變成一筆沒人負責的公共支出
      
  

env 是清資源時的安全護欄。回收動作最大的恐懼是誤刪生產資源，當每個資源都標了 env，「列出所有 env=dev 且 30 天無流量的資源」就是一條可以放心執行的清理查詢，而 env=prod 的資源自動被排除在批次刪除之外。沒有這個 tag，任何自動化清理都因為怕誤傷而不敢落地，最後退回人工逐筆確認，於是根本沒人去清。
owner 解決資源孤兒化。服務出狀況、或是看到一個用途不明的資源時，第一個問題是「這誰的」。標了 owner，告警可以自動路由、清理前可以自動通知認領；沒標，這個資源就停在「沒人敢動、因為不知道砍了會不會弄壞什麼」的狀態，永久占用配額與費用。團隊命名比個人名好 — 人會離職，團隊邊界相對穩定。
cost-center 是成本歸屬的地基，下一節展開。
關鍵在於 tag 必須在資源建立時就由 IaC 寫進去，而不是事後補。Terraform 的 default_tags 讓一個 provider 區塊內的所有資源自動繼承一組 tag，避免逐個資源手動標、也避免漏標：





 1provider "aws" {
 2  region = "ap-northeast-1"
 3
 4  default_tags {
 5    tags = {
 6      env         = "staging"
 7      owner       = "team-payments"
 8      cost-center = "cc-1024"
 9      managed-by  = "terraform"
10    }
11  }
12}
事後補 tag 是個會無限拖延的工作，因為它不影響任何功能、沒有 deadline、永遠排在 backlog 最後。判讀訊號很簡單：定期跑一條「列出缺少必填 tag 的資源」的查詢，數字若持續成長，代表有人繞過 IaC 手動開資源 — 這既是 tag 問題，也是模組一「Console 唯讀」紀律鬆動的徵兆。可以用 AWS 的 tag policy 或 OPA 這類策略引擎把「缺 tag 的資源」擋在 PR 階段，讓規範變成自動護欄而不是靠人自律。
Secrets 不進 code：機密值的儲存與引用
機密值 — 資料庫密碼、第三方 API key、簽章用的私鑰 — 要存在專用的密鑰管理服務裡，而 code 與 IaC 只持有指向它的參照，不持有值本身。這條規則承擔的責任是把「機密外洩的爆炸半徑」與「程式碼的散布範圍」脫鉤：一旦密碼寫進 repo，它就跟著每一次 clone、每一份 CI 快取、每一個 fork 擴散，輪替時無法保證所有副本都更新，git 歷史更是會把它永久留存，即使後來刪掉那一行。
密鑰管理服務 — AWS Secrets Manager、SSM Parameter Store、HashiCorp Vault、GCP Secret Manager — 提供的是一個有存取控制、有審計紀錄、可輪替的集中儲存。值放在這裡，誰讀過、什麼時候讀的都有 log，輪替時只改一個地方，所有引用方下次讀取就拿到新值。
關鍵在 IaC 怎麼引用。IaC 應該存的是密鑰的 ARN（或等價的資源識別碼）與「在執行期去讀它」的指令，而不是密鑰的明文。下面這段把 RDS 密碼從 Secrets Manager 引用進來，state 與 plan 裡出現的是 secret 的 reference，不是密碼字串：





 1data "aws_secretsmanager_secret" "db" {
 2  name = "prod/payments/db-password"
 3}
 4
 5data "aws_secretsmanager_secret_version" "db" {
 6  secret_id = data.aws_secretsmanager_secret.db.id
 7}
 8
 9resource "aws_db_instance" "payments" {
10  # 引用 secret 的值、但這個值不是寫在 code 裡
11  password = data.aws_secretsmanager_secret_version.db.secret_string
12  # ...
13}
這裡有一個常被忽略的邊界：Terraform 即使從 Secrets Manager 讀值，那個值仍然會以明文落進 state file。所以「不進 code」只是第一道，state 後端的加密與存取控制（模組一的 state 地基）是同等重要的第二道 — 否則密鑰只是從 repo 搬到了一個沒鎖好的 state bucket。判讀訊號：定期用 secret 掃描工具（gitleaks、trufflehog）掃 repo 與 CI log，任何命中都當成需要輪替的外洩事件處理，而不是刪掉那行就算了，因為 git 歷史與既有 clone 已經保不住了。
機密的命名也值得約定。用 env/service/purpose 這類有結構的路徑（如 prod/payments/db-password），讓存取策略可以用前綴授權 — 給某個 service 的 role 只能讀 prod/payments/*，自然落實最小權限。誰能讀哪些 secret 的權限設計屬於模組二，更完整的密鑰生命週期、輪替策略與資料保護在 backend 模組七：資安與資料保護。
成本可見性：每筆花費都對得到擁有者與用途
成本可見性的目標是讓帳單上的每一筆花費都能回答「這是誰的、為了什麼」。雲帳單預設是一筆按服務類型加總的數字 — EC2 多少、RDS 多少 — 這個視角能告訴你花在哪類資源，卻答不出花在哪個團隊、哪個產品線、哪個功能。當這個問題答不出來，成本就變成一筆沒人負責的公共支出，沒有人有動機去優化自己看不到的帳。
把成本拆解到擁有者的地基，正是前面的 tagging。雲廠商的成本分攤工具（AWS Cost Explorer、Cost Allocation Tags、GCP 的 billing label）能用 tag 當分群維度，前提是那些 tag 要先在 billing 後台啟用為「成本分攤標籤」。啟用後，cost-center 和 owner 就從單純的標籤升級成帳單的可查詢維度，於是「team-payments 這個月花多少」「staging 環境占總成本幾成」變成一張報表而不是一場會議。
可見性先於優化，這個順序不能反。看不見的成本無法被歸屬，無法歸屬就無法問責，沒有問責就沒有人去做優化。所以這一章把地基鋪好 — 資源有 tag、tag 進了 billing 維度、報表能拆到團隊 — 之後運行期那些真正省錢的手段才有施力點。判讀訊號：設一條成本異常告警（如日均花費超過基線某個百分比就通知），當告警觸發時，因為有 tag，你能立刻定位是哪個團隊的哪類資源在漲，而不是面對一個總數乾瞪眼。
到了「知道誰花多少、接下來怎麼省」這一步 — reserved instance 的承諾折扣、spot 的可中斷算力、閒置資源的 rightsizing 與排程關機 — 就進入 devops 模組八：成本管理 的運行期優化範圍。這一章負責的是讓那些優化「有帳可查、有人可問」。
最小可行節奏：先把地基跑起來，再逐步加
治理的最小可行節奏，是早期只立「拔掉就會痛、補起來很貴」的那幾條規範，其餘留到規模逼出需求時再加。治理機制本身有維護成本 — 每一條策略規則、每一個審批關卡、每一套標籤分類法都要有人維護、有人解釋、有人在它擋錯東西時來救。在團隊還小、資源還少時堆滿企業級治理框架，付出的是當下的速度，換來的是一套還用不到的複雜度。
判斷一條治理規範該不該現在就立，看它的「補救成本曲線」。有些規範越晚補越貴，因為它要改的是既有資源的既成事實：

Tagging：越晚補越貴。幾百個沒 tag 的資源要回頭逐個考古歸屬，而當初建立時順手標只要幾秒。屬於 day-1 該立。
Secrets 不進 code：幾乎無法事後補救。一旦密鑰進了 git 歷史就回不去，只能輪替所有外洩的密鑰。屬於 day-1 鐵律。
成本分攤維度：依賴 tagging，tag 立了它就近乎免費啟用。地基屬於早期，細緻的 chargeback 報表可以晚點做。
細緻的審批流程 / 多層級策略引擎：補救成本低、可以隨時加。早期硬上反而拖慢交付。屬於規模逼出需求再做。

這個曲線給出的節奏是：補救成本陡的（tagging、secrets）從第一天就用 IaC 強制進去，因為它們事後補的代價是逐筆考古或全面輪替；補救成本平的（複雜審批、精細策略）等到痛點真的出現 — 開始有人手滑誤刪、開始有跨團隊的權限爭議 — 再有針對性地加，那時你也才知道該往哪個方向加。
這個節奏跟模組零的成熟度階梯是同一套思路：基礎設施的治理跟基礎設施本身一樣，是逐級長出來的，不是一次到位設計完的。過度設計的治理框架跟過度設計的架構一樣，會在還沒帶來價值之前就先收走團隊的速度。把規範變成自動護欄的工程（PR 階段擋缺 tag、CI 掃 secret）值得早投入，因為自動化的護欄維護成本低、且越早接管越省人力 — 這部分怎麼落地在 infra 模組七：infra 走 PR 流程 展開。
章節文章

  
      
          文章
          主題
      
  
  
      
          Tagging 規範與 Secrets 不進 code
          tag 讓資源可盤點可歸屬；密鑰存在專用服務裡而非 code 或 state，兩者都屬於 day-1 治理地基
      
      
          成本可見性與最小可行治理節奏
          用 tag 驅動的成本分攤讓帳單有人負責，以及判斷什麼治理該 day-1 就立、什麼等規模逼出來再加
      
      
          職務交接與存取撤銷設計
          人員異動時的存取撤銷清單、credential rotation、IaC 降低交接成本、最小交接清單與結構性設計
      
  

跨分類引用

→ backend 模組七：資安與資料保護：secret 管理的更完整討論
→ devops 模組八：成本管理：運行期的成本控制




斷網環境的基礎服務：DNS、NTP、CA 與 Secret Management
Fri, 26 Jun 2026 00:00:00 +0000
斷網環境裡的 GitLab、Harbor、Prometheus、Nexus 都有一個共同前提：它們需要名稱解析（DNS）才能互相找到、需要時間同步（NTP）才能讓 log 和憑證有效、需要 TLS 憑證（CA）才能走 HTTPS、需要機密儲存（Vault）才能安全管理密碼和 token。這四個是「服務的服務」——沒有它們，其他自建服務要麼無法啟動、要麼只能用不安全的 HTTP 明文通訊。
Internal DNS：內部名稱解析
斷網環境沒有公開 DNS 可用。內部服務之間的互相引用（GitLab 連 PostgreSQL、Harbor 連 storage backend）如果靠 IP 位址，每次 IP 變動都要改一輪設定。內部 DNS 讓服務用 hostname（gitlab.internal、harbor.internal）互相引用，IP 變動只改 DNS zone 一處。
CoreDNS vs BIND

  
      
          面向
          CoreDNS
          BIND
      
  
  
      
          設定方式
          Corefile（宣告式、短）
          named.conf（傳統、長）
      
      
          部署方式
          單一 binary / container
          系統套件
      
      
          適合情境
          Kubernetes 原生整合、輕量
          複雜 DNS 需求（split-horizon、DNSSEC）
      
      
          學習曲線
          低
          中高
      
  

多數斷網環境用 CoreDNS 就夠——zone 檔案放在磁碟上、Corefile 幾行就能啟動。
最小設定





 1# Corefile
 2internal:53 {
 3    file /etc/coredns/zones/internal.zone
 4    log
 5    errors
 6}
 7
 8.:53 {
 9    forward . /dev/null
10    log
11}
第一個 block 處理 internal 域名的查詢、從 zone 檔案回應。第二個 block 攔截所有其他查詢——斷網環境不能轉發到上游 DNS，forward . /dev/null 讓非內部域名直接返回 NXDOMAIN 而非 timeout。





 1; /etc/coredns/zones/internal.zone
 2$ORIGIN internal.
 3@       IN SOA  ns1.internal. admin.internal. (
 4        2026062601 ; serial
 5        3600       ; refresh
 6        600        ; retry
 7        86400      ; expire
 8        60         ; minimum
 9)
10        IN NS   ns1.internal.
11ns1     IN A    10.0.1.10
12gitlab  IN A    10.0.1.20
13harbor  IN A    10.0.1.21
14vault   IN A    10.0.1.22
15nexus   IN A    10.0.1.23
16prom    IN A    10.0.1.24
17grafana IN A    10.0.1.25
18ntp     IN A    10.0.1.11
新增服務時加一行 A record、重載 CoreDNS（kill -SIGUSR1 $(pidof coredns) 或重啟 container）。serial 號遞增讓變更可追蹤。
客戶端設定
每台機器的 /etc/resolv.conf 指向 CoreDNS 的 IP：





1nameserver 10.0.1.10
2search internal
如果環境有 DHCP server，在 DHCP option 裡配 DNS server 位址，新加入的機器自動取得。沒有 DHCP 就靠 provisioning 腳本或 Ansible playbook 推送。
NTP：內部時間同步
時間不同步在斷網環境會引發三類問題：log 的時間戳錯亂讓事故排查無法跨機器對齊、TLS 憑證的有效期判斷出錯導致合法憑證被拒絕、以及 Kerberos 等時間敏感的認證協定直接失敗。正常環境從 pool.ntp.org 取得時間，斷網環境需要自己的時間源。
chrony 作為 NTP server
chrony 比傳統的 ntpd 更適合網路不穩或隔離的環境——它的時鐘修正演算法在長時間無外部時間源時仍能保持較準確的漂移補償。





1# /etc/chrony.conf（NTP server 端）
2# 斷網環境：沒有上游 NTP、用本機時鐘作為最後手段
3local stratum 10
4allow 10.0.0.0/8
5driftfile /var/lib/chrony/drift
local stratum 10 宣告「我自己是時間源、但 stratum 很低（精度不高）」。其他機器的 chrony 設定指向這台 server：





1# /etc/chrony.conf（客戶端）
2server ntp.internal iburst
3makestep 1.0 3
iburst 讓開機時快速同步、makestep 1.0 3 允許前三次校正時跳大步（修正啟動時的大偏差）。
高精度需求
如果環境對時間精度有要求（金融交易、工控系統），NTP server 需要硬體時間源——GPS 接收器或原子鐘模組。GPS 天線不需要網路連線、只需要看得到衛星的位置（屋頂或窗邊）。chrony 支援 PPS（Pulse Per Second）輸入、可以達到微秒級精度。
多數斷網環境不需要這個精度——毫秒級一致（chrony 預設行為）對 log 對齊和 TLS 驗證已經足夠。
Internal CA：內部憑證簽發
斷網環境的每個內部 HTTPS 服務都需要 TLS 憑證。Let’s Encrypt 的 ACME challenge 需要連網驗證，在斷網環境無法使用。替代方案是建立內部 CA（Certificate Authority），自己簽發憑證。
step-ca（Smallstep）
step-ca 是一個輕量的 CA server，支援 ACME 協定——內部服務可以用跟 Let’s Encrypt 相同的流程自動申請和續期憑證，只是 ACME server 是內網的 step-ca 而非 Let’s Encrypt。





1# 初始化 CA
2step ca init --name="Internal CA" --dns="ca.internal" \
3  --address=":443" --provisioner="admin"
4
5# 啟動 CA server
6step-ca $(step path)/config/ca.json
初始化會產生 root CA 和 intermediate CA 的 key pair。root CA 的私鑰是整個信任鏈的根——它的保護等級要最高（離線儲存、存取紀錄）。
憑證簽發流程
服務用 ACME client 向 step-ca 申請憑證：





1# 用 step CLI 申請憑證（手動方式）
2step ca certificate "gitlab.internal" gitlab.crt gitlab.key
3
4# 用 ACME 自動續期（搭配 certbot 或 step 的 renewal daemon）
5step ca renew --daemon gitlab.crt gitlab.key
certbot 也能配合 step-ca 使用——把 ACME server URL 從 Let’s Encrypt 改成 https://ca.internal/acme/acme/directory。已有 certbot 自動續期腳本的服務只要改一行設定。
Root CA 分發
每台機器和每個服務都要信任內部 CA 的 root certificate：





1# Debian/Ubuntu
2cp root_ca.crt /usr/local/share/ca-certificates/internal-ca.crt
3update-ca-certificates
4
5# RHEL/CentOS
6cp root_ca.crt /etc/pki/ca-trust/source/anchors/internal-ca.crt
7update-ca-trust
Docker daemon 也需要信任內部 CA（否則 docker pull harbor.internal/image 會報 TLS 錯誤）：





1mkdir -p /etc/docker/certs.d/harbor.internal
2cp root_ca.crt /etc/docker/certs.d/harbor.internal/ca.crt
3systemctl restart docker
Ansible playbook 批量推送 root CA 到所有機器，是初始部署的標準做法。
cfssl 作為替代
cfssl（Cloudflare 的 PKI 工具組）比 step-ca 更簡單但沒有 ACME 自動化——每張憑證要手動簽發。適合只有 5-10 個服務、不需要自動續期的小規模環境。
Secret Management：HashiCorp Vault
資料庫密碼、API token、TLS 私鑰這些機密值需要一個集中的安全儲存。斷網環境不能用 AWS Secrets Manager 或 GCP Secret Manager，HashiCorp Vault 是最常見的自建選項。
斷網環境的 Vault 初始化
Vault 的初始化（unsealing）在雲端環境通常用 AWS KMS 或 GCP Cloud KMS 自動 unseal。斷網環境沒有雲端 KMS，退回 Shamir’s Secret Sharing——初始化時產生 N 個 unseal key、啟動時需要 M 個 key 才能解鎖（典型設定：5 個 key、3 個即可 unseal）。





1# 初始化 Vault（5 key shares、3 threshold）
2vault operator init -key-shares=5 -key-threshold=3
3
4# Unseal（需要 3 次、每次用不同的 key）
5vault operator unseal 
6vault operator unseal 
7vault operator unseal 
5 個 unseal key 分別交給不同的人保管。任何單一個人都無法獨自解鎖 Vault——這是刻意的安全設計。Vault 重啟後需要重新 unseal，所以 unseal key 的保管和取用流程要事先演練。
機器身分認證
服務從 Vault 讀取 secret 時需要認證自己的身分。雲端環境用 IAM role，斷網環境用 AppRole——每個服務拿到一組 role_id + secret_id、用它們換取短期 token。





 1# 建立 AppRole
 2vault auth enable approle
 3vault write auth/approle/role/gitlab \
 4  token_ttl=1h \
 5  token_max_ttl=4h \
 6  policies=gitlab-secrets
 7
 8# 服務端取得 token
 9vault write auth/approle/login \
10  role_id="$ROLE_ID" \
11  secret_id="$SECRET_ID"
secret_id 本身也是 secret——初次部署時由 Vault admin 手動提供給服務、或透過 Ansible 的 encrypted variable 推送。
儲存後端
Vault 需要一個持久化的儲存後端。雲端用 DynamoDB 或 Consul，斷網環境用：

  
      
          後端
          適用情境
          特性
      
  
  
      
          檔案系統
          單節點、小規模
          最簡單、但沒有 HA
      
      
          PostgreSQL
          已有 PostgreSQL 的環境
          利用現有基礎設施
      
      
          Consul
          需要 HA 的環境
          Vault + Consul 是官方推薦的 HA 組合
      
  

部署順序的相互依賴
四個服務之間有依賴鏈：





1DNS → NTP → CA → Vault
2 ↑_________________↓（Vault 的 FQDN 要 DNS 解析）
DNS 先啟動（其他服務靠它解析 hostname）→ NTP 跟著（CA 簽發憑證時需要準確的時間、否則 notBefore/notAfter 判斷會出問題）→ CA 啟動（Vault 的 HTTPS 需要 TLS 憑證）→ Vault 最後（依賴 DNS 和 TLS）。
DNS 跟 CA 之間有一個循環依賴：CA 簽發憑證時需要 DNS 解析（ACME challenge 或 CSR 裡的 SAN），但 DNS server 本身要不要 TLS？解法是 DNS 第一次啟動時用明文（不走 HTTPS），CA 啟動後回頭替 DNS 簽一張憑證、再切到 DNS-over-TLS。多數內網環境 DNS 維持明文即可——DNS 查詢在內網不加密是常見做法，風險可控。
時程與維護

  
      
          服務
          初始部署
          持續維護
      
  
  
      
          CoreDNS
          2-4 小時
          新增服務時加 zone record（分鐘級）
      
      
          chrony
          1-2 小時
          幾乎不需要（漂移補償自動運作）
      
      
          step-ca
          3-4 小時
          憑證到期前的監控和續期（自動化後接近零）
      
      
          Vault
          4-8 小時
          unseal key 管理、policy 更新、備份
      
  

四個服務合計約 1.5-2 個工作天完成初始部署。部署完成後的日常維護負擔集中在 Vault（unseal key 管理和 policy 維護）和 DNS zone 更新。CA 的憑證續期如果用 ACME 自動化就接近零維護。
向管理層溝通時的框架：「這四個服務是所有其他服務的地基——沒有它們，其他服務要麼找不到彼此（DNS）、時間對不上（NTP）、通訊不加密（CA）、密碼寫在設定檔裡（Vault）。部署一次、之後幾乎自動運作。」
跨分類引用

→ 斷網環境的通用原則：content ferry 和離線套件管理的通用操作模式
→ 斷網環境的 IaC：Vault 作為 Terraform 的 secret backend
→ 斷網環境的容器與映像管理：Harbor 依賴 DNS 和 TLS、映像拉取需要信任內部 CA
→ 模組二：身分與憑證地基：Vault 的角色跟雲端的 Secrets Manager 對應
→ 模組八：治理好習慣：Secret 不進 code 的原則在斷網環境用 Vault 落地




模組九：怎麼把 infra 推動起來
Fri, 26 Jun 2026 00:00:00 +0000
一套技術上正確的 infra 推不動，後果會往回退、不只是停在原地。state 上了版控但團隊照樣手改 Console、PR 護欄建好了卻被 --no-verify 繞過、tagging 規範寫進文件但沒人填，這些都會讓 infra 從「資產」變成「擺設」。更糟的情況是推到一半就停：一部分環境上了 IaC、一部分還是手動，兩套真相並存，排查問題時不知道該信哪邊，infra 反而成了扣分項。前面八個模組講技術怎麼做對，這一章講技術做對之後、怎麼跨過商業優先級與組織信任這兩道更難的關卡。這是全系列的組織層收尾。
為什麼 infra 常推不動
infra 是一種看不到立即回報的成本，這是它在商業優先級裡天然吃虧的根本原因。產品功能上線當天就能看到使用者數字、營收曲線、客訴下降；infra 投入當天看到的只有「花了時間，但畫面上什麼都沒變」。把 state 搬上遠端後端、把 IAM 從長期 access key 換成 OIDC、把環境拆成獨立帳號，這些工作的價值要等到某次事故、某次稽核、某次擴張才會兌現。在價值兌現之前，它在排程會議上跟一個能立刻帶來轉換率的功能競爭，幾乎必輸。
徵兆很直接：當 infra 工作總是被排進「有空再做」的待辦、季度結束時總是第一個被砍，根源在於它的回報曲線跟決策者的時間視窗對不上，而不是團隊不重視。決策者看的是這一季的可交付，infra 的回報落在下一次危機，兩者中間隔著一段沒有反饋的真空期。
理解這個落差，就不會把推不動歸因成「同事不懂技術」。把它當成溝通態度問題去硬碰，結果是工程端越說越委屈、業務端越聽越像本位主義。也別矯枉過正——infra 確實有一部分屬於可以延後的優化，不是每一項都該現在做。真正該做的是把「哪些 infra 屬於不能延後的地基」跟「哪些屬於可排程的優化」分開談，這條線在「模組零：infra 是什麼」的成熟度階梯與 day1 鐵律裡有完整討論。
信任赤字下的兩難
信任赤字指的是團隊對「動 infra 會不會把東西弄壞」的預設懷疑，它決定了一次改動能拿到多大的授權。當一個服務跑得好好的，任何對它底層的改動在旁人眼裡都是「沒事找事」，一旦改出問題，責任全記在發起改動的人頭上。這種不對稱讓人傾向不動，於是技術債持續累積，而累積本身又讓下一次改動更危險，形成越不敢動就越不能動的循環。
兩難的具體形狀是這樣：大改動風險高、需要的信任額度也高，但信任正是現在缺的；小改動安全，卻又解不了結構性的問題。更尷尬的中間態是改到一半——把一半服務遷上 IaC、另一半留在手動，這時系統同時揹著舊流程的隨意性跟新流程的約束，兩邊的缺點都拿到、好處都沒拿滿。排查問題的人要先猜這個資源歸哪套管，認知成本比改造前還高。
可操作的判準是用改動的「可回退性」換取授權，而不是用「保證不出錯」去爭取。把一次大遷移切成多個獨立可回退的 PR，每個 PR 都能單獨 review、單獨 apply、單獨 revert，這樣每一步的風險都是有界的，團隊願意給的信任額度也跟著提高。切片不能切到讓中間態長期懸著——每個切片都要讓系統落在一個自洽的狀態、而不是半套真相並存。每完成一個可回退的小步，下一步能拿到的授權就多一點，原本越不敢動就越不能動的循環才會倒過來轉。把改動綁進 PR 流程取得 review 與自動護欄的做法，見「模組七：infra 走 PR 流程」。
期望值對齊
期望值對齊指的是在動工之前，先跟相關角色講好 infra 工作的價值、時程、以及它「慢」的原因，讓慢成為事前的共識而不是事後的指責。infra 的改造之所以慢，是因為它要動的是正在承載流量的地基——每一步都得確認沒有破壞既有服務、得保留回退路徑、得跨環境驗證。這種慢是風險控制的成本，不是效率問題。但如果沒有事先說明，旁人看到的只有「一個簡單的事情做了兩週」。
對齊要對齊三件事。第一是價值要翻成對方語言：對 PM 講的是「這個改動讓未來新環境從三天縮到三十分鐘」，不是「我們把 state 上了遠端後端」。第二是時程要給範圍而非單點，並標出哪些步驟是不可壓縮的驗證、哪些是可以平行的。第三是把「慢」的來源攤開——告訴對方哪幾步是在跨環境驗證、哪幾步是在等 plan review，讓等待變成可理解的過程。
一個具體的自測：如果每次進度同步都要重新解釋「為什麼還沒好」，代表期望值沒對齊在前面。最常見的失手是把對齊做成單向報告，真正的對齊需要對方有機會在動工前提出他的時間壓力，雙方各退一步排出優先序。對齊也不等於承諾零風險，反而要在這個階段就把可能的失敗模式講清楚——這跟「模組七：infra 走 PR 流程」裡用 plan 預覽變更、讓改動在 apply 前就被看見是同一個邏輯，只是把對象從程式碼擴大到人。
知識共享優於個人英雄主義
infra 知識要分散在團隊裡、並盡量沉澱進可執行的程式碼，這樣組織才不會把營運連續性押在單一個人身上。當只有一個人懂整套 infra 怎麼運作，這個人請假、轉組、離職的那一刻，組織就失去了安全改動地基的能力——剩下的人不敢動，因為沒人知道動了會牽連到什麼。這是一種典型的單點故障，只是故障點是人不是機器。
個人英雄主義在短期看起來很有效率：一個熟手能繞過所有流程、直接在 Console 把問題解掉。問題是這種效率不會留下痕跡，下一個人遇到同樣狀況時得從零重來，而那個熟手變成了所有人的瓶頸——每個改動都要等他有空、每個決策都要問過他。組織越依賴他，他越難抽身去做別的事，這對個人跟組織都是負擔。
把知識搬出個人腦袋有兩條路徑，互補使用。一條是把運作邏輯寫進程式碼與流程：當環境的建立方式是一份 IaC、變更方式是一個 PR，知識就內建在可執行的物件裡，新人讀 code 跟 PR 歷史就能重建脈絡，這正是「模組七：infra 走 PR 流程」的核心價值之一。另一條是刻意的輪替與配對：讓不同人輪流負責 infra 的 review 與 apply，用實際操作累積分散的熟悉度。檢驗有沒有做到，問自己一句就夠：如果最懂 infra 的人下週離職，團隊還敢動 production 的網路設定嗎——答案是否定的，就代表知識過度集中，那個熟手仍然是繞不開的瓶頸。共享不必走到人人都是專家，只要關鍵操作有第二個人能接手、關鍵決策的脈絡留得下來，瓶頸就不再卡在單一個人身上。
把 infra 重要性翻成商業語言
infra 的重要性要翻譯成商業後果才能進入決策者的優先級，因為決策者用的是成本與風險的語言，不是技術術語的語言。「我們缺乏環境分離」對 PM 沒有重量，但「測試環境的一次誤操作可以直接打到正式資料庫、波及全部客戶」有重量，因為後者描述的是一個可以標價的損失。翻譯的本質是把抽象的技術缺口換算成一個具體的、會痛的場景。
最有說服力的素材是「環境爆炸時的代價」——把地基失效的那一刻會發生什麼攤開來算。沒有 state 版控時，一次併發修改可能讓整個環境的記錄錯亂，重建要幾天、期間服務不可用；沒有身分隔離時，一把外洩的長期憑證可以橫向存取所有資源；沒有環境分離時，一次本該打在 staging 的變更直接改了 production。這些場景的共同點是平時完全看不見、爆炸時一次性兌現巨大成本，這也正是「模組零：infra 是什麼」裡地基隱形、出事才現形的論證。把這條論證從技術語境搬到商業語境，就是這一章要做的翻譯。
可操作的做法是替每一項想推動的 infra 工作，準備一句「不做的話，最壞情況是什麼、影響多少客戶、要救多久」。這句話本身就是一道篩子：講不出對應商業後果的工作，可能真的優先級不高、可以排到後面；講得出而且後果嚴重的，這句話就是排程的籌碼。要小心的陷阱是把每件事都講成世界末日，幾次之後狼來了效應會讓所有警告失效——所以翻譯要誠實分級，把真正的地基跟可延後的優化分開。商業語言是用來爭取優先級、不是用來嚇人；爭取到之後，怎麼安全地做仍然回到前面八個模組的技術判準。把成本量化的延伸方法，可參考 /devops/08-cost-management/ 對基礎設施成本的拆解視角。
章節文章

 
 
 文章
 主題
 
 
 
 
 給非工程人員的 infra 說明
 用辦公室比喻解釋 VPC / IAM / IaC，讓非技術背景的人 10 分鐘內理解工程團隊在做什麼
 
 
 infra 投資的商業論證
 用成本、風險、速度三條論述線翻譯成商業語言，附簡報邏輯與常見反對意見的回應
 
 
 怎麼把 infra 推動起來 — 信任赤字、期望值對齊與知識共享
 infra 在商業優先級裡吃虧的結構性原因，以及用可回退切片、期望值對齊與知識分散來跨過組織關卡
 
 

跨分類引用

→ 模組零：infra 是什麼：地基隱形、爆炸時才現形的論證
→ 模組七：infra 走 PR 流程：用流程把 infra 知識從個人腦裡搬進 code
→ /devops/08-cost-management/：把 infra 缺口換算成可標價成本的拆解視角



環境分離
Fri, 26 Jun 2026 00:00:00 +0000
環境分離的核心職責是讓 dev 的實驗、staging 的驗證、production 的真實流量彼此不可見也不可達 — 在 dev 跑壞一個資料庫、套錯一條 security group 規則時，production 完全無感。
概念位置
環境分離在 infra 成熟度階梯上對應第三階。它建立在宣告式 IaC（第二階）的基礎上 — 有了 state 追蹤和模組化描述之後，才能用「同一份 code、不同參數」的方式複製出多個隔離環境。
分離的實作方式有一條隔離強度光譜：從帳號級（不同雲端帳號，最強隔離）到目錄級（同一 repo 內各環境一個目錄，各自持有 state）到 workspace 級（同一份 code 用執行期切換 state，隔離最弱）。多數早期團隊在目錄級落腳，因為它在顯式邊界與維運成本之間取得平衡。
可觀察訊號
以下狀況指向環境分離不足：

在 staging 測試的變更意外影響了 production 的資源 — dev 跟 prod 共用同一份 state
某人的 terraform apply 把另一個環境的資源改掉了 — workspace 的隱性狀態切換導致打錯環境
dev 與 prod 的設定差異散落在 code 裡的 if env == "prod" 判斷 — 環境差異沒有集中在參數值裡

設計責任
環境分離的設計要決定：

隔離層級：帳號級、目錄級、還是 workspace 級。判斷依據是團隊規模、合規要求、與維運餘裕
參數化邊界：dev 與 prod 之間的差異全部用參數表達（instance size、multi-AZ、backup retention），module 內部不寫環境判斷
state 位址分離：每個環境的 state backend 位址獨立，互不交叉

鄰卡

IaC — 環境分離的前提是有可重用的 IaC 描述
State — 每個環境持有獨立的 state 檔
Drift — 環境分離降低 drift 的跨環境影響範圍



斷網環境的資安與權限控管
Fri, 26 Jun 2026 00:00:00 +0000
斷網環境的安全假設跟連網環境相反。連網環境的主要威脅是外部攻擊者透過網路入侵——防火牆、WAF、IDS 構成防禦層。斷網環境的實體隔離幾乎消除了遠端攻擊的可能，但威脅沒有消失，而是轉向兩個方向：有權限存取內部系統的人員（insider threat），以及透過合法管道跨越隔離邊界的內容（supply chain）。每一個刻意建立的橋樑——USB 隨身碟、資料搬運站、data diode——都是攻擊面。
威脅模型的轉變
連網環境的安全投資集中在邊界防禦：防火牆規則、DDoS 防護、入侵偵測、漏洞修補的速度。斷網環境的邊界是物理的——網路線沒有接上去，防火牆規則不是問題。威脅從「外面的人怎麼進來」變成「裡面的人怎麼把東西帶出去、或把有害的東西帶進來」。

  
      
          威脅類型
          連網環境的可能性
          斷網環境的可能性
          斷網環境的主要載體
      
  
  
      
          遠端漏洞利用
          高
          極低
          —
      
      
          釣魚 / 社交工程
          高
          低（無外部 email）
          但內部通訊仍可能被利用
      
      
          USB / 可移除媒體
          中
          高
          人員帶入的 USB、外接硬碟
      
      
          供應鏈污染
          中
          高
          搬運進來的套件、映像、更新檔
      
      
          內部人員濫用權限
          中
          高
          有實體存取權的操作人員
      
      
          資料外洩
          高（網路）
          中（實體）
          USB 複製、列印、手機拍照
      
      
          橫向移動
          高
          中
          內部網路扁平時仍然可能
      
  

斷網環境的安全投資因此集中在三個面向：控制誰能碰什麼（存取控制）、記錄誰碰了什麼（稽核日誌）、審查什麼東西跨越邊界（傳輸審查）。
實體安全是 infra 的責任
連網環境的實體安全通常歸 facility team——機房門禁、監視器、電力冗餘。infra 團隊負責的是邏輯層的安全（IAM、security group、加密）。斷網環境裡這條分界線消失了：「誰能帶 USB 進機房」直接等於「誰能把任意程式碼注入生產環境」，這是 infra 的安全邊界，不是 facility 的。
需要 infra 團隊參與制定的實體安全政策：
可移除媒體管控：哪些人被授權攜帶 USB / 外接硬碟進入安全區域。媒體是否需要預先登記和加密。進入前是否要在掃描站過掃。政策的嚴格度依環境敏感度而定——最嚴格的環境禁止所有個人裝置、只使用登記在冊的專用搬運媒體。
機房存取控制：門禁卡 / 生物辨識的日誌要進入 infra 的稽核系統。每一次實體進出都要有記錄——誰、什麼時候、待了多久。伺服器機櫃如果有獨立的鎖，鎖的鑰匙管理也歸 infra。
Console 存取：能直接操作伺服器 console（KVM、IPMI、iLO）的人等於擁有最高權限——可以繞過所有 OS 層的認證。console 存取要限制到最小人數，每次使用要記錄。
螢幕與攝影裝置：敏感環境可能限制在安全區域內使用手機（防止拍攝螢幕上的資料）。這個政策的執行通常是 facility 負責，但政策的制定依據（什麼資料在螢幕上算敏感）是 infra 定義的。
身分與認證（沒有雲端 IAM）
連網環境用 OIDC / SSO / 雲端 IAM 管理身分。斷網環境沒有這些——需要自建身分基礎設施。
集中身分管理：FreeIPA（整合 LDAP + Kerberos + DNS + CA）或 OpenLDAP 作為統一的使用者目錄。所有內部服務（GitLab、Nexus、Harbor、Vault、Grafana）都配置 LDAP 認證，避免每個服務各自管一套使用者帳號。FreeIPA 的優勢是把 LDAP、Kerberos、DNS 和 CA 整合在一個管理介面——在資源有限的斷網環境裡減少維運面。





1# FreeIPA 安裝（CentOS/Rocky）
2sudo yum install -y ipa-server ipa-server-dns
3sudo ipa-server-install --setup-dns --no-forwarders
MFA（沒有網路的情況下）：TOTP（如 Google Authenticator）完全在本地運作、不需要網路連線。硬體 token（YubiKey）支援 FIDO2 / PIV / TOTP，在高安全環境是標準做法。智慧卡（CAC / PIV card）在政府和軍事環境最常見。
服務帳號：機器對機器的認證用 Vault 的 AppRole（role_id + secret_id 換取短期 token）或本地 SSL client certificate。不使用長期密碼或寫死的 token。
稽核日誌（沒有 CloudTrail）
連網環境用 CloudTrail / GCP Audit Log 自動記錄所有 API 操作。斷網環境要自建整條稽核鏈：收集 → 傳輸 → 儲存 → 查詢 → 告警。
OS 層級：Linux auditd 記錄 kernel 層的操作——誰執行了什麼指令、誰存取了什麼檔案、誰修改了什麼系統設定。規則用 auditctl 或 /etc/audit/rules.d/ 設定。





1# 監控所有 sudo 操作
2-a always,exit -F arch=b64 -S execve -F euid=0 -k root-commands
3# 監控 /etc/ 目錄的修改
4-w /etc/ -p wa -k etc-changes
服務層級：每個自建服務都有自己的 audit log——GitLab 的 audit events、Vault 的 audit device（可設成 file 或 syslog）、Harbor 的 activity log。這些日誌要匯聚到中央 log server。
集中收集：rsyslog 或 syslog-ng 把各主機的 audit log 轉送到一台專用的 log server。log server 的儲存用 append-only 或 write-once 媒體（防止日誌被竄改）。
日誌完整性：定期對日誌檔做 hash（sha256sum）並把 hash 存到獨立的位置。如果日誌內容被修改，hash 不匹配會被發現。在最高安全等級的環境裡，日誌會同時寫到光碟或 WORM（Write Once Read Many）儲存。
審閱與告警：日誌收集了但沒人看等於沒有。定義哪些事件觸發主動通知（root 登入、非工作時段的操作、大量檔案存取）、哪些事件定期審閱（每週掃描異常模式）。
更新的延遲窗口
連網環境的 CVE 修補可以在小時到天的層級完成——apt update && apt upgrade。斷網環境的修補從「得知漏洞」到「修補上線」之間有結構性的延遲。
典型的延遲鏈：外部公告 CVE → 安全團隊評估影響（1-2 天）→ 在外部環境下載修補（同日）→ 掃描修補本身的安全性（1 天）→ 審批跨邊界傳輸（1-3 天）→ 在斷網測試環境驗證（1-2 天）→ 部署到生產環境（同日）。總延遲 5-10 個工作天。
這個延遲窗口是已知的、可管理的風險。管理方式：
風險接受文件：記錄哪些 CVE 在「已知但尚未修補」的窗口內，每條標註預計修補時間和暫時的補償控制。
補償控制：在修補到位之前降低漏洞的可利用性——禁用受影響的服務功能、收緊網路分段、限制受影響服務的存取權限。
分級修補：不是所有 CVE 都需要緊急處理。Critical（CVSS 9+）走加速通道（目標 3 天內修補）、High（CVSS 7-8.9）走正常通道（目標 10 天）、Medium 以下排進常規更新週期。
跨邊界傳輸的安全審查
每一個跨越隔離邊界的物件都需要審查——套件、映像、設定檔、資料匯出。搬運的操作流程在通用原則篇描述，這裡聚焦安全審查的部分。
掃描站：在邊界設置一台專用的掃描機器，所有入境的媒體先在這裡過掃——防毒掃描、檔案類型驗證、hash 比對（確認下載的套件跟官方發布的 hash 一致）。掃描站本身的病毒定義也需要定期更新（走相同的搬運流程）。
傳輸審批日誌：每次跨邊界傳輸記錄：搬運的內容清單、搬運者、審批者、搬運日期、每個檔案的 hash。這份日誌是稽核的依據——如果內部發現惡意軟體，可以回溯「它是什麼時候、由誰搬進來的」。
Data diode（單向網路裝置）：在最高安全等級的環境裡，跨邊界的網路連線用 data diode——物理上只允許資料往一個方向流動（外部→內部，或反過來）。這比軟體防火牆更難繞過，因為它是硬體限制。data diode 的限制是不支援雙向協定（如 TCP handshake），需要用 UDP-based 的傳輸工具。
主機層入侵偵測
斷網環境的網路流量監控（NIDS）效果有限——內部網路通常扁平、流量加密後難以檢查。主機層入侵偵測（HIDS）是更適合斷網環境的選擇：在每台主機上監控檔案完整性、程序行為、登入模式，而非在網路層攔截。OSSEC 和 Wazuh（OSSEC 的積極維護分支）是開源的 HIDS 方案，agent 裝在每台主機、manager 集中收集告警，不需要連外。
時程與管理層溝通
斷網環境的安全管控初始建置時程：FreeIPA 部署 + 跟所有內部服務（GitLab、Nexus、Harbor、Vault）的 LDAP 整合約需 2-3 天。auditd 規則設定 + syslog 聚合到中央 log server 約需 1 天。掃描站建置（防毒 + hash 驗證 + 傳輸日誌）約需半天。HIDS 部署（Wazuh manager + 各主機 agent）約需 1-2 天。整體安全管控從零到運作約需 5-7 個工作天。
持續維護的主要工作是病毒定義更新搬運（跟隨套件更新週期）、稽核日誌的定期審閱（每週）、以及 CVE 修補的分級處理（依 CVSS 嚴重度排程）。
跨分類引用

→ 模組二：身分與憑證地基：連網環境的 IAM 設計，跟本篇的離線身分方案互補
→ 斷網環境的通用原則：content ferry 模式的操作流程
→ 斷網環境的基礎服務：CA 和 Vault 是本篇認證和機密管理的技術基礎
→ backend 模組七：資安與資料保護：應用層的安全措施




CloudTrail
Fri, 26 Jun 2026 00:00:00 +0000
CloudTrail 的核心職責是把 AWS 帳號內每一個 API 呼叫記錄成可查詢的稽核日誌 — 哪個身分、在什麼時間、對哪個資源、呼叫了哪個 API、結果是成功還是拒絕。它是事故排查和合規稽核的事實來源。
概念位置
CloudTrail 在 infra 治理裡的角色是「發生了什麼」的最後防線。人工變更日誌記錄「為什麼改」，CloudTrail 記錄「改了什麼」— 兩者一起才能從事故回推到可回退的操作。
CloudTrail 預設記錄 management event（建立、修改、刪除資源的 API 呼叫）並保留 90 天可查閱。要長期保存或記錄 data event（S3 物件存取、Lambda 呼叫等更細粒度的操作），需要建立 trail 並指定 S3 bucket 儲存。
可觀察訊號
以下狀況指向 CloudTrail 的使用場景：

事故排查需要回答「誰在過去 24 小時改過這個 security group」— CloudTrail 的 LookupEvents API 可以按事件名稱、資源類型或使用者名稱查詢
安全稽核要求提供「過去 90 天內所有 IAM policy 變更的紀錄」— CloudTrail 是標準的證據來源
發現不預期的資源變更（drift），需要確認是人為操作還是自動化觸發 — CloudTrail 的 userIdentity 欄位區分人類使用者和 assume-role 的服務

設計責任
使用 CloudTrail 時要決定：

保留期限：預設 90 天免費查閱；超過需要建 trail 存到 S3，費用是 S3 儲存成本
事件範圍：management event 預設開啟；data event（S3 物件讀寫、Lambda invoke）要額外設定，且量大時儲存成本可觀
跨帳號整合：多帳號架構下，Organization trail 可以把所有帳號的事件集中到一個 S3 bucket
存取控制：CloudTrail 的 S3 bucket 本身要限制存取 — 能修改稽核日誌等於能掩蓋操作痕跡

鄰卡

IAM — CloudTrail 記錄的是 IAM 身分的 API 呼叫
Drift — CloudTrail 是追查 drift 來源（誰手動改了什麼）的工具



無 SSH 環境的資料庫備份與變更管理
Fri, 26 Jun 2026 00:00:00 +0000
程式碼可以從 Git repo 重新上傳，資料庫裡的資料一旦遺失或損壞就回不來。在無 SSH 的環境裡，資料庫的備份與變更管理比程式碼更需要紀律，因為可用的工具受限（通常只有 phpMyAdmin）、沒有 point-in-time recovery（PITR）、也沒有自動化快照。本篇從工具限制出發，建立一套在這些約束條件下仍能可靠運作的備份與變更流程。
本篇是無 SSH 的 FTP / 面板管理環境接管的延伸，聚焦在資料庫層面。程式碼與部署紀律見主文。
phpMyAdmin 的限制與對策
phpMyAdmin 是多數無 SSH 環境預裝的資料庫管理介面，匯出功能涵蓋完整 SQL dump，但它跑在 PHP 執行環境裡，受限於 max_execution_time 和記憶體上限。資料庫超過 50MB 時，匯出經常在執行到一半就因 timeout 中斷，產出不完整的 SQL 檔案——而不完整的 dump 在還原時只會匯入前半段的表、後面的表靜靜消失。
大資料庫的匯出對策
第一個選項是分表匯出。phpMyAdmin 的匯出頁面允許選擇要匯出的資料表，把一次完整匯出拆成 3-5 批，每批在 timeout 之前完成。缺點是匯出不是原子操作——不同批次之間如果有寫入，表之間的參照關係可能不一致（例如訂單表引用的商品 ID 在商品表的那一批裡還沒匯出）。對多數讀取為主的站台，這個不一致窗口可接受；對交易密集的站台，需要在低流量時段操作。
第二個選項是調整 phpMyAdmin 的 timeout。部分主機允許在 phpMyAdmin 的設定目錄放自訂的 config.inc.php：





1$cfg['ExecTimeLimit'] = 600; // 從預設 300 秒增加到 600 秒
cPanel 主機通常在「軟體」區塊的 phpMyAdmin 設定裡有對應的 UI 選項。Plesk 的路徑是「資料庫」→「phpMyAdmin 設定」。能不能改取決於主機商的權限政策，改之前先確認。
第三個選項是繞過 phpMyAdmin。如果主機允許遠端 MySQL 連線（在 cPanel 的「遠端 MySQL」頁面加白名單 IP），就能用桌面工具直連資料庫匯出：

  
      
          工具
          平台
          費用
          匯出方式
      
  
  
      
          DBeaver
          跨平台
          免費
          右鍵資料庫 → 匯出 → SQL
      
      
          TablePlus
          macOS / Windows
          付費
          Cmd+Shift+E 匯出
      
      
          HeidiSQL
          Windows
          免費
          工具 → 匯出資料庫為 SQL
      
      
          mysqldump
          CLI（需本機安裝）
          免費
          見下方指令
      
  

桌面工具直連 MySQL 比 phpMyAdmin 穩定，因為匯出跑在本機、不受主機的 PHP timeout 限制。mysqldump 是最可靠的選項：





1mysqldump -h db-host.example.com -u dbuser -p \
2  --single-transaction --routines --triggers \
3  dbname > backup_$(date +%Y%m%d_%H%M).sql
--single-transaction 對 InnoDB 表做一致性快照，不需要鎖表。--routines 和 --triggers 確保 stored procedure 和觸發器也被包含在 dump 裡——phpMyAdmin 匯出預設也包含，但容易在手動選項時漏勾。
匯出後的驗證
匯出完成後檢查 SQL 檔案的結尾。完整的 mysqldump 結尾會有 -- Dump completed on YYYY-MM-DD HH:MM:SS。phpMyAdmin 匯出的結尾會有 -- phpMyAdmin SQL Dump 的對應結尾標記。如果檔案在某個 INSERT INTO 語句中間斷掉，這份 dump 就是不完整的，還原時會靜靜丟失後面的資料。





1tail -5 backup_20260626_1430.sql
2# 預期看到 "Dump completed" 或完整的結尾註解
備份策略：頻率與保留
備份頻率由資料的變更速率決定。一個每天只有幾筆訂單的小型電商，每週備份加上每次變更前備份就夠用。一個每天有數百筆交易的服務，需要每日備份。判斷依據是：如果最新的備份丟了、要用上一份還原，能接受丟失多少資料？這個時間差就是實際的 RPO（Recovery Point Objective）。
保留策略

  
      
          備份類型
          頻率
          保留數量
          用途
      
  
  
      
          每日
          每天
          7 份
          近期資料遺失的還原
      
      
          每週
          每週一
          4 份
          一到四週前的回溯
      
      
          變更前
          每次
          長期保留
          schema 變更的回退保險點
      
  

命名用時間戳避免覆蓋：dbname_20260626_1430.sql.gz。壓縮用 gzip（gzip backup.sql），50MB 的 SQL dump 通常壓到 5-10MB。
儲存位置
本機是第一份副本，但本機磁碟故障時備份也跟著消失。至少再推一份到雲端儲存：





1# rclone 同步到 Google Drive（事先用 rclone config 設定 remote）
2rclone copy /local/backups/db/ gdrive:project-backups/db/ --max-age 7d
3
4# 或推到 S3
5aws s3 sync /local/backups/db/ s3://my-project-backups/db/ --storage-class STANDARD_IA
備份驗證
備份存在不等於備份可用。每月至少做一次驗證：把最新的 dump 匯入本地 MySQL，檢查關鍵表的 row count 跟 prod 一致、應用程式能正常啟動。如果匯入報錯或 row count 差異超過預期，備份流程有問題要立刻排查。





1mysql -u root -p local_testdb < backup_20260626_1430.sql
2mysql -u root -p -e "SELECT COUNT(*) FROM orders;" local_testdb
自動化備份（無 SSH 環境的限制下）
無 SSH 環境的自動化受限程度取決於主機提供的能力。三個層級由好到差：
主機有 cron + mysqldump 路徑：部分主機在 cPanel 的「cron 工作」裡允許設定排程指令。mysqldump 通常安裝在 /usr/bin/mysqldump，可以直接用：





1# cPanel cron job（每天凌晨 3 點）
20 3 * * * /usr/bin/mysqldump -u dbuser -p'password' dbname | gzip > /home/user/backups/db_$(date +\%Y\%m\%d).sql.gz
密碼寫在 cron 指令裡不理想但在無 SSH 環境選擇有限。用 .my.cnf 檔案存密碼（chmod 600）較安全，但不是所有主機都支援。
主機有遠端 MySQL 但沒 cron：用本機排程（macOS launchd / Windows Task Scheduler / Linux cron）跑 mysqldump 遠端連線：





 1#!/bin/bash
 2# local-backup.sh — 本機排程每天跑
 3BACKUP_DIR="$HOME/backups/myproject/db"
 4mkdir -p "$BACKUP_DIR"
 5mysqldump -h db-host.example.com -u dbuser -p'password' \
 6  --single-transaction dbname \
 7  | gzip > "$BACKUP_DIR/db_$(date +%Y%m%d_%H%M).sql.gz"
 8
 9# 推到雲端
10rclone copy "$BACKUP_DIR" gdrive:project-backups/db/ --max-age 7d
11
12# 清理超過 30 天的本地備份
13find "$BACKUP_DIR" -name "*.sql.gz" -mtime +30 -delete
沒有 cron 也沒有遠端 MySQL：只能靠手動的 phpMyAdmin 匯出，加上 cPanel 的「備份精靈」（如果主機方案包含）。cPanel 備份精靈可以設定每日或每週的完整備份（含資料庫 + 檔案），但免費方案通常不支援排程。這是最受限的情境——如果連手動匯出都嫌麻煩，最高優先的升級路徑是開通遠端 MySQL 存取。
資料庫變更的 migration 紀律
Schema 變更（加欄位、改索引、拆表）在沒有 migration 工具的 legacy PHP 專案裡，全靠手動在 phpMyAdmin 執行 SQL。migration 紀律的目標是讓每一次 schema 變更有紀錄、可重播、可回退。
Migration 檔案格式
每次 schema 變更寫成一個獨立的 SQL 檔案，存在 repo 的 migrations/ 目錄：





 1-- migrations/2026-06-26-001-add-users-email-verified.sql
 2-- 目的：新增 email 驗證欄位，支援 email 驗證流程
 3-- 回退：ALTER TABLE users DROP COLUMN email_verified;
 4
 5-- UP
 6ALTER TABLE users ADD COLUMN email_verified TINYINT(1) NOT NULL DEFAULT 0 AFTER email;
 7CREATE INDEX idx_users_email_verified ON users (email_verified);
 8
 9-- DOWN（回退用，不自動執行）
10-- DROP INDEX idx_users_email_verified ON users;
11-- ALTER TABLE users DROP COLUMN email_verified;
檔名的結構是 日期-序號-描述，序號處理同一天多次變更的排序。UP 段是要執行的 SQL，DOWN 段是回退 SQL（註解掉，手動需要時才用）。
追蹤哪些 migration 已執行
在資料庫建一張追蹤表：





1CREATE TABLE IF NOT EXISTS migrations_log (
2    id INT AUTO_INCREMENT PRIMARY KEY,
3    filename VARCHAR(255) NOT NULL,
4    applied_at DATETIME NOT NULL DEFAULT CURRENT_TIMESTAMP,
5    applied_by VARCHAR(100)
6);
每次在 prod 執行完一個 migration，手動插入一筆紀錄：





1INSERT INTO migrations_log (filename, applied_by) VALUES ('2026-06-26-001-add-users-email-verified.sql', 'alice');
查哪些 migration 還沒跑：比對 migrations/ 目錄的檔案清單跟 migrations_log 表的 filename 欄。這不是自動化的 migration runner（像 Laravel 的 artisan migrate），但在沒有框架支援的 legacy 專案裡，一張表加一個目錄就能達到可追蹤的最低標準。
執行流程

  
      
          步驟
          動作
          失敗時
      
  
  
      
          1
          在本地 DB 執行 migration、確認語法正確
          修正 SQL 再試
      
      
          2
          備份 prod DB（完整 dump 或受影響的表）
          如果備份失敗、不繼續
      
      
          3
          在 prod 的 phpMyAdmin 執行 UP 段
          用 DOWN 段回退、還原備份
      
      
          4
          驗證：檢查表結構、跑應用程式確認正常
          用 DOWN 段回退、還原備份
      
      
          5
          插入 migrations_log 紀錄
          —
      
  

高風險的 migration（改大表結構、刪欄位、改資料類型）在步驟 2 要做完整的資料庫 dump 而非只備份受影響的表，因為外鍵和觸發器可能讓影響範圍超出目標表。
還原演練
備份的價值在還原成功的那一刻才被驗證。沒有演練過的備份等同於不存在——匯出可能不完整、SQL 版本可能不相容、匯入順序可能因為外鍵而失敗。
演練流程
在本地用最新的備份還原一次完整的資料庫：





1# 建一個測試用的空資料庫
2mysql -u root -p -e "CREATE DATABASE restore_test;"
3
4# 匯入備份
5mysql -u root -p restore_test < backup_20260626_1430.sql
6
7# 驗證
8mysql -u root -p -e "SHOW TABLES;" restore_test
9mysql -u root -p -e "SELECT COUNT(*) FROM orders;" restore_test
驗證三件事：表結構完整（SHOW TABLES 的表數量跟 prod 一致）、資料完整（關鍵表的 row count 一致）、應用程式能跑（把本地應用指向 restore_test 資料庫、打開首頁和幾個關鍵流程）。
還原時間的量測
記錄從開始匯入到驗證完成的時間。這個數字就是事故時的最快恢復時間。如果一個 500MB 的資料庫匯入需要 40 分鐘，加上排查原因和決策的時間，實際恢復可能超過一小時。知道這個數字，才能在事故時給管理層一個實際的時間預期。
無 SSH 環境沒有 PITR
無 SSH 的主機環境的 MySQL 通常不提供 binlog 層級的 point-in-time recovery。能還原到的最近時間點就是最新備份的時間點——備份是每天凌晨做的、下午三點出事，那就是丟失當天的所有寫入。這是備份頻率需要跟資料變更速率對齊的根本原因。交易密集的站台如果無法接受一天的資料丟失，升級到有 binlog / PITR 的環境（VPS 或 managed MySQL）是必要的投資。
大資料庫的特殊處理
資料庫超過 500MB 時，備份和還原的操作時間和失敗風險都會上升。需要針對大表做特殊處理。
超過 1GB 的單表通常是 log 表、歷史紀錄表、或含有二進位大物件（BLOB）的表。對這類表的備份策略跟業務表不同：

log / 歷史表：備份時可以加 --where="created_at > DATE_SUB(NOW(), INTERVAL 90 DAY)" 只匯出近期資料，歷史資料另做一次性歸檔
BLOB 欄位（圖片、PDF）：用 --no-data 單獨匯出 schema，BLOB 內容如果已經搬到檔案系統或 CDN，資料庫裡只需要保留路徑參考
InnoDB 大表：--single-transaction 避免鎖表，但匯出期間的記憶體消耗跟表大小成正比，本機如果記憶體不足可以加 --quick（逐行讀取、不緩衝整張表）






1# 大表匯出：逐行讀取 + 一致性快照 + 壓縮
2mysqldump -h db-host.example.com -u dbuser -p \
3  --single-transaction --quick \
4  dbname large_table | gzip > large_table_$(date +%Y%m%d).sql.gz
資料庫規模成長到備份時間超過維護視窗（例如匯出要兩小時但只有一小時的低流量時段），代表這類環境的備份能力已經到頂，需要評估升級到有 automated snapshot 的 managed MySQL 或 VPS。
跨分類引用

→ 無 SSH 的 FTP / 面板管理環境接管：主文，涵蓋程式碼備份、部署紀律與整體接管流程
→ 程式碼版控與 FTP 部署紀律：DB migration 跟 code deploy 要同步——schema 改了但 code 沒跟上會讓服務壞掉
→ Legacy PHP 的安全盤點：DB credential 的掃描與保護、SQL injection 風險評估
→ Stateful 資源保護與跨服務依賴：IaC 環境裡的備份、deletion protection 與 PITR 設計
→ 治理好習慣：tagging、secret 管理與成本可見性的長期治理




ECS
Fri, 26 Jun 2026 00:00:00 +0000
ECS（Elastic Container Service）的核心職責是把容器映像排程到運算資源上執行，並管理它們的生命週期 — 健康檢查、失敗重啟、滾動更新。它是 AWS 上容器工作負載的預設起點，心智負擔低於 Kubernetes（EKS），但編排彈性也較受限。
概念位置
ECS 在核心服務層裡的角色是「應用程式的執行載體」。它跑在 VPC 的 private subnet 裡，用 IAM task role 存取其他 AWS 資源，前面掛 ALB 接收流量。IaC 描述 ECS 時，重點在「接線」（subnet、security group、IAM role、target group）而非容器映像版本 — 映像版本由 CI/CD 在部署期注入。
ECS 的執行模式分 EC2 launch type（自己管運算實例、要管 AMI 更新與 capacity provider）和 Fargate launch type（AWS 代管運算、不需管實例）。Fargate 進一步降低運維面，代價是單位成本較高（同規格約多 20-40%）且不支援 GPU workload。
可觀察訊號
以下狀況指向 ECS 相關問題：

Task 頻繁被 kill 後重啟 — 健康檢查失敗或 OOM，先看 task 的 stopped reason 和 CloudWatch log
部署後新版本遲遲不上線 — rolling update 的 minimum healthy percent 設太高，新 task 啟動空間不足
Task 無法拉到 ECR image — 通常是 private subnet 沒有 NAT 或 VPC Endpoint 到 ECR

設計責任
使用 ECS 時要決定：

Launch type：Fargate（低運維、較高成本）還是 EC2（低成本、要管實例）。多數 web API 的初始選擇是 Fargate，流量穩定後再評估 EC2
Task IAM role：task execution role（拉 image 和寫 log 用）和 task role（應用程式存取其他 AWS 資源用）是兩個不同的 role，不要混用
映像版本解耦：task definition 裡的 image tag 由 CI/CD 部署期注入，infra code 不寫死版本號
Auto-scaling 指標：用 CPU / memory 還是 ALB request count，取決於服務是計算密集還是 IO 密集

鄰卡

Subnet — ECS task 跑在 private subnet 裡
Security Group — ECS service 套用 security group 控制入站
IAM — task role 與 execution role 是 ECS 的兩個身分接線
ALB — 流量透過 ALB target group 導入 ECS task



程式碼版控與 FTP 部署紀律
Fri, 26 Jun 2026 00:00:00 +0000
無 SSH 環境的 PHP 專案通常沒有版本歷史——程式碼直接透過 FTP 覆蓋伺服器上的檔案，每次上傳就是一次不可回溯的覆寫。接手這類專案時，第一步是在本地建立 Git repo 作為程式碼的唯一事實來源，第二步是把 FTP 上傳從「隨手改隨手傳」轉成有紀錄、可回退的部署流程。本篇聚焦在程式碼端的版控與部署；資料庫的備份與變更紀律見資料庫備份與變更管理；帳號與存取的安全管理見Legacy PHP 的安全盤點。
從 FTP 拉下來建立 Git repo
用 FTP client 把整個站台完整下載到本地目錄，這份下載就是 production 的快照。下載完成後在該目錄初始化 Git：





1cd /path/to/downloaded-site
2git init
在第一次 commit 之前先處理 .gitignore。PHP 專案需要排除的檔案分三類：套件依賴（由 Composer 或 npm 管理、可重建）、執行期產物（快取、session、上傳檔案）、以及含有機密值的設定檔。





 1# 套件依賴
 2vendor/
 3node_modules/
 4
 5# 執行期產物
 6cache/
 7tmp/
 8sessions/
 9*.log
10
11# 使用者上傳內容（通常很大、且屬於資料不屬於程式碼）
12uploads/
13media/
14wp-content/uploads/
15
16# 機密設定（下一節處理）
17.env
18config.local.php
19wp-config.php
使用者上傳的內容（uploads/、media/）不進 Git 的理由是它屬於資料層：檔案數量可能成千上萬、總容量可能數 GB，Git 不適合管理這類大量二進位檔案。這些檔案的備份策略跟程式碼不同——用 FTP mirror 或 rclone 定期同步到本地即可。
設好 .gitignore 後做第一次 commit：





1git add -A
2git commit -m "production snapshot $(date +%Y-%m-%d)"
這個 commit 就是「接手時 production 長什麼樣」的基準線。後續所有改動都從這裡開始有版本歷史。
Config 分離：讓 Git repo 不含機密值
無 SSH 環境的 PHP 專案常把資料庫密碼、API key、SMTP 憑證直接寫在 config.php 或 wp-config.php 裡。這些檔案如果進了 Git，機密值就跟著 repo 走——推到 GitHub 就等於公開。
分離的模式是把設定拆成兩份：一份進 Git（結構與預設值）、一份不進 Git（實際機密值）。
模式一：.env 檔案
使用 vlucas/phpdotenv 套件或手動解析，讓程式碼從 .env 檔案讀取環境變數：





1// config.php — 進 Git
2$dotenv = Dotenv\Dotenv::createImmutable(__DIR__);
3$dotenv->load();
4
5$db_host = $_ENV['DB_HOST'];
6$db_name = $_ENV['DB_NAME'];
7$db_user = $_ENV['DB_USER'];
8$db_pass = $_ENV['DB_PASS'];




1# .env — 不進 Git（.gitignore 已排除）
2DB_HOST=localhost
3DB_NAME=mysite_prod
4DB_USER=mysite_user
5DB_PASS=actual-password-here
同時在 repo 裡放一份 .env.example（進 Git），列出所有需要的環境變數但不填實際值：





1# .env.example — 進 Git，作為範本
2DB_HOST=
3DB_NAME=
4DB_USER=
5DB_PASS=
6SMTP_HOST=
7SMTP_USER=
8SMTP_PASS=
模式二：config.local.php
如果專案不使用 Composer、引入 phpdotenv 成本太高，用 PHP include 分離：





1// config.php — 進 Git
2if (file_exists(__DIR__ . '/config.local.php')) {
3    require __DIR__ . '/config.local.php';
4} else {
5    die('config.local.php not found. Copy config.local.example.php and fill in values.');
6}




1// config.local.php — 不進 Git
2$db_host = 'localhost';
3$db_name = 'mysite_prod';
4$db_user = 'mysite_user';
5$db_pass = 'actual-password-here';
WordPress 的處理
WordPress 的 wp-config.php 同時包含機密值和非機密設定。把整份排除再 include 一份 local 版是最簡單的做法，但也可以只把機密值抽到 .env、wp-config.php 本身保留在 Git 裡：





1// wp-config.php — 進 Git（機密值從 .env 讀）
2$dotenv = Dotenv\Dotenv::createImmutable(__DIR__);
3$dotenv->load();
4
5define('DB_NAME', $_ENV['DB_NAME']);
6define('DB_USER', $_ENV['DB_USER']);
7define('DB_PASSWORD', $_ENV['DB_PASSWORD']);
8define('DB_HOST', $_ENV['DB_HOST'] ?? 'localhost');
分離完成後，用 grep 確認 repo 裡沒有殘留的明文密碼：





1git grep -in "password\|passwd\|secret\|api_key\|smtp" -- '*.php' ':!*.example*'
任何命中都要評估：是真的機密值（要移到 .env）還是變數名稱（可以保留）。
FTP 部署的風險控制
FTP 上傳是逐檔覆寫，沒有交易性——上傳到一半斷線、或上傳了有語法錯誤的 PHP 檔案，站台會立刻出問題。風險控制的核心是「每次上傳前知道在改什麼、上傳後知道改了什麼」。
上傳前的比對
FileZilla 的目錄比較功能（「檢視 → 目錄比較 → 啟用」）可以在上傳前看到本地與遠端的差異：哪些檔案是本地較新、哪些是遠端較新、哪些只存在於一邊。上傳前先跑比較、確認差異清單符合預期——如果出現預期外的「遠端較新」檔案，代表有人在伺服器上直接改了東西，要先下載回來合併再上傳。
只上傳改過的檔案
一次上傳整個站台目錄既慢又危險。只上傳 Git diff 顯示的改動檔案：





1# 列出相對於上次部署 tag 改了哪些檔案
2git diff --name-only deploy-2026-06-25 HEAD
把這份清單對照 FileZilla 的比較結果，逐一上傳。量大時用 lftp 的 mirror 指令加 --only-newer flag 只傳新檔。
關鍵檔案的額外保護
index.php、.htaccess、設定檔這類檔案壞掉會讓整個站台無法存取。上傳這些檔案之前，先從伺服器下載一份當前版本存到本地的 _backup/ 目錄（gitignored）。如果上傳後站台出問題，可以立刻把備份版本傳回去。
部署前後的驗證
部署前檢查

  
      
          項目
          確認方式
      
  
  
      
          本地測試通過
          在本地環境跑過改動的頁面 / 功能
      
      
          Git 已 commit
          git status 顯示 clean
      
      
          要上傳的檔案清單已確認
          git diff --name-only 輸出符合預期
      
      
          關鍵檔案已備份
          _backup/ 有當前版本
      
  

部署後驗證
上傳完成後立刻驗證：

首頁能正常載入（HTTP 200、頁面內容正確）
本次改動涉及的功能可正常操作
如果是電商站：結帳流程、金流 callback 測試
檢查 PHP error log（cPanel → 錯誤日誌、或 FTP 下載 error_log 檔案）

如果驗證失敗，回退方式是從 Git 歷史取出上一個版本的受影響檔案重新上傳：





1# 取出上一個部署 tag 的特定檔案
2git show deploy-2026-06-25:path/to/file.php > _rollback/file.php
3# 用 FTP 上傳 _rollback/file.php 覆蓋 prod
CI 化 FTP 部署
手動 FTP 部署的問題是它依賴特定人的 FTP client 和操作紀律。用 GitHub Actions 把 FTP 上傳自動化，可以讓部署變成「push 到 main → CI 跑測試 → CI 上傳到伺服器」的流程，不依賴任何人的本地環境。





 1name: Deploy via FTP
 2on:
 3  push:
 4    branches: [main]
 5
 6jobs:
 7  deploy:
 8    runs-on: ubuntu-latest
 9    steps:
10      - uses: actions/checkout@v4
11        with:
12          fetch-depth: 2
13
14      - name: Deploy to FTP
15        uses: SamKirkland/FTP-Deploy-Action@v4
16        with:
17          server: ${{ secrets.FTP_HOST }}
18          username: ${{ secrets.FTP_USER }}
19          password: ${{ secrets.FTP_PASS }}
20          server-dir: /public_html/
21          exclude: |
22            **/.git*
23            **/.git*/**
24            **/node_modules/**
25            **/.env
26            **/config.local.php
FTP 憑證存在 GitHub repo 的 Secrets 裡（Settings → Secrets and variables → Actions），不寫在 workflow 檔案裡。
CI 化後的改變

  
      
          面向
          手動 FTP
          CI 化 FTP
      
  
  
      
          部署紀錄
          FTP client 的 log（通常不保留）
          GitHub Actions 的 run history（永久保留）
      
      
          部署觸發
          某人手動操作
          push 到 main 自動觸發
      
      
          上傳前測試
          依賴個人紀律
          CI 可加 lint / test step
      
      
          多人協作
          需要共用 FTP 帳密
          帳密在 GitHub Secrets、workflow 共用
      
  

限制
FTP 部署沒有原子性（atomic deployment）——檔案逐一上傳的過程中，伺服器上同時存在新舊版本的檔案混合狀態。如果上傳的檔案之間有依賴關係（新的 A.php 引用新的 B.php，但 B.php 還沒上傳完），短暫的錯誤窗口無法避免。流量高的站台如果需要零停機部署，需要升級到 SSH + symlink 切換的部署方式，那屬於 VPS 遷移之後的能力。
Git tagging 部署紀錄
每次部署前在 Git 打一個 tag，讓「這次部署的是哪個版本」有明確的錨點：





1git tag deploy-$(date +%Y-%m-%d-%H%M)
2git push origin --tags
tag 的命名用日期時間戳而非版號，因為這類專案通常沒有語意化版號的概念。tag 的作用是：

回退時知道要退到哪個版本（git diff deploy-previous deploy-current 看這次改了什麼）
多次部署之間的差異可追蹤
CI 化後可以用 tag 觸發部署而非每次 push 都部署

資料庫變更的回退跟程式碼獨立處理——程式碼可以靠 Git 回退，資料庫要靠 SQL dump 回退，兩者的回退點要對齊但機制不同。資料庫的備份策略見資料庫備份與變更管理。
跨分類引用

→ 無 SSH 的 FTP / 面板管理環境接管：本篇的母文章，涵蓋接手的完整流程
→ 資料庫備份與變更管理：資料庫端的備份、migration 紀律與回退策略
→ Legacy PHP 的安全盤點：credential 分離之後的存取控制與安全掃描
→ 無 SSH 環境的監控與告警：部署後用外部監控驗證服務正常
→ 模組七：infra 走 PR 流程：從 FTP CI 化進一步演進到完整的 PR review 流程




ALB
Fri, 26 Jun 2026 00:00:00 +0000
ALB（Application Load Balancer）的核心職責是接收外部流量、根據規則（path、host header）把請求路由到後端的 target group，並用健康檢查持續驗證後端是否能服務。它是系統對外的第一個接觸點，跑在 public subnet 裡。
概念位置
ALB 在核心服務層裡的角色是「入口設施」。它掛在 public subnet 的 security group 上（入站允許 80/443），把流量導向 private subnet 裡的 ECS task 或 EC2 instance。ALB 本身是 stateless 的 — 重建一個 ALB 不會遺失資料，但會換掉它的 DNS 名稱，所以對外服務通常在 ALB 前面掛一個穩定的 Route 53 alias record。
TLS 終結是 ALB 的標準職責：HTTPS listener 引用 ACM（AWS Certificate Manager）簽發的憑證，ALB 處理加解密，後端收到的是 HTTP 明文。憑證由 ACM 自動續期，IaC 用 DNS 驗證方式描述憑證 — 讓「憑證存在、續期、掛載」整條鏈都進版本控制。
可觀察訊號
以下狀況指向 ALB 相關問題：

使用者看到 502 — ALB 轉發請求但後端回應異常（健康檢查可能通過但實際請求處理失敗），查 target group 的健康狀態和後端 log
使用者看到 503 — target group 裡沒有健康的後端，通常是部署期間所有舊 task 停了但新 task 還沒通過健康檢查
HTTPS 憑證過期警告 — 如果用 ACM 搭配 DNS 驗證，憑證自動續期；看到過期警告代表 DNS 驗證記錄被刪了或 ACM 服務異常

設計責任
使用 ALB 時要決定：

健康檢查參數：檢查路徑（用應用層的 health endpoint、不用根路徑）、間隔、閾值。閾值太寬鬆會把壞掉的後端留在輪替裡，太嚴格會在部署瞬間誤判
HTTP → HTTPS redirect：port 80 的 listener 設定固定回應 301 redirect 到 443，確保所有流量走加密
TLS 憑證：用 ACM 搭配 DNS 驗證，讓憑證的簽發和續期自動化
穩定 DNS：ALB 前面掛 Route 53 alias record，對外暴露的是自己的 domain name 而非 ALB 的隨機 hostname

鄰卡

Subnet — ALB 跑在 public subnet，後端跑在 private subnet
Security Group — ALB 的 security group 是系統對外唯一合理開放 0.0.0.0/0 的位置（僅限 80/443）
ECS — ALB 透過 target group 把流量導向 ECS task



Legacy PHP 的安全盤點
Fri, 26 Jun 2026 00:00:00 +0000
接手的 legacy PHP 專案在做完程式碼與資料庫的現況快照之後，下一步是安全盤點。安全狀態在盤點之前是未知的——前一位維護者可能所有表單都用 prepared statement，也可能每個查詢都直接拼接使用者輸入。盤點的範圍涵蓋 credential 散落、PHP 版本風險、程式碼層的漏洞模式、伺服器端的 .htaccess 與權限設定、以及外部依賴的已知漏洞。
Credential 掃描與處理
寫死在程式碼裡的 credential 是接手後最先要掌握的風險面。資料庫密碼、API key、SMTP 帳號這些值如果散落在多個 PHP 檔案裡，每一個都是外洩路徑。
掃描方式
用 grep 對整個 codebase 搜尋常見的 credential 關鍵字：





1grep -rn "password\|passwd\|secret\|api_key\|app_key\|mysql_connect\|mysqli_connect\|PDO(" \
2  --include="*.php" .
常見的集中位置是 config.php、wp-config.php、database.php、settings.php，以及專案根目錄的 .env。但 legacy 專案的 credential 經常散落在意想不到的地方——寫在某個 helper function 的預設參數裡、硬編碼在 cron job 的 PHP 檔案裡、或藏在某個很久沒改的 email 發送模組裡。grep 的涵蓋範圍應該是整個專案目錄，不只是已知的 config 檔案。
如果專案已經在本地 Git repo（見主文的快照步驟），檢查 Git 歷史裡有沒有曾經存在但後來被刪除的 credential：





1git log --all -p -- '*.php' | grep -i "password\|secret\|api_key" | head -30
歷史裡的 credential 無法從 Git 裡真正移除（rewrite history 可以但成本高），所以找到的 credential 都要列入輪替清單。
處理方式
掃描結果彙整成一張清單，每筆記錄：credential 類型、所在檔案、用途、是否可輪替。處理優先序：

  
      
          類型
          處理方式
          優先級
      
  
  
      
          資料庫密碼
          移到 .env 或 config.local.php（gitignore）
          立刻
      
      
          第三方 API key（金流、簡訊）
          移到 config + 確認可輪替
          立刻
      
      
          SMTP 密碼
          移到 config
          第二順位
      
      
          內部服務 token
          移到 config + 確認對方端有沒有輪替機制
          第二順位
      
      
          已停用的 credential
          確認停用後從 code 移除
          第三順位
      
  

把 credential 從 code 移到 .env 後，用 getenv('DB_PASSWORD') 或框架的 config 機制讀取。.env 加進 .gitignore，prod 的 .env 透過 FTP 單獨上傳、不進版本控制。
PHP 版本與已知漏洞
PHP 版本決定了這個專案暴露在什麼層級的平台風險下。已結束安全支援（EOL）的 PHP 版本不代表「馬上會被攻擊」，但代表任何未來被發現的漏洞都不會得到官方修補。
版本確認
在站台放一個 phpinfo.php，瀏覽後記錄版本號，完成後立刻刪除（phpinfo() 輸出含伺服器路徑與配置細節，留在 prod 上是資訊外洩）：





1php phpinfo(); ?>
或在 cPanel / Plesk 的 PHP 設定頁面直接查看。
版本風險對照

  
      
          版本
          安全支援狀態（2026）
          風險等級
          行動
      
  
  
      
          5.6 以下
          已 EOL 超過 8 年
          高
          列入升級計畫、優先處理
      
      
          7.0 - 7.4
          已 EOL
          中高
          排進季度 roadmap
      
      
          8.0
          已 EOL（2023-11）
          中
          排進半年 roadmap
      
      
          8.1
          安全修補中（至 2025-12）
          已接近 EOL
          規劃升級到 8.2+
      
      
          8.2+
          活躍支援中
          低
          維持更新
      
  

版本升級是獨立的工程專案——可能會觸發函式棄用警告、行為變更、甚至語法不相容。盤點階段的任務是記錄版本和風險等級，升級規劃放在穩定維運之後。
常見的 PHP 安全漏洞模式
Legacy PHP 專案最常見的四類漏洞都可以用 grep 做初步掃描。掃描結果是候選清單、不是確認的漏洞——每個命中都需要讀上下文確認是否有防護。
SQL injection
任何把使用者輸入直接拼接到 SQL 查詢裡的寫法都是 SQL injection 的候選：





1# 找使用 mysql_query / mysqli_query 但沒有 prepare/bind 的查詢
2grep -rn "mysql_query\|mysqli_query" --include="*.php" . | grep -v "prepare\|bind_param"
3
4# 找字串拼接的 SQL 查詢
5grep -rn "query.*\\\$_GET\|query.*\\\$_POST\|query.*\\\$_REQUEST" --include="*.php" .
修法是改用 prepared statement（PDO 或 mysqli 的 prepare + bind_param）。如果 codebase 大量使用 mysql_* 函式（PHP 7.0 已移除），這本身就是版本升級的阻礙——需要同時處理。
XSS（跨站腳本）
把使用者輸入直接輸出到 HTML 而沒有跳脫：





1# 找直接 echo/print 使用者輸入的地方
2grep -rn "echo.*\\\$_GET\|echo.*\\\$_POST\|echo.*\\\$_REQUEST\|echo.*\\\$_COOKIE" --include="*.php" .
3
4# 找 PHP 短標籤輸出
5grep -rn " --include="*.php" .
修法是所有輸出都經過 htmlspecialchars($var, ENT_QUOTES, 'UTF-8')。模板引擎（如 Twig、Blade）預設會做跳脫，使用模板引擎的專案 XSS 風險較低。
檔案包含（File Inclusion）
把使用者輸入當作 include 或 require 的路徑：





1grep -rn "include.*\\\$_\|require.*\\\$_\|include_once.*\\\$_\|require_once.*\\\$_" --include="*.php" .
這類寫法讓攻擊者可以指定載入任意檔案（本地或遠端）。修法是用白名單限制可載入的檔案路徑。
檔案上傳
檢查上傳處理的三個面向：副檔名驗證（只允許白名單）、上傳目錄是否可執行 PHP（不應該）、檔案大小限制。





1# 找上傳處理程式碼
2grep -rn "move_uploaded_file\|\\\$_FILES" --include="*.php" .
每個命中的上傳處理都要確認：有沒有驗證副檔名（黑名單不夠、要白名單）、上傳目錄有沒有 .htaccess 禁止 PHP 執行（見下節）、有沒有重新命名上傳的檔案（避免覆寫攻擊）。
Session 管理





1# 找 session 相關設定
2grep -rn "session_start\|session_regenerate_id\|session\.cookie_httponly\|session\.cookie_secure" --include="*.php" .
確認：登入成功後有沒有呼叫 session_regenerate_id(true) 防止 session fixation、session.cookie_httponly 是否為 on（防止 JavaScript 讀取 session cookie）、session.cookie_secure 在 HTTPS 站台是否為 on。
.htaccess 安全設定
無 SSH 的 Apache 環境中 .htaccess 是可用的伺服器端安全防線。盤點時確認這些設定是否存在，缺少的補上。
基礎安全設定





 1# 禁止目錄列表 — 防止瀏覽上傳目錄的檔案清單
 2Options -Indexes
 3
 4# 阻擋敏感檔案的 HTTP 存取
 5 "\.(env|local|bak|sql|log|ini|conf|yml|json|lock|md)$">
 6    Require all denied
 7
 8
 9# 阻擋隱藏檔案與目錄（.git、.env 等）
10 mod_rewrite.c>
11    RewriteEngine On
12    RewriteRule (^\.|/\.) - [F]
13
14
15# 強制 HTTPS
16 mod_rewrite.c>
17    RewriteCond %{HTTPS} off
18    RewriteRule ^(.*)$ https://%{HTTP_HOST}%{REQUEST_URI} [L,R=301]
19
上傳目錄的 PHP 執行禁令
在上傳目錄（如 uploads/、wp-content/uploads/）放一個獨立的 .htaccess：





1# 禁止此目錄下的 PHP 執行
2php_flag engine off
3
4# 只允許靜態檔案類型
5 "\.(?!jpg|jpeg|png|gif|pdf|webp|svg|css|js)">
6    Require all denied
7
這條設定讓即使攻擊者成功上傳了 .php 檔案，也無法透過 HTTP 請求觸發執行。
安全 header





 1# 防止 MIME type sniffing
 2Header set X-Content-Type-Options "nosniff"
 3
 4# 防止 clickjacking
 5Header set X-Frame-Options "SAMEORIGIN"
 6
 7# XSS 防護（現代瀏覽器多已內建、但舊站加上無害）
 8Header set X-XSS-Protection "1; mode=block"
 9
10# Referrer 資訊控制
11Header set Referrer-Policy "strict-origin-when-cross-origin"
檔案權限
無 SSH 環境的權限控制能力有限——多數情況下透過 FTP client 檢查和調整。

  
      
          對象
          建議權限
          理由
      
  
  
      
          目錄
          755
          owner 可讀寫執行、group/other 可讀可執行（Apache 需要執行權才能進入目錄）
      
      
          PHP 檔案
          644
          owner 可讀寫、group/other 只讀
      
      
          Config 檔案（含 credential）
          640
          group 可讀（Apache 通常跟 owner 同 group）、other 不可讀
      
      
          上傳目錄
          755
          跟一般目錄相同，搭配 .htaccess 禁止 PHP 執行
      
  

777 權限（所有人可讀寫執行）在多租戶主機上等於同一台伺服器的其他租戶也能讀寫這些檔案。如果發現任何目錄或檔案是 777，立刻改回 755/644。FileZilla 在檔案上按右鍵 → 「File permissions」可以查看和修改。
外部依賴的安全性
Composer 管理的依賴
如果專案使用 Composer，在本地跑一次已知漏洞檢查：





1composer audit
這條指令比對 composer.lock 裡的每個套件版本與 Packagist 的安全公告資料庫，列出有已知 CVE 的套件。
手動管理的依賴
沒有 Composer 的 legacy 專案可能直接把第三方程式碼複製進專案目錄。常見的高風險依賴：

  
      
          依賴
          常見位置
          檢查方式
      
  
  
      
          PHPMailer
          class.phpmailer.php、PHPMailer/
          比對版本號與 GitHub releases 的安全公告
      
      
          jQuery
          js/jquery.min.js
          打開檔案看版本號、低於 3.5.0 有 XSS 漏洞
      
      
          CKEditor / TinyMCE
          editor/、tinymce/
          舊版有 XSS 漏洞、比對 CVE
      
      
          WordPress plugins
          wp-content/plugins/
          用 WPScan 掃描
      
  

JavaScript CDN 引用
檢查 HTML 裡引用的外部 JavaScript CDN 連結，確認：使用 integrity 屬性（Subresource Integrity）防止 CDN 被竄改、引用的 CDN 是否仍在維護。
掃描工具
除了手動 grep，可以用工具做自動化掃描。這些工具都從本地或外部執行，不需要在 prod 伺服器上安裝任何東西。

  
      
          工具
          類型
          用途
          費用
      
  
  
      
          PHP_CodeSniffer + Security Standard
          靜態分析
          掃描 PHP 程式碼的安全反模式
          免費
      
      
          PHPStan / Psalm
          靜態分析
          型別檢查間接發現不安全的資料流
          免費
      
      
          WPScan
          WordPress 專用
          掃描 WordPress 核心、plugin、theme 漏洞
          免費（API key 有額度限制）
      
      
          Nikto
          Web server 掃描
          從外部掃描 HTTP server 的已知弱點
          免費
      
      
          Mozilla Observatory
          線上掃描
          檢查 HTTP security header 設定
          免費
      
      
          Snyk
          依賴掃描
          類似 composer audit 但涵蓋更廣
          免費方案可用
      
  

WordPress 站台的掃描指令：





1# WPScan 掃描（從本地執行、掃描遠端站台）
2wpscan --url https://example.com --enumerate vp,vt,u
3# vp = vulnerable plugins, vt = vulnerable themes, u = users
所有掃描結果存進 repo 的 security-audit/ 目錄，標上日期。這份報告是後續修補計畫的輸入，也是向管理層說明安全狀態的依據。
跨分類引用

→ 無 SSH 的 FTP / 面板管理環境接管：本文的前置步驟（程式碼與資料庫快照）
→ 資料庫備份與變更管理：SQL injection 修復前先備份，避免修補過程造成資料遺失
→ 無 SSH 環境的監控與告警：安全事件的持續偵測與錯誤追蹤
→ 模組二：身分與憑證地基：credential 管理的系統性設計
→ Backend 模組七：資安與資料保護：應用層安全的完整討論




CIDR（Classless Inter-Domain Routing）
Fri, 26 Jun 2026 00:00:00 +0000
CIDR（Classless Inter-Domain Routing）用前綴長度表示一段 IP 地址範圍。10.0.0.0/16 表示前 16 bit 是網路位址、後 16 bit 是主機位址，提供約六萬五千個可用位址。前綴越短、範圍越大：/16 比 /24（約 256 個位址）大 256 倍。VPC 和 subnet 的地址空間都用 CIDR 表示。
概念位置
CIDR 是 VPC 規劃的起點決策。建立 VPC 時指定的 CIDR 區塊決定了這個 VPC 能容納多少 subnet 和多少資源。這個決策在建立後難以修改——事後擴張意味著追加 secondary CIDR，而追加的網段在 routing 與服務相容性上有限制。
在 infra 系列中，CIDR 規劃出現在模組三：網路地基的 VPC 段落。Terraform 的 cidrsubnet 函式可以從 VPC 的 CIDR 自動切出 subnet 的子網段，避免手動計算。
可觀察訊號
CIDR 規劃出問題的訊號有兩類。第一類是地址耗盡：subnet 切不出新的子網段、或 subnet 內的 IP 分配用完，新資源無法取得位址。第二類是網段衝突：需要透過 VPC peering、Transit Gateway 或 VPN 互連兩個 VPC 時，發現兩端的 CIDR 重疊，路由無法解析，peering 建立失敗。
設計責任
規劃 CIDR 時要決定：

大小：單一環境用 /16 通常足夠寬裕，切成 /20 的 subnet 可分配 16 個子網段
不重疊：多個環境（dev 10.0.0.0/16、staging 10.1.0.0/16、prod 10.2.0.0/16）用連續但不重疊的區段，為日後互連預留空間
與地端的協調：如果未來可能接 VPN 回地端機房，CIDR 要避開地端已使用的私有網段

鄰卡

VPC — 用 CIDR 區塊定義的邏輯隔離網段
Subnet — 從 VPC CIDR 切出的子網段



無 SSH 環境的監控與告警
Fri, 26 Jun 2026 00:00:00 +0000
無 SSH 的環境通常不允許安裝監控 agent（Datadog agent、New Relic APM daemon 都需要 daemon 常駐或 root 權限），伺服器的內部指標（CPU、記憶體、磁碟）只能從主機商的控制面板看到靜態數值，沒有告警機制。這種環境的監控策略是從外部觀測——用 HTTP check 確認服務存活、用不需要 agent 的錯誤追蹤服務捕捉例外、用定期量測建立效能基線。每一層都不依賴 server 端安裝任何東西。
可用性監控（外部 HTTP check）
外部 HTTP check 的運作方式是從第三方伺服器定期對目標 URL 發 HTTP 請求，驗證回應狀態碼、回應時間、以及頁面內容是否包含預期的文字。服務掛了或回應異常時觸發告警。
工具選型

  
      
          工具
          免費方案
          檢查間隔
          特色
      
  
  
      
          UptimeRobot
          50 個 monitor
          5 分鐘
          設定簡單、API 可整合
      
      
          Better Stack
          10 個 monitor
          3 分鐘
          含 incident 管理與 status page
      
      
          Pingdom
          1 個 monitor（試用）
          1 分鐘
          Synthetic monitoring、付費功能完整
      
  

UptimeRobot 的免費方案對多數無 SSH 環境的站台足夠——50 個 monitor 可以覆蓋一個站台的主要入口。
該監控哪些 URL
選監控目標的判準是「這個 URL 掛了代表哪一層出問題」：

  
      
          URL
          驗證的層次
          掛了代表什麼
      
  
  
      
          首頁
          web server 存活
          Apache/Nginx 或 PHP 本身掛了
      
      
          登入頁
          應用框架正常運作
          PHP session 或框架初始化失敗
      
      
          一個資料庫相依的頁面
          DB 連線存活
          MySQL 掛了或連線數滿了
      
      
          金流 callback URL
          第三方服務可達
          付款回調會失敗、訂單狀態卡住
      
  

每個 monitor 設兩層閾值：回應時間 >3 秒為警告（效能劣化的早期訊號）、>10 秒或非 200 狀態碼為嚴重（服務已不可用）。
告警通道
免費方案通常支援 email 與 webhook（可串 Slack）。付費方案加 SMS 和電話。接手初期用 email + Slack 即可，等確認告警不會誤報後再決定要不要升級到 SMS。頻繁誤報會讓團隊學會忽略通知——閾值要設在「真的有問題才響」的水位。
錯誤追蹤（不需要 server agent）
PHP 的錯誤追蹤在無 SSH 環境有兩條路徑：server 端用 PHP 內建的 error_log、client 端用不需要安裝的 SaaS 服務。
PHP error_log（server 端、不需 SSH）
PHP 可以把錯誤寫進檔案，設定方式是在 .htaccess 或 php.ini（如果主機允許）加入：





1# .htaccess — 啟用錯誤記錄、關閉畫面顯示
2php_flag display_errors off
3php_flag log_errors on
4php_value error_log /home/user/logs/php_errors.log
error_log 的路徑要指向 web root 之外的目錄，避免錯誤訊息被外部存取。設定後透過 FTP 定期下載這個檔案、用 grep 篩選嚴重等級：





1# 篩選 Fatal 和 Warning（過濾掉 Notice / Deprecated）
2grep -E "Fatal|Warning" php_errors.log | tail -50
Sentry（PHP + JavaScript、不需 server agent）
Sentry 的 PHP SDK 不需要系統層 agent，只需要在應用程式碼裡初始化：





1composer require sentry/sentry




1// 在應用程式進入點（如 index.php 最前面）加入
2\Sentry\init([
3    'dsn' => 'https://examplekey@o0.ingest.sentry.io/0',
4    'traces_sample_rate' => 0.1,
5]);
這段程式碼會在 PHP 拋出未捕捉的例外或觸發 error 時，把錯誤資訊（stack trace、request context、使用者資訊）透過 HTTP 送到 Sentry 的 SaaS 平台。免費方案每月 5,000 個事件，對流量不大的流量不大的站台通常足夠。
前端的 JavaScript 錯誤追蹤更簡單——在 HTML 的  加一行 Sentry 的 CDN script，不需要修改 server 設定：





1<script
2  src="https://browser.sentry-cdn.com/8.x/bundle.tracing.min.js"
3  crossorigin="anonymous"
4>script>
5<script>
6  Sentry.init({ dsn: "https://examplekey@o0.ingest.sentry.io/0" });
7script>
JavaScript SDK 捕捉的是瀏覽器端的錯誤——DOM 操作失敗、AJAX 請求異常、未處理的 Promise rejection。跟 PHP 端的 SDK 各抓不同層的問題。
error_log vs Sentry 的分工
error_log 是 server 端的文字紀錄，需要手動下載和篩選；Sentry 有搜尋、聚合、告警和 stack trace 視覺化。兩者互補：error_log 保留完整紀錄作為備份、Sentry 提供可操作的告警和分析介面。error_log 在 PHP 嚴重到 Sentry SDK 自己也掛掉的情況下仍然有紀錄。
效能基線
效能基線的責任是回答「正常狀態下回應時間是多少」，讓異常浮現時有比對的參考。沒有基線時，回應時間從 200ms 劣化到 2 秒、但因為「好像一直都這麼慢」而沒人察覺。
量測方式
最簡單的量測是從本機或 CI 環境定期 curl：





1# 量測回應時間（秒），只看 time_total
2curl -o /dev/null -s -w "%{time_total}\n" https://example.com
把這段做成 GitHub Actions 的 scheduled workflow，每小時跑一次、把結果追加到 repo 的 CSV 檔案，就有了一條回應時間的趨勢線：





 1on:
 2  schedule:
 3    - cron: '0 * * * *'
 4jobs:
 5  perf-check:
 6    runs-on: ubuntu-latest
 7    steps:
 8      - uses: actions/checkout@v4
 9      - run: |
10          TIME=$(curl -o /dev/null -s -w "%{time_total}" https://example.com)
11          echo "$(date -u +%Y-%m-%dT%H:%M:%SZ),$TIME" >> perf-log.csv
12      - run: git add perf-log.csv && git commit -m "perf check" && git push
這條趨勢線本身就是監控：回應時間連續幾個小時上升，代表某個東西在劣化（DB 查詢變慢、磁碟快滿、PHP process 卡住）。
頁面效能
Google PageSpeed Insights（免費、不需安裝）分析前端載入效能，包含 LCP、CLS、FID 等 Core Web Vitals。對 legacy PHP 站台有用的是它會指出渲染阻塞的 CSS/JS、未壓縮的圖片、缺少快取 header 這類不需要動後端就能改善的問題。
資料庫效能（需改 code）
如果能修改 PHP 程式碼，在資料庫查詢前後加計時、超過閾值就寫 error_log：





1$start = microtime(true);
2$result = $pdo->query($sql);
3$elapsed = microtime(true) - $start;
4if ($elapsed > 1.0) {
5    error_log(sprintf("Slow query (%.2fs): %s", $elapsed, substr($sql, 0, 200)));
6}
累積一段時間後，從 error_log 裡 grep Slow query 就能看出哪些查詢是效能瓶頸。這不是完整的 APM，但在沒有 agent 的環境裡是最接近 slow query log 的替代方案。
帳單與流量異常偵測
這類主機通常按流量或磁碟空間計費，異常流量（bot 掃描、DDoS、爬蟲）會讓帳單飆高或觸發主機商的流量限制。
流量監控
主機控制面板（cPanel 的 AWStats 或 Webalizer）提供基本的流量分析——top referrer、top page、bot 流量佔比。每月檢查一次，重點看：

bot 流量佔比是否異常高（>50% 通常代表有爬蟲）
單一 IP 的請求量是否異常集中
帶寬使用量的趨勢（月增超過 20% 且沒有對應的業務成長要查原因）

客戶端分析（不需 server 安裝）
Google Analytics 或 Plausible（隱私友善替代品）只需要在頁面加一段 JavaScript。它們追蹤的是真實使用者的瀏覽行為（page view、session、referrer），跟 server 端的 access log 互補：server log 看所有請求（含 bot），GA/Plausible 只看真實瀏覽器。
Cloudflare 免費方案
如果 DNS 可以切換，把 domain 接上 Cloudflare（免費方案）提供三個能力而不需要動 server：

流量分析：比 AWStats 更即時、有地理分佈和 bot 過濾
DDoS 保護：基本的 Layer 3/4 防護免費
CDN 快取：靜態資源（CSS/JS/圖片）由 Cloudflare 快取、減輕 origin 負擔

設定只需要把 domain 的 nameserver 改成 Cloudflare 提供的 NS、原始 DNS record 在 Cloudflare 重建。對無 SSH 環境的站台來說這是投資報酬率最高的單一改善動作——不動 server、不改 code、但同時拿到流量可見性和基本防護。
整合成最低成本監控方案
按投入程度分三層，每一層都包含上一層：

  
      
          層級
          組成
          月費
          覆蓋
      
  
  
      
          Tier 1（零成本）
          UptimeRobot free + Sentry free + Google Analytics
          $0
          可用性 + 錯誤追蹤 + 流量
      
      
          Tier 2（最低付費）
          +Better Stack ($19/mo) + Cloudflare free
          ~$19
          +incident 管理 + 流量分析 + CDN
      
      
          Tier 3（升級路徑）
          遷移到 VPS → 安裝 APM agent → 對齊模組六的 IaC 監控
          依 VPS
          完整 server 端可觀測性
      
  

Tier 1 在接手當天就能建好（30 分鐘設定 UptimeRobot + Sentry + GA），零成本提供基本的「服務掛了會知道、程式碼出錯會收到、流量異常看得到」的覆蓋。Tier 2 適合站台有營收或合約 SLA 要求時。Tier 3 是離開無 SSH 環境後的正規化路徑，監控從外部觀測升級為 server 端全面可觀測性，見模組六：可觀測性與 log。
跨分類引用

→ 無 SSH 的 FTP / 面板管理環境接管：本篇的母篇，監控建立在盤點與本地環境之後
→ 程式碼版控與 FTP 部署紀律：部署後的驗證用監控確認服務正常
→ Legacy PHP 的安全盤點：錯誤追蹤可能暴露安全問題（未捕捉的 SQL error、路徑洩漏）
→ 模組六：可觀測性與 log：Tier 3 升級路徑的目標——有 server 存取後的 IaC 監控
→ Monitoring 監控體系：客戶端行為訊號（SDK / Collector）的完整討論




IAM（Identity and Access Management）
Fri, 26 Jun 2026 00:00:00 +0000
IAM（Identity and Access Management）是雲端平台用來回答「某個身分能不能對某個資源做某件事」的授權系統。它把授權拆成三個獨立的元件：identity（身分，發起動作的主體）、policy（政策，描述「允許或拒絕對哪些資源做哪些動作」的規則）、role（角色，一組可以被臨時取得的權限集合）。這三者的分工是後面所有憑證決策的前提。
概念位置
IAM 是模組二：身分與憑證地基的核心機制。它決定了誰能動什麼——人、服務、CI pipeline 各拿剛好夠用的權限（最小權限），憑證有明確的生命週期。身分層失守的代價在五個 infra 責任面向中最高，因為它是其他所有資源的閘門。
在 infra 系列中，IAM 的設計從三個維度展開：最小權限的持續收斂（不是一次設定就結束）、用 OIDC 短期憑證取代長期 access key、以及跨帳號的權限邊界（SCP + Permissions Boundary）。
可觀察訊號
IAM 需要關注的訊號：某個 role 的 policy 有 *:* 或 AdministratorAccess（權限過大）；credential report 顯示有長期 access key 超過 90 天未輪替（憑證散落風險）；Access Analyzer 顯示某個 role 的實際使用 action 遠少於授予的 action（權限擴散）；dev 環境的 CI role 能列出 production 的資源（環境隔離失效）。
設計責任
IAM 設計時要決定：

身分類型區分：人用 SSO 登入（強制 MFA）、雲上服務用 instance profile / task role、雲外 CI 用 OIDC 聯合
權限分級：admin / operator / viewer 三級，見團隊權限分級
環境隔離：每個環境的 role 不能存取其他環境的資源
收斂節奏：定期用 Access Analyzer 觀察實際使用的 action，收掉沒用到的權限

鄰卡

OIDC — 用短期 token 取代長期 access key 的聯合機制
Security Group — 網路層的存取控制（IAM 是 API 層的存取控制）
CloudTrail — 記錄 IAM 身分的 API 呼叫歷史



Route Table
Fri, 26 Jun 2026 00:00:00 +0000
Route table 是一組轉送規則，掛在 subnet 上，定義「目的地是某個網段的封包該往哪送」。每個 subnet 關聯一張 route table，封包離開 subnet 時逐條比對規則、走最長前綴匹配的那一條。
概念位置
Route table 決定了一個 subnet 是 public 還是 private。技術上的差別只有一行：route table 裡有沒有一條 0.0.0.0/0 → Internet Gateway 的預設路由。有這條路由的 subnet 是 public（封包可以直接出網、外部也可以連入）；把預設路由指向 NAT Gateway 的 subnet 是 private（只能主動出站、外部無法入站）。subnet 本身的屬性不含 public/private 標記，性質完全由關聯的 route table 賦予。
可觀察訊號
private subnet 的服務突然拉不到外部套件或第三方 API 全部逾時時，排查路徑的第一步是檢查該 subnet 關聯的 route table：預設路由是否指向健康的 NAT Gateway。如果只有某一個可用區的節點受影響，通常是那一區的 NAT Gateway 或其所在 subnet 出狀況。
另一個常見訊號是新建的 subnet 沒有手動關聯 route table，被 VPC 的 main route table 自動關聯——main route table 的預設設定可能跟預期不符。
設計責任
使用 route table 時要決定：每個 subnet 的預設路由指向什麼（Internet Gateway / NAT Gateway / Transit Gateway / 無）、VPC 內部流量是否需要自訂路由（peering、endpoint）、以及 main route table 是否該保持空白以避免新 subnet 意外取得對外路由。每一條路由的目的地網段和目標要在 IaC 裡明確描述，讓 route table 的語意可被 review。
鄰卡

Subnet — route table 掛在 subnet 上
NAT — private subnet 的預設路由目標
VPC — route table 存在於 VPC 內



SCP (Service Control Policy)
Fri, 26 Jun 2026 00:00:00 +0000
Service Control Policy（SCP）是 AWS Organizations 裡套用在 OU 或帳號上的權限上限。SCP 不授予權限——它設定一個天花板，限制該範圍內的 IAM 能做什麼。即使帳號內有 AdministratorAccess 的 IAM role，SCP deny 的操作仍然被擋下。
概念位置
SCP 跟 IAM policy 的關係是交集而非覆蓋：一個操作要同時被 SCP 允許且被 IAM policy 允許才會生效。SCP 的設計目的是讓組織管理者設定「即使帳號管理員也做不了」的護欄，常見的 day-1 SCP 包括：禁止關閉 CloudTrail、禁止離開指定 region、禁止刪除 VPC Flow Logs。
SCP 套用在 OU 上時會繼承給 OU 下所有帳號和子 OU。Management account（Organizations 的根帳號）不受 SCP 約束——這是設計上的逃生門，也是 management account 應該盡量不跑 workload 的原因。
可觀察訊號
當帳號內的 IAM role 執行某個操作時收到 AccessDeniedException、但該 role 的 IAM policy 確實允許該操作，SCP 是第一個要檢查的位置。另一個訊號是新帳號加入 OU 後某些原本能用的服務突然不可用——通常是繼承了 OU 的 SCP deny list。
設計責任
SCP 的設計要決定：用 deny-list 策略（預設全開、明確列出禁止項）還是 allow-list 策略（預設全關、明確列出允許項）。Deny-list 較常見也較易維護——只需要管「哪些該禁」。Allow-list 更嚴格但維護成本高——每次有新服務需求都要更新 SCP。
套用 SCP 前要確認不會擋到正在運作的服務——先在 sandbox OU 測試，確認既有 workload 不受影響再推到 workload OU。SCP 的變更跟 IAM 一樣要走 PR review。跨帳號策略的完整設計見跨帳號策略文章。
鄰卡

IAM — SCP 是 IAM policy 的上層天花板
環境分離 — SCP 靠 OU 結構實現環境之間的權限隔離



Remote State Backend
Fri, 26 Jun 2026 00:00:00 +0000
Remote state backend 是 IaC 工具用來存放 state 的共享儲存機制。它要同時滿足三件事：持久保存（不會因為某台筆電故障而遺失）、防止並行寫入衝突（兩個人不能同時 apply）、以及保護敏感內容（state 內含資源的真實屬性，可能包含密碼或 key）。
概念位置
State 是 IaC 工具對現實的唯一記憶。把它放在本地檔案系統等於把整個基礎設施的記憶綁在一台機器上——換人接手、換台電腦、或兩人同時 apply，記憶就分裂了。Remote state backend 解決的是「讓 state 變成團隊共用的、有保護的事實來源」。
典型的自管組合是 S3（存放 state 檔、開 versioning 和加密）加上 DynamoDB（提供 apply 時的並行鎖）。託管服務（Terraform Cloud、Spacelift）把存放、鎖和加密包在一起，用月費換掉配置和維運負擔。
可觀察訊號
本地 state 的失敗訊號是：跑 terraform plan 時出現「想刪掉」明知存在的資源——通常代表本地 state 跟雲端實際狀態已經脫節。另一個訊號是兩個人同時跑 apply 但沒有任何鎖機制阻擋——結果是互相覆蓋對方的變更，state 進入不一致狀態。
Remote backend 設定後，如果 terraform init 提示 state 遷移確認，代表正在從本地搬到遠端——這是正確的一次性操作，但搬遷過程中不能有其他人在 apply。
設計責任
選擇 remote state backend 時要決定：自管還是託管（取決於團隊規模和維運餘裕）、state bucket 的加密與存取控制（誰能讀 state 等於誰能看到所有資源的敏感屬性）、versioning 是否開啟（是 state 回捲的唯一退路）、以及鎖表的設定（DynamoDB 的表名和 partition key）。
State 絕不能進 git——它含明文敏感值，推進版控等於把密碼寫進每個 clone 的歷史裡。Backend 設定本身（bucket name、region、鎖表名稱）寫在 HCL 裡進 git，state 檔本身只存在 backend 裡。
鄰卡

State — remote backend 存放的對象
Drift — state 與現實不一致時的現象
IaC — remote state backend 是 IaC 工具的基礎設施



Trust Policy
Fri, 26 Jun 2026 00:00:00 +0000
Trust policy 是附加在 IAM role 上的一份 JSON 文件，定義「誰被允許臨時取得（assume）這個 role 的權限」。跟 IAM policy 的差別是：IAM policy 描述「這個 role 能做什麼」，trust policy 描述「誰能變成這個 role」。兩者合在一起才構成完整的授權——先過 trust policy 的門、再受 IAM policy 的限。
概念位置
Trust policy 是 OIDC 聯合的核心配件。當 CI/CD 平台（GitHub Actions、GitLab CI）要用短期憑證存取雲端資源時，trust policy 用 OIDC token 裡的 claim（issuer、audience、subject）決定「這個 token 代表的身分能不能 assume 這個 role」。
Trust policy 的設計要點是 claim 的收斂程度。只驗 issuer 而不驗 repo 和 branch，等於同一個 CI 平台上所有專案都能 assume 這個 role——這是常見的設定陷阱。收到最緊意味著限定到「某個 org 的某個 repo 的某個 branch 或 environment」。
可觀察訊號
sts:AssumeRoleWithWebIdentity 呼叫失敗、回傳 AccessDenied 時，問題通常在 trust policy 的 condition 比對不上。排查路徑是把 CI 平台簽發的 OIDC token decode（JWT 的 payload 部分），逐一比對 token 裡的 iss、aud、sub 跟 trust policy 的 condition 值。
另一個訊號是 trust policy 的 condition 用了 StringLike 但 pattern 太寬（如 repo:my-org/*），讓非預期的 repo 也能 assume——這類過寬的 trust policy 在安全稽核時會被標記。
設計責任
設計 trust policy 時要決定：允許哪些外部身分 assume（issuer + subject 的精確匹配）、audience 是否需要額外驗證（AWS 預設 sts.amazonaws.com）、以及是否把 plan role 和 apply role 分開（plan 只需 read-only、apply 需要 write，用兩個 role 各自設不同 trust condition 來區分 branch 或 environment）。
Trust policy 的變更跟 IAM policy 一樣要走 PR review——因為改寬一個 condition 就等於給更多外部身分開門。設定指南見 OIDC Trust Policy 設定指南。
鄰卡

IAM — trust policy 是 IAM role 的一部分
OIDC — trust policy 用 OIDC token 的 claim 做 assume 判斷



Deletion Protection
Fri, 26 Jun 2026 00:00:00 +0000
Deletion protection 是雲端平台在資源層級提供的防護機制：開啟後，任何刪除該資源的操作（Console 點按、CLI 指令、IaC 的 destroy）都會被擋下，必須先顯式關閉保護才能執行刪除。這個額外步驟的目的是防止手滑、批次操作誤傷、以及 Terraform plan 裡意外出現的 destroy。
概念位置
Deletion protection 是 stateful 資源保護的第一道防線。運算節點可以隨時重建，資料一旦遺失通常無法重來——這條分界線決定了哪些資源該開保護。對 stateful 資源（資料庫、持久化儲存）來說，這是 day-1 該開的設定，不是「等穩定再開」的選項。
不同 AWS 服務的保護機制名稱不同但行為一致：

 
 
 服務
 屬性名稱
 保護對象
 
 
 
 
 RDS
 deletion_protection
 資料庫 instance
 
 
 EC2
 disable_api_termination
 運算 instance
 
 
 S3
 MFA delete
 bucket 版本控制
 
 
 DynamoDB
 deletion_protection_enabled
 表格
 
 

可觀察訊號
需要開啟 deletion protection 的訊號是資源承載了不可重建的狀態。判斷方式是問一個問題：「這個資源被刪除後，能不能在 10 分鐘內從程式碼或備份完整恢復？」不能的就該開。
terraform plan 輸出裡出現 destroy 或 forces replacement（-/+）時，deletion protection 是阻擋意外資料遺失的最後一道閘門。有保護的資源在 apply 時會報錯而非直接刪除，讓操作者有機會停下來確認。
設計責任
用 IaC 描述 stateful 資源時，把 deletion protection 寫進程式碼而非手動在 Console 開啟——這讓保護策略本身成為可審查、可追蹤的設定。同時搭配 skip_final_snapshot = false（RDS）確保刪除前自動做最後一份快照。
Deletion protection 擋的是刪除操作，不擋資料覆寫或邏輯損壞——一段錯誤的 UPDATE 不會被 deletion protection 攔截。資料層的完整防線還需要備份保留與時間點還原（PITR），跟 deletion protection 正交。
鄰卡

State — deletion protection 在 state 裡記錄為資源屬性，plan 會顯示保護狀態
IaC — 保護策略寫進 IaC 讓它可審查



checkov
Fri, 26 Jun 2026 00:00:00 +0000
checkov 是一個開源的靜態分析工具，掃描 Terraform / CloudFormation / Kubernetes 等 IaC 程式碼，比對內建的規則庫找出安全漏洞與合規違規。它在 plan 之前或之後執行、不建立任何雲端資源，所以是 CI pipeline 裡最便宜的安全檢查之一。
概念位置
checkov 在 infra PR 流程裡的位置是 fmt → validate → checkov / tfsec → plan。前兩步檢查語法正確，checkov 檢查語意安全，plan 檢查實際差異。checkov 補的是 reviewer 肉眼容易漏的盲區——一條 security group 規則寫成 0.0.0.0/0 在 HCL 裡只是一行字串，人會看漏，規則不會。
三個常見的 IaC 掃描工具各有側重：

 
 
 工具
 側重
 維護方
 
 
 
 
 checkov
 安全 + 合規
 Prisma Cloud (Palo Alto)
 
 
 tfsec
 安全
 Aqua Security
 
 
 tflint
 provider 正確性
 社群
 
 

checkov 的規則庫最廣（涵蓋 CIS Benchmark、SOC 2、PCI DSS 等合規框架），tfsec 的規則更聚焦安全面，tflint 偏向「這個 instance type 在這個 region 存不存在」的 provider 正確性。三者可疊加使用。
可觀察訊號
需要引入 checkov 的訊號是 PR review 開始漏掉安全問題——S3 bucket 缺 public access block、RDS 沒開加密、IAM policy 過寬。這些問題的 pattern 是固定的、可以用規則比對，不應該靠人記憶來擋。
checkov 命中後要區分「真漏洞」和「情境合理的例外」。ALB 的 HTTPS listener 在 port 443 開 0.0.0.0/0 是設計本意，不是漏洞。豁免用行內註解標記並寫理由：#checkov:skip=CKV_AWS_260:ALB public HTTPS listener。詳細的規則配置與豁免管理見 checkov 與 tfsec 規則配置。
設計責任
引入 checkov 時要決定兩件事：啟用哪些規則（全部 vs 漸進啟用），以及命中時 CI 要不要擋（hard fail vs warning）。常見的漸進策略是先從高嚴重度規則開始、設為 hard fail，中低嚴重度設為 warning，隨團隊習慣逐步收緊。
鄰卡

IaC — checkov 掃描的對象
Security Group — checkov 最常攔截的 0.0.0.0/0 全開規則



State 修復與清理
Fri, 26 Jun 2026 00:00:00 +0000
接手一個有半套 IaC 的環境時，state 是工具對現實的唯一記憶，但這份記憶可能已經失真——有些記錄對應的雲端資源已經不存在、有些雲端資源從來沒被記錄、有些記錄的屬性跟現實對不上。在動任何資源之前，先把 state 修到一個可信的狀態，是所有後續操作的前提。
診斷 state 的健康狀態
terraform plan 的輸出是診斷 state 健康度的主要工具。在不做任何 code 變更的前提下跑 plan，輸出的每一行差異都代表 state 與現實的落差：





1terraform plan -detailed-exitcode -no-color > plan-diagnosis.txt 2>&1
2# exit code: 0=無差異, 1=錯誤, 2=有差異
Plan 的差異分三類，每一類的處理方式不同：

  
      
          Plan 顯示
          意義
          處理方式
      
  
  
      
          ~ update in-place
          state 記錄的屬性跟雲端不同（drift）
          判斷要保留手動改的值還是回退到 code
      
      
          + create
          code 裡有但 state 裡沒有（漏 import）
          確認資源是否已存在於雲端，是則 import
      
      
          - destroy
          state 裡有但 code 裡沒有（orphan）
          確認資源是否還在雲端、是否還在用
      
  

Plan 跑到一半報錯（exit code 1）而非產出差異，通常代表更嚴重的問題：provider 版本不相容、state 格式損壞、或 state 引用的資源 ID 在雲端已經不存在。錯誤訊息裡的 resource address 指向問題所在。
Orphaned entry 的辨認
State 裡有一筆資源記錄，但雲端已經沒有對應的資源（手動刪除、帳號切換、或 region 不對），plan 會顯示 - destroy 或直接報 Error: reading ... NotFound。這種 orphaned entry 需要從 state 移除，否則每次 plan 都會嘗試操作一個不存在的目標。





1# 列出 state 裡所有資源，逐一確認是否還存在
2terraform state list | while read addr; do
3  echo "Checking: $addr"
4  terraform state show "$addr" > /dev/null 2>&1 || echo "  POSSIBLY ORPHANED: $addr"
5done
這個腳本不連雲端驗證（只檢查 state 內部一致性），真正的驗證要靠 plan 輸出。如果 plan 對某個資源報 NotFound，那就是 orphaned。
State 操作前的備份
所有 state 操作（rm、mv、push、import）都是直接改寫 state 檔的破壞性操作。操作前的備份是唯一的回退路徑。





1# 從遠端 backend 拉一份完整的 state 到本地
2terraform state pull > state-backup-$(date +%Y%m%d-%H%M).json
3
4# 確認備份可用：檢查 JSON 格式和 resource 數量
5jq '.resources | length' state-backup-*.json
如果 state 存在 S3 且 bucket 有開 versioning（應該有，見模組一），S3 的版本歷史是第二道保險。但 state pull 的本地備份更可控——S3 versioning 的回復要操作 bucket、權限要對、而且版本 ID 需要另外查。
移除 orphaned entry：state rm
terraform state rm 把一筆資源從 state 裡移除，但不觸碰雲端的實際資源。用途是清理 state 裡對應不到雲端的記錄，讓 plan 不再嘗試操作不存在的目標。





1# 移除單一 orphaned resource
2terraform state rm 'aws_instance.old_bastion'
3
4# 移除整個 module 的記錄（module 被拆掉但資源還在雲端、要重新 import）
5terraform state rm 'module.legacy_network'
移除後立刻跑 plan 驗證：原本針對這個資源的 destroy / error 應該消失。如果移除後 plan 反而出現 + create（想重建這個資源），代表 code 裡還有對應的 resource block——要麼也刪 code，要麼這個資源需要 import 而不是 rm。
判斷「該 rm 還是該 import」的依據：資源在雲端還存在嗎？存在就 import（讓 state 重新追蹤它），不存在就 rm（清掉過時的記錄）。
搬移資源：state mv 與 moved block
重構 Terraform code（把資源搬進 module、改 resource name、改 module 結構）時，state 裡的 resource address 會跟著變。如果不處理，plan 會判定「舊 address 要 destroy、新 address 要 create」——對 stateless 資源只是多等一次重建，對 RDS 這類 stateful 資源是資料遺失。
Terraform 1.1+ 的 moved block 是宣告式的搬遷，寫在 HCL 裡、可 review、可回滾：





1moved {
2  from = aws_security_group.web
3  to   = module.network.aws_security_group.web
4}
跑 plan 時 Terraform 會把 state 裡的舊 address 自動對應到新 address，plan 顯示 (moved) 而非 destroy + create。驗證 plan 為零變更後 apply，moved block 生效後可以從 code 裡刪掉。
terraform state mv 是指令式的搬遷，直接操作 state 檔。它比 moved block 靈活（可以跨 state 搬）、但不可 review、不進版本控制、操作錯了只能靠備份回退。

  
      
          操作
          moved block
          state mv
      
  
  
      
          可 review
          是（寫在 HCL）
          否（直接改 state）
      
      
          可回滾
          是（刪 moved block）
          否（靠備份）
      
      
          跨 state 搬遷
          不支援
          支援
      
      
          適用情境
          同 state 內的重構
          跨 state 搬遷、moved 表達不了的複雜搬移
      
  

優先用 moved block，state mv 留給 moved 做不到的場景。
手動編輯 state：pull → 改 → push
極少數情況需要直接編輯 state JSON——例如修正一個 resource 的 ID（某次 import 用了錯的 ID）、或手動修改一個 attribute 讓 plan 不再觸發不必要的變更。





1# 拉到本地
2terraform state pull > state-edit.json
3
4# 編輯（用 jq 或文字編輯器，改目標 resource 的 attributes）
5# 極度小心：改錯任何欄位都可能讓 plan 產生破壞性差異
6
7# 推回遠端
8terraform state push state-edit.json
state push 有 lineage 和 serial 檢查——如果本地的 state 跟遠端的 lineage 不同（來自不同的 init），push 會被拒絕。加 -force 可以繞過，但這意味著覆蓋遠端、丟棄遠端從你 pull 之後的所有變更。
手動編輯 state 的操作規則：備份 → 改一個欄位 → push → plan 驗證 → 確認只有預期的變化。批次改多個欄位時，每改一個就走一輪 push + plan，不要累積修改。
從錯誤的 state push 回復
如果 state push 推了一個錯誤的 state，回復路徑取決於 backend 有沒有版本歷史。
S3 backend 有 versioning





 1# 列出 state 檔的所有版本
 2aws s3api list-object-versions \
 3  --bucket acme-tf-state \
 4  --prefix prod/network/terraform.tfstate \
 5  --query 'Versions[].{VersionId:VersionId,LastModified:LastModified,Size:Size}' \
 6  --output table
 7
 8# 下載上一個正確的版本
 9aws s3api get-object \
10  --bucket acme-tf-state \
11  --key prod/network/terraform.tfstate \
12  --version-id "correct-version-id" \
13  state-recovered.json
14
15# 用 terraform state push 推回
16terraform state push state-recovered.json
沒有 versioning
如果 bucket 沒開 versioning、又沒有本地備份，state 的上一個版本就沒了。這時候的選項：

從 plan 的輸出反推哪些 resource 的 state 記錄是錯的，逐一用 state rm + import 修正
作為最後手段，刪掉整份 state、從零 import 所有資源——這等於重做一次完整的 IaC 導入

這正是模組一要求 state bucket 開 versioning 的理由——沒有版本歷史的 state backend，一次 push 錯誤就沒有回退路徑。
State backend 搬遷
接手的環境可能用本地 state（.terraform/terraform.tfstate）或者 state 放在不符合安全要求的位置（沒加密的 S3、沒有鎖表、甚至存在某個人的桌機上）。搬遷到正規的遠端 backend 是接手後的優先工作。
本地 → S3 + DynamoDB





 1# 在 backend.tf 加上遠端 backend 設定
 2terraform {
 3  backend "s3" {
 4    bucket         = "acme-tf-state"
 5    key            = "prod/network/terraform.tfstate"
 6    region         = "ap-northeast-1"
 7    encrypt        = true
 8    dynamodb_table = "acme-tf-lock"
 9  }
10}




1# 重新初始化，Terraform 會偵測到 backend 變更並提示搬遷
2terraform init -migrate-state
3
4# 確認搬遷成功
5terraform plan  # 應該顯示零變更
-migrate-state 會把本地 state 的內容寫入新的遠端 backend。搬遷後本地的 .terraform/terraform.tfstate 變成一個指向遠端 backend 的指標，不再存放實際 state 內容。
舊 S3 → 新 S3
跟本地搬遷流程相同——改 backend.tf 的 bucket/key/region，跑 terraform init -migrate-state。Terraform 會從舊 backend 讀 state、寫入新 backend。
搬遷後驗證：plan 為零變更、新 bucket 裡有 state 檔、舊 bucket 的 state 檔可以保留一段時間作為備份。搬遷過程中 DynamoDB 的 lock 會確保沒有人同時 apply。
搬遷期間的風險：如果有人在你改 backend.tf 之後、跑 init 之前，用舊 backend 跑了 apply，新 backend 的 state 會缺少那次變更。搬遷時通知團隊暫停所有 Terraform 操作，搬遷完成後再恢復。
時程參考：單一 orphaned entry 的 rm 操作約 15-30 分鐘（含備份和驗證）。Backend migration 約 1-2 小時。5-10 個問題項的完整 state 整理約半天到一天。
跨分類引用

→ 有半套 IaC 但文件缺失的環境接管：本篇的上層操作流程
→ Drift 分類處理：state 修復完成後，下一步是處理 managed resource 的 drift
→ 模組一：最小可行 IaC：state backend 的設計與 versioning 要求
→ 模組四：環境分離與模組化：moved block 在環境拆分 retrofit 裡的角色




Drift 分類處理指南
Fri, 26 Jun 2026 00:00:00 +0000
terraform plan 跑完後如果出現非零差異，每一行差異都需要判斷：這是該保留的手動改動，還是該回退的意外漂移。這些差異就是 drift — state 記錄的狀態跟雲端實際狀態之間的落差。判斷錯誤的代價從「設定被覆蓋」到「stateful 資源被重建導致資料遺失」不等，所以分類要在 apply 之前完成。半套 IaC 環境的 drift 通常比全 IaC 環境更多，因為有人在 Console 改了 state 不知道的資源。
讀 plan 輸出：三種變更類型
terraform plan 的輸出用符號標示每個資源的預期變更。三種類型的風險等級不同，處理方式也不同：





 1# in-place update（~）：修改屬性，資源本身不動
 2~ resource "aws_security_group_rule" "api_ingress" {
 3    ~ cidr_blocks = ["10.0.0.0/16"] -> ["10.0.1.0/24"]
 4  }
 5
 6# forces replacement（-/+）：刪除後重建，新資源取得新 ID
 7-/+ resource "aws_db_instance" "primary" {
 8    ~ identifier = "app-prod" -> "app-prod-v2" # forces replacement
 9  }
10
11# destroy（-）：刪除資源
12- resource "aws_security_group" "legacy_api" {
13  }

  
      
          符號
          意義
          風險等級
          處理原則
      
  
  
      
          ~
          in-place update
          中
          逐項判斷，多數可安全 apply
      
      
          -/+
          forces replacement
          高
          stateful 資源絕對不能直接 apply
      
      
          -
          destroy
          極高
          代表雲端有但 code 沒有，apply 會刪除
      
  

-（destroy）是最危險的類型。它代表某個資源存在於雲端但不在 Terraform code 裡——可能是手動建的、可能是從 state 被 state rm 移除過、也可能是前任維護者刪了 code 但沒跑 apply。不論原因，直接 apply 會把這個資源從雲端刪除。
-/+（forces replacement）的危險在於它看起來像修改但實際是先刪後建。對 stateless 資源（security group rule、IAM policy）影響有限，對 stateful 資源（RDS、EBS volume）意味著資料遺失。
故意的 drift vs 意外的 drift
不是所有 drift 都是問題。接手的環境裡，手動改動可能有兩種來源：
故意的改動是前任維護者為了解決特定問題而做的。常見形態：臨時開了一條 security group 規則讓外部監控系統連進來、調高了 RDS 的 max_connections 參數來應對流量成長、手動把 instance type 從 t3.small 升到 t3.medium 因為記憶體不夠。這類改動通常是正確的操作決策，只是沒有同步回 code。
意外的漂移是無意中造成的。常見形態：在 Console 測試時改了某個設定但忘了改回來、另一個 Terraform workspace 的 apply 動到了共用的資源、AWS 自動更新了某些屬性（如 default security group 的描述）。
區分兩者的方法是查 CloudTrail——看這個改動是誰做的、什麼時候、有沒有對應的 ticket 或 changelog 記錄。如果 CloudTrail 顯示改動發生在一次事故期間、由當時的值班工程師執行，大概率是故意的。如果改動來自一個不認識的 IAM user、或時間點跟任何已知事件對不上，可能是意外。





1aws cloudtrail lookup-events \
2  --lookup-attributes AttributeKey=ResourceName,AttributeValue=sg-0abc123 \
3  --start-time 2026-01-01 \
4  --query 'Events[].[EventTime,Username,EventName]' \
5  --output table
每條 drift 的處理決策
每條 plan 差異都需要一個明確的決定：保留手動改動（更新 HCL）、回退到 code 的版本（apply）、還是暫時擱置（不動）。
保留（adopt into HCL）
適用條件：手動改動是正確的操作決策，雲端的現況是期望狀態。處理方式是把 HCL 改成跟雲端一致，讓下次 plan 對這項顯示零差異。
多數 drift 應該走這條路。前任維護者調大了 instance type、加了一條 security group 規則、改了 RDS parameter——這些改動通常有操作上的理由。把 code 對齊現實，比把現實改回 code 安全。
回退（apply to revert）
適用條件：手動改動是錯誤的、或已經不再需要（如臨時開的除錯 port）。確認回退不會影響運行中的服務後，讓 Terraform apply 把設定改回 code 描述的版本。
回退前要確認的事：這條規則還有沒有服務在用？這個參數改回去會不會讓連線斷開？如果不確定，先 adopt 再說——adopt 的成本是改一行 HCL，回退錯誤的成本可能是服務中斷。
擱置（defer）
適用條件：目前無法判斷該保留還是回退（缺乏 context），或改動涉及 stateful 資源的 forces replacement 需要更多準備。擱置的做法是在 code 裡加 lifecycle { ignore_changes = [...] } 暫時跳過這項差異，並留下註解說明為什麼擱置、預計什麼時候處理。





1resource "aws_db_instance" "primary" {
2  # drift: identifier 被手動改過，forces replacement
3  # 擱置原因：直接 apply 會觸發 RDS 重建、資料遺失
4  # 預計處理：確認新 identifier 後更新 HCL + 用 moved block
5  lifecycle {
6    ignore_changes = [identifier]
7  }
8}
擱置不是永久解法。ignore_changes 會讓這個屬性脫離 IaC 管理，累積越多就越接近「回到手動」。定期回顧擱置清單，逐項決定保留或回退。
Stateful 資源的高風險 drift
stateful 資源（RDS、EBS volume、DynamoDB table）的 drift 需要特別處理，因為 forces replacement 意味著資料遺失。以下屬性的改動在 plan 裡會顯示 -/+（forces replacement），直接 apply 會先刪除再重建：

  
      
          資源類型
          觸發 replacement 的屬性
          後果
      
  
  
      
          RDS
          identifier、engine、某些 storage_type 變更
          資料庫被刪除重建，資料遺失
      
      
          EBS volume
          availability_zone、size（縮小）
          volume 被刪除重建，資料遺失
      
      
          DynamoDB
          hash_key、range_key
          table 被刪除重建，資料遺失
      
  

發現 stateful 資源的 forces replacement 時，處理步驟：

在 lifecycle 加 ignore_changes 暫時跳過
備份資源（RDS snapshot、EBS snapshot）
確認正確的目標狀態後，用 moved block 或 terraform state mv 處理 identity 變更
用 terraform plan 驗證變更類型從 -/+ 變成 ~（in-place）或零差異
移除 ignore_changes

refresh-only：安全的 state 同步
terraform apply -refresh-only 只更新 state 來反映雲端現況，不改變任何雲端資源。它適用於「雲端被手動改了、想讓 state 跟上現實但還沒準備好改 HCL」的情境。





1terraform apply -refresh-only
refresh-only 之後，state 跟雲端一致了，但 state 跟 HCL 之間的差異仍然存在——下次跑 plan 仍會看到 drift。它解的是「state 過時」的問題，不是「code 跟現實不一致」的問題。兩者要分開處理：先 refresh-only 讓 state 乾淨，再逐項決定 HCL 要不要對齊。
使用 refresh-only 的前提是確認 state backend 有 versioning——如果 refresh-only 把 state 改壞了（例如併發操作導致 state 衝突），需要能回捲到上一個版本。
批次 drift 收斂工作流
接手環境的 drift 通常不是一兩條，可能有幾十條。逐條處理可以但效率低，按類型批次處理比較實際：
第一批：安全類。security group 規則、IAM policy 的 drift 優先處理，因為它們直接影響存取邊界。全開的規則該關就關（回退），故意開的規則 adopt 進 code。
第二批：stateless 資源的 in-place drift。tag 不一致、description 不一致、非關鍵屬性的變更。這類 drift 風險低，可以批次 adopt（把 HCL 改成跟雲端一致）然後一次 apply 驗證。
第三批：stateful 資源。RDS parameter、backup retention、instance class 的變更。逐個處理，每個都要確認是 in-place update 而非 forces replacement。
第四批：擱置項。forces replacement、無法判斷的改動。加 ignore_changes 暫緩，排進 backlog 定期回顧。
每一批處理完後跑一次 plan，確認該批的 drift 消失、其他批次的 drift 沒被影響。不要一次 apply 所有批次——分批的目的是控制每次 apply 的影響範圍。
整個 drift 收斂流程的時程取決於 drift 數量和 stateful 資源的比例。20 條以內的 drift、多數是 stateless 的 in-place 變更，2-3 天可以收完。50 條以上、含多個 stateful 資源的 forces replacement，需要 1-2 週分階段處理。
跨分類引用

→ 有半套 IaC 但文件缺失的環境接管：本文的上層總覽
→ State 修復與清理：drift 處理前先確認 state 本身是健康的
→ Unmanaged resource 批次 import：drift 收斂完成後，開始 import unmanaged resource
→ Console 唯讀鐵律：drift 的根本防線
→ 模組四：環境分離與模組化：drift 收斂後的環境拆分路徑




Fargate
Fri, 26 Jun 2026 00:00:00 +0000
Fargate 是 AWS ECS 的一種 launch type，把容器的運算實例交給 AWS 代管。使用 Fargate 時不需要配 EC2 instance、不需要管 capacity provider 的 scaling、不需要更新 AMI——只描述 task 需要多少 vCPU 和記憶體，AWS 負責分配運算資源。
概念位置
ECS 有兩種 launch type，差別在運算層的管理責任：

 
 
 Launch type
 運算層管理
 適用情境
 
 
 
 
 Fargate
 AWS 代管
 web API、微服務、批次任務
 
 
 EC2
 自管 instance
 GPU workload、高密度排程、成本敏感
 
 

Fargate 降低的是運維面（不用管 OS patch、不用管 instance 容量），代價是單位成本較高（同規格約比 EC2 高 20-40%）和啟動延遲（cold start 通常在 30-60 秒，EC2 上的 task 因為 instance 已在所以秒級啟動）。多數 web API 的初始選擇是 Fargate，流量穩定且成本壓力大時再切回 EC2 launch type。
可觀察訊號
評估是否從 Fargate 切到 EC2 的訊號是月費曲線。Fargate 按 vCPU-hour 和 memory-hour 計費，task 數量少時費用低、管理簡單。當 task 數量穩定在 10-20 個以上且流量模式可預測時，EC2 launch type 搭配 reserved instance 或 Savings Plans 的成本優勢開始顯著——但要承擔 instance 管理的運維負擔。詳細的成本分析見 ECS Fargate 成本分析與優化。
Fargate Spot 是介於兩者之間的選項：費用約為 on-demand Fargate 的 30%，但 AWS 可以隨時中斷 task（提前 2 分鐘通知）。適合可容忍中斷的 workload（批次處理、非即時的資料轉換），不適合面對使用者的即時 API。常見的混合策略是用 on-demand Fargate 跑基線流量、Fargate Spot 跑彈性擴張的部分。
設計責任
選 Fargate 時要決定三件事：task 的 vCPU / memory 規格（Fargate 的可選組合是固定的，不是任意搭配）、是否混用 Spot、以及 health check 的 grace period（Fargate 的 cold start 比 EC2 長，health check 太早判定失敗會讓 task 反覆重啟）。
task 規格的 rightsizing 靠 CloudWatch Container Insights 的 CPU / memory utilization 決定——p95 使用率低於 30% 代表規格過大、持續高於 80% 代表該升級。
鄰卡

ECS — Fargate 是 ECS 的 launch type 之一
ALB — Fargate task 通常掛在 ALB 的 target group 後面



phpMyAdmin
Fri, 26 Jun 2026 00:00:00 +0000
phpMyAdmin 是一套透過瀏覽器操作 MySQL 和 MariaDB 的 Web 應用程式。它提供圖形介面執行 SQL 查詢、瀏覽資料表、匯出與匯入資料庫、修改 schema（新增欄位、改索引、刪表）、以及管理使用者權限。多數主機商在安裝 cPanel 或 Plesk 時會一併預裝，讓租用主機的使用者不需要 SSH 就能管理資料庫。
概念位置
在無 SSH 的主機環境裡，phpMyAdmin 通常是唯一可用的資料庫管理入口。它取代了 mysql CLI client 和 mysqldump 指令的角色——查詢用 SQL 編輯器、匯出用匯出頁面、匯入用上傳 SQL 檔。接手維運時，phpMyAdmin 是拍下資料庫現況（SQL dump）的主要工具。
可觀察訊號
以下情境會遇到 phpMyAdmin：主機面板（cPanel / Plesk）裡有「phpMyAdmin」按鈕可以進入；接手的專案的資料庫操作文件提到「在 phpMyAdmin 裡執行」；或者專案的部署流程包含「登入 phpMyAdmin 匯入 SQL」。
設計責任
使用 phpMyAdmin 時要處理三個限制。第一是匯出 timeout：大資料庫（50MB 以上）的匯出可能因為 PHP 的 max_execution_time 限制而中斷，需要分表匯出或調整 phpMyAdmin 設定。第二是沒有 CLI 可腳本化：所有操作都要手動點擊，無法排程自動備份。第三是安全暴露：phpMyAdmin 掛在 web 上、可被外部存取，如果沒有設密碼保護或 IP 白名單，等於把資料庫管理介面開給全世界。
如果主機允許遠端 MySQL 連線（port 3306 開放），可以改用桌面工具（DBeaver、TablePlus、HeidiSQL）直連資料庫，繞過 phpMyAdmin 的 timeout 限制。
鄰卡

cPanel：phpMyAdmin 通常內嵌在 cPanel 裡



Unmanaged Resource 批次 Import 工作流
Fri, 26 Jun 2026 00:00:00 +0000
盤點階段產出的 managed vs unmanaged 兩欄清單裡（見盤點流程），unmanaged 那一欄的每個資源都要決定：納入 Terraform 管理、還是維持手動並記錄原因。這篇處理的是「決定要納管」的資源怎麼有系統地 import，而不是一次全部倒進去。
優先序：先 import 什麼
不是所有 unmanaged resource 都值得立刻 import。判斷依據是「這個資源不在 IaC 裡的風險有多高」和「import 的操作複雜度有多低」的交集。

  
      
          優先級
          資源類型
          理由
      
  
  
      
          1
          Security group、IAM role / policy
          安全邊界資源，手動改動的風險最高，且 import 後 plan 驗證直覺
      
      
          2
          VPC、subnet、route table
          網路地基，其他資源依賴它們，import 後上層資源的引用才能從 hardcode 換成引用
      
      
          3
          RDS、ElastiCache
          有狀態資源，import 操作本身不改資源，但 plan 不匹配時的修正要謹慎
      
      
          4
          S3 bucket、CloudWatch log group
          低風險、低依賴，但數量可能很多，適合最後批次處理
      
      
          5
          EC2 instance、Lambda
          變動頻繁、生命週期短，import 的 ROI 低——考慮是否改用 IaC 重建而非 import
      
  

優先級 1-2 的資源是地基層，import 後能讓後續的 IaC 引用鏈從 hardcode ID 換成資源屬性引用，這是 import 的結構性收益。優先級 5 的資源如果生命週期短（隨部署替換），用 IaC 重新定義再 apply 比逆向 import 划算。
import block 語法（Terraform 1.5+）
Terraform 1.5 引入了宣告式 import block，取代舊版的 terraform import CLI 指令。宣告式的優勢是 import 本身進版本控制、可 review、可回滾。





1import {
2  to = aws_security_group.api
3  id = "sg-0abc123def456"
4}
5
6import {
7  to = aws_db_instance.primary
8  id = "app-prod-primary"
9}
to 是 Terraform 裡的資源地址（resource type + name），id 是雲端的資源識別碼。每種資源的 id 格式不同：security group 用 sg-xxx、RDS 用 DB identifier、S3 用 bucket name、IAM role 用 role name。格式查 Terraform provider 文件的 Import 段。
多個 import block 可以寫在同一個檔案裡（如 imports.tf），一次 plan/apply 處理整批。apply 完成後這些 import block 可以刪除——它們的作用是觸發 import 動作，import 完成後 state 已經記住了對應關係。
generate-config-out 工作流
import block 只把資源綁進 state，不會自動產生對應的 HCL 定義。Terraform 1.5+ 提供 -generate-config-out flag 自動反推 HCL：





1terraform plan -generate-config-out=generated_resources.tf
這個指令會：

讀取所有 import block
查詢每個資源在雲端的真實屬性
把屬性寫成 HCL 資源定義，輸出到指定檔案
在 plan 輸出中標示每個資源為 import（不是 create/change/destroy）

生成的 HCL 是起點，需要人工 review 後才能正式使用。
生成 HCL 的 review 要點
自動生成的 code 有幾個常見問題需要修正：
缺少 lifecycle 設定
生成的 code 不會包含 lifecycle block。有狀態資源（RDS、S3）需要手動加上保護：





1resource "aws_db_instance" "primary" {
2  # ... generated attributes ...
3
4  lifecycle {
5    prevent_destroy = true
6  }
7}
沒加 prevent_destroy 的 stateful 資源，未來某次 plan 如果判定需要 replace，apply 會先刪除再重建——資料跟著消失。
預設值與隱含屬性
雲端資源有些屬性是由平台自動設定的（如 RDS 的 ca_cert_identifier、EC2 的 credit_specification），生成的 code 會把這些都寫出來。下次平台更新預設值時，plan 會顯示 drift。review 時判斷：這個屬性是刻意設定的（保留），還是平台預設的（刪掉、讓 Terraform 接受平台預設）。
判斷方法：如果一個屬性的值跟 provider 文件裡的 default 一致，通常可以刪掉。如果不確定，先保留——保留多餘的屬性只是 code 冗長，刪錯屬性可能在下次 apply 時改變資源行為。
provider 特有的 quirk
不同 provider 有各自的 import 陷阱：

  
      
          資源類型
          常見 quirk
      
  
  
      
          aws_security_group
          inline ingress/egress block 與獨立的 aws_security_group_rule 衝突，選其一
      
      
          aws_s3_bucket
          Terraform AWS provider 4.x 把 bucket 的子屬性（versioning、encryption）拆成獨立資源
      
      
          aws_iam_role
          assume_role_policy 是 JSON 字串，生成的 code 可能把 JSON 格式化方式跟 provider 預期不一致
      
      
          aws_db_instance
          password 屬性不會被 import（敏感值），需要手動設定或引用 Secrets Manager
      
  

security group 的 inline vs 獨立規則問題最常見：如果生成的 code 用 inline ingress block，但環境裡同時有獨立的 aws_security_group_rule 指向同一個 SG，兩者會互相打架。統一選一種寫法——多數情況用獨立 rule 更彈性。
批次策略
一次 import 太多資源會讓 plan 輸出太長、review 不了。按服務類型分批，每批 5-15 個資源：





1批次 1: security groups (所有 SG + 對應的 rules)
2批次 2: VPC + subnets + route tables + NAT
3批次 3: IAM roles + policies
4批次 4: RDS instances + subnet groups + parameter groups
5批次 5: S3 buckets + bucket policies
6批次 6: ALB + listeners + target groups
每批的操作流程固定：

寫 import block → imports-batch-N.tf
terraform plan -generate-config-out=generated-batch-N.tf → 檢查 plan 輸出全部是 import、沒有 create/destroy
review generated code → 修正 lifecycle、刪除平台預設屬性、處理 provider quirk
terraform plan → 確認零非預期變更（import 完後的 plan 應該只有 import 標記、沒有 change）
terraform apply → 執行 import
terraform plan → 再跑一次確認零 drift（import 後的 state 與雲端一致）
刪除 imports-batch-N.tf（import block 已完成使命）、把 generated-batch-N.tf rename 成正式檔名

批次之間要按依賴順序：先 import 被依賴的資源（VPC → subnet → SG），再 import 依賴它們的資源（RDS → EC2）。這樣後面批次的 generated code 可以引用前面批次已經在 state 裡的資源，而非 hardcode ID。
驗證：plan 必須是零非預期變更
import 完成的判準是 terraform plan 輸出只有兩種結果之一：

完全零變更（“No changes”）— 最理想，代表 HCL 和雲端現實完全匹配
只有已知且可接受的差異 — 某些屬性在 HCL 裡省略了（用平台預設）、或 provider 的 plan 行為跟雲端有已知的格式差異（如 JSON 排序不同）

出現 change（要修改屬性）代表 HCL 跟雲端有落差，apply 會把雲端改成 HCL 的版本。在確認這個修改是安全的之前，不要 apply。
出現 replace（先刪後建）代表某個屬性的修改會觸發資源重建。對 stateful 資源這等於資料遺失，必須在 apply 之前解決——通常是 HCL 裡漏寫了某個 force-new 屬性。
常見 import 失敗與處理

  
      
          錯誤訊息
          原因
          處理方式
      
  
  
      
          Resource already managed by Terraform
          資源已經在 state 裡
          用 terraform state list 確認、移除重複的 import block
      
      
          Cannot import non-existent remote object
          資源 ID 錯誤或資源已刪除
          確認 ID 格式正確、在 Console 確認資源存在
      
      
          Error: Unsupported resource type
          provider 版本太舊不支援該資源類型
          升級 provider version
      
      
          AccessDenied / is not authorized to perform
          執行 import 的身分權限不足
          import 需要對目標資源的 Describe* 和 Get* 權限
      
      
          Plan 顯示意外的 destroy
          import block 的 to 地址跟已存在的資源定義衝突
          確認 to 指向的 resource block 不已經管理另一個資源
      
  

import 操作本身不改變雲端資源——它只修改 state 檔。失敗時的回退方式是 terraform state rm ，把 state 裡的對應記錄移除，資源本身不受影響。
時程參考

  
      
          批次規模
          估計時間（含 review）
      
  
  
      
          5-10 個同類資源
          2-4 小時（含 generated code review）
      
      
          10-20 個混合資源
          1-2 天
      
      
          50+ 個資源的完整環境
          1-2 週（分 5-8 個批次、每批含驗證）
      
  

主要時間花在 generated HCL 的 review——生成是秒級的，確認每個屬性正確與否是人工判斷。第一批（security group）通常最慢，因為要建立 review 的肌肉記憶；後面的批次會加速。
跨分類引用

→ 有半套 IaC 但文件缺失的環境接管：import 前的盤點與 state 健康檢查
→ 兩套真相並存的過渡期操作：import 期間就是 dual-truth 狀態，操作規則見此篇
→ 模組一：IaC 工具選型與 state 地基：state backend 的設定與保護
→ 模組五：Stateful 資源保護：import stateful 資源後的 lifecycle 設定




FileZilla
Fri, 26 Jun 2026 00:00:00 +0000
FileZilla 是一套開源的 FTP / SFTP / FTPS client，支援 Windows、macOS 和 Linux。它的介面分成本地和遠端兩側的檔案瀏覽器，讓使用者透過拖放或右鍵選單在本機與伺服器之間傳輸檔案。在無 SSH 的主機環境裡，FileZilla 是上傳程式碼和下載備份的主要工具。
概念位置
FTP 是無 SSH 環境裡傳輸檔案的主要協定。FileZilla 把 FTP 操作從 CLI（如 ftp 或 lftp 指令）包裝成圖形介面，降低操作門檻。接手維運時，FileZilla 的角色是「把整個站台拉回本地」和「把改好的檔案推上 prod」。
可觀察訊號
以下情境會用到 FileZilla：接手的專案只有 FTP 帳密沒有 SSH key；部署方式是「FTP 上傳改過的檔案」；或者需要對比本地版本和伺服器版本的差異。
設計責任
使用 FileZilla 時有三個關鍵功能和注意事項。
站台管理員：儲存多組 FTP 連線設定（主機、帳號、密碼、port），避免每次手動輸入。接手時第一步是在站台管理員建好 prod 的連線，並確認協定選擇正確（FTP 明文、FTPS 加密、SFTP 走 SSH）。
目錄比較：「檢視 → 目錄比較 → 啟用」功能會標示本地與遠端的檔案差異——哪些本地較新、哪些遠端較新、哪些只存在於一邊。上傳前先跑目錄比較可以看到即將改動的範圍。
隱藏檔：預設不顯示以 . 開頭的檔案（如 .htaccess、.env、.user.ini）。要在「伺服器 → 強制顯示隱藏檔案」啟用，否則接手時會漏拉這些關鍵設定檔。
FTP 傳輸是逐檔覆寫、沒有原子性——上傳到一半斷線會讓伺服器上同時存在新舊版本的混合狀態。對關鍵檔案（index.php、.htaccess）的上傳需要額外小心。
鄰卡
無。FileZilla 是獨立工具。替代工具包括 WinSCP（Windows）、Cyberduck（macOS）、Transmit（macOS）。


兩套真相並存的過渡期操作
Fri, 26 Jun 2026 00:00:00 +0000
部分資源由 Terraform 管理、部分仍在手動操作的環境，比全手動更危險。全手動時每個人都知道要去 Console 操作，行為模式一致；半套 IaC 時同一個環境有兩套操作路徑，每一次操作都要先判斷「這個資源歸哪套管」，判斷錯了的後果是 apply 覆蓋手動設定、或手動改動讓 state 與現實分歧。這篇處理的是怎麼在這個過渡期安全操作，以及怎麼盡快離開這個狀態。
為什麼半套比全手動更危險
兩個方向的風險同時存在，而且互相放大。
apply 可能摧毀未納管的資源
Terraform apply 只知道 state 裡有什麼。一個存在於雲端但不在 state 裡的資源，對 Terraform 來說「不存在」。如果某個 managed resource 引用了一個 unmanaged resource 的 ID（例如一個 security group 引用了一個手動建的 security group 作為 source），apply 不會主動碰那個 unmanaged resource——但如果有人重構了 HCL 並把那個引用移除或改掉，apply 會改動 managed 的那一端，可能讓依賴它的 unmanaged 資源失去連線。
更直接的風險是 terraform destroy 或 terraform apply 配合 count = 0 這類邏輯刪除：如果有人誤判某個資源已經不用了、但它其實只是不在 state 裡（被前人 state rm 過），destroy 不會碰它——但如果有人重新 import 它再 destroy，資源就真的被刪了。
手動改動讓 managed 資源 drift
有人在 Console 手動改了一個已經由 Terraform 管理的資源（例如加了一條 security group 規則），state 不知道這個改動。下一次任何人跑 apply，Terraform 會把手動加的規則判定為「不該存在」並刪除。手動改動的人以為規則已經加好了，直到某次不相關的 apply 把它默默清掉。
這兩個風險的交叉效應是：團隊對「能不能跑 apply」和「能不能手動改」都缺乏信心，結果是兩邊都不敢動，變更停滯，技術債累積速度比全手動還快。
過渡期操作規則
過渡期的操作紀律核心是一句話：每個資源在任何時刻都只有一個合法的變更路徑。managed 資源走 IaC，unmanaged 資源走 Console + 變更日誌。混用就是 drift 的來源。
規則一：apply 前必讀 plan
過渡期的每一次 terraform apply 之前，都要完整讀 terraform plan 的輸出，逐行確認每一項變更是預期內的。特別警惕以下訊號：

will be destroyed：確認這個資源是否有其他依賴（即使它在 state 裡）
will be updated in-place 且變更的屬性不是這次修改的：代表有人手動改了這個屬性，apply 會覆蓋回去
must be replaced：資源會被先刪後建，stateful 資源（RDS、EBS）在這裡要暫停確認

過渡期禁止 terraform apply -auto-approve。即使 CI pipeline 也要把 apply 設為手動觸發（GitHub Actions 的 environment protection rule），確保有人看過 plan。
規則二：不手動改 managed 資源
一個資源一旦進了 Terraform state，所有對它的變更都走 HCL → plan → apply。在 Console 改它會製造 drift，而 drift 在過渡期特別危險——因為下一次 apply 可能已經隔了好幾天，中間的手動改動已經忘了。
如果遇到緊急情況必須手動改 managed 資源（例如安全事件需要立即封鎖某個 port），操作流程是：

在 Console 做緊急變更
立刻在變更日誌記錄：時間、資源、改了什麼、為什麼
在 HCL 裡同步這個變更，提 PR
PR 裡的 plan 應該顯示零變更（因為 HCL 已經對齊了手動改動）
合併 PR，state 透過下一次 apply 或 refresh 更新

規則三：記錄哪些資源歸誰管
維護一份「管理歸屬清單」——哪些資源在 Terraform state 裡、哪些還在手動管理。格式可以是 repo 裡的一個 markdown 表格：





 1## 資源管理歸屬
 2
 3| 資源類型       | 資源名稱/ID         | 管理方式   | 備註             |
 4| -------------- | -------------------- | ---------- | ---------------- |
 5| VPC            | vpc-0abc123          | Terraform  |                  |
 6| Subnet (×4)   | subnet-0def...       | Terraform  |                  |
 7| RDS            | app-prod-primary     | Terraform  | stateful、謹慎操作 |
 8| SG web         | sg-0web456           | Terraform  |                  |
 9| SG legacy-api  | sg-0legacy789        | 手動       | 待 import        |
10| EC2 worker     | i-0worker123         | 手動       | 待 import        |
11| Lambda cron    | cleanup-job          | 手動       | 待評估是否納管   |
這份清單的維護者是跑 apply 的人——每次 import 一個新資源後更新清單。清單同時是 team communication 的基礎：team member 要改某個資源前，先查清單確認管理方式。
團隊溝通
過渡期最重要的溝通是讓所有會碰 Console 的人知道哪些資源「不能手動改」。溝通的形式是直接的操作指令：
在 team channel 發一則釘選訊息：





 1[Infra 過渡期操作規則]
 2
 3以下資源已由 Terraform 管理，變更請走 PR：
 4- VPC 和所有 subnet
 5- Security group: sg-0web456, sg-0app789
 6- RDS: app-prod-primary
 7- ALB: app-prod-alb
 8
 9以下資源仍為手動管理，變更請在 Console 操作後寫 changelog：
10- EC2: i-0worker123
11- Lambda: cleanup-job
12- SG: sg-0legacy789
13
14不確定的資源：先問再動。
隨著 import 進展更新這則訊息。如果團隊用的是 Slack，可以把這則訊息設成 channel bookmark。
縮短過渡期
過渡期越長、兩套真相並存越久、操作事故的機率越高。縮短的方式是用 import sprint 集中處理。
Import sprint 的排程
一個 import sprint 是 1-2 天的集中工作，目標是把一批相關的 unmanaged 資源納入 Terraform。按風險從低到高排序：

  
      
          批次
          資源類型
          理由
          預估時間
      
  
  
      
          1
          SG、IAM role/policy
          高頻變更、drift 風險最高
          半天到一天
      
      
          2
          S3 bucket、CloudWatch
          stateless、import 風險低
          半天
      
      
          3
          EC2 instance、ECS
          中風險、需確認 user data 和 AMI
          一天
      
      
          4
          RDS、EBS
          stateful、import 失敗代價最高、最後做
          一天（含驗證）
      
  

每批的操作流程：

用 import block + terraform plan -generate-config-out 產生 HCL
審查生成的 HCL，修正屬性差異
plan 確認零變更
合併 PR
更新管理歸屬清單

縮短期間不要追求完美
import sprint 的目標是「納管」，不是「重構」。一個手動建的資源 import 進來後，它的 HCL 可能很醜（自動生成的 code 有大量冗餘屬性），但只要 plan 顯示零變更，它就已經是 managed 的了。重構 HCL 是 import 完成之後的事。
同樣，import sprint 期間不要同時做 module 化或環境分離。先把所有資源納管到同一份 state，之後再拆——拆的前提是所有資源都在 state 裡。
過渡期結束的判準
過渡期結束的定義是兩個條件同時滿足：

terraform plan 在無 code 變更時顯示零差異：代表 state 與雲端現實一致，沒有 drift
管理歸屬清單上的「手動」欄位清空：所有生產資源都進了 Terraform state

第一個條件用定期排程驗證（每天跑一次 plan，非零就告警）。第二個條件用資源盤點比對——雲端的 resource inventory 減去 terraform state list 的輸出，差集為空就完成。
過渡期結束後，操作規則簡化為：所有變更走 IaC + PR，Console 只用來觀察和排查。這就是模組一的 Console 唯讀鐵律。
跨分類引用

→ 有半套 IaC 但文件缺失的環境接管：本篇的前置操作（盤點、state 健康檢查、drift 收斂）
→ State 修復與清理：過渡期出問題時可能需要 state surgery
→ 模組一：Console 唯讀鐵律：過渡期結束後的操作紀律
→ 模組四：環境分離 retrofit：所有資源納管後的下一步
→ 模組七：infra 走 PR 流程：過渡期結束後的完整 PR 護欄




cPanel
Fri, 26 Jun 2026 00:00:00 +0000
cPanel 是最常見的 Web 主機管理面板，讓租用主機的使用者透過瀏覽器管理伺服器的常用功能——PHP 版本切換、cron job 排程、email 帳號管理、SSL 憑證安裝、檔案管理、資料庫管理、以及完整備份。Plesk 是同類產品，功能範圍相似但介面和設定路徑不同。
概念位置
cPanel 是無 SSH 環境裡的「控制中心」。它整合了多種工具的圖形入口：phpMyAdmin（資料庫）、檔案管理員（web 版 FTP）、PHP 設定、cron 編輯器、SSL/TLS 管理。接手維運時，第一步是確認有沒有 cPanel 存取權——有的話很多操作（備份、PHP 版本、cron）可以在面板裡完成，不需要 SSH。
可觀察訊號
以下情境代表環境有 cPanel：主機商提供了 cPanel 登入 URL（通常是 domain:2083）；接手時收到的帳密包含「cPanel 帳號」；或者主機商的服務說明提到 cPanel / WHM。
設計責任
接手維運時，cPanel 有幾個關鍵功能要確認：
完整備份：「備份精靈」可以一次打包整個帳號（檔案 + 資料庫 + email + cron + DNS 設定）。這是最快的「拍下現況」方式——比 FTP 逐檔拉 + phpMyAdmin 匯出快得多。但完整備份通常只能下載、不能自動排程到外部儲存（部分主機商限制）。
PHP 版本選擇器：可以切換整個帳號或單一域名的 PHP 版本。升級 PHP 時，可以先在 staging 子域名切到新版本測試、確認沒問題再切主域名。這是無 SSH 環境裡最安全的 PHP 升級方式。
cron job 管理：圖形介面設定排程任務，語法是 cron 標準格式。接手時要截圖或匯出所有 cron——它們可能是系統運作的隱性依賴（定期清快取、寄報表、同步資料）。
SSL/TLS：管理 HTTPS 憑證。部分主機商整合了 Let’s Encrypt 自動簽發，部分需要手動上傳憑證。
鄰卡

phpMyAdmin：通常內嵌在 cPanel 的「資料庫」區塊裡



.htaccess
Fri, 26 Jun 2026 00:00:00 +0000
.htaccess（Hypertext Access）是 Apache Web Server 的目錄層級設定檔。它讓使用者在沒有伺服器管理員權限的情況下，覆寫 Apache 的部分全域設定——包括 URL 重寫規則、目錄存取控制、PHP 設定覆寫、HTTPS 強制跳轉、以及 HTTP 安全標頭。每個目錄可以有自己的 .htaccess，Apache 處理請求時會從根目錄到目標目錄逐層讀取並套用。
概念位置
在 Apache 為主的主機環境（多數共享主機和部分 VPS），.htaccess 是不需要重啟伺服器就能調整行為的設定機制。WordPress、Laravel、Drupal 等 PHP 框架都依賴 .htaccess 的 URL rewrite 規則來實現 pretty URL（把 /blog/post-title 轉成 index.php?page=post-title）。
可觀察訊號
站台根目錄有 .htaccess 檔案（注意它是隱藏檔，FTP client 要啟用「顯示隱藏檔案」才看得到）。上傳目錄（uploads/）、後台目錄（admin/、wp-admin/）可能各有一份獨立的 .htaccess 做額外的存取控制。
設計責任
接手維運時，.htaccess 要注意四件事：
URL rewrite 規則：這些規則決定了站台的 URL 結構。亂改或刪除會讓所有內頁都回 404。修改前先備份原始版本。
安全設定：Options -Indexes 禁止目錄列表、php_flag engine off 禁止上傳目錄執行 PHP、Require all denied 禁止存取 .env 等機密檔案。這些設定分散在多個目錄的 .htaccess 裡，接手時要全部找出來。
PHP 設定覆寫：部分 PHP 設定（如 upload_max_filesize、max_execution_time）可以在 .htaccess 裡用 php_value 或 php_flag 指令覆寫。這些覆寫可能不在 php.ini 裡，只存在於 .htaccess。
遷移到 nginx 的影響：nginx 沒有 .htaccess 的對等機制——所有設定都在集中的 nginx 設定檔裡。從 Apache 遷移到 nginx 時，.htaccess 裡的每一條規則都要手動轉換成 nginx 語法。
鄰卡

php.ini / .user.ini：.htaccess 管 Apache 行為，.user.ini 管 PHP 行為，兩者互補



.env
Fri, 26 Jun 2026 00:00:00 +0000
.env 是一個純文字檔案，每行一組 KEY=VALUE 的環境變數定義。它的用途是把機密值（資料庫密碼、API key、SMTP 憑證）和環境專屬設定（資料庫 host、debug 模式開關）從程式碼分離出來，讓同一份程式碼在不同環境（開發、staging、production）用不同的設定值，而且機密值不進版本控制。
概念位置
.env 是跨語言的設定分離慣例。PHP 用 vlucas/phpdotenv 套件讀取、Node.js 用 dotenv 套件、Python 用 python-dotenv、Go 用 godotenv。這些套件的行為相同：程式啟動時讀 .env 檔案，把裡面的變數載入到執行環境的環境變數裡，讓程式碼用 $_ENV['KEY']（PHP）或 process.env.KEY（Node）存取。
可觀察訊號
站台根目錄有 .env 或 .env.production 檔案；.gitignore 裡有 .env 這一行；repo 裡有 .env.example 或 .env.sample 列出所有需要的變數但不填實際值。如果接手的專案沒有 .env 但 config.php 裡直接寫了資料庫密碼，代表設定分離還沒做——這是接手後應該處理的事。
設計責任
使用 .env 時有三個紀律：
不進 Git：.env 包含明文密碼，進了 Git 就跟著每一次 clone、fork、CI 快取擴散。.gitignore 必須排除 .env。如果 .env 已經在 Git 歷史裡，刪掉那一行不夠——密碼留在 history 裡，要輪替所有外洩的密碼。
範本檔進 Git：repo 裡放一份 .env.example，列出所有必要的環境變數但不填實際值。新接手的人複製 .env.example 成 .env，再填入自己環境的值。
不用 .env 管非機密設定：應用程式的功能開關、UI 設定、feature flag 不屬於 .env——這些設定沒有機密性、應該進版本控制。.env 只放「換一個環境就要改的值」和「不能被看到的值」。
鄰卡

php.ini / .user.ini：.env 管應用程式設定、php.ini 管 PHP runtime 設定



php.ini / .user.ini
Fri, 26 Jun 2026 00:00:00 +0000
php.ini 是 PHP 的全域設定檔，控制 PHP 的 runtime 行為——記憶體上限、檔案上傳大小、最大執行時間、錯誤報告層級、時區、session 處理方式。.user.ini 是 PHP 5.3 之後支援的目錄層級覆寫機制，放在站台目錄裡可以覆寫部分 php.ini 的設定，不需要伺服器管理員權限。
概念位置
php.ini 由伺服器管理員管理，租用主機的使用者通常不能直接修改。.user.ini 是使用者層級的設定覆寫——功能上類似 .htaccess 對 Apache 的角色，但只管 PHP 設定。在 cPanel 環境裡，部分設定也可以透過「PHP 選擇器」的圖形介面調整。
可觀察訊號
PHP 行為異常時要檢查的第一個地方。常見的情境：上傳檔案失敗（upload_max_filesize 太小）、長時間運算被中斷（max_execution_time 太短）、記憶體不足錯誤（memory_limit 太低）、看不到錯誤訊息（display_errors 關閉）。用 phpinfo() 可以看到每一項設定的目前值和來源（php.ini / .user.ini / .htaccess）。
設計責任
接手維運時要知道的關鍵設定：

 
 
 設定
 作用
 常見預設值
 接手時要確認的事
 
 
 
 
 memory_limit
 PHP 程式的記憶體上限
 128M
 大型操作（匯出、圖片處理）是否夠用
 
 
 upload_max_filesize
 單檔上傳大小上限
 2M
 是否符合業務需求
 
 
 post_max_size
 POST 請求的總大小上限
 8M
 要大於 upload_max_filesize
 
 
 max_execution_time
 PHP 腳本最大執行秒數
 30
 長時間操作（備份、匯入）是否需要加長
 
 
 error_reporting
 顯示哪些層級的錯誤
 E_ALL
 開發時開到 E_ALL、production 時關 display_errors
 
 
 display_errors
 是否在頁面上顯示錯誤
 Off
 production 應該關閉（錯誤寫 log 不顯示給使用者）
 
 

.user.ini 的修改不需要重啟 Apache/nginx，但有快取時間（預設 300 秒）——改完後要等最多 5 分鐘才生效。php.ini 的修改在多數環境需要重啟 web server。
鄰卡

.htaccess：.htaccess 管 Apache 行為（URL rewrite、存取控制），.user.ini 管 PHP 行為（記憶體、執行時間），兩者互補
.env：.env 管應用程式設定（DB 密碼、API key），php.ini 管 PHP runtime 設定（記憶體、上傳大小）



DNS
Fri, 26 Jun 2026 00:00:00 +0000
DNS（Domain Name System）是把人類可讀的域名（example.com）轉成機器可達的 IP 位址（93.184.216.34）的分散式查詢系統。瀏覽器輸入網址後，作業系統先查本地快取、再逐層查詢 DNS server，最終拿到 IP 才能建立連線。
概念位置
DNS 在 infra 裡扮演「服務的門牌」角色。平台遷移、環境切換、TLS 憑證驗證都經過 DNS。ALB 或 CDN 前面通常掛一層 DNS record 作為穩定入口——IP 會隨資源重建而變，DNS 名稱不變。
常見的記錄類型

 
 
 類型
 指向什麼
 典型用途
 
 
 
 
 A
 IPv4 位址
 主要的域名 → IP 對應
 
 
 AAAA
 IPv6 位址
 IPv6 環境
 
 
 CNAME
 另一個域名
 別名（www → example.com）
 
 
 NS
 負責管理的 DNS server
 子域委派（dev.example.com）
 
 
 MX
 郵件伺服器
 email routing
 
 
 TXT
 任意文字
 SPF / DKIM / 域名驗證（ACM）
 
 
 Alias
 AWS 特有，指向 ALB 等
 跟 A record 等效但支援 zone apex
 
 

可觀察訊號
平台遷移時 DNS 切換是最後一步也是最不可控的一步——TTL（Time To Live）決定舊記錄被各地 DNS resolver 快取多久。TTL 300 秒代表切換後最多 5 分鐘全部 client 會指向新 IP；TTL 86400（1 天）代表最慢要等一天。遷移前 48 小時先降 TTL 到 300 秒，讓快取過期後所有 resolver 都拿到短 TTL 版本，切換時才能快速生效。
設計責任
DNS 設定要決定：誰管這個域名的 zone（Route 53 / Cloudflare / 域名商）、子域怎麼委派（dev / staging 用 NS delegation 交給不同 zone）、TTL 設多少（平常 3600 秒夠用、遷移前降到 300）。ACM 的 DNS 驗證也依賴 DNS——建立 TXT 或 CNAME 記錄證明域名歸屬。
鄰卡

ALB — DNS 記錄通常指向 ALB 作為流量入口
SSL/TLS — TLS 憑證的 DNS 驗證依賴 DNS record



SSL / TLS
Fri, 26 Jun 2026 00:00:00 +0000
TLS（Transport Layer Security）加密 client 與 server 之間的通訊，防止中間人竊聽或竄改。HTTPS 就是 HTTP 加上 TLS 加密層。SSL 是 TLS 的前身、所有版本都已被棄用，但「SSL 憑證」這個稱呼仍然廣泛使用——實際上指的是 TLS 憑證。
概念位置
TLS 在 infra 裡負責「傳輸安全」。ALB 的 HTTPS listener 需要掛一張 TLS 憑證；ACM（AWS Certificate Manager）提供免費的憑證申請與自動續期；Let’s Encrypt 是跨平台的免費 CA（Certificate Authority，憑證簽發機構）。
可觀察訊號
TLS 憑證有到期日。過期的憑證會讓瀏覽器顯示安全警告、部分 client 直接拒絕連線。ACM 管理的憑證會自動續期（前提是 DNS 驗證記錄仍然存在）；手動上傳的憑證需要人工追蹤到期日。接手維運時要確認：憑證的簽發者是誰、到期日是什麼時候、續期是自動還是手動。
用 CLI 查看遠端憑證資訊：





1echo | openssl s_client -connect example.com:443 2>/dev/null | openssl x509 -noout -dates -issuer
設計責任
TLS 設定要決定：憑證從哪裡來（ACM 免費但只能用在 AWS 服務上、Let’s Encrypt 免費且跨平台）、驗證方式（DNS 驗證適合自動化、email 驗證較手動）、是否需要多域名的 SAN 憑證（一張憑證涵蓋 example.com + *.example.com）、HTTP → HTTPS 的強制跳轉怎麼設。
鄰卡

DNS — TLS 憑證的 DNS 驗證依賴 DNS record
ALB — HTTPS listener 需要掛 TLS 憑證



SSH
Fri, 26 Jun 2026 00:00:00 +0000
SSH（Secure Shell）是加密的遠端 shell 連線協定，讓操作者在本地終端機執行遠端伺服器上的指令。連線建立後，操作者看到的是遠端伺服器的命令列——可以跑任何該伺服器上安裝的 CLI 工具。
概念位置
SSH 在接手維運的情境裡是一條關鍵分界線：有 SSH 存取就能用 mysqldump、git、systemctl 等 CLI 工具操作伺服器；沒有 SSH 就只能用 FTP 傳檔案、用 phpMyAdmin 管資料庫、用 cPanel 改設定。兩種情境的操作流程和可用工具完全不同。
可觀察訊號
判斷有沒有 SSH 存取：嘗試 ssh user@host。如果連線成功進入命令列就有；如果 timeout 或被拒，可能是主機不開放 SSH（共享主機常見）、或 port 不是預設的 22、或需要 IP 白名單。cPanel 的「終端機」功能有時提供 web-based SSH，但功能受限。
設計責任
SSH 的認證方式有兩種：密碼（簡單但不安全，容易被暴力嘗試）和 SSH key pair（公鑰放在 server 的 ~/.ssh/authorized_keys，私鑰留在 client）。生產環境應該用 key 認證並關閉密碼登入。
接手維運時要確認：SSH 的登入帳號是什麼、用密碼還是 key、key 在哪裡、有沒有其他人也有存取權限。前任維護者的 SSH key 如果還在 authorized_keys 裡，離職後應該移除。





1# 產生 SSH key pair
2ssh-keygen -t ed25519 -C "your-email@example.com"
3
4# 把公鑰加到遠端 server
5ssh-copy-id -i ~/.ssh/id_ed25519.pub user@host
鄰卡

FTP — 沒有 SSH 時的檔案傳輸替代方案



FTP
Fri, 26 Jun 2026 00:00:00 +0000
FTP（File Transfer Protocol）是把檔案在本地電腦與遠端伺服器之間上傳/下載的協定。操作者透過 FTP client（如 FileZilla）連線到伺服器，看到遠端的目錄結構，用拖放或指令傳輸檔案。
概念位置
FTP 在無 SSH 的環境裡是唯一的檔案管理途徑——程式碼部署靠 FTP 上傳、備份靠 FTP 下載、檔案比對靠 FTP client 的目錄比較功能。它是接手維運模組「無 SSH 環境」路線的核心工具。
FTP 的變體

 
 
 協定
 加密方式
 常見情境
 
 
 
 
 FTP
 無加密（明文傳輸）
 老舊主機、內部網路
 
 
 FTPS
 FTP + TLS 加密
 支援 SSL 的主機
 
 
 SFTP
 走 SSH 通道（完全不同協定）
 有 SSH 存取的伺服器
 
 

多數 FTP client（FileZilla、WinSCP）同時支援三種協定。如果伺服器有 SSH，用 SFTP 比 FTP 安全且功能更多。
可觀察訊號
FTP 操作的三個限制在接手維運時要意識到：第一，非原子操作——檔案逐一上傳，上傳過程中伺服器上同時存在新舊版本的混合狀態。第二，不支援指令執行——只能傳檔案、不能跑腳本或重啟服務。第三，沒有版本控制——上傳覆蓋就是覆蓋，沒有 diff、沒有 rollback。
設計責任
用 FTP 部署時要建立的紀律：本地先 Git commit 再上傳（Git 提供版本控制、FTP 只負責傳輸）；上傳前用目錄比較確認差異；關鍵檔案（index.php、.htaccess）上傳前先從 server 下載一份備份。
鄰卡

SSH — 有 SSH 時用 SFTP 或 SCP 替代 FTP
FileZilla — 最常用的 FTP client



cron
Fri, 26 Jun 2026 00:00:00 +0000
cron 是 Unix/Linux 系統內建的排程工作管理器，按預定的時間表自動執行指令。一個 cron job 定義「什麼時間跑什麼指令」，系統背景的 cron daemon 負責到時間就執行。
概念位置
cron 在接手維運時是容易被忽略的隱藏工作——它不像 web 服務有明顯的入口，但可能負責資料庫備份、快取清除、報表產出、日誌清理等關鍵任務。漏掉一個 cron job 可能讓備份停止、快取永不過期、報表不再更新，而且不會立刻有人發現。
crontab 格式





1# 分 時 日 月 週 指令
20 3 * * * /usr/bin/php /var/www/backup.php
3*/5 * * * * /usr/bin/curl -s https://example.com/cron/heartbeat
40 0 1 * * /usr/bin/find /tmp -mtime +7 -delete
五個時間欄位依序是分鐘（0-59）、小時（0-23）、日（1-31）、月（1-12）、星期幾（0-7，0 和 7 都是星期日）。* 代表「每一個」，*/5 代表「每 5 個」。
可觀察訊號
接手維運時盤點 cron job：





 1# 當前使用者的 crontab
 2crontab -l
 3
 4# 所有使用者的 crontab（需要 root）
 5for user in $(cut -f1 -d: /etc/passwd); do
 6 crontab -u "$user" -l 2>/dev/null && echo "=== $user ==="
 7done
 8
 9# 系統級 cron
10cat /etc/crontab
11ls /etc/cron.d/
沒有 SSH 時（cPanel 環境），在 cPanel 的「Cron 工作」頁面查看和匯出。
設計責任
cron job 要決定：排程頻率、執行失敗時的通知方式（cron 預設把輸出寄 email，但 email 常沒配好）、日誌記錄（指令的 stdout/stderr 導到 log 檔）。遷移或升級時，cron job 要隨著遷移——忘了搬等於停掉排程但沒人知道。
雲端替代品：AWS CloudWatch Events / EventBridge、GCP Cloud Scheduler、Azure Logic Apps。這些服務提供 web UI 管理、失敗通知、執行歷史，但需要額外設定。
鄰卡

SSH — 盤點和管理 cron 需要 SSH 存取



nginx
Fri, 26 Jun 2026 00:00:00 +0000
nginx 是高效能的 Web Server 和 Reverse Proxy，以非同步事件驅動架構處理大量並發連線。它在全球 web server 市場佔有率與 Apache 並列前二，新部署的伺服器多數選 nginx。
概念位置
nginx 在 infra 裡常見的角色有三種：作為 reverse proxy 把請求轉給後端應用（Node.js、PHP-FPM、Python WSGI）、作為靜態檔案伺服器、作為 TLS 終結點處理 HTTPS。ALB 在雲端環境承擔了部分 nginx 的職責（負載平衡、TLS 終結），但 VPS 環境裡 nginx 仍然是標準選擇。
跟 Apache 的關鍵差別

 
 
 面向
 nginx
 Apache
 
 
 
 
 設定模式
 集中式（/etc/nginx/ 下的設定檔）
 支援 .htaccess 分散式設定
 
 
 並發模型
 事件驅動、非阻塞
 預設 prefork（每個請求一個 process）
 
 
 PHP 整合
 透過 FastCGI（PHP-FPM）
 mod_php（直接嵌入）或 FastCGI
 
 
 URL rewrite
 location + rewrite 區塊
 .htaccess 的 RewriteRule
 
 

可觀察訊號
OS 升級或平台遷移時，如果從 Apache 換成 nginx，所有 .htaccess 規則要手動轉成 nginx 設定：URL rewrite、目錄保護、PHP 設定覆寫、安全標頭。nginx 沒有 .htaccess 的等價物——所有設定都在集中的設定檔裡，需要 reload nginx 才能生效（Apache 的 .htaccess 每次請求都重新讀取）。
設計責任
nginx 設定要決定：server block（類似 Apache 的 VirtualHost）怎麼組織、upstream 指向哪個 app server、靜態檔案的 root 路徑、TLS 憑證掛在哪裡、access log 和 error log 的路徑。設定改完跑 nginx -t 驗證語法後再 nginx -s reload。
鄰卡

.htaccess — Apache 的分散設定，遷移到 nginx 時需要轉換
ALB — 雲端環境裡承擔部分 nginx 職責



MySQL
Fri, 26 Jun 2026 00:00:00 +0000
MySQL 是最廣泛使用的開源關聯式資料庫，多數 PHP 應用、WordPress、以及大量 web 服務的資料層都跑在 MySQL 上。MariaDB 是 MySQL 被 Oracle 收購後社群分支出來的相容實作，多數 Linux 發行版已經把預設的 mysql 套件指向 MariaDB。
概念位置
MySQL 在 infra 裡是典型的 stateful 資源——資料不可重建、備份和刪除保護是 day-1 需求。接手維運時，MySQL 的版本、備份設定、認證方式是第一批要確認的項目。雲端環境裡 MySQL 常以 RDS 形式運行（受管服務、代管備份與 failover）。
大版本升級的關鍵差異
MySQL 5.7 → 8.0 的 breaking change 在接手和升級情境裡經常遇到：

 
 
 變更項
 5.7 行為
 8.0 行為
 
 
 
 
 預設認證方式
 mysql_native_password
 caching_sha2_password
 
 
 GROUP BY 隱式排序
 有（按 group 欄位排）
 無（需要明確 ORDER BY）
 
 
 預設字元集
 utf8（3 byte）
 utf8mb4（4 byte、支援 emoji）
 
 
 GRANT 同時建使用者
 允許
 必須先 CREATE USER
 
 

可觀察訊號
接手維運時的確認清單：SELECT VERSION(); 查版本、SHOW DATABASES; 看有哪些資料庫、SHOW VARIABLES LIKE 'character_set%'; 確認字元集、SHOW VARIABLES LIKE 'max_connections'; 看連線上限。
CLI 工具

 
 
 工具
 功能
 
 
 
 
 mysql
 互動式 SQL 查詢
 
 
 mysqldump
 匯出資料庫為 SQL 文字檔
 
 
 mysqlcheck
 檢查、修復、優化資料表
 
 
 mysqlimport
 匯入 CSV / TSV 資料
 
 

mysqldump 是備份的核心工具——一行指令把整個資料庫匯出成可還原的 SQL。phpMyAdmin 的匯出功能底層也是類似的邏輯，但受 web server timeout 限制，大資料庫更適合用 CLI。
設計責任
MySQL 的 infra 設計要決定：備份頻率和保留天數（RDS 預設 7 天自動備份）、是否開 multi-AZ（failover 保護）、連線池設定（RDS Proxy 或應用層 pool）、慢查詢日誌是否開啟。
鄰卡

RDS — AWS 的受管 MySQL 服務
phpMyAdmin — Web 介面的 MySQL 管理工具



RDS
Fri, 26 Jun 2026 00:00:00 +0000
RDS（Relational Database Service）是 AWS 提供的受管關聯式資料庫服務。它在 EC2 instance 上跑資料庫引擎（MySQL、PostgreSQL、MariaDB、Oracle、SQL Server），但把作業系統更新、自動備份、跨可用區 failover、磁碟擴容這些運維工作交給 AWS 代管。使用者操作的是資料庫層級的設定（schema、query、parameter group），不需要 SSH 進機器管 OS。
概念位置
RDS 是 infra 系列中 stateful 資源的代表。它持有不可重建的資料，所以它的 IaC 描述、備份策略、刪除保護、變更審查都比 stateless 資源（如 EC2 web server）嚴格。模組五（核心服務）和接手維運模組的資料庫相關段落都以 RDS 為主要範例。
可觀察訊號
需要理解 RDS 的情境包括：接手一個已經在跑的 production 資料庫、評估要不要從自建 MySQL 遷移到 RDS、設定資料庫的備份和高可用、或在 IaC 裡描述資料庫資源。
設計責任
使用 RDS 時要決定的關鍵設定：

 
 
 設定
 決定什麼
 影響
 
 
 
 
 instance class
 CPU / 記憶體規格
 效能與成本
 
 
 multi-AZ
 是否跨可用區部署 standby
 可用性（failover 分鐘級）vs 成本（約 2 倍）
 
 
 backup retention
 自動備份保留天數（1-35）
 可回溯的時間窗口
 
 
 deletion protection
 是否允許刪除
 防誤刪（production 必開）
 
 
 parameter group
 資料庫引擎參數（max_connections 等）
 效能調校
 
 
 engine version
 資料庫版本
 功能與相容性
 
 

跟自建 MySQL on EC2 的取捨：RDS 省去 OS 層運維，但 parameter group 和 option group 的可調整範圍比直接操作 my.cnf 窄。需要完全控制 OS 層（如自訂 plugin、特殊檔案系統）時，自建較合理。
鄰卡

MySQL
Deletion Protection
Subnet



S3
Fri, 26 Jun 2026 00:00:00 +0000
S3（Simple Storage Service）是 AWS 的物件儲存服務。每個檔案（object）放在一個 bucket 裡、用 key（路徑）定址。S3 的持久性設計為 99.999999999%（11 個 9），資料自動跨多個可用區複製，不需要手動備份 S3 本身——要保護的是「物件被覆寫或刪除」的風險，而非「S3 服務掛掉」的風險。
概念位置
S3 在 infra 系列裡有三個角色：Terraform state 的存放處（remote state backend）、應用程式的靜態檔案儲存（上傳內容、備份歸檔）、以及 log 的長期保存目的地。模組一（state backend）、模組五（storage）、模組八（治理）都涉及 S3。
可觀察訊號
需要理解 S3 的情境包括：設定 Terraform 的 remote state backend、管理使用者上傳的檔案、設計備份歸檔策略、或評估儲存成本。
設計責任
使用 S3 時要決定的關鍵設定：

 
 
 設定
 決定什麼
 影響
 
 
 
 
 versioning
 是否保留物件的歷史版本
 覆寫或刪除後能回溯（state bucket 必開）
 
 
 encryption
 靜態加密方式（SSE-S3 / SSE-KMS）
 合規與金鑰管理
 
 
 public access block
 是否封鎖公開存取
 安全（預設全封鎖）
 
 
 lifecycle rules
 自動移到低成本儲存類或過期刪除
 成本控制（如 30 天後移到 Glacier）
 
 
 bucket policy
 跨帳號或跨服務的存取規則
 權限邊界
 
 

versioning 開啟後，刪除物件只是加一個 delete marker、實際資料還在。要真正刪除需要刪除 delete marker 和所有歷史版本。這是保護 state 檔的關鍵機制——誤寫 state 後可以回捲到上一個版本。
鄰卡

Remote State Backend
Deletion Protection



EC2
Fri, 26 Jun 2026 00:00:00 +0000
EC2（Elastic Compute Cloud）是 AWS 提供的虛擬機器服務。每一台 EC2 instance 是一台完整的虛擬伺服器——有自己的 OS、CPU、記憶體、磁碟和網路介面。使用者可以 SSH 進去、安裝軟體、跑應用程式，跟操作一台實體伺服器的體驗相似。
概念位置
EC2 是 infra 系列中「運算」面向的基礎單位。容器服務（ECS、EKS）底層也跑在 EC2 上（除非用 Fargate）。模組五（核心服務）的運算段落、接手維運（雲端篇）的 VM 快照、升級模組的 OS 遷移都以 EC2 為操作對象。
可觀察訊號
需要理解 EC2 的情境包括：接手一個跑在 VM 上的應用程式、評估容器化 vs VM 部署、設定 auto-scaling、或建立 AMI 快照作為備份。
設計責任
一台 EC2 instance 由五個組件構成：

 
 
 組件
 角色
 選型判準
 
 
 
 
 AMI
 作業系統映像（Ubuntu、Amazon Linux 等）
 OS 偏好、軟體預裝需求
 
 
 Instance type
 CPU / 記憶體規格（t3.micro、m6i.large 等）
 工作負載的 CPU 和記憶體需求
 
 
 EBS
 持久化磁碟
 容量、IOPS、是否需要加密
 
 
 Security group
 網路防火牆規則
 哪些 port 開放、來源限制
 
 
 IAM role
 instance 的雲端權限
 需要存取哪些 AWS 服務
 
 

跟容器（ECS / EKS）的差別：EC2 管整台 VM（含 OS 更新、安全性修補、磁碟管理），容器只管應用程式及其依賴。EC2 的運維負擔較高、但控制粒度也較高。
鄰卡

AMI
ECS
Subnet
Security Group



EBS
Fri, 26 Jun 2026 00:00:00 +0000
EBS（Elastic Block Store）是 AWS 提供的區塊儲存服務——可以把它理解為掛在 EC2 instance 上的虛擬硬碟。EBS volume 跟 EC2 instance 的生命週期獨立：instance 停止或終止時，EBS volume 上的資料不會消失（除非明確設定 DeleteOnTermination）。
概念位置
EBS 是 infra 系列中儲存面向的底層組件。RDS 的資料實際存在 EBS 上（由 AWS 代管）、EC2 的根磁碟和附加磁碟都是 EBS volume。接手維運時對 VM 做快照（AMI），背後就是在對 EBS volume 做 snapshot。
可觀察訊號
需要理解 EBS 的情境包括：EC2 instance 的磁碟快滿了需要擴容、要對 VM 做快照備份、評估磁碟效能（IOPS）是否足夠、或清理不再掛載的孤立 volume（殭屍 volume 持續計費）。
設計責任

 
 
 設定
 決定什麼
 影響
 
 
 
 
 Volume type
 gp3（通用）/ io2（高 IOPS）/ st1（高吞吐）
 效能與成本
 
 
 Size
 磁碟容量（GB）
 線上擴容可行、但縮小不行
 
 
 Encryption
 是否加密
 合規（建立後不可更改，要加密只能建新的複製過去）
 
 
 Snapshot
 快照備份
 EBS snapshot 是增量的（只存變更的區塊）
 
 
 DeleteOnTermination
 instance 終止時是否跟著刪除
 根磁碟預設 true、附加磁碟預設 false
 
 

跟 instance store 的差別：instance store 是 EC2 實體主機上的臨時磁碟，效能高但 instance 停止資料就消失。EBS 是持久化儲存，instance 停止資料仍在。
鄰卡

EC2
Deletion Protection



HCL
Fri, 26 Jun 2026 00:00:00 +0000
HCL（HashiCorp Configuration Language）是 Terraform 和 OpenTofu 使用的設定語言。它用宣告式的 resource block 描述「環境應該長什麼樣」，由工具負責比對現況與描述、算出差異再套用。寫 HCL 的人描述目標狀態，不描述達到目標的步驟。
概念位置
HCL 是 infra 系列中 IaC 程式碼的語言層。IaC 卡講的是「用程式碼管理基礎設施」的概念，HCL 是這個概念落地時最常用的語言。模組一到八的所有 HCL 範例都用這個語言寫成。
可觀察訊號
需要理解 HCL 的情境包括：第一次打開一份 .tf 檔案、要讀懂 Terraform 的 plan 輸出、要修改或新增一個 resource 定義、或要 review 別人的 infra PR。
設計責任
HCL 的基本結構：





1resource "aws_s3_bucket" "example" {
2 bucket = "my-bucket"
3 tags = { env = "prod" }
4}

resource：宣告一個雲端資源
"aws_s3_bucket"：資源類型（由 provider 決定）
"example"：這個資源在程式碼裡的名稱（用來引用）
{}：這個資源的屬性

跟其他格式的差別：

 
 
 格式
 特性
 適合場景
 
 
 
 
 JSON / YAML
 純資料格式、沒有邏輯
 設定值、資料交換
 
 
 HCL
 支援變數、函式、條件、迴圈
 基礎設施描述
 
 
 TypeScript / Python
 通用程式語言、完整邏輯
 複雜的 infra 抽象（CDK / Pulumi）
 
 

HCL 的定位在 JSON 和通用語言之間——比 JSON 有表達力（能做迴圈和條件）、比通用語言好 review（diff 直觀、不需要在腦中「執行」程式碼才知道結果）。
鄰卡

IaC
State



Infra 基礎設施建置指南
Fri, 26 Jun 2026 00:00:00 +0000
基礎設施是服務跑起來之前就必須存在的地基：運算、網路、身分、儲存與可觀測性這些資源怎麼被建立、被管理、被演進。這套指南教兩件事 — infra 是什麼，以及怎麼從零把它一階一階做起來。
大部分公司不可能 day 1 就完整建置一整套成熟 infra，硬要一次做完反而變成另一種過度投資、一樣推不動。所以這套教材的章節核心是一條成熟度階梯：先立最小可行的地基與鐵律，再依序往上長身分、網路、環境分離、核心服務與治理能力。每一階都能獨立交付價值、也都是下一階的前提。
infra 的責任、風險、成本與決策是理解它的必要框架，這套教材刻意保持 vendor 中立。範例多以 AWS 與 Terraform / OpenTofu 說明，但每個模組講的是能力本身（身分怎麼設計、網路怎麼分層、變更怎麼走 review），讀者換到 GCP、Azure 或其他 IaC 工具時，判準仍然適用。
和其他系列的關係

 
 
 系列
 聚焦
 和 Infra 的交集
 
 
 
 
 Backend
 服務內部設計（資料庫、快取、佇列、可觀測）
 Backend 的部署平台與 secret / TLS 能力跑在 Infra 的地基上
 
 
 DevOps
 運行期維運（負載、擴展、容量、成本）
 Infra 把地基鋪好，DevOps 管這些地基上的服務怎麼活下來
 
 
 CI/CD
 驗證、建置、發布 gate
 Infra 變更走 PR 流程時，用的是 CI/CD 管線
 
 
 Monitoring
 客戶端監控體系（SDK、Collector）
 Infra 的 log / metric / alarm 是 observability 的底層
 
 
 Dotfile
 個人工作環境配置管理
 Infra 是組織的環境 as code，Dotfile 是個人的環境 as code，思想平行
 
 

Backend 教「服務怎麼設計」、DevOps 教「設計好的服務怎麼營運」，Infra 教「這些服務跑在什麼樣的地基上、這套地基怎麼從零長出來」。模組九同時處理 infra 的組織面 — 怎麼向非技術決策者說明地基的價值、怎麼在信任不足的環境裡推動採用。
教學模組
模組編號標示成熟度階梯的位置，不是閱讀順序。模組負一是還沒站上 IaC 第一階的真實起點（全手動環境）；模組零是貫穿全系列的共用心智模型、不佔階梯刻度；模組一以後才是一階一階往上的建置順序。「接手維運」和「環境升級」是橫切模組，跟成熟度階梯平行——接手和升級可能發生在任何階段。

 
 
 模組
 主題
 回答什麼問題
 
 
 
 
 接手維運
 別人建的環境怎麼盤點、接管、逐步正規化
 接手前人的專案，怎麼在不搞壞的前提下接管
 
 
 環境與系統升級
 runtime / 平台 / 資料庫 / OS 的帶電施工遷移
 系統在服務中怎麼升級而不中斷
 
 
 斷網環境的 infra
 離線套件、provider mirror、private registry、self-hosted 監控
 沒有網路時 IaC 和維運怎麼做
 
 
 模組負一：還沒有 infra 的環境
 手動環境的底線、降低未來納管成本、導入訊號
 還沒有 IaC 時怎麼盡量把事情做對
 
 
 模組零：infra 是什麼
 責任邊界、成熟度階梯、day 1 鐵律
 為什麼地基要先做、不先做的代價是什麼
 
 
 模組一：最小可行 IaC
 工具選型、remote state、Console 唯讀鐵律
 第一行 IaC 該從哪裡開始
 
 
 模組二：身分與憑證地基
 IAM role / policy、OIDC 取代長期 key
 誰能動什麼、憑證怎麼不外洩
 
 
 模組三：網路地基
 VPC、subnet 切分、route / NAT、security group
 服務之間的網路邊界怎麼劃
 
 
 模組四：環境分離與模組化
 dev / staging / prod、目錄結構、可重用 module
 怎麼讓 dev 跟 prod 不互相污染又共用一套 code
 
 
 模組五：核心服務上 IaC
 資料庫、運算、儲存、load balancer
 地基鋪好後核心服務怎麼接上去
 
 
 模組六：可觀測性與 log
 log group、metric、alarm 同生命週期管理
 出事時怎麼追得到、查得到
 
 
 模組七：infra 走 PR 流程
 plan / apply review、tflint / checkov 護欄
 infra 變更怎麼像 code 一樣可審查可回溯
 
 
 模組八：治理好習慣
 tagging、secrets、成本可見性、最小可行節奏
 規模長大後怎麼不失控
 
 
 模組九：怎麼把 infra 推動起來
 技術正確 ≠ 推得動、期望值對齊、知識共享
 為什麼 infra 常推不動、怎麼推得動
 
 

學習路線

 
 
 路線
 適合讀者
 建議順序
 
 
 
 
 被指派 infra
 其他領域工程師、拿到公司雲端帳號
 拿到雲端帳號的第一天 → 依帳號狀態：空帳號走「從零建置」、有東西走「接手前人專案」
 
 
 入門認識
 從沒碰過 infra 的個人開發者
 個人專案到團隊服務 → 一台機器到三個環境 → 模組零
 
 
 從零建置
 新專案 day 1、想一開始就鋪對地基
 模組零 → 模組一 → 模組二（含跨帳號策略）→ 模組三 → 模組四 → 模組五
 
 
 還沒有 IaC
 全手動環境、暫時沒資源導入
 模組負一 → 模組零
 
 
 救火後納管
 已經有一堆手動資源、想收進 IaC
 模組負一 → 模組一 → 模組二 → 模組四 → 模組七
 
 
 治理與成本
 infra 跑得起來但開始失控
 模組八（含職務交接設計）→ 模組六 → 模組七
 
 
 說服決策者
 要向非技術人解釋的工程師
 給非工程人員的 infra 說明 → infra 投資的商業論證 → 模組九
 
 
 接手前人專案
 繼承了別人建的環境、要接管維運
 接手維運（依環境類型選篇）→ 模組負一 → 模組一
 
 
 環境升級
 需要升級 runtime / 平台 / DB / OS
 升級框架 → 依升級類型選篇 → 模組五（stateful 保護）
 
 
 斷網環境
 實體隔離或無法連網的環境
 斷網通用原則 → 依面向選篇（IaC / 容器 / 監控）
 
 
 推不動的困局
 技術做了一半、上層不買單
 模組九 → 模組零
 
 



terraform plan / apply
Fri, 26 Jun 2026 00:00:00 +0000
terraform plan 和 terraform apply 是 Terraform 操作基礎設施的兩個核心指令。plan 比對三方（state 檔、雲端現況、HCL 描述）產出差異報告，告訴使用者「如果 apply 會發生什麼」，但不做任何改動。apply 執行 plan 算出的差異，在雲端建立、修改或刪除資源。
概念位置
plan/apply 的分離是 IaC 可審查性的基礎。模組七（PR 流程）的核心機制就是「PR 觸發 plan → plan 結果貼回 PR → reviewer 看 plan 再決定要不要 apply」。這個「先看再動」的流程跟手動操作（直接在 Console 改）的根本差別。
可觀察訊號
需要理解 plan/apply 的情境包括：第一次跑 Terraform、review 別人的 infra PR（看 plan 輸出）、排查 drift（plan 在沒有 code 變更的情況下顯示差異）、或決定一次 apply 是否安全。
設計責任
plan 輸出的三種動作標記：

 
 
 標記
 意義
 風險
 
 
 
 
 +
 新增資源
 低（新建不影響現有）
 
 
 ~
 修改資源（in-place update）
 中（看改什麼，改 tag 低風險、改 instance type 可能重啟）
 
 
 -/+
 先刪後建（forces replacement）
 高（stateful 資源如 RDS 代表資料遺失）
 
 
 -
 刪除資源
 高（不可逆）
 
 

review plan 時最需要警惕的是 -/+（forces replacement）——看起來只是改一個屬性，但某些屬性的修改會觸發資源重建（例如 RDS 的 identifier 改名）。
plan 與 apply 之間可能有時間差。如果 plan 之後、apply 之前有人手動改了雲端資源，apply 時的實際行為可能跟 plan 預期的不同。多數團隊在 apply 階段會重跑一次 plan 並要求結果一致。
鄰卡

State
Drift
IaC



AMI
Fri, 26 Jun 2026 00:00:00 +0000
AMI（Amazon Machine Image）是 EC2 instance 的完整映像快照。它包含作業系統、已安裝的軟體、設定檔、磁碟內容——從一個 AMI 啟動新的 instance，得到的是跟拍照時完全一樣的環境。
概念位置
AMI 在 infra 系列裡有兩個角色。第一個是接手維運時的保險——對 VM 建一個 AMI 等於把整台機器拍下來，做任何改動前都有一個可回退的基線。第二個是環境標準化——把裝好軟體的 instance 做成 AMI（golden image），之後開新機器都從這個 AMI 啟動，確保每台機器的基線一致。
可觀察訊號
需要理解 AMI 的情境包括：接手一台不確定裡面裝了什麼的 EC2（先拍 AMI 再動）、要在另一個 region 或帳號複製一台同樣的機器、OS 升級時要保留舊環境作為 rollback、或設計 auto-scaling 的 launch template（需要指定 AMI）。
設計責任

 
 
 操作
 用途
 注意事項
 
 
 
 
 建立 AMI
 對現有 instance 拍照
 --no-reboot 避免服務中斷，但檔案系統一致性略低
 
 
 從 AMI 啟動 instance
 複製環境
 新 instance 有新的 IP、hostname、instance ID
 
 
 跨 region 複製 AMI
 災難復原或多 region 部署
 複製是非同步的、完成後才能在目標 region 使用
 
 
 共享 AMI
 跨帳號使用同一個映像
 需要設定 AMI 的 launch permission
 
 

AMI 包含 EBS snapshot——AMI 的儲存成本就是底層 EBS snapshot 的成本（按儲存量計費）。不再使用的 AMI 要記得 deregister 並刪除對應的 snapshot，否則持續計費。
跟 container image 的差別：AMI 是整台 VM 的映像（含 OS、kernel、系統套件），container image 只包含應用程式和它的依賴（共用 host OS 的 kernel）。AMI 以 GB 計（通常 8-50 GB），container image 以 MB 計（通常 50-500 MB）。
鄰卡

EC2
EBS



Composer
Fri, 26 Jun 2026 00:00:00 +0000
Composer 是 PHP 的套件管理工具，角色等同於 Node.js 的 npm、Python 的 pip、Go 的 go mod。它負責宣告專案需要哪些第三方套件、鎖定每個套件的確切版本、以及把套件安裝到專案目錄裡。
概念位置
接手 PHP 專案時，Composer 是判斷「專案依賴了什麼、版本有沒有已知漏洞」的入口。專案根目錄通常有三個 Composer 相關的檔案：

 
 
 檔案
 角色
 進 Git？
 
 
 
 
 composer.json
 宣告依賴（套件名稱 + 版本範圍）
 是
 
 
 composer.lock
 鎖定確切版本（含所有 transitive 依賴）
 是
 
 
 vendor/
 安裝的套件目錄
 否（.gitignore 排除、由 composer install 重建）
 
 

可觀察訊號
接手專案時如果根目錄有 composer.json 但沒有 vendor/，代表需要先跑 composer install 才能讓專案運作。如果連 composer.lock 都沒有，代表套件版本沒有鎖定——每次安裝可能拿到不同版本。
設計責任
兩個常用指令的差別：

composer install：按 composer.lock 安裝確切版本。用於部署和接手——確保每台機器安裝的版本一致。
composer update：重新解析 composer.json 的版本範圍、更新到最新的符合版本、改寫 composer.lock。用於主動升級依賴。

接手時的關鍵操作：

composer audit：掃描已安裝套件的已知安全漏洞
composer outdated：列出可更新的套件及其最新版本

鄰卡

.env：Composer 管套件、.env 管設定值，兩者都是 PHP 專案的基礎設施
php.ini / .user.ini：Composer 需要 PHP CLI 執行，php.ini 的 memory_limit 和 max_execution_time 會影響 Composer 能不能跑完



mysqldump
Fri, 26 Jun 2026 00:00:00 +0000
mysqldump 是 MySQL 和 MariaDB 內建的命令列備份工具，把整個資料庫（或指定的表）匯出成一份包含 CREATE TABLE 和 INSERT 語句的 SQL 純文字檔。還原時把這份檔案餵給 mysql client 就能重建資料。
概念位置
mysqldump 是有 SSH 存取（或 remote MySQL 存取）時的主要備份手段。比 phpMyAdmin 的匯出更可靠——不受 web server 的 timeout 和記憶體限制影響，可以處理數 GB 的資料庫。沒有 SSH 的環境只能退回 phpMyAdmin 匯出。
可觀察訊號
接手時如果 server 上有 cron job 在跑 mysqldump，代表前任有做自動備份——確認輸出的 dump 檔案存在哪、保留幾天、有沒有被驗證過能還原。如果沒有任何 mysqldump cron，代表備份可能只靠 phpMyAdmin 手動匯出或完全沒做。
設計責任
常用的 flag 組合：





1mysqldump -u user -p \
2 --single-transaction \
3 --routines \
4 --triggers \
5 dbname > dump-$(date +%Y%m%d).sql

 
 
 Flag
 作用
 
 
 
 
 --single-transaction
 InnoDB 表不鎖表匯出（用一致性快照），生產備份必備
 
 
 --routines
 含 stored procedure 和 function
 
 
 --triggers
 含 trigger
 
 
 --quick
 逐行讀取、不把整個表載入記憶體，大表必備
 
 

還原指令：





1mysql -u user -p dbname < dump-20260626.sql
mysqldump 產出的是邏輯備份（SQL 語句），還原速度取決於資料量——幾百 MB 以內分鐘級，數 GB 可能要半小時以上。需要更快的備份/還原（物理備份），要用 Percona XtraBackup 或 MySQL Enterprise Backup。
鄰卡

phpMyAdmin：無 SSH 時的替代備份手段
cron：搭配 cron 做定期自動備份



Reverse Proxy
Fri, 26 Jun 2026 00:00:00 +0000
Reverse proxy 是一個坐在後端服務前面、代替它接收外部請求的中介層。外部 client 連的是 reverse proxy 的位址，reverse proxy 根據規則把請求轉發到實際處理的內部服務，再把回應傳回給 client。Client 不知道（也不需要知道）後面有幾台服務、跑在哪裡。
概念位置
nginx 和 ALB 都扮演 reverse proxy 角色。差別在層級：nginx 通常部署在應用層（跟應用伺服器同一台或同一個 VPC 內），ALB 是雲端平台提供的受管服務。兩者的核心功能相同——接收外部流量、轉發到後端、回傳結果。
跟 forward proxy 的方向相反：forward proxy 代替 client 發送請求（client 在內網、proxy 幫它出去）；reverse proxy 代替 server 接收請求（server 在內網、proxy 幫它面對外部）。
可觀察訊號
接手時如果 server 上跑著 nginx 但應用程式用的是 PHP-FPM 或 Node.js，nginx 多半扮演 reverse proxy——它接 HTTP/HTTPS 請求、轉發給後端的 application server。設定檔裡的 proxy_pass（nginx）或 ProxyPass（Apache）就是 reverse proxy 的轉發規則。
設計責任
reverse proxy 常承擔的功能：

 
 
 功能
 說明
 
 
 
 
 TLS 終結
 HTTPS 的加解密在 proxy 層處理，後端服務只收 HTTP
 
 
 負載平衡
 把請求分配到多台後端（round-robin、least-connection）
 
 
 路由分流
 依 URL path 導到不同後端服務（/api → backend、/ → frontend）
 
 
 靜態檔案快取
 圖片、CSS、JS 由 proxy 直接回應、不轉發到後端
 
 
 安全過濾
 擋掉異常請求、限制請求速率、加安全標頭
 
 

鄰卡

ALB：雲端的受管 reverse proxy + 負載平衡器
nginx：最常見的 reverse proxy 軟體



Database Migration
Fri, 26 Jun 2026 00:00:00 +0000
Database migration 是用版本化的腳本管理資料庫 schema 變更的做法。每次 schema 變更（加欄位、改索引、拆表、改資料型別）寫成一份獨立的 migration 檔案，按順序套用。這讓 schema 的演進跟程式碼一樣有版本歷史、可追蹤、可在新環境重現。
概念位置
migration 解決的問題是「資料庫的 schema 怎麼從 A 狀態安全地變成 B 狀態」。沒有 migration 時，schema 變更靠在 phpMyAdmin 或 CLI 手動執行 SQL，改了什麼只存在操作者的記憶裡。有 migration 時，每次變更都是 repo 裡的一份檔案，跟程式碼一起 commit、一起 review。
可觀察訊號
接手專案時，如果 repo 裡有 migrations/ 目錄（或框架特定的路徑如 Laravel 的 database/migrations/、Rails 的 db/migrate/），代表專案使用 migration。如果 repo 裡只有一份 schema.sql 或完全沒有 schema 相關檔案，代表 schema 變更是手動的——這時候建立 migration 紀律是接手後的優先事項之一。
設計責任
每份 migration 檔案包含兩個方向：

UP（套用）：執行 schema 變更的 SQL
DOWN（回退）：撤銷這次變更的 SQL（不是所有變更都能完美回退，如刪除欄位後資料就沒了）






1-- migrations/2026-06-26-001-add-users-email-verified.sql
2
3-- UP
4ALTER TABLE users ADD COLUMN email_verified BOOLEAN DEFAULT FALSE;
5
6-- DOWN
7ALTER TABLE users DROP COLUMN email_verified;
常用的 migration 工具：

 
 
 工具
 語言 / 框架
 
 
 
 
 Laravel Migration
 PHP / Laravel
 
 
 Rails Migration
 Ruby / Rails
 
 
 Flyway
 Java / 跨語言（純 SQL）
 
 
 Liquibase
 Java / 跨語言（XML / YAML / SQL）
 
 
 golang-migrate
 Go
 
 
 手動 SQL 檔案
 無框架時的最低限度方案
 
 

沒有框架時，用日期 + 序號命名 SQL 檔案（2026-06-26-001-描述.sql），搭配一張 migration_log 表記錄哪些已經套用過，就是最低限度的 migration 系統。
鄰卡

RDS：migration 在 production 資料庫上執行時要格外小心——大表的 ALTER TABLE 可能鎖表
mysqldump：執行 migration 前先做一次完整備份



Prometheus
Fri, 26 Jun 2026 00:00:00 +0000
Prometheus 是開源的 metrics 收集與告警系統。它用 pull 模式運作——定期從被監控的 target（應用程式、伺服器、資料庫）的 HTTP endpoint 拉取指標，存進本地的時序資料庫。
概念位置
Prometheus 在 infra 監控層負責「收集與儲存指標」。它搭配 Grafana 做視覺化（Prometheus 自己的 UI 只有基礎的 query 介面）、搭配 Alertmanager 做告警路由（Prometheus 偵測異常、Alertmanager 決定通知誰）。斷網環境裡它是取代 Datadog / New Relic 的預設方案——不需要連外、self-hosted、社群龐大。
可觀察訊號
系統需要 Prometheus 的訊號是：需要追蹤隨時間變化的數值指標（CPU 使用率、request 延遲、佇列深度、錯誤率），且這些指標要能查詢歷史趨勢和設定告警閾值。如果只需要 log（文字紀錄），Loki 或 ELK 更適合；Prometheus 處理的是結構化的數值 metrics。
設計責任
使用 Prometheus 時要決定：scrape interval（多久拉一次、預設 15 秒）、retention（資料保留多久、預設 15 天）、哪些 target 要監控（service discovery 或靜態設定）、告警規則的閾值和評估窗口。斷網環境的額外考量是 storage capacity——所有資料留在本地磁碟、沒有 cloud auto-scale。
鄰卡

Grafana：視覺化 Prometheus 的指標



Grafana
Fri, 26 Jun 2026 00:00:00 +0000
Grafana 是開源的監控視覺化平台。它本身不收集或儲存資料——它連接外部資料源（Prometheus、Loki、Elasticsearch、MySQL 等），提供查詢介面和可自訂的儀表板。
概念位置
Grafana 在監控體系裡負責「讓指標和 log 變成人可以讀的畫面」。Prometheus 收集指標、Loki 收集 log、Grafana 把兩者的資料用圖表、表格、熱力圖呈現。不同角色看不同 dashboard——DevOps 看資源健康、開發者看應用指標、管理層看 SLA 達成率。
可觀察訊號
系統需要 Grafana 的訊號是：已經有 Prometheus 或其他資料源在收集指標，但需要一個視覺化介面來建 dashboard、設告警（Grafana 也有自己的告警功能）、分享給團隊。如果只需要 CLI 查詢，PromQL 直接在 Prometheus 跑就好。
設計責任
使用 Grafana 時要決定：dashboard 的組織（按服務、按環境、按角色）、資料源的連線設定、使用者權限（viewer / editor / admin）、告警通知管道（email / Slack / webhook）。斷網環境裡 Grafana 的 plugin 需要離線安裝（grafana-cli --pluginUrl 指向本地檔案）。
鄰卡

Prometheus：Grafana 最常見的 metrics 資料源



HashiCorp Vault
Fri, 26 Jun 2026 00:00:00 +0000
HashiCorp Vault 是機密管理系統，集中存放和控制對敏感資料（密碼、API key、TLS 私鑰、資料庫憑證）的存取。每一次讀取都有稽核紀錄、每一份機密都有存取政策、憑證可以設定自動輪替。
概念位置
Vault 在 infra 裡負責「機密值的集中管理」。跟直接把密碼寫在環境變數或設定檔的差別是：Vault 提供存取控制（只有被授權的身分能讀特定 secret）、稽核軌跡（誰在什麼時候讀了什麼）、以及動態 secret（每次請求產生一組臨時憑證、用完即銷毀）。
連網環境通常用雲端的 secret manager（AWS Secrets Manager、GCP Secret Manager）。斷網環境沒有雲端服務可用、Vault 是 self-hosted 的替代方案。
可觀察訊號
系統需要 Vault 的訊號是：多個服務共用同一組資料庫密碼且密碼寫在設定檔裡、沒有人知道上次輪替是什麼時候、或是稽核要求「列出誰能存取哪些機密」而答不出來。
設計責任
使用 Vault 時要決定：unseal 方式（連網用 cloud auto-unseal、斷網用 Shamir’s secret sharing——需要 N 把 key 中的 M 把才能解鎖）、storage backend（Consul、PostgreSQL、filesystem）、認證方式（人用 LDAP/OIDC、機器用 AppRole）、secret engine 的選擇（KV 存靜態值、PKI 簽發憑證、database 動態產生 DB 帳號）。
鄰卡

IAM：Vault 的存取政策跟 IAM 的 policy 概念類似
SSL/TLS：Vault 的 PKI engine 可以當內部 CA 簽發憑證



Harbor
Fri, 26 Jun 2026 00:00:00 +0000
Harbor 是開源的 container image registry，由 CNCF 孵化。它在 Docker Registry 的基礎上加了企業級功能：Web UI、角色型存取控制（RBAC）、映像漏洞掃描（內建 Trivy）、映像簽章驗證、以及跨 registry 的映像複製。
概念位置
Harbor 在容器生態裡負責「映像的儲存、分發和安全把關」。連網環境裡這個角色通常由 Docker Hub、AWS ECR 或 GCR 擔任。斷網環境沒有公開 registry 可用、Harbor 是 self-hosted 的替代——所有 base image 和應用 image 都推進 Harbor、所有 docker pull 都從 Harbor 拉。
可觀察訊號
系統需要 Harbor 的訊號是：團隊開始用容器部署服務、且環境無法連到公開 registry（斷網或受限網路）、或需要在 pull 時自動掃描漏洞。如果只是幾個人在開發機上用 Docker、Docker Registry（無 UI、無掃描）就夠了。
設計責任
使用 Harbor 時要決定：project 的組織（按團隊、按環境、按產品線）、使用者認證（本地帳號 or LDAP 整合）、漏洞掃描政策（push 時自動掃、block 有 Critical CVE 的 image）、映像保留政策（保留最近 N 個 tag、自動清理舊 image）、以及 storage backend（本地磁碟或 NFS）。
鄰卡

ECS：ECS task 從 registry 拉 image
Fargate：Fargate task 同樣需要 registry



Helm
Fri, 26 Jun 2026 00:00:00 +0000
Helm 是 Kubernetes 的套件管理工具。它用 chart（一組模板檔案 + 預設值）把多個 K8s 資源（Deployment、Service、ConfigMap、Ingress 等）打包成一個可安裝、可升級、可回退的單位。
概念位置
Helm 在 K8s 生態裡的角色類似 apt 在 Linux、npm 在 Node.js——把「安裝一個應用」從「逐一 apply 多個 YAML」變成「一條 helm install 指令」。chart 可以參數化（values.yaml），同一份 chart 在不同環境用不同參數部署。
公開 chart 從 Artifact Hub 下載。斷網環境裡用 helm pull 在外部下載 chart tarball、搬進內網、從本地檔案安裝，或用 Harbor 的 OCI chart 支援當內部 chart registry。
可觀察訊號
系統需要 Helm 的訊號是：用 K8s 部署的應用超過 3 個、每個應用由 5+ 個 K8s 資源組成、且需要在多個環境（dev/staging/prod）用不同參數部署同一套定義。如果只有 1-2 個簡單應用、直接 kubectl apply 就好。
設計責任
使用 Helm 時要決定：chart 的粒度（一個 chart = 一個微服務 or 一整個平台）、values 的組織（per-environment values file）、chart 版本管理（chart version vs app version）、以及升級策略（helm upgrade --atomic 失敗自動回退）。
鄰卡

ECS：ECS 是非 K8s 的容器編排替代



Infra 知識卡
Fri, 26 Jun 2026 00:00:00 +0000
Infra 知識卡收錄基礎設施領域的核心術語。每張卡自包含、可獨立閱讀，讀者可以從任何一張卡進入、透過鄰卡連結導航到相關概念。
知識卡的職責是建立術語的語意錨點。教學模組負責情境推導與操作判準，知識卡負責「這個詞是什麼、什麼時候會碰到、使用時要決定什麼」。兩者互相引用但各自完整。
卡片清單

 
 
 卡片
 說明
 
 
 
 
 ALB
 Application Load Balancer — 流量進入系統的第一站，負責 listener 路由、健康檢查與 TLS 終結
 
 
 CIDR
 用前綴長度表示 IP 地址範圍的表示法，決定 VPC 與 subnet 的地址空間大小
 
 
 CloudTrail
 AWS 的 API 層稽核日誌服務，記錄誰在什麼時候對什麼資源做了什麼操作
 
 
 Drift
 IaC 的 state 與雲端實際狀態之間的不一致，通常因為繞過 IaC 直接在 Console 改設定
 
 
 ECS
 AWS 受管容器編排服務，用 task definition 描述容器配置、由平台負責排程與健康管理
 
 
 IAM
 雲端平台的授權系統，回答「某個身分能不能對某個資源做某件事」
 
 
 IaC
 用程式碼描述基礎設施的最終狀態，由工具負責收斂現實與描述的差異
 
 
 NAT Gateway
 讓 private subnet 的資源主動對外連線、同時不被外部入站觸及
 
 
 OIDC 聯合
 讓 CI/CD 平台用短期 token 取代長期 access key 存取雲端資源
 
 
 Security Group
 掛在資源網卡層級的有狀態防火牆，逐埠決定哪些來源能連進這個資源
 
 
 State
 IaC 工具用來記錄每個納管資源在雲端真實樣貌的快照
 
 
 Subnet
 VPC 內按可用區與暴露程度切出的子網段，決定資源有沒有通往網際網路的路徑
 
 
 VPC
 雲端帳號內的一塊邏輯隔離私有網段，是所有網路切分的起點與容器
 
 
 checkov
 IaC 靜態安全掃描工具，比對 HCL 裡的已知壞寫法與安全反模式
 
 
 Deletion Protection
 防止誤刪 stateful 資源的平台級保護機制，開啟後刪除需先顯式關閉保護
 
 
 Fargate
 AWS ECS 的無伺服器容器執行模式，不需管理 EC2 instance
 
 
 Remote State Backend
 團隊共享、有鎖、有加密的 state 存放機制
 
 
 Route Table
 subnet 的流量轉送規則，決定封包離開 subnet 後往哪走
 
 
 SCP
 Organizations 層級的權限天花板，連管理員都越不過
 
 
 Trust Policy
 IAM role 的信任關係設定，控制誰能 assume 這個 role
 
 
 環境分離
 把同一套基礎設施定義複製成多份隔離的執行實例，各有獨立 state 與故障半徑
 
 
 phpMyAdmin
 Web 介面的 MySQL / MariaDB 管理工具，無 SSH 環境的主要 DB 管理入口
 
 
 FileZilla
 跨平台 FTP/SFTP client，提供目錄同步瀏覽和檔案比較功能
 
 
 cPanel
 Web 主機管理面板，整合 PHP 版本切換、cron、email、SSL、備份的圖形介面
 
 
 .htaccess
 Apache 的目錄層級設定檔，控制 URL rewrite、存取權限、PHP 設定覆寫
 
 
 .env
 存放環境變數的純文字檔案，把機密值從程式碼分離出來
 
 
 php.ini / .user.ini
 PHP 的執行期設定檔，控制記憶體上限、上傳大小、錯誤報告等 runtime 行為
 
 
 Composer
 PHP 的套件管理工具，管理第三方依賴、版本鎖定與安全掃描
 
 
 mysqldump
 MySQL/MariaDB 的 CLI 備份工具，把資料庫匯出成 SQL 純文字檔
 
 
 Reverse Proxy
 代替後端服務接收外部請求的中介層，承擔 TLS 終結、負載平衡與路由分流
 
 
 Database Migration
 用版本化的 SQL 腳本管理資料庫 schema 的變更歷程
 
 
 Prometheus
 開源的 metrics 收集與告警系統，用 pull 模式從 target 拉取指標
 
 
 Grafana
 開源的監控視覺化平台，從 Prometheus / Loki 等資料源建立 dashboard
 
 
 HashiCorp Vault
 機密管理系統，集中存放密碼與 API key，提供存取控制與稽核
 
 
 Harbor
 開源的 container image registry，支援映像掃描、RBAC、複製
 
 
 Helm
 Kubernetes 的套件管理工具，用 chart 打包一組 K8s 資源部署定義
 
 



給非工程背景決策者的 infra 說明
Fri, 26 Jun 2026 00:00:00 +0000
工程團隊說「我們需要花時間做 infra」，對參與資源決策的人來說，這句話的翻譯常常是「花時間做一件看不到產出的事」。產品畫面不會變、使用者不會感覺到差異、營收報表上找不到對應的數字。這篇文章從管理角度說明 infra 在處理什麼營運問題、不處理的代價怎麼累積、以及出事後的補救成本為什麼比事前高。
工程團隊說的 infra 在處理什麼
infra（infrastructure，基礎設施）是讓應用程式能運作的底層資源與管理機制。工程團隊說「做 infra」時，處理的是五個營運層面的問題，每個問題都對應一種管理風險：

 
 
 問題
 工程術語
 管理風險
 
 
 
 
 系統壞了能不能重建
 IaC / state
 核心服務中斷後的恢復時間是分鐘級還是天級
 
 
 誰能存取什麼資源
 IAM / 權限
 一次憑證外洩是否等於所有資料暴露
 
 
 測試操作會不會影響正式客戶
 環境分離
 工程師在測試環境犯的錯是否可能直接波及生產
 
 
 出事後能不能查到誰改了什麼
 變更紀錄
 事故排查是靠系統紀錄還是靠口頭回憶
 
 
 雲端帳單花在哪裡、能不能歸屬
 tagging
 成本是一筆公共支出還是可拆解到產品線
 
 

這五件事的共同特徵是平時完全不被感知。感知到的時刻通常是出事的時刻 — 一次無法重建的當機、一次稽核要求交不出的存取紀錄、一筆無法解釋的雲端帳單。
不做的代價怎麼累積
infra 的投入是可見的（工程師時間），不做的代價是隱藏的。隱藏代價分散在不同科目、由不同人在不同時間點承擔，所以在任何一次預算會議上都不會以完整形態出現。把它拆開：
恢復能力的缺口。系統的建置方式如果只存在某個工程師的記憶裡，這個人不在座位的期間就是系統的恢復能力空窗。一個有環境描述檔的系統，重建是一條指令的事（分鐘級）；一個純手動建出來的系統，重建要靠逐一比對設定來還原（天級）。兩者在正常運作時看起來完全一樣，差別只在出事那一刻的恢復速度。
人員依賴的脆弱性。「只有某個人知道怎麼改」這句話翻譯成管理語言是「這個人是營運連續性的單點故障」。他離職、請長假、或單純忙不過來的時候，團隊就失去安全改動系統底層的能力。把建置方式寫成程式碼後，新人讀程式碼就能理解系統結構，交接從口頭傳承變成文件閱讀。
不可見的持續支出。沒有資源盤點與標籤的雲端帳號，會累積「沒有人記得還開著」的資源 — 測試完沒關的機器、下線服務遺留的資料庫、實驗用的儲存空間。個別金額不大，但持續計費、沒人負責、也沒人會主動去清（因為不知道關了會不會影響什麼）。多數團隊第一次盤點時會發現 10-30% 的月費花在沒有人認領的資源上。
合規準備的反覆成本。外部稽核（SOC 2、ISO 27001、客戶安全問卷）要求「列出所有對外暴露的服務」「提供權限變更紀錄」「證明生產環境的變更有經過審查」。手動環境每次回應這些要求都是一次人工考古（一到兩週的工程師時間）。有環境描述檔和變更紀錄的系統，回應同樣的問題是跑幾條查詢（幾小時）。稽核是週期性的，準備成本的差距每年都會兌現。
出事的處理與補救
事前做和事後補的成本差距是非線性的。幾個具體場景：
憑證外洩。一把長期有效的存取金鑰如果外流，攻擊者能用它存取金鑰對應的所有資源。補救需要：撤銷外洩的金鑰、找出所有使用它的系統同步更換（而「所有使用的地方」在手動環境裡通常沒有完整清單）、評估外洩期間有沒有被異常存取、通知可能受影響的客戶。事前用短期自動過期的憑證取代長期金鑰，外洩的衝擊從「不定期限的完整存取權」縮到「幾分鐘後自動失效的短暫存取」。
生產環境誤操作。測試環境和生產環境沒有隔離的系統，一次操作失誤可能直接影響正式客戶。補救需要：判斷受影響範圍、修復資料、對外溝通。事前做好環境分離，測試環境的操作從物理上接觸不到生產資料。
無法重建的系統中斷。核心服務掛了，但它是手動建出來的、沒有環境描述檔。補救是逐一比對雲端管理介面上的設定，試圖還原出跟原來一樣的環境 — 但沒有人能確定「跟原來一模一樣」，因為沒有紀錄記載原來長什麼樣。恢復時間以天計，期間服務不可用。
這些場景的共同結構是：事前投入的成本是固定的（幾週工程師時間），事後補救的成本隨影響範圍和持續時間膨脹。
哪些該現在做、哪些可以排後面
工程團隊提出的 infra 工作可以按「事後補救成本的陡峭程度」分級：

 
 
 分級
 特徵
 對應的工作
 延後的代價
 
 
 
 
 地基級
 出事不可逆或補救代價極高
 憑證管理、權限管控、刪除保護
 一次事故就可能超過全年投入
 
 
 營運級
 出事可恢復但反覆消耗
 環境分離、變更紀錄、環境描述檔
 每次事故和每次稽核都多花時間
 
 
 優化級
 不做也不出事，做了提高效率
 自動化護欄、成本標籤、進階治理
 持續的小額浪費與人工重複
 
 

地基級的工作延後風險最高，營運級的工作每次事故都在付利息，優化級的工作可以等到地基穩了再做。跟工程團隊確認「這次提案裡哪些是地基級」，是判斷優先級的起點。
常問的問題
已經在雲端了，為什麼還需要額外做？
在雲端代表公司已經租用了運算資源，但租用資源跟管理資源是兩件事。資源的存取控制、環境隔離、變更紀錄、備份策略 — 這些都需要主動設定。很多公司「上雲」之後，資源是工程師在管理介面上一個一個手動建出來的，沒有描述檔、沒有盤點、沒有分區設計。infra 要補的正是管理層。
投入多少工程師時間？
分階段做。第一階段（1-2 週）處理地基級的三件事：憑證安全、權限收斂、有狀態資源的保護。第二階段（2-3 週）建立環境描述檔和環境分離。第三階段（持續但零星）加上自動化護欄和成本標籤。每個階段獨立交付價值，不需要一次投入全部時間。具體的階段拆法對應成熟度階梯（從全手動到全程式碼治理的五階分級）。
出事了能不能事後補？
地基級的工作事後補的代價遠高於事前。一把憑證進了版本控制歷史就永久留存，撤銷金鑰只是第一步，清除歷史和輪替所有受影響的存取是更大的工程。環境描述檔和變更紀錄的事後補救代價相對線性 — 越晚開始、需要回頭整理的資源越多，但不至於跳崖式暴漲。判斷依據是：這件事出了問題，補救成本是隨時間固定的、還是隨時間加速的？後者該現在做。
怎麼判斷工程團隊做得怎樣？
幾個可以追蹤的指標：目前有多少比例的資源被環境描述檔管理（覆蓋率）？測試環境跟生產環境是否完全隔離？變更是否走審查流程？主要維護者如果不在，其他人能不能靠描述檔安全地做小幅修改？這些指標從「否」翻成「是」，就是 infra 投入的階段性交付。
延伸閱讀

→ infra 投資的商業論證：成本、風險、速度三條論述線的數字化框架
→ 模組零：infra 是什麼：工程面的責任邊界與成熟度階梯
→ 怎麼把 infra 推動起來：信任赤字、期望值對齊與知識共享



雲端部署裡已經存在的 infra 元件
Fri, 26 Jun 2026 00:00:00 +0000
任何一次雲端部署都會用到基礎設施元件 — 網路隔離、存取控制、儲存、身分認證。即使從來沒有手動設定過這些東西，雲端平台也會用預設值替你建立它們。這篇文章把那些藏在預設值裡的 infra 元件逐一攤開，說明各自解決什麼問題，以及不管理它們時會在什麼時間點造成什麼後果。
每次部署都會觸及的四個元件
在 AWS Console 上建立一台 EC2 instance 時，精靈流程的每一步各對應一個 infra 元件。Console 把它們包進填表流程裡，讓建立動作看起來只是「選規格 → 按確認 → 機器出現」，但每一步的選擇都在決定這台機器的網路位置、存取邊界與儲存策略。
VPC 與 subnet
Network settings 那一步，Console 預設選一個 default VPC。VPC（Virtual Private Cloud）是雲端帳號裡的一塊邏輯隔離網段 — 裡面的機器彼此可達，外部流量要經過明確的入口才進得來。subnet 是 VPC 裡再切出來的子區域，決定機器落在哪個可用區（availability zone）以及對外暴露的程度。
default VPC 在每個 region 自動存在，它的特性是所有 subnet 都是 public（有對外路由）、security group 預設接受部分入站流量。這組預設值讓部署能快速完成，但它的隱含假設是「所有資源都可以對外」— 把資料庫放進 default VPC 時，資料庫的網路位置跟對外的 web server 在同一層，沒有隔離。
Security group
同一個精靈流程會出現 security group 選項。security group 是掛在機器網路介面上的防火牆規則，決定哪些來源 IP、哪些 port 的流量可以進出。
預設建立的 security group 通常開放 SSH（port 22）給 0.0.0.0/0 — 任何 IP 都能嘗試連線。對一台短期測試機來說，這讓操作者能連進去；對一台開始承載服務的機器來說，全球的自動掃描工具會在上線幾分鐘內開始對 SSH port 嘗試登入。這條規則是功能正確的（SSH 能連），但安全邊界是開放的（誰都能試）。
IAM
登入 Console 本身就用到了 IAM（Identity and Access Management）。IAM 管理「誰能對哪些資源做什麼操作」。首次註冊時使用的 root account 擁有帳號內所有權限，用 root 做日常操作等於每次都拿著能開所有門的萬能鑰匙。
開發者與 IAM 的第一個交集通常是 access key — 一組靜態憑證，讓 CLI 工具或部署腳本能用程式化方式操作雲端資源。這把 key 被存進 ~/.aws/credentials 或專案的 .env 檔後，它就是一個有權限的身分憑證，決定了持有者能動多少東西。key 沒有到期時間，權限範圍取決於它綁定的 IAM user 或 role 被授予了什麼 policy。
儲存
EC2 附帶的 EBS volume 是儲存層 infra。預設大小通常是 8 GB，預設沒有加密，預設沒有快照排程。磁碟裡只有 OS 跟應用程式時，壞了重建即可。一旦上面開始跑資料庫、存使用者檔案，磁碟裡就有了不可重建的狀態，「壞了重建」這個退路就消失了。
預設值的共同特性
VPC、subnet、security group、IAM、EBS — 這些在每次部署時全部自動存在或被預設建立。預設值的設計目標是「讓部署能完成」，而非「讓環境安全且可管理」。兩者之間的落差會在特定時間點浮現。
不管理這些元件的後果
infra 元件不被管理時，後果不會立刻出現 — 它們在特定條件觸發時一次浮現。以下是依觸發頻率排列的常見情境。
環境無法重建
帳號需要遷移、機器需要在另一個 region 重建、或者某個資源損壞需要從頭來過。這時才發現：security group 開了哪些規則、RDS 的 parameter group 改了哪些值、S3 bucket 的 CORS policy 怎麼設的 — 這些設定散落在 Console 各頁面，唯一的重建方式是逐頁翻 Console 比對。
可重建性的判準：能不能在空白帳號裡，不靠記憶、不靠翻舊帳號 Console，把環境完整重建出來。
憑證外洩
access key 被推進 git 歷史 — .env 檔忘記加進 .gitignore，一次 push 就把 key 送上了公開 repo。GitHub 上有自動掃描工具在監控 commit，從 push 到 key 被利用可能只需要幾分鐘。常見的攻擊操作是在帳號裡開大量高規格 instance 跑礦機，帳單可以在幾小時內衝到數千美元。
即使立刻撤銷 key，git 歷史裡的 key 還在 — 每個 clone 過 repo 的人都有一份副本。回退代價取決於 key 的權限範圍：如果綁的是 AdministratorAccess，攻擊者能做的事等於帳號擁有者能做的所有事。
誤刪資源
在 Console 清理資源時刪錯一個 security group，另一台還在跑的機器引用了它 — 網路規則瞬間歸零，服務斷線。Console 沒有「刪了會影響什麼」的預覽，確認按下去就生效。
資料庫的誤刪代價更大。RDS instance 被刪除時如果沒有開啟刪除保護、沒有 snapshot，資料永久消失。手動環境裡沒有自動防護，保護要靠人記得去開。
變更不可追溯
某次改了 security group 規則讓某個 API 能通，隔週另一個服務斷線。排查時發現是那條規則影響了未知的依賴，但沒有變更紀錄，「上次改了什麼」只存在改動者的記憶裡。Console 不標記規則的新增時間，要查得去 CloudTrail 翻 API 呼叫日誌。
多人協作時的放大效應
一個人操作時，所有隱性知識都在自己腦裡。第二個人加入時，這套隱性知識立刻變成障礙。
身分管理的第一個問題是：共用 access key 還是建新的 IAM user。共用 key 代表兩人的操作在 CloudTrail 裡無法區分是誰做的；建新 user 需要決定權限範圍 — 給太寬怕誤操作，給太窄什麼都做不了。
變更衝突是第二個問題。Console 沒有鎖機制 — 兩人可以同時打開同一個 security group 的編輯頁面，各自修改不同規則，後存的覆蓋先存的，沒有提示。一人改了設定沒通知另一人，排查時不確定「這條規則是原本就有的還是新加的」。
這些問題的共同根源是環境狀態只存在於 Console 和個別人的記憶裡，沒有所有人都能讀到的、可比對差異的事實來源。Infrastructure as Code（IaC）把環境描述寫進程式碼，讓事實來源從記憶變成 repo 裡可以 diff、可以 review 的檔案 — 這是模組一：最小可行 IaC 的主題。
依規模遞增的 infra 需求
infra 的複雜度隨服務的使用者數量、團隊大小與合規要求遞增，但核心責任在每個規模都相同：讓環境可被理解、可被重建、可被安全地變更。
單人運維時，infra 的最小需求是盤點（知道環境裡有什麼）、描述（能重建）、憑證管理（access key 不外洩）。這三件事不需要 Terraform — 一份手動清單、固定命名規則、把 key 換成短期憑證，就覆蓋了最高代價的風險。做法見模組負一：還沒有 infra 的環境。
多人協作時，需要變更可追溯和最小權限。IaC 在這個階段開始產生收益，因為「從程式碼看環境」比「翻 Console」快，而且程式碼可以 review。做法見模組一。
服務有營收、團隊超過十人時，需要環境分離（dev 與 prod 不互相干擾）、自動化護欄（變更走 PR 流程）、可觀測性（出事時查得到）。這些能力疊加在前面兩層之上。完整的能力階梯見模組零：infra 是什麼。
跨分類引用

→ 模組零：infra 是什麼：五個責任面向與成熟度階梯（從全手動到全程式碼治理的五階分級）的完整定義
→ 模組負一：還沒有 infra 的環境：手動環境怎麼守底線、降低未來納管成本
→ 模組一：最小可行 IaC：第一行 IaC 從哪裡開始
→ 模組二：身分與憑證地基：access key 的風險與替代方案




模組零：infra 是什麼，為什麼 day 1 就要鋪地基
Fri, 26 Jun 2026 00:00:00 +0000
基礎設施（infrastructure，簡稱 infra）是承載應用程式的那層資源與規則：運算、網路、身分、儲存、可觀測性，以及定義它們如何被建立、變更、回收的治理機制。它的責任是讓應用程式有一個可被信任、可被重建、可被審計的執行環境。本章建立的責任邊界、成熟度階梯與 day 1 鐵律，是後續所有 infra 模組共用的心智模型，其他章節會直接引用這裡定義的詞彙。
infra 的責任邊界
infra 承擔的是「應用程式之下、作業系統之上」那層共享資源的供應與治理。把責任拆成五個面向比較好對齊：每一面都有自己的失效模式，混在一起談會讓判斷失焦。
運算（compute）負責「程式跑在哪、用多少資源、怎麼擴縮」。它的衡量點是容量與彈性：流量尖峰時能不能長出更多實例、閒置時能不能縮回去省錢。一台手動開的 VM 也是運算資源，差別只在它是否被納入可重建的描述。
網路（network）負責「誰能連到誰、流量走哪條路」。它的責任是把可達性變成明確規則，而非預設全通。VPC 切分、子網路、security group 都屬於這層，邊界沒畫清楚時，一個被入侵的服務就能橫向打穿整個環境。
身分與憑證（identity）負責「誰能對哪些資源做什麼操作」。它承擔最小權限的落地：人、服務、CI pipeline 各拿剛好夠用的權限，憑證有明確的生命週期。這層失守的代價最高，因為它是其他所有資源的閘門。
儲存（storage）負責「資料放哪、能不能還原」。它的責任是持久性與可回復性：備份策略、版本保留、刪除保護。運算可以隨時重建，資料一旦遺失通常無法重來，所以這層的回退路徑要在出事前就驗證過。
可觀測性（observability）負責「系統現在發生什麼、出事後查得到嗎」。它把 log、metric、trace 變成可查詢的事實來源。這層常被當成事後再補的附加品，但它和被它觀測的服務應該同生命週期一起建立，補在後面的可觀測性往往缺了出事當下最關鍵的那段資料。
這五面的共同點是：它們都不是應用功能，使用者看不到，但任何一面崩了，上面的功能全部跟著崩。這正是地基隱形的根源。
地基為什麼隱形
infra 的特性是「運作正常時完全不被感知，失效時才一次現形」。地基鋪得好的環境，工程師每天部署、擴縮、改設定，卻幾乎不會意識到底下有一層在支撐，因為它安靜地做對了每件事。這種隱形讓 infra 在資源排序上長期吃虧：看得見的功能有人催，看不見的地基沒人提。
現形的時刻通常是環境爆炸的時刻。一個沒有人記得怎麼建的服務掛了，才發現它是某位早期工程師在 Console 手動點出來的，沒有任何描述檔；一次安全稽核要求列出所有對外開放的連接埠，才發現 security group 散落在三個帳號、沒人說得清哪條規則還有用；一台資料庫磁碟滿了要擴容，才發現它從來沒進過任何納管流程，動它等於拆未爆彈。
隱形債務的徵兆很直接：當團隊開始用「不敢動那台機器」「只有某某知道怎麼改」來描述某項資源，債就已經在累積。地基的價值無法在平順時被看見，只能在它缺席的代價裡被回推，所以它需要一條和功能不同的論證路徑——這條路徑怎麼用商業語言講給上層聽，是「模組九：怎麼把 infra 推動起來」的主題。
day 1 鋪地基與事後補的成本差
在資源剛開始長出來時就用程式碼描述它，和等環境長大後再回頭納管，兩者的成本差距是非線性的。早期鋪地基的成本接近固定：寫一份描述檔、建一個 state、設一條 pipeline，環境只有三五個資源時這些都很輕。事後補的成本則隨資源數量、相互依賴與「不確定能不能動」的恐懼一起放大。
事後納管的痛具體長這樣：一個手動建出來的資源要納入 IaC，得先把它當前的真實狀態完整反推成程式碼（import），這個過程要逐欄比對 Console 上的設定，漏一個欄位下次 apply 就可能把線上設定改掉。資源彼此有依賴時，納管順序也得排——先納管的資源引用了還沒納管的資源，描述就接不起來。當這些手動資源還是線上服務正在用的，整個納管過程等於在開著的引擎上換零件。
務實的判準不是「day 1 就把所有東西寫成完美的 IaC」，而是「day 1 就讓新長出來的資源預設走可重建的路徑」。多數早期環境划得來的選擇，是讓地基類資源（網路、身分、state 本身）從一開始就在程式碼裡，而把還在高速試錯的應用層資源留一點手動彈性，等形狀穩定再納管。差別在於：前者的回頭成本固定，後者隨時間複利。「模組一：最小可行 IaC」會示範這條最小路徑怎麼落地。
成熟度階梯
infra 的成熟度可以排成一條從「全手動」到「全程式碼治理」的階梯，每一階用「資源怎麼被建立與變更」來定義。這條階梯是全系列共用的座標：後續模組描述某個能力時，會說它對應到哪一階，所以這裡先把刻度釘清楚。

 
 
 階段
 名稱
 資源怎麼被建立
 真實狀態的來源
 
 
 
 
 0
 Console 手動
 在網頁介面點選建立
 只存在於雲端，無描述
 
 
 1
 腳本化
 用 CLI 或腳本建立
 腳本，但無狀態追蹤
 
 
 2
 宣告式 IaC
 寫描述檔、由工具 apply
 state 檔記錄已建資源
 
 
 3
 環境分離
 同一份模組套用多環境
 各環境獨立 state
 
 
 4
 PR 流程治理
 變更走 PR、CI 自動 plan
 state + 版控歷史 + 審查紀錄
 
 

第 0 階「Console 手動」是所有環境的起點，也是必須最快離開的一階。它的特徵是真實狀態只存在雲端，沒有任何離線描述，所以無法 review、無法重建、無法回答「這個環境長什麼樣」。它不是錯誤的起點，是還沒鋪地基的起點。
第 1 階「腳本化」把建立動作寫成 CLI 或 shell 腳本，比手動可重複，但腳本只描述「怎麼建」，不追蹤「現在有什麼」。重跑同一支腳本可能重複建立或報錯，因為它不知道資源已經存在。這一階的常見陷阱是誤以為「有腳本就等於有 IaC」，差的是狀態這塊地基。
第 2 階「宣告式 IaC」是地基真正成形的一階：用 Terraform / OpenTofu 這類工具寫下「環境應該長什麼樣」，工具負責比對現況與描述、算出差異再套用。state 檔在這裡誕生，成為「目前納管了哪些資源」的事實來源。這一階的判讀訊號是：能不能從程式碼把整個環境在另一個帳號重建出來。
第 3 階「環境分離」把同一份描述模組化，套用到 dev / staging / production 等多個環境，各自獨立 state。它解決的問題是「在 staging 驗證過的變更，能用同一套描述安全地推到 production」。「模組四：環境分離與模組化」專講這一階的切法。
第 4 階「PR 流程治理」把 infra 變更接上和應用程式碼相同的協作流程：變更走 pull request，CI 自動跑 plan 把預期差異貼上來，人審查後才 apply。到這一階，infra 的每次變更都有提案、審查、歷史與回退點。「模組七：infra 走 PR 流程」會完整展開這套護欄。
這條階梯是一把對齊現況的尺，用來判斷某項資源該停在哪一階，不是越高越好的單向命令。停在哪一階的依據，是務實節奏。
早期新創的務實節奏
早期團隊的合理目標是「地基類資源先上到階梯第 2 階，應用層資源容許暫時留在低階」，而不是一步衝到第 4 階。資源有限、需求還在劇烈變動的階段，把全部資源都套上完整治理流程，划得來的機率不高——治理的固定成本會壓到本來就稀缺的開發頻寬。
判斷節奏的依據是「這項資源的形狀穩不穩、動它的代價高不高」。網路拓撲、身分權限、state 後端這類地基，一旦長歪回頭改的代價極高，值得 day 1 就進 IaC，這是少數接近「該照做」的硬判準，因為它牽涉安全邊界。反過來，一個還在每週改三次規格的功能用的運算資源，過早凍進嚴格流程反而拖慢試錯，這時容許它手動、但設一條 tripwire：當它開始被線上流量依賴、或開始有第二個人需要改它時，就是把它納管的時機。
過度設計和放任手動是這個階段的兩個反向誤判。過度設計的訊號是：環境只有五個資源，卻已經有多層抽象模組和還用不到的多環境結構，維護抽象的時間比省下的時間多。放任手動的訊號是：每次有人問「這個怎麼建的」都只能去翻某個人的記憶，地基債務在無聲累積。務實節奏就是在這兩者之間，讓地基先穩、讓應用層保留試錯彈性，再隨著形狀固定逐項往階梯上推。
章節文章

 
 
 文章
 主題
 
 
 
 
 個人專案到團隊服務：infra 在哪裡出現
 從 side project 部署到雲端的過程，看見 VPC、security group、IAM 這些元件其實早就在運作
 
 
 一台機器到三個環境：infra 解決的問題
 從一台 EC2 到需要 dev / staging / prod 三個環境的過程中，infra 的每一個關注點怎麼自然浮現
 
 
 責任邊界、成熟度階梯與 day 1 鐵律
 五個責任面向的失效模式、成熟度階梯的五個刻度、day 1 鐵律與早期團隊的務實節奏
 
 
 拿到雲端帳號的第一天
 被指派 infra 工作時的第一小時安全底線、帳號現況判讀、後續學習路線分流
 
 

跨分類引用

→ 模組負一：還沒有 infra 的手動環境：階梯第 0 階的環境怎麼盡量做好
→ 模組一：最小可行 IaC：地基資源跨上成熟度階梯第 2 階的最小路徑
→ 模組四：環境分離與模組化：成熟度階梯第 3 階的切法
→ 模組七：infra 走 PR 流程：成熟度階梯第 4 階的治理護欄
→ 模組九：怎麼把 infra 推動起來：地基的價值怎麼用商業語言講給上層聽
→ Linux 安裝與機器初始化：拿到雲端主機後從 OS 層連入、跑 bootstrap 的前置，跟 infra 的資源管理是上下游；主機連不到 / 起不來時的診斷見 機器連不到或起不來

參數	prod	staging	dev
instance_class	`db.r6g.xlarge`	`db.r6g.large`	`db.t3.micro`
multi_az	`true`	`true`	`false`
backup_retention	`30`	`14`	`1`
deletion_protection	`true`	`true`	`false`
desired_count	`6`	`2`	`1`

Subnet 類型	典型住戶	對外路徑
public	對外 LB、NAT Gateway、bastion	經 Internet Gateway 雙向
private	應用節點、資料庫、快取、佇列	僅經 NAT 單向出站、不可入站

屬性	Security Group	NACL
掛在哪裡	資源網卡（ENI）	Subnet
狀態	有狀態（回程自動放行）	無狀態（回程要另寫規則）
規則方向	只寫入站	入站與出站各寫
能否 deny	只能列允許清單	支援顯式 deny
評估順序	所有規則一起評估	按規則編號順序，命中即停

文章	主題
IaC 工具選型與 state 地基	Terraform / OpenTofu / CDK / Pulumi 選型判準，state 作為唯一記憶，remote state backend 的自管與託管路線
Console 唯讀鐵律與最小可行資源集合	Console 唯讀的操作紀律、drift 的延遲引爆與偵測，以及第一個完整 apply 迴路的最小資源集合

隔離層級	邊界機制	適用情境	初始成本
帳號級隔離	各環境獨立雲端帳號	prod 需法規等級的權限與計費分離	高
獨立 repo	各環境獨立程式碼庫與 CI pipeline	各環境由不同團隊維護或受不同合規約束	中高
目錄分離	同 repo 內各環境有獨立目錄與 state	多數早期團隊的平衡點	低
Workspace	同份 code、執行期切換 state	環境高度同構、數量多	最低

項目	檢查方式	通過條件
掃毒	ClamAV / 商業掃毒	0 偵測
完整性	sha256sum 比對	checksum 與外部記錄一致
版本	比對預期版本號	跟申請單的版本一致
來源	驗證下載來源	來自官方 repo 或已知 mirror
必要性	申請理由審查	有明確的使用場景

資源	職責	驗證標準
S3 bucket + DynamoDB（鎖表）	remote state backend	state 能寫入、鎖能取得和釋放
IAM role（唯讀 + apply）	人類唯讀、自動化寫入的身分基線	人登入後 Console 改不動東西
VPC + 最少的 subnet	網路骨架	資源能被放進正確的 subnet
一個微小的真實資源	端到端驗證	apply 出現、destroy 消失

階段	名稱	資源怎麼被建立	真實狀態的來源	對應模組
0	Console 手動	在網頁介面點選建立	只存在於雲端，無描述	模組負一
1	腳本化	用 CLI 或腳本建立	腳本，但無狀態追蹤	—
2	宣告式 IaC	寫描述檔、由工具 apply	state 檔記錄已建資源	模組一
3	環境分離	同一份模組套用多環境	各環境獨立 state	模組四
4	PR 流程治理	變更走 PR、CI 自動 plan	state + 版控歷史 + 審查紀錄	模組七

資源類型	形狀穩定度	改錯代價	判準
VPC / subnet	高	極高	day 1 進 IaC
IAM role / policy	高	極高	day 1 進 IaC
state backend	高	極高	day 1 進 IaC
RDS（已穩定的）	中高	極高	形狀確定後立刻進
對外 LB	中	高	開始有流量就進
應用層 EC2 / ECS	低到中	中	開始被依賴或第二人要改時進
測試用臨時資源	低	低	可以留在手動，設 tag 方便清理

類型	範例（PHP 7→8）	影響
移除的函式	`each()`、`create_function()`、`mysql_*` 系列	呼叫直接 fatal error
改變的預設行為	`error_reporting` 預設含 `E_DEPRECATED`、字串比較更嚴格	行為靜默改變、不一定報錯
更嚴格的型別	內部函式的參數型別檢查從警告升級為 TypeError	之前能跑的呼叫現在拋例外
擴充模組可用性	`json` 從可選變內建、`mcrypt` 已移除	部分功能無法使用

項目	PHP 5.6→7.x	PHP 7.x→8.x
資料庫連線	`mysql_` → `mysqli_` 或 PDO	—
陣列遍歷	—	`each()` → `foreach`
字串存取	—	`$str{0}` → `$str[0]`
錯誤處理	`set_error_handler` 行為變更	內部函式 TypeError 取代 warning
建構函式	同名建構函式 deprecated	同名建構函式 removed
正則表達式	`ereg_` → `preg_`	—
加密	`mcrypt_` → `openssl_` 或 sodium	—

框架	查詢方式
WordPress	官方需求頁
Laravel	各版本 `composer.json` 的 `require.php`
Symfony	Release and support 頁面

升級類型	典型時程	主要成本來源
PHP 小版本（8.0→8.2）	2-5 天	依賴更新 + 測試
PHP 跨大版本（7.4→8.x）	1-2 週	函式替換 + 行為驗證
PHP 跳代（5.6→8.x）	4-8 週	大量程式碼修改 + 框架升級
Node.js 大版本	3-5 天	原生模組重編 + API 變更
Python 2→3	8-16 週	接近重寫等級

場景	全開是否合規	處理方式
ALB 的 80/443	合規 — 負載平衡器的職責就是接收公開流量	保留，標記為已審查
SSH (22) 或 RDP (3389)	需收斂 — 管理埠暴露在持續的暴力掃描下	改用 SSM Session Manager 或限縮到辦公室 IP
資料庫埠 (5432/3306/6379)	需收斂 — 資料庫不應從公網可達	改為只允許應用層 SG 來源
全埠 (0-65535 / -1)	需收斂 — 等於沒有防火牆	拆成具體需要的埠和來源

環境類型	建議節奏	理由
有 PR 流程 + checkov 的環境	每季	新規則已被 PR 攔截，稽核主要看 drift
有 IaC 但沒有 PR 護欄	每月	手動 apply 可能繞過審查
全手動環境	每月或每次事故後	沒有任何自動攔截機制

階段	觸發條件	責任	失敗時
Plan	PR 開啟或更新	檢查格式、驗證語法、靜態掃描、產出 plan diff	PR 無法合併
Apply	合併到 main	把 plan 過的變更套用到雲端	需要人工介入

規範	補救成本曲線	day-1 該立	說明
Tagging	陡峭	是	幾百個沒 tag 的資源要回頭考古，建立時順手標只要幾秒
Secrets 不進 code	幾乎垂直	是	密鑰一旦進了 git 歷史就無法清除，只能輪替
成本分攤維度	中等	是（輕量）	依賴 tagging，tag 立了它就近乎免費啟用
Secret 自動輪替	平緩	等	手動輪替在早期可接受，自動化在 secret 數量增多後再投入
細緻的審批流程	平坦	等	補救成本低、可以隨時加，早期硬上反而拖慢交付
多層級策略引擎（OPA / Sentinel）	平坦	等	等到 tag policy 擋不住的邊界案例出現再引入

層次	資源	入站來自	出站到
入口	ALB	0.0.0.0/0:443	app SG
應用	EC2 / ECS	ALB SG	DB SG、外部 API
資料	RDS	app SG:5432	—

類別	判斷方式	處理
已離職人員的 key	user 名稱對照離職清單	停用 key → 觀察 7 天無異常 → 刪除 user
超過 90 天未使用的 key	`access_key_last_used` 超過 90 天	停用 → 觀察是否有服務中斷 → 確認無影響後刪除
有 admin 權限的 key	policy 含 `AdministratorAccess` 或 `:`	降權到實際需要的最小權限

優先級	資源類型	理由
先做	VPC、subnet、route table	形狀穩定、幾乎不會改、import 風險低
次做	security group	規則明確、import 後 plan 容易驗證
後做	RDS、EC2、ALB	stateful 或與部署耦合、import 風險較高
最後	Lambda、API Gateway	通常跟應用程式碼耦合、import 後維護邊界需要釐清

infra 缺口	失效情境	商業後果
沒有 state 版控	兩人併發 apply，環境記錄錯亂	重建要數天，期間服務不可用
沒有身分隔離	一把外洩的長期 key 橫向存取所有資源	資料外洩，客戶通知，可能的法律責任
沒有環境分離	本該打在 staging 的變更直接改了 production	生產服務中斷，影響所有客戶
沒有 Console 唯讀鐵律	手動改動造成 drift，下一次 apply 覆蓋手動設定	不可預期的服務中斷
沒有 tagging	清理資源時無法區分 prod 與 dev，不敢動	殭屍資源永久燒錢，配額被佔滿
沒有 secret 管理	資料庫密碼存在 git 歷史裡，某次 fork 外洩	全面輪替 + 潛在資料外洩

嚴重度	特徵	適用的 infra 工作
地基級	出事不可逆或回退代價極高	身分隔離、secret 不進 code、刪除保護
營運效率級	出事可恢復但耗時且反覆發生	環境分離、PR 流程、tagging
優化級	不做也不會出事，做了省時間或省錢	自動化護欄、進階成本分攤、Terragrunt

Resource	Attribute	改了會怎樣
`aws_db_instance`	`identifier`	forces replacement（資料遺失）
`aws_db_instance`	`engine`	forces replacement
`aws_instance`	`ami`	forces replacement
`aws_s3_bucket`	`bucket`	forces replacement（bucket 名稱不可改）
`aws_vpc`	`cidr_block`	forces replacement

OU	底下的帳號	職責
Security	Log Archive、Security Tooling	集中存放 CloudTrail / Config 日誌、安全工具帳號
Workload / Prod	每個產品線或服務的 production 帳號	承載正式流量，SCP 最嚴格
Workload / NonProd	dev、staging 帳號	承載開發與驗證，SCP 較寬鬆但仍有底線
Sandbox	個人實驗帳號	可隨時重建，SCP 限制預算上限和禁止的服務

維度	ECS	EKS
控制平面維運	AWS 完全代管	AWS 代管 API server，附加元件自行管理
學習曲線	低（AWS 原生概念）	高（Kubernetes 生態）
跨雲可攜	低（AWS 專屬）	高（Kubernetes 標準）
IaC 工具鏈	全部用 Terraform AWS provider	Terraform 建 cluster，workload 走 Helm
適合場景	AWS 單雲、團隊無 K8s 經驗	已有 K8s 能力或需要其生態時

指標類型	典型指標	適用情境
資源利用率	CPU utilization、memory utilization	運算密集型服務，CPU 與負載正相關
業務吞吐量	ALB request count per target	I/O 密集型服務，CPU 低但併發高

文章	主題
身分與憑證地基 — IAM 模型、OIDC 短期憑證與權限邊界設計	IAM 的 identity / policy / role 三元件、最小權限的持續收斂、用 OIDC 取代長期 access key，以及 SCP 與 Permissions Boundary 的環境隔離
跨帳號策略 — Organizations、SCP 與帳號工廠	用 Organizations 把環境拆成獨立帳號、用 SCP 設定帳號級護欄、用帳號工廠自動化新帳號的建立流程
團隊權限分級與存取管理	三級權限模型（admin / operator / viewer）、臨時提權、定期 access review、contractor 存取
Access Key 輪替手冊	access key 盤點、輪替步驟、Secrets Manager 自動化輪替、key age 監控
OIDC Trust Policy 設定指南	GitHub Actions OIDC provider 設定、trust policy claim 收斂、plan/apply role 分離、常見錯誤排查

Backend	適用情境	Lock 機制
本地檔案 + 共用磁碟	小團隊、單人操作	無（靠紀律避免並行 apply）
Consul	內網有 Consul cluster	內建 lock
PostgreSQL	內網有 PostgreSQL	內建 lock
GitLab managed state	內網有 GitLab CE	內建 lock
HTTP backend	自建簡易 API	自建 lock

工具	特性	適用規模
GitLab CE + Runner	完整的 git + CI + review，功能最豐富	中大團隊
Gitea + Drone / Woodpecker	輕量 git + 輕量 CI	小團隊
Jenkins	老牌 CI、plugin 生態豐富	任何規模（但維護成本高）

層次	規則類型	範例	啟用時機
地基層	資料外洩與權限失控	S3 public access、SG 0.0.0.0/0、IAM wildcard	day 1
營運層	加密與備份	RDS encryption、EBS encryption、backup retention	IaC 覆蓋率 >50%
規範層	命名、tagging、logging	缺 tag、缺 log group、resource naming	治理成熟後

路徑	適用情境	做法
行內豁免	單一資源的合理例外	在該資源加 `checkov:skip` + 理由
全域跳過	整個規則不適用於此專案	加進 `.checkov.yaml` skip-check
自訂規則覆蓋	內建規則的判準不適合	寫自訂規則取代內建規則