Gcp on Tarragon

GCP 2019 US Network Congestion Multi-service Incident

Thu, 07 May 2026 00:00:00 +0000

2019 年 GCP 網路壅塞事故的核心教訓是：當共享網路容量被打滿，影響會跨越產品邊界，同一時間出現在 compute、storage、observability 與管理面。

事故摘要

Google Cloud 在 2019-06-02 發生美國多區域 network congestion，官方摘要指出多個 US region 出現 elevated packet loss，影響持續約 3 至 4 小時以上，並牽動多個 GCP 與非 Cloud 服務。

這類事故本質是共享網路資源退化造成的跨產品連鎖事件，單一服務壞掉反而好處理。

判讀訊號

訊號	事故中代表什麼	第一波決策價值
多區域 packet loss 同時上升	共享網路層失衡，不是單服務 bug	優先走區域隔離與流量調整路徑
多產品錯誤率一起上升	事故已跨產品依賴鏈擴散	事故分級以跨產品影響為主，而非單團隊視角
部分 region 正常、部分 region 退化	區域差異可用來做流量重新分配	啟動 region-aware mitigation
status page 更新中提到 varied impact	影響面非均勻分布	對外更新要分 region / service 粒度

事故路徑

美國多區域網路容量在高壓下出現壅塞與丟包。
多個 GCP 產品受同一網路瓶頸影響，出現延遲與錯誤。
工程團隊進行流量與容量調整，逐區域回復。
狀態頁持續更新受影響範圍與恢復進度。
事後回寫區域隔離、容量保留與跨產品協調流程。

可回寫控制面

控制面	這次事故暴露的缺口	回寫方向
Region-aware traffic control	區域壅塞時流量轉移策略不夠快	建立區域流量切換的預設策略與演練
Cross-product incident command	多產品同時受影響時協調成本高	強化跨產品指揮節奏與共享 decision log
Network dependency mapping	服務依賴共享網路層但判讀入口分散	補跨產品依賴圖與共同告警面板
Status communication granularity	對外說明若只寫全域狀態會失真	更新按 region 與 service 分層揭露

下一步路由

觀測證據包： 4.20 Observability Evidence Package
事故通訊： 8.4 Incident Communication
事中決策紀錄： 8.19 Incident Decision Log
證據回寫流程： 8.22 Incident Evidence Write-back
實驗安全邊界： 6.20 Experiment Safety Boundary

引用源

Google Secret Manager

Mon, 18 May 2026 00:00:00 +0000

Google Secret Manager（GSM）是 GCP 原生的 static secret 集中保管 服務、設計上刻意保持簡單：只負責 secret 儲存、版本管理、IAM 授權、跟 Cloud KMS 整合的 envelope encryption。rotation orchestration、cross-region replication policy、dynamic credential issuing 都不在 GSM 自己做、留給上層用 Cloud Function / Cloud Run 自組。跟 AWS Secrets Manager 最大的差異是 沒有 built-in rotation Lambda — rotation logic 要自己寫、GSM 只提供 Rotation Schedule + Pub/Sub event 當觸發點。

服務定位

GSM 的定位是 GCP-native 的 secret 集中點、解決三件事：把 secret 從 environment variable / Cloud Build substitution / GitHub secret 收回單一受控位置；用 Google Cloud IAM 的 role binding on secret resource 控制誰能讀；走 Workload Identity Federation 讓 GKE / Cloud Run / 外部 workload（GitHub Actions / AWS / Azure）安全取用、避免長期 service account key 散落。

跟 Vault 比、GSM 沒有 dynamic credential engine、沒有 transit / PKI engine、沒有跨雲統一介面 — 但運維成本接近於零、跟 GCP IAM / KMS / Cloud Logging 的整合是 first-class。跟 AWS Secrets Manager 比、GSM 把 rotation orchestration 推給應用層、自由度高但代價是 rotation 流程要自己設計；跟 Azure Key Vault 比、兩者 mindset 相近（單雲、IAM-driven、CMEK 整合）、各自綁雲。

本章目標

讀完本頁、讀者能判斷：

哪些 secret 適合 GSM（GCP-only、static、靠 IAM 授權即可）、哪些該走 Vault 或其他雲端 native
GSM 最低安全設定（CMEK、Data Access audit、Workload Identity Federation、IAM Conditions）
自寫 rotation Cloud Function 時必須處理的 版本切換窗口 跟 fallback 邏輯
何時 GSM 不夠用、要往 Vault / Berglas / Cloud HSM 走

最短判讀路徑

判讀一個 GSM deployment 是否健康、最少看四件事：

誰能讀 secret：secret resource 上的 IAM binding 是不是用最小單位授權（per-secret、不是 project-level roles/secretmanager.secretAccessor）、有沒有上 IAM Conditions 限定時間 / IP / resource tag
Key custody 分離：encryption key 是 Google-managed default key、還是 Cloud KMS CMEK？CMEK 的 key 持有 admin 跟 secret access admin 是不是分人
取用路徑：workload 取 secret 是走 service account key（壞模式、長期憑證散落）還是 Workload Identity Federation（GKE WIF / 外部 OIDC token exchange）
證據是否可回查：Admin Activity audit 預設開、Data Access audit（AccessSecretVersion 誰呼叫）預設關、production 要手動 enable + 接 Cloud Logging sink 推到 SIEM

四件事任一缺失、就是 Audit Log 與 Secret Management 邊界的待補項目。

日常操作與決策形狀

IAM Conditions 收 scope：GSM 的 secretAccessor role 預設綁到 secret resource、但組織常見錯配是給整個 project 上 roles/secretmanager.secretAccessor — 等於整個 project 所有 secret 都能讀。應該用 per-secret binding、再加 IAM Conditions（resource.name.endsWith('prod-db-password')、request.time < timestamp('...')）限縮時間窗口。對應 Okta Cloudflare 2023 supply chain 的對照啟示：第三方 token scope 過寬時、上游事件直接傳導下游、IAM Conditions 是收 scope 的工具。

Secret Version + Alias 模型：每個 secret 有 monotonic version（v1、v2、v3…）、預設 alias latest 指向最新 enabled version。rotation 不是「更新現有 secret」、是 建立新 version + 把舊 version disable。應用端要支援 讀新 version 失敗時 fallback 舊 version、或在 rotation Cloud Function 內實作 雙軌驗證窗口（新版本上線後一段時間舊版還能讀、確認所有 consumer 切過去再 destroy 舊版）。沒這層設計、一次 rotation 就會打掉沒及時更新的 consumer。

CMEK（Customer-Managed Encryption Key）：GSM 預設用 Google-managed key、production 應該指向 Cloud KMS CMEK。意義是 把 key 持有跟 secret 取用分離 — 即使 secret admin 被攻破、沒有 CMEK 的 decrypt 權限拿不到明文。代價是 CMEK key region 跟 secret replication 要對齊（key 在 us-central1 但 secret 設 automatic replication = key 進不去其他 region、secret access 會失敗）。

Replication 策略：automatic 是 GCP 自動跨 region replicate（高可用、不需要管 region 一致性、但 data residency 受 GCP 全球策略支配）；user-managed 是手動指定 region list（精細控制資料駐留、適合有 GDPR / 跨境合規需求的場景、但 region 加減要自己管 + CMEK key 要在每個指定 region 都存在）。一個常見錯配：選 user-managed 但只設一個 region — 等於沒有跨 region 冗餘、該 region 出事 secret 完全讀不到。

Rotation 是自管 schedule：GSM 提供的不是 rotation logic、是 Rotation Schedule（cron 或固定間隔）、到期會發 Pub/Sub message 到指定 topic、由 自己寫的 Cloud Function / Cloud Run 訂閱該 topic 執行實際 rotation（呼叫上游系統 API 生新 credential、寫成新 secret version、disable 舊 version）。對應 Failure: Credential Rotation Without Scope：rotation Cloud Function 必須自己處理 scope map（哪些 consumer 用了同一把 secret）跟 雙軌驗證窗口（confirm 所有 consumer 切到新版本才 disable 舊版）、不像 AWS Secrets Manager 有 built-in 四階段 flow（createSecret → setSecret → testSecret → finishSecret）。

Workload Identity Federation 取用：external workload（GitHub Actions / AWS workload / Azure workload / on-prem K8s）用 WIF 拿 GSM secret 是現代預設模式 — workload 用自己的 OIDC token（GitHub OIDC、AWS STS）跟 GCP STS 交換 short-lived access token、再用 token 呼叫 GSM。避開了「長期 service account JSON key 散落 CI / 第三方環境」的問題。GKE 內 workload 走 GKE Workload Identity（pod ServiceAccount → GCP service account 綁定）取 secret、也是同 mindset。

Audit log 治理：GSM 的 audit 分兩層 — Admin Activity（create / delete / IAM 變更、預設開、免費）、Data Access（AccessSecretVersion、預設關、開啟有 log 量跟 BigQuery export cost）。production 不開 Data Access = 事故時 連 secret 被誰取過都查不到、必須在 project IAM Audit Config 開、Cloud Logging sink 推到 SIEM 或 BigQuery（見 7.13 偵測覆蓋率與訊號治理）。

核心取捨表

取捨維度	Google Secret Manager	HashiCorp Vault	AWS Secrets Manager	Azure Key Vault
部署模型	GCP managed	自管 cluster（HA + replication）	AWS managed	Azure managed
跨雲	弱 — 綁 GCP	強 — 同一介面跨 AWS / GCP / Azure / on-prem	弱 — 綁 AWS	弱 — 綁 Azure
Rotation 模型	自寫 Cloud Function（Pub/Sub trigger）	dynamic engine 自動 lease	built-in Lambda 四階段 flow	自寫 Function App（Event Grid trigger）
Dynamic credential	無（靠 IAM impersonation 替代）	DB / cloud / SSH engine 完整	RDS rotation 有、cloud STS 較弱	較弱（依靠 Managed Identity）
Encryption key	Google-managed default / Cloud KMS CMEK	自管 / KMS auto-unseal	AWS KMS CMK	Azure Key Vault key
External workload	Workload Identity Federation（成熟）	AppRole / Kubernetes / OIDC auth	IAM Roles Anywhere（較新）	Managed Identity / Workload Identity
運維成本	低	高 — HA、upgrade、replication 自己顧	低	低
適合場景	GCP-heavy + WIF 已主導 + static secret 為主	跨雲、dynamic credential、內部 PKI	AWS-heavy + 需要 built-in rotation 收斂	Azure-heavy + Managed Identity 已主導
退場成本	低	中 — dynamic engine 接線多	低	低

選 GSM 的核心訴求：workload 主要跑在 GCP（GKE / Cloud Run / Cloud Build）、已經用 Workload Identity Federation 收 service account key、secret 形態以 static 為主（DB password、third-party API key、private key）、rotation 邏輯願意用 Cloud Function 自寫。要跨雲、要 dynamic credential、要內建 rotation flow、需要 transit encryption — 走 Vault。

進階主題

CMEK + Cloud KMS 雙軌權限分離：production 應該至少把 prod secret 的 CMEK key 跟 secret IAM 分到不同 admin group — secret admin 可以建 / 改 secret 但不能 decrypt（沒 KMS cloudkms.cryptoKeyDecrypter），KMS admin 可以管 key 但不能讀 secret 內容。對應 Microsoft Storm-0558 signing key chain 的對照啟示：key 不離 KMS 邊界、跟 HSM-bound 同 mindset；CMEK 是把這個原則內建到 secret 路徑。

Berglas（OSS pattern）：Berglas 是 Google 開源的 GSM client library + CLI、在 Cloud Run / Cloud Function / GKE 啟動時把 sm://... 參考自動 resolve 成實際 secret value、注進環境變數或檔案。比起應用端寫 SDK 取 secret 的好處：secret 不進 container image / build manifest、只有 runtime 取得；缺點是多一層 dependency、且 Berglas 自己有 IAM 需求要管。

GKE Workload Identity 取用：GKE pod 用 ServiceAccount → IAM service account 綁定（透過 iam.gke.io/gcp-service-account annotation）、pod 內呼叫 GSM API 自動帶 GCP service account 身份、metadata server 簽 token。比起把 service account JSON key mount 進 pod、Workload Identity 沒有長期 credential 在 pod 內、credential rotation 由 GCP metadata 自動處理。

Secret rotation Cloud Function 樣板：訂閱 secret 的 rotation topic（Pub/Sub）、message 帶 secret name 跟 trigger reason；Function 內呼叫上游系統 API（DB / SaaS）生新 credential、用 secretmanager.AddSecretVersion 寫新 version、等一段時間（雙軌驗證窗口）後 DisableSecretVersion 舊 version、最後 DestroySecretVersion 完成 rotation。雙軌窗口的長度必須大於 consumer 的最長 cache TTL、否則沒及時 refresh 的 consumer 會在 disable 後失敗。

Pub/Sub event subscription（new in 2023+）：除了 rotation schedule 自動發 event、GSM 也支援對 secret 任意變更（new version、IAM change）發 Pub/Sub message、可接 SOAR / SIEM 做 secret 異常變更告警（例：非 CI service account 在週末新增 secret version）。

排錯與失敗快速判讀

取 secret 拿到 PERMISSION_DENIED：通常是 IAM binding 在 project 層但 secret 在某 sub-resource、或 IAM Conditions 把當前 caller 排除 — 用 gcloud secrets get-iam-policy 直接看 binding、確認 condition 表達式
CMEK 設定後突然讀不到 secret：CMEK key region 跟 secret replication region 不對齊、或 caller 沒有 KMS decrypt 權限 — 確認 key 在所有 replication region 都有版本、secret accessor service account 有 cloudkms.cryptoKeyDecrypter
Rotation Cloud Function 跑了但 consumer 認證失敗：雙軌窗口太短或 consumer 沒實作 latest version 失敗 fallback、舊版 disable 後孤兒 consumer 直接斷 — 把雙軌窗口拉到 cache TTL × 2、補 fallback 邏輯
Data Access audit 沒紀錄：預設關、要在 project IAM Audit Config 明確開 secretmanager.googleapis.com 的 DATA_READ — 不開等於沒辦法回答「事故當下誰讀了 secret」
External workload 拿不到 secret：Workload Identity Federation 的 provider attribute mapping 沒對齊（GitHub OIDC token 的 repository claim 沒被 map 到 attribute condition）— 走 gcloud iam workload-identity-pools providers describe 看 mapping、用 token introspection 驗實際 claim
Secret version 累積過多：rotation 只 disable 不 destroy、版本無限長 — 加 lifecycle policy（手動 / Cloud Function 排程）destroy 超過 N 個版本以前的舊版
GKE pod 用 Workload Identity 但拿不到 secret：通常是 GKE 沒 enable Workload Identity feature、或 iam.gke.io/gcp-service-account annotation 拼錯、或 GCP service account 沒給 K8s ServiceAccount iam.workloadIdentityUser — 三層都要對才能通

何時改走其他服務

需求形狀	改走
跨雲 secret 統一介面	HashiCorp Vault
需要 dynamic database / cloud credential	HashiCorp Vault dynamic engine
需要 built-in 四階段 rotation flow	AWS Secrets Manager（若可遷 AWS）
Encryption-as-a-service / 內部 PKI	HashiCorp Vault transit / PKI engine
FIPS 140-2 Level 3 HSM 需求	Cloud HSM（KMS 後端可改 HSM）
公開憑證 PKI	Google Certificate Authority Service / Let’s Encrypt
K8s workload cert 自動化	cert-manager
Secret rotation 證據鏈	7.5 Credential Rotation Scoped Evidence

不在本頁內的主題

GSM 完整 REST API 跟 gcloud secrets 詳盡子命令
Cloud KMS key lifecycle 跟 rotation 細節（看 Google Cloud KMS 章）
Workload Identity Federation 完整設定步驟（attribute mapping、condition expression、provider 設定看 Google Cloud IAM 章）
Berglas 完整 CLI 用法
Cloud Function / Cloud Run 部署細節
GCP Organization Policy 跟 secret 跨 project 共享的進階場景

案例回寫

GSM 在 07 案例庫沒有直接 vendor-level 事件、以下案例採對照引用：

案例	跟 GSM 的關係（對照）
Failure: Credential Rotation Without Scope	GSM rotation 是自寫 Cloud Function、scope map 跟雙軌驗證窗口都要自己設計、不像 AWS Secrets Manager 有 built-in 四階段 flow — 設計時就要把 consumer scope 跟 cache TTL 算進 rotation 排程
Microsoft Storm-0558 Signing Key Chain (red-team)	對照啟示 — GSM CMEK 把 encryption key 放 Cloud KMS、key 不離 KMS 邊界、跟 HSM-bound 同 mindset；secret admin 跟 KMS admin 分人是減 blast radius 的關鍵
Okta Cloudflare 2023 Support Supply Chain (red-team)	對照啟示 — GSM 管的第三方 token（GitHub PAT / Slack token / SaaS API key）scope 過寬時、上游事件直接傳導下游、要走 IAM Conditions 收 caller scope 跟過期時間

下一步路由

上游：7.6 秘密管理與機器憑證治理、7.13 偵測覆蓋率與訊號治理
平行：HashiCorp Vault、AWS Secrets Manager、Azure Key Vault
下游：Google Cloud KMS（GSM CMEK 後端、key custody 分離）
下游：Google Cloud IAM（secret IAM binding、Workload Identity Federation 設定）
跨模組：8 事故處理 vendor 清單（GSM 事件如何 routing 進 IR 流程）
官方：Secret Manager Documentation

Google Cloud KMS

Mon, 18 May 2026 00:00:00 +0000

Google Cloud KMS 是 GCP 原生的 key management service、把 envelope encryption、asymmetric signing 與 MAC 等密碼運算集中在受控的 key custodian 內、key material 不離保護邊界。應用端只持 KMS resource name + IAM 權限、用 Encrypt / Decrypt / AsymmetricSign API 把 plaintext 或 hash 送進 Cloud KMS、key 永遠在 Google 管理的 software 模組或 HSM 內運算完才把結果送回。整個 GCP 的 CMEK（Customer Managed Encryption Key）生態都以 Cloud KMS 為錨點 — GCS bucket、BigQuery dataset、Persistent Disk、Cloud SQL、GKE etcd 都可指定一把 Cloud KMS key 做加密、跟 cloud-native 預設加密（GCP 自管 key、客戶看不到）拉出邊界。

服務定位

Cloud KMS 的核心定位是 GCP-native envelope encryption + signing 控制面、用 KeyRing 作為 organizational + locational grouping、CryptoKey + CryptoKeyVersion 作為 key material 的版本軸。跟 AWS KMS 相比、最大差異是 沒有獨立的 Key Policy：權限完全走 GCP IAM（Role Binding 綁到 KeyRing 或 CryptoKey resource）、好處是跟 Google Cloud IAM 統一治理（同一份 IAM audit、同一套 conditional binding）、代價是少了 AWS KMS Key Policy 那種 key-level 的獨立 deny override。

跟 Azure Key Vault 相比、Cloud KMS 拆得更細：Azure 把 secret + key + certificate 合在同一個 Key Vault service、Google 拆成 Google Secret Manager（secret）+ Cloud KMS（key）+ Certificate Authority Service（PKI），各 service IAM、quota、audit 獨立。跟 CloudHSM 相比、Cloud KMS Protection Level=HSM 是 managed HSM（FIPS 140-2 Level 3、Google 顧 cluster）、CloudHSM 是 single-tenant 專屬 HSM（客戶顧 cluster、合規隔離更強）。跟 Vault transit 相比、Cloud KMS 綁 GCP、Vault transit 可跨雲；但 Vault 自己常用 Cloud KMS 當 auto-unseal master key custodian。

本章目標

讀完本頁、讀者能判斷：

KeyRing 該放哪個 location（global / regional / dual-regional / multi-regional）、為何一旦決定無法搬遷
CryptoKey Version + Primary 版本軸怎麼支撐 rotation、何時該 disable / destroy 舊 version
Protection Level（SOFTWARE / HSM / EXTERNAL）跟 Cloud HSM、External Key Manager 的取捨
CMEK 整合 GCS / BigQuery / Persistent Disk 跟 cloud-native default encryption 的邊界差異

最短判讀路徑

判斷一份 Cloud KMS 部署是否健康、最少看四件事：

KeyRing location 對不對：production sensitive key 用 region / multi-region、避免不必要的 global KeyRing；location 一旦設定 不能改、key 也搬不出原 KeyRing — 設錯只能建新 KeyRing + 重新加密所有 ciphertext
IAM Conditions 跟 least privilege：roles/cloudkms.cryptoKeyEncrypterDecrypter 不該綁到 KeyRing level（會放大爆炸半徑）、應綁到具體 CryptoKey；admin 跟 use 角色分離（roles/cloudkms.admin ≠ roles/cloudkms.signer）；敏感 key 加 IAM Condition（時間窗、resource attribute）
Cloud Audit Logs 開到對的層級：Admin Activity（建 key、改 IAM、destroy version）預設開、Data Access（每次 Encrypt / Decrypt / Sign）預設關 — production sensitive key 必須在 IAM audit config 把 Data Access 開、否則「誰用 key 做了什麼」查不到
Protection Level 對齊合規：production 跟 PII / 金融 / 醫療資料的 key 應走 HSM 或 EXTERNAL、SOFTWARE 只給 dev / 低敏感場景；EKM 對應 資料主權（key 物理上不在 GCP）

四件事任一缺失、就是 Audit Log 與 KMS 邊界的待補項目。

日常操作與決策形狀

KeyRing 設計：KeyRing 是 組織單位 + 位置鎖。建議切法：依 環境 + 用途 拆（prod-data-encryption-asia-east1、prod-signing-global、dev-data-encryption-asia-east1），不要全公司一個 KeyRing。Location 選擇：跟資料 colocate（GCS bucket 在 asia-east1 的 key 也放 asia-east1 KeyRing、避免跨區延遲與資料主權問題）；signing key 多半放 global 或 multi-region 提高可用性；CMEK 給 BigQuery 時 KeyRing location 必須跟 dataset location 一致、否則綁不上。一個原則：KeyRing location 是一次性決策、上線前確認跟 cloud resource location + 法規要求對齊。

CryptoKey Version 與 Primary：CryptoKey 有多個 version（projects/.../cryptoKeys/k/cryptoKeyVersions/1、v2、v3）、其中一個是 Primary — 所有 Encrypt API 預設用 Primary version 加密、Decrypt 自動依 ciphertext 內嵌的 version ID 找對應 version 解。Rotation 不是「換 key」、是 建立新 version 並 promote 為 Primary；舊 version 仍可 decrypt 既有 ciphertext（除非手動 disable / destroy）。Destroy 是 24 小時延遲（可在期內 restore）、destroy 之後 ciphertext 永久不可解 — 排程 destroy 前必須確認沒有遺留 ciphertext 還在用該 version。

Auto Rotation：CryptoKey 可設 rotationPeriod（最短 1 天、預設 90 天）、KMS 在到期時自動建立新 version + promote 為 Primary、app 不需要改 code。Auto rotation 只對 symmetric encryption key 有效；asymmetric key（signing / decryption）不支援 auto rotation、需要手動建 version + 通知 consumer 更新 public key。注意 auto rotation 是 key version 換、不會 re-encrypt 既有資料 — 真正的 資料 re-encryption 是另一條工作流（讀回 ciphertext + 用新 Primary 重加密寫回）、要依 CMEK-integrated resource 各自規劃。

Protection Level：SOFTWARE（軟體運算、最便宜、FIPS 140-2 Level 1）/ HSM（Cloud HSM 後端、FIPS 140-2 Level 3、key 物理上在 Google 管理的 HSM cluster）/ EXTERNAL（External Key Manager、key 在客戶自管的外部 HSM、Cloud KMS 把運算委派出去）。Production sensitive key 應走 HSM、SOFTWARE 給 dev / 低敏感場景。Protection Level 是 CryptoKey 建立時決定、不能改 — 要升等只能建新 CryptoKey + 遷移 ciphertext。

CMEK 整合：CMEK 把 Cloud KMS key 綁到 GCS bucket / BigQuery dataset / Persistent Disk / Cloud SQL / GKE etcd / Pub/Sub topic / Dataflow job 等 resource。設定方式：cloud service 的 service account（如 service-PROJECT_NUMBER@gs-project-accounts.iam.gserviceaccount.com）取得該 CryptoKey 的 cryptoKeyEncrypterDecrypter 權限、resource 在加密時自動呼叫 KMS。跟 cloud-native default encryption（GCP 自己管 key）的差異：CMEK 下 客戶可隨時 disable key 讓整個 bucket / dataset 立刻無法解（compliance kill switch）、default encryption 沒這個能力。代價是 KMS 故障 = CMEK-integrated resource 全部讀寫卡住、所以 production KMS 自身 SLA 跟 monitoring 是 cluster-level dependency。

External Key Manager (EKM)：GCP 把 encryption / decryption operation 委派給客戶自管的外部 HSM（Thales、Equinix SmartKey、Fortanix 等）、key 物理上不在 GCP、Cloud KMS 只是個 proxy。適合 資料主權 嚴格的場景（歐盟金融、政府機密、跨境法規）— 客戶撤銷外部 HSM 的存取、GCP 立刻無法解密、達成「Google 看不到資料」的合規承諾。代價：每次 Encrypt / Decrypt 都打外部 HSM、延遲跟可用性受外部 HSM 影響、運維複雜度大幅上升。

IAM 整合：用 Role Binding 控制存取（綁在 KeyRing 或 CryptoKey resource）— roles/cloudkms.cryptoKeyEncrypterDecrypter（Encrypt + Decrypt）/ roles/cloudkms.signer（AsymmetricSign）/ roles/cloudkms.signerVerifier（含 public key 取得）/ roles/cloudkms.admin（建 key、改 IAM）。對應 Google Cloud IAM 的 conditional binding、可加時間窗、resource attribute、access level 條件。跟 AWS KMS 的關鍵差異：沒有 Key Policy — 所有授權都在 IAM、好處是統一治理、代價是少了 key-level 的獨立 deny override（AWS KMS Key Policy 可寫「即使 IAM 給了 admin、仍 deny destroy」、Cloud KMS 要用 Organization Policy 或 IAM Deny 達成類似效果）。

核心取捨表

取捨維度	Google Cloud KMS	AWS KMS	Azure Key Vault	Vault transit
部署模型	GCP managed	AWS managed	Azure managed	self-hosted 或 HCP
跨雲	弱 — 綁 GCP	弱 — 綁 AWS	弱 — 綁 Azure	強 — 同介面跨雲
Multi-region key	用 multi-region KeyRing（key material 在多 region 鏡像）	Multi-Region Key 較直接（單一 key ID、跨 region 自動同步）	支援 geo-replication	跨雲、需自行設計 replication
Key 權限模型	純 IAM Role Binding、無 Key Policy	IAM + 獨立 Key Policy（雙層授權）	RBAC + Access Policy 雙模式	Vault policy（path-based）
HSM 選項	Protection Level=HSM（managed、FIPS 140-2 L3）	AWS KMS HSM-backed（預設）+ CloudHSM（專屬）	Premium tier + Managed HSM	依賴後端 KMS / HSM
外部 key 託管	External Key Manager (EKM)	XKS (External Key Store)	BYOK + Managed HSM	自管 HSM unseal
Audit	Cloud Audit Logs（Data Access 需手動開）	CloudTrail（KMS event 自動進）	Azure Monitor / Activity Log	Vault audit device
CMEK 整合廣度	GCS / BQ / PD / Cloud SQL / GKE etcd / Pub/Sub / Dataflow	S3 / EBS / RDS / DynamoDB / Lambda env	Storage / SQL / Cosmos / Disk	不適用（app-level）
適合場景	GCP-heavy、需 CMEK 整合、Workload Identity Federation 已主導	AWS-heavy、需 Multi-Region Key + Key Policy 精細控制	Azure-heavy、需要 secret + key 統一治理	跨雲、需要 app-level encryption-as-a-service

選 Cloud KMS 的核心訴求：GCP 是主力雲 + 需要 CMEK 把 GCS / BigQuery / PD / Cloud SQL 的加密 key custody 拉回客戶手上 + 接受 IAM-only 授權模型。需要 跨雲統一 key custody 走 Vault transit 或 EKM；需要 單一專屬 HSM 隔離 走 CloudHSM 或 EKM 接 on-prem HSM。

進階主題

External Key Manager (EKM) 與資料主權：EKM 讓 key 物理上不在 GCP、Cloud KMS 變成 proxy 把 cryptographic operation 委派給客戶自管 HSM。常見部署：金融 / 政府用 EKM via VPC（外部 HSM 在客戶 VPC 內、Cloud KMS 走 PSC 連線、延遲較低）、跨境合規用 EKM via Internet（HSM 在第三方 KMS provider、延遲較高但治理邊界更乾淨）。代價：每次 Encrypt / Decrypt = 一次外部呼叫、CMEK-integrated resource 的讀寫吞吐量受外部 HSM 限制、外部 HSM 故障 = 整個 GCP 端讀寫卡住。

Cloud HSM（Protection Level=HSM）：把 CryptoKey 物理上鎖在 Google 託管的 FIPS 140-2 Level 3 HSM cluster 內、key 不可 export、所有 cryptographic operation 在 HSM 邊界內完成。對應 Microsoft Storm-0558 Signing Key 2023 的對照啟示：signing key 一旦能被 export 或從 memory crash dump 撈出、整個信任鏈崩 — HSM-bound key 從設計上斷掉這條路徑。代價：HSM 後端比 SOFTWARE 貴、operation 延遲略高（典型多 < 10ms）、quota 也獨立計算。

Asymmetric Key 做 JWT signing：CryptoKey purpose=ASYMMETRIC_SIGN 配 algorithm（RSA / EC）、app 透過 AsymmetricSign API 把 JWT header+payload 的 hash 送進 KMS、KMS 回 signature。Public key 走 GetPublicKey API 取得、給 JWKS endpoint 對外發布。優勢：private key 不離 KMS、即使 app server compromise 也無法搬走 signing key；劣勢：每次簽名都 round-trip 一次 KMS、高 QPS 場景要算 quota 跟延遲（典型 ~10-30ms / sign）。

跟 Google Secret Manager 的 CMEK 整合：Google Secret Manager 預設用 GCP 管的 key 加密 secret、若要 客戶管 key、可設 CMEK 把 GSM 的 secret 用客戶 Cloud KMS key 加密。意義：disable Cloud KMS key 立刻讓 GSM secret 不可讀（compliance kill switch）— 但代價是 KMS 故障 = GSM 也卡住、是強耦合 dependency。

Multi-region key：Cloud KMS 的 multi-region KeyRing（如 us、europe、asia）讓 key material 在多 region 鏡像、提高可用性但加密 / 解密延遲較高。AWS KMS 的 Multi-Region Key 設計不同（單一 key ID 跨 region 同步、有獨立的 primary / replica 角色）— 跨雲遷移 / 多雲 active-active 設計時要留意這個差異、Cloud KMS multi-region 比較像 單一邏輯 key 多 region 可用、不是 多 region 各自獨立可寫。

Import 自有 key material（BYOK）：Cloud KMS 可 import 客戶自產的 key material（透過 wrapping key 包覆後上傳）、適合需要 客戶端 key generation 證據鏈 的合規場景。代價：import 的 key 不能 auto rotate（rotation 必須客戶端重新產 key 再 import），且 SOFTWARE / HSM Protection Level 都支援、EXTERNAL 不適用（EXTERNAL 本來就在外部 HSM、不走 import 路徑）。

Organization Policy 與防護欄：跟 Google Cloud IAM 整合的 Org Policy 可在 organization-level 強制 只允許 HSM / EXTERNAL key（constraints/gcp.restrictNonCmekServices）、防止工程師建出 SOFTWARE key 處理敏感資料。這層防護欄比依賴 reviewer 紀律有效、屬於 Failure: Credential Rotation Without Scope 同類「規約靠系統而非紀律」的設計。

排錯與失敗快速判讀

KeyRing location 設錯：KeyRing 建在 global、要綁 asia-east1 的 BigQuery dataset CMEK — 綁不上、location 不能改、只能建新 KeyRing + 重新加密 — 上線前 review KeyRing location 跟 resource location 對齊
Data Access audit 沒開：production 用 Cloud KMS 做 signing、事故時要查 誰用 key 簽了什麼、發現只有 Admin Activity log、沒有 Decrypt / Sign 記錄 — IAM audit config 加 dataAccess log type、留意 audit log 自己會增加成本與 quota
CMEK key disable 後 resource 全卡：disable CryptoKey 想做 compliance 演練、整個 GCS bucket 讀寫立刻 503 — disable 是 全或無、要演練得排維護窗、有 rollback 計畫（re-enable 後恢復）
Auto rotation 設定 + asymmetric key：以為 asymmetric signing key 也會 auto rotate、上線數月後發現 version 1 還在用 — asymmetric key 不支援 auto rotation、要手動建 version + 通知 JWKS consumer
IAM Role 過寬：給整個 KeyRing cryptoKeyEncrypterDecrypter、單一 service account 可以解所有 key — 改綁到具體 CryptoKey、加 IAM Condition
EKM 外部 HSM 故障：外部 HSM 連線中斷、Cloud KMS 端 Encrypt / Decrypt 全 fail、所有 CMEK-integrated resource 讀寫卡住 — EKM 需要 dual HSM redundancy + Cloud KMS 端 monitoring alert
Destroy 後資料不可解：CryptoKeyVersion destroy 後 24 小時 grace period 過了、發現某個 backup 還是用該 version 加密 — destroy 前必須跑 inventory 確認沒有 ciphertext 還掛在該 version

何時改走其他服務

需求形狀	改走
AWS-only 加密 + 需 Key Policy 精細控制	AWS KMS
Azure-only 加密 + 需 secret + key 同治理	Azure Key Vault
跨雲統一 encryption-as-a-service	HashiCorp Vault transit engine
單一專屬 HSM 隔離 / 跨雲合規	CloudHSM
GCP secret 管理（非 key）	Google Secret Manager
GCP IAM 治理基底	Google Cloud IAM
公開憑證 / PKI	Certificate Authority Service（GCP）或 Let’s Encrypt
Secret rotation 證據鏈	7.5 Credential Rotation Scoped Evidence

不在本頁內的主題

Cloud KMS 完整 API reference 跟 gcloud kms CLI 詳盡用法
Cloud HSM partition 內部架構、FIPS 140-2 Level 3 驗證細節
EKM 各 partner（Thales / Fortanix / Equinix）的整合步驟與 API 對照
BigQuery / GCS / Cloud SQL 各自 CMEK 設定的完整教學
Cloud KMS pricing 詳盡計算（key version 數、operation 次數、HSM 加成）

案例回寫

Cloud KMS 在 07 案例庫沒有直接 vendor-level 事件、以下案例採對照引用：

案例	跟 Cloud KMS 的關係（對照）
Microsoft Storm-0558 Signing Key 2023	Cloud KMS Protection Level=HSM 把 signing key 鎖在硬體、不可 export、跟 HSM-bound mindset 同源 — signing key 一旦能 export 整條信任鏈崩
Microsoft Storm-0558 Signing Key Chain (red-team)	Asymmetric Key + Cloud Audit Data Access 是誰用 key 簽什麼的稽核基礎、預設關閉的 Data Access log 在 production 必須開、否則事故時無證據
Failure: Credential Rotation Without Scope	Auto Rotation 是 vendor-controlled、但 CMEK 整合的 GCS bucket / BQ dataset 的 re-encryption schedule 還是要自己管、否則 rotation 只換 key version、舊資料還是用舊 version

下一步路由

上游：7.6 秘密管理與機器憑證治理、7.5 傳輸信任與憑證生命週期（KMS 為 TLS / signing key 的 root custodian）、7.13 偵測覆蓋率與訊號治理
平行：AWS KMS、Azure Key Vault、CloudHSM
平行（secret）：Google Secret Manager、HashiCorp Vault
上游（IAM）：Google Cloud IAM（Cloud KMS 權限完全走 IAM Role Binding）
跨模組：8 事故處理 vendor 清單（KMS 事件如何 routing 進 IR 流程）
官方：Cloud KMS Documentation

Google DLP

Mon, 18 May 2026 00:00:00 +0000

Google DLP（Data Loss Prevention、2023 重新命名為 Sensitive Data Protection / SDP）是 GCP 原生的敏感資料 discovery + classification + transformation 服務。它跟 Microsoft Purview / AWS Macie / Cloud-native data policy 的差異不在「能不能發現 PII」、而在 發現之後能做多少事 — Google DLP 的核心優勢是 transformation 層（masking / Format-Preserving Encryption / tokenization / k-anonymity / differential privacy），不只是 detection。

服務定位

Google DLP 的核心定位是 infrastructure-level 敏感資料治理、跨 GCS / BigQuery / Cloud SQL / 任意 Inspect API input 的 PII 發現與去識別化。三層能力堆疊：Discovery（背景 scan GCS bucket / BigQuery table / Cloud SQL instance 找 PII / payment / credential）、Classification（150+ 預定義 infoType + custom infoType 組合）、Transformation（redact / mask / replace / pseudonymize / Format-Preserving Encryption / k-anonymity / differential privacy）。

跟 Microsoft Purview 比、Purview 走 information protection（sensitivity label + Office docs + Microsoft 365）+ DLP、Google DLP 走 infrastructure-level data scan + transformation；兩者解不同層、企業若 Office docs / SharePoint 為主走 Purview、cloud data warehouse / object storage 為主走 Google DLP。跟 AWS Macie 比、Macie 限 S3 + EBS / RDS snapshot、Google DLP 跨 GCS + BigQuery + Cloud SQL + 任意 Inspect API content（含 streaming / on-prem 透過 API call）。跟 Cloud-native data policy 比、Google DLP 是 detection + transformation、Cloud-native policy 是 access control；production 常組合使用 — DLP 發現敏感欄位 → policy 限制誰能 access → 必要時 DLP transformation 在 query time 自動 redact。

關鍵張力：content scanned 計費 ↔ 偵測覆蓋率。DLP API 按 scanned bytes 計費、整 BigQuery dataset full scan 在 PB-scale 跟 SIEM ingestion 同類痛點。實務應該分 sample scan（每 dataset 抽 1% 找 infoType 分布）+ full scan（高敏感 dataset 才完整 scan）+ streaming scan（write path 即時擋）三層。

本章目標

讀完本頁、讀者能判斷：

Google DLP 在 GCP 資料保護 stack 中承擔哪一段（discovery / classification / transformation）、哪些要外接（Google Cloud IAM 管 DLP service account、BigQuery column-level security 補 access control）
infoType / Inspection Job / transformation 種類的選用判準（什麼場景 mask、什麼場景 FPE、什麼場景 k-anonymity）
計費 trap 的應對（sample scan + full scan 分層、Pub/Sub trigger 避免重複 scan）
何時用 Google DLP、何時走 Purview / Macie / Cloud-native policy 的取捨

最短判讀路徑

判斷 Google DLP deployment 是否健康、最少看四件事：

誰跑 Inspection Job：DLP service account 的 IAM role（roles/dlp.user / roles/dlp.jobsEditor）、能 scan 哪些 project / bucket / dataset、findings 寫進哪個 BigQuery table、誰能讀 findings
infoType coverage：是否覆蓋 organization-specific PII（員工 ID / 客戶 ID 用 custom infoType + dictionary）、預定義 infoType 是否 enable 對應業務的（PCI 場景需 CREDIT_CARD_NUMBER + Luhn check、HIPAA 場景需 healthcare infoType）
Transformation lifecycle：發現 PII 後做什麼（自動 quarantine bucket / 自動 redact view / Pub/Sub trigger Cloud Function）、transformation 是 one-way（mask / redact）還是 reversible（FPE / tokenization 需 key management 走 Cloud KMS）
Cost 治理：scan 頻率 vs scan scope 的策略、是否分 sample / full / streaming 三層、findings retention policy（findings table 本身也是敏感資料、不該無限保留）

四件事任一缺失、就是 Data Protection and Masking Governance 邊界的待補項目。

日常操作與決策形狀

使用模式：Inspect API vs Inspection Job：DLP 有兩種呼叫模式 — Inspect API 走同步單次 scan（小 payload、即時 mask、API 寫入前的 streaming gate）、Inspection Job 走非同步批次 scan（大 dataset、結果存 BigQuery findings table、Pub/Sub trigger 後續 workflow）。production 通常混用：write path（Cloud Function / API gateway）走 Inspect API 即時擋住敏感資料寫進儲存、背景 Inspection Job 對既有 dataset 跑覆盤。

infoType 是 first-class concept：infoType 不是 regex、是 PII 分類單位。預定義 150+ 種（CREDIT_CARD_NUMBER / EMAIL_ADDRESS / US_SOCIAL_SECURITY_NUMBER / IP_ADDRESS / GENERIC_ID / PERSON_NAME 等）、各帶內建驗證邏輯（CREDIT_CARD_NUMBER 內建 Luhn check 比純 regex 精準、減少 FP）。Custom infoType 三種：regex pattern（自訂 regex）、dictionary（明確 token list、例員工 ID 全集）、hotword rule（context-aware、附近出現特定字才認、例「身分證」附近的數字才認 ID）。FP rate 直接由 infoType 精度決定、production rule 應該優先用預定義 infoType + hotword 限縮。

Transformation 種類遠不只 mask：DLP 的 transformation 是它跟其他 discovery-only 工具的核心差異。Redact 完全刪除（query result 看不到欄位）；Mask 保留長度替換字元（****1234）；Replace 替換成固定字串（[REDACTED]）；Pseudonymize / Tokenization 一致性 token（同樣 input 給同樣 output、可做 join 但不可逆）；Format-Preserving Encryption (FPE) 保留長度 / format 的可逆加密（key 在 Cloud KMS、analyst 查 anonymized data + 必要時授權 reverse）；k-anonymity / l-diversity aggregate 到至少 k 個 record 才公開（防止 quasi-identifier re-identification）；Differential privacy 加 noise 保證 statistical privacy（aggregated analytics 用）。後三項是 production analytics 場景的關鍵 — 不是「藏起來」而是「可用但保護」。

跟 BigQuery 深度整合：DLP 可 inline scan BigQuery column、findings 自動寫回 metadata。配合 BigQuery column-level security（policy tag）+ authorized view 做「敏感 column 只給特定 role + 自動 redact 給其他 role」。Production 模式：DLP Inspection Job 跑完後、自動 apply policy tag 到含 PII 的 column、無 tag access 的 query 自動失敗或 mask。

跟 Cloud Storage 整合：可 schedule 掃 bucket 整批檔案、發現後可自動 quarantine（移到隔離 bucket、不同 IAM、警告 owner）。對應 LastPass 2022 Backup Chain 的對照：backup bucket 應該獨立 DLP scan、含 credential 的 backup 走獨立 quarantine bucket + 不同 IAM 邊界、不是放在跟 dev backup 同一個 bucket。

Pub/Sub trigger workflow：Inspection Job 完成後可 publish 到 Pub/Sub topic、Cloud Function 訂閱後執行 — 自動 quarantine / 自動通知 owner / 自動寫進 SIEM findings index / 觸發 BigQuery policy tag update。這是 detection → response 自動化的 first-class pattern、不是後加的 webhook。

IAM 邊界：DLP service account 需要讀 source data（roles/storage.objectViewer / roles/bigquery.dataViewer）+ 寫 findings（roles/bigquery.dataEditor to findings dataset）+ 呼叫 DLP API（roles/dlp.user）。service account 本身是高敏感 — 它能讀整個 organization 的 PII、應該走 short-lived credential（Workload Identity Federation）+ 嚴格 audit。

核心取捨表

取捨維度	Google DLP	Microsoft Purview	AWS Macie	Cloud-native data policy
核心能力	Discovery + classification + transformation	Sensitivity label + DLP + Office docs	Discovery + classification（無 transform）	Access control + column-level security
Data source 範圍	GCS + BigQuery + Cloud SQL + 任意 Inspect API	Microsoft 365 + SharePoint + Azure data	S3 + EBS / RDS snapshot 限定	BigQuery / S3 / Snowflake 各自 native
Transformation	mask / FPE / tokenize / k-anonymity / DP（全套）	redact + Office sensitivity label	無 — 只 detection	無 — 只 access control
計費模型	按 content scanned（GB）	按 user / asset / 流量	按 storage scanned（GB） + bucket count	多半含在 cloud platform、policy 規模相關
Custom 分類能力	infoType (regex + dictionary + hotword)	sensitive info type + classifier (ML)	managed data identifier + custom	tag-based / column-level、無 content scan
Healthcare / PHI	Cloud DLP for Healthcare（FHIR / DICOM）	Purview Healthcare data + Microsoft 365 PHI	有限	無原生 PHI 認知
適合場景	GCP-first + BigQuery / GCS 為 PII 儲存層	Microsoft 365 / Office docs / SharePoint 為主	AWS-only + S3 為 PII 儲存層	已知敏感 column、想做 access control 不做 mask
退場成本	中 — transformation 邏輯耦合 DLP API	高 — sensitivity label 跟 Microsoft 365 深綁	低 — 只是 finding 跟 alert	低 — policy 是 metadata

選 Google DLP 的核心訴求：GCP 為主資料平台 + BigQuery / GCS 有大量 PII + 需要 transformation（不只 detection）+ 合規（GDPR / HIPAA / PCI）需要 column-level redaction / tokenization。on-prem 為主或 Office docs 為主走 Purview、AWS-only 走 Macie + S3 policy。

進階主題

Custom infoType 三層組合：production 自家業務的 PII（員工 ID / 客戶 ID / 內部 case ID）需要 custom infoType。三種組合：regex 抓 pattern（員工 ID 格式 EMP-\d{6}）、dictionary 抓明確 token list（內部 case ID 全集、月更新）、hotword 限縮 context（附近出現「員工」「ID」才認、避免一般 6 位數字誤判）。三者組合的 FP rate 比單獨 regex 低一個量級。

Format-Preserving Encryption (FPE) vs Tokenization：兩者都產生「外觀像原值但不是原值」的替換。FPE 是可逆加密、key 在 Cloud KMS、analyst 在 anonymized data 工作 + 必要時走授權流程 reverse（例：客服需要看完整信用卡號處理退款）。Tokenization 是 deterministic mapping、同樣 input 給同樣 output、可做 join 分析但 token table 不存（理論上不可逆、實務上看 implementation）。選擇判準：需要分析 join 同一 user 跨 dataset 用 tokenization、需要授權 reverse 用 FPE、只要遮蔽不需要還原 用 mask / redact。

k-anonymity / l-diversity / differential privacy：解決 quasi-identifier re-identification 問題 — 即使欄位不是直接 PII（如 ZIP + 性別 + 年齡）、組合起來能反推個人。k-anonymity 保證每個 record 在 quasi-identifier 上至少跟 k-1 個其他 record 一樣（典型 k=5）。l-diversity 進一步保證 sensitive attribute 在每組內至少 l 個不同值（防止 homogeneity attack）。Differential privacy 加 calibrated noise 到 aggregate query 結果、保證個別 record 加入或刪除對結果影響有 bound。Risk Analysis API 可估算 dataset 的 k-anonymity / l-diversity 風險、不需要先 transform 才知道風險。

跟 Cloud DLP for Healthcare 整合：FHIR / DICOM 格式的 PHI 有專屬 transformation pipeline。FHIR resource 的特定欄位（patient name / MRN / birth date）按 HIPAA Safe Harbor 自動遮罩、DICOM image 的 metadata 跟 burned-in text 都可 redact。Healthcare 場景的 PHI 治理跟一般 PII 不同 — 不能直接 mask 全部、要保留 clinical utility（年齡轉年齡段、ZIP 保留前三碼）。

跟 BigQuery column-level encryption：BigQuery 原生支援 AEAD encryption function、可用 KMS-managed key 對 column 做 cell-level encryption。DLP 可在 ingestion 階段先 tokenize、BigQuery query 階段配合 column-level security 做 access-time decryption。是「detection（DLP）+ classification（policy tag）+ encryption（AEAD）+ access control（column-level security）」的完整 stack。

排錯與失敗快速判讀

DLP scan 找不到明顯 PII：infoType 沒 enable / 預定義 infoType 對 organization-specific 格式不認 — 加 custom infoType + hotword、跑 sample scan 驗證 coverage
FP rate 太高 / findings 淹沒：infoType 太寬 / hotword 沒設 — 加 likelihood threshold（VERY_LIKELY / LIKELY）、custom infoType 加 hotword 限縮 context
Scan cost 暴衝：每次都 full scan 整個 dataset / 沒分層 — 改 sample scan（每 dataset 1%）+ 高敏感 dataset 才 full scan + streaming scan 守 write path
Inspection Job 跑超久 / timeout：dataset 過大 / 沒 partition — 切 partition by date、Job concurrency 提高、避免單 Job 跨整個 organization
Transformation 後 analyst 無法工作：mask / redact 全部、保留不下 utility — 改 FPE / tokenization 保留 join 能力、k-anonymity 保留 statistical utility
Findings table 自己變成 PII 洩漏面：findings 含 sample value（預設 quotable）、findings table 無獨立 IAM — 設定 includeQuote: false、findings table 走獨立 dataset + 嚴格 IAM
DLP service account 權限太大 / 沒 audit：service account 能讀全 organization PII、用 long-lived key — 改 Workload Identity Federation + short-lived credential + Cloud Audit Log 監控 DLP API call

何時改走其他服務

需求形狀	改走
Microsoft 365 / Office docs 為主	Microsoft Purview
AWS-only + S3 為 PII 儲存層	AWS Macie
只要 access control 不要 transformation	Cloud-native data policy
Secret / credential scanning（非 PII）	GitGuardian / Gitleaks
Data lineage / catalog	Dataplex / Atlan / Collibra
KMS / key management for FPE	Google Cloud KMS
SIEM ingestion of DLP findings	Splunk / Chronicle

不在本頁內的主題

預定義 infoType 完整 list 跟各自 detection 邏輯（150+ 種、見官方 InfoType reference）
Cloud DLP for Healthcare 的 FHIR / DICOM 完整 pipeline 細節
BigQuery column-level security / policy tag 的 policy 設計（屬 Data Governance 章節）
GDPR / HIPAA / PCI 合規逐條對應（屬 7.8 資料駐留與刪除證據鏈跟 7.4 資料保護與遮罩治理章節）
Differential privacy 的數學定義跟 epsilon budget 設計

案例回寫

Google DLP 在 07 案例庫沒有直接 vendor-level 事件、但所有資料外洩 / 敏感資料治理 case 都是 DLP 控制覆蓋率的對照：

案例	跟 Google DLP 的關係（對照啟示）
Snowflake 2024 Credential Abuse	資料平台 export 流程應該有 DLP scan gate — query result 含批量 PII / 整 table dump 直接 alert 或自動 redact、不是事後審 audit log
Mailchimp 2023 Support Tool Abuse	客服工具的客戶資料 export 應走 DLP Inspect API、單次 export 超過 N 筆 PII 或含 credential 直接擋住 + 觸發 alert、不靠 rate limit 一招
LastPass 2022 Backup Chain	Backup bucket 應該獨立 DLP scan、含 credential / token 的 backup 自動 quarantine 到獨立 bucket + 不同 IAM、不是跟 dev backup 同 bucket 同 IAM
Data Protection and Masking Governance (section)	Google DLP 是 transformation 工具的代表、章節原則對應 mask / FPE / tokenization / k-anonymity 的選用判讀
Data Residency Deletion and Evidence Chain (section)	DLP findings 是 deletion 證據鏈的一部分 — 哪些 PII 在哪些 dataset、deletion 後是否 re-scan verified、findings history 是 GDPR right-to-erasure 的稽核證據

下一步路由

上游：7.4 資料保護與遮罩治理、7.11 資料駐留、刪除與證據鏈
平行：Microsoft Purview、Cloud-native data policy
上下游 IAM：Google Cloud IAM（DLP service account 治理）、Google Cloud KMS（FPE / tokenization key）
SIEM 路由：Splunk（DLP findings 進 SIEM correlation）
跨模組：8 事故處理 vendor 清單（DLP alert → IR handoff）
官方：Google Cloud Sensitive Data Protection Documentation

Google Cloud IAM

Mon, 18 May 2026 00:00:00 +0000

Google Cloud IAM 是 GCP 的 cloud resource permission engine、把 誰能對哪個 resource 做什麼 統一成一個模型：Principal + Role + Resource scope 三件事拼成一個 role binding。它跟 Okta 等 IdP 是兩層責任 — Okta 回答「這個人是誰」、Google IAM 回答「這個身份能對 GCP resource 做什麼」。設計上比 AWS IAM 統一、沒有 resource-based policy vs identity-based policy 雙軌、也沒有 SCP / Permission Boundary 多層覆蓋、policy 評估路徑短而可預測。

服務定位

Google Cloud IAM 的核心抽象是 role binding on a resource scope：把 role grant 給 principal、生效範圍是某個 Organization / Folder / Project / 個別 resource、沿 resource hierarchy 向下繼承。同一個 principal 在不同 scope 可以有不同 role、有效權限是所有 binding 的 union。這跟 AWS IAM 的「identity policy + resource policy + SCP + boundary 多層 intersect / union」相比、推理成本低、但也意味著 guardrail 必須走 Organization Policy 這另一個系統 — 不是 IAM grant 的一部分。

跟 Azure RBAC 相比、兩者都是 scope-based、都靠 hierarchy 繼承。差異在 Service Account 是 GCP 的 first-class identity：有自己的 email、可被 impersonate、可以 grant role 給它也可以 grant iam.serviceAccountUser 讓人類 act-as 它。Azure 的對應是 Managed Identity、語義接近但 impersonation chain 的表達更隱晦。選 GCP（= 用 Google Cloud IAM）的核心訴求通常是：BigQuery / Vertex AI / GKE workload、想用 Workload Identity Federation 取代 long-lived key、團隊偏好較統一的 policy 模型。

本章目標

讀完本頁、讀者能判斷：

Google Cloud IAM 該承擔哪一段權限（resource access、service-to-service、cross-cloud federation）、哪一段該交給 Okta / IdP
Role 的選擇順序（Predefined > Custom > Basic）與 IAM Conditions 何時補上
Service Account / Workload Identity Federation 的信任邊界、何時不該再發 service account key
何時改走 AWS IAM / Azure RBAC / Organization Policy / VPC Service Controls

最短判讀路徑

判斷一個 GCP project 的 IAM 配置是否健康、最少看五件事：

Principal 級別：誰是 Owner / Editor / Viewer（Basic Role 應該幾乎為空）、Service Account 是否獨立列管、有沒有 user 直接 grant 沒走 group
Role 種類：Predefined Role 是 baseline、Custom Role 收斂 least privilege、Basic Role 視為待修；user-managed Service Account key 是否存在（理想是 0）
Impersonation chain 展平稽核：誰有 iam.serviceAccountTokenCreator / iam.serviceAccountUser 對哪個 SA、間接 chain（A → B → C）展平後 誰最終能 act as 高權限 SA。這是 GCP IAM 最容易漏稽核的一條 — 直接 binding 看 Role、但 lateral movement 走 impersonation chain
IAM Conditions：高敏 resource（prod bucket、KMS key、BigQuery dataset）是否用 condition expression 補 attribute-level 限制（resource name prefix、request time、IP）
Audit Logs：Admin Activity 預設開、Data Access logs 在 sensitive resource 是否手動開、System Log 是否同步到 SIEM 並 alert role 變更與 service account key 建立

五件事任一缺失、就是 Audit Log 與 Authorization 邊界的待補項目。

日常操作與決策形狀

Role 選擇順序：Predefined Role 是 baseline、覆蓋 80% 場景；Custom Role 用於收斂 least privilege（例如只給 bigquery.dataViewer 的特定子集）；Basic Role（Owner / Editor / Viewer）幾乎不該再用 — Editor 預設帶寫權限到幾乎所有資源類型、Owner 還能改 IAM policy 本身、粒度過粗。Project 建立預設給的 Owner role 是 人類自己 grant 自己、不是無法避免的 baseline。

Principal type：人類用 Google Workspace user / external user，群組走 Google Group（grant 給 group 比 grant 給 user 更穩、離職 lifecycle 由 IdP / HRIS 推 group 變更即可）。Service Account 是 第一級身份、跟 user 同等、有自己的 email（name@project.iam.gserviceaccount.com）、可被 grant role 也可被 impersonate。Workload identity（K8s SA、外部 OIDC subject）是 federation 層、不在 IAM 內直接列管、但 最後仍 impersonate 一個 Service Account 來拿 GCP 權限。

IAM Conditions：在 role binding 上加 attribute-based 條件、補純 RBAC 不足。常見 expression：resource.name.startsWith("projects/_/buckets/prod-")、request.time < timestamp("2026-12-31T00:00:00Z")、resource.type == "storage.googleapis.com/Bucket"。適合 temporary access、resource name 範圍限定、環境隔離；不適合複雜 ABAC 規則（會難以稽核、且 condition 只能用在支援的 resource type 上）。

Service Account impersonation：人類或另一個 Service Account 透過 iam.serviceAccountTokenCreator role 借用目標 SA 的權限、不需要 SA key。impersonation chain 可以串（A 可 impersonate B、B 可 impersonate C）— 這條鏈是 lateral movement 風險、稽核時要展平看 誰最終能 act as 高權限 SA。對應 Failure: Credential Rotation Without Scope 的教訓：rotation 沒分域時、單點 SA compromise 會跨環境擴散。

Workload Identity Federation（WIF）：GCP 接受外部 OIDC / SAML issuer（GitHub Actions、AWS、Azure、自管 K8s OIDC、CircleCI 等）發的 token、在 Workload Identity Pool 設 attribute mapping 後、外部 token 換成 short-lived GCP credential、最後 impersonate 指定 Service Account。是 取代 SA JSON key 的 modern best practice、CI / 跨雲 / 邊緣 workload 都該優先用。Trust 條件要鎖 issuer + audience + subject（例：assertion.repository == "myorg/myrepo"）— 缺一個就可能被同 issuer 下其他 subject 借用，這是 Microsoft Storm-0558 Signing Key Chain 對 external OIDC 信任的提醒：發 token 的 issuer 一旦被攻破、所有信任它的 audience 都跟著受害。

Service Account key（避免）：user-managed JSON key 是 long-lived credential、無 TTL、無 IP 限制、外洩偵測難。應該以 Workload Identity Federation 或 Service Account Impersonation 取代；若必須用、走 Organization Policy iam.disableServiceAccountKeyCreation 預設禁用、例外申請走 ticket、key 進 Secret Management、季度盤點未使用 key 刪除。

Organization Policy（guardrail）：跟 IAM 完全不同層 — 不是 grant、是 限制可以做什麼設定。常用 constraint：iam.disableServiceAccountKeyCreation、iam.allowedPolicyMemberDomains（限制只能 grant 給特定 domain 的 principal）、compute.vmExternalIpAccess（限制 VM external IP）、storage.publicAccessPrevention。Org Policy 在 Organization / Folder / Project 層設定、IAM 即使想 grant 也擋得住。

Audit / handoff：Admin Activity Log 預設開、不能關、保留 400 天免費；Data Access Log 預設關、開了會大量 log（也大量計費）— 對 sensitive resource（KMS key access、BigQuery dataset read、Secret Manager access）應該手動開；System Event Log 補基礎設施事件。三類都接 Cloud Logging sink 推到 SIEM、特別 alert 三件事 — IAM policy 變更、Service Account key 建立 / 上傳、Workload Identity Pool / Provider 變更。

核心取捨表

取捨維度	Google Cloud IAM	AWS IAM	Azure RBAC
Policy 模型	Role binding on resource scope、單軌	Identity policy + resource policy + SCP + boundary	Scope-based、Management Group 階層
表達力	中等、IAM Conditions 補 attribute	最高、policy language 表達 ABAC / 條件 / 否決	中等、Azure Policy 補 ABAC
Guardrail 機制	Organization Policy（獨立系統、constraint）	SCP（policy 同語法、separate plane）	Azure Policy（獨立系統、constraint）
Machine identity	Service Account first-class + WIF	IAM Role + STS AssumeRole + OIDC trust	Managed Identity + Workload Identity Federation
Cross-cloud federation	WIF 接外部 OIDC 是 modern best practice	OIDC trust on IAM Role、表達力強	Federated credentials、近年補齊
學習曲線	較緩、模型統一	陡、policy 評估順序複雜	中等、scope inheritance 直覺
推理 / 稽核成本	低 — binding union、Org Policy 獨立看	高 — 多層 intersect / union、需 policy simulator	中 — scope 繼承明確、policy 分散

選 Google Cloud IAM 的核心訴求：已在 GCP 上、或想用 BigQuery / Vertex AI / GKE、團隊偏好較統一的 policy 模型、跨雲場景靠 WIF 對外發 trust 而不維護多套 key。

進階主題

Workload Identity Federation 的深層應用：除了 GitHub Actions、AWS、Azure 這類常見 issuer、WIF 也支援自管 K8s OIDC issuer（OSS K8s cluster 跑 GKE workload identity 等價物）、SaaS（Snowflake、Terraform Cloud）發的 OIDC token。trust 設定要鎖 issuer URL、audience、subject pattern 三件事 — 任何一個太寬都是同 issuer 下別人借用你 SA 的入口。

Organization Policy 的 dry-run / 例外：constraint 可以先設 dryRun 觀察會擋掉哪些操作再 enforce；例外用 exception folder（特定 folder 不繼承上層 constraint）或 condition（特定 resource pattern 不擋）。直接全 org 一次 enforce 通常會打掉既有 workload、要分階段。

IAM Conditions 的有限性：condition 只能用在支援的 resource type 上、不是全 GCP 通用；複雜 expression 難稽核（CEL 語法、不易讀）；condition 不能否決 — 只能限制 binding 的生效範圍、不能像 AWS policy 那樣寫 Deny。複雜 ABAC 場景該走 Organization Policy + 應用層授權邊界、不是把所有規則塞進 IAM Conditions。

Service Account Impersonation chain 的稽核：列出 有 serviceAccountTokenCreator 的 principal 是基本；展平 chain（A → B → C）需要 graph walk 工具或 Policy Analyzer；高權限 SA（owner-equivalent custom role、跨 project 寫權限）的 impersonation 來源應該是 寫死的少數 admin SA + break-glass、不該開放給 CI / 一般 service。

VPC Service Controls（資料邊界、跟 IAM 互補）：在 IAM 之外加 資料 perimeter — 即使 principal 有 IAM 權限、如果請求不是來自 perimeter 內（VPC、特定 IP、特定 service account），仍然會被擋。適合 BigQuery / GCS / Secret Manager 這類存資料的 service、防 合法 credential 從外部 exfiltrate 資料（Azure AD Identity Control Plane 2021 場景的下游補位：identity 控制面失守時、資料層仍有獨立 perimeter）。

排錯與失敗快速判讀

Basic Role 還在用：Project Owner / Editor 散落、新人 onboard 直接 Editor — 改 group + Predefined Role、Basic Role 改成 break-glass 限定
Service Account key 散落：CI 用 JSON key、key 進 git 或環境變數、無 rotation — 改 WIF（GitHub Actions / GitLab CI 都支援）、Org Policy 禁用 SA key 建立
WIF trust 太寬：只鎖 issuer 沒鎖 subject、同 GitHub org 任何 repo 都能借用 SA — trust 要含 assertion.repository、assertion.ref（main branch only）等 condition
IAM Conditions 越寫越多：condition expression 過度複雜、稽核時沒人讀得懂 — 簡化條件、把複雜規則上移到應用層或 Org Policy
Data Access Logs 沒開：sensitive resource 出事時只有 Admin Activity、看不到 誰讀了什麼 — KMS key、Secret Manager、BigQuery 高敏 dataset 必開 Data Access Log
Impersonation chain 失控：太多人有 serviceAccountTokenCreator 到高權限 SA — 用 Policy Analyzer 展平、收斂到必要 admin + break-glass
Org Policy 沒設：root org 沒有 baseline constraint、新建 project 預設可建 SA key / public IP / public bucket — 至少設 disableServiceAccountKeyCreation + publicAccessPrevention + allowedPolicyMemberDomains

何時改走其他服務

需求形狀	改走
人類身份的 SSO / MFA / lifecycle	Okta / IdP
AWS resource permission	AWS IAM
Azure resource permission	Azure RBAC
跨雲 unified IAM	沒有單一答案 — 各雲 IAM + Workload Identity Federation 對接、或外部 PAM（Teleport / Boundary）
Secret / Service Account key 治理	7.6 秘密管理與機器憑證治理
資料分類 / DLP / 匯出控制	7.4 資料保護與遮罩治理
Workload runtime detection（容器、syscall）	04 + Falco / Cilium Tetragon 類工具

不在本頁內的主題

各 Predefined Role 的完整權限清單與細部 permission 差異
IAM Conditions CEL 語法的完整 spec
Workload Identity Federation 跟特定 issuer（GitHub / AWS / Azure）的逐步設定教學
BigQuery / GCS / KMS 等服務的 service-specific IAM 行為細節
GCP 計費 / SKU 對 Audit Log 開關的影響

案例回寫

案例	跟 Google Cloud IAM 的關係
Azure AD Identity Control Plane 2021	Identity 控制面故障不直接打到 Google IAM、但設計啟示是 IAM evaluation 路徑必須 HA、且 VPC Service Controls 等資料 perimeter 是 identity 失守時的下游補位
Failure: Credential Rotation Without Scope	Service Account key、WIF provider 的 rotation 必須分域 — 跨 project / 跨環境的 SA 共用是 blast radius 放大器
Microsoft Storm-0558 Signing Key Chain	對 WIF 的提醒 — 信任 external OIDC issuer 時、issuer 自己被攻破會打到所有 audience；trust condition 必須鎖 issuer + audience + subject 三件事

下一步路由

上游：7.2 身分與授權邊界、7.6 秘密管理與機器憑證治理
平行：AWS IAM、Azure RBAC、Okta、AWS IAM Identity Center
下游：7.6 秘密管理與機器憑證治理（Google Secret Manager / Google Cloud KMS 個別 vendor 頁 S2 批次撰寫中）
跨模組：8 事故處理 vendor 清單（GCP IAM 事件如何 routing 進 IR 流程）
官方：Google Cloud IAM Documentation

9.C8 Niantic Pokémon GO：在 GCP 上承載 50 倍突發流量

Tue, 12 May 2026 00:00:00 +0000

這個案例的核心責任是說明「surge load」（突發遠超預期）跟 event-peak（事件型可預測峰值）的差異。Pokémon GO 在 2016-07 上線時、實際流量達到原始容量規劃目標的 50 倍 — 根因是 根本沒人能預測這個產品會這麼紅、峰值規劃方法論本身沒有失敗。這類負載對容量設計的要求跟其他案例本質不同。

觀察

Niantic Pokémon GO 在 GCP 上的關鍵敘述（引自 Bringing Pokémon GO to life on Google Cloud）：

指標	數字
實際流量	達到原始 target 的 50 倍
應用層	Google Container Engine (GKE)
容器編排	Kubernetes（planetary-scale 設計）
容量支援	Google CRE 即時擴容

關鍵敘述：「Niantic chose GKE for its ability to orchestrate container clusters at planetary-scale」「Google CRE seamlessly provisioned extra capacity on behalf of Niantic to stay ahead of their record-setting growth」。

判讀

這個案例最重要的判讀是「surge load 跟可預測峰值是不同問題」。

50x surge 沒辦法事前規劃：任何合理的 capacity planning 都不會預留 50x headroom — 那會讓平日成本爆炸。surge 的工程做法不是「事前撐住」、是「事中快速補上」。對應 9.11 高峰事件準備跟 08 事故處理模組的事件管理。
CRE 不是技術、是 vendor 關係：Google Customer Reliability Engineering 是 GCP 提供給戰略客戶的 24/7 工程支援團隊。能即時為 Niantic 補容量靠的是 人 + 流程 + 工具 的組合、不是純技術。對應 00.6 操作控制服務選型的廠商支援能力評估。
Kubernetes 是 surge 的前置條件：如果 Niantic 用 VM-based 架構、即使 CRE 想補容量也來不及 boot up。Container orchestrator 把 provisioning 時間從分鐘級降到秒級、才讓 surge 反應變得可能。對應 05 部署平台模組的 platform 選型。

需要警惕：「Google CRE 即時補容量」這種敘述對中小客戶不適用。一般客戶在 surge 下能依賴的是 自己的 autoscaler、不是 vendor 工程師。設計 surge 對應策略時要假設「沒有 vendor 救援」。

策略

可重用的工程做法：

接受 surge 不可避免、設計快速 onboard 流程：核心問題不是「會不會 surge」、是「surge 之後 24 小時內能不能撐住」。對應 9.11 高峰事件準備跟 08.8 incident communication。
降級機制作為 surge 救命稻草：當容量不足時、優先保住核心功能、暫時關閉非核心。對應 02.3 cache stampede 跟 01.6 high concurrency access 的降級設計。
預先談好 vendor 緊急支援條款：戰略服務在簽約時就要談好 surge 期間的容量配額、限流豁免、CRE / TAM 支援、不要等出事才談。對應 00 服務選型模組的 vendor relationship 設計。
container-first 是 surge 反應的前置：VM-based 架構在 surge 下擴容速度比 container 慢一個量級、會直接成為 bottleneck。

跨平台等效：AWS Enterprise Support + TAM、Azure Premier Support + CSAM 都有對等服務、但能即時動用工程師補容量的程度跟客戶等級綁定。

下一步路由

想對應 surge load → 9.11 高峰事件準備 + 08.6 incident severity trigger
想設計降級策略 → 01.6 high concurrency access + 02 快取模組
想評估 vendor 支援 → 00.6 operations control service selection
對照可預測峰值案例 → 9.C1 AWS Prime Day

引用源

9.C9 Spotify：從自管 Kafka 遷移到 GCP Pub/Sub 的事件交付系統

Tue, 12 May 2026 00:00:00 +0000

這個案例的核心責任是說明「事件交付系統的容量規劃，靠 managed service 卸載 vs 自管 broker」的長期成本對照。Spotify 從 Kafka 遷到 Pub/Sub 的驅動力是 容量規劃的工程成本 在 sustained growth 下變得不划算、Kafka 能力本身不是瓶頸。

觀察

Spotify 在 Google Cloud 的遷移敘述（引自 Spotify’s journey to cloud）：

指標	內容
用戶規模	7500 萬 + 用戶（遷移時期）
遷移系統	Event Delivery System（事件交付）
遷出技術	自管 Apache Kafka
遷入技術	Google Cloud Pub/Sub
大數據生態	BigQuery / Dataflow / Dataproc / Pub/Sub

關鍵動機：「moving event delivery to a managed service」— 卸下 Kafka broker 的容量規劃與運維負擔。

判讀

Spotify 遷移揭露三個 broker 容量規劃的長期工程問題。

自管 broker 的容量規劃是長期 tax：Kafka cluster 需要 partition planning、broker 數量、副本因子、disk capacity、network bandwidth、ZooKeeper / KRaft 治理 — 每個維度都要持續規劃、每次擴容都是工程專案。對應 03 訊息佇列模組的 broker basics 與 9.7 成本邊界與 efficiency 的人力成本評估。
managed service 的容量是 trade-off、不是免費午餐：Pub/Sub 自動 scaling、但 vendor lock-in、cost-per-message 累積、message ordering / latency 特性跟 Kafka 不同。遷移本身要驗證 業務語意 跟 Pub/Sub 兼容。對應 03.4 broker basics。
遷移本身是容量規劃題目：把 7500 萬用戶的事件交付從 A 平台搬到 B 平台、不能停機、不能丟 message。這個遷移過程本身就是高併發容量工程。對應 01.3 schema migration rollout evidence 的同類流程。

需要警惕：Spotify 這個決定不是「Kafka 不好」、是「Spotify 規模下、自管 Kafka 的工程投入不划算」。對中小團隊、自管 Kafka 可能是更便宜的選項。讀案例時要看 規模門檻 跟 團隊能力。

策略

可重用的工程做法：

broker 自管 vs managed 是長期 TCO 評估：算「平日運維 + 容量擴容 + 故障處理 + 升級遷移」的人力成本、不只算「broker 雲端費用」。對應 9.7 成本邊界與 efficiency。
遷移分階段：dual write → shadow → cutover：先寫兩邊、驗證一致性、再切流量。對應 01.3 schema migration rollout evidence 的同類流程。
業務語意對映是遷移關鍵：Kafka 的 partition / offset / consumer group 在 Pub/Sub 對映成不同概念（subscription / ordering key / message attribute）、不是 1:1。

跨平台等效：AWS SNS / SQS / Kinesis、Amazon MSK（managed Kafka）、Azure Service Bus / Event Hubs / Event Grid 都是對等候選。差異是 message ordering 保證、delivery guarantee、cost model。

下一步路由

想評估 broker 自管 vs managed → 03 訊息佇列模組 + 9.7 成本邊界與 efficiency
想做大規模 message 系統遷移 → 01.3 schema migration rollout evidence 的對等流程
想理解 broker 容量規劃 → 03.4 broker basics
對照其他事件型負載 → 9.C5 Amazon Ads

引用源

Cloud Monitoring Metrics Model 與 MQL

Mon, 22 Jun 2026 00:00:00 +0000

本文是 GCP Cloud Operations 的 vendor deep article，深化 overview「Cloud Monitoring uptime checks / SLO」跟「OTLP integration」段。初次接觸 GCP 觀測的讀者建議先讀 GCP Cloud Operations 服務頁。

問題情境

GCP 服務預設把 metrics 寫到 Cloud Monitoring，工程師打開 Metrics Explorer 就能看到 CPU、記憶體、request count。問題通常出在三個地方：GCP 內建 metrics 的 resource model 跟應用層的 business metrics 用不同語言描述同一件事，PromQL 使用者要重新學 MQL 語法，alerting policy 的 condition type 跟 notification channel 配置比預期複雜。理解 Cloud Monitoring 的 metrics model 才能避免 custom metrics 爆量、alert noise、跟 Prometheus 生態的銜接摩擦。

核心概念

Monitored resource 與 metric descriptor

Cloud Monitoring 的資料模型有兩個軸：monitored resource 描述「誰產生了這個 metric」，metric descriptor 描述「這個 metric 量什麼」。

Monitored resource 是 GCP 自動帶入的標籤集合。GKE pod 的 monitored resource type 是 k8s_pod，帶 project_id、location、cluster_name、namespace_name、pod_name。Cloud Run revision 是 cloud_run_revision，帶 service_name、revision_name、location。這層標籤不需要工程師手動設定，GCP agent 或 SDK 自動填入。

Metric descriptor 定義 metric 的名稱、型別（GAUGE / DELTA / CUMULATIVE）、value type（INT64 / DOUBLE / DISTRIBUTION）與自訂 label。GCP 內建 metrics 用 compute.googleapis.com/instance/cpu/utilization 這樣的命名空間格式；custom metrics 用 custom.googleapis.com/ 或 workload.googleapis.com/（後者透過 OTel Collector 或 Managed Prometheus 寫入時使用）。

兩個軸相乘就是 time series 的數量。Cardinality 管理在 GCP 上等同於控制 monitored resource × metric label 的組合數。GCP 對 custom metrics 有每個 project 的 time series 配額（預設 500 per metric descriptor、可申請提高），超過時寫入會被拒。

MQL vs PromQL

Cloud Monitoring 有兩種查詢語言。MQL（Monitoring Query Language）是 GCP 自家設計的 pipeline 語法：

1fetch k8s_container
2| metric 'kubernetes.io/container/cpu/core_usage_time'
3| align rate(1m)
4| every 1m
5| group_by [resource.cluster_name, resource.namespace_name],
6    [value_cpu_usage: aggregate(value.core_usage_time)]

PromQL 在 Cloud Monitoring 上也可用（透過 Managed Service for Prometheus）。兩者的核心差異：

面向	MQL	PromQL（via Managed Prometheus）
資料來源	所有 Cloud Monitoring metrics	透過 Managed Prometheus 寫入的 metrics
查詢介面	Metrics Explorer / alerting condition	Grafana / Prometheus UI / API
Aggregation 語法	pipe-style `group_by`	函式風格 `sum by (label)`
跨 GCP 與 custom	原生支援 GCP 內建 metrics	需要轉成 Prometheus 格式
學習曲線	GCP-specific、不可搬到其他平台	跨平台標準、可搬到 Mimir / Thanos

選擇判讀：純 GCP 環境且團隊沒有 Prometheus 經驗 → MQL 起步快。已有 Prometheus / Grafana 生態 → 用 Managed Prometheus + PromQL、把 GCP 內建 metrics 透過 Prometheus-compatible exporter 導入。混合環境 → 兩者並存、GCP 原生 metrics 用 MQL 做 alerting、application metrics 用 PromQL 查詢。

配置 step-by-step

Custom metrics 設計與寫入

Custom metrics 的常見路徑有三條：

路徑一：Cloud Monitoring API 直接寫入。應用程式用 Cloud Monitoring client library 建立 metric descriptor 並寫入 time series。適合 GCP-native 應用，不需要額外 agent。

1metric type: custom.googleapis.com/checkout/latency_ms
2kind: GAUGE
3value type: DISTRIBUTION
4labels: [service, region, status_code]

路徑二：OTel Collector + GCP exporter。應用程式用 OTel SDK 產生 metrics，OTel Collector 透過 googlecloud exporter 寫到 Cloud Monitoring。Metrics 命名空間是 workload.googleapis.com/。適合已有 OTel instrumentation 的服務。

路徑三：Managed Service for Prometheus。部署 GCP 的 Managed Prometheus collector（或自管 Prometheus + remote write），metrics 存在 GCP 託管的 Monarch backend。查詢用 PromQL。適合 Kubernetes 環境且團隊熟悉 Prometheus 生態。

三條路徑可以共存。選擇判讀：先看團隊的 metrics 生態是 GCP-native 還是 Prometheus-native，再看 multi-cloud 需求。Managed Prometheus 的優勢是 PromQL 可搬、劣勢是 GCP 內建 metrics 需要額外整合。

Alerting policy 配置

Cloud Monitoring alerting policy 由三部分組成：condition、notification channel、documentation。

Condition types：

Metric threshold：metric 超過閾值 N 分鐘。適合「error rate > 1% 持續 5 分鐘」。
Metric absence：metric 消失。適合偵測 scrape 斷裂或服務停擺。
Forecasting：預測 metric 在 N 小時後超過閾值。適合 disk 滿、quota 耗盡。
Process health：GCE instance 的 process 是否存活。
Log-based：Cloud Logging 出現特定 pattern 時觸發。適合把 error log 轉成 alert。
SLO burn rate：SLO 設定後、burn rate 超過閾值。對應 burn-rate 概念。

Notification channels：Email / PagerDuty / Slack / Pub/Sub / Webhook / SMS。Pub/Sub channel 適合接自定義 automation（收到 alert → trigger Cloud Function）。

Snooze 與 maintenance window：暫時抑制特定 alerting policy。部署期間或已知維護時使用。

Managed Prometheus 整合

GCP Managed Service for Prometheus 的部署模式：

GKE 模式：啟用 GKE monitoring、Managed Prometheus collector 自動部署。不需要自管 Prometheus server。
Remote write 模式：自管 Prometheus server + remote_write 到 GCP Monarch endpoint。保留本地查詢能力，同時長期儲存在 GCP。
OTel Collector 模式：OTel Collector 用 googlemanagedprometheus exporter 寫到 Monarch。

查詢端：用 GCP Console 的 PromQL UI、或部署 Grafana + GMP datasource。PromQL 功能子集支援良好（rate / histogram_quantile / aggregation），少數進階功能（subquery）有限制。

故障演練與邊界

Custom metric 配額用盡

觸發條件：custom metric descriptor 數量超過 project 配額（預設 500），或單一 metric descriptor 的 time series 數量超過配額。

表現：API 回傳 429 或 quota exceeded error。新 time series 寫不進去，既有的不受影響。

修復：清理不再使用的 metric descriptor（describe → delete）、合併語意重疊的 metrics、減少 label cardinality。GCP Console → IAM → Quotas 可以申請提高配額，但先確認是設計問題而非真的需要那麼多 series。

Alerting policy 觸發延遲

觸發條件：alerting policy 使用的 metrics 的 alignment period 或 duration 設定過長。

表現：異常已經發生 10 分鐘，alert 才觸發。原因是 Cloud Monitoring 的 evaluation cycle 跟 metrics ingestion delay 相加。GCP 內建 metrics 的 ingestion delay 約 1-3 分鐘；custom metrics 透過 API 寫入的 delay 約 10-30 秒。

修復：把 condition 的 alignment period 設短（1 分鐘）、duration 設短（但太短會造成 flapping）。Log-based alerting condition 的 delay 通常比 metric-based 短（秒級 vs 分鐘級），緊急異常考慮用 log-based condition。

Managed Prometheus 查詢與自管 Prometheus 結果不一致

觸發條件：同一個 PromQL query 在本地 Prometheus 跟 GMP 的結果不同。

表現：dashboard 數字對不上、alert 觸發行為不一致。

修復：先確認 remote write 是否有 sample drop（看 prometheus_remote_storage_samples_failed_total）。再確認 GMP 的 PromQL 子集限制（部分 subquery 語法不支援）。最後確認 metric naming：local Prometheus 的 metric name 跟 GMP 儲存後的 naming convention 可能有差異（加了 __name__ prefix 或 resource label）。

容量與成本

Cloud Monitoring 的計費模型基於 ingested metrics volume（per million data points）。GCP 內建 metrics（agent metrics 除外）免費。Custom metrics 的前 150 MB per billing account 免費，超過後按 volume 計費。

成本治理的判讀：

最大成本來源通常是高頻率的 custom metrics 或高 cardinality label
用 monitoring.googleapis.com/billing/bytes_ingested metric 追蹤 ingestion 量
減少 scrape interval（15s → 30s 或 60s）可以直接降低 ingestion 量
Managed Prometheus 的計費跟 custom metrics 分開計算（per samples ingested）

整合與下一步

GCP Cloud Operations 服務頁：overview 與日常操作
4.7 cardinality 治理：cardinality 治理的完整策略
4.6 SLI/SLO signal：SLO burn rate alert 的訊號設計
Prometheus：Managed Prometheus 的上游概念
OpenTelemetry：OTel Collector + GCP exporter 整合
Cloud Logging 查詢、匯出與合規：同 vendor 的 logs 面

9.C10 Cloud Spanner：每秒 10 億請求的全球一致性資料庫

Tue, 12 May 2026 00:00:00 +0000

這個案例的核心責任是提供「全球一致性 OLTP」的容量參考點。Spanner 是 Google 內部支撐 Ads、Play、Cloud Search 等服務的核心 DB、後來開放為 GCP 服務、是少數公開能撐每秒 10 億請求且維持強一致性的 OLTP 資料庫。

觀察

Spanner 公開數字（引自 Spanner overview / Spanner performance docs）：

指標	數字
內部峰值	> 10 億 requests / 秒
Spanner Omni 區域峰值	數百萬 QPS、PB 級資料量
線性擴展性	2 nodes → 45000 reads/sec、4 nodes → 90000 reads/sec
一致性模型	external consistency（強一致 + 線性化）

代表性客戶：Google 內部所有支付、廣告計費、Play 商店、Search 索引；公開客戶包括 Blockchain.com、Niantic（部分服務）、Sharechat、ZEE5、Wayfair。

關鍵設計：TrueTime API（GPS + 原子鐘）讓跨地區交易能維持 external consistency、不是 eventual。

判讀

Spanner 案例最值得讀的不是「能撐多大」、是「為什麼要這樣設計才能撐」。

線性擴展是 OLTP 的最高設計目標：「2 nodes → 45K reads/sec、4 nodes → 90K reads/sec」這個 linear scaling 在傳統 OLTP（PostgreSQL、MySQL）做不到 — 因為 跨節點交易 需要 coordinator、coordinator 是 bottleneck。Spanner 用 Paxos + TrueTime 把 coordinator 變成「拓樸感知的多 leader」、才達成線性。對應 01.5 transaction boundary 的設計取捨。
強一致 vs 全球部署不是必須二選：CAP 定理常被解讀為「全球部署只能 eventual consistency」、Spanner 顯示「投入專屬硬體（GPS、原子鐘）+ 演算法（TrueTime）可以同時拿到 strong consistency + global distribution」。但這套硬體投資對其他 vendor 不容易複製。對應 01 資料庫模組的全球 OLTP 選項。
計費粒度 = 容量規劃顆粒：Spanner 早期最小單位是 100 processing units（pu）≈ 1 node、太大讓中小負載難以用。後來推出 100 pu 起跳的 granular sizing、讓容量規劃可以從小開始。對應 9.7 成本邊界與 efficiency 的容量單位選擇。

需要警惕：「10 億 req/sec」是 Google 內部的某個峰值瞬間、是 Spanner 服務 全部使用者加總、不是單一 instance 數字。讀案例時要區分「全球聚合峰值」跟「單一客戶能拿到的最大配額」。

策略

可重用的工程做法：

跨地區一致性需求要在設計初期決定：如果業務必需 strong consistency（金融、ticketing）、選 Spanner 等對等服務；如果 eventual 可接受（社群、推薦）、選 Cassandra / DynamoDB Global Tables 等更便宜的選項。對應 00 服務選型模組的全球一致性需求識別。
節點數即容量單位、預先規劃 sizing：Spanner 容量 = 節點數 × 單節點 QPS。每年 capacity review 主要在調節點數、不在調 schema。對應 9.6 容量規劃模型。
跨地區 latency 是強一致的代價：external consistency 必須等多區 quorum、跨洲交易延遲可達 100-200ms。延遲敏感型業務不能用跨地區 strong consistency。對應 9.12 SLO 與 Performance Budget 的 latency budget 反推。

跨平台等效：AWS Aurora DSQL（2024 推出、跨地區 strong consistency）、CockroachDB（自管）、TiDB（自管或 cloud）都是對等候選。差異是 TrueTime / 同等同步機制的成熟度。

下一步路由

想評估全球一致性需求 → 00 服務選型模組 + 01.5 transaction boundary
想規劃 OLTP 容量 → 9.6 容量規劃模型 + 01 資料庫模組
想對照其他 OLTP 案例 → 9.C4 DraftKings Aurora
想看不需要強一致的全球 KV → 9.C11 Minecraft Earth Cosmos DB
想理解 TrueTime ε 與外部一致性實作 → Spanner TrueTime API 深入
想對照 Spanner / Aurora DSQL / CockroachDB 不同一致性層 → Spanner 一致性模型對照

引用源

Cloud Logging 查詢、匯出與合規

Mon, 22 Jun 2026 00:00:00 +0000

本文是 GCP Cloud Operations 的 vendor deep article，深化 overview「Cloud Logging 結構化 logs」跟「BigQuery 匯出長期儲存」段。初次接觸 GCP 觀測的讀者建議先讀 GCP Cloud Operations 服務頁。

問題情境

Cloud Logging 對 GCP 服務是預設開啟的 — GKE、Cloud Run、Cloud Functions 的 stdout/stderr 自動進 Cloud Logging，工程師不需要配置就能查。問題出在後續階段：log 量成長後的成本控制（GCP 的 ingestion 計費讓高 volume 服務成本快速累積）、合規需求要求特定 log 保留特定時間（healthcare / fintech 的 7 年留存）、organization-level 的 log 聚合與存取控制（多 project 集中 audit）、以及 PII 在 log 中的遮罩與加密。理解 Cloud Logging 的 router / sink 架構跟 retention bucket 才能從「預設全收」走向「可治理的 log pipeline」。

核心概念

Log Router 與 Sink

Cloud Logging 的資料流是 log entry → log router → sink → destination。每一筆 log 進入 Cloud Logging 後，log router 根據 inclusion filter 跟 exclusion filter 決定這筆 log 送到哪些 destination。

Sink 是 log router 的輸出端點。每個 GCP project 預設有兩個 sink：_Required（admin activity audit log、system event，不可關閉）和 _Default（其他所有 log、送到 _Default log bucket、可修改 filter）。工程師可以建立自訂 sink，把符合條件的 log 送到 BigQuery、Cloud Storage、Pub/Sub 或 Splunk。

Exclusion filter 在 log router 層攔截 — 被排除的 log 不會寫入任何 sink destination，也不計入 ingestion 計費。這是成本控制的第一道防線。

Inclusion filter 在 sink 層生效 — 只有符合 filter 的 log 會送到該 sink 的 destination。

路由順序很重要：exclusion filter 先執行（全域攔截），然後 _Required sink 攔走必留 log，然後 _Default sink 跟自訂 sink 各自的 inclusion filter 平行執行。一筆 log 可以同時送到多個 sink。

Retention 與 Log Bucket

Cloud Logging 的儲存單位是 log bucket。每個 project 預設有兩個 bucket：

_Required bucket：admin activity audit log 跟 system event，保留 400 天，不可刪除或修改 retention
_Default bucket：其他所有 log，預設保留 30 天，可調整為 1-3650 天

自訂 log bucket 可以設定不同 retention 期。常見用法：把 application log 留 30 天、把 audit log 留 7 年（送到自訂 bucket 或 BigQuery）。

Cloud Logging 的 ingestion 計費跟 storage 計費是分開的。前 50 GiB/month per billing account 的 ingestion 免費；超過後按 ingestion volume 計費。_Required log 的 ingestion 免費。Storage 在 _Default bucket 的前 0.5 GiB 免費，自訂 bucket 按用量計費。

成本治理判讀：高 volume 服務（例如 GKE 的 container stdout）的成本主要來自 ingestion，而非 storage。Exclusion filter 攔掉不需要的 log 是最直接的降成本方式。

查詢語言

Cloud Logging 的查詢語言用在 Logs Explorer 跟 gcloud CLI：

1resource.type="k8s_container"
2resource.labels.cluster_name="prod-us-central1"
3severity>=ERROR
4jsonPayload.order_id="ord-12345"
5timestamp>="2026-06-22T00:00:00Z"

語法特點：field path 用 . 分隔、支援 comparison operators（= / != / > / >= / < / <=）、支援 boolean（AND / OR / NOT）、支援 regex（=~ / !~）。

跟 KQL（Elastic）或 LogQL（Loki）相比，Cloud Logging 查詢語言更接近 structured filter 而非 full-text search。Full-text 搜尋要用 textPayload: 或 jsonPayload: prefix。進階分析（aggregation、time bucketing、join）需要匯出到 BigQuery 後用 SQL 做。

配置 step-by-step

Organization-level log 聚合

多 project 環境下，集中 log 的標準做法是在 organization 或 folder level 建立 aggregated sink：

1gcloud logging sinks create org-audit-sink \
2  bigquery.googleapis.com/projects/central-audit/datasets/org_audit_logs \
3  --organization=123456789 \
4  --include-children \
5  --log-filter='logName:"cloudaudit.googleapis.com"'

--include-children 讓 organization 下所有 project、folder 的符合 log 都送到同一個 BigQuery dataset。Sink 的 service account 需要 destination 的寫入權限（BigQuery Data Editor）。

適用場景：SOC 團隊需要跨 project 的 audit log 查詢、compliance team 需要集中的 data access log 存檔、security team 需要異常 IAM 變更的全域偵測。

Data Access Audit Logs 啟用

GCP 的 audit log 分三類：

Admin Activity：對資源的管理操作（建立 / 刪除 / 修改 IAM）。預設開啟、不可關閉、不計費。
Data Access：對資源的讀取操作（BigQuery query、GCS read、Cloud SQL connect）。預設關閉（除 BigQuery）、需手動啟用、計費。
System Event：GCP 系統自動操作。預設開啟、不可關閉、不計費。

Data Access audit log 的啟用是 per-service、per-project（或 org level）。啟用後 log 量會大幅增加 — 一個高 QPS 的 Cloud SQL 服務可能每秒產生數百筆 data access log。成本跟 volume 判讀要先做。

建議做法：先對 security-sensitive 服務啟用（IAM / KMS / Cloud SQL / GCS），其他服務按需啟用。用 exclusion filter 精細控制 — 例如只保留 ADMIN_READ 跟 DATA_WRITE、排除 DATA_READ（read 量通常遠大於 write）。

VPC Flow Logs 與 DNS Logs 的觀測用途

VPC Flow Logs 記錄每一筆通過 VPC 的網路流量元資料（src/dst IP、port、protocol、bytes、packets）。啟用方式是 per-subnet 設定、支援 sampling rate（100% / 50% / 10%）。

DNS Logs 記錄 VPC 內的 DNS 查詢（query name、response code、source VM）。啟用方式是 per-VPC 或 per-policy 設定。

觀測用途：

異常流量偵測：VPC Flow Logs 送到 BigQuery 後用 SQL 找出異常流量模式（大量對外連線、非預期 port、跨 region 資料傳輸）
網路效能分析：量測 inter-service latency、跨 AZ 流量比例
安全稽核：DNS Logs 偵測 DNS tunneling 或 C2 callback

成本注意：VPC Flow Logs 在高流量服務上的 ingestion 量非常大。100% sampling + 高 QPS 服務可能每天產生 TB 級 log。建議用 sampling rate 控制、或只對 security-sensitive subnet 啟用 100%。

自建 vs managed pipeline 的取捨

Cloudflare 觀測案例展示了自建觀測 pipeline 的理由 — 全球 300+ edge locations、每秒數十億 request 的規模下，SaaS 觀測平台的帳單不合理，自建 pipeline 的 compute 成本反而更低。

但多數團隊的結論是反過來的。GCP 環境下，Cloud Logging 的 managed pipeline（log entry → router → sink → BigQuery / Cloud Storage）幾乎不需要維運人力。自建等價的 pipeline（Fluent Bit → Kafka → Elasticsearch / BigQuery）需要維運 Kafka cluster、Elasticsearch cluster、Fluent Bit DaemonSet 的升級與監控。

判斷分水嶺的兩個維度：

維度	偏向 managed（Cloud Logging）	偏向自建
Log volume	< 1 TB/day	> 10 TB/day（SaaS ingestion 成本超過自建 compute）
查詢需求	Logs Insights + 偶爾 BigQuery	需要 Elasticsearch 的全文搜尋 + aggregation + visualization

1-10 TB/day 的灰色地帶取決於查詢模式 — 如果 Logs Insights 能滿足 90% 的查詢、BigQuery 能處理剩下 10% 的分析，不需要自建。如果團隊需要 Kibana dashboard、Elasticsearch alerting、或跨 cloud 的統一 log backend，自建可能更合理。

Healthcare 分層 retention 在 GCP 的實現

Healthcare 案例的核心需求是分層 retention — 不同 log 類型有不同的法規留存要求（data access audit log 要 6 年+、application operational log 要 90 天、debug log 要 7 天）。

在 GCP 上用三層架構實現：

Hot 層（Cloud Logging custom bucket）：application log 保留 90 天、audit log 保留 1 年。設定 custom log bucket + retention。優點是 Logs Explorer 直接可查、延遲低。

Warm 層（BigQuery）：audit log sink 到 BigQuery dataset，BigQuery 的 partition expiration 設 2 年。需要分析跟 correlation 時用 SQL 查。成本低於 Cloud Logging storage。

Cold 層（Cloud Storage + Object Lifecycle）：BigQuery 的 scheduled export 或直接 Cloud Logging sink 到 GCS bucket。Object lifecycle rule 把 90 天以上的 object 轉 Nearline / Coldline / Archive class。最終刪除設定在 7 年。

三層各自的 access control 要獨立設定 — cold 層的 GCS bucket 只有 compliance team 有讀取權限，application team 看不到。CMEK 在三層都啟用（Cloud Logging custom bucket 的 CMEK + BigQuery dataset 的 CMEK + GCS bucket 的 CMEK），金鑰由安全團隊集中管理。

PII 治理與 CMEK

Cloud Logging 中的 PII 治理有三層：

第一層：不寫入。Application 端在 log 之前就遮罩 PII（email → ***@***.com、credit card → last 4 digits）。這是最有效的方式，因為一旦寫入 Cloud Logging，即使後續刪除 log entry，在 deletion 前可能已經被 sink 匯出到 BigQuery / GCS。

第二層：log 層過濾。用 exclusion filter 把含 PII 的 log field 排除（例如排除特定 jsonPayload field）。限制是 Cloud Logging 的 exclusion filter 只能排除整筆 log entry，不能 redact 單一 field。需要 field-level redaction 的話，在 OTel Collector 或 Fluentd 層做 processor 處理、再送到 Cloud Logging。

第三層：加密。Cloud Logging 預設用 Google-managed encryption。需要自管金鑰的場景（HIPAA / PCI-DSS / 金融監管）用 CMEK（Customer-Managed Encryption Keys）。CMEK 設定在 log bucket 層 — 自訂 log bucket 可以指定 Cloud KMS key。_Default bucket 也可以啟用 CMEK（需要把 _Default bucket 的 region 從 global 改成特定 region）。

存取控制：Cloud Logging 的 IAM role 分 roles/logging.viewer（讀 log）、roles/logging.privateLogViewer（讀含 data access 的 log）、roles/logging.admin（管理 sink / bucket / filter）。Audit log 的存取用 roles/logging.privateLogViewer、不是一般的 roles/logging.viewer。對應稽核追蹤與責任邊界的 GCP 實作。

故障演練與邊界

Exclusion filter 設太寬，重要 log 被丟掉

觸發條件：為了降成本建立 exclusion filter，但 filter expression 太寬泛（例如排除整個 severity=INFO），連帶排除了 business-critical 的 info-level log。

表現：事故時查不到關鍵 log、audit 證據鏈斷裂。因為 exclusion filter 在 ingestion 前執行，被排除的 log 無法回補。

預防：exclusion filter 建立後先用 gcloud logging read 驗證哪些 log 會被排除。用 Logs Explorer 的 preview 功能確認 filter 不會命中關鍵 log。對 audit log 和 security log 不設 exclusion filter。

BigQuery sink 匯出成本失控

觸發條件：org-level aggregated sink 把所有 log 送到 BigQuery，沒有 inclusion filter 限制。

表現：BigQuery storage 跟 streaming insert 成本暴增。一個中型 GKE cluster 每天可能產生 100+ GB 的 container log，全部送 BigQuery 的月成本可能超過 Cloud Logging 本身。

修復：在 sink 加 inclusion filter（只送 audit log 或 error-level log 到 BigQuery）。高 volume 的 application log 送 Cloud Storage（成本更低），需要查詢時用 BigQuery external table 做 federated query。

Log entry size 超過限制

觸發條件：application log 寫入超過 256 KB 的單筆 log entry（Cloud Logging 的 per-entry 上限）。

表現：超過限制的 log entry 被截斷或拒絕寫入。

修復：application 端控制 log entry size — 大型 payload（request body / response body / stack trace）做 truncation 後再 log。需要完整內容的場景，把 payload 寫到 GCS、log 中只留 GCS URI。

容量與成本

計費項目	免費額度	超出後計費
Ingestion（非 `_Required`）	50 GiB/month per billing account	per GiB ingested
Storage（`_Default` bucket）	0.5 GiB	per GiB-month
Storage（custom bucket）	無免費額度	per GiB-month
`_Required` log ingestion	不計費	不計費
BigQuery sink streaming insert	依 BigQuery 計費	per GB inserted

成本最佳化優先序：

Exclusion filter：攔掉不需要的 log、最直接
降 log level：application 端把 verbose debug log 關掉
Sampling：高 QPS 服務的 request log 做 sampling（在 application 端或 OTel Collector 層）
BigQuery sink filter：只送需要長期分析的 log 到 BigQuery
Cloud Storage sink：高 volume + 低查詢頻率的 log 送 GCS、按需用 BigQuery external table 查

整合與下一步

GCP Cloud Operations 服務頁：overview 與日常操作
Cloud Monitoring Metrics Model 與 MQL：同 vendor 的 metrics 面
4.12 Audit Log 邊界與 PII 治理：跨 vendor 的 audit log 治理策略
4.C1 Fintech audit evidence：審計證據鏈的案例回寫
4.C3 Healthcare retention：長期保留的合規設計
07 security 模組：data access audit log 的安全面

9.C22 Wayfair：用 GCP 提供 Way Day / Black Friday 的 burst capacity

Tue, 12 May 2026 00:00:00 +0000

這個案例的核心責任是說明「hybrid cloud burst」模式 — 平日跑自家 data center、峰值事件靠雲端補容量。這跟全部上雲（9.C15 Tixcraft）或全部自管的兩種極端都不同、是大企業常見的折衷路徑。

觀察

Wayfair 在 GCP 的關鍵敘述（引自 Wayfair Case Study）：

指標	數字
商品數量	22 M+ 個 SKU
供應商數量	16,000+
員工數	17,000
服務地理	北美 + 歐洲
峰值事件	Way Day（年度大促）、Black Friday、Cyber Monday
COVID Q2 2020 業績	美國淨營收成長 +82.5%
架構模式	Hybrid（on-prem + GCP burst）

服務組合：BigQuery（資料倉儲）、Cloud Dataproc（資料處理）、Cloud Pub/Sub（資料注入）、Looker（dashboard）、Cloud DLP（合規）、C2 processors（高性能 compute）。

關鍵敘述：「Our automation systems signal the cloud to scale on demand」「We were able to reduce and eventually eliminate the need for change freezes leading up to big events」。

判讀

Wayfair 揭露三個 hybrid cloud burst 模式的工程重點。

Hybrid burst 是「容量規劃成本平衡」的折衷：自家 data center 平日跑得便宜、峰值事件不夠用；全部上雲峰值好辦但平日成本高。Hybrid 模式讓 baseline 用便宜的、峰值用彈性的、總成本曲線最平。對應 9.7 成本邊界與 efficiency 的長期 TCO 規劃。
「Change freeze 不再需要」是 burst 模式的真正價值：傳統零售 IT 為了 Black Friday 通常 2-3 個月前就 freeze code change、確保穩定。Wayfair 在 GCP burst 上線後、能在峰值前繼續正常 release — 因為新功能可以單獨 deploy 到 GCP、不影響 on-prem 主系統。對應 06.8 release gate 的非凍結式變更管理。
資料平面（BigQuery / Dataproc）是 hybrid 的主場、交易平面仍在 on-prem：Wayfair 把「分析、報表、推薦模型」放 GCP、「核心交易、訂單處理、庫存」仍在自家。這個切分是 hybrid 的常見做法 — 計算密集的工作上雲、業務核心保留自管。對應 01 資料庫模組的核心 OLTP 跟 04 可觀測性模組的分析資料層分離。

需要警惕：

Wayfair 案例沒有提具體 TPS、latency、capacity scale 數字 — 行銷敘述居多、工程細節較少。讀此類案例要對策略做學習、不要套用具體數字。
「82.5% 美國淨營收成長」是業績、不是 系統指標。系統能撐業績、但兩者不是同一件事。

策略

可重用的工程做法：

Hybrid burst 適合「業務核心 on-prem 已穩定 + 季節性 / 事件型峰值」的企業：對於全新雲原生 startup、直接全上雲更簡單；對於有 15-20 年自建系統的大企業、hybrid 是穩妥路徑。
資料平面先上雲、交易平面後上：BI、ML、推薦這類「計算密集 + 資料量大 + 容忍延遲」適合先上 GCP / AWS / Azure；OLTP 後續再評估。對應 9.C17 BookMyShow 的資料層先行模式。
automation signal + 雲端 burst 是「change freeze」的解法：監控訊號 → 自動 trigger 雲端容量 → 平滑釋放 → 不影響 on-prem 主系統的部署節奏。對應 9.11 高峰事件準備。

跨平台等效：AWS Outposts + AWS Direct Connect、Azure Arc + ExpressRoute、Equinix + 各雲商 PrivateLink 都是 hybrid burst 的基礎設施。差異是各家 hybrid 策略成熟度。

下一步路由

想規劃 hybrid cloud burst → 9.6 容量規劃模型 + 9.11 高峰事件準備
想做資料平面遷移 → 9.C17 BookMyShow + 01 資料庫模組
對照全雲原生 → 9.C15 Tixcraft
想取消 change freeze → 06.8 release gate + 06.17 feature flag governance

引用源

9.C31 Mercado Libre：LatAm 電商在 GCP 上用 Vertex AI 搜尋 1.5 億商品

Tue, 12 May 2026 00:00:00 +0000

這個案例的核心責任是補強 GCP 案例庫的「商業應用」深度、並提供拉丁美洲電商規模對標。Mercado Libre 是拉丁美洲最大電商（市值 600 億美金級）、業務涵蓋 18 個國家、是區域型平台的容量規劃範本。

觀察

Mercado Libre 在 GCP 的關鍵敘述（引自 Mercado Libre Customer Story）：

指標	數字
客戶數	1 億
商品數	1.5 億（3 個試點國家）
業務影響	數百萬美金 incremental revenue（Vertex AI Search）
主要 GCP 服務	Vertex AI Search、BigQuery
資料即時性	near real-time
服務地理	拉丁美洲

關鍵能力：「Vertex AI Search across 150 million items in three pilot countries that is helping its 100 million customers find the products they love faster」、「BigQuery to design a robust data architecture that ensures the availability of data in near real-time」。

判讀

Mercado Libre 揭露三個區域電商容量規劃重點。

區域電商 ≠ 全球電商：拉丁美洲 18 個國家、各自有獨立貨幣、稅務、物流、合規規則。容量規劃單位通常是「per country」、不是「per region」。對應 9.C14 Standard Chartered 的市場分割、跟 9.C17 BookMyShow 的跨國平台對照。
Vertex AI Search = 「搜尋」當作 ML 服務、不是 Elasticsearch：傳統電商搜尋靠 Elasticsearch / OpenSearch + 自訓 ranker、Mercado Libre 用 vendor managed Vertex AI Search、把「商品搜尋 + 推薦排序」當作 ML 黑盒。這個取捨用「不可調參」換「快速上線」。對應 00 服務選型模組的 build vs buy、跟 9.C9 Spotify 的 managed 轉向同類思維。
「數百萬美金 incremental revenue」是 ML 容量規劃的真實 ROI：搜尋改善 → 轉換率 → 訂單 → 收入、ML 投資的 cost 才能合理化。容量規劃不只看「能撐多大流量」、也要看「擴容能否帶業務 ROI」。對應 9.7 成本邊界與 efficiency 的成本工程化。

需要警惕：

「1.5 億商品 in 3 pilot countries」是 試點規模、不是全平台。全平台商品總數應該更大、但案例沒揭露。
BigQuery「near real-time」沒指明 latency（秒級、分鐘級）。BigQuery 傳統是 minutes-level、不是 sub-second、對「即時」的定義要謹慎。

策略

可重用的工程做法：

區域電商的容量規劃是「per country × peak_factor」：不是「per region」聚合、要按國家分別規劃。每個國家自己的 Black Friday / Cyber Monday / 雙 11 / 6.18 等本地大促時間都不同。對應 9.6 容量規劃模型。
「商品搜尋」適合用 managed AI search：除非有自家強大的 ML team + 大量訓練資料、否則 Vertex AI Search / OpenSearch Service 等 managed 比自建 ranker 划算。
BigQuery 是 LatAm / 新興市場數據平台的標配：能處理 PB 級資料、無需 cluster 管理、適合中等工程資源的團隊。對應 04 可觀測性模組的 data 平台選型、跟 9.C17 BookMyShow 的 Redshift + Athena 對照。
ML ROI 直接＝業務指標：transaction conversion rate、AOV、recommendation CTR 都是 ML 容量規劃的下游 KPI。

跨平台等效：AWS Personalize + Redshift + Glue、Azure AI Search + Synapse 都是對等候選。差異是 vendor 整合度跟模型的可調參空間。

下一步路由

對照其他大規模電商 → 9.C21 ASOS Black Friday / 9.C22 Wayfair burst
想規劃跨國容量 → 9.C14 Standard Chartered + 9.C17 BookMyShow
想做 ML feature serving → 9.C25 Tubi ML feature store
想做 build vs buy 決策 → 00 服務選型模組 + 9.7 成本邊界與 efficiency

引用源

9.C34 GCP：130,000-node GKE cluster 的工程極限

Wed, 13 May 2026 00:00:00 +0000

這個案例的核心責任是揭示「現代 AI workload 對 Kubernetes 規模極限的拉扯」。跟 9.C12 Riot Games 246 cluster 走「多小 cluster 隔離」相反 — GCP 內部驗證的是「單一巨大 cluster 集中管理」、為前沿 LLM 訓練的萬卡叢集需求設計。

觀察

GCP 130K-node GKE cluster 實驗（引自 How we built a 130,000-node GKE cluster）：

指標	數字
實驗節點數	130,000（vs 官方支援 65,000）
Pod 創建峰值	1,000 Pods / 秒
Phase 1 deploy 時間	130,000 Pods in 3 分 40 秒
Phase 2 batch 創建	65,000 Pods in 81 秒
Preemption 峰值	39,000 Pods preempted in 93 秒
Pod startup p99	~10 秒（inference workload）
API server LIST p99	「well below defined thresholds」
Database objects	100 萬 +
Lease 更新 QPS	13,000
客戶當前範圍	20-65K node range
預期 cluster size 穩定	100K node mark

工作負載類型：AI / ML 平台、三個 priority class：

Low：preemptible batch（data prep）
Medium：core model training（tolerant to queuing）
High：latency-sensitive inference

關鍵 control plane 設計：

Consistent Reads from Cache（KEP-2340）— 強一致 read 從 in-memory cache、不打 storage
Snapshottable API Server Cache（KEP-4988）— B-tree snapshot 處理 LIST 請求
Spanner-based key-value store 作為 K8s storage backend（撐 13K QPS lease 更新）

判讀

130K-node 案例揭露三個 hyperscale K8s 設計的工程重點。

單一 control plane 的極限取決於 storage backend、不是 nodes：130K node 不是「機器跑不動」、是「API server 跟 etcd 撐不撐住」。GCP 用 Spanner 替換 etcd、配上 cache-first read 設計、把 storage 從瓶頸變成「showed no signs of not being able to support higher scales」。對應 9.5 瓶頸定位流程的「真實 bottleneck 在哪一層」。
AI workload 顛覆了 K8s 容量規劃：傳統 web workload 的 K8s 多在 1K-10K node、節點生命週期長。AI workload 短時間爆量創建跟銷毀 Pods（13 萬個 in 3 分 40 秒）、preempt 跟 schedule 頻繁、對 control plane 是完全不同壓力模式。對應 9.2 Workload Modeling — workload 形狀完全不同、容量規劃也完全不同。
「power constraint > chip supply」是新瓶頸：單顆 NVIDIA GB200 GPU 吃 2700W、萬卡叢集 = 27MW 用電量。未來 mega cluster 必須跨多個 data center（一個 DC 電力撐不住）、需要 robust multi-cluster solutions。這層瓶頸跟 9.7 成本邊界對接 — 電力成本變成主要 cost driver。

需要警惕：

130K-node 是 Google 內部實驗、不是 客戶能用的 production 配置。目前 GKE 官方支援 65K node、客戶用到 100K+ 還很遠。
AI workload 跟 web workload 完全不同、把 AI 經驗套用到 web service 容量規劃是錯誤類比。

策略

可重用的工程做法：

K8s control plane 跟 data plane 分開規劃容量：data plane（worker nodes）擴容容易、control plane（API server、etcd / storage）擴容難。瓶頸通常在 control plane、不是 worker。
storage backend 是 K8s 規模極限的關鍵：etcd 撐 5K-10K node 後開始吃力、要用 PostgreSQL / Spanner / 自家 KV 替換、才能擴到萬級節點。一般客戶用不到、但要知道「為什麼到某個規模 etcd 不夠」。
AI workload 用 specialized scheduler（Kueue、Volcano）：默認 K8s scheduler 為 web workload 設計、AI 的 gang scheduling、fair-sharing、preemption 都不太適合。對應 05 部署平台模組的 scheduler 選型。
power-aware capacity planning 是未來方向：傳統按 CPU / RAM 規劃容量、未來要加上 power budget。data center 用電量是硬上限、不是錢的問題。
multi-cluster 是萬卡訓練的必然：單一 cluster 撐不住、要 MultiKueue 等跨 cluster 排程方案。對應 9.C12 Riot Games multi-cluster 但目的完全不同。

跨平台等效：AWS EKS 官方支援單 cluster 多至 100K pod / cluster、Azure AKS 支援 5K node / cluster。GCP 用 Spanner 替換 etcd 是最深的工程投資、目前其他兩家還沒到這個規模。

下一步路由

對照其他大規模 K8s → 9.C12 Riot Games 246 cluster（多 cluster 策略）
對照 AI workload → 9.C8 Pokemon GO 50x surge（非 AI 但同 GCP K8s）
想理解 control plane vs data plane → 9.C18 Zoom + 9.5 瓶頸定位流程
想設計 K8s 容量上限 → 9.6 容量規劃模型 + 05 部署平台模組

引用源

9.C35 Snap：GCP + KeyDB 在 multi-cloud 架構下的低延遲快取

Wed, 13 May 2026 00:00:00 +0000

這個案例的核心責任是補強 GCP cache 維度、並揭示 multi-cloud 架構的隱性 latency 議題。Snap（Snapchat 母公司、日活 4 億 +）2011 年從零起就在 GCP 上、是雲原生最早期客戶之一、但近年走 multi-cloud（GCP + AWS）。這個架構引出「跨 cloud cache latency 怎麼處理」的工程議題。

觀察

Snap 在 GCP 的關鍵敘述（引自 Snap deploys KeyDB on Google Cloud、Snap TPU recommendation）：

指標	內容
用戶基礎	4 億 + DAU、年增 18% YoY
開始在 GCP 時間	2011 年（產品早期）
Multi-cloud cache 方案	GCP 上部署 KeyDB cluster 減少 cross-cloud latency
ML training	TPU（vs GPU 吞吐高 67%、成本低 52%）
安全框架	BeyondCorp Enterprise（Zero Trust）

關鍵架構決策：在 GCP 上部署 KeyDB（Redis fork、multi-threaded）作為 cache layer、減少 cross-cloud latency。

判讀

Snap 案例揭露三個 multi-cloud 容量設計的工程重點。

跨 cloud latency 是隱性容量瓶頸：當 application 在 AWS、cache 在 GCP（或反之）、每個 cache lookup 都吃跨 cloud 網路 latency（通常 5-30ms、視 region pair 而定）。對 Snap 這類「每次互動查多個 cache」的服務、5ms × 10 cache lookup = 50ms 額外 latency、用戶感受明顯。對應 9.12 SLO 與 Performance Budget 的 latency budget 反推。
KeyDB 是 Redis 的 multi-threaded 替代：Redis 7+ 之前是 single-threaded、單實例吞吐受限。KeyDB（Snap 等大型用戶採用）改成 multi-threaded、單實例 throughput 提升 5-10x、適合超高吞吐 cache 需求。對應 9.C6 Tinder ElastiCache 的 cache layer 設計、但 Snap 規模更大要走專業 fork。
TPU vs GPU 是 ML training 的容量成本決策：Snap 算過 GPU 的「throughput -67% + cost +52%」就是 TPU 的反向 — TPU 的 throughput 高 67%、cost 低 52% — 對 ML-heavy 公司是巨大決策。對應 9.7 成本邊界與 efficiency 的雲端硬體選型、跟 9.C31 Mercado Libre Vertex AI 的 ML 容量規劃同類。

需要警惕：

KeyDB 是 fork-based 軟體、有 vendor lock-in 風險（Snap 大規模採用後、KeyDB 公司被收購、未來 fork 走向不確定）
TPU 是 Google 專屬硬體、不能在其他 cloud 用、是 vendor lock-in 來源
「年增 18%」是用戶數、不是流量。流量成長通常超過用戶成長（per-user engagement 上升）

策略

可重用的工程做法：

Multi-cloud 架構優先把 cache 跟 application 放同一 cloud：跨 cloud 的不該是 cache lookup（高頻、低 latency 容忍）、應該是 batch sync（低頻、高 latency 容忍）。對應 02 快取模組的部署策略。
Redis 規模化遇到 single-threaded 限制時的選項：
- 拆 cluster（多個 Redis instance）— 應用層分散 key
- 換 KeyDB / Dragonfly（multi-threaded fork）
- 換 Redis 7+ I/O thread（保留 protocol）
- 換 Memcached（multi-threaded、但功能少）
ML training infrastructure 選型按 throughput / cost 而非品牌：GPU vs TPU vs Trainium 不是「哪家好」、是「在 本 workload 上哪個划算」。要實測 benchmark、不是看 vendor marketing。
跨 cloud 部署的「資料引力」：data 在哪、application 通常會被 data 吸過去。Snap 把 cache 放 GCP 是因為 production data 在 GCP — 想搬 cache 到 AWS 同時要搬 data、成本高。

跨平台等效：AWS ElastiCache + Cassandra / DynamoDB Global Tables、Azure Cache for Redis + Cosmos DB 都可實作 multi-region cache 但 single-cloud 內。multi-cloud cache 通常要自管（自管 KeyDB / Dragonfly / Redis Cluster）。

下一步路由

對照其他 cache 案例 → 9.C6 Tinder ElastiCache / 9.C25 Tubi ML feature store
想設計 multi-cloud cache → 02 快取模組 + 9.5 瓶頸定位流程
想做 ML training 容量規劃 → 9.7 成本邊界 + 9.C31 Mercado Libre
想理解 cross-cloud latency → 9.12 SLO 與 Performance Budget

引用源

9.C37 Forbes：自管 MongoDB → Atlas on GCP、build 時間 25 → 9 分鐘

Tue, 26 May 2026 00:00:00 +0000

這個案例的核心責任是說明「從自管 MongoDB 遷到 Atlas managed」這條路徑的工程與成本對照。Forbes 自 2011 年起用 MongoDB 重寫 CMS、2020 年把 production 遷到 Atlas on Google Cloud、保留同一個 document model、轉移 DBA 責任跟跨雲彈性。跟 9.C20 Zomato 的「跨 DB 種類遷移」對照 — Forbes 是 同 DB、換託管模式、不需要重寫 schema 跟 access pattern。

觀察

Forbes 遷移到 MongoDB Atlas on Google Cloud 的關鍵數字（引自 Google Cloud Blog 與 MongoDB customer case study）：

指標	數字
單月不重複訪客	120M（2020 年 5 月）
Build 時間	25 分鐘 → 9 分鐘（-64%）
Release 頻率提升	2x – 10x
微服務數量	50+（GKE 上）
遷移耗時	6 個月
DB 總體擁有成本降幅	-25%
電子報訂閱量	+92%（2020 全年）
Atlas 可用 region	70+（跨 AWS / GCP / Azure）
CMS MongoDB 起用年	2011（首版 CMS 兩個月內交付）

服務組合：MongoDB Atlas（managed document DB）、Google Cloud Platform（基礎設施）、Google Kubernetes Engine（50+ 微服務編排）、Google App Engine（部分 serverless 應用）、自建中介 abstraction layer（API 隔離 schema 變動）。

關鍵負載形狀：「文章 publish 後突然爆量」是新聞媒體常態 — 熱門報導、人物專訪、財經事件都會在分鐘內把單篇文章拉到百萬讀者。這跟 9.C13 Hotstar IPL 的「賽事時段預期峰值」不同、Forbes 的爆量是事件驅動、難以精確預測、需要 Atlas auto-scaling 撐住臨時讀爆。

判讀

Forbes 的遷移選擇揭露三個「自管 → managed」路徑的判讀重點。

同 DB 換託管模式比換 DB 種類風險低、但 ROI 也較窄：Forbes 6 個月完成遷移、保留同 document model、schema 不動、application 改動只在 connection string 跟運維邊界。這跟 9.C20 Zomato 從 TiDB 遷到 DynamoDB 對照、後者要重新設計 access pattern、ROI 大但風險高。對應 01 資料庫模組的 schema migration playbook：「換 DB」跟「換託管」是兩個不同議題、不要混為一談。
跨雲彈性的價值在規避未來鎖定、不是當下省成本：Atlas 提供 AWS / GCP / Azure 跨雲部署。Forbes 選 GCP 是當下決策、但 Atlas 的跨雲能力讓未來雲商選型不再綁定特定 vendor。這跟 DynamoDB（AWS only）、Cosmos DB（Azure only）、Spanner（GCP only）的單雲鎖定形成對照。對應 00 服務選型模組的 vendor lock-in 評估。
Build 時間 25 → 9 分鐘 = 開發者效率改善、不是 DB 性能改善：Build 時間下降主因是 ephemeral test environment 用 Atlas API spin-up、不是 MongoDB query 變快。CMS 系統的 production read latency Atlas 跟自管 MongoDB 差距通常在 ±20% 內、真正贏的是「開發 / 部署 cycle 變短」。讀案例時要區分「開發者體驗 metric」跟「production 性能 metric」、兩者改善的杠桿完全不同。

需要警惕：

「25% TCO 降幅」是 特定流量規模下 的數字。Atlas managed 服務在小流量時 cost-per-GB 比自管低（不用養 DBA），但流量增長到一定規模後 self-hosted 反而便宜。Forbes 在 120M MAU 規模下選 managed 是合理判斷、但這個結論不是普適的。
「Build 25 → 9 分鐘」混合了「MongoDB Atlas API」、「GKE optimization」、「GCP CI/CD」三個變因。把全部歸功於 MongoDB Atlas 會誇大效益。
中介 abstraction layer 是 Forbes 主動加的設計、不是 Atlas 自帶。沒有這層 abstraction、schema 變動仍會直接打穿到所有 microservice、跨雲彈性也用不起來。

策略

可重用的工程做法：

自管 → managed 的遷移要先做 schema 跟 access pattern 盤點：確認沒有自管時的特殊 hack（自訂 plugin、特殊 storage engine、客製 oplog 處理）— 這些在 managed 服務上通常不支援。對應 01.4 database migration playbook。
微服務 + abstraction layer 隔離 schema 變動：document database 的 schema flexibility 容易讓 production 出現 data inconsistency。中介 API 層把 schema 變動限制在 DB 邊界、microservice 看到的是穩定 API。對應 MongoDB vendor 的 schema governance 段。
跨雲 managed 服務比單雲服務更適合長期不確定的雲商策略：Atlas（跨 AWS / GCP / Azure）vs DynamoDB / Cosmos DB / Spanner（單雲）的取捨。當雲商選擇尚未底定、跨雲服務的選項保留價值高。對應 DynamoDB vendor page 跟 Cosmos DB vendor page 對比。
遷移時間表跟團隊規模耦合：Forbes 6 個月完成、團隊規模未揭露但顯然是中型團隊 + 多個 squad 並行。1-2 人團隊做同類遷移通常要 12+ 個月。對應 01.12 大規模 DB 遷移實戰的時間估計。

跨平台等效：

自管 MongoDB → MongoDB Atlas（同 DB、換託管）：Forbes、SEGA HARDlight 路徑
自管 MongoDB → DocumentDB（AWS 自研、API 部分相容）：較多應用層改動、跨雲彈性失去
自管 MongoDB → Cosmos DB MongoDB API（Azure）：9.C30 Microsoft 365 路徑、有 RU 模型差異
自管 PostgreSQL → Aurora / Cloud SQL：對等遷移、但 RDB 跟 document DB 的 schema 治理議題不同

下一步路由

想規劃 MongoDB 遷移到 Atlas → MongoDB vendor page + 01.4 database migration playbook
想評估跨雲 vs 單雲 DB 取捨 → 00 服務選型模組 + DynamoDB vendor page 對比段
想做 microservice + abstraction layer 設計 → 05 部署平台模組
想對照同類遷移 → 9.C30 Microsoft 365（遷到 Cosmos DB MongoDB API）/ 9.C20 Zomato（換 DB 種類）