Incident-Response

"Incident-Response"

2026-05-07 Atlassian 2022 April Multi-tenant Deletion Outage 2022-04 Atlassian 因維運腳本誤刪多租戶站點造成長時間事故的解析：恢復分批、跨團隊指揮與對外通訊節奏。
2026-05-07 AWS S3 2017 US-EAST-1 Service Disruption 2017-02-28 AWS S3 us-east-1 事故解析：內部操作命令、index / placement 子系統重啟、區域依賴擴散與狀態頁依賴回寫。
2026-05-07 Cloudflare 2019 Regex CPU Outage 2019-07-02 Cloudflare WAF 規則更新導致全球 CPU 飆升的事故解析：觸發條件、擴散機制、止血決策與可回寫控制面。
2026-05-07 Fastly 2021 June Global Edge Config-triggered Outage 2021-06-08 Fastly 全球 edge 事故解析：有效客戶配置觸發潛藏 bug、分鐘級擴散與快速隔離恢復。
2026-05-07 GCP 2019 US Network Congestion Multi-service Incident 2019-06-02 Google Cloud 因美國區域網路壅塞造成多服務退化的事故解析：跨產品依賴、流量控制與區域隔離判讀。
2026-05-07 GitHub 2018 Oct21 MySQL Topology Incident 2018-10-21 GitHub 因 network partition 觸發跨區資料庫拓撲異常的事故解析：資料一致性優先、fail-forward 決策與長時間恢復。
2026-05-07 Roblox 2021 Oct Prolonged Core Infra Outage 2021-10 Roblox 長時間平台中斷的事故解析：核心基礎設施壓力失衡、根因定位延遲與長尾恢復。
2026-04-23 8.1 事故分級與啟動條件建立統一分級標準與事故啟動門檻
2026-05-07 AWS 2021 US-EAST-1 Control Plane Degradation 2021-12-07 AWS us-east-1 控制面退化案例：內部網路壅塞、API 錯誤率升高、跨服務依賴連鎖與通訊節奏調整。
2026-05-07 Cloudflare 2023 Control Plane Token Incident 2023-01-24 Cloudflare service token 錯誤變更導致多產品連鎖影響的事故解析：信任邊界、擴散機制、止血策略與流程回寫。
2026-04-23 8.2 事故指揮與角色分工定義 incident commander 與跨角色協作責任
2026-05-08 AWS：Control Plane 事故的責任邊界與通訊節奏樣式（2023）以 AWS 2023 年公開事件樣式為主，整理 control plane 退化時如何建立責任邊界、決策紀錄與對外更新節奏。
2026-05-07 Cloudflare 2026 BYOIP BGP Withdrawal 2026-02-20 Cloudflare BYOIP prefixes 被非預期撤告的事故解析：Addressing API bug、BGP withdrawal、狀態恢復與控制面回寫。
2026-04-23 8.3 止血、降級與回復策略把短期止血與正式回復拆成可執行步驟
2026-05-07 Cloudflare 2023 Workers KV Deployment Tool Misconfiguration 2023-10-30 Cloudflare 控制面事故：deployment tool 設定錯誤造成 Workers KV 連鎖影響，重點在變更範圍限制與決策回寫。
2026-04-23 8.4 事故通訊與狀態更新建立內外部通報節奏與狀態更新格式
2026-04-23 8.5 復盤與改進追蹤把 RCA 與 action items 轉成可驗證閉環
2026-04-23 8.6 演練與值班能力建設用演練與值班訓練提升事故反應品質
2026-04-24 8.7 失敗模式審查（Failure Mode Audit）以概念層判讀事故流程弱點，聚焦分級、指揮、回復與交接節奏
2026-05-01 8.9 事故型態庫入口把跨服務的共通事故型態抽成型態卡，作為新事故的判讀錨點
2026-05-01 8.10 Stakeholder 通訊與外部狀態頁把 impact scope、status page、補償政策串成節奏
2026-05-07 Slack：2022 連線恢復與狀態通訊節奏在通訊平台自身失效時，如何同步恢復節奏與對外狀態揭露。
2026-05-01 8.11 Observability / Reliability / Incident Response 閉環把 04 / 06 / 08 三個模組的雙向反饋串成可判讀循環，定義閉環健康度判讀訊號
2026-05-02 0.12 觀測、可靠性與事故服務選型從訊號、驗證與響應三層能力判斷操作控制服務的選型順序
2026-05-01 8.12 IC Handoff 與長事故跨班次協調把 24h+ / 跨 timezone 事故的接班節奏變成可重複流程
2026-05-07 0.13 操作控制 vertical slice 實作入口用一個服務串起觀測證據、可靠性驗證、事故決策與回寫閉環
2026-05-01 8.13 Repeated Incident 與 Toil 治理把同型事故反覆發生與重複手動修復作為工程化治理對象
2026-05-01 8.14 Multi-incident Coordination 把同時多事故的優先序、資源分配與 incident command system pool 協調變成可執行流程
2026-05-01 8.15 Vendor / 第三方依賴事故處理依賴方掛掉、自己無 control 時的決策模型
2026-05-01 8.16 Runbook Lifecycle 管理把 runbook 從一次性文件變成有版本、有演練、會過期的 artifact
2026-05-01 8.17 Security Incident vs Operational Incident 分流把資安事故跟可用性事故的 IR 流程分支點明確化
2026-05-02 8.18 Incident Intake & Evidence Triage 把告警、客訴、支援回報與第三方狀態轉成同一個 intake / evidence 判讀流程
2026-05-02 8.19 Incident Decision Log 把事中假設、決策、證據、回退條件與責任人留下可復盤紀錄
2026-05-02 8.20 Customer Impact Assessment 把受影響用戶、功能、區域、金額、SLO 與補償判斷串成影響評估模型
2026-05-07 Datadog：2023 多區觀測中斷事件監控平台自身退化時，如何避免客戶誤判系統健康狀態。
2026-05-02 8.21 Incident Workflow Automation Boundary 定義哪些事故流程適合自動化，哪些決策需要保留人工確認
2026-05-02 8.22 Incident Evidence Write-back 把事故證據、決策與復盤結論回寫到 observability、reliability 與 runbook
2026-05-08 8.23 Control Plane Decision Log and Write-back 實作示範以 rule/config rollout 事故示範 decision log 與 write-back 如何形成可回放閉環。
2026-05-07 Discord：Gateway 容量事件與恢復節奏長連線平台在容量邊界被擊穿時，如何控制擴散並分批恢復。
2026-05-07 Azure AD：2021 身分控制面中斷事件身分服務失效時，如何評估跨產品影響與收斂優先序。
2026-05-07 Heroku：Routing 控制事件與多租戶影響 PaaS 路由層異常時，如何限制租戶擴散並維持可用通訊。
2026-05-07 Reddit：2023 Kubernetes 升級事故平台升級變更如何觸發服務退化，以及如何設計可回退的升級策略。
2026-05-07 Microsoft 365：套件級身分驗證事故企業套件在身份依賴失效時，如何同步處理跨產品影響與對外揭露。
2026-04-24 8.8 事故報告轉 workflow：從案例到日常流程把事故報告拆成可執行流程，並與 red-team 案例庫建立雙向引用
2026-06-22 Runbook 說明 runbook 如何把事故判斷與操作步驟標準化
2026-06-22 Incident Timeline 說明事故時間線如何支援判斷、溝通與復盤
2026-05-11 Fail-forward 說明無法回到舊狀態時如何用受控前進完成修復
2026-05-11 Stop Condition 說明變更、實驗或事故處理何時必須暫停、回退或改路線
2026-05-11 Rollback Condition 說明決策執行後出現哪些訊號時要撤回、回退或改路線
2026-06-22 On-Call 說明值班制度如何承接告警、事故分級與升級流程
2026-06-22 Ownership 說明 ownership 如何把問題、決策與交接責任固定到可執行角色
2026-06-22 Action Item Closure 說明事故行動項如何被驗證完成，而不是只停留在待辦清單
2026-05-11 Time Range 說明證據、查詢與事故判讀如何用時間窗保留可回放上下文
2026-05-11 Query Link 說明證據包如何保存可重跑查詢入口，而不是只保留截圖或口頭結論
2026-05-11 Data Quality 說明證據欄位如何標示 completeness、freshness、sampling 與資料限制
2026-05-11 Confidence 說明證據包如何標示 confirmed、suspected 或 needs follow-up 的判讀信心
2026-05-11 Known Gap 說明證據包如何明確保存已知缺口，避免下游高估證據完整性
2026-04-30 7.B6 Incident Triage Loop 把資安訊號轉成 triage、severity、owner、containment 與 evidence 的回應循環
2026-04-30 NIST SP 800-61r3：事故回應作為風險管理能力把 NIST SP 800-61r3 轉成藍隊事故回應與風險治理素材
2026-04-30 CISA Playbooks：事故與漏洞回應程序把 CISA incident and vulnerability response playbooks 轉成藍隊流程素材
2026-04-30 CISA GeoServer 2024：IR 協調壓力把 CISA GeoServer incident response lessons learned 轉成修補、EDR、IR plan 與第三方協調壓力素材
2026-05-19 Atlassian Statuspage → Instatus：status page 成本下降、但 compatibility audit 不能跳 Atlassian Statuspage → Instatus 是 Type B drop-in migration、6 維 audit 全 Low；典型情境是從 Statuspage Business / Enterprise 降到 Instatus Pro / Business、但 savings 取決於 subscriber、SSO、audit 與 SLA report 需求。本文走 compatibility audit prefix（subscriber channel 完整度 / SAML SSO / audit log / metrics integration / SLA report / API parity）、4 階段 cutover（DNS TTL + parallel run）、5 個 production 踩雷（SSO tier 選錯、metrics 來源整合斷、subscriber import format / SLA report 缺、custom CSS 不完全相容）、何時不要切（enterprise compliance / 強 Atlassian 整合）
2026-05-19 PagerDuty → incident.io：「On-call」是個 retconned word、同名不同 contract PagerDuty → incident.io 不是 schema translation — 兩家的「on-call」字面相同、contract 不同（alert routing vs IR coordination + Slack-native + retrospective）。本文走 Type E paradigm shift、6 維 audit 顯示 paradigm / schema / operational 三軸 High、用 4-phase partial migration（不收斂、Phase 1-2 多數 org 停留）、5 個 production 踩雷（雙系統 state drift / severity 翻譯失真 / schedule layer 漏 / Slack channel 過載 / retrospective 斷層）、跟 PagerDuty Process Automation / AIOps 沒對應的 capability gap
2026-05-19 PagerDuty → Opsgenie：Atlassian 全家桶整合 vs Opsgenie 2027 EOL 的 vendor consolidation 取捨 PagerDuty → Opsgenie 是 Type A phased schema translation、但 Atlassian 已宣布 Opsgenie 2027-04 EOL — 這條 migration 只在 Atlassian-heavy org + 明確 JSM unification roadmap 下成立、本質是 PD → Opsgenie → JSM Cloud 的雙 hop migration。本文走 6 維 audit（Schema Medium-High 其他 Low）、PagerDuty ↔ Opsgenie ↔ JSM field mapping 對照、5 production 踩雷（escalation step / Heartbeat 缺對應 / integration key dedup 重設 / schedule 時區 / Atlassian Identity SSO 整合）、何時直接走 PD → JSM 跳過 Opsgenie