本篇的責任是建立 alert fatigue 治理方法。讀者讀完後,能把噪音告警轉成可分級、可交接、可調校的訊號集合。

核心論點

Alert fatigue 治理的核心概念是把告警品質當系統能力管理。判讀效率與決策一致性是主要目標,告警數量則作為輔助觀測指標。

讀者入口

本篇適合銜接 7.13 偵測覆蓋率與訊號治理7.B5 Detection Engineering Lifecyclealert fatigue

訊號品質欄位

欄位責任指標
Precision降低誤報密度false positive rate
Recall保持重要事件命中missed detection rate
Context richness提供足夠判讀上下文triage completion rate
Routing quality提供正確接手路由misrouting rate
Actionability提供可執行下一步response start time

告警分層

告警分層的責任是讓值班負載可控。分層可依風險與動作分成:

  1. Informational:觀測型訊號。
  2. Action-required:需值班處理。
  3. Escalation-required:需跨團隊升級。

調校節奏

調校節奏的責任是讓告警品質持續改善。每輪調校至少記錄觸發條件、誤報來源、調整內容、影響範圍與回退條件。

與 triage loop 對齊

與 triage loop 對齊的責任是讓告警到回應保持一致。告警內容至少提供 signal source、impact hint、recommended owner 與下一步路由。

判讀訊號與路由

判讀訊號代表需求下一步路由
值班人員持續手動排除同類告警需要規則調校與分層7.B10 → 7.B5
告警描述不足以支持分級需要補 context 欄位7.B10 → 7.B6
告警量下降但漏報上升需要平衡 precision 與 recall7.B10 → 7.B7
告警調整缺少變更證據需要補 release gate 記錄7.B10 → 7.22

必連章節

完稿判準

完稿時要讓讀者能為告警系統建立品質治理循環。輸出至少包含品質欄位、分層策略、調校節奏、對齊路由與回寫位置。