Prometheus

2026-06-26 斷網環境的監控與可觀測性 Self-hosted 監控（Prometheus + Grafana）、離線 log 收集（Loki / ELK）、不能 phone home 的告警、NTP 時間同步
2026-06-22 Prometheus 容量規劃與故障模式說明 Prometheus 單機容量邊界、cardinality 與 retention 的資源模型、常見故障模式與判讀方式
2026-06-22 4.C11 Uber：M3 大規模 Metrics 平台從散落的 Prometheus 實例到統一 metrics 平台，處理 cardinality 爆炸、長期 retention 與跨叢集查詢的規模化挑戰。
2026-06-22 PromQL 與 Recording Rules 實務說明 PromQL 常見查詢模式、recording rules 設計慣例、SLI 表達式寫法與效能陷阱的判讀方式
2026-05-19 Self-managed Prometheus → Grafana Cloud Metrics：feature × ops × cost 對照 Self-managed Prometheus → Grafana Cloud Metrics (Mimir-backed) 是 Type C operational redesign — Prometheus query API 完全相容、operational stack (HA / retention / scaling) 全託管；本文用 feature / ops / cost 三維對照表開頭、5 個 production 踩雷
2026-06-22 Remote Write 與長期儲存整合說明 Prometheus remote write 的配置、三家長期儲存後端比較（Mimir / Thanos / Cortex）、故障模式與容量規劃