"Grafana"
- 斷網環境的監控與可觀測性
Self-hosted 監控(Prometheus + Grafana)、離線 log 收集(Loki / ELK)、不能 phone home 的告警、NTP 時間同步
- LGTM Stack 組合運維:Loki + Grafana + Tempo + Mimir
說明 Grafana Stack 四個元件的責任分工、部署模式、常見故障與 dashboard provisioning
- Grafana Loki 設計與操作限制
說明 Loki 的 label-based 設計哲學、跟 Elasticsearch 的根本差異、label cardinality 限制、LogQL 查詢模式與成本模型
- Datadog → Grafana Stack:把 $50K/month bill 拆解到 self-hosted observability
Datadog 五層計費(host APM / metric / log ingest / log retention / RUM)拆解、對位 Grafana Stack(Mimir / Loki / Tempo / Grafana / Alloy)的 5 層責任;OTel-based agent migration、5 個 production 踩雷(cardinality 爆 / log volume cost / dashboard 不直接轉 / alert routing 換邏輯 / SLO definition 差異)、cost reality check