Monitoring on Tarragon

Collector 架構

Fri, 19 Jun 2026 00:00:00 +0000

Collector 是監控資料的接收與處理中心，職責是把 SDK 送來的事件資料轉換成可查詢、可觸發動作的持久化記錄。整條鏈路由五段組成，每段有明確的輸入和輸出，段與段之間用結構化資料傳遞。

五段處理鏈路

第一段：HTTP endpoint 接收

Collector 對外提供一個 HTTP POST endpoint（例如 /v1/events），接收 SDK 送來的 JSON body。每個 request 可以是單一事件或批次事件陣列。

Endpoint 的職責只有兩件事：驗證 HTTP 層面的基本條件（Content-Type、body size limit、認證 token），然後把 body 傳給下一段。HTTP 層面的錯誤（413 body too large、401 unauthorized）在這裡回應，不進入後續處理。

自用工具場景下，Go 的 net/http 標準庫提供的 HTTP server 已足夠。一個 http.HandleFunc("/v1/events", handler) 加上 json.NewDecoder(r.Body).Decode(&events) 就完成接收。不需要 framework。

第二段：JSON Schema 驗證

收到的 JSON body 用 JSON Schema 驗證結構正確性 — 必要欄位是否存在、型別是否正確、值是否在合法範圍內。驗證失敗的事件被拒絕並記錄原因，通過的事件進入下一段。

Schema 驗證是 collector 的品質閘門。沒有驗證的 collector 會累積格式不一致的資料，查詢時需要處理各種邊界條件。驗證在寫入前攔截問題，比寫入後清理成本低。

驗證的粒度是事件級 — 批次中的一個事件驗證失敗不影響其他事件。回應中標明哪些事件被接受、哪些被拒絕及原因。

Ingestion 回應格式

回應格式把「接受了幾筆、拒絕了幾筆、拒絕原因」三件事用一套一致的結構表達。SDK 端只需要判斷 status code 就知道怎麼處理 buffer。

 1// 200 OK — 單筆成功或批次全部成功
 2{ "accepted": 1 }
 3
 4// 207 Multi-Status — 批次部分失敗
 5{
 6  "accepted": 1,
 7  "rejected": 1,
 8  "errors": [
 9    { "index": 1, "message": "missing required field: type", "fields": ["type"] }
10  ]
11}
12
13// 400 Bad Request — 單筆失敗或批次全部失敗
14{
15  "error": "schema validation failed",
16  "details": [
17    { "field": "type", "message": "missing required field" }
18  ]
19}
20
21// 503 Service Unavailable — 寫入端暫時不可用
22{ "error": "service temporarily unavailable", "retry_after": 5 }

設計選擇：207 的 errors 陣列用 index 標明失敗事件在原始 batch 中的位置（0-based），SDK 可以用 index 對照原始事件做 debug log。合法事件不因部分失敗而被丟棄 — 部分成功是 batch 收集的核心價值。400 和 207 的差異是「全軍覆沒 vs 部分存活」，SDK 端的處理策略不同：400 直接清 buffer（schema 問題重試也不會過），207 只清成功的部分。

Health endpoint 回應

Health endpoint 回傳 collector 自身的運行狀態，不包含事件內容。用途是 SDK 端確認 collector 可達、監控腳本定期探測。

1// GET /health → 200 OK
2{
3  "status": "ok",
4  "uptime_seconds": 3600,
5  "total_events": 1234,
6  "storage_bytes": 5242880,
7  "version": "0.1.0"
8}

total_events 和 storage_bytes 讓監控腳本判斷 collector 的負載趨勢。version 讓 SDK 確認 collector 版本（schema 不匹配時的第一個 debug 線索）。

第三段：儲存

通過驗證的事件寫入 Storage Backend。Collector 使用可插拔的 Storage interface — day-one 預設用 SQLite（零依賴、嵌入式），分析需求觸發時切換到 PostgreSQL。具體的 backend 選擇和功能分層見功能分層與 Backend 選擇，可插拔架構見規模演進。

第四段：查詢

儲存的事件透過 CLI 指令或 HTTP 查詢 endpoint 存取。SQLite backend 下用 SQL 查詢；匯出為 JSONL 格式後也可用 grep + jq 做臨時分析。

查詢設計見查詢 API 設計。

第五段：Rule engine

Rule engine 在事件寫入後觸發，檢查事件是否匹配預定義的規則。匹配時執行對應的動作（發通知、寫 summary、觸發 webhook）。

Rule engine 設計見 Rule engine 設計。

多獨立 client 併發寫入

上述五段鏈路描述的是單一 request 的路徑。實際運行時，多個 SDK 會同時送事件——以下先描述場景，下方並發寫入策略再詳述 collector 如何處理。

常見部署場景中，多個完全獨立的 SDK 實例同時送事件到同一個 collector——不同 process、不同 app、甚至不同語言的 SDK。這和「一個 app 內的多 thread 併發」不同：每個 SDK 有自己的 buffer 和 HTTP 連線，不共享任何狀態。

SDK 端不需要知道其他 SDK 的存在。每個 SDK 獨立 init、獨立 buffer、獨立 flush、獨立 close。SDK 端的唯一接觸點是 collector 的 HTTP endpoint——併發安全由 storage backend 的併發策略保證（見下方並發寫入策略），不需要 SDK 端協調。多 client 同時 flush 時的背壓機制見 Ingestion 背壓與流量管控。

例如 CI pipeline 的多個 job 同時送 build 事件，或微服務架構中多個 service 各自送事件到同一個 collector。另一個具體案例是 Claude Code 的 Hook 系統——多個 Hook 同時觸發時，每個 Hook 是獨立的 Python process，各自初始化 SDK、產生事件、flush 到同一個 collector。

並發寫入策略

Go 的 HTTP server 為每個 request 分配一個 goroutine。多個 SDK 同時 flush 時，collector 同時收到多個寫入請求。Storage Backend 的並發能力決定了這些 goroutine 怎麼協調。

SQLite Backend：單寫者模型

SQLite 的 WAL mode 允許一個 writer 和多個 concurrent reader — 讀寫不互相阻塞，但多個 writer 之間是序列化的。Go 端有兩種處理 pattern：

Single-writer goroutine + channel：所有 Store() 呼叫把事件送進一個 Go channel，由一個專屬的 goroutine 從 channel 讀取並序列寫入 SQLite。HTTP handler 送完 channel 後等待確認（或用 buffered channel 異步）。優點是背壓控制清晰 — channel 滿時 HTTP handler 自然阻塞，可以回 503。缺點是多一層間接。

Busy timeout fallback：不在 Go 層管序列化，讓 SQLite driver 自己處理。設定 _pragma=busy_timeout(5000)，多個 goroutine 同時呼叫 Store() 時，SQLite 讓等待的 goroutine block 直到寫入鎖釋放（最多 5 秒）。優點是實作簡單（不需要 channel 和額外 goroutine）。缺點是背壓不可控 — goroutine 數量可能累積。

自用工具場景推薦 busy timeout（簡單）、寫入量增長到出現超時錯誤時切換到 channel pattern。

PostgreSQL Backend：連線池

PostgreSQL 透過連線池（database/sql 的 SetMaxOpenConns）支援並行寫入。多個 goroutine 可以同時寫入不同的連線，不需要額外的序列化機制。

Go 單一 binary 的設計選擇

Collector 用 Go 編譯成單一 binary，不依賴外部 runtime（JVM、Python interpreter、Node.js）。部署是複製一個檔案，啟動是執行一個指令。

這個選擇在自用工具場景下有特定優勢：server 和 collector 在同一台機器上，部署流程是 scp collector user@host: + ssh user@host ./collector。不需要 package manager、不需要 container registry、不需要 orchestration。

Go 的 net/http 標準庫提供 production-ready 的 HTTP server，JSON 處理用標準庫的 encoding/json，SQLite 用 modernc.org/sqlite（pure Go、無 CGO 依賴）。整個 collector 的核心邏輯可以在 500 行以內完成。

具體的部署步驟（systemd service 檔案、啟動參數、設定檔格式）和 Quick Start（從零到第一筆事件出現在 collector）見 monitor repo 的 deployment guide。

下一步路由

功能分層與 Backend 選擇 → 功能分層與 Backend 選擇
可插拔 Storage Backend 架構 → 規模演進
JSONL 匯出與備份格式 → JSONL 儲存設計
查詢 API 的設計 → 查詢 API 設計
Rule engine → Rule engine 設計
背壓與流量管控的基礎概念 → DevOps 流量管控
端到端資料完整性 → 端到端資料完整性
Error fingerprint 與去重分群 → Error Fingerprint 與去重分群

event.schema.json 完整欄位解說

Fri, 19 Jun 2026 00:00:00 +0000

事件 schema 定義了每一筆監控事件的資料結構。統一的 schema 讓 SDK、collector、查詢工具使用同一個資料契約 — SDK 知道該送什麼欄位，collector 知道該驗證什麼，查詢工具知道該讀什麼。

核心欄位

type（必填）

事件類型。對應四類事件分類（模組一）：event、error、metric、lifecycle。

Collector 用 type 決定事件的處理路徑 — error 類型觸發告警規則，metric 類型進入數值聚合，event 類型進入行為分析。

name（必填）

事件名稱。使用 namespace.action 格式（事件命名規範）。例如 terminal.connect.done、auth.biometric.failed。

name 是查詢和統計的主要索引。grep "terminal.connect" 找到所有連線事件；按 name 分群計數得到功能使用頻率。

timestamp（必填）

事件發生的時間。ISO 8601 格式，包含時區偏移。2026-06-19T14:30:00.123+08:00。

Timestamp 由 SDK 在事件發生時記錄，不是 collector 收到時記錄。兩者可能有延遲（離線 buffer、網路延遲），以 SDK 端的時間為準。

source（必填）

事件來源的識別資訊。包含產生事件的 SDK、app 名稱、版本、平台、OS 版本。

1{
2  "source": {
3    "sdk": "flutter",
4    "app": "app_tunnel",
5    "version": "1.2.0",
6    "platform": "ios",
7    "os": "17.4"
8  }
9}

sdk 標明產生事件的 SDK 種類（js / flutter / python / go）。同一個平台可能有不同的 SDK——iOS 上可能是 Flutter SDK 或未來的 Swift 原生 SDK——sdk 欄位讓 collector 區分事件來自哪個 SDK 實作，platform 無法替代這個識別。sdk 和 platform 為必填，app、version、os 為選填。

Source 讓同一個 collector 接收多個 app 的事件時可以區分來源。也用於分析「哪個版本的 error 率最高」、「哪個 OS 版本有特定問題」。

platform 合法值與自動偵測

platform 由 SDK init 時自動偵測，開發者不需手動設定。各 SDK 的偵測來源和映射規則：

SDK	偵測來源	映射規則
Python	`sys.platform`	`darwin`→`macos`、`linux`→`linux`、`win32`→`windows`、其他直接傳原值
Flutter	`Platform.operatingSystem`	回傳值（`ios`/`android`/`macos`/`linux`/`windows`）即合法值，無需映射
JS	瀏覽器環境	固定為 `web`；OS 偵測（如需要）從 `navigator.userAgentData` 解析
Go	`runtime.GOOS`	`darwin`→`macos`、`linux`→`linux`、`windows`→`windows`、映射邏輯同 Python

以上映射是 SDK init 時的預設自動偵測行為。Python 和 Go 的 runtime 回傳系統內部名稱（darwin、win32），SDK 負責映射到 schema 定義的標準名稱。Flutter 的 dart:io Platform.operatingSystem 恰好回傳合法值。JS SDK 在瀏覽器環境中無法可靠偵測 OS，platform 統一為 web。

自動偵測之外，SDK 也接受手動覆蓋 platform 值。短生命週期的命令列腳本（如 CI pipeline step、pre-commit hook）可手動將 platform 設為 script，表示非互動式 OS session——這類場景中 OS 名稱不是有意義的區分維度，script 讓查詢時能篩選出所有腳本來源的事件。

SDK 不做映射的話，collector 會收到不一致的 platform 值——同是 macOS 的事件有些標 darwin 有些標 macos，查詢篩選會漏事件。各平台 SDK 的執行環境適配細節見模組五：平台適配。

session（選填）

使用者 session 的識別資訊。Session ID（UUID）和 session 開始時間。

Session 用於關聯同一次使用中的多個事件。「使用者在這次 session 中做了什麼操作、遇到了什麼 error」的分析依賴 session ID。

去識別化要求：session ID 用 UUID 而非使用者帳號，不包含個人識別資訊（模組七）。

data（選填）

事件的附加資料。自由結構的 JSON object，內容依事件類型和名稱而定。

1{
2  "data": {
3    "url": "wss://192.168.1.100:7681/ws",
4    "duration_ms": 320,
5    "step": "3/5"
6  }
7}

Data 欄位是 schema 中唯一的自由結構區域。核心欄位（type、name、timestamp、source）有固定格式，data 的內容由事件定義者決定。

v（必填）

Schema 版本號。整數，從 1 開始遞增。

版本號讓 collector 知道用哪個版本的 schema 驗證這筆事件。Schema 演進時，舊版本的事件仍可被正確處理。

Collector 附加欄位（底線前綴）

Collector 在事件寫入 storage 時可以附加系統層的 metadata。這些欄位使用底線前綴（_flags、_fingerprint），和 SDK 端產生的業務欄位區隔。SDK 送出的事件中不包含這些欄位 — 它們由 collector pipeline 在處理過程中計算並附加。

_flags（選填，collector 附加）

Collector 端的行為分析或規則引擎偵測到異常時，在事件中附加標記。Dashboard 查詢可用 _flags 過濾可疑事件。

1{
2  "_flags": {
3    "suspicious": true,
4    "reason": "rate_anomaly"
5  }
6}

suspicious 標記的事件不被刪除 — 直接丟棄有誤殺正常流量的風險（行銷活動的真實流量暴增可能觸發異常偵測）。Dashboard 預設排除 _flags.suspicious = true 的事件，需要調查時可包含。

標記來源和 reason 值的定義見 Client-side SDK 認證的事後標記策略段。

_fingerprint（選填，collector 附加）

Error 事件的去重識別碼。Collector 從 error 的 type、normalized message、stack trace 計算 hash，用於把相同根因的 error 歸組。

1{
2  "_fingerprint": "a3f8c2e1b7d94f06"
3}

Fingerprint 的計算邏輯和 error grouping 機制見 Error Fingerprint 與去重分群。

SDK 自監控指標

監控系統自身的資料完整性需要獨立的指標追蹤 — SDK 用 metric 類事件回報自己的送出量和丟棄量，collector 用 endpoint 暴露處理量和拒絕量。SDK 端的指標每次 flush 成功後作為標準 schema 事件一起送出，name 以 sdk. 前綴標識。

name	含義
`sdk.events.produced`	事件產生總數（取樣前）
`sdk.events.sampled`	取樣後保留的事件數
`sdk.events.sent`	成功送出的事件數（收到 200/207 的 accepted）
`sdk.events.dropped`	被 FIFO 丟棄或重試耗盡的事件數
`sdk.flush.failures`	flush 失敗次數（429 / 5xx / timeout）
`sdk.sampling.rate`	當前動態取樣率

Collector 端對應暴露 collector.events.received、collector.events.rejected、collector.events.stored、collector.events.backpressure 等指標，透過 /metrics endpoint 或 health endpoint 的擴展欄位提供。

完整的指標定義、端到端比對方法和損失率閾值見端到端資料完整性的監控損失段。

完整 schema 範例

 1{
 2  "v": 1,
 3  "type": "error",
 4  "name": "terminal.connect.failed",
 5  "timestamp": "2026-06-19T14:30:00.123+08:00",
 6  "source": {
 7    "sdk": "flutter",
 8    "app": "app_tunnel",
 9    "version": "1.2.0",
10    "platform": "ios",
11    "os": "17.4"
12  },
13  "session": {
14    "id": "a1b2c3d4-e5f6-7890-abcd-ef1234567890",
15    "started": "2026-06-19T14:25:00.000+08:00"
16  },
17  "data": {
18    "step": "ws_connect",
19    "error": "Connection refused",
20    "url": "wss://192.168.1.100:7681/ws"
21  }
22}

下一步路由

欄位設計的原則 → 欄位設計原則
Schema 版本演進 → Schema 版本演進策略
和 OpenTelemetry 的差異 → 跟 OpenTelemetry 的 schema 差異對照
Log 點的設計方法 → testing 模組二客戶端可觀測性

Funnel Analysis

Fri, 19 Jun 2026 00:00:00 +0000

Funnel analysis 的核心概念是「追蹤使用者在多步驟流程中每一步的轉換率和流失率」。每一步有多少使用者完成、多少使用者離開，構成漏斗形狀的轉換圖。可先對照 cohort analysis（按群組比較留存）和 RFM（按行為分群）。

概念位置

Funnel analysis 位在行為資料收集之後、產品決策之前。它的輸入是 event 類監控事件（使用者操作記錄），輸出是每步的轉換率。Funnel analysis 的前提是去識別化（redaction）已完成 — 分析行為資料前必須確保資料不含可識別個人的敏感欄位。

可觀察訊號與例子

產品需要 funnel analysis 的訊號是「使用者在某個流程中的完成率低於預期，但不知道卡在哪一步」。註冊流程的轉換率從填寫 email 到完成驗證只有 30%，funnel analysis 揭露 60% 的使用者在「等待驗證信」步驟流失。

設計責任

Funnel analysis 要定義步驟順序、步驟之間的時間窗口（使用者在多久內完成下一步才算轉換）、以及分群維度（按平台、來源、使用者類型拆分 funnel）。步驟定義需要和事件命名規範對齊 — funnel 的每一步對應一個具體的事件名稱。

JS/TS 平台適配

Fri, 19 Jun 2026 00:00:00 +0000

瀏覽器環境中的監控 SDK 面臨三個平台特有的限制：跨域請求被 CORS 攔截、Service Worker 可以攔截和修改請求、SPA 的路由變換不觸發頁面載入事件。每個限制需要 SDK 在設計層面做適配。

CORS 限制

瀏覽器的同源政策限制網頁向不同 origin 發送請求。SDK 的 HTTP POST 送到 collector endpoint 時，如果 collector 和網頁不在同一個 origin（protocol + domain + port 都相同），瀏覽器會先發送 preflight OPTIONS 請求確認 server 允許跨域存取。

SDK 端的適配：

使用 navigator.sendBeacon(url, data) 代替 fetch / XMLHttpRequest。sendBeacon 不受 CORS 限制（瀏覽器對 beacon 請求不做 preflight），且在頁面 unload 時仍能可靠送出 — 適合 close flush 場景。

sendBeacon 的限制：payload 大小有上限（通常 64KB），不能自訂 Content-Type header（固定為 text/plain 或 application/x-www-form-urlencoded），沒有回應 — 送出後無法知道 server 是否收到。

如果需要 fetch（例如需要讀取回應或送出大 payload），collector 端需要設定 CORS header：Access-Control-Allow-Origin、Access-Control-Allow-Methods: POST、Access-Control-Allow-Headers: Content-Type。

Service Worker 攔截

Service Worker 可以攔截頁面發出的所有 HTTP 請求（包括 SDK 的 POST 請求到 collector）。如果應用程式的 Service Worker 有 cache 策略（cache-first、network-first），SDK 的監控請求可能被快取而非送到 collector。

SDK 端的適配：

在 fetch 請求中加 cache: 'no-store' 防止 Service Worker 快取監控請求。或在請求 URL 加唯一的 query parameter（?_t=timestamp）讓每次請求的 URL 都不同，繞過 cache 比對。

如果 SDK 本身提供 Service Worker 模組（在 Service Worker 內攔截 error），需要注意 Service Worker 的生命週期和頁面不同 — Service Worker 可能在頁面關閉後仍在執行，也可能在空閒時被瀏覽器終止。

SPA 路由變換偵測

Single Page Application 的路由變換（React Router、Vue Router、Angular Router）不觸發頁面重新載入。從監控角度看，使用者在不同「頁面」之間切換，但 window.onload 只在首次載入時觸發一次。

SDK 需要偵測 SPA 路由變換來記錄 lifecycle.view.change 事件。偵測方式：

History API 攔截：monkey-patch history.pushState 和 history.replaceState，在呼叫前後記錄路由變換。同時監聽 popstate 事件處理瀏覽器的上一頁/下一頁。

MutationObserver：監聽 DOM 變化偵測頁面內容更新。但 MutationObserver 觸發頻率高，需要 debounce 並搭配 URL 變化檢查，避免把 DOM 微調誤判為路由變換。

框架特定的 hook：如果 SDK 提供框架整合套件（React / Vue / Angular plugin），可以用框架的 router 事件（useNavigate hook、router.afterEach guard）直接取得路由變換資訊，比 monkey-patch History API 更可靠。

JS/TS 的平台限制理解後，其他平台各有各的挑戰 — Flutter 平台適配處理 isolate 和 platform channel 的問題。所有平台共同面對的 timestamp 一致性問題（時區、精度、clock drift）在獨立章節中展開。SDK 的跨平台公開 API 設計見模組三 SDK 公開 API。

SDK Redaction API 設計

Fri, 19 Jun 2026 00:00:00 +0000

Redaction 是在事件資料離開 client 之前，把敏感欄位的值替換成遮罩或移除。本章聚焦 redaction 的策略面 — 哪些資訊需要保護、保護的判斷依據和適用範圍。SDK 的 API 實作細節（初始化方式、helper 函式設計、和 flush 管線的整合）見 SDK redaction helper。Redaction 在 SDK 端執行的設計原則是「敏感資料不離開 client」— 一旦資料送到 collector，即使 collector 有 access control，資料已經在網路上傳輸過，多了一層洩漏面。

預設 Redaction Rule

SDK 內建的 redaction rule 覆蓋最常見的敏感欄位模式。開發者不需要設定就能獲得基本保護。

欄位名稱比對

以下欄位名稱（不分大小寫）的值自動替換為 [REDACTED]：

password、passwd、secret、token、api_key、apiKey
authorization、auth、credential
ssn、social_security
credit_card、card_number、cvv、cvc

欄位名稱比對用 substring match — user_password 包含 password 會被 redact，password_reset_token 包含 password 和 token 也會。

值格式比對

以下格式的值無論欄位名稱為何都自動替換：

Email 地址格式（user@domain.com → u***@domain.com）
信用卡號碼格式（連續 13-19 位數字 → 保留末四碼）
Bearer token 格式（Bearer xxx → Bearer [REDACTED]）

值格式比對用正則表達式。正則的效能影響在大量事件時需要注意 — 預設 rule 的正則保持簡單，避免 catastrophic backtracking。

自訂 Pattern

應用可能有自己的 secret 格式，預設 rule 覆蓋不到。SDK 提供 API 讓開發者註冊自訂 redaction pattern。

 1monitor.addRedactionRule(
 2  name: 'internal-api-key',
 3  pattern: RegExp(r'sk_live_[a-zA-Z0-9]{24}'),
 4  replacement: '[REDACTED:api-key]',
 5)
 6
 7monitor.addRedactionRule(
 8  name: 'database-url',
 9  fieldNames: ['database_url', 'db_url', 'connection_string'],
10  replacement: '[REDACTED:db-url]',
11)

自訂 pattern 的設計考量：

Pattern 在 init 時註冊。Redaction rule 在 SDK 初始化時設定，之後所有事件都通過這些 rule。不支援動態修改 — 避免「中途加 rule 導致之前的事件沒被 redact」的困惑。

Pattern 順序無關。所有 rule 獨立執行，不依賴順序。一個欄位可以匹配多個 rule，以第一個匹配的 replacement 為準。

Replacement 可以保留部分資訊。[REDACTED] 完全遮蔽，[REDACTED:api-key] 保留類型資訊，u***@domain.com 保留結構。保留類型資訊對 debug 有幫助 — 看到 [REDACTED:api-key] 至少知道這裡原本有一個 API key。

Redaction 的適用範圍

Redaction 應用在 SDK 送出事件前的最後一步 — 在序列化（JSON encode）之前。適用範圍包括：

Event 的 data 欄位（自由欄位，開發者可能放入任何內容）
Error 的 stack trace（檔案路徑可能包含使用者名稱或部署路徑）
Error 的 message（例外訊息可能包含 query string 或參數值）
Lifecycle 的 metadata（連線 URL 可能包含認證資訊）

Redaction 不應用在 SDK 的內部欄位（timestamp、event type、session ID）— 這些是 SDK 自己產生的，不包含使用者資料。

下一步路由

資料離開 client 後的保護 → Transport 安全
去識別化策略 → 去識別化策略
IME 個人化學習的 secret 洩漏風險 → ux-design 模組三 IME 安全 checklist

SDK 公開 API 設計

Fri, 19 Jun 2026 00:00:00 +0000

SDK 的公開 API 是應用程式和監控系統之間的契約。六個方法涵蓋 SDK 的完整生命週期：初始化、四類事件上報、資料送出控制和資源釋放。跨平台的 SDK（JS / Flutter / Python）共用相同的方法簽名，讓開發者在不同平台上使用一致的 API。

六個方法

init

SDK 初始化。設定 collector endpoint、app 識別資訊、flush 間隔、buffer 大小。在 app 啟動時呼叫一次。

1Monitor.init({
2  endpoint: 'https://collector.example.com/v1/events',
3  app: 'my_app',
4  version: '1.2.0',
5  flushInterval: 30000,   // 毫秒
6  bufferSize: 100,
7})

init 負責建立 session、記錄 lifecycle.session.start 事件、啟動 flush 計時器。init 之前呼叫其他方法應該拋出明確錯誤（SDK 未初始化），而非靜默忽略。

連線驗證策略：lazy。init 不驗證 collector 是否可達 — 不發 HTTP 請求、不 ping endpoint。init 的失敗只代表配置錯誤（缺少 endpoint 參數），不代表網路問題。網路問題在第一次 flush 時才浮現，flush 失敗時事件保留在 buffer 等待重試。

Lazy 策略的理由：SDK 不應阻塞主程式的啟動流程。如果 init 驗證連線，collector 暫時不可用時 app 會啟動失敗 — 監控工具反而變成可用性的瓶頸。短生命週期腳本（Python 平台適配：短生命週期腳本）對這一點更敏感 — hook 腳本不能因為 collector 沒啟動就拒絕執行。

event

記錄使用者操作事件（四類事件中的 Event 類）。接受事件名稱和可選的 data 物件。

1Monitor.event('terminal.connect.start', { url: 'wss://...' })
2Monitor.event('enrollment.qr.scan')

event 方法是非阻塞的 — 事件進入內部 buffer 立即返回，不等待網路送出。應用程式的操作流程不應該被監控 SDK 的網路延遲阻塞。

error

記錄錯誤事件。接受 Error/Exception 物件或自訂的錯誤描述。自動附加 stack trace、錯誤類型、觸發位置。

1Monitor.error(exception, { step: 'ws_connect' })
2Monitor.error('Auth token missing', { context: 'handshake' })

error 方法和自動攔截機制（自動攔截）互補 — 自動攔截處理未捕獲的例外，error 方法處理開發者主動上報的已知錯誤。

metric

記錄數值指標。接受指標名稱和數值。

1Monitor.metric('connect.duration_ms', 320)
2Monitor.metric('terminal.fps', 58.5)

metric 方法記錄的是離散的數值快照。聚合計算（平均、百分位、趨勢）在 collector 端完成，SDK 端只負責記錄原始值。

flush

強制送出 buffer 中所有待發事件。正常情況下 SDK 按 flushInterval 定期自動 flush（攢批送出）。flush 方法用於需要確保事件已送出的場景 — 例如 app 即將進入背景或使用者手動觸發 log 上傳。

1await Monitor.flush()

flush 是非同步方法 — 需要等待網路請求完成。呼叫端可以 await 確認送出成功，也可以 fire-and-forget。

close

SDK 資源釋放。停止 flush 計時器、送出 buffer 中剩餘事件、關閉網路連線、記錄 lifecycle.session.end 事件。

1await Monitor.close()

close 在 app 關閉時呼叫。呼叫後 SDK 進入已關閉狀態，後續的 event/error/metric 呼叫應該被靜默忽略（不拋錯，因為 app 正在關閉）。

API 設計原則

方法名稱和四類事件對齊。event / error / metric 三個方法直接對應三類事件，lifecycle 事件由 init 和 close 自動產生。開發者看到方法名稱就知道對應哪類事件。

所有上報方法非阻塞。event、error、metric 進 buffer 立即返回。監控 SDK 阻塞應用程式的操作流程是反模式。

init 和 close 成對出現。init 開始 session，close 結束 session。兩者界定 SDK 的活躍期間。

各平台的 SDK 整合範例（Flutter 的 pubspec.yaml + main.dart init、Python 的 pip install + init code、JS 的 script tag + init）見 monitor repo 各 SDK 的 README。

下一步路由

自動攔截未捕獲的錯誤 → 自動攔截機制
Buffer 和 flush 的策略 → 攢批送出策略
SDK 端的資料脫敏 → SDK redaction helper
SDK 的 HTTP POST 行為需要 protocol test → testing 模組三協議整合測試

四類事件的完整定義

Fri, 19 Jun 2026 00:00:00 +0000

監控資料由四類事件構成。每類事件回答不同的問題，觸發時機不同，消費方式不同。分類的目的是讓「我要收集什麼」有結構化的答案，而非在每個功能上各自決定要不要加 log。

Event：使用者做了什麼

Event 記錄使用者主動發起的操作。按鈕點擊、頁面瀏覽、表單提交、搜尋查詢 — 每個 event 代表使用者的一個意圖表達。

Event 的觸發時機是使用者操作發生時。程式碼中的位置通常是 UI 事件處理器（onClick、onSubmit、onNavigate）。

Event 的消費方式：

Debug context：問題發生前使用者做了哪些操作。和 error 事件搭配使用，還原問題的操作路徑。
行為分析：使用者做了哪些操作、操作順序是什麼、在哪一步停止。Funnel analysis 的原料（模組八）。
功能使用率：哪些功能被頻繁使用、哪些很少被觸發。功能優先順序的決策依據。

Error：什麼出了問題

Error 記錄程式碼執行中的非預期狀態。例外拋出、assertion 失敗、非預期的 API 回應、資源存取失敗。

Error 的觸發時機是非預期狀態被偵測到時。來源包括：語言層級的 try/catch 捕獲、框架的全域錯誤處理器（Flutter 的 FlutterError.onError、JavaScript 的 window.onerror）、自訂的錯誤檢查邏輯。

Error 的消費方式：

即時告警：特定類型的 error 或 error 數量超過閾值時通知開發者。
趨勢分析：error 數量隨時間的變化。新版本部署後 error 是否增加。
根因分析：error 的 stack trace、觸發條件、影響範圍。和 event 搭配還原「使用者做了什麼導致 error」。

Metric：系統狀態的數值快照

Metric 記錄系統狀態的可量化指標。回應時間、記憶體使用量、佇列長度、連線數、frame rate。

Metric 的觸發時機是定期取樣或特定事件發生時。定期取樣適合持續變化的指標（記憶體使用量每 30 秒取一次），事件觸發適合離散的測量（每次 API 回應記錄回應時間）。

Metric 的消費方式：

效能監控：回應時間的 P50 / P95 / P99 分佈。記憶體使用量的趨勢。
容量規劃：佇列長度接近上限、連線數接近 pool 上限 — 需要擴容的訊號。
SLA 追蹤：服務可用性、回應時間是否在承諾範圍內。

Lifecycle：系統經歷了什麼階段

Lifecycle 記錄系統本身的狀態轉換。App 啟動、前景/背景切換、連線建立/斷開、版本更新、設定變更。

Lifecycle 的觸發時機是系統狀態轉換發生時。來源包括：app 生命週期回呼（onCreate、onResume、onPause）、連線狀態變化事件、部署和設定變更鉤子。

Lifecycle 的消費方式：

Session 分析：使用者一次使用多久、啟動頻率、前後景切換頻率。
環境資訊：Error 發生時的系統狀態（app 版本、OS 版本、網路狀態）。
連線品質：連線建立成功率、斷線頻率、重連次數（testing 模組二三層 log）。

四類事件的區別

維度	Event	Error	Metric	Lifecycle
觸發者	使用者操作	系統非預期狀態	定期取樣或事件觸發	系統狀態轉換
回答	使用者做了什麼	什麼出了問題	系統現在怎麼樣	系統經歷了什麼
頻率	依使用者行為	低（理想狀態）	固定間隔或事件驅動	低（狀態轉換才有）
消費	行為分析、funnel	告警、根因分析	效能監控、容量規劃	session、環境資訊

下一步路由

事件命名規範 → 事件命名規範
從需求推導收集策略 → 從需求推導「該收集哪些事件」
Event 類事件在商業分析中的用途 → 模組八行為資料的商業利用
Log 點的設計方法 → testing 模組二客戶端可觀測性

自架 vs 商業的判斷決策表

Fri, 19 Jun 2026 00:00:00 +0000

自架監控和商業方案之間的選擇取決於四個維度的組合。每個維度有明確的閾值 — 超過閾值時自架的成本開始高於商業方案的訂閱費。

四個判斷維度

使用者數

自架方案的成本和使用者數幾乎無關（JSONL + grep 處理 1 個和 100 個使用者的成本差異很小）。商業方案按事件量或使用者數計費，使用者數增長直接推高費用。

經驗估算：使用者數在百人以下時，自架的總成本（開發 + 維護 + 硬體）通常低於商業方案的年費（以典型商業方案年費 $300-$600 和自架的開發維護時間估算）。使用者數在千人以上時，自架需要投入的基礎設施維護（高可用、擴容、備份）成本上升，商業方案的規模經濟開始有優勢。具體的交叉點取決於選用的 vendor 定價（Sentry Developer plan 免費額度 5000 events/月、PostHog 免費到 1M events/月）和自架的維護時間成本。

兩者之間是灰色地帶 — 取決於功能需求和團隊能力。

網路範圍

使用者和 collector 是否在同一個網路內。

同一網路（自用工具、內部工具）：自架方案直接 HTTP POST 到本機或內網 endpoint，不需要 DNS、TLS 憑證、CDN。成本極低。

外部網路（公開 app、SaaS）：自架方案需要處理公網暴露、DDoS 防護、TLS 憑證管理、高可用（多區域部署）。商業方案把這些基礎設施問題內化了。

功能需求

自架方案的功能上限是開發者願意投入的工程量。grep + jq 能做基礎查詢和 funnel 分析（模組八自架 funnel）。Dashboard、告警、session replay、A/B test 分群每個功能都是數週到數月的開發量。

商業方案的功能開箱即用。如果需求包含 session replay、A/B test dashboard、自動 issue 分群，商業方案的功能完成度遠高於自架。

合規要求

資料必須存放在特定地區（GDPR data residency）或不能離開公司網路（金融、醫療）。

自架：資料完全在自己的基礎設施上，資料位置由自己控制。適合最嚴格的合規要求。

商業方案：資料存放在 vendor 的基礎設施上。部分 vendor 提供 data residency 選項（Sentry 的 EU hosting、Datadog 的 EU region），但仍然是第三方持有資料。

決策表

維度	自架有利	商業方案有利
使用者數	< 100	> 1000
網路範圍	同一網路	外部網路
功能需求	查詢 + 基礎分析	Dashboard + 告警 + replay
合規要求	資料不能離開自有設施	無特殊限制

四個維度中三個以上指向同一方向 → 選那個方向。兩兩對半 → 從自架開始（成本低、可逆），需求增長後再評估切換。

決策表指向商業方案後，Sentry 深入和 Firebase 套件分別展開兩個主流方案的架構和能力邊界。決策表指向自架時，模組四 Collector 設計提供從 HTTP endpoint 到 rule engine 的完整實作藍圖。Server-side 的可觀測性（OTLP、Prometheus、Grafana）見 Backend 模組四可觀測性。

中間路線

上表是「完全自架 vs 專業監控 SaaS」的兩端。中間還有兩條路徑 — 用 BaaS（Supabase + Vercel）搭出託管版 collector，或用 PaaS（Railway / Fly.io）跑自架 collector 原始碼但不管 server。APP 上線初期用免費方案零成本起步、保留自訂 schema 彈性是常見的起步策略。完整的四條路徑比較、架構差異、免費方案限額和遷移路線見部署光譜。

行為事件設計

Fri, 19 Jun 2026 00:00:00 +0000

行為事件是使用者操作的結構化記錄，每一筆事件回答「誰、在什麼時候、做了什麼、結果如何」。行為分析的品質上限由事件設計決定 — 事件粒度太粗無法回答細節問題，事件粒度太細讓儲存和查詢成本失控。

事件命名

行為事件的命名遵循 namespace.action 格式（模組一事件命名規範）。行為分析場景對命名的額外要求是：同一個 funnel 內的事件要能用 namespace 前綴篩選。

例：註冊流程的事件用共同前綴 signup：

1signup.page.view 使用者看到註冊頁
2signup.form.submit 使用者送出表單
3signup.email.verify 使用者點擊驗證信連結
4signup.complete 註冊完成

用 signup.* 就能篩選出整個註冊流程的事件，不需要事先知道每一步的完整名稱。

屬性設計

每個事件除了名稱，還帶有屬性（properties / parameters）描述事件的 context。屬性分成三層：

通用屬性（每個事件都有）

timestamp：事件發生的時間（UTC，毫秒精度）
session_id：當次使用的 session 識別碼
user_id：使用者識別碼（去識別化後，見模組七）
platform：iOS / Android / Web
app_version：app 版本號

事件類型屬性（同類事件共有）

頁面瀏覽事件：page_name、referrer
按鈕點擊事件：button_id、button_text
搜尋事件：query、result_count

事件專屬屬性（特定事件才有）

signup.form.submit：form_method（email / Google / Apple）
purchase.complete：amount、currency、product_id

屬性設計的判斷標準是：這個屬性是否用於回答一個分析問題。「註冊方式的轉換率差異」需要 form_method 屬性；如果沒有這個分析問題，就不需要這個屬性。

Funnel 定義

Funnel 是一連串有順序的事件，代表使用者完成一個目標的步驟。Funnel 定義在事件設計階段完成 — 決定哪些事件構成一個 funnel、順序是什麼、每步之間的最大時間間隔。

定義一個 funnel 需要：

步驟清單：funnel 包含哪些事件，順序是什麼。

時間窗口：步驟之間的最大間隔。使用者在步驟 A 之後 30 天才做步驟 B，是否算在同一個 funnel 內？時間窗口的設定取決於業務場景 — 電商結帳 funnel 通常是 30 分鐘，SaaS onboarding funnel 可能是 7 天。

完成條件：什麼算「完成」funnel。到達最後一步即完成，還是需要特定屬性值（purchase.complete 且 status = success）。

過度收集的成本

行為事件收集的邊界是「能回答已知的分析問題」。收集超出分析需求的事件有三個成本：

儲存成本：每個事件佔一行 JSONL。高頻事件（每次滾動、每次 hover）的資料量遠大於低頻事件（按鈕點擊、頁面瀏覽）。

隱私風險：收集的事件越多，包含可識別個人行為模式的風險越高（模組七資安與隱私）。

噪音：分析時需要從大量事件中篩選出有意義的模式。事件越多，訊噪比越低。

設計好的行為事件直接成為 Funnel analysis 的輸入 — funnel 的每一步對應一個行為事件。行為事件在四類事件分類中屬於 Event 類，完整的分類定義見模組一四類事件定義。收集行為事件前必須完成去識別化 — 使用者行為模式本身就是可識別資訊。

模組一：監控心智模型

Fri, 19 Jun 2026 00:00:00 +0000

回答「要收集什麼、為什麼」。四類事件分類是整個監控體系的統一語言。

待寫章節

四類事件的完整定義（event / error / metric / lifecycle）
事件命名規範（namespace.action 格式）
商業方案的事件類型對應（Sentry / Crashlytics / GA4 / Datadog RUM）
從需求推導「該收集哪些事件」的方法

跨分類引用

→ testing 模組二客戶端可觀測性：本模組教分類，testing 教設計 log 點
→ monitoring 模組八商業利用：event 類是行為分析的原料
→ backend 04 可觀測性：server-side 用 OTLP，本系列用 HTTP POST JSON

Refusal Rate

Tue, 12 May 2026 00:00:00 +0000

Refusal rate 的核心概念是「LLM 拒絕回答 prompt 的比例」。LLM 在訓練階段（特別是 RLHF）會學到「對特定類型的請求說『我不能幫忙這個』」、production 服務通常會監控這個比例作為對齊強度跟異常行為偵測的訊號之一。

概念位置

Refusal 行為的典型形態：

形態	例子
安全相關拒絕	“Sorry, I can’t help with that request.”
政策相關拒絕	“I’m not able to discuss specific medical advice.”
能力相關拒絕	“I don’t have real-time data access.”
模糊拒絕（soft refusal）	“That’s an interesting question, but…”

Refusal rate 作為偵測訊號的兩個方向：

率突然下降：可能是對齊被繞過、prompt injection 攻擊在進行、或新版本模型對齊變弱。
率突然上升：可能是訓練資料或對齊政策變嚴、影響使用者體驗、或 vendor 端政策調整。

實作上、偵測 refusal 通常用簡單 pattern matching（看是否含 “I can’t” / “I’m not able” / “Sorry” 等）或更精確的 classifier；具體實作依偵測平台設計。

事實查核註：refusal rate 的標準化測量方式、跟「對齊強度」的對應關係仍在研究演進、不同 vendor 跟 model 的 baseline 差異大、引用前以對應模型的 model card 跟最新研究為準。

設計責任

理解 refusal rate 後可以解釋兩個現象：為什麼 production LLM 服務監控 refusal rate（變化是異常訊號）、為什麼開源模型的 refusal rate 通常低於商業旗艦（前者 safety RLHF 投入較少）。

production 設計時、refusal rate 是 content 層偵測訊號之一、需配合 tool call 序列、token usage、prompt pattern 等其他訊號才能形成完整偵測覆蓋。詳見 LLM Service 偵測訊號覆蓋。

部署光譜：從 BaaS 到自架的四條路徑

Wed, 24 Jun 2026 00:00:00 +0000

監控方案的選擇不是「完全自架 Go collector」和「買 Sentry 訂閱」的二元決策。中間存在兩條路徑 — 用 BaaS（Supabase / Firebase）搭出託管版 collector，或用 PaaS（Railway / Fly.io）跑自架 collector 原始碼但不管 server。四條路徑的本質差異在「哪些層自己管、哪些交給平台」。

自架 vs 商業的判斷決策表用四個維度（使用者數 / 網路範圍 / 功能需求 / 合規）做二元分流。本章把光譜展開成四條路徑，讓中間的 BaaS 和 PaaS 選項浮現。Backend 選型模組已建立了完整的交付形態光譜（交付形態選型）和逐能力判斷外包深度的框架（能力級買 vs 建）。本章把那個框架特化到監控場景。

四條路徑

路徑	代表方案	Collector 是什麼	Storage 是什麼	自己管什麼	平台管什麼
A. 商業監控 SaaS	Sentry / Datadog / Firebase Analytics	vendor 提供	vendor 提供	SDK 埋點	全部
B. BaaS + Serverless	Supabase + Vercel / Cloudflare Workers	serverless function（自己寫）	managed PostgreSQL（Supabase）	collector 邏輯、schema	server 維運、DB 維運、TLS、HA
C. PaaS	Railway / Fly.io / Render	Go binary（自架 collector 原始碼）	SQLite（同 binary）或 managed DB	collector 邏輯、storage	server 維運、TLS、deploy
D. 完全自架	VPS + Go binary	Go binary	SQLite 或自管 PostgreSQL	全部	無

路徑 A 和 D 分別是光譜的兩端 — Sentry 深入、Firebase 套件和模組四 Collector 設計已完整討論。以下展開路徑 B 和 C。

路徑 B：BaaS + Serverless

APP 上線初期用 Supabase + Vercel（或 Cloudflare Workers）搭監控後端：serverless function 接收 SDK 送來的事件、驗證 schema 後寫入 Supabase 的 PostgreSQL。整條鏈路在免費方案額度內可以零成本運作。

架構差異

Serverless function 沒有常駐 process。模組四假設的 Go single binary 架構 — channel 背壓、single-writer goroutine pattern、in-memory buffer — 在 serverless 環境都不適用。每個 HTTP request 是獨立的 function invocation，沒有跨 request 的記憶體狀態。

背壓機制需要重新設計：Go collector 用 channel 容量做背壓（channel 滿回 429），serverless 版改用 DB-level 的 rate limit（PostgreSQL 的 advisory lock 或外部 rate limiter 如 Upstash Redis）或 platform-level 的 quota（Vercel 的 concurrency limit）。SDK 端的 429 處理邏輯不需要改 — 不管背壓訊號來自 channel 還是 DB quota，SDK 都是收到 429 後降採樣。

Downsample 和 purge 在 Go collector 是 background goroutine 定期執行。Serverless 沒有 background job — 需要外部 cron trigger（Vercel Cron / Supabase pg_cron / GitHub Actions scheduled workflow）。

免費方案限額

以下為 2026-06 查詢的各平台免費方案限額。平台定價會變動，決策前以官方定價頁為準。

平台	免費方案限額	對監控場景的意義
Supabase Free	500MB DB、50K MAU、500K Edge Function invocations/月	500MB 約 50-100 萬筆事件（每筆 ~500 bytes）、自用場景可用數月
Vercel Hobby	100GB bandwidth、10s function timeout、無明確 invocation 上限	瓶頸在 bandwidth 和 execution duration、非 invocation 數；timeout 對 ingestion 足夠
Cloudflare Workers	100K requests/天（免費）、D1 5GB	100K requests/天 x 100 筆/batch = 10M events/天、D1 的 SQLite 可替代 Supabase

Audit date: 2026-06。平台免費方案限額可能調整，決策前以官方定價頁為準。

適合情境

路徑 B 適合以下組合：APP 上線初期（使用者數 < 100）、團隊熟悉前端和 SQL 但不想管 server、想保留自訂 schema 和查詢彈性（商業 SaaS 的 schema 是 vendor 定義的）、零成本起步但未來可能遷到自架。

撞牆訊號

以下訊號出現時，代表路徑 B 的天花板已到、該評估遷到路徑 C 或 D：

連線數瓶頸：Supabase Free 的 PostgreSQL 約 20 個 concurrent connection。Serverless function 每次 invocation 開新連線，高併發時可能耗盡連線池。Supabase 內建 PgBouncer 做 connection pooling 可緩解，但免費方案的 pooler 有自己的連線上限。

Cold start 延遲：Vercel serverless function 的 cold start 約 200ms、Supabase Edge Function 約 100ms。對監控 ingestion（不是使用者面向 API）通常可接受，但如果 SDK 的 flush timeout 設得很短（< 1s），cold start 可能造成偶發超時。

Background job 限制：Downsample 和 purge 需要外部 cron。Vercel Hobby 支援最多 2 個 cron job、每個最頻繁每天觸發 1 次 — 如果需要每小時 downsample，要用 Supabase pg_cron（Free 方案支援）或外部 scheduler。

免費額度耗盡：Supabase 的 500K Edge Function invocations/月 ≈ 每天 16K requests。如果每個 request 攢批 100 筆事件，可處理每天 160 萬筆事件。超過後進入按量付費。Vercel Hobby 無明確 invocation 上限、瓶頸在 bandwidth（100GB/月）和 execution duration。

合規限制：Supabase Free 的 PostgreSQL 部署在特定 region。有 GDPR data residency 需求的 app（歐盟使用者的資料必須留在 EU）需確認 vendor 的 region 支援 — 免費方案的 region 選擇可能有限。

路徑 C：PaaS

PaaS 跑的是和完全自架相同的 Go collector 原始碼，差異只在部署方式。git push 觸發自動 build 和 deploy，平台管 server provisioning、TLS 憑證、process supervision。Collector 的 channel 背壓、single-writer pattern、SQLite storage 全部適用 — 和本機開發環境的行為一致。

Railway 和 Fly.io 都支援 persistent volume — Railway Hobby 含 1GB、Fly.io Free 含 1GB（限單 region）。SQLite 的 WAL 檔案需要持久化，persistent volume 是必要條件。Render 的免費方案沒有 persistent disk — SQLite 在每次 deploy 後重置，不適合需要保留歷史事件的場景。PaaS 平台以 container 形式運行 collector，SQLite 在 container 中的 I/O 和持久化考量見 Container 部署設計。

路徑 C 適合：想用自架 collector 但不想管 server / TLS / systemd 的團隊。程式碼完全相同，遷到自架（路徑 D）的成本接近零 — 把 binary 複製到 VPS、設定 systemd service 就完成。

路徑 C 的天花板在平台定價 — Railway Hobby 有 $5/月的資源上限、Fly.io Free 有 3 個 shared VM。流量成長到免費額度不夠時，PaaS 的按量付費和 VPS 月租費的交叉點是遷到自架的判讀訊號。

路徑間的遷移

遷移成本取決於起點和終點之間有多少層需要重寫。

遷移方向	成本	主要工作
B → C	中	Serverless function → Go binary（重寫 collector 邏輯）；DB 可保留或遷移
B → D	中	同上 + 自己管 server
C → D	低	同程式碼不同部署（複製 binary + systemd）
D → C	低	同程式碼推到 PaaS
D → A	低	SDK 改 endpoint 指向商業方案、不改 SDK 程式碼
A → D	高	從零建 collector + storage + dashboard
A → B	高	從零寫 serverless collector + 設定 managed DB
A → C	高	從零寫 Go collector + 推到 PaaS

路徑 B → C 或 B → D 的遷移代價主要在 collector 邏輯的重寫 — serverless function 的 request-level 處理和 Go binary 的 channel-based pipeline 是不同的架構，不能直接搬。資料層的遷移代價較低 — Supabase 的 PostgreSQL 資料可以用 pg_dump 匯出、匯入自管 PostgreSQL。

交付形態遷出的通用框架（資產線盤點、並行期設計、回切窗口）見託管形態遷出。

外包深度對照

用外包深度的三層框架（managed 基礎設施 / feature SaaS / BaaS bundle）看四條路徑：

路徑	外包深度	控制權	遷出代價
A. 商業監控 SaaS	feature SaaS（最深）	SDK 埋點 API、vendor 定義 schema 和查詢	高
B. BaaS + Serverless	managed 基礎設施 + 自寫 function（中間）	自訂 schema、自訂查詢、自訂 collector 邏輯	中
C. PaaS	managed 基礎設施（淺）	和自架相同、只有部署平台交出去	低
D. 完全自架	不外包	完全控制	無

路徑 B 在外包深度上介於 managed 基礎設施和 BaaS bundle 之間 — DB 和 runtime 交給平台，但 collector 邏輯和 schema 仍由開發者控制。這和 BaaS 的「前端 SDK 直連平台資料庫」模式不同 — 監控場景的路徑 B 仍然有一個自己寫的中間層（serverless function），只是這個中間層跑在平台上而非自己的 server。

選擇建議

情境	建議路徑	理由
自用工具、同機或同網段	D	成本最低、複雜度最低
APP 上線初期、使用者 < 100、零成本起步	B 或 A	B 保留自訂彈性、A 開箱即用
小型團隊、想用自架 collector 但不想管 server	C	程式碼相同、部署簡單、遷出成本低
使用者 > 1000、需要 dashboard + 告警 + replay	A	商業方案的功能完成度遠高於自建
合規要求資料不離開自有設施	D	完全控制資料位置

APP 上線初期選 B 或 A 取決於自訂需求 — 需要自訂 schema 和查詢邏輯（例如自定義 error fingerprint、行為事件命名規範）選 B，只需要開箱即用的 error tracking 或行為分析選 A。B 保留遷到自架的彈性（資料在自己的 PostgreSQL），A 的功能完成度更高（dashboard、告警、session replay 開箱即用）。

下一步路由

自架 vs 商業的詳細決策 → 自架 vs 商業的判斷決策表
自架 collector 的完整設計 → 模組四 Collector 設計
Backend 交付形態光譜 → 交付形態選型
能力級買 vs 建判斷 → 能力級買 vs 建
外包深度概念 → 外包深度
BaaS 概念 → BaaS
遷出劇本 → 託管形態遷出
Vendor lock-in 概念 → Vendor Lock-In

Flutter 平台適配

Fri, 19 Jun 2026 00:00:00 +0000

Flutter 應用程式在 Dart VM 中執行，有自己的執行緒模型（Isolate）、原生平台橋接（Platform channel）和 app 生命週期管理。監控 SDK 在 Flutter 中需要處理的平台特殊問題集中在這三個面向。

Isolate 安全

Dart 的 Isolate 是獨立的記憶體空間，Isolate 之間不共享記憶體，只能透過 message passing 溝通。SDK 的記憶體 buffer 存在於 main isolate 中，其他 isolate 產生的事件需要透過 port 傳送到 main isolate 才能進入 buffer。

SDK 端的適配：

提供 Monitor.eventFromIsolate(SendPort port) 方法，在子 isolate 中透過 port 把事件送回 main isolate。或者提供 isolate-aware 的 Monitor.init() 變體，在子 isolate 中初始化一個輕量的 event forwarder。

如果 SDK 使用 compute 或 Isolate.spawn 做背景任務（例如壓縮 buffer），需要透過 port 把結果送回 main isolate — 背景 isolate 無法直接存取 main isolate 的 HTTP client 或 buffer。

Platform channel 攔截

Flutter 透過 Platform channel 呼叫原生平台功能（iOS 的 Swift/ObjC、Android 的 Kotlin/Java）。Platform channel 的呼叫可能失敗（原生端未實作、參數格式錯誤、原生端拋出例外），這些錯誤在 Dart 端表現為 PlatformException。

SDK 可以攔截 Platform channel 的呼叫記錄每次呼叫的方法名稱、參數、結果和耗時。攔截方式是替換 ServicesBinding.defaultBinaryMessenger 的處理器，在轉發前後記錄事件。

攔截的價值是：Platform channel 的錯誤通常難以 debug（stack trace 跨越 Dart 和原生兩層），監控記錄提供「呼叫了哪個 channel method、傳了什麼參數、在哪一層失敗」的完整 context。

注意：攔截 Platform channel 會增加每次呼叫的延遲（記錄事件的開銷）。對高頻的 Platform channel 呼叫（例如每幀都呼叫的渲染相關 channel），攔截可能影響效能。SDK 應該提供 channel 過濾機制 — 只攔截特定 channel 或只在 debug mode 攔截。

App lifecycle 事件

Flutter 的 WidgetsBindingObserver 提供 app 生命週期回呼：

didChangeAppLifecycleState(AppLifecycleState state) — app 在 resumed（前景）、inactive（部分可見）、paused（背景）、detached（即將關閉）之間切換。

SDK 在 init 時註冊 observer，記錄每次狀態轉換為 lifecycle 事件。

lifecycle 事件在 flush 策略中有特殊意義：

paused（進入背景）：觸發 flush — 把 buffer 中的事件送出，因為 app 在背景可能被系統殺掉，buffer 中的事件會遺失。iOS 在 app 進入背景後約 5 秒 suspend，flush 必須在這個時間窗口內完成。

resumed（回到前景）：檢查上次 flush 是否成功。如果 paused 時的 flush 失敗（網路超時），在 resumed 時重試。

detached（即將關閉）：呼叫 Monitor.close() 做最後一次 flush 和資源釋放。detached 的時間窗口更短，close flush 可能被截斷。

下一步路由

Python 平台的適配 → Python 平台適配
跨平台 timestamp 一致性 → 跨平台 timestamp 一致性
自動攔截機制 → 模組三自動攔截

Funnel Analysis

Fri, 19 Jun 2026 00:00:00 +0000

Funnel analysis 計算使用者在一連串步驟中每一步的轉換率，回答「使用者在哪一步離開」。流失最嚴重的步驟是優化投資報酬率最高的位置 — 修一個步驟的流失比優化所有步驟的體驗更有效。

基本計算

Funnel 的每一步有兩個數字：進入人數和完成人數。轉換率 = 完成人數 / 進入人數。

以四步註冊 funnel 為例：

步驟	進入人數	完成人數	轉換率
看到註冊頁	1000	1000	100%
填寫表單	1000	620	62%
送出表單	620	580	93.5%
完成 email 驗證	580	310	53.4%

整體轉換率 = 310 / 1000 = 31%。但更有價值的資訊在每步的轉換率：步驟 2（填寫表單）流失 38%，步驟 4（email 驗證）流失 46.6%。這兩步是優化的優先目標。

流失原因的區分

Funnel analysis 指出「哪一步流失」，但不直接回答「為什麼流失」。流失原因需要結合其他資料推斷。

設計問題導致的流失

使用者看到表單但沒填寫（步驟 2 流失 38%）。可能原因：表單欄位太多、要求的資訊太敏感（信用卡號在註冊階段）、表單 UI 在特定裝置上有問題。

判斷方式：按平台、裝置、螢幕尺寸細分轉換率。如果 iOS 轉換率 70% 但 Android 只有 45%，可能是 Android 的表單 UI 有問題。

技術問題導致的流失

使用者送出表單但 email 驗證沒完成（步驟 4 流失 46.6%）。可能原因：驗證信被歸到垃圾郵件、驗證連結過期太快、驗證頁面載入失敗。

判斷方式：結合 error 事件。如果步驟 4 有大量 signup.email.verify.failed error，是技術問題；如果沒有 error 但流失高，使用者可能沒收到信或沒看到信。

意圖問題導致的流失

使用者到了註冊頁但根本沒打算註冊 — 只是瀏覽。這類流失不是問題，是正常的使用者行為。

判斷方式：看使用者在流失步驟停留的時間。停留 < 3 秒就離開，可能是誤點或沒有註冊意圖；停留 > 30 秒但沒完成，可能是遇到障礙。

Funnel 的時間窗口

同一個使用者在步驟 A 和步驟 B 之間隔了多久，仍算在同一個 funnel 內？時間窗口的設定影響 funnel 的計算結果。

窗口太短：使用者中途離開稍後回來完成，被計為流失。Funnel 的流失率被高估。

窗口太長：使用者今天瀏覽、一個月後被廣告重新帶回來完成，兩次獨立的意圖被合併成一個 funnel。轉換率被高估。

合理的窗口依業務場景而定：電商結帳 funnel 用 30 分鐘到 1 小時，SaaS onboarding 用 7 天，B2B 銷售漏斗用 30-90 天。

畫面狀態矩陣和 funnel 的關係

畫面狀態矩陣（ux-design 模組一）描述每個畫面的狀態和轉換。Funnel 描述使用者跨畫面的操作路徑。兩者的對應是：funnel 的每一步通常對應一個畫面狀態的進入事件。

狀態矩陣中的退出路徑（back 按鈕、取消操作）就是 funnel 的流失點。狀態矩陣的退出路徑為空 = UX 死胡同，funnel 分析中表現為「使用者進入後既沒完成也沒退出 — session 中斷」。

下一步路由

不同使用者群體的行為差異 → Cohort analysis
行為事件的設計 → 行為事件設計
自架方案做 funnel → 從 collector 資料做基礎 funnel 分析

JSONL 匯出與備份格式

Fri, 19 Jun 2026 00:00:00 +0000

Collector 的 day-one 主要儲存是 SQLite（見規模演進）。JSONL（JSON Lines）保留作為匯出和備份格式 — 人類可讀、grep 友好、SQLite 資料庫損壞時可以從 JSONL 重建。Collector 提供 monitor export --format=jsonl 指令匯出事件，也可以設定同步寫入 JSONL 作為即時備份。

JSONL 的格式是每行一個 JSON 物件。作為匯出格式，核心優勢是工具鏈成熟 — grep 過濾、jq 結構化查詢、tail -f 即時監控，不需要 database client。

一天一檔

事件按日期分檔：events-2026-06-19.jsonl、events-2026-06-20.jsonl。每天零點（或 UTC 日期變更時）切換到新檔案。

一天一檔的好處：

時間範圍查詢直接對應到檔案。查「昨天的 error」只需要讀一個檔案，不需要掃描整個資料集。

保留策略按檔案操作。保留 30 天的資料 = 刪除 30 天前的檔案。不需要 database 的 TTL 機制或 partition pruning。

備份和搬移按檔案操作。rsync 一個目錄就完成備份；搬移特定日期的資料 = 搬移對應檔案。

一天一檔的風險是單日資料量過大時，單一檔案的 grep 查詢會變慢。自用工具場景下，單日事件量通常在數千到數萬筆，檔案大小在 MB 級，grep 查詢在秒級完成。當單日事件量超過百萬筆時，需要考慮演進到更適合的儲存方案（見規模演進）。

Append-only 寫入

JSONL 的寫入模式是 append-only — 新事件追加到檔案尾端，已寫入的事件不修改。

Append-only 的操作特性：

寫入不需要鎖。os.OpenFile 用 O_APPEND flag 開啟，OS 保證每次 write 是 atomic 的（在 write size 不超過 PIPE_BUF 的前提下，Linux 上是 4096 bytes）。單一事件的 JSON 通常在這個限制內。

不會損壞既有資料。寫入失敗（磁碟滿、程序崩潰）最多造成最後一行不完整，不影響前面的行。恢復時刪除最後一行的不完整片段即可。

支援 tail -f 即時監控。tail -f events-2026-06-19.jsonl | jq . 即時顯示新寫入的事件，不需要額外的 streaming 機制。

Gzip 壓縮

歷史檔案（非當天的）用 gzip 壓縮。JSON 文字的壓縮率通常在 80-90%（10MB 壓縮到 1-2MB）。

壓縮策略：

當天的檔案不壓縮。保持 append-only 和 tail -f 的能力。

日期切換時壓縮前一天的檔案。用 cron job 或 collector 啟動時檢查，把 events-2026-06-18.jsonl 壓縮為 events-2026-06-18.jsonl.gz。

查詢壓縮檔用 zgrep / zcat。zgrep "error" events-2026-06-18.jsonl.gz 不需要先解壓。

JSONL 備份的保留

JSONL 備份檔的保留策略和 SQLite 主要儲存的分層保留獨立 — JSONL 是最後的重建來源，保留期限可以比 SQLite 中的原始事件更長。

典型配置：JSONL 備份保留 30 天（即使 SQLite 中的原始事件只保留 7 天），提供 SQLite 損壞時的 30 天重建窗口。超過 30 天的 JSONL 壓縮檔用 cron job 清理：

1find /var/lib/collector/events/ -name "events-*.jsonl.gz" -mtime +30 -delete

主要儲存的查詢驅動分層保留策略見規模演進。

匯出的實作注意

匯出使用 streaming — 從 storage 逐筆讀取、逐行寫出，記憶體使用和事件總量無關。300 萬筆事件（約 900MB JSONL）不需要整批載入記憶體。

匯出的 JSONL 檔案包含事件明文（已 redaction 的欄位除外）。匯出後的檔案不受 collector 的存取控制保護，注意存放位置和存取權限。

下一步路由

Collector 的完整架構 → Collector 架構
查詢設計 → 查詢 API 設計
儲存撐不住時的演進 → 規模演進

Redaction

Fri, 19 Jun 2026 00:00:00 +0000

Redaction 的核心概念是「在事件資料離開 client 之前，把敏感欄位的值替換成遮罩或移除」。密碼、API key、個人識別資訊在送到 collector 之前就被處理，確保敏感資料不進入傳輸和儲存層。可先對照 funnel analysis（去識別化是行為分析的入場條件）。

概念位置

Redaction 位在 SDK 端的事件產生和 collector 端的事件接收之間。它是監控資料安全的第一道防線 — 在資料離開使用者裝置之前處理，比 collector 端的 access control 更早介入。Redaction 和 transport 加密（HTTPS）互補：redaction 保護欄位內容，transport 加密保護傳輸過程。

可觀察訊號與例子

系統需要 redaction 的訊號是監控事件的 data 欄位可能包含使用者輸入。CLI 輸入可能含密碼（mysql -p'secret'）、API key（Authorization: Bearer sk-...）、連線字串（含帳密的 URL）。IME 個人化學習也是洩漏面 — 輸入框的內容被 IME 學習後跨 app 可見。

設計責任

Redaction 要定義預設規則（哪些欄位名稱自動 redact）、自訂 pattern（正則表達式比對敏感值）、執行時機（event 進入 buffer 前還是 flush 時）、以及 redaction 失敗的處理（丟棄整筆事件 vs 只移除敏感欄位）。

Sentry 深入

Fri, 19 Jun 2026 00:00:00 +0000

跟 Backend 04 的分工：本文從 client-side 使用角度說明 Sentry 的 error tracking、performance monitoring 與 session replay — SDK 怎麼埋、error 怎麼分群、release 怎麼追蹤。Server-side 平台治理（告警路由整合、SLI 指標設計、self-hosted vs SaaS 成本治理、跟 OTel 的整合）見 Backend 04 Sentry vendor page。

Sentry 的核心是 error tracking — 自動捕獲未處理的例外、提供 stack trace、自動分群（grouping）相同 root cause 的 error。在 error tracking 的基礎上，Sentry 擴展了 performance monitoring（transaction / span）和 session replay（重播使用者操作）。

Error tracking

Sentry 的 error tracking 架構有三個層次：SDK 端的自動捕獲、server 端的 issue grouping 和 UI 端的 issue management。

自動捕獲

Sentry SDK 在各平台註冊全域錯誤處理器（和模組三自動攔截的機制相同）。捕獲到例外後，SDK 收集 stack trace、breadcrumbs（最近的使用者操作）、device context（OS / browser / device model）和自訂 tags，打包成 event 送到 Sentry server。

Issue grouping

Sentry server 收到 error event 後，用 fingerprinting 演算法判斷這個 error 是否和已有的 issue 相同。預設的 fingerprinting 基於 stack trace 的 frame — 如果兩個 error 的 stack trace 指向同一個位置，歸入同一個 issue。

自訂 fingerprint 讓開發者控制 grouping 邏輯。例如：不同使用者觸發的同一個 API error 可能有不同的 stack trace（因為 call site 不同），但 root cause 相同 — 自訂 fingerprint 把它們歸入同一個 issue。

Issue management

每個 issue 有狀態（unresolved / resolved / ignored）、指派（誰負責修復）、趨勢（這個 issue 的發生頻率是上升還是下降）。Sentry 的 UI 提供 issue 列表、趨勢圖、影響範圍（影響多少使用者）。

Performance monitoring

Sentry 的 performance monitoring 用 transaction 和 span 模型（和 OpenTelemetry 的 trace / span 概念相同）。

Transaction 代表一個完整的操作（頁面載入、API 請求處理）。Span 是 transaction 內的子操作（database query、外部 API 呼叫）。Transaction 和 span 的 duration 構成操作的時間分佈。

Performance monitoring 的價值是發現「慢」的問題 — P95 回應時間超過閾值、特定 span 佔了 transaction 80% 的時間。和 error tracking 互補：error 告訴你「什麼壞了」，performance 告訴你「什麼慢了」。

Session replay

Session replay 錄製使用者的操作過程 — DOM 變化、滑鼠移動、點擊事件 — 在 Sentry UI 中重播。開發者可以看到「使用者在觸發 error 之前做了什麼操作」。

Session replay 的實作是 DOM snapshot + mutation recording。記錄的是 DOM 結構的變化（非螢幕錄影），在重播時重建 DOM。資料量比錄影小很多，但仍然是所有 Sentry 功能中資料量最大的。

隱私考量：session replay 會看到使用者輸入的內容（除非做 masking）。Sentry 提供 privacy configuration 控制哪些元素被 mask（輸入框、敏感資料區域）。

自架方案和 Sentry 的差距

功能	自架方案	Sentry
Error 捕獲	SDK 自動攔截	SDK 自動攔截（相同）
Issue grouping	手動 grep 分群	自動 fingerprinting + 自訂規則
趨勢分析	手動計數	自動趨勢圖 + 告警
Performance	metric 事件 + 手動分析	Transaction / span + 自動 P95
Session replay	無	DOM recording + 重播 UI

Sentry 的核心價值在 issue grouping 和趨勢分析 — 把大量 error event 歸類成可管理的 issue 列表，自動追蹤每個 issue 的趨勢。自架方案用 grep 做不到自動 grouping。

下一步路由

Firebase 的整合方案 → Firebase 套件
Datadog 的全棧 APM → Datadog RUM
自架 vs 商業的判斷 → 自架 vs 商業的判斷決策表
自架方案的 error fingerprint 實作 → Error Fingerprint 與去重分群

Transport 安全

Fri, 19 Jun 2026 00:00:00 +0000

Transport 安全保護監控資料在從 SDK 傳送到 collector 的過程中不被竊聽或篡改。即使 SDK 端做了 redaction，傳輸中的資料仍然包含使用者行為、系統狀態、error 訊息等有價值的資訊 — 這些資訊在未加密的傳輸中可以被同網段的任何人攔截。

同區網也要加密的理由

自用工具的 SDK 和 collector 通常在同一台機器或同一個區域網路（LAN / Tailscale tailnet）。常見的假設是「同區網不需要加密，因為只有我自己在用」。

這個假設在以下情境不成立：

共用網路：咖啡廳、共享辦公室、飯店 WiFi — 同一個 AP 下的其他裝置可以用 ARP spoofing 或 WiFi sniffing 攔截未加密的 HTTP 流量。

未來的網路拓撲變更：目前在同一台機器上的 SDK 和 collector，可能之後拆到不同的機器或不同的網路段。如果一開始就用 HTTPS，拓撲變更不需要額外的安全調整。

養成正確習慣：在自用工具上用 HTTP 是因為「反正只有我」，但相同的開發者在商業專案中可能延續這個習慣。從自用工具開始就用 HTTPS，讓加密傳輸成為預設行為。

HTTPS 設定

自簽憑證

自用工具和內部服務用自簽憑證（self-signed certificate）就足夠。不需要購買 CA 憑證 — 自簽憑證提供加密（防竊聽）和完整性（防篡改），只是不提供身份驗證（client 無法確認 server 是不是「官方的」）。在自用場景中 server 就是自己架的，身份驗證不是問題。

1openssl req -x509 -newkey rsa:4096 -keyout key.pem -out cert.pem -days 365 -nodes

Go collector 使用自簽憑證：

1http.ListenAndServeTLS(":8443", "cert.pem", "key.pem", handler)

SDK 端需要信任自簽憑證。開發期可以在 HTTP client 設定 badCertificateCallback 接受自簽憑證；production 應該把自簽憑證加入系統的信任清單。

Let’s Encrypt

如果 collector 有公開的 domain name，用 Let’s Encrypt 取得免費的 CA 憑證。自動續期、不需要手動管理。適合部署在 VPS 或雲端的 collector。

Basic Auth

HTTPS 保護傳輸層（防竊聽），basic auth 保護 endpoint 層（防未授權存取）。兩者互補，缺一不可 — basic auth 在 HTTP 上傳送的是 base64 編碼的帳密，沒有 HTTPS 的加密保護等於明文傳送。

1Authorization: Basic base64(username:password)

SDK 在每個 HTTP POST request 的 header 中帶上 basic auth。Collector 端驗證帳密，不匹配則回傳 401。

Basic auth 的帳密管理：

帳密存在 SDK 的設定檔或環境變數中，不硬編碼在程式碼裡
Collector 端的帳密用 bcrypt hash 儲存，不存明文
定期輪替帳密（自用工具半年到一年一次即可）

API Key 替代方案

如果不需要 username/password 的雙因素，單一 API key 更簡單。

1X-API-Key: sk_monitor_abc123...

API key 的管理比 basic auth 簡單（一個字串而非帳密對），但安全性略低（只有一個 factor）。自用工具場景下 API key 通常足夠。

下一步路由

SDK 端的 redaction → SDK Redaction API 設計
Collector 端的 access control → Collector Access Control 實作
Server-side 的 secret management → backend 07 資安

自動攔截機制

Fri, 19 Jun 2026 00:00:00 +0000

自動攔截機制讓 SDK 在開發者不寫任何 error 上報程式碼的情況下，自動捕獲未處理的例外並記錄為 error 事件。每個平台有各自的全域錯誤處理器，SDK 在 init 時註冊攔截器，捕獲後轉換為統一的 error 事件格式送出。

各平台的攔截點

JavaScript / TypeScript

JS 環境有兩個全域錯誤攔截點：

window.onerror 捕獲同步程式碼中未處理的例外。回呼函式收到 error message、來源 URL、行號、列號和 Error 物件。

window.onunhandledrejection 捕獲未處理的 Promise rejection。回呼函式收到 PromiseRejectionEvent，包含 rejection reason。

SDK 在 init 時註冊這兩個處理器。註冊前先保存原有的處理器（如果有），攔截後先呼叫原有處理器再執行 SDK 的記錄邏輯 — 避免覆蓋應用程式已有的錯誤處理。

限制：onerror 對跨域腳本的錯誤只收到 Script error. 訊息，沒有 stack trace。需要在 <script> 標籤加 crossorigin 屬性，server 端的 CORS header 加 Access-Control-Allow-Origin。

Flutter

Flutter 有兩個攔截層：

FlutterError.onError 捕獲 widget build / layout / paint 過程中的例外。預設行為是在 console 印出錯誤，SDK 替換為記錄 error 事件後再呼叫預設處理器。

PlatformDispatcher.instance.onError 捕獲其他非同步區域的未處理例外（Dart 2.15+）。包含 Isolate 內的未捕獲例外。

runZonedGuarded 是另一個選項 — 在指定的 Zone 內捕獲所有未處理例外。SDK 可以用 runZonedGuarded 包住整個 runApp()，但這和 PlatformDispatcher.onError 有重疊，需要避免同一個例外被記錄兩次。

限制：Flutter 的 release mode 會移除 stack trace 的符號資訊（obfuscation）。需要保留 debug symbols 檔案（.dSYM / mapping.txt），在 collector 端做 symbolication。

Python

sys.excepthook 處理主執行緒的未捕獲例外。回呼函式收到 exception type、value 和 traceback。

threading.excepthook（Python 3.8+）處理子執行緒的未捕獲例外。

atexit.register 用於在 Python 程序退出時 flush 剩餘的 buffer。但 atexit 在 os._exit() 或 SIGKILL 時不會執行。

限制：Python 的 GIL 讓 SDK 的網路操作可能阻塞主執行緒。SDK 的 flush 應該在獨立的 daemon thread 中執行，主執行緒只負責把事件放入 buffer。

攔截後的統一處理

不同平台的錯誤物件格式不同（JS 的 Error、Flutter 的 FlutterErrorDetails、Python 的 sys.exc_info tuple）。SDK 在攔截後把平台特定的錯誤物件轉換為統一的 error 事件格式：

type: "error"
name: 從 error class name 推導（TypeError → error.TypeError）
data: 包含 message、stack trace（字串化）、觸發位置

轉換層是每個平台 SDK 唯一的平台特定程式碼。轉換完成後，事件進入和手動上報相同的 buffer → flush 管線。

和手動上報的分工

自動攔截處理「開發者沒有預期到的錯誤」— 未捕獲的例外、未處理的 rejection。手動上報（Monitor.error()）處理「開發者知道可能發生但想記錄的錯誤」— 已捕獲的例外、業務邏輯的異常狀態。

兩者進入同一個 buffer 和 flush 管線，在 collector 端可以用 data 中的 source: "auto" / source: "manual" 欄位區分。

下一步路由

SDK 公開 API → SDK 公開 API 設計
各平台的深入適配問題 → 模組五平台適配
Buffer 和 flush → 攢批送出策略
主動感測器設計（和被動攔截互補）→ 前端感測器設計

事件命名規範

Fri, 19 Jun 2026 00:00:00 +0000

事件命名的目的是讓事件可以被 grep、過濾和統計。統一的命名規範讓不同時期、不同開發者加入的事件能在同一個查詢框架中使用。

namespace.action 格式

每個事件名稱由兩部分組成：namespace（事件發生的模組或功能區域）和 action（發生了什麼）。用 . 分隔。

1terminal.connect.start ← namespace: terminal.connect, action: start
2terminal.connect.done ← namespace: terminal.connect, action: done
3terminal.input.submit ← namespace: terminal.input, action: submit
4auth.biometric.success ← namespace: auth.biometric, action: success
5auth.biometric.fallback ← namespace: auth.biometric, action: fallback
6enrollment.qr.scan ← namespace: enrollment.qr, action: scan

Namespace 層級

Namespace 的層級深度依功能結構而定。兩層通常足夠（terminal.connect），三層用於需要進一步區分的場景（terminal.connect.ws）。超過三層通常代表 namespace 設計過細，增加認知成本但不增加分析價值。

Action 命名

Action 使用動詞（start、submit、scan）或狀態（success、failed、timeout）。同一組動作用配對的 action 名稱：start / done（成對的生命週期）、success / failed（結果分支）。

避免在 action 中重複 namespace 的資訊。terminal.connect.terminal_connected 中 terminal 重複了；terminal.connect.done 更簡潔。

命名一致性的工程價值

Grep 友好

統一的 namespace 結構讓開發者用 grep "terminal.connect" 就能找到所有連線相關事件，不需要知道每個事件的完整名稱。

統計友好

按 namespace 前綴分群統計。terminal.* 的事件數量 = terminal 功能的使用頻率；auth.* 的事件數量 = 認證觸發頻率。層級結構讓統計的粒度可以調整。

文件友好

事件清單按 namespace 排列就是一份結構化的功能地圖。新加入的開發者讀事件清單就能理解系統有哪些功能模組。

和商業方案的命名對應

不同的商業監控方案有各自的命名慣例。自架方案用 namespace.action 格式，接入商業方案時需要做對應。

商業方案	命名慣例	對應方式
GA4	`event_name` + parameters	namespace.action → `event_name`，細節放 parameters
Sentry	transaction name + spans	namespace → transaction，action → span
Mixpanel	event name + properties	namespace.action → event name
Datadog RUM	action name + view name	action → action name，namespace → view

對應時保持一個原則：自架方案的事件名稱是 source of truth，商業方案的名稱是它的映射。在自架方案中改名後，映射層跟著改；不要讓商業方案的命名反過來影響自架的命名結構。

下一步路由

四類事件的定義 → 四類事件的完整定義
從需求推導收集策略 → 從需求推導「該收集哪些事件」
商業方案的完整比較 → 模組六商業方案比較

模組二：Log Schema 設計

Fri, 19 Jun 2026 00:00:00 +0000

回答「事件長什麼樣」。schema 是所有 SDK 和 collector 的契約 SOT。

待寫章節

event.schema.json 完整欄位解說
欄位設計原則（source 標明來源 / data 自由欄位 / v 版本演進）
Schema 版本演進策略（backward compatible 的增量變更）
跟 OpenTelemetry 的 schema 差異對照

跨分類引用

SOT repo：tarrragon/monitor 的 schema/event.schema.json
← testing 模組二：log 點設計產出的事件需符合本 schema
→ monitoring 模組七資安：schema 中哪些欄位需要 redaction

欄位設計原則

Fri, 19 Jun 2026 00:00:00 +0000

事件 schema 的欄位設計遵循三個原則：來源可追溯、擴展不破壞、版本可辨識。這三個原則讓 schema 從自用工具的 grep 查詢一直到商業方案的資料管線都能正常運作。

原則一：source 標明來源

每筆事件的 source 欄位記錄「這筆事件從哪裡來」。App 名稱、版本、平台、OS 版本 — 這些資訊在事件產生時由 SDK 自動填入，不依賴使用者或開發者手動標記。

source 的設計要點是「足夠區分但不過度」。sdk 和 platform 是必填——sdk 標明事件由哪個 SDK 實作產生（js / flutter / python / go），platform 標明運行平台（ios / android / web / macos）。兩者不能互相推導：同一個 platform（iOS）上可能有不同的 SDK（Flutter SDK 或 Swift 原生 SDK），同一個 SDK（Flutter）可能跑在不同 platform（iOS / Android / Web）。App 名稱和版本能區分「這是哪個 app 的哪個版本送來的事件」。OS 版本用於分析平台特定的問題（「這個 error 只出現在 iOS 17.4」）。

不需要在 source 放裝置 ID 或使用者 ID — 這些屬於個人識別資訊，放在 source 會讓每一筆事件都攜帶 PII，增加去識別化的複雜度。Session ID 用於關聯同次使用的事件，已足夠取代裝置/使用者級別的追蹤。

原則二：data 自由欄位

data 欄位是事件的附加資料區域，接受任意 JSON object。核心欄位（type、name、timestamp、source）有固定的 schema 驗證，data 的內容不做 schema 驗證（或做寬鬆驗證）。

自由欄位的設計理由是「不同事件需要不同的附加資料」。terminal.connect.done 需要 URL 和 duration；auth.biometric.failed 需要 error code 和 fallback 方式。為每種事件定義固定的 data schema 會讓 schema 膨脹且頻繁變動。

自由的代價是查詢時無法保證 data 內某個欄位一定存在。處理策略：查詢時用 optional access（data?.duration_ms），統計時跳過缺少目標欄位的事件。

原則三：v 版本演進

v 欄位是整數版本號，標明「這筆事件是用哪個版本的 schema 產生的」。

版本號解決的問題是 schema 變更時的向後相容。新版本的 SDK 產生 v=2 的事件，舊版本的 SDK 仍在產生 v=1 的事件。Collector 收到事件時根據 v 決定用哪個版本的驗證和處理邏輯。

版本號的遞增規則：

新增選填欄位：不需要遞增版本號。舊版事件缺少新欄位，collector 用預設值處理。
新增必填欄位：遞增版本號。舊版事件沒有這個欄位，collector 需要區分版本處理。
刪除或改名欄位：遞增版本號。collector 需要同時支援新舊版本的事件格式。
改變欄位型別：遞增版本號。string 改成 integer 等型別變更需要不同的解析邏輯。

欄位命名慣例

欄位名稱使用 snake_case（duration_ms、error_code），和 JSON 的慣例一致。避免在欄位名稱中編碼單位（duration 不夠明確 — 是秒還是毫秒？），在名稱中加上單位後綴（duration_ms、size_bytes）。

下一步路由

完整欄位定義 → event.schema.json 完整欄位解說
Schema 版本演進的具體策略 → Schema 版本演進策略
和 OpenTelemetry 的比較 → 跟 OpenTelemetry 的 schema 差異對照

Cohort Analysis

Fri, 19 Jun 2026 00:00:00 +0000

Cohort analysis 把使用者按共同特徵分群（cohort），比較不同群體在同一個指標上的表現差異。整體平均留存率 40% 可能隱藏了「1 月註冊的使用者留存 60%、3 月註冊的留存 20%」的差異。Cohort analysis 揭露平均值遮蔽的趨勢。

Cohort 的定義方式

時間 cohort（最常用）

按使用者完成某個動作的時間分群。「1 月份註冊的使用者」「第 12 週 onboarding 完成的使用者」。

時間 cohort 回答的問題：產品的留存率是否隨時間改善？新版本上線後註冊的使用者留存是否比舊版本高？

行為 cohort

按使用者的行為特徵分群。「首次使用就完成購買的使用者」「使用過搜尋功能的使用者」「連續 3 天登入的使用者」。

行為 cohort 回答的問題：哪些行為和留存相關？做了 X 的使用者留存率是否比沒做 X 的高？

屬性 cohort

按使用者的固有屬性分群。「iOS 使用者」「企業方案使用者」「來自特定廣告渠道的使用者」。

屬性 cohort 回答的問題：不同平台/方案/來源的使用者行為是否不同？

留存率矩陣

留存率矩陣是 cohort analysis 最常見的呈現方式。每行代表一個 cohort（例如某月註冊的使用者），每列代表註冊後的第 N 天/週/月，格中的值是該 cohort 在第 N 期仍活躍的比例。

Cohort	第 0 週	第 1 週	第 2 週	第 4 週	第 8 週
1 月	100%	45%	32%	22%	18%
2 月	100%	48%	35%	25%	20%
3 月	100%	52%	40%	30%	—

從這張矩陣可以看到：留存率逐月改善（1 月 → 3 月的第 1 週留存從 45% 升到 52%）。如果 2 月有產品改版，這個改善可能和改版相關。

Cohort analysis 的判讀

自然衰減 vs 產品問題

所有產品都有自然衰減 — 使用者隨時間減少是正常的。Cohort analysis 的價值在於區分「正常衰減」和「異常衰減」。

如果所有 cohort 的衰減曲線形狀相似，衰減是產品層面的結構性問題（例如缺少持續使用的理由）。如果某個 cohort 的衰減明顯比其他 cohort 快，需要調查該 cohort 的特殊情況（當時的產品版本、市場環境、使用者來源）。

穩態留存

留存率通常在某個時間點後趨於穩定 — 留下來的使用者不再大量流失。穩態留存的百分比和到達穩態的時間是產品健康度的核心指標。

穩態留存高但到達時間長 = 產品有價值但 onboarding 需要改善。穩態留存低 = 產品的持續使用價值不足。

和 funnel 的關係

Funnel analysis 回答「使用者在哪一步流失」（單次流程），cohort analysis 回答「使用者是否持續回來」（長期行為）。兩者互補：funnel 改善單次流程的轉換率，cohort 追蹤改善是否帶來長期留存的變化。

下一步路由

使用者從哪來 → Attribution
單次流程的流失分析 → Funnel analysis
使用者分群的工程實作 → RFM 分群
客戶終身價值 → LTV
留存率 → Retention

Cohort Analysis

Fri, 19 Jun 2026 00:00:00 +0000

Cohort analysis 的核心概念是「把使用者按共同特徵分群，比較不同群組的行為差異」。Cohort 通常按時間（註冊月份）、行為（首次使用的功能）、或屬性（付費方案）分群。可先對照 funnel analysis（追蹤單一流程的每步轉換）和 RFM（按行為指標分群）。

概念位置

Cohort analysis 位在 funnel analysis 之後、策略制定之前。Funnel analysis 回答「使用者在哪一步流失」，cohort analysis 回答「哪種使用者流失率高」。兩者搭配使用：funnel 找到流失步驟，cohort 找到流失群組，策略針對特定群組的流失步驟設計。

可觀察訊號與例子

產品需要 cohort analysis 的訊號是「整體留存率或轉換率的平均值遮蔽了群組差異」。整體 30 天留存率 40%，但按註冊來源拆分後發現自然搜尋來的使用者留存 60%、廣告來的使用者留存 20% — 平均值沒有揭露這個差異。

設計責任

Cohort analysis 要定義分群維度（按什麼特徵分）、觀察指標（留存率、活躍度、付費率）、觀察時間窗口（7 天、30 天、90 天）、以及最小群組大小（群組太小時統計不顯著）。分群維度的選擇決定了分析能揭露什麼 — 按「註冊來源」分群能看到獲客通路的品質差異，按「使用的功能」分群能看到功能黏著度差異。

Collector Access Control 實作

Fri, 19 Jun 2026 00:00:00 +0000

Collector access control 管理「誰可以對 collector 做什麼操作」。三層控制各自回答不同的問題：認證回答「來源是誰」，授權回答「這個來源被允許做什麼」，access log 回答「誰在什麼時候實際做了什麼」。

認證：來源是誰

認證驗證送出資料的 client 是否合法。未認證的 request 應該被拒絕，避免任意來源向 collector 寫入資料。

API Key 認證

每個合法的 SDK client 有一個 API key。Collector 檢查 request header 中的 API key 是否在合法清單中。

 1func authMiddleware(next http.Handler) http.Handler {
 2 return http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
 3 key := r.Header.Get("X-API-Key")
 4 if !isValidKey(key) {
 5 http.Error(w, "unauthorized", http.StatusUnauthorized)
 6 return
 7 }
 8 next.ServeHTTP(w, r)
 9 })
10}

自用工具場景下，一個 API key 對應一個 client 通常就足夠。多個 client（例如同一個 app 的 iOS 和 Android 版本）可以用同一個 key，或每個平台一個 key 以便在 access log 中區分來源。

mTLS（Mutual TLS）

Client 和 server 互相驗證對方的憑證。安全性比 API key 高 — 攻擊者即使取得 API key，沒有 client 憑證也無法連線。

mTLS 的設定成本較高（每個 client 需要產生和管理憑證），適合對安全性要求較高的環境。自用工具通常不需要 mTLS。

授權：允許做什麼

授權控制已認證的 client 可以執行哪些操作。Collector 的操作通常分為兩類：寫入事件和查詢事件。

角色分離

最簡單的授權模型是兩個角色：

Writer：只能寫入事件（POST /events）。SDK client 使用這個角色。
Reader：只能查詢事件（GET /events、GET /query）。開發者的 CLI 工具使用這個角色。

角色分離的價值在於限制洩漏的影響範圍。如果 SDK 的 API key 被洩漏，攻擊者只能寫入（產生垃圾事件），不能讀取（看到歷史事件中的敏感資訊）。

寫入限制

即使認證通過、角色正確，collector 也可以對寫入加上限制：

Rate limit：每個 API key 每分鐘最多 N 個 request。防止 client 端 bug 導致事件風暴。
Payload size limit：每個事件最大 M KB。防止異常大的 event data 消耗儲存。
Schema validation：事件必須符合定義的 JSON schema。格式不正確的事件拒絕存入。

Access Log：誰做了什麼

Access log 記錄每個到達 collector 的 request — 來源 IP、API key（或 key 的 hash）、操作類型、時間戳、response status。

Access log 的用途：

安全審計：發現異常行為 — 未知 IP 的大量寫入、非工作時間的讀取、連續的認證失敗。

問題排查：SDK 說事件送出成功但 collector 沒有收到 — access log 可以確認 request 是否到達、response 是什麼。

用量統計：每個 client 送了多少事件、佔多少儲存。

Access log 本身也是監控資料，但和業務事件分開儲存。Access log 存在 collector 本機的 log 檔中，用系統的 logrotate 管理輪替。

12026-06-19T10:30:00Z POST /events key=sk_mon_ab...cd ip=192.168.1.50 status=200 size=1234
22026-06-19T10:30:01Z POST /events key=INVALID ip=10.0.0.99 status=401 size=0
32026-06-19T10:31:00Z GET /query key=sk_read_ef...gh ip=192.168.1.1 status=200 size=8901

下一步路由

SDK 端的 redaction → SDK Redaction API 設計
Transport 層的加密 → Transport 安全
資料儲存後的去識別化 → 去識別化策略
Client-side credential 暴露的根本限制 → Client-side SDK 認證

Firebase 套件

Fri, 19 Jun 2026 00:00:00 +0000

Firebase 把 client-side 監控拆成多個獨立產品：Crashlytics 負責 crash 報告、Analytics（GA4）負責行為分析、Remote Config 負責功能旗標和 A/B test。三個產品各自有 SDK、dashboard 和計費模型，但共享 Firebase project 的使用者識別。

Crashlytics

Firebase Crashlytics 專注在 crash 報告 — fatal crash（app 當機）和 non-fatal exception（被捕獲但值得記錄的錯誤）。

自動 crash 報告

Crashlytics SDK 在 app crash 時自動收集 crash 資訊（stack trace、device info、OS version），在下次 app 啟動時上傳。不需要開發者寫程式碼 — SDK 初始化後自動運作。

Issue 分群

和 Sentry 類似，Crashlytics 用 stack trace 自動把 crash 分群成 issue。每個 issue 有影響的使用者數、趨勢、crash-free session 比率。

和 Analytics 的關聯

Crashlytics 可以在 crash 報告中附加 Analytics 的使用者屬性和自訂 key。但兩者的 dashboard 獨立 — crash 資料在 Crashlytics console，行為資料在 Analytics console。要從「crash」追蹤到「crash 前使用者做了什麼」需要在兩個 console 之間切換。

Analytics（GA4）

Firebase Analytics 是 Google Analytics 4（GA4）的 mobile SDK 版本。記錄使用者操作事件（screen view、button click、purchase）和使用者屬性。

自動收集事件

GA4 SDK 自動收集一組預定義事件：first_open、session_start、screen_view、user_engagement。開發者不需要手動埋點就能得到基礎的使用統計。

自訂事件

開發者用 logEvent(name, parameters) 記錄自訂事件。事件名稱和參數的命名有限制（名稱 40 字元、參數 25 個、參數值 100 字元）。

和四類事件的對應

GA4 主要處理 Event 類和 Lifecycle 類事件（模組一）。Error 類由 Crashlytics 處理。Metric 類沒有原生支援 — 需要把 metric 包裝成 event 的 parameter。

Remote Config

Firebase Remote Config 讓開發者在不更新 app 的情況下修改 app 的行為 — 功能旗標（feature flag）、UI 文案、數值參數。

和 A/B test 的整合

Remote Config 和 Firebase A/B Testing 整合：定義實驗（variant A: 舊 UI / variant B: 新 UI），Remote Config 自動分配使用者到 variant，Analytics 收集兩組使用者的行為數據，A/B Testing console 顯示統計結果。

這個整合是 Firebase 生態的獨特優勢 — config 分發、使用者分群、行為收集、統計分析在同一個平台完成，不需要整合多個工具。

Firebase 的取捨

Firebase 的設計取捨是「拆分但整合」— 每個產品獨立運作（可以只用 Crashlytics 不用 Analytics），但組合使用時有整合優勢（Crashlytics + Analytics 的 user ID 共享）。

優勢	代價
自動收集、零配置啟動	自訂彈性受限（事件命名限制、參數數量限制）
Crashlytics 免費且無量限制	Analytics 的進階功能需要 BigQuery export（另收費）
A/B test 整合開箱即用	鎖定 Google 生態（資料 export 有限制）
Mobile 優先，Flutter 支援佳	Web 的支援較弱（GA4 web 是獨立產品線）

下一步路由

Datadog 的全棧 APM → Datadog RUM
行為分析專用方案 → Mixpanel / Amplitude
自架 vs 商業的判斷 → 自架 vs 商業的判斷決策表

Python 平台適配

Fri, 19 Jun 2026 00:00:00 +0000

Python 的執行模型（GIL 限制並行、atexit 不保證執行、subprocess 獨立 process）讓監控 SDK 在 Python 環境中需要特別處理 flush 的執行方式、程序退出時的事件保存和子程序的監控。

GIL 與 threading

Python 的 Global Interpreter Lock（GIL）讓同一時間只有一個 thread 執行 Python bytecode。SDK 的 flush 操作（HTTP POST 到 collector）如果在主 thread 執行，會阻塞主程式的其他工作。

SDK 端的適配：

在 daemon thread 中執行 flush。Daemon thread 在主 thread 結束時自動終止，不需要手動 join。SDK 的 flush 計時器在 daemon thread 中運行，buffer 的存取用 threading.Lock 保護。

GIL 對 SDK 的影響比想像的小：HTTP 請求是 I/O bound 操作，CPython 在等待 I/O 時釋放 GIL。所以 flush 的 HTTP POST 在 daemon thread 中執行時，主 thread 可以繼續工作。GIL 只在 CPU-bound 的操作上造成瓶頸 — SDK 的 buffer 操作和事件序列化是 CPU-bound 但耗時極短（微秒級），影響可忽略。

asyncio 環境

Python 的 asyncio 程式（FastAPI、aiohttp）使用事件迴圈而非 threading。SDK 在 asyncio 環境中應該用 asyncio.create_task 而非 threading 執行 flush，避免在事件迴圈中阻塞。

SDK 可以在 init 時自動偵測是否在 asyncio 環境中（檢查 asyncio.get_running_loop() 是否存在），自動切換 flush 的執行方式。

atexit 可靠性

atexit.register 在 Python 程序正常退出時執行註冊的清理函式。SDK 在 init 時註冊 atexit handler 做最後一次 flush。

atexit 不執行的場景：

os._exit() 直接終止 process，跳過所有清理
SIGKILL（kill -9）強制終止，作業系統直接回收 process
未處理的 fatal signal（SIGSEGV、SIGABRT）導致 crash

對於 SIGTERM 和 SIGINT，Python 預設會執行 atexit handler（前提是 signal handler 沒有被覆蓋）。SDK 可以額外註冊 signal.signal(signal.SIGTERM, handler) 確保在收到 SIGTERM 時觸發 flush。

實務影響：os._exit() 和 SIGKILL 導致的事件遺失無法避免。使用本地 persistence（離線 buffer）可以降低影響 — 事件在寫入本地檔案後，即使 process 被強制終止，下次啟動時仍可補發。

短生命週期腳本

SDK 的預設設計假設長期運行的 app — flush interval 定期觸發、daemon thread 持續運行、atexit 是最後防線。但 Python SDK 的一個重要場景是短命腳本（CI/CD hook、pre-commit hook、CLI 工具的子命令），生命週期可能 < 1 秒。這個場景下 SDK 的行為和長期 app 完全不同。

什麼會壞

flush interval 來不及觸發。預設 30 秒的 flush interval，但腳本在 200ms 內結束。計時器還沒觸發，buffer 中的事件從未送出。

daemon thread 隨主 thread 結束。SDK 用 daemon thread 執行 flush 計時器。Python 的 daemon thread 在最後一個非 daemon thread 結束時被殺 — 不會等待 daemon thread 完成當前工作。如果 flush 正在進行中（HTTP POST 送到一半），daemon thread 被殺，HTTP 請求中斷，事件丟失。

atexit 的執行順序不確定。atexit handler 在 daemon thread 被殺之後執行。如果 SDK 的 atexit handler 嘗試在 daemon thread 中 flush，會失敗（thread 已死）。atexit handler 必須在主 thread 中同步 flush。

正確的短命腳本模式

1from monitor import Monitor
2
3Monitor.init(endpoint="http://localhost:9090/v1/events", app="my-hook")
4
5# 做事...
6Monitor.event("hook.run", {"hook": "branch-check"})
7
8# 結束前必須呼叫 close
9Monitor.close()  # close 內同步 flush，不依賴 daemon thread

close() 是唯一可靠的 flush 時機。close() 的實作在短命腳本場景下必須：

同步執行 HTTP POST，不委託給 daemon thread — 主 thread 呼叫 close() 時直接在當前 thread 送出
設 HTTP timeout — 短命腳本不能等太久，3 秒的 timeout 是合理的
flush 失敗時靜默放棄 — 短命腳本的主要職責不是監控，SDK 失敗不應影響腳本的 exit code

atexit 仍然註冊，作為開發者忘記呼叫 close() 的備份。但 atexit 是 best-effort — 在 os._exit() 和 SIGKILL 下不執行。

flush interval 在短命腳本中的角色

flush interval 對短命腳本無意義 — 腳本在第一次 interval 觸發前就結束了。SDK 可以偵測「init 到 close 的間隔 < flush interval」的模式，在 debug log 中提示開發者考慮降低 interval 或直接依賴 close() flush。

但不建議把 flush interval 設為 0（停用）— 同一個 SDK 設定可能同時用於長期 app 和短命腳本，interval 對長期 app 仍然有用。

Subprocess 監控

Python 程式中的 subprocess.Popen 啟動的子程序是獨立的 process，不共享 SDK 的 buffer 和網路連線。子程序的錯誤和事件需要獨立的監控機制。

兩種方式：

子程序獨立初始化 SDK：子程序的 Python 腳本自己呼叫 Monitor.init()，獨立送事件到 collector。適合子程序是長時間運行的 Python 程式。

父程序代理：父程序讀取子程序的 stdout/stderr，從輸出中解析事件（子程序用約定格式印出事件），父程序的 SDK 代理送出。適合子程序是短命的腳本或非 Python 程式。

下一步路由

Go 平台的適配 → Go 平台適配
跨平台 timestamp 一致性 → 跨平台 timestamp 一致性
離線 buffer 策略 → 模組三離線 buffer 與重試

Schema 版本演進策略

Fri, 19 Jun 2026 00:00:00 +0000

Schema 版本演進的目標是讓新版 SDK 和舊版 SDK 產生的事件能被同一個 collector 正確處理。核心策略是 backward compatible 的增量變更 — 儘量用「新增選填欄位」代替「修改現有欄位」。

不需要改版的變更

新增選填欄位

在 data 區域新增欄位。舊版 SDK 送來的事件不包含這個欄位，collector 和查詢工具用「欄位不存在則忽略」的邏輯處理。

例：v=1 的事件沒有 data.duration_ms，v=1 的 SDK 升級後開始送 data.duration_ms。Collector 不需要改 — 新欄位出現在 data 自由區域，不影響 schema 驗證。查詢時用 optional access。

新增事件名稱

新功能加入新的事件名稱（enrollment.qr.scan）。事件名稱不受 schema 版本控制 — schema 定義的是事件的結構，不是事件名稱的清單。

需要改版的變更

新增核心必填欄位

在核心區域（type、name、timestamp、source 同層）新增必填欄位。舊版 SDK 不會送這個欄位，collector 需要根據版本號決定是否要求這個欄位。

例：v=2 新增必填的 environment 欄位（production / staging / development）。v=1 的事件沒有這個欄位，collector 對 v=1 不要求 environment，對 v=2 要求 environment。

改變欄位型別

把 duration 從 string（"320ms"）改成 integer（320）。同一個欄位的兩種型別需要不同的解析邏輯，collector 用版本號區分。

刪除或重新命名欄位

刪除欄位或改名（error_msg → error_message）需要改版。Collector 對舊版本讀舊欄位名，對新版本讀新欄位名。

Collector 的多版本支援

Collector 同時接收不同版本的事件。處理策略：

版本分派

收到事件後先讀 v 欄位，分派到對應版本的處理器。每個版本的處理器知道該版本的欄位結構和驗證規則。

正規化

不同版本的事件正規化成統一的內部格式後儲存。正規化層處理欄位名稱對應（error_msg → error_message）和型別轉換（string → integer）。查詢時只面對正規化後的格式。

版本淘汰

當所有 SDK 都升級到 v=2 後（從事件記錄中確認不再收到 v=1），可以移除 v=1 的處理器。淘汰前確認沒有離線 buffer 中的 v=1 事件尚未送達。

實務建議

遲改版優於早改版。每次改版增加 collector 的複雜度（多一個版本的處理器）。如果變更可以用「新增選填欄位」解決，優先選擇不改版。

一次改版包含多個變更。如果確定要改版，把多個計畫中的 breaking change 合併到同一次版本升級。v=1 → v=2 包含三個 breaking change，比 v=1 → v=2 → v=3 → v=4 各包含一個 breaking change 的維護成本低。

Schema 文件和版本號同步。每個版本的 schema 有對應的文件，記錄該版本和前一版本的差異。

下一步路由

完整欄位定義 → event.schema.json 完整欄位解說
欄位設計原則 → 欄位設計原則
和 OpenTelemetry 的比較 → 跟 OpenTelemetry 的 schema 差異對照

查詢 API 設計

Fri, 19 Jun 2026 00:00:00 +0000

查詢是監控資料的消費介面。Collector 提供兩種查詢方式：CLI 直接操作 JSONL 檔案（grep + jq），和 HTTP 查詢 endpoint。兩種方式服務不同的消費者 — CLI 給開發者即時探索，HTTP endpoint 給自動化工具和非 CLI 使用者。

CLI 查詢：grep + jq

JSONL 格式的最大優勢是原生支援 Unix 文字處理工具。不需要額外的查詢語言、不需要客戶端工具、不需要連線到 database。

常見查詢模式

按事件類型過濾：

1grep '"type":"error"' events-2026-06-19.jsonl | jq .

按 namespace 過濾：

1grep '"name":"terminal.connect' events-2026-06-19.jsonl | jq .

按時間範圍過濾（跨檔案）：

1cat events-2026-06-1{8,9}.jsonl | jq 'select(.ts >= "2026-06-18T18:00:00")'

統計每種事件的數量：

1jq -r '.name' events-2026-06-19.jsonl | sort | uniq -c | sort -rn

grep 友好的 JSONL 設計

JSONL 的每行 JSON 結構影響 grep 的查詢效率和準確性。

把常用過濾欄位放在 JSON 的前面。grep 是字串匹配，把 type 和 name 放在行首讓 grep pattern 更簡單、誤匹配更少。

避免 JSON 值中包含雙引號。事件名稱和型別用簡單字串（不含特殊字元），讓 grep 的 pattern 不需要處理 escape。

每行 JSON 不換行。JSONL 的定義就是每行一個 JSON，但格式化工具可能自動加換行。寫入時用 json.Marshal（Go）或 JSON.stringify（JS）確保單行輸出。

HTTP 查詢 endpoint

HTTP 查詢 endpoint 讓非 CLI 使用者（dashboard、自動化腳本、其他服務）能查詢事件資料。

Endpoint 設計

1GET /v1/events?type=error&name=terminal.connect.*&from=2026-06-18T00:00:00Z&to=2026-06-19T00:00:00Z&limit=100

查詢參數：

參數	說明	預設值
type	事件類型（event/error/metric/lifecycle）	全部
name	事件名稱（支援 `*` 萬用字元）	全部
from	起始時間（ISO 8601）	24 小時前
to	結束時間（ISO 8601）	現在
limit	回傳筆數上限	100
offset	分頁偏移	0

回應格式

 1{
 2  "events": [
 3    {
 4      "v": 1,
 5      "type": "error",
 6      "timestamp": "2026-06-19T08:42:00Z",
 7      "source": { "sdk": "python", "platform": "macos", "app": "claude-hooks" },
 8      "name": "hook.failure",
 9      "level": "error",
10      "data": { "hook": "branch-status-reminder", "step": "validation" },
11      "error": { "message": "KeyError: 'status'", "stack": "Traceback...", "type": "KeyError" },
12      "context": { "session_id": "sess-abc-123" }
13    }
14  ],
15  "total": 42,
16  "limit": 100,
17  "offset": 0
18}

events 陣列按 timestamp 降序排列。total 是符合篩選條件的全量筆數（不受 limit 截斷），讓呼叫端計算分頁（total_pages = ceil(total / limit)）。分頁用 offset-based（offset=100 取第二頁），適合資料量在十萬筆以下的場景。資料量大到 offset 效能不足時，改用 cursor-based（after=），但 cursor-based 是 PostgreSQL 層的演進，SQLite 層用 offset 足夠。

實作策略

HTTP 查詢 endpoint 的底層實作可以直接讀取 JSONL 檔案 — 根據 from/to 確定要讀哪些日期的檔案，逐行 parse 並過濾。這個實作在資料量小（單日萬筆以下）時足夠快。

當查詢效能成為問題時，在 JSONL 之上加一層索引（按 type/name 建立反向索引），或演進到 SQLite 儲存（見規模演進）。

聚合查詢

逐筆查詢回答「發生了什麼」，聚合查詢回答「發生了多少」。Error 調查的第一步是定位最頻繁的 error — 「哪些 error 最多」需要按 name 分群計數的聚合結果，逐筆列表在這個階段資訊量太大。

Endpoint 設計

1GET /v1/events/summary?type=error&from=2026-06-18T00:00:00Z&to=2026-06-19T00:00:00Z&group_by=name

回傳按 name 分群的統計：

1{
2  "groups": [
3    { "name": "hook.failure", "count": 15, "last_seen": "2026-06-19T08:42:00Z" },
4    { "name": "terminal.connect.failed", "count": 3, "last_seen": "2026-06-19T07:10:00Z" }
5  ],
6  "total": 18,
7  "from": "2026-06-18T00:00:00Z",
8  "to": "2026-06-19T00:00:00Z"
9}

查詢參數和逐筆查詢共用（type、name、from、to），額外的 group_by 指定分群欄位（name 或 type）。

SQL 實作

SQLite backend 下直接用 GROUP BY：

1SELECT name, COUNT(*) as count, MAX(timestamp) as last_seen
2FROM events
3WHERE type = 'error' AND timestamp BETWEEN ? AND ?
4GROUP BY name
5ORDER BY count DESC
6LIMIT 100

有 type + timestamp 複合索引時，這個查詢在 10 萬筆資料內的效能和逐筆查詢相當 — GROUP BY 在索引掃描後做，不需要全表掃描。

和逐筆查詢的定位差異

面向	逐筆查詢 `/v1/events`	聚合查詢 `/v1/events/summary`
回答	發生了什麼（事件列表）	發生了多少（統計摘要）
用途	看單筆 error 的 stack trace	找出最頻繁的 error
回傳	事件陣列（含完整 JSON）	分群摘要（name + count + last_seen）
資料量	大（完整事件 body）	小（只有統計值）
典型工作流	聚合查詢找到問題 name → 逐筆查詢看細節	首先使用

兩者是互補的工作流 — 聚合查詢定位問題方向，逐筆查詢深入細節。Dashboard 的 Error 列表頁面直接消費聚合查詢的結果。

CLI vs HTTP 的定位

面向	CLI (grep + jq)	HTTP endpoint
使用者	開發者	自動化工具、dashboard
適合	即時探索、ad-hoc 查詢	結構化查詢、程式化存取
優勢	零安裝、可組合	遠端存取、標準化
限制	需要 SSH 存取 server	需要 collector 啟動

兩種介面共存 — CLI 用於開發者日常 debug，HTTP endpoint 用於自動化和遠端存取。兩者底層讀取同一份 JSONL 檔案，結果一致。

下一步路由

JSONL 儲存的設計 → JSONL 儲存設計
Rule engine 的自動化處理 → Rule engine 設計
Collector 的完整架構 → Collector 架構

商業方案的事件類型對應

Fri, 19 Jun 2026 00:00:00 +0000

商業監控方案各自有不同的事件分類體系。理解它們的分類邏輯和四類事件（event / error / metric / lifecycle）的對應關係，才能在接入時正確映射自架方案的事件，避免資料遺漏或分類錯誤。

Sentry

Sentry 的核心概念是 error tracking，但已擴展到 performance monitoring 和 session replay。

四類事件	Sentry 對應	說明
Event	Breadcrumb	使用者操作記錄在 breadcrumb trail，附加在 error 上
Error	Event（Exception type）	Sentry 的核心。自動捕獲 + 手動 captureException
Metric	Transaction + Span	Performance monitoring 的度量單位
Lifecycle	Breadcrumb（navigation）	app 生命週期記錄為 navigation/system breadcrumb

Sentry 的設計假設是「error 是主角，其他事件是 error 的 context」。Event 和 lifecycle 都以 breadcrumb 形式附加在 error 報告上，獨立查看的能力有限。Breadcrumb 預設保留最近 100 條且不可獨立查詢 — 它是 error 報告的附件，不是獨立的事件資料庫。Metric 對應的 Transaction + Span 則有獨立的 Performance 頁面可以查看，和 error 是不同的 UI 入口。如果主要需求是行為分析而非 error tracking，Sentry 的 breadcrumb 模型可能不夠用。

Firebase Crashlytics + Analytics

Firebase 把 error tracking 和行為分析拆成兩個獨立產品。

四類事件	Firebase 對應	說明
Event	Analytics custom event	GA4 的 event，有 parameters 附加屬性
Error	Crashlytics exception	fatal + non-fatal exception 分開處理
Metric	Analytics event + parameters	用 event 的 parameters 記錄數值（無原生 metric）
Lifecycle	Analytics auto events	screen_view、app_open 等自動收集

Firebase 的特點是 Crashlytics 和 Analytics 各自獨立運作 — error 資料在 Crashlytics console，行為資料在 Analytics console。Metric 沒有原生支援，只能用 Analytics event 的 parameters 欄位記錄數值（例如 event: 'page_load', parameters: {duration_ms: 320}），查詢時需要在 BigQuery export 中自行聚合。兩個 console 之間的關聯需要手動（在 Crashlytics 的 custom key 中設定 user ID，再到 Analytics 用同一個 ID 查行為）。

Datadog RUM

Datadog Real User Monitoring 從全棧 APM 的角度設計 client-side 監控。

四類事件	Datadog RUM 對應	說明
Event	Action	使用者操作（click、tap、scroll）自動或手動捕獲
Error	Error	JS exception、network error、custom error
Metric	Long Task + 自訂	長任務自動捕獲，自訂 metric 用 global context
Lifecycle	View	頁面/畫面的進入和離開，自動偵測 SPA route 變換

Datadog RUM 的特點是和 backend APM 的深度整合。Client-side 的 action 可以關聯到 server-side 的 trace，形成從按鈕點擊到 database query 的完整鏈路。自架方案通常做不到這個深度的跨層關聯。

接入策略

接入商業方案時的映射原則：

自架事件名稱是 source of truth。商業方案的事件名稱是自架名稱的映射，不是取代。映射邏輯集中在一個 adapter 層，商業方案更換時只改 adapter。

不要為了配合商業方案改變自架的分類。Sentry 把 event 記錄為 breadcrumb 不代表自架方案也要把 event 降級成 error 的附屬品。自架的四類分類是語意正確的，商業方案的分類是它自己的產品設計。

同時接入多個方案時做去重。Error 同時發到 Sentry 和 Crashlytics 會產生重複。在 adapter 層控制「哪類事件發到哪個方案」，避免同一個事件在多個 dashboard 出現。

下一步路由

四類事件的定義 → 四類事件的完整定義
商業方案的深入比較 → 模組六商業方案比較
事件命名規範 → 事件命名規範

模組三：SDK 設計模式

Fri, 19 Jun 2026 00:00:00 +0000

回答「怎麼在各平台埋點」。三個 SDK（JS/Flutter/Python）共用同一套事件格式，公開 API 保持一致。

待寫章節

SDK 公開 API 設計（init / event / error / metric / flush / close）
自動攔截機制（JS window.onerror / Flutter FlutterError / Python sys.excepthook）
攢批送出策略（flush interval / buffer size / flush on close）
離線 buffer 與重試（FIFO 丟棄 / 本地 persistence / 恢復後補發的取捨）
SDK redaction helper（模組七的實作層）

跨分類引用

→ testing 模組三協議整合測試：SDK 的 HTTP POST 行為需要 protocol test
→ monitoring 模組七資安：redaction 在 SDK 端做
← testing 模組一測試策略：mock 遮蔽機制影響 SDK 的 auto-intercept 行為驗證
實作 repo：tarrragon/monitor 的 sdk-js / sdk-flutter / sdk-python

攢批送出策略

Fri, 19 Jun 2026 00:00:00 +0000

攢批送出策略控制事件從 SDK 內部 buffer 送到 collector 的時機。事件產生後先進入記憶體 buffer，累積到一定數量或間隔一定時間後，一次性透過 HTTP POST 送出整批事件。攢批的目的是減少網路請求次數 — 100 筆事件合併成一個 HTTP 請求，比 100 個獨立請求的網路開銷低。

三個觸發條件

時間觸發（flush interval）

固定間隔自動 flush。SDK 在 init 時啟動計時器，每隔 N 毫秒檢查 buffer 是否有待發事件，有則送出。

合理的間隔範圍：10-60 秒。間隔太短（1 秒）接近逐筆送出，失去攢批的效益；間隔太長（5 分鐘）可能讓事件延遲到達 collector，影響即時監控和告警的反應速度。

自用工具場景下 30 秒是合理的預設 — 事件量低，30 秒的延遲對 debug 分析沒有實質影響。商業產品可以降到 10 秒以獲得更接近即時的 error 告警。

數量觸發（buffer size）

Buffer 內的事件數量達到上限時立即 flush。Buffer size 設定為一次 HTTP POST 的合理 payload 大小對應的事件數量。

合理的數量範圍：50-200 筆。數量太少（10 筆）頻繁觸發 flush；數量太多（1000 筆）單次 HTTP POST 的 payload 過大，增加傳輸失敗的風險（超時、記憶體）。

數量觸發和時間觸發互為備援。高頻事件場景（使用者快速操作）靠數量觸發避免 buffer 溢出；低頻事件場景（使用者長時間閒置）靠時間觸發確保事件在合理時間內送出。

關閉觸發（flush on close）

SDK close 時強制 flush buffer 中所有剩餘事件。這是最後一道保障 — app 關閉後 buffer 中未送出的事件就永久遺失了。

close flush 的挑戰是時間限制。iOS app 進入背景後約 5 秒會被系統 suspend，Android 的限制更嚴格。Close flush 必須在這個時間窗口內完成網路請求。如果 buffer 中事件太多導致 flush 超時，需要截斷 — 送出最近的 N 筆，放棄較舊的。

Buffer 管理

記憶體 buffer

Buffer 在記憶體中維護一個事件陣列。新事件 append 到尾端，flush 時取出整個陣列送出並清空。

記憶體 buffer 的上限應該設定為 buffer size 的 2-3 倍（允許 1-2 次 flush 失敗後累積的事件）。超過上限時丟棄最舊的事件（FIFO），保留最新的 — 最新的事件對 debug 和即時分析的價值更高。

離線 buffer

網路不可用時，事件累積在記憶體 buffer 中。如果離線時間超過記憶體 buffer 容量，需要離線 persistence — 見離線 buffer 與重試。

Flush 失敗處理

HTTP POST 失敗時（網路中斷、server 回 5xx、超時），事件保留在 buffer 中等待下一次 flush 重試。不立即重試 — 連續失敗通常代表網路問題或 server 問題，立即重試只會增加負載。

重試次數有上限（3 次）。超過重試上限的事件被丟棄，記錄一筆 sdk.flush.dropped metric 事件（這筆 metric 本身也進 buffer，在下次成功 flush 時送出）。

SDK 對 collector 回應的處理

SDK 只需要判斷 HTTP status code 就知道怎麼處理 buffer，不需要解析 response body 的細節。

Status	SDK 行為	理由
200	清除已送出的 buffer	全部成功
207	清除 buffer + 記錄 warning log	合法事件已被接受；失敗事件是 schema 問題，重試也不會過
400	清除 buffer + 記錄 error log	Schema 問題重試也不會過，保留在 buffer 只會擋住後續事件
503	保留 buffer + 等待 `retry_after` 秒	collector 暫時不可用，事件本身沒問題
其他（network error / timeout）	保留 buffer + 下次 flush 重試	暫時性問題，重試有機會成功

207 和 400 都清 buffer 的關鍵判斷：Schema 驗證失敗是 SDK 端產出了不合規的事件，問題在 SDK 的事件建構邏輯（程式碼 bug），不在 collector 或網路 — 重試相同事件永遠不會過。SDK 把失敗事件的 error 訊息記到 warning/error log 供開發者排查，然後放行後續事件。

503 保留 buffer 的關鍵判斷：collector 暫時不可用是基礎設施問題（SQLite busy timeout、背壓），事件本身合法，等 collector 恢復後重試會成功。retry_after 由 collector 在回應中指定，SDK 用這個值設定下次 flush 的最小等待時間。

Batch 格式

SDK 在 flush 時把 buffer 中所有事件包裝成一個 batch，帶上 batch_id 送出。

1{
2  "batch_id": "019537a0-7b2c-7def-8a2b-3c4d5e6f7890",
3  "events": [ ... ]
4}

batch_id 由 SDK 在 flush 時產生。使用 UUID v7（uuid.uuid7()，Python 3.14+ 標準庫）——時間戳前綴保證有序（debug 時按 batch_id 排序即時間順序），隨機後綴保證唯一（高負載下多個 SDK 同時 flush 不碰撞）。用途是追蹤和 debug（collector log 中標記同一批事件的來源）。Collector 不依賴 batch_id 做去重 — 同一批事件被 SDK 重試時會帶不同的 batch_id（每次 flush 重新產生），collector 按事件內容（timestamp + source + name）判斷是否重複。

UUID v7 而非時間戳格式的選型理由：時間戳格式（b-{YYYYMMDD}-{HHMMSSfff}）在同毫秒多次 flush 時會碰撞，雖然 MVP 的 debug 用途碰撞無害，但 batch_id 碰撞在後續版本的離線補發去重場景（見離線 buffer 與重試）會造成歧義。UUID v7 兼顧有序和唯一，一次到位。

Heartbeat 和 flush 的整合

DevOps dashboard 需要 sdk.heartbeat 事件判斷 SDK 是否存活。Heartbeat 不需要獨立的 timer — 整合在 flush timer 中：

flush timer 觸發時，如果 buffer 為空且距上次 heartbeat 超過設定間隔（預設 5 分鐘），自動注入一筆 sdk.heartbeat lifecycle 事件後送出。App idle 時仍有心跳但不多一個 timer；app 活躍時 heartbeat 被正常事件的 flush 取代（buffer 不會為空）。

Heartbeat 間隔由 SDK init config 的 heartbeatInterval 設定。設為 0 停用 heartbeat。

下一步路由

離線場景的處理 → 離線 buffer 與重試
SDK 公開 API → SDK 公開 API 設計
Collector 端如何接收批次事件 → 模組四 Collector 架構

斷網環境的監控與可觀測性

Fri, 26 Jun 2026 00:00:00 +0000

斷網環境不能用 Datadog、New Relic、Sentry Cloud、PagerDuty Cloud 這些 SaaS 監控服務——它們全部需要往外發送資料。監控的三個核心能力（metric 收集、log 彙整、告警通知）全部要用 self-hosted 的開源工具在隔離網路內搭建。原則跟連網環境相同（metric 跟資源同生命週期、alarm 要連到動作），差別在工具的部署和儲存規劃要自己管。

Metric 收集：Prometheus + Grafana

Prometheus 是 pull-based 的 metric 收集系統——它主動去 scrape 各服務的 metric endpoint，不需要服務往外推資料。這個架構天然適合斷網：所有流量都在內網、不需要出站連線。

離線安裝

Prometheus 和 Grafana 都是單一二進位或容器映像，離線安裝跟映像搬運相同的流程：

1# 外部：下載 release binary
2wget https://github.com/prometheus/prometheus/releases/download/v2.53.0/prometheus-2.53.0.linux-amd64.tar.gz
3wget https://dl.grafana.com/oss/release/grafana-11.1.0.linux-amd64.tar.gz
4
5# 搬運後解壓、設定 systemd service
6tar xzf prometheus-2.53.0.linux-amd64.tar.gz
7sudo mv prometheus-2.53.0.linux-amd64 /opt/prometheus

如果用容器部署，先把映像搬進內部 registry 再 pull：

1# 內部：從內部 registry 啟動
2docker run -d -p 9090:9090 \
3  -v /etc/prometheus:/etc/prometheus \
4  -v /data/prometheus:/prometheus \
5  registry.internal:5000/prometheus:v2.53.0

Scrape 設定

Prometheus 的 prometheus.yml 定義要 scrape 的目標。斷網環境通常用 static config（手動列出目標）而非 service discovery（需要雲端 API）：

 1scrape_configs:
 2  - job_name: 'node-exporter'
 3    static_configs:
 4      - targets:
 5          - 'server-01:9100'
 6          - 'server-02:9100'
 7          - 'db-01:9100'
 8
 9  - job_name: 'app'
10    static_configs:
11      - targets:
12          - 'app-01:8080'
13          - 'app-02:8080'
14    metrics_path: '/metrics'

新增機器時手動把它加進 targets 清單。如果用 Consul（內網 service discovery），Prometheus 支援 Consul SD、可以自動發現新服務。

Node Exporter

每台需要監控的 Linux 機器裝一個 node_exporter（單一二進位、無依賴），暴露 CPU、記憶體、磁碟、網路等系統 metric。離線安裝同理——下載 binary、搬運、解壓、設成 service。

1# 搬運後安裝
2tar xzf node_exporter-1.8.1.linux-amd64.tar.gz
3sudo cp node_exporter-1.8.1.linux-amd64/node_exporter /usr/local/bin/
4sudo useradd --no-create-home --shell /bin/false node_exporter
5# 建立 systemd service（略）

Log 收集：Loki 或 ELK

Grafana Loki（輕量）

Loki 是 Grafana 生態的 log 彙整系統，架構類似 Prometheus（pull/push 都支援），但儲存的是 log stream 而非 metric。它不索引 log 內容（只索引 label），所以儲存成本遠低於 Elasticsearch。

 1# loki-config.yaml 基本設定
 2auth_enabled: false
 3server:
 4  http_listen_port: 3100
 5storage_config:
 6  filesystem:
 7    directory: /data/loki/chunks
 8schema_config:
 9  configs:
10    - from: 2024-01-01
11      store: tsdb
12      object_store: filesystem
13      schema: v13
14      index:
15        prefix: index_
16        period: 24h

搭配 Promtail（log 收集 agent）在每台機器上收集 log 並推送到 Loki：

 1# promtail-config.yaml
 2clients:
 3  - url: http://loki.internal:3100/loki/api/v1/push
 4scrape_configs:
 5  - job_name: system
 6    static_configs:
 7      - targets: [localhost]
 8        labels:
 9          job: syslog
10          __path__: /var/log/*.log

ELK Stack（功能豐富）

Elasticsearch + Logstash + Kibana 是功能最完整的 log 平台，但資源消耗大（Elasticsearch 建議至少 4GB RAM 起跳）。適合需要全文搜索 log 內容的場景。

離線安裝：Elastic 提供離線安裝包（.deb / .rpm），或用 Docker 映像。三個組件都要搬運。

選型判準：5 台以下的小環境用 Loki（輕量、跟 Prometheus + Grafana 同一套 dashboard）。需要全文搜索、已有 ELK 經驗的團隊用 ELK。

告警：沒有外部 webhook 怎麼通知

連網環境的告警通常發到 Slack webhook、PagerDuty API、或 email relay service。斷網環境這些路徑都不通。

內部 SMTP

如果隔離網路內有 email server（很多企業內網有 Exchange 或 Postfix），Prometheus Alertmanager 可以發 email 告警：

 1# alertmanager.yml
 2route:
 3  receiver: 'email-team'
 4receivers:
 5  - name: 'email-team'
 6    email_configs:
 7      - to: 'oncall@internal.corp'
 8        from: 'alertmanager@internal.corp'
 9        smarthost: 'smtp.internal.corp:25'
10        require_tls: false

內部即時通訊

如果內網有 Mattermost（Slack 的 self-hosted 替代）或 Rocket.Chat，Alertmanager 可以用 webhook 發送到這些工具的 incoming webhook endpoint。

實體告警

極端情境（沒有 email、沒有 chat）：Alertmanager 把告警寫到檔案或資料庫、搭配值班制度定期查看。或用 Grafana 的 dashboard + 控制室大螢幕，值班人員直接看板。

告警的設計原則跟連網環境相同——symptom-based（錯誤率、延遲）優先於 cause-based（CPU、記憶體），閾值設計避免告警疲勞。差別在通知的到達速度可能慢一些（email 比 Slack push 慢），所以閾值要稍微保守（提早告警）。

Metric 與 Log 的儲存規劃

SaaS 監控的儲存是雲端自動擴展的。Self-hosted 的儲存要自己規劃——磁碟滿了 Prometheus 就停止收集、Loki 就停止寫入。

容量估算

Prometheus 的儲存量取決於 series 數量 × scrape 間隔 × 保留天數。粗估公式：

1每日儲存 ≈ active_series × sample_size(2B) × (86400 / scrape_interval) × compression_ratio(~0.1)

1 萬個 active series、15 秒 scrape interval、保留 30 天 ≈ 約 5GB。保留 90 天 ≈ 約 15GB。

Loki 的儲存量取決於 log 流量。粗估：每天 10GB 的 raw log 在 Loki 壓縮後約 1-2GB，保留 30 天 ≈ 30-60GB。

Retention 設定

1# prometheus.yml
2global:
3  scrape_interval: 15s
4storage:
5  tsdb:
6    retention.time: 30d
7    retention.size: 10GB  # 以先到的為準

超過容量時 Prometheus 自動刪除最舊的資料。設定 retention 前先確認磁碟空間足夠——斷網環境擴容磁碟的流程（採購 + 安裝）可能需要週到月級的時間。

NTP 時間同步

斷網環境容易被忽略的一個問題是時間同步。沒有 NTP server（pool.ntp.org）可連的機器，時鐘會漂移——幾天後各台機器的時間差可能達到秒級。當 Prometheus 收到的 metric timestamp 跟 Loki 收到的 log timestamp 有幾秒落差，事故排查時 metric 跟 log 對不上。

解法是在隔離網路內架一台 NTP server，所有機器從它同步：

1# 內部 NTP server（chrony）
2# /etc/chrony/chrony.conf
3local stratum 10         # 沒有外部來源時、自己當 stratum 10
4allow 10.0.0.0/16        # 允許內部網段同步
5
6# 其他機器指向內部 NTP
7server ntp.internal iburst

如果隔離網路的閘道可以開 NTP（UDP 123），讓閘道從外部 NTP 同步、內部機器從閘道同步，時間精度可以維持在毫秒級。

時程參考：Prometheus + Grafana + Alertmanager 的初次建置約需 1-2 天。Loki + Promtail 約需半天到一天。NTP server 約需 2 小時。後續維護主要是 Prometheus/Loki 版本更新的搬運（每次 1-2 小時）和儲存容量監控。

跨分類引用

→ 斷網環境的通用原則：監控工具的離線安裝走 content ferry 模式
→ 斷網環境的容器管理：Prometheus/Grafana/Loki 的容器映像搬運
→ 模組六：可觀測性與 log：連網環境的可觀測性 IaC
→ 無 SSH 環境的監控與告警：另一個極端——完全外部監控
→ Monitoring 04：Collector 架構與部署：SDK 和 Collector 的應用層監控，斷網環境需要把 Collector endpoint 指向 self-hosted backend
→ Monitoring 06：Self-hosted vs Commercial：斷網環境只能走 self-hosted 路線

Attribution

Fri, 19 Jun 2026 00:00:00 +0000

Attribution（歸因）回答「使用者的轉換應該歸功於哪個渠道或觸點」。使用者可能先看到 Facebook 廣告、再 Google 搜尋、最後直接輸入網址完成購買 — 三個渠道都接觸了使用者，轉換功勞歸誰決定了行銷預算的分配。

歸因模型

Last-touch attribution

把轉換功勞全部歸給使用者轉換前最後接觸的渠道。上例中功勞歸「直接輸入網址」。

優點：實作最簡單 — 只需要記錄轉換事件的 referrer 或 UTM 參數。

缺點：忽略了前面渠道的貢獻。Facebook 廣告讓使用者第一次知道產品，但在 last-touch 模型中功勞為零。長期使用 last-touch 會導致行銷預算過度集中在「最後一步」渠道（品牌搜尋、直接訪問），低估「認知階段」渠道（展示廣告、社群媒體）。

First-touch attribution

把轉換功勞全部歸給使用者第一次接觸的渠道。上例中功勞歸 Facebook 廣告。

優點：強調「獲客」渠道的貢獻，適合評估品牌認知和獲客效率。

缺點：忽略了後續渠道的推進作用。使用者第一次看到廣告但沒行動，可能是後續的 Google 搜尋才促成轉換。

Multi-touch attribution

把轉換功勞分配給使用者轉換路徑上的所有渠道。分配方式有多種：

線性歸因：每個渠道平均分配。三個渠道各得 33.3%。
時間衰減：離轉換越近的渠道得到越多功勞。
Position-based（U 型）：第一個和最後一個渠道各得 40%，中間渠道分 20%。
資料驅動（data-driven）：用機器學習模型從歷史資料學習每個渠道的貢獻。需要大量資料。

技術實作

Attribution 的技術實作需要解決兩個問題：跨 session 的使用者識別，和觸點的記錄。

跨 session 識別

同一個使用者在不同 session、不同裝置、不同瀏覽器上的行為需要關聯到同一個人。

Web 端用 cookie（first-party）或 login ID 關聯。Mobile 端用 device ID 或 login ID。跨裝置關聯需要使用者登入 — 未登入的使用者在不同裝置上是不同的匿名 ID。

觸點記錄

每次使用者接觸產品的渠道需要記錄。Web 端記錄 referrer、UTM 參數（utm_source、utm_medium、utm_campaign）。Mobile 端記錄 deep link 參數、app store 來源（需要 attribution SDK 如 AppsFlyer、Adjust）。

自架方案的歸因能力

自架 collector 能做基礎的 last-touch attribution — 在轉換事件的屬性中記錄 referrer 和 UTM 參數。

Multi-touch attribution 需要跨 session 的使用者行為歷史，實作複雜度顯著上升。如果 multi-touch 是核心需求，商業方案（GA4、Mixpanel、AppsFlyer）通常比自架更實用。

下一步路由

A/B test 驗證渠道效果 → A/B test 的統計基礎
使用者分群 → Cohort analysis
行為事件設計 → 行為事件設計
客戶取得成本 → CAC

Datadog RUM

Fri, 19 Jun 2026 00:00:00 +0000

跟 Backend 04 的分工：本文從 client-side RUM 角度說明 Datadog 的全棧追蹤、四種 RUM 事件與 session replay。Server-side 的 APM 平台治理（agent 配置、成本治理、OTel 相容遷移、從 New Relic 或 Grafana Stack 遷移）見 Backend 04 Datadog vendor page。

Datadog Real User Monitoring（RUM）從全棧 APM 的角度設計 client-side 監控。核心特徵是 client 端的使用者操作可以關聯到 server 端的 trace，形成從按鈕點擊到 database query 的完整請求鏈路。

全棧追蹤

Datadog RUM 的 SDK 在 HTTP 請求中自動注入 trace context header。Server 端的 Datadog APM agent 讀取 header，把 server 端的 trace 和 client 端的 action 關聯。

這個能力在 debug「API 慢」的問題時特別有用 — 從 client 端看到「這個按鈕的回應時間 3 秒」，點進去看到 server 端的 trace 顯示「database query 佔了 2.8 秒」。自架方案和 Sentry 都做不到這個深度的跨層關聯。

前提是 server 端也使用 Datadog APM。如果 server 端用其他 APM（New Relic、Elastic APM），client-server 的關聯需要自行實作或用 OpenTelemetry 橋接。

四種 RUM 事件

Datadog RUM 收集四種事件，和自架方案的四類事件有對應關係（模組一商業方案對應）：

View：頁面或畫面的載入和離開。自動偵測 SPA 的 route 變換，對應 lifecycle 事件。

Action：使用者操作。自動捕獲 click、tap、scroll，可手動記錄自訂 action，對應 event 事件。

Error：JS exception、network error、自訂 error，對應 error 事件。

Long Task：執行時間超過 50ms 的任務（阻塞主執行緒），對應 metric 事件。

定價

Datadog RUM 按 session 數計費（每個 session 是一次使用者訪問）。和 Sentry 按事件數計費不同 — session 計費讓成本更可預測（不會因為單次訪問觸發大量事件而費用暴增）。

Datadog 的完整方案（RUM + APM + Logs + Infrastructure）費用較高，適合已經用 Datadog 做 server-side 監控的團隊。單獨用 RUM 而 server 端用其他方案，失去全棧追蹤的優勢。

Datadog RUM 的全棧追蹤能力獨一無二，但如果只需要行為分析而非 APM，Mixpanel / Amplitude 是更輕量的選擇。和 Sentry 的定位差異在於 Sentry 聚焦 error tracking、Datadog 聚焦全棧關聯。自架 vs 商業的判斷決策表從使用者規模和功能需求維度做系統性比較。

Go 平台適配

Fri, 19 Jun 2026 00:00:00 +0000

Go 的 monitoring SDK 和其他平台 SDK 的定位不同。JS / Flutter / Python SDK 是 client-side 的事件上報工具，Go SDK 更常用在 server-side — 包括 collector 本身的自身監控。Go 的 goroutine 並行模型、signal handling 機制和 HTTP server 的 graceful shutdown 是 Go 環境中的三個核心適配問題。

Graceful shutdown

Go 程式收到 SIGTERM 或 SIGINT 時需要在退出前完成清理：flush 剩餘的 buffer、關閉網路連線、寫入最後的 lifecycle 事件。

1ctx, stop := signal.NotifyContext(context.Background(), syscall.SIGTERM, syscall.SIGINT)
2defer stop()
3
4<-ctx.Done()
5// signal received, start graceful shutdown
6monitor.Close(context.WithTimeout(context.Background(), 5*time.Second))

graceful shutdown 的時間窗口由部署環境決定。Kubernetes 的預設 terminationGracePeriodSeconds 是 30 秒，Docker 的 stop timeout 是 10 秒。SDK 的 Close 方法接受 context 讓呼叫端控制超時。

HTTP server 的 shutdown 順序

如果 Go 程式同時是 HTTP server 和 monitoring SDK 的使用者，shutdown 順序需要正確：

停止接受新連線（server.Shutdown(ctx)）
等待進行中的請求完成
flush 監控 buffer（monitor.Close(ctx)）
關閉 log 和其他資源

如果先 close monitor 再 shutdown server，進行中的請求產生的事件會在 monitor 已關閉後嘗試送出，被靜默丟棄。

Signal handling

Go 的 signal.Notify 和 signal.NotifyContext 是接收 OS signal 的標準方式。SDK 在 init 時不應該自己註冊 signal handler — 這會和應用程式的 signal handling 衝突（Go 的 signal handler 是先到先得，後註冊的覆蓋先註冊的）。

SDK 端的適配方式是提供 Close 方法讓應用程式在自己的 signal handler 中呼叫，而非 SDK 內部攔截 signal。應用程式控制 shutdown 流程，SDK 只負責在被告知關閉時 flush 和清理。

panic recovery

Go 的 panic 會終止當前 goroutine。如果 panic 發生在 main goroutine 且沒有 recover，程式直接退出，SDK 的 buffer 中的事件遺失。

SDK 可以提供 monitor.RecoverAndReport() 讓開發者在 goroutine 的入口用 defer monitor.RecoverAndReport() 攔截 panic，記錄 error 事件後再 re-panic（保持原有的 crash 行為）。

HTTP handler 的 panic 可以用 middleware 攔截：

1func monitorMiddleware(next http.Handler) http.Handler {
2    return http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
3        defer monitor.RecoverAndReport()
4        next.ServeHTTP(w, r)
5    })
6}

HTTP server 自身監控

Go 常用來寫 collector 本身。Collector 需要監控自己的健康狀態 — 請求處理速率、錯誤率、goroutine 數量、記憶體使用量。

Collector 的自身監控和接收外部事件是兩個獨立的管線。自身監控的 metric 可以寫入獨立的 JSONL 檔案（和外部事件分開），或透過 Go 的 expvar / runtime.ReadMemStats 暴露為 HTTP endpoint。

自身監控的關鍵指標：

collector.events.received：每秒收到的事件數
collector.events.invalid：schema 驗證失敗的事件數
collector.storage.write_duration_ms：寫入 JSONL 的耗時
collector.goroutines：goroutine 數量（洩漏偵測）
collector.memory.alloc_mb：記憶體使用量

下一步路由

跨平台 timestamp 一致性 → 跨平台 timestamp 一致性
Collector 的架構設計 → 模組四 Collector 設計
SDK 公開 API 的 Close 方法 → 模組三 SDK 公開 API

RFM

Fri, 19 Jun 2026 00:00:00 +0000

RFM 的核心概念是「用 Recency（最近活躍度）、Frequency（使用頻率）、Monetary（貢獻價值）三個維度把使用者分成可操作的群組」。每個維度獨立評分後組合，識別出忠實客戶、潛在流失、新使用者、休眠使用者等群組。可先對照 cohort analysis（按共同特徵分群）和 funnel analysis（追蹤流程轉換率）。

概念位置

RFM 位在行為資料累積到一定量之後。它需要每個使用者的 session 歷史（計算 Recency 和 Frequency）和交易歷史（計算 Monetary）。免費產品可以用替代指標取代 Monetary — 產生的內容數量、邀請的使用者數、完成的關鍵操作數。RFM 的前提和 cohort analysis 相同：去識別化（redaction）已完成。

可觀察訊號與例子

產品需要 RFM 的訊號是「需要對不同行為模式的使用者採取不同策略」。高 R 高 F 高 M 的忠實客戶需要維護關係，低 R 高 F 高 M 的潛在流失客戶需要挽留，高 R 低 F 低 M 的新使用者需要引導降低入門門檻。

設計責任

RFM 要定義每個維度的計算方式（Recency 用天數還是週數、Frequency 的時間窗口多長、Monetary 用什麼指標）、分位數（五等分還是三等分）、群組歸納（125 種 profile 歸納成幾個可操作群組）、以及重新計算的頻率（每週還是每月）。分群結果是動態的 — 使用者行為改變時群組會變。

Rule engine 設計

Fri, 19 Jun 2026 00:00:00 +0000

Rule engine 是 collector 的主動處理層。事件寫入儲存後，rule engine 檢查事件是否匹配預定義的規則，匹配時執行對應的動作。沒有 rule engine 的 collector 是被動的資料倉庫 — 開發者需要主動查詢才能發現問題。Rule engine 讓 collector 能在問題發生時主動通知。

三段式規則結構

每條規則由三部分組成：條件（什麼事件觸發）、動作（觸發後做什麼）、模板（動作的內容格式）。

條件

條件定義「哪些事件匹配這條規則」。條件是事件欄位的過濾器 — 事件類型、事件名稱、屬性值的比較。

1{
2  "condition": {
3    "type": "error",
4    "name": "terminal.connect.*",
5    "severity": "fatal"
6  }
7}

條件支援的匹配方式：

精確匹配："type": "error" — 事件類型必須是 error
前綴匹配："name": "terminal.connect.*" — 事件名稱以 terminal.connect. 開頭
數值比較："data.duration_ms": { "gt": 5000 } — 持續時間超過 5 秒
組合條件：多個欄位條件同時滿足（AND 邏輯）

動作

動作定義「條件匹配後做什麼」。常見的動作類型：

通知：發送訊息到指定管道（email、Slack webhook、Telegram bot、桌面通知）。

寫 summary：把匹配的事件摘要寫入 summary 檔案，供定期 review。和逐筆事件不同，summary 是聚合後的結果（例如「過去一小時有 15 個 terminal.connect.failed」）。

觸發 webhook：向外部 URL 發送 HTTP POST，讓其他系統可以接收事件並做進一步處理。

執行腳本：在 collector server 上執行預定義的 shell script。適合自動化回應（重啟服務、清理暫存檔、輪替 log）。執行腳本的安全風險需要控制 — 只允許白名單內的腳本。

模板

模板定義動作的內容格式。通知的訊息內容、webhook 的 request body — 用模板語法（Go template 或 mustache）把事件欄位填入。

1{{ .name }} 發生於 {{ .ts }}
2嚴重度：{{ .data.severity }}
3訊息：{{ .data.message }}

模板讓同一個動作類型適用不同的事件 — 不需要為每種事件寫不同的通知函式。

規則評估時機

即時評估

每個事件寫入後立即評估所有規則。適合需要即時回應的規則（fatal error 通知）。

即時評估的成本和規則數量成正比 — 100 條規則代表每個事件寫入後做 100 次條件匹配。規則數量在數十條以內時，評估時間可以忽略。

批次評估

定期（每分鐘、每小時）掃描一段時間內的事件，評估聚合類規則。適合基於統計的規則（「過去 5 分鐘 error 數量超過 10」「過去 1 小時某 endpoint 的 P95 回應時間超過 2 秒」）。

批次評估需要時間窗口的概念 — 規則條件中包含時間範圍和聚合函式（count、avg、max、percentile）。

混合策略

即時評估用於單一事件觸發的規則（fatal error → 立即通知），批次評估用於聚合觸發的規則（error rate 異常 → 定期檢查）。兩者可以共存。

規則管理

規則以 JSON 或 YAML 檔案儲存在 collector 的設定目錄中。新增、修改、刪除規則是編輯檔案 + 重新載入 collector（signal 或 API call）。

1rules:
2  - name: fatal-error-notify
3    condition:
4      type: error
5      data.severity: fatal
6    action:
7      type: slack
8      webhook: https://hooks.slack.com/...
9      template: "FATAL: {{ .name }} at {{ .ts }}"

規則檔案版本控制在 git 中，和 collector 的其他設定一起管理。規則變更歷史可追溯。

Shell 執行的安全邊界

Rule engine 的「執行腳本」動作在 collector 主機上執行 shell command。這個能力和 collector 的認證狀態組合後產生不同的風險等級。

攻擊鏈

無認證模式下，攻擊者可以向 collector 的 /v1/events endpoint 注入偽造事件。如果偽造事件匹配了一條規則、且規則的動作是執行 free-form shell command，攻擊者等於取得了 collector 主機的命令執行權（RCE — Remote Code Execution）。

攻擊路徑：注入假事件 → 匹配 rule → 執行 shell → RCE。

防護措施

Rule 定義不可透過 API 新增。Rule 只能由管理員透過配置檔或 CLI 設定，collector 的 HTTP API 不提供 rule CRUD endpoint。攻擊者即使能注入事件也無法新增 rule — 但現有 rule 的條件如果太寬（例如 type: error 沒有進一步限定 name），偽造的 error 事件仍可能匹配。

Shell command 使用 allowlist。Rule 的 action 指定 command name（如 restart-ttyd），command 的實際路徑在配置檔的 allowlist 中定義。Rule 不接受 free-form shell string（如 sh -c "rm -rf /"）。

 1# 配置檔
 2allowed_commands:
 3  restart-ttyd: /usr/local/bin/restart-ttyd.sh
 4  notify-slack: /usr/local/bin/notify-slack.sh
 5
 6rules:
 7  - name: fatal-error-response
 8    condition:
 9      type: error
10      data.severity: fatal
11    action:
12      type: command
13      command: restart-ttyd  # 只接受 allowlist 中的 name

無認證模式下的額外限制。Collector 無認證時（同區網信任），建議禁用 command 類型的動作、只允許通知和 webhook。認證啟用後才解鎖 command 動作 — 認證確保只有授權的 SDK 實例能送事件，降低偽造事件觸發 rule 的風險。

下一步路由

Collector 的完整架構 → Collector 架構
規模成長後的演進路徑 → 規模演進
事件的分類和命名 → 監控心智模型四類事件
Rule engine 在偽造流量偵測的應用 → Client-side SDK 認證

去識別化策略

Fri, 19 Jun 2026 00:00:00 +0000

去識別化是把監控資料中可以關聯到特定個人的欄位，轉換成無法回溯到個人但仍保留分析價值的形式。去識別化和 redaction 的差別在於：redaction 完全移除資訊（[REDACTED]），去識別化保留結構化的資訊但移除可識別性。

IP 截斷

IP 位址是最常見的個人識別欄位。完整的 IPv4 位址（192.168.1.50）可以定位到特定的網路和裝置；截斷後的 IP（192.168.1.0）保留網段資訊但無法定位到特定裝置。

截斷策略

IPv4 末八位清零：192.168.1.50 → 192.168.1.0。保留 /24 網段資訊，足以判斷「使用者在哪個網段」但無法定位到特定裝置。Google Analytics 採用這個策略。

IPv4 末十六位清零：192.168.1.50 → 192.168.0.0。更強的去識別化，但地理定位精度降低到城市級。

IPv6：截斷更多位元。IPv6 的後 80 位通常包含 MAC 位址衍生的 interface ID — 截斷到 /48 前綴保留 ISP 資訊，移除裝置識別。

實作位置

IP 截斷應在 collector 收到事件後、寫入儲存前執行。SDK 端不做 IP 截斷 — SDK 通常不知道自己的外部 IP（知道的是 NAT 後的內部 IP），外部 IP 是 collector 從 HTTP request 的 source IP 取得的。

User Agent 簡化

User agent 字串包含瀏覽器版本、OS 版本、裝置型號 — 組合起來可能形成唯一的 fingerprint。簡化 user agent 保留有用的分類資訊（「iOS 17 上的 Safari」），移除可用於 fingerprinting 的細節（「iPhone 15 Pro Max, Build/22A3354」）。

簡化規則

保留：平台（iOS / Android / Windows / macOS）、主要版本號（iOS 17、Android 14）、瀏覽器類型（Safari / Chrome / Firefox）。

移除：minor version、build number、裝置型號、CPU 架構、語言設定。

1原始：Mozilla/5.0 (iPhone; CPU iPhone OS 17_4_1 like Mac OS X)
2簡化：iOS/17 Safari

Stack Trace 路徑清理

Error 事件的 stack trace 包含檔案路徑。檔案路徑可能洩漏部署結構（/home/deploy_user/app/v2.3.1/src/...）或開發者的個人資訊（/Users/alice/projects/...）。

清理規則

移除使用者目錄前綴：/Users/alice/projects/app/src/main.dart:42 → src/main.dart:42。保留 source file 相對路徑和行號，移除使用者名稱。

移除部署路徑前綴：/opt/deploy/releases/20260619/app/lib/... → lib/...。保留程式碼結構，移除部署細節。

統一 path separator：Windows 路徑（C:\Users\...）和 Unix 路徑（/home/...）統一處理。

清理規則用正則表達式匹配常見的路徑前綴模式，替換為空字串。自訂的部署路徑格式需要在 collector 設定中額外註冊。

Session UUID

Session ID 用於關聯同一次使用中的多個事件。UUID v4（隨機產生）作為 session ID，沒有可預測性、沒有順序性、無法回推使用者身份。

Session ID 的生命週期

SDK 在初始化時產生一個 UUID v4 作為 session ID，所有事件附帶這個 ID。App 重新啟動時產生新的 session ID — 前後兩次使用的事件無法關聯。

這個設計讓分析粒度限制在「一次使用」而非「一個使用者」。如果需要跨 session 關聯（例如計算 DAU），需要另一個 persistent ID — 但 persistent ID 本身就是可識別資訊，需要使用者同意。

避免使用可識別的 ID

裝置 ID（IDFA / GAID）、安裝 ID、使用者帳號 — 這些可以關聯到特定個人，不適合作為監控系統的 session ID。使用 UUID v4 確保 session ID 的唯一性來自隨機性而非身份。

去識別化是資料保護的一環，另一環是在資料離開 client 之前就處理 — SDK Redaction API 設計從 SDK 端攔截敏感欄位。法規層面的具體要求見 GDPR 最小化原則的工程落地。去識別化完成後的資料才能用於行為分析 — 這是商業利用的入場條件。

從需求推導「該收集哪些事件」

Fri, 19 Jun 2026 00:00:00 +0000

事件收集策略的起點是需求，而非技術能力。「能收集什麼」取決於 SDK 和 collector 的實作；「該收集什麼」取決於誰需要這些資料、用來做什麼決策。從需求推導收集策略，避免兩個極端：什麼都收（儲存成本高、隱私風險大、真正重要的事件淹沒在噪音中）和什麼都不收（問題發生時沒有資料可查）。

四個需求方向

Debug 需求：問題發生時能定位根因

Debug 需求驅動的事件收集目標是「問題發生時，開發者能從事件記錄中重建問題的 context」。

需要的事件類型：

Error：例外、非預期狀態、API 錯誤回應。包含 stack trace、error code、觸發條件。
Lifecycle：問題發生時的系統狀態 — app 版本、OS 版本、網路狀態、前景/背景。
Event（最近操作）：問題發生前使用者做了哪些操作。不需要完整的操作歷史，最近 10-20 個操作通常足夠。

推導方法：列出最近三個月遇到的 debug 困難場景，問「如果當時有哪些事件記錄，debug 時間能從 30 分鐘降到 5 分鐘？」。答案就是 debug 需求驅動的事件清單。

app_tunnel（透過 WebSocket 連接遠端終端機的 Flutter app）的 T.C4 案例是典型的 debug 需求缺口 — 六個元件中四個零 log，debug 只能靠實機反覆測試。如果在企劃階段就設計了連線生命週期的五步 log，auth token 問題在第一次連線就能從 log 定位（testing 模組二）。

具體的事件表和查詢場景見動機驅動的事件設計。

行為分析需求：使用者如何使用產品

行為分析需求驅動的事件收集目標是「回答產品決策的問題」。

需要的事件類型：

Event：使用者操作的完整記錄。需要足夠的粒度來回答「使用者在哪一步流失」（funnel）和「不同使用者群體的行為差異」（cohort）。
Lifecycle：session 的開始和結束，用於計算使用時長和 session 頻率。

推導方法：列出產品團隊最常問的 3-5 個問題（「新功能有多少人用」「註冊流程在哪一步流失最多」「付費使用者和免費使用者的行為差異」），為每個問題列出需要的事件。

自用工具通常沒有行為分析需求 — 使用者就是開發者本人。這個方向的事件可以跳過。

具體的事件表和查詢場景見動機驅動的事件設計。

效能需求：系統是否在可接受的範圍內運作

效能需求驅動的事件收集目標是「發現效能退化和容量瓶頸」。

需要的事件類型：

Metric：回應時間、frame rate、記憶體使用量、佇列長度。定期取樣或事件觸發。

推導方法：列出使用者會感知到的效能指標（頁面載入時間、動畫流暢度、操作回應延遲），為每個指標定義可接受的範圍和取樣頻率。

具體的事件表和查詢場景見動機驅動的事件設計。

合規需求：法規要求收集或禁止收集什麼

合規需求同時驅動「必須收集」和「禁止收集」。

必須收集：access log（誰在什麼時間存取了什麼資料）、audit trail（誰修改了什麼設定）。

禁止收集：未經同意的個人識別資訊、兒童資料（COPPA）、健康資料（HIPAA）。

推導方法：確認適用的法規（GDPR、CCPA、個資法），列出法規要求的最小收集項目和禁止項目。

具體的事件表和查詢場景見動機驅動的事件設計。

從需求到事件清單的步驟

列出需求方向：Debug / 行為分析 / 效能 / 合規，每個方向的消費者是誰（開發者 / 產品團隊 / 維運 / 法務）。
每個方向列出問題：消費者最常需要回答的 3-5 個問題。
每個問題列出需要的事件：回答這個問題需要哪些事件類型和哪些屬性。
去重和分類：不同方向可能需要同一個事件（error 事件同時服務 debug 和效能監控）。去重後按四類事件分類。
排優先順序：按「缺少這個事件的損失」排序。Debug 需求的 error 事件通常是最高優先。

下一步路由

四類事件的定義 → 四類事件的完整定義
事件的命名和結構化 → 事件命名規範
收集到的事件怎麼處理 → 模組四 Collector 設計
四個方向展開到具體事件名稱級 → 動機驅動的事件設計

跟 OpenTelemetry 的 schema 差異對照

Fri, 19 Jun 2026 00:00:00 +0000

OpenTelemetry（OTLP）是 server-side 可觀測性的業界標準，定義了 traces、metrics、logs 三種 signal 的資料格式和傳輸協定。自架的 event schema 和 OTLP 在設計目標、複雜度和適用場景上有明確差異。

設計目標差異

OTLP

OTLP 的設計目標是「跨語言、跨框架、跨 vendor 的統一可觀測性標準」。它支援分散式追蹤（trace context propagation）、多維度 metric（histogram、summary、exponential histogram）、結構化 log。

OTLP 的資料模型假設 server-side 的基礎設施：collector（如 OTel Collector）做資料路由和轉換，backend（如 Jaeger、Prometheus、Grafana）做儲存和視覺化。

自架 event schema

自架 schema 的設計目標是「client-side 監控的最小可用結構」。它假設的基礎設施是一個 HTTP endpoint + JSONL 檔案 + grep。不需要分散式追蹤（client 端通常是單一服務），不需要多維度 metric（counter 和 gauge 用 event 的 data 欄位表示即可）。

具體差異

維度	OTLP	自架 event schema
Signal 類型	Trace / Metric / Log 三種獨立 signal	統一的 event 格式 + type 欄位
傳輸格式	Protobuf（HTTP/gRPC）	JSON（HTTP POST）
Trace context	SpanID / TraceID / ParentSpanID	Session ID（無分散式追蹤）
Metric 模型	Sum / Gauge / Histogram / Summary	data 欄位中的數值
Resource	結構化的 resource attributes	source 欄位
Schema 複雜度	高（完整的 Protobuf 定義）	低（JSON Schema，核心 6 欄位）

自架 schema 簡化了什麼

不做分散式追蹤

OTLP 的 trace signal 用 TraceID 和 SpanID 把跨服務的請求關聯起來。Client-side 監控通常不需要這個能力 — app 是單一服務，不存在跨服務的請求鏈路。

自架 schema 用 session ID 關聯同一次使用中的事件，滿足「使用者在這次操作中做了什麼」的分析需求。

不用 Protobuf

OTLP 用 Protobuf 編碼資料，效率高（binary 格式、schema 驗證在編譯期）。但 Protobuf 需要 schema 檔案（.proto）、程式碼生成、和 SDK 語言的 Protobuf 套件。

自架 schema 用 JSON，人類可讀、grep 友好、不需要額外工具。JSON 的效率比 Protobuf 低（文字格式、體積較大），但在 client-side 監控的事件量下（每分鐘數十到數百筆），效率差異不構成瓶頸。

簡化 metric 模型

OTLP 的 metric signal 支援 histogram（分桶分佈）、summary（百分位）、exponential histogram（自適應分桶）。這些模型在 server-side 的高頻度 metric 收集中有意義。

自架 schema 把 metric 記錄為 event 的 data 欄位中的數值（{"type": "metric", "name": "connect.duration", "data": {"value_ms": 320}}）。統計分析在 collector 端用查詢完成，不在 schema 層做聚合。

什麼時候切換到 OTLP

以下訊號出現時，自架 schema 的簡化可能成為限制：

需要和 server-side 追蹤關聯：Client 端的操作要關聯到 server 端的 trace（「使用者點擊按鈕到 database query 的完整路徑」）。需要 OTLP 的 trace context propagation。

事件量超過 JSONL 的處理能力：每秒數千筆事件時，JSON 的解析和 JSONL 的 grep 查詢成為瓶頸。OTLP + OTel Collector + 時間序列 DB 的管線能處理更高的吞吐量。

需要接入多個 backend：同時送資料到 Prometheus（metric）、Jaeger（trace）、Elasticsearch（log）。OTel Collector 原生支援多 backend 路由，自架方案需要自己實作。

切換策略：SDK 層的 API 不變（init / event / error / metric），只改底層的傳輸和編碼。從 JSON POST 改成 OTLP export，SDK 的使用者不需要改程式碼。

下一步路由

自架 schema 的完整定義 → event.schema.json 完整欄位解說
Server-side 的可觀測性 → backend 04 可觀測性
Collector 的設計 → 模組四 Collector 設計

模組四：Collector 設計

Fri, 19 Jun 2026 00:00:00 +0000

回答「收到的事件怎麼處理」。挑戰在 collector 端，不在 SDK 端。

待寫章節

Collector 架構（HTTP endpoint → JSON Schema 驗證 → 儲存 → 查詢 → rule engine）
JSONL 匯出與備份格式（匯出格式、gzip 壓縮、備份保留）
查詢 API 設計（CLI grep 友好 vs HTTP 查詢 endpoint）
Rule engine 設計（條件 → 動作 → 模板）
規模演進：可插拔 Storage Backend（SQLite 預設 / PostgreSQL 觸發）
功能分層與 Backend 選擇（SQLite 層 vs PostgreSQL 層的功能邊界）
SQLite Backend 效能基準（寫入吞吐 / 查詢延遲 / 資源消耗的量化預期）
Ingestion Scaling（四層防線 — SDK 取樣 → Collector 背壓 → 水平擴展 → Queue 解耦）
查詢消費模式（Debug / Alerting / 產品決策 / 安全審計 / 效能監控）
DevOps Dashboard 設計
Developer Dashboard 設計
中台 Dashboard 設計
Container 部署設計（SQLite 在 container 中的 I/O 考量、volume mount、graceful shutdown）
讀寫分離與查詢擴展（讀寫競爭辨識、Read Replica、預聚合、CQRS 判讀訊號）
端到端資料完整性（資料損失地圖、完整性指標、被自己 SDK DDoS 的防護）
Error Fingerprint 與去重分群（fingerprint 演算法、message normalization、error_groups 表）

跨分類引用

→ backend 01 資料庫：PostgreSQL backend 的資料庫設計、State Ownership 與 Query Boundary
→ backend 04 觀測查詢設計：觀測領域的讀取路徑設計、CQRS 特化應用
→ backend 09 效能容量：高併發寫入 / 大資料查詢的效能挑戰
→ DevOps 流量管控：背壓、rate limit、熔斷的基礎概念
→ DevOps 突發流量：突發流量分類、降級策略、queue 緩衝
→ 斷網環境的監控：Collector 在斷網環境的部署方式——endpoint 改指 self-hosted backend、SDK 的 offline buffer 更重要
實作 repo：tarrragon/monitor 的 collector/ + docs/challenges/（撞牆記錄）

離線 buffer 與重試

Fri, 19 Jun 2026 00:00:00 +0000

離線 buffer 處理的是「事件產生時網路不可用」的場景。記憶體 buffer 有容量上限，離線時間超過 buffer 容量時需要決策：丟棄舊事件、持久化到本地儲存、或兩者混合。每種策略有不同的複雜度和資料保留量的取捨。

三種策略

FIFO 丟棄（最簡單）

Buffer 滿時丟棄最舊的事件，保留最新的。整個 buffer 在記憶體中，不做本地 persistence。

優點：實作最簡單（array + 容量檢查），不需要檔案系統存取，不增加磁碟 I/O。

代價：離線超過 buffer 容量時，較舊的事件永久遺失。如果離線 30 分鐘、buffer 容量 200 筆、事件產生速率每分鐘 10 筆，前 100 筆（前 10 分鐘）的事件被丟棄。

適合場景：自用工具（離線場景少、遺失部分事件影響低）、SDK 初期版本（先用最簡單的策略上線）。

本地 persistence（最完整）

Buffer 滿時把事件寫入本地檔案（SQLite、JSONL 檔案、SharedPreferences / UserDefaults）。網路恢復後從本地檔案讀取並補發。

優點：離線期間的事件不會遺失（在本地儲存容量內）。

代價：實作複雜度高 — 需要處理檔案讀寫、並發存取（多執行緒安全）、本地儲存容量管理（磁碟空間上限）、補發時的去重（同一筆事件可能已在記憶體 buffer 中被 flush 過）。

適合場景：商業產品（使用者在地鐵、電梯、飛航模式下使用）、離線時間長且事件不可遺失的需求。

混合策略

記憶體 buffer 處理正常情況和短暫離線。離線超過記憶體 buffer 容量時，溢出的事件寫入本地檔案。網路恢復後先 flush 記憶體 buffer（最新事件），再補發本地檔案中的事件（較舊事件）。

混合策略的實作複雜度介於兩者之間。本地檔案只在溢出時使用，正常情況下不產生磁碟 I/O。

恢復後補發

網路恢復後補發離線期間累積的事件，需要處理三個問題：

補發順序

離線事件按 timestamp 順序補發，保持事件的時間順序。Collector 端收到的事件 timestamp 可能比當前時間早數小時 — 這是正常的離線補發，collector 應該根據事件的 timestamp 處理，不依賴收到時間。

補發速率

一次送出大量離線事件可能讓 collector 過載。分批補發（每批 50-100 筆，間隔 1-2 秒），讓 collector 有時間處理。

去重

同一筆事件可能同時存在於記憶體 buffer 和本地檔案中（寫入本地檔案時 buffer 中也有一份）。Collector 端用事件的唯一識別（timestamp + session_id + name 的組合，或 SDK 產生的 event_id UUID）做去重。

本地儲存容量管理

本地 persistence 需要設定磁碟使用上限。上限取決於事件大小和保留時間。

以平均每筆事件 500 bytes 估算：

上限	可儲存事件數	備註
1 MB	~2,000	約 3 小時（每分鐘 10 筆）
10 MB	~20,000	約 33 小時
50 MB	~100,000	約 7 天

自用工具 1 MB 足夠（離線場景少）。行動 app 10-50 MB 合理（使用者可能整天離線）。超過上限時用 FIFO 丟棄最舊的本地檔案。

各平台的本地儲存路徑

本地 persistence 的檔案路徑和格式因平台而異。MVP 階段全用記憶體 FIFO（最簡單策略），本地 persistence 標為第二階段。

平台	建議路徑	檔案格式	備註
Flutter	`getApplicationSupportDirectory()`	JSONL	不會被 iCloud 備份（和 Documents 不同）、不會被系統自動清理
Python	`~/.cache/monitor/` 或 `platformdirs.user_cache_dir('monitor')`	JSONL	遵循 XDG 標準、`platformdirs` 套件處理跨平台
JS/Web	`localStorage` 或 `IndexedDB`	JSON	localStorage 有 5MB 限制、IndexedDB 更大但 API 較複雜

App 被強制終止時（iOS 的 kill、Android 的 process death），記憶體 buffer 中未 flush 的事件會遺失。Flutter 的 AppLifecycleState.detached 不保證有時間執行 flush。接受這個遺失 — 強制終止是極端情境，下次啟動時 SDK 重新開始收集。

下一步路由

攢批送出策略 → 攢批送出策略
SDK 端的資料脫敏 → SDK redaction helper
Collector 端如何處理補發事件 → 模組四 Collector 設計
從 SDK 到 storage 的端到端資料損失地圖 → 端到端資料完整性

服務掛了怎麼自動知道：從肉眼盯到主動告警

Thu, 02 Jul 2026 00:00:00 +0000

服務掛了不需要用肉眼盯——systemd 本來就在追蹤每個 unit 的狀態，你要做的是把「讀權威狀態」這件事自動化，並在狀態變成失敗時主動推播給自己。這篇跟本系列其他篇的差別在時機：診斷是出事後回頭找根因，監控是讓系統在出事的當下就告訴你。兩者共用同一個地基——權威狀態。診斷是手動讀一次權威狀態，監控是訂閱權威狀態的變化、變壞就推播。

理解這個框架後，監控就不是「裝一套很重的東西」，而是分層選擇：從 systemd 內建的失敗鉤子（不裝任何額外服務），到推播管道，到「整台機器死掉」的體外心跳，到完整的指標儀表板。多數人只需要前一兩層。

你現在手動在做的事（要被取代的基線）

在自動化之前，先認清手動版本——這也是所有告警底層讀的同一個權威來源：

1systemctl --failed          # 現在有哪些 unit 處於 failed（開機後系統怪怪的先掃這個）
2systemctl is-failed   # 單一 unit 明確判失敗（比 is-active 直接）
3journalctl -u  -f     # 即時跟一個 unit 的 log

systemctl --failed 就是「服務死活」的權威清單。手動版的問題不是不準，是你得記得去看。下面每一層都是把「記得去看」換成「壞了它來找你」。

第一層：systemd 原生 `OnFailure` 鉤子（不裝額外服務）

systemd 每個 unit 進入 failed 狀態時，可以自動觸發另一個 unit。這是最正統、零額外依賴的做法——告警邏輯就寫成一個普通的 systemd service。它由三塊組成：一個負責送通知的處理器 unit、一個實際送出的腳本、以及在你要監控的 unit 上掛一行 OnFailure=。

通知處理器是一個 template unit（@ 表示可帶參數），參數 %i 會是失敗的那個 unit 名：

1# /etc/systemd/system/alert@.service
2[Unit]
3Description=Alert on failure of %i
4[Service]
5Type=oneshot
6ExecStart=/usr/local/bin/notify-failure %i

送出腳本負責把「哪個 unit、在哪台機、什麼時候」推出去。這裡有個實測踩到的坑：在 systemd service 的執行環境下，hostname 指令可能回傳空字串，要改用 uname -n 或讀 /etc/hostname 才穩：

 1#!/bin/bash
 2# /usr/local/bin/notify-failure   （記得 chmod +x）
 3unit="$1"
 4# 只在「真正放棄」時告警：OnFailure 每次失敗都觸發（含 auto-restart 中途，見下節實測），
 5# auto-restart 中途 ActiveState 是 activating、撞重試上限才進 failed。gate 掉中途避免洗告警。
 6state="$(systemctl show "$unit" -p ActiveState --value)"
 7[ "$state" = failed ] || exit 0
 8host="$(uname -n)"                     # 不要用 hostname，systemd 環境下可能回空
 9ts="$(date -Is)"
10topic="你的私密topic"
11curl -fsS \
12  -H "Title: $host: $unit failed" \
13  -d "$unit 於 $ts 進入 failed" \
14  "https://ntfy.sh/$topic"

在要監控的 unit 掛上鉤子。針對單一 unit，加一行：

1[Unit]
2OnFailure=alert@%n.service    # %n 是本 unit 的全名，會展開成 alert@<本unit>.service

要一次套用到所有 service，用 top-level drop-in（放在 service.d/ 這個型別目錄下的設定會套用到每個 .service）：

1# /etc/systemd/system/service.d/onfailure.conf
2[Unit]
3OnFailure=alert@%n.service

改完 sudo systemctl daemon-reload。一個必須注意的遞迴陷阱：全域 drop-in 也會套到 alert@ 自己，它若失敗會觸發自己。給 alert@.service 一個清空 OnFailure= 的 override（[Unit] 段寫 OnFailure=）擋掉。

這條鏈是實測驗證過的：故意讓一個 ExecStart=/bin/false 的測試 service 失敗，systemd log 出現 Triggering OnFailure= dependencies、alert@ 處理器被觸發跑完、curl 推到 ntfy 回 HTTP 200——通知確實送出，全程沒有肉眼介入。

先自動重啟、放棄了才吵你

多數暫時性失敗（一次連線抖動、一個 race）自己重試就好，不值得半夜叫醒你。把「自動復原」跟「告警」分兩段：讓 systemd 先重啟幾次，撐過重試上限才真的算放棄。

1[Service]
2Restart=on-failure
3RestartSec=5
4[Unit]
5StartLimitBurst=3          # 重試 3 次
6StartLimitIntervalSec=60   # 60 秒內都失敗才進 failed（start-limit-hit）

這裡有個實測踩到、跟直覺相反的坑：OnFailure 不是「放棄才觸發」，而是每一次失敗都觸發——包含 Restart=on-failure 的每次 auto-restart 中途。實測一個反覆 crash 的服務（重試 3 次後放棄）觸發了 4 次 OnFailure（3 次 auto-restart + 1 次最終 start-limit-hit）。所以只靠 Restart= + StartLimit= 這段 config，你會被每次瞬斷洗告警。

真正做到「只在放棄才吵」，靠的是上面送出腳本開頭那道 gate：systemctl show -p ActiveState 在 auto-restart 中途是 activating、撞上限進 failed 才是 failed，腳本只在 failed 才送。加上 gate 後同一個 crash 測試從 4 次告警降到 1 次（只剩最終放棄那次）。config 負責「重試幾次」，handler 的 gate 負責「只在終局告警」——兩段合起來才是完整的「先重啟、放棄才吵」。

抓「進程活著但沒在做事」：外部健康探針

OnFailure 抓的是「進程狀態變了」——crash、exit、被 kill。但服務可能進程還在、卻沒在做事：hung、deadlock、內部子系統壞掉。這種 systemd 看它還 active、不會觸發任何告警——正是「進程活著 ≠ 在運作」那條，搬到監控場景。

要抓這種，得從外面主動戳它、看它回不回應：一個 timer 定時對服務發一個健康請求（HTTP 服務就 curl 它的 /health）並設逾時；戳不動、逾時失敗，就讓「那個檢查」自己 failed，一樣走 OnFailure 告警。

1# health-check.service（oneshot）+ 一個每 2 分鐘跑的 .timer
2[Service]
3Type=oneshot
4ExecStart=/usr/bin/curl -fsS --max-time 5 http://127.0.0.1:8899/health

實測對照最清楚：讓一個健康服務卡在 sleep（進程還在、單執行緒不再回應），systemctl is-active 仍顯示 active——systemd 沒察覺；但這個外部探針 curl /health 5 秒逾時、check 失敗、告警發出。systemd 抓進程死、外部探針抓進程活著但 hung，兩層互補、缺一漏一種。

canary：先證明告警管線本身是好的

監控最怕的失效模式是「出事時才發現它早就不會叫了」。防這個的辦法是養一隻 canary——一個你可控的假服務，專門用來確認整條管線是活的。它一物兩用：

驗證管線：故意弄掛它，看「失敗 → OnFailure → 推送」真的一路通到你手機，不必拿 sshd 這種真服務去冒險。
當活性訊號：它自己若無故失敗告警，等於告訴你告警系統本身還在運作。

做法是一個極簡 HTTP 服務（stdlib 就夠、不必框架），留幾個測試入口：/health 正常回、/crash 故意退出（測 OnFailure）、/hang 進程活著但不回應（測外部探針）。這樣任何時候都能一鍵重驗監控沒有默默失效。

第二層：推去哪裡（關鍵是能離開這台機器）

處理器腳本裡那一段 curl 可以換成任何管道：

ntfy（ntfy.sh 或自架）：一行 curl 推到手機，最省事，上面的例子就是。它怎麼運作、公共站 vs 自架、以及「topic 名稱就是唯一的密碼」這個安全模型，見 ntfy：推送通知服務。
email：要先設好一個 MTA（如 msmtp），腳本改成 mail / sendmail。
Telegram bot、Apprise（一個工具打多個目標）等。

判準只有一條：告警要送到機器外。送桌面 notify-send 只有你正盯著螢幕時才有用；送手機或 email，離開座位、人在外面也收得到。一台跑正事的機器，告警管道應該落在它之外。

第三層：整台機器死掉怎麼辦（監控自己的盲點）

OnFailure 有個根本限制：它靠 systemd 觸發，機器整台掛了（當機、斷電、kernel panic），systemd 自己都沒了，發不出任何告警。 這是所有「機器自己監控自己」方案的共同盲點——它報得了服務的死，報不了自己這台的死。

覆蓋這一層要反過來做：讓機器定時對一個體外的服務「報平安」，平安訊號一停，由那個體外服務替你告警。這叫 dead-man’s switch（心跳監控）。

1# /etc/systemd/system/heartbeat.service
2[Service]
3Type=oneshot
4ExecStart=curl -fsS https://hc-ping.com/<你的-uuid>
5# 搭配一個 heartbeat.timer，OnUnitActiveSec=5min 定時打

心跳超過設定時間沒到，healthchecks.io（或自架的 Uptime Kuma）就通知你。體內的監控管不了自己這台的死亡，一定要有體外的一隻眼睛——這跟本系列機器連不到或起不來是同一個問題的兩面：那篇是機器已經不回應時從外面怎麼查，心跳是讓「不回應」這件事本身自動觸發告警。

第四層：要指標、趨勢、門檻（不只是 up/down）

當你要的不只是「掛了沒」，而是 CPU、記憶體、磁碟、延遲的趨勢與門檻告警（例如磁碟用量超過 80% 就先警告，接上本系列反覆出現的「磁碟滿連鎖」），就進到完整監控堆疊：

工具	定位	什麼時候選它
Netdata	開箱即用、自帶大量預設告警	單機、想要圖表 + 門檻告警、最不想設定
Monit	輕量、每服務健康檢查 + 自動動作	要「掛了自動跑一段修復腳本」、超出 systemd `Restart=` 能表達的邏輯
Prometheus + Alertmanager	指標抓取 + 告警規則引擎	多台機器、要歷史數據與可擴展的告警規則
Uptime Kuma	自架的 up/down + 心跳面板	想要一個面板統一看多台/多服務、也能當第三層的心跳接收端

這一層不是每個人都需要。單機、只想知道某個服務死活，第一層就夠；要看趨勢、跨機、設門檻，才值得付這層的設定與維運成本。

先確認有沒有，沒有就從最簡單開始

監控最好在出事之前就建好，不是等第一次沒人發現的當機才想到。有兩個時機該主動確認這台機器有沒有在監控自己：裝好一台新機器時，跟發現自己反覆在除同一個服務的失敗時。確認的方式就是讀權威狀態：

1systemctl --failed                      # 現在有沒有 failed 的
2systemctl show sshd -p OnFailure        # 關鍵服務有沒有掛告警鉤子

沒有任何監控的話，從最簡單那層開始建，別一開始就上重的：第一層的 OnFailure + ntfy 就能讓「服務掛了」主動找上你，零額外 daemon、幾個檔案就設好。遠端機器至少把 sshd 掛上——它掛了你就失聯，是最該先監控的一個。等你真的需要趨勢圖、跨機、或告警內容不能經過第三方時，再往自架 ntfy（帳號 + ACL）跟完整監控堆疊爬。多數單機、個人用的情境，停在第一層就夠。

依情境選

把上面四層對回你實際要監控的東西：

某個 service 掛了想被通知 → 第一層 OnFailure drop-in + ntfy。不裝額外 daemon，最貼近 systemd。
希望先自動重啟、救不回來才告警 → 第一層再加 Restart=on-failure + StartLimit*。
怕整台機器當掉沒人知道 → 第三層心跳 / dead-man switch。這層體內方案覆蓋不到，必須體外。
要看資源趨勢、跨多台、設門檻告警 → 第四層，單機用 Netdata、多機用 Prometheus 堆疊。

判準是先分清你要監控的層級：單一 service 的死活、整台機器的死活、還是資源的趨勢——三種對應不同層，別拿其中一種去蓋另一種。最常見的誤區是以為體內的 OnFailure 能報自己這台的當機，那正是它的盲點。

下一步

告警把你叫來之後，怎麼判那個服務到底是什麼狀態（failed、restart loop、還是活著但子系統 wedged）→ 程序、服務與狀態怎麼判。
機器完全不回應、心跳斷掉之後從外面怎麼查 → 機器連不到或起不來。
底層那套「讀權威狀態、不靠肉眼猜」的判讀紀律 → 診斷心法。

Error Fingerprint

Wed, 24 Jun 2026 00:00:00 +0000

Error fingerprint 的核心概念是「從 error 事件中提取關鍵欄位計算 hash，相同 hash 的事件歸為同一 error group」。沒有 fingerprint 時，1000 筆同因 error 在 dashboard 上是 1000 行；有 fingerprint 後歸為 1 組，顯示 count / first_seen / last_seen / affected_sessions。可先對照 redaction（事件送出前的資料脫敏）和 funnel analysis（行為事件的轉換率分析）。

概念位置

Error fingerprint 位在 collector 收到 error 事件之後、寫入 storage 之前。它的輸入是通過 schema validation 的 error 事件，輸出是附加了 _fingerprint 欄位的事件和更新後的 error_groups 摘要表。Fingerprint 只作用於 type: "error" 的事件 — 其他三類事件（event / metric / lifecycle）不需要去重分群。

可觀察訊號與例子

需要 fingerprint 的訊號是「dashboard 的 error 列表中，同一個 bug 因為 error message 包含動態值（user ID、timestamp、IP）而分裂成多個不同的行」。例如 "User 12345 not found" 和 "User 67890 not found" 是同一個 bug，但 name-based grouping（GROUP BY name）把它們歸為同一行時，丟失了 message 中的動態值資訊；而沒有 normalization 的 message-based grouping 會把它們分裂成兩行。

設計責任

Fingerprint 承擔的設計責任是「在 error 的精確識別和分群粒度之間找到平衡」。過粗的 fingerprint（只用 error type）把不同 bug 混在同一組；過細的 fingerprint（用完整 message 含動態值）把同因 error 分裂成多組。

自架 vs 商業方案

自架方案用規則做 fingerprint — regex normalize message（替換數字 / UUID / email / IP 等動態值）+ stack trace top N frames 做 hash。Sentry 在規則之上加了 in-app frame 過濾（忽略 framework / library frame）、source map 反解（minified JS → 原始碼位置）、和 ML-based grouping（語意相同但結構不同的 error 歸組）。差距主要在 minified / obfuscated 環境和 ML — 明文 stack trace 的場景下兩者效果相當。

完整章節

Fingerprint 演算法（基礎 / 進階 / Sentry / 自定義）、message normalization 的替換規則和風險、error_groups 表的 DDL 和 UPSERT 流程、dashboard 整合、自架方案的務實邊界 → Error Fingerprint 與去重分群。

事件枚舉與補齊檢查

Sat, 20 Jun 2026 00:00:00 +0000

事件枚舉的目的是為一個服務建立完整的事件清單 — 每個事件有明確的類型、名稱、觸發時機和 data schema。枚舉的方法從操作盤點出發，經過四類補齊檢查，產出可以直接實作 SDK 埋點的事件表。

從操作盤點推導事件

每個使用者操作（BDD 操作盤點的產物）至少對應一個 event 類型的事件。操作的失敗路徑對應 error 類型。操作涉及的效能測量對應 metric 類型。操作觸發的系統狀態轉換對應 lifecycle 類型。

推導鏈：操作 → 四類事件候選 → 命名 → data schema。

以一個透過 WebSocket 連接遠端終端機的 app 為例，「連線到終端機」這個操作推導出的事件：

四類	事件名稱	觸發時機	data schema
event	terminal.connect.start	使用者點擊連線按鈕	`{url, trigger: "manual" \| "auto"}`
event	terminal.connect.done	連線成功、開始接收 output	`{url, duration_ms}`
error	terminal.connect.failed	連線失敗（逾時、拒絕、認證失敗）	`{url, error, step}`
metric	terminal.connect.duration	連線完成（成功或失敗）	`{duration_ms, success: bool}`
lifecycle	ws.connected	WebSocket 連線狀態轉換	`{url}`
lifecycle	ws.disconnected	WebSocket 斷線	`{url, reason, code}`

一個操作推導出六個事件 — 因為這個操作跨越了使用者行為（event）、可能失敗（error）、有效能測量（metric）、涉及系統狀態轉換（lifecycle）四個面向。其中 connect.done 和 connect.duration 記錄的是同一事實的兩個面向（見下方邊界案例段），自用場景合併成 connect.done 帶 duration_ms 欄位更簡潔。

四類補齊檢查

列完所有操作的事件後，對每個功能區域跑一次四類補齊檢查 — 逐列確認每一類是否都有對應的事件。

功能區域	event	error	metric	lifecycle
連線	connect.start / connect.done	connect.failed	connect.duration	ws.connected / ws.disconnected
認證	auth.biometric.attempt	auth.biometric.failed	auth.duration	auth.state_changed
輸入	input.submit	input.parse_error	—	—
配對	enrollment.qr.scan / enrollment.done	enrollment.failed	enrollment.duration	—

空格是候選遺漏。每個空格問一個問題：

event 空：「這個功能區域有使用者操作嗎？」有 → 補事件；沒有（純系統內部）→ 合理的空格
error 空：「這個功能區域能失敗嗎？」能 → 補事件；不能失敗的功能極少 → 再想一次
metric 空：「這個功能區域有值得量測的效能指標嗎？」有 → 補事件；操作瞬間完成且不涉及外部依賴 → 合理的空格
lifecycle 空：「這個功能區域涉及系統狀態轉換嗎？」有 → 補事件；純資料操作不改系統狀態 → 合理的空格

上表中「輸入」的 metric 和 lifecycle 空格是合理的 — 文字輸入送出不涉及效能量測和系統狀態轉換。「配對」的 lifecycle 空格也合理 — 配對完成後不改變系統的執行狀態。

粒度判準

事件粒度的判斷用一個 SRP 判準：一個事件記一個事實。

拆分訊號

一個事件記了兩個獨立的事實 → 拆成兩個事件。

terminal.connect_and_auth 同時記錄「連線建立」和「認證通過」。這兩個事實的失敗模式不同（連線失敗是網路問題、認證失敗是帳密問題）、觸發時機不同、消費者不同。拆成 terminal.connect.done 和 auth.token.sent。

合併訊號

兩個事件永遠同時觸發且消費者相同 → 合併成一個事件。

terminal.input.keystroke 和 terminal.input.keystroke_logged 永遠同時觸發（每個按鍵一次），data schema 相同。合併成一個 terminal.input.keystroke。

邊界案例

connect.done 同時記 event 和 metric（成功事件 + duration）。這是一個事實（連線完成）的兩個面向，可以合併成一個事件帶 duration_ms 欄位，也可以拆成 event 和 metric 兩筆。判斷依據是查詢需求 — 如果 funnel 分析和效能分析會分開查，拆開讓各自的查詢更簡單；如果都在同一個 dashboard 看，合併減少事件量。

data schema 設計

每個事件的 data 欄位回答「發生了什麼的 context」。設計原則：

帶足 debug context：error 事件的 data 至少包含 error message、發生的步驟、當時的關鍵狀態值。看到這筆 error 事件時、開發者不需要再去查其他來源就能判斷問題方向。

避免過度收集：data 只帶回答具體問題需要的欄位。terminal.connect.start 帶 URL 和觸發方式就夠了；不需要帶使用者的全部設定。

敏感欄位標記 redaction：URL 可能含 IP、error message 可能含路徑中的使用者名稱。在事件設計階段標記需要 redaction 的欄位，SDK 實作時自動處理。

事件表的產出格式

完整的事件表每列七欄：

事件名稱	類型	觸發時機	data schema	redaction 欄位	保留層級	備註
terminal.connect.start	event	使用者點擊連線	`{url, trigger}`	url	原始 7d	funnel 第一步

保留層級欄對應分層保留策略 — 哪些事件需要保留原始逐筆資料（debug 用）、哪些只需要聚合摘要（趨勢用）。

事件表是 SDK 埋點的 spec — 開發者照表實作，code review 時逐行勾選。和功能規格中的 log 點定義互補 — log 點是開發期的 debug 設計，事件表是監控期的收集設計。

下一步路由

四類事件的定義 → 四類事件的完整定義
事件命名規範 → 事件命名規範
行為事件的 funnel 設計 → 行為事件設計
事件 schema 的欄位定義 → event.schema.json 完整欄位解說
動機驅動的具體事件對應 → 動機驅動的事件設計

A/B Test 的統計基礎

Fri, 19 Jun 2026 00:00:00 +0000

A/B test 把使用者隨機分成兩組，一組看到原版（control），一組看到改版（treatment），比較兩組的指標差異。統計方法的角色是判斷「觀察到的差異是真實的還是隨機波動」。

假設檢定

虛無假設和對立假設

虛無假設（H0）：兩組沒有差異，觀察到的差異來自隨機波動。對立假設（H1）：兩組有真實差異。

A/B test 的邏輯是：假設 H0 成立（兩組沒有差異），計算「在 H0 成立的前提下，觀察到目前這麼大的差異的機率」。如果這個機率（p-value）很小（通常 < 0.05），拒絕 H0，接受 H1。

p-value 的意義

p-value = 0.03 代表「假設兩組沒有差異，觀察到目前差異的機率是 3%」。這個機率足夠小，合理推斷差異是真實的。

p-value 不代表「改版比原版好的機率是 97%」。p-value 是在 H0 成立的條件下計算的，不是改版效果的機率。

兩類錯誤

Type I error（偽陽性）：實際上沒有差異，但統計結果判定有差異。機率由顯著性水準 α 控制，通常設 0.05。

Type II error（偽陰性）：實際上有差異，但統計結果判定沒有差異。機率由統計檢定力（power = 1 - β）控制，通常要求 power ≥ 0.8。

樣本量計算

樣本量決定了 A/B test 能偵測到多小的差異。樣本量太小，即使改版有效果，test 也沒有足夠的統計檢定力偵測到。

樣本量計算需要四個參數：

基準轉換率：control 組目前的轉換率（例如 5%）
最小可偵測效果（MDE）：想偵測到的最小差異（例如 5% → 6%，相對提升 20%）
顯著性水準 α：通常 0.05
統計檢定力 1 - β：通常 0.8

以基準轉換率 5%、MDE 相對提升 20%（5% → 6%）、α = 0.05、power = 0.8 為例，每組需要約 14,500 個樣本。如果每天有 1,000 個使用者，需要跑 29 天。

樣本量不足時的常見錯誤是「提早看結果」— 跑了 3 天看到 p < 0.05 就停止。提早停止會膨脹 Type I error 率，因為隨機波動在小樣本中更容易產生看似顯著的差異。

多重比較

同時跑多個 A/B test 或測試多個變體（A/B/C/D）時，整體的 Type I error 率會膨脹。

跑 20 個 test，即使所有 test 的 H0 都成立（沒有真實差異），預期有 1 個 test（20 × 0.05）會出現 p < 0.05 的偽陽性。

Bonferroni 校正

最簡單的校正方式：把顯著性水準除以測試數量。跑 5 個 test，每個 test 的顯著性水準改為 0.05 / 5 = 0.01。

Bonferroni 校正很保守 — 降低了偽陽性但也降低了統計檢定力，可能錯過真實的差異。

False Discovery Rate（FDR）

Benjamini-Hochberg 方法控制的是「被判為顯著的結果中偽陽性的比例」，比 Bonferroni 更寬鬆。適合探索性分析（同時測試多個指標，容許一些偽陽性）。

A/B test 在自架方案的可行性

自架 collector 可以做基礎的 A/B test 分析 — 在行為事件中記錄使用者的分組（variant: "control" / variant: "treatment"），計算每組的轉換率，用統計檢定比較差異。

統計計算（p-value、信賴區間）可以用 Python（scipy.stats）或 R 完成。不需要商業 A/B test 平台。

商業 A/B test 平台（Optimizely、LaunchDarkly、Firebase Remote Config）額外提供的是：隨機分組管理、提早停止的統計保護（sequential testing）、多變體管理的 UI、和其他分析工具的整合。

下一步路由

推薦系統概論 → 推薦系統概論
使用者分群 → RFM 分群
行為事件設計 → 行為事件設計

GDPR 最小化原則的工程落地

Fri, 19 Jun 2026 00:00:00 +0000

GDPR 的資料最小化原則要求「只收集達成特定目的所需的最少資料」。這個法律原則轉譯到監控系統的工程實作，影響三個設計決策：收集什麼欄位、保留多久、誰可以存取。

資料最小化：只收集需要的欄位

資料最小化的工程落地是「每個收集的欄位都要能回答：這個欄位用來做什麼決策？」。如果一個欄位只是「可能有用」但沒有明確的消費場景，就不應該收集。

正面表列 vs 負面排除

正面表列（allowlist）是列出「收集哪些欄位」— 只收集清單上的欄位，其他全部不收。

負面排除（denylist）是列出「不收集哪些欄位」— 預設收集所有欄位，排除清單上的。

GDPR 的精神更接近正面表列 — 每個收集行為需要有正當理由（lawful basis）。工程上的實作方式是：事件 schema 定義哪些欄位是允許的，不在 schema 中的欄位在 collector 端丟棄。

SDK 端的最小化

SDK 端的最小化更主動 — 在事件產生時就只包含必要的欄位，而非送到 collector 再過濾。

設計 SDK 的 event API 時，不提供「送任意 key-value」的 free-form API，而是提供結構化的 API：

1// free-form（難以控制收集了什麼）
2monitor.event('login', data: {'email': email, 'ip': ip, 'device': device, ...})
3
4// 結構化（schema 控制收集範圍）
5monitor.event('login', loginMethod: 'biometric', success: true)

結構化 API 的參數在 SDK 設計時就決定了收集範圍，code review 時可以檢查「為什麼這個 event 需要這個參數」。

目的限制：收集的資料只用於聲明的目的

目的限制要求資料只用於收集時聲明的目的。監控系統收集事件的目的通常是 debug 和效能監控 — 如果之後要用同一份資料做行為分析或廣告投放，需要額外的法律基礎（通常是使用者同意）。

工程落地

目的限制在工程上的實作是「不同目的的資料分開儲存、分開授權」。

Debug 用的 error 事件和行為分析用的 event 事件存在不同的儲存位置（不同的 JSONL 檔案或不同的資料庫 table）。Debug 用途的 access 不需要使用者同意（legitimate interest）；行為分析用途的 access 需要使用者同意。

分開儲存讓「使用者撤回行為分析同意」的工程操作變簡單 — 刪除行為分析的儲存，不影響 debug 儲存。

儲存限制：不保留超過必要期間的資料

儲存限制要求資料只保留達成目的所需的最短期間。監控資料的合理保留期間依用途不同：

用途	合理保留期間	理由
Debug	30-90 天	大部分 bug 在 30 天內被發現和修復
效能趨勢	6-12 個月	季節性趨勢需要至少一年的資料
行為分析	依同意期間	使用者同意到期就刪除
合規審計	依法規要求（通常 1-7 年）	法規指定的最短保留期間

自動清理

Collector 的儲存清理應該自動化 — 手動清理依賴人記得執行，最終會被遺忘。

JSONL 儲存用「一天一檔」的命名（events-2026-06-19.jsonl），清理腳本每天刪除超過保留期限的檔案。Cron job 或 systemd timer 定期執行。

下一步路由

去識別化技術 → 去識別化策略
監控資料洩漏的威脅分析 → 監控資料洩漏的 threat model
Collector 的儲存設計 → 模組四 Collector 設計

Mixpanel / Amplitude

Fri, 19 Jun 2026 00:00:00 +0000

Mixpanel 和 Amplitude 是行為分析（product analytics）專用方案。核心功能是 funnel analysis、cohort analysis、retention analysis — 回答「使用者怎麼使用產品」。和 Sentry（error-first）、Datadog（APM-first）的定位有本質差異：行為分析的消費者是產品團隊，通用監控的消費者是工程團隊。

行為分析 vs 通用監控

通用監控方案（Sentry、Crashlytics、Datadog）的主要產出是 error 報告和 performance 數據 — 工程團隊用來修復 bug 和優化效能。

行為分析方案的主要產出是 funnel 和 cohort 數據 — 產品團隊用來決定功能優先順序、評估改版效果、優化使用者體驗。

兩類需求可以共存。工程團隊需要 error tracking，產品團隊需要行為分析。一些團隊同時使用 Sentry + Mixpanel，各自服務不同的消費者。

核心功能

Funnel analysis

定義使用者操作的步驟序列，計算每步的轉換率和流失率。Mixpanel 和 Amplitude 的 funnel 分析支援：步驟之間的時間窗口限制（步驟 1 到步驟 2 在 24 小時內完成才算轉換）、按使用者屬性分群（新使用者 vs 老使用者的轉換率差異）、步驟之間的路徑分析（流失的使用者去了哪裡）。

自架方案能做基礎的 funnel 計數（模組八自架 funnel），但不支援時間窗口、分群和路徑分析。

Cohort analysis

按使用者屬性或行為把使用者分成群組，比較不同群組的行為差異。例：「從 Google 廣告來的使用者」vs「從社群分享來的使用者」，兩組的留存率和付費率差異。

Retention analysis

追蹤使用者在初次使用後的回訪率。Day 1 / Day 7 / Day 30 retention — 多少使用者在首次使用後 1 天 / 7 天 / 30 天內回來。

Retention 是產品健康度的核心指標。行為分析方案提供 retention curve（留存曲線）和 retention by cohort（不同群組的留存差異），這些在自架方案中需要大量的 SQL 查詢和手動計算。

Mixpanel vs Amplitude 的差異

兩者的功能高度重疊，差異主要在定價和資料模型：

維度	Mixpanel	Amplitude
定價模型	按事件量計費	按 MTU（月活使用者）計費
資料模型	event-centric（事件為中心）	event + user profile
SQL 查詢	JQL（自訂查詢語言）	原生 SQL 支援（Amplitude SQL）
免費額度	每月 2000 萬事件	每月 1000 萬事件
整合	豐富的第三方整合	CDP（Customer Data Platform）強

選擇依據通常是團隊的既有工具鏈和定價模型偏好。

什麼時候需要行為分析方案

行為分析方案的投資在以下條件下有回報：

有產品團隊消費數據：如果只有工程團隊，error tracking + 自架 log 通常足夠。行為分析方案的 dashboard 需要產品團隊定期查看和基於數據做決策。

使用者數量足夠產生統計意義：Funnel 和 cohort 分析需要足夠的樣本量。DAU < 100 的產品，分析結果的統計信度低。

有明確的優化目標：「提高註冊轉換率」「降低 Day 7 流失率」— 有具體的 metric 目標，行為分析方案能提供追蹤和歸因。

自用工具場景下不需要行為分析方案 — 使用者就是開發者本人，行為數據沒有分析價值。

下一步路由

自架 vs 商業的判斷 → 自架 vs 商業的判斷決策表
行為分析的方法論 → 模組八行為資料的商業利用
四類事件在商業方案中的對應 → 模組一商業方案事件類型對應

SDK redaction helper

Fri, 19 Jun 2026 00:00:00 +0000

SDK redaction helper 在事件離開 SDK（進入 HTTP POST payload）前掃描事件內容，把匹配敏感資訊 pattern 的欄位值替換為 [REDACTED]。Redaction 在 SDK 端執行，確保敏感資訊不會經過網路傳輸到 collector — 即使 transport 層被攔截，攻擊者看到的也是脫敏後的資料。

預設 redaction rule

SDK 內建一組預設 rule，處理常見的敏感資訊 pattern：

密碼欄位

匹配 data 物件中 key 包含 password、passwd、secret、token、api_key、apiKey、authorization 的欄位。匹配方式是 key 名稱的子字串比對（case-insensitive）。

URL 中的認證資訊

匹配 https://user:password@host 格式的 URL，把 user:password 部分替換為 [REDACTED]。

Stack trace 中的檔案路徑

匹配 stack trace 字串中的使用者目錄路徑（/Users/username/、/home/username/、C:\Users\username\），替換為 [USER_HOME]/。避免使用者名稱從 stack trace 洩漏。

自訂 redaction rule

業務特定的敏感資訊（信用卡號、身分證字號、醫療資料）不在預設 rule 的範圍內。SDK 提供 API 讓開發者在 init 時註冊自訂 rule。

1Monitor.init({
2 redactionRules: [
3 { pattern: /\b\d{4}[-\s]?\d{4}[-\s]?\d{4}[-\s]?\d{4}\b/, replace: '[CARD]' },
4 { keyPattern: /^ssn$/i, replace: '[REDACTED]' },
5 ],
6})

自訂 rule 和預設 rule 一起執行。如果同一個值被多個 rule 匹配，第一個匹配的 rule 生效（rule 的執行順序：預設 rule 先，自訂 rule 後）。

Redaction 的執行時機

Redaction 在事件進入 flush payload 的那一刻執行 — buffer 中的事件保持原始內容，flush 時複製一份並在複製上執行 redaction。

在 buffer 中保持原始內容的理由是 debug：開發者在本地 console 看到的 log 應該包含完整資訊（開發環境不需要脫敏），只有離開 SDK 時才脫敏。SDK 可以提供 debugMode flag — debugMode 開啟時 console log 印出原始內容，HTTP POST 仍送出脫敏後的內容。

Redaction 和模組七的關係

SDK redaction helper 是模組七資安與隱私中 redaction 策略的實作層。模組七定義「什麼資訊需要被保護」（策略），本章定義「SDK 如何在程式碼中實現這個保護」（實作）。

兩者的分工：

層級	職責	定義在
策略層	哪些欄位需要 redaction、哪些 pattern 敏感	模組七
實作層	預設 rule、自訂 rule API、執行時機	本章
驗證層	確認脫敏後的事件不包含敏感資訊	collector 端

Collector 端可以做第二道檢查（re-scan 收到的事件是否仍包含敏感 pattern），作為 SDK 端 redaction 的備援。但主要的脫敏責任在 SDK 端 — 資料離開 SDK 後經過網路，已經暴露在傳輸風險中。

下一步路由

SDK 公開 API → SDK 公開 API 設計
資安與隱私的完整策略 → 模組七資安與隱私
自動攔截的 error 也需要 redaction → 自動攔截機制

規模演進

Fri, 19 Jun 2026 00:00:00 +0000

Collector 的儲存方案是可插拔 storage backend — 同一個 binary 透過啟動參數選擇不同的 storage implementation。Go 的 interface composition 讓 storage 分成 BasicStorage（所有 backend 共用）和 AnalyticsStorage（PostgreSQL 層新增），內部實作（SQLite / PostgreSQL / 時間序列 DB）分離，切換是 config change 而非重寫程式碼。

 1type BasicStorage interface {
 2    Store(event Event) error
 3    Query(filter QueryFilter) ([]Event, error)
 4    Close() error
 5    Downsample() error
 6    Purge() error
 7}
 8
 9type AnalyticsStorage interface {
10    BasicStorage
11    Aggregate(spec AggregateSpec) (AggregateResult, error)
12    Funnel(steps []string, timeWindow Duration) (FunnelResult, error)
13    Cohort(groupBy string, metric string) (CohortResult, error)
14}

SQLite implementation 只實作 BasicStorage。PostgreSQL implementation 實作 AnalyticsStorage。Dashboard 用 Go 的 type assertion（if as, ok := storage.(AnalyticsStorage); ok { ... }）判斷能力 — funnel/cohort 視圖在 SQLite 模式下不顯示入口，而非顯示後報錯。

選擇哪個 backend 取決於部署場景和查詢需求：

場景	Backend	啟動參數
自架簡單版（零依賴）	SQLite	`--storage=sqlite`
需要聚合分析的自用版	PostgreSQL	`--storage=postgres --dsn=...`
高併發 + 長期保留	時間序列 DB	`--storage=timescale --dsn=...`

SQLite Backend（day-one 預設）

SQLite 是嵌入式資料庫，編譯進 collector binary 中，不需要額外 server。Go 用 modernc.org/sqlite（pure Go、無 CGO 依賴、效能約為 CGO driver mattn/go-sqlite3 的 60-80%，自用規模下足夠），開源使用者 go build && ./collector 就能跑，部署步驟為零。WAL mode 允許讀寫並行 — dashboard 的 SELECT 查詢不會被 ingestion 的 INSERT 阻塞，反之亦然。寫入之間的競爭由 busy_timeout 處理。

能力範圍

索引查詢：按 type、name、timestamp 建索引，查詢從全表掃描變成索引查找
SQL 聚合：SELECT name, COUNT(*) FROM events WHERE type='error' GROUP BY name — 一行 SQL 完成分群計數
跨欄位過濾：WHERE type='error' AND name LIKE 'terminal.%' AND ts > '2026-06-18'
寫入：WAL mode 下每秒數千筆 append 寫入

Events 主表 DDL

Events 表的欄位從 event.schema.json 的 JSON 結構推導。Source 的 nested object 攤平成獨立 column — 方便 SQL 查詢和索引，不需要每次從 JSON 裡 extract。

 1CREATE TABLE events (
 2    id INTEGER PRIMARY KEY AUTOINCREMENT,
 3    v INTEGER NOT NULL DEFAULT 1,
 4    type TEXT NOT NULL,
 5    name TEXT NOT NULL,
 6    ts TEXT NOT NULL,
 7    source_sdk TEXT,
 8    source_app TEXT,
 9    source_version TEXT,
10    source_platform TEXT,
11    source_os TEXT,
12    session_id TEXT,
13    session_started TEXT,
14    level TEXT,
15    data TEXT,
16    error_message TEXT,
17    error_stack TEXT,
18    error_type TEXT,
19    receive_ts TEXT
20);

source_sdk 獨立成 column 讓「按 SDK 來源篩選」（WHERE source_sdk = 'python'）不需要從 JSON extract。data 用 TEXT 存 JSON。SQLite 沒有原生 JSON 型別，但 3.38+ 支援 json_extract() 函式做查詢（WHERE json_extract(data, '$.duration_ms') > 1000）。session_id 獨立成 column 讓 session 回放的 JOIN 不需要 JSON extract。error_stack 獨立成 column 讓 error 調查時全文搜尋 stack trace 不需要 JSON extract。receive_ts 是 collector 收到事件的時間，和 SDK 端的 ts 對照可估算 clock drift。

PostgreSQL 版本的差異：data 改成 JSONB 型別（原生索引和查詢）、source_* 可保持為 nested JSON（PostgreSQL 的 JSONB 查詢效能足夠）或維持攤平（和 SQLite 版本保持一致）。

建議索引

建表時一起建索引，覆蓋 dashboard 的核心查詢模式：

1CREATE INDEX idx_type_ts ON events(type, ts);    -- 按 type + 時間過濾（error 列表、趨勢圖）
2CREATE INDEX idx_session ON events(session_id);   -- 按 session 回放
3CREATE INDEX idx_name ON events(name);            -- 按 name 分群計數（功能使用排行）

Day-one 建表時就建，不是效能出問題後才加。

適用規模

單日事件量在十萬筆以下、SQLite 資料庫在 1GB 以下。索引查詢在毫秒級完成。自用工具和小型團隊的日常使用通常在這個範圍。

分層保留與降採樣

保留策略從查詢需求反推，每一種查詢需要的資料粒度和回溯深度不同。回溯越深的查詢需要的粒度越粗 — debug 需要最近幾天的逐筆事件，cohort 留存需要一整年的資料但每週一筆聚合數字就夠。

查詢用途	需要的粒度	回溯深度	對應表
Debug 定位	逐筆原始	天	events
Funnel	逐筆 event	週～月	events
Error 趨勢	每小時計數	月～季	hourly_summary
Cohort	每天計數	季～年	daily_summary
RFM 分群	每月聚合	年	monthly_summary

SQLite 中的實作是三張摘要表加定期 job：

 1-- 摘要表
 2CREATE TABLE hourly_summary (
 3    hour TEXT, type TEXT, name TEXT,
 4    count INTEGER, error_count INTEGER,
 5    UNIQUE(hour, type, name)
 6);
 7CREATE TABLE daily_summary (
 8    date TEXT, type TEXT, name TEXT,
 9    count INTEGER, unique_sessions INTEGER,
10    UNIQUE(date, type, name)
11);
12
13-- 降採樣（Downsample，每小時跑一次，幂等 — 重跑只更新不重複）
14INSERT OR REPLACE INTO hourly_summary (hour, type, name, count, error_count)
15SELECT strftime('%Y-%m-%dT%H:00:00', ts), type, name,
16       COUNT(*), SUM(CASE WHEN type='error' THEN 1 ELSE 0 END)
17FROM events
18WHERE ts >= datetime('now', '-1 hour')
19GROUP BY 1, 2, 3;
20
21-- 清理（Purge，每天跑一次，分批刪除避免長時間鎖定）
22DELETE FROM events WHERE rowid IN (
23  SELECT rowid FROM events WHERE ts < datetime('now', '-7 days') LIMIT 10000
24);
25-- 重複執行直到影響行數為 0
26DELETE FROM hourly_summary WHERE hour < datetime('now', '-90 days');
27DELETE FROM daily_summary WHERE date < datetime('now', '-365 days');

保留期限由 collector config 設定，數字的來源是「哪些查詢需要回溯多遠」：

1retention:
2  raw_events: 7d
3  hourly_summary: 90d
4  daily_summary: 365d
5  monthly_summary: forever

Storage interface 的 Downsample() 和 Purge() 由 collector 的定時排程觸發（Go 的 time.Ticker）。每個 storage backend 各自實作 — SQLite 用上述 SQL、PostgreSQL 用相同邏輯但可以加 partial index 加速、時間序列 DB 的 continuous aggregate 和 retention policy 原生支援。

為什麼是聚合而非抽樣

原始事件的保留期到期後，需要決定如何保留歷史統計。降採樣有兩種思路。抽樣保留是同事件名稱（name 欄位）同小時保留一筆原始事件、刪除其餘，保留了逐筆查詢能力但喪失準確計數。聚合摘要是把一小時內的事件壓成一筆計數記錄，喪失逐筆細節但保留準確統計。

Collector 選擇聚合摘要——捨棄逐筆細節，換取準確計數。降採樣後的資料用途是趨勢圖和長期統計，這些查詢需要「過去 30 天每小時的 error 總數」而非「某一筆原始 error 的 stack trace」。

這意味著原始事件 purge（定期清理過期事件）後，超過保留期的逐筆查詢會回傳空結果。Dashboard 在回溯超過原始事件保留期的時間範圍時，應切換到上方的摘要表（hourly_summary/daily_summary）查詢——顯示趨勢圖而非事件列表。設計方向是查詢 API 的 from 參數超過 retention.raw_events 時自動降級到摘要表，或回傳提示告知 client 該時間範圍只有聚合資料（初版 collector 尚未實作此降級邏輯）。

觸發切換到 PostgreSQL 的訊號

寫入爭搶：SQLite 是單寫者模型。高併發寫入（多個 SDK 同時 flush、每秒數百筆以上持續發生）會出現 database is locked 錯誤。WAL mode 能緩解但不能根治。

聚合查詢效能不足：Dashboard 需要的聚合查詢（「過去 30 天每小時的 error 數量趨勢」「funnel 的每步轉換率」）在資料量成長後變慢。SQLite 沒有 parallel query 和 partial index 等進階 OLAP 能力。

跨實例需求：需要多個 collector 實例共用同一個資料庫時，SQLite 的單檔案模型無法跨主機存取。

PostgreSQL Backend（分析觸發）

PostgreSQL 是獨立的資料庫 server，提供多連線並行寫入、進階索引（GIN for JSONB、partial index）和完整的 SQL 分析能力。切換到 PostgreSQL 意味著 collector 從「零依賴單一 binary」變成「binary + 外部 DB」，運維複雜度上升。

觸發條件

SQLite 的寫入爭搶或聚合效能成為瓶頸時切換。具體訊號：database is locked 錯誤頻率超過每分鐘一次、或 dashboard 的聚合查詢超過 3 秒。

切換方式

切換是 config change：把 --storage=sqlite 改成 --storage=postgres --dsn=postgres://...。資料遷移用匯出 + 匯入完成：

從 SQLite 匯出事件為 JSONL（monitor export --format=jsonl）
在 PostgreSQL 建立 events 表（schema 和 SQLite 相同，data 欄位改用 JSONB）
匯入 JSONL 到 PostgreSQL（monitor import --storage=postgres --file=events.jsonl）
切換啟動參數、確認查詢正常後停用 SQLite 檔案

Storage interface 保證 collector 的 ingestion、query、rule engine 邏輯不需要改動 — 只有 storage implementation 層切換。

能力增量

並行寫入：多個 SDK 同時 flush 不會 lock
JSONB 索引：對 data 欄位的特定 key 建索引（CREATE INDEX ON events ((data->>'name'))）
Window function：funnel 和 cohort 分析的 SQL 基礎
Read replica：寫入和查詢分離，dashboard 的查詢不影響 ingestion 效能

時間序列 DB Backend（長期演進）

時間序列資料庫（TimescaleDB、InfluxDB、VictoriaMetrics）專門為高頻 append 寫入和時間分桶聚合設計。TimescaleDB 基於 PostgreSQL 擴展，Storage interface 的 PostgreSQL implementation 可以直接複用、加上 hypertable 和 continuous aggregate。

觸發條件

每秒數萬筆以上的持續寫入、或需要自動 downsampling（每分鐘的原始資料保留 7 天、每小時的聚合保留 90 天、每天的聚合永久保留）。多數自用工具和小型團隊不會到達這個規模。

能力增量

時間分桶原生操作：time_bucket('1 hour', ts) 替代手動 DATE_TRUNC
Continuous aggregate：預計算的聚合結果自動更新
壓縮：歷史資料自動壓縮，TB 級資料可查詢
Retention policy：按時間自動清理舊資料

JSONL 匯出（debug 用途）

JSONL 不作為主要 storage backend，而是作為匯出格式保留人類可讀性和 grep 友好性。monitor export --format=jsonl 把 storage 中的事件匯出為每行一個 JSON 物件的檔案，讓開發者可以用 grep / jq 做臨時查詢或把資料搬到其他工具。

JSONL 匯出也是備份和遷移的中介格式 — SQLite 損壞時從 JSONL 重建、切換到 PostgreSQL 時從 JSONL 匯入。

匯出使用 streaming — 從 storage 逐筆讀取、逐行寫出檔案，記憶體使用和事件總量無關。300 萬筆事件（約 900MB JSONL）的匯出不需要載入全部資料到記憶體。匯出的 JSONL 檔案包含事件明文（已 redaction 的欄位除外），匯出後不受 collector 的存取控制保護，應注意存放位置和存取權限。

演進原則

按觀察到的瓶頸切換。database is locked 錯誤頻率、聚合查詢延遲、磁碟使用量 — 這些是可觀察的訊號。「未來可能有百萬筆事件」是預測。按訊號行動，不按預測行動。

切換是 config change。Storage interface 確保切換 backend 時 collector 的其他邏輯（ingestion、query API、rule engine、dashboard）不需要改動。切換的成本是資料遷移，不是程式碼重寫。

SQLite 是安全的起點。多數開源使用者會停留在 SQLite backend — 單日萬筆以下、索引查詢毫秒級、零依賴部署。只有明確的效能瓶頸才值得引入外部 DB 的運維成本。

下一步路由

Collector 的整體架構 → Collector 架構
查詢 API 的設計（跨 backend 統一） → 查詢 API 設計
資料庫選型的通用指南 → backend 01 資料庫
效能瓶頸的判讀方法 → backend 09 效能容量
水平擴展的基礎概念 → DevOps 水平擴展
Error fingerprint 的 DDL 擴充 → Error Fingerprint 與去重分群

跨平台 timestamp 一致性

Fri, 19 Jun 2026 00:00:00 +0000

跨平台的監控系統收到來自不同平台（JS / Flutter / Python / Go）的事件，每個平台的 timestamp 格式、精度和時鐘來源不同。Collector 需要對這些 timestamp 做排序、分組和時間範圍查詢，一致性問題會導致事件順序錯亂和分析結果偏差。

統一格式：ISO 8601 + 時區偏移

所有平台的 SDK 統一使用 ISO 8601 格式，包含毫秒精度和時區偏移：

12026-06-19T14:30:00.123+08:00

避免使用 Unix timestamp（秒或毫秒）作為僅有的時間表示 — Unix timestamp 沒有時區資訊，如果 SDK 端和 collector 端在不同時區，需要額外的 metadata 才能正確轉換。

避免使用「本地時間不帶時區」的格式（2026-06-19T14:30:00）— 無法區分 UTC+8 的 14:30 和 UTC+0 的 14:30。

各平台的 timestamp 來源

JavaScript

Date.now() 回傳毫秒精度的 Unix timestamp。new Date().toISOString() 回傳 UTC 時間的 ISO 8601 字串。

SDK 應該用 Intl.DateTimeFormat 或手動計算時區偏移，產生帶本地時區的 ISO 8601 字串 — collector 端需要知道事件的本地時間，以便做使用者時區的分析。

performance.now() 提供微秒精度的高解析度時間，但起點是頁面載入時間，無法用來產生絕對 timestamp。用於計算 duration（兩個時間點的差值），不用於記錄事件時間。

Flutter / Dart

DateTime.now() 回傳本地時間的 DateTime 物件。DateTime.now().toUtc() 轉成 UTC。DateTime.now().toIso8601String() 產生 ISO 8601 字串，但不包含時區偏移（Dart 的 ISO 8601 格式不包含 offset）。

SDK 需要手動附加時區偏移：DateTime.now().timeZoneOffset 取得偏移量，手動格式化為 +08:00 格式附加到 ISO 8601 字串後面。

Python

datetime.now(timezone.utc) 取得 UTC 時間。datetime.now().astimezone() 取得本地時間帶時區。.isoformat() 產生帶時區偏移的 ISO 8601 字串。

Python 3.2+ 的 datetime 原生支援 timezone-aware 的 ISO 8601 輸出，是各平台中最完整的。

Go

time.Now() 回傳帶時區的 Time 值。time.Now().Format(time.RFC3339Milli) 產生帶毫秒和時區偏移的字串。

Go 的 time.RFC3339Nano 提供奈秒精度，但監控事件不需要這個精度 — 毫秒足夠。

Clock drift

不同裝置的系統時鐘可能有偏差（clock drift）。使用者手機的時鐘比 collector server 快 5 分鐘，SDK 產生的 timestamp 會比 collector 收到時間早 5 分鐘。

Clock drift 的影響：

排序錯亂：裝置 A（時鐘快）和裝置 B（時鐘慢）的事件混合排序時，時間順序可能和真實發生順序不一致
告警延遲計算錯誤：collector 用「事件 timestamp 到收到時間的差值」計算延遲，clock drift 讓延遲值不準確

處理策略：

Collector 記錄 receive_timestamp：每筆事件除了 SDK 端的 timestamp，collector 在收到時附加 receive_timestamp。兩者的差值用於估算 clock drift 和網路延遲。

容忍而非修正：在數秒到數分鐘級的 drift 範圍內，容忍 drift 帶來的排序不精確。跨裝置的事件排序本身就不需要毫秒精度 — 分析的粒度通常是秒或分鐘。

異常值偵測：timestamp 比 receive_timestamp 早超過 1 小時，或晚超過 5 分鐘，標記為可疑的 clock drift — 可能是使用者手動調整了系統時鐘。

下一步路由

JS 平台適配 → JS/TS 平台適配
Flutter 平台適配 → Flutter 平台適配
Log schema 中的 timestamp 欄位 → 模組二 event.schema.json 欄位解說
各平台的 error 攔截差異影響 test 設計 → testing 模組五測試設計判斷

模組五：平台適配

Fri, 19 Jun 2026 00:00:00 +0000

回答「各平台有什麼特殊考量」。

待寫章節

JS/TS 平台：CORS 限制、Service Worker 攔截、SPA 路由變換偵測
Flutter 平台：isolate 安全、Platform channel 攔截、app lifecycle
Python 平台：GIL 與 threading、atexit 可靠性、subprocess 監控
Go 平台：graceful shutdown、signal handling、HTTP server 自身監控
跨平台 timestamp 一致性（時區、精度、clock drift）

跨分類引用

→ testing 模組五測試設計判斷：各平台 error 攔截差異影響 test 設計

Backpressure

Wed, 24 Jun 2026 00:00:00 +0000

背壓（backpressure）的通用概念見 Backend 知識卡：Backpressure — 下游處理能力不足時向上游回傳「慢下來」訊號。本卡聚焦監控系統中的具體實作：collector 是下游、SDK 是上游，collector 的寫入 channel 滿時回 HTTP 429（Too Many Requests），SDK 收到 429 後自動降低取樣率。可先對照 rate limiting（per-client 的配額限制）。

概念位置

背壓位在 SDK 和 collector 之間的 HTTP 通訊層。觸發順序：collector 的寫入 channel 容量耗盡 → HTTP handler 無法送入事件 → 回 429 → SDK 收到 429 → SDK 降低取樣率（從 1.0 → 0.5 → 0.1）。背壓是全域的容量訊號 — 所有 SDK 同時收到，所有 SDK 同時降速。

可觀察訊號與例子

需要關注背壓的訊號是 collector 端的 collector.events.backpressure 計數器持續上升、或 SDK 端的 sdk.sampling.rate 低於 1.0。典型場景：行銷活動導致同時在線使用者暴增 → 所有 SDK 同時 flush → collector channel 瞬間填滿 → 全域 429 → 所有 SDK 動態降採樣。

和 DevOps 背壓的關係

DevOps 流量管控討論通用的背壓概念（TCP flow control、message queue consumer lag、circuit breaker）。本系列聚焦 SDK ↔ collector 之間的具體實作 — HTTP 429 是訊號、動態取樣是回應、Go channel 容量是觸發條件。通用概念在 DevOps 模組，監控場景的具體機制在本系列。

完整章節

背壓在四層防線中的位置（第二層 collector 單機防護）→ Ingestion Scaling。背壓造成的資料損失和控制策略 → 端到端資料完整性。

功能分層與 Backend 選擇

Sat, 20 Jun 2026 00:00:00 +0000

Collector 的可插拔 Storage Backend 分成兩個功能層級。分界線是查詢模式 — SQLite 能高效處理的查詢定義了簡單版的功能邊界，超出的查詢需求觸發 PostgreSQL 的引入。所有事件都經過同一個 Ingestion domain，差異在 Query 和 Dashboard domain 能提供什麼能力。

SQLite 層：開發者工具

SQLite 層提供的功能聚焦在「開發者自己 debug 和監控」。所有查詢都是單一維度的 — 按時間、按類型、按名稱過濾，不需要跨事件 JOIN 或跨使用者聚合。

承載的功能

功能	查詢模式	SQL 範例
最近 error 列表	按 type + 時間過濾	`WHERE type='error' ORDER BY ts DESC LIMIT 20`
Error 計數（按 name 分群）	單表 GROUP BY	`SELECT name, COUNT(*) FROM events WHERE type='error' GROUP BY name`
單次 session 回放	按 session_id 過濾	`WHERE session_id='xxx' ORDER BY ts`
事件時間軸	按時間排序	`WHERE ts BETWEEN ? AND ? ORDER BY ts`
基本 rule engine	逐筆事件評估	收到事件時逐條比對 rule（不需要查歷史）
CLI 查詢	任意過濾	`WHERE type=? AND name LIKE ? AND ts > ?`

這些功能覆蓋開發者日常 debug 和監控的核心操作 — 查錯誤、看時間軸、回放 session、設規則告警。

對應的 Dashboard 視圖

視圖	顯示
總覽頁	最近 1 小時的事件計數（按 type 分）+ 最近 error 列表
事件詳情	單筆事件的完整 JSON
Session 回放	單次 session 內的事件序列

對應的事件消費

SQLite 層消費所有四類事件，但消費方式是「單筆或單 session 級查詢」：

事件類型	消費方式	保留需求
event	按名稱計數、按 session 排列	原始 7 天（debug）
error	按名稱分群、按時間排列、看 stack trace	原始 30 天（error 追蹤價值較長）
metric	按名稱查最近 N 筆的值	原始 7 天 + 每小時聚合 90 天
lifecycle	按 session 排列、看狀態轉換	原始 7 天

PostgreSQL 層：行為分析

PostgreSQL 層在 SQLite 層的基礎上加入「跨 session、跨使用者的聚合分析」。這些查詢需要 JOIN 多張表、計算時間窗口、處理大量資料的 GROUP BY — SQLite 的單寫者模型和有限的查詢最佳化器在這些場景下效能不足。

觸發引入 PostgreSQL 的功能需求

功能需求	為什麼 SQLite 不夠	PostgreSQL 提供什麼
Funnel 分析	跨大量 session 的 multi-step JOIN 和聚合效能不足	Window functions + 高效 JOIN
Cohort 留存	需要按「註冊週」分群、計算每週的回訪率	Date functions + 大規模 GROUP BY
RFM 分群	需要跨所有使用者計算 recency/frequency/monetary	全表聚合 + 分位數計算
時間趨勢 dashboard	需要「過去 30 天每小時的 error P95」	時間分桶 + percentile 函數
高併發寫入	多個 SDK 同時 flush 且持續出現 database is locked	連線池 + 並行寫入
長期保留 + 聚合	降採樣的 materialized view	REFRESH MATERIALIZED VIEW

判斷公式

1需要 funnel / cohort / RFM 任一 → PostgreSQL
2需要跨使用者聚合（不只看自己的資料） → PostgreSQL
3需要高併發寫入（多個 SDK 同時 flush 且持續出現 database is locked 錯誤） → PostgreSQL
4以上都不需要 → SQLite 足夠

對應的 Dashboard 視圖（SQLite 層不提供）

視圖	查詢模式
Funnel 漏斗	多步驟轉換率（session 級 JOIN）
Cohort 留存表	時間窗口 × 群組矩陣
RFM 分群散佈	三維度分位數計算
Error 趨勢圖（長期）	30 天 × 每小時的時間序列
效能 P95 趨勢	percentile_cont 視窗函數

對應的事件消費

PostgreSQL 層消費的事件和 SQLite 相同（Ingestion 不變），但消費方式從「單筆/單 session」擴展到「跨 session/跨使用者」：

事件類型	SQLite 層消費	PostgreSQL 層新增消費
event	按名稱計數	funnel 步驟轉換、cohort 行為分群
error	按名稱分群	跨版本 error 率比較、P95 回應時間趨勢
metric	最近 N 筆值	長期趨勢（materialized view 預聚合）
lifecycle	單 session 排列	session 長度分佈、留存率計算

Domain 的分層影響

Domain	SQLite 層	PostgreSQL 層新增
Ingestion	HTTP POST → 驗證 → 寫入	不變（寫入目標換 backend）
Storage	SQLite embedded	PostgreSQL + 連線池
Query	單表過濾 + 單表 GROUP BY	JOIN + window function + percentile
Rule	逐筆事件即時評估	不變（rule 不依賴聚合查詢）
Dashboard	總覽 + 事件詳情 + session 回放	新增 funnel / cohort / RFM / 趨勢圖

Ingestion 和 Rule 兩個 domain 和 storage backend 無關 — 事件進來的方式和規則評估的邏輯不因 backend 改變。Query 和 Dashboard 是分層影響最大的兩個 domain — PostgreSQL 層的查詢能力決定了 Dashboard 能提供什麼視圖。

實作邊界

Storage interface 用 Go 的 interface composition 分成兩層：

 1type BasicStorage interface {
 2    Store(event Event) error
 3    Query(filter QueryFilter) ([]Event, error)
 4    Close() error
 5    Downsample() error
 6    Purge() error
 7}
 8
 9type AnalyticsStorage interface {
10    BasicStorage
11    Aggregate(spec AggregateSpec) (AggregateResult, error)
12    Funnel(steps []string, timeWindow Duration) (FunnelResult, error)
13    Cohort(groupBy string, metric string) (CohortResult, error)
14}

下一步路由

可插拔 Storage Backend 的架構 → 規模演進
事件枚舉方法（哪些事件要收） → 事件枚舉與補齊檢查
分層保留策略 → 規模演進的分層保留段
Funnel 分析的完整方法論 → Funnel analysis
查詢消費模式（各場景需要什麼事件）→ 查詢消費模式

前端感測器設計

Sat, 20 Jun 2026 00:00:00 +0000

感測器是 SDK 主動偵測使用者行為的元件。和自動攔截機制的被動攔截不同 — auto-intercept 攔截的是系統級事件（uncaught exception、unhandled rejection），感測器偵測的是業務級行為（使用者點了什麼、看了哪個畫面、操作花了多久）。兩者互補：auto-intercept 提供 error 和 lifecycle 的基礎層，感測器提供 event 和 metric 的業務層。

點擊/觸碰感測器

點擊感測器偵測使用者和 UI 元素的互動 — 按鈕點擊、連結觸碰、選單選擇。每次互動產生一個 event 類型的事件。

哪些元素值得追蹤

追蹤粒度的判斷依據是「這個互動是否對應一個有意義的使用者意圖」。

有意義的互動（值得追蹤）：提交表單、點擊導航按鈕、觸發功能操作（連線、配對、匯出）。這些互動對應使用者的明確意圖，是 funnel 分析的步驟候選。

低價值的互動（通常不追蹤）：滾動、hover、重複的相同操作（每秒多次的按鈕連按）。這些互動要麼太頻繁（滾動每秒觸發數十次），要麼不代表新的使用者意圖。

實作方式

Web（JS/TS）：在 document 層級用 event delegation 攔截 click 事件，過濾出帶 data-track attribute 的元素。開發者在需要追蹤的元素上加 data-track="connect-button"，感測器自動收集。不追蹤所有 click — 只追蹤被標記的。

Flutter：用 NavigatorObserver 或 custom GestureDetector wrapper。GestureDetector 包裝在需要追蹤的 widget 外層，onTap 觸發時送出事件。

效能影響

Event delegation 在 document 層級只有一個 listener，效能影響接近零。瓶頸在事件產生頻率 — 如果追蹤了高頻操作（每秒多次的滑動），事件進入 buffer 的速度可能超過 flush 的速度。用取樣控制（見本章末段）。

導航/路由感測器

導航感測器偵測使用者在不同畫面之間的切換 — page view、screen view、route change。每次切換產生一個 lifecycle 類型的事件。

平台差異

Web SPA：SPA 的 route 變換不觸發頁面載入，需要主動偵測 URL 變化。兩種偵測方式：

History API 攔截：覆寫 pushState / replaceState，攔截 popstate 事件
框架層級 Hook：React Router 的 useLocation、Vue Router 的 afterEach guard

History API 攔截是 SDK 層的通用做法（不依賴框架）；框架 Hook 更精確但需要使用者整合（見 JS/TS 平台的 SPA 路由段）。

Flutter：用 NavigatorObserver 的 didPush / didPop / didReplace 回呼。每次路由變化自動觸發，不需要使用者在每個頁面手動埋點。

Python CLI/Hook：沒有「畫面切換」的概念。對應的 lifecycle 事件是 hook.start / hook.complete — 每個 Hook 執行視為一個「畫面」。

事件 schema

1{
2  "type": "lifecycle",
3  "name": "screen.view",
4  "data": {
5    "screen_name": "TerminalScreen",
6    "previous_screen": "HomeScreen",
7    "navigation_method": "push"
8  }
9}

navigation_method（push / pop / replace / go）記錄導航方式，和 go vs push 的 UX 語意對應。

錯誤邊界感測器

錯誤邊界感測器攔截元件級的 error — 和 auto-intercept 的全域 error 攔截互補。

和 auto-intercept 的職責分工

層級	機制	攔截什麼
全域	auto-intercept（`window.onerror` / `FlutterError.onError`）	uncaught exception、未處理的 Promise rejection
元件	錯誤邊界感測器（React ErrorBoundary / Flutter Widget error handler）	元件渲染失敗、子樹 error

全域攔截捕獲「逃逸到頂層的 error」，錯誤邊界捕獲「在元件層級就被攔住的 error」。如果一個 error 被元件的 ErrorBoundary 捕獲，它不會觸發 window.onerror — auto-intercept 看不到它。錯誤邊界感測器填補這個缺口。

實作方式

React：ErrorBoundary 元件的 componentDidCatch 回呼中呼叫 monitor.error()。

Flutter：在 Widget 層用 ErrorWidget.builder 或自訂的 error handling widget。

額外 context

錯誤邊界感測器比全域攔截多一個 context — 知道 error 發生在哪個元件（component name / widget name）。這個資訊在 error 的 data schema 中記錄為 component 欄位。

效能標記感測器

效能標記感測器量測操作的延遲和系統的渲染表現。產生 metric 類型的事件。

Web Core Vitals

Web 平台用 PerformanceObserver API 自動收集三個核心指標：

LCP（Largest Contentful Paint）：最大內容元素的載入時間
FID（First Input Delay）：首次互動的延遲
CLS（Cumulative Layout Shift）：累計佈局位移分數

1new PerformanceObserver((list) => {
2  for (const entry of list.getEntries()) {
3    monitor.metric(`web.vitals.${entry.entryType}`, {
4      value: entry.startTime || entry.value,
5      url: location.pathname
6    });
7  }
8}).observe({ type: 'largest-contentful-paint', buffered: true });

實務上依 entryType 分別取值（LCP 用 startTime、CLS 用 value、FID 用 processingStart - startTime），上述範例簡化示意。

Flutter frame timing

Flutter 用 SchedulerBinding.addTimingsCallback 偵測掉幀：

 1SchedulerBinding.instance.addTimingsCallback((timings) {
 2  for (final t in timings) {
 3    if (t.totalSpan > const Duration(milliseconds: 16)) {
 4      monitor.metric('render.frame_drop', {
 5        'build_ms': t.buildDuration.inMilliseconds,
 6        'raster_ms': t.rasterDuration.inMilliseconds,
 7      });
 8    }
 9  }
10});

16ms 是 60fps 的單幀預算。超過代表掉幀。

自訂 duration 量測

業務操作的延遲用手動標記量測：

1final stopwatch = Stopwatch()..start();
2await connectToTerminal();
3stopwatch.stop();
4monitor.metric('terminal.connect.duration', {
5  'duration_ms': stopwatch.elapsedMilliseconds,
6});

輸入敏感度感測器

輸入敏感度感測器偵測使用者正在輸入敏感資料 — 密碼欄位、API key 輸入、信用卡號碼。這個感測器的責任是觸發 redaction，而非記錄輸入內容。

偵測邏輯

Web：偵測、帶有 autocomplete="cc-number" 或 data-sensitive attribute 的欄位。當使用者 focus 這些欄位時，標記當前 session 進入「敏感輸入模式」— 後續的事件自動加嚴 redaction 規則（例如暫停記錄按鍵事件）。

Flutter：偵測 TextField 的 obscureText: true 或 enableIMEPersonalizedLearning: false（見安全敏感輸入框的 IME 控制）。

不記錄的原則

輸入敏感度感測器偵測「使用者正在輸入敏感內容」這個事實，但不記錄輸入的內容本身。送出的事件只包含：

1{
2  "type": "lifecycle",
3  "name": "input.sensitive_mode.entered",
4  "data": { "field_type": "password" }
5}

取樣策略設計

感測器產生的事件量可能很大（效能標記每 30 秒一筆 × 活躍使用者數）。取樣控制事件量、避免 SDK 和 collector 的資源壓力。

三種取樣模式

全收：每筆事件都送出。適合事件量低且每筆都有價值的類型 — error（每筆都可能是新 bug）、lifecycle 狀態轉換（量低）、認證失敗（安全敏感）。

百分比取樣：隨機丟棄一定比例的事件。適合高頻的效能和行為事件。取樣率由 SDK config 控制：

1sensors:
2  metric:
3    render.frame_drop: { sampling: 0.1 }    # 只收 10%
4    resource.memory: { sampling: 0.5 }       # 收 50%
5  event:
6    feature.*.used: { sampling: 1.0 }        # 全收
7    click.*: { sampling: 0.1 }               # 只收 10%

百分比取樣的代價是低機率事件可能被漏掉（取樣 10% 時、發生 5 次的事件可能一次都沒收到）。

條件取樣：正常情況下取樣、特定條件下全收。適合「平時不需要全量但問題發生時需要完整資料」的場景。例：正常 session 取樣 10%、但 session 內發生 error 後、該 session 剩餘事件全收（error session 的完整 context 比正常 session 更有價值）。

取樣率的管理

取樣率可以從三個層級設定：

層級	設定方式	適用場景
SDK 本地 config	隨 app 版本部署	固定的基線取樣率
Collector 下發	SDK 啟動時從 collector 取得 config	動態調整、不需要重新部署 app
Feature flag 服務	整合 LaunchDarkly / Unleash	實驗期間對特定群組調整取樣

三個層級由上到下優先順序遞增 — feature flag 覆蓋 collector config、collector config 覆蓋本地 config。

下一步路由

動機驅動的事件設計（哪些動機需要哪些感測器） → 動機驅動的事件設計
感測器的啟停控制和生命週期 → 感測器生命週期管理
被動攔截機制（和感測器互補） → 自動攔截機制
安全敏感輸入的完整 checklist → 安全敏感輸入框的 IME 控制

動機驅動的事件設計

Sat, 20 Jun 2026 00:00:00 +0000

事件設計是三維結構：動機（為什麼收）決定需要什麼事件、感測器（怎麼收）決定在前端哪裡埋點、生命週期（什麼時候收）決定各事件在哪個產品階段啟用。本章展開從需求推導收集策略的四個方向到具體事件名稱級。從動機出發反推事件清單，比從技術能力出發（「SDK 能收什麼就收什麼」）更精準 — 每個事件都能回指一個具體的消費場景。

Debug 動機

Debug 動機驅動的事件收集目標是「問題發生時、開發者能從事件記錄中重建 context 並定位根因」。

要偵測的行為

多步驟流程的每一步完成或失敗（連線 → 認證 → 資料交換）
系統狀態轉換（前景/背景、連線/斷線、登入/登出）
非預期例外（uncaught exception、network error、timeout）
使用者最近的操作序列（問題發生前做了什麼）

事件表

事件名稱	類型	觸發時機	data schema 重點
{feature}.step.done	lifecycle	流程步驟完成	step_name, duration_ms
{feature}.step.failed	error	流程步驟失敗	step_name, error, context
app.exception	error	uncaught exception	message, stack_trace, component
ws.connected / ws.disconnected	lifecycle	連線狀態變化	url, reason, code
app.foreground / app.background	lifecycle	app 前後景切換	duration_in_background
{action}.completed	event	使用者完成操作	action_detail

查詢場景

Session 回放：按 session_id 過濾、按時間排序，還原「使用者做了什麼 → 系統發生了什麼 → 問題在哪裡出現」。

Error 根因定位：按 error name GROUP BY，找出最常出現的錯誤。單筆 error 的 stack_trace + 同 session 的 lifecycle 事件組合，判斷失敗發生在流程的哪一步。

最近 N 個操作：error 發生前的 10-20 個 event/lifecycle 事件，等同 Sentry 的 breadcrumb trail。

生命週期階段

開發期起全開。Debug 事件是最早需要的 — 實機測試階段就依賴這些事件定位問題。error 類和 lifecycle 類不做取樣（量低且每筆都可能是線索）。

商業動機

商業動機驅動的事件收集目標是「回答產品決策的問題 — 使用者在哪裡流失、不同群組行為有什麼差異、哪些功能被使用」。

要偵測的行為

漏斗步驟完成（註冊 → 啟用 → 付費 → 續約的每一步）
功能使用頻率（哪些功能被頻繁使用、哪些從未被觸發）
Session 長度和頻率（使用者多常用、每次用多久）
關鍵轉換事件（首次付費、邀請好友、升級方案）

事件表

事件名稱	類型	觸發時機	data schema 重點
funnel.{name}.step_N	event	漏斗步驟完成	step_name, funnel_name
feature.{name}.used	event	使用者使用特定功能	feature_name, context
session.start / session.end	lifecycle	session 邊界	session_duration
conversion.{type}	event	關鍵轉換	conversion_type, value

查詢場景

Funnel 轉換率：每步的完成數 / 上一步的完成數。SQLite 層做每步計數，PostgreSQL 層做 session 級 JOIN 的精確轉換率（見功能分層與 Backend 選擇）。

Cohort 留存：按「首次使用週」分群，計算每週的回訪率。需要 session.start 事件 + 使用者首次出現的時間戳。

功能使用率：feature.*.used 事件按 name GROUP BY COUNT，排序找出最常/最少使用的功能。

生命週期階段

上線後啟用。開發期不需要商業事件（沒有真實使用者）。測試期可以用模擬流量驗證 funnel 事件的觸發正確性，但不做分析。

資安動機

資安動機驅動的事件收集目標是「偵測非預期的存取模式、追蹤敏感操作、提供事後稽核的 audit trail」。

要偵測的行為

認證失敗（密碼錯誤、biometric 失敗、token 過期）
權限越界嘗試（嘗試存取非自己的資源、呼叫無權限的 API）
敏感資料存取（查看個資、匯出資料、修改權限設定）
異常存取模式（短時間大量請求、非常規時段存取、來源 IP 變化）

事件表

事件名稱	類型	觸發時機	data schema 重點
auth.{method}.failed	error	認證失敗	method, failure_reason, attempt_count
auth.{method}.success	event	認證成功（語意上是系統回呼、歸為 event 是業界慣例）	method, duration_ms
authz.denied	error	權限檢查拒絕	resource, action, role
sensitive.accessed	event	敏感資料被存取	resource_type, accessor_role
sensitive.exported	event	資料被匯出	export_format, record_count
admin.setting.changed	event	管理設定變更	setting_key, old_value_hash, new_value_hash

查詢場景

認證失敗監控：auth.*.failed 事件的 count by session_id，短時間內同一 session 多次失敗 → 暴力破解嫌疑。Rule engine 設閾值告警。

Audit trail：sensitive.* 和 admin.* 事件按時間排列，回答「誰在什麼時候存取/修改了什麼」。合規審計的必要紀錄。

異常 pattern 偵測：auth 成功後的操作事件頻率和模式分析。正常使用者每 session 操作 10-50 次；自動化腳本可能操作數千次。

生命週期階段

開發期起全開。安全事件不能延後 — 「先不收安全事件、上線後再加」等於安全審計的空白期。認證相關事件是 auto-intercept 的一部分（見自動攔截機制），不需要手動埋點。

和 redaction 的關係

資安事件本身可能包含敏感資訊（失敗的密碼、被存取的個資欄位名稱）。事件的 data schema 設計時標記需要 redaction 的欄位 — auth.failed 記錄失敗原因但不記錄輸入的密碼、sensitive.accessed 記錄資源類型但不記錄資源內容。

效能動機

效能動機驅動的事件收集目標是「發現效能退化趨勢、定位效能瓶頸、為容量規劃提供數據」。

要偵測的行為

操作回應時間（API 呼叫、頁面載入、動畫轉場）
渲染效能（frame rate、長任務、佈局重排）
資源使用（記憶體、CPU、網路流量）
外部依賴延遲（第三方 API、CDN、資料庫查詢）

事件表

事件名稱	類型	觸發時機	data schema 重點
{operation}.duration	metric	操作完成	duration_ms, operation_name
render.frame_drop	metric	掉幀偵測	dropped_frames, total_frames
resource.memory	metric	定期取樣（30s）	heap_used, heap_total
dependency.{name}.latency	metric	外部呼叫完成	dependency_name, latency_ms, status
web.vitals	metric	Web 頁面載入	lcp_ms, fid_ms, cls_score

查詢場景

P95 趨勢：{operation}.duration 事件按天聚合、計算 percentile_cont(0.95)，觀察回應時間是否隨版本增加。

容量規劃：resource.memory 事件的趨勢圖，判斷記憶體是否隨使用時間穩定增長（memory leak 訊號）。

依賴健康度：dependency.*.latency 事件按 dependency_name GROUP BY，比較各依賴的平均延遲和失敗率。

生命週期階段

測試期起啟用。開發期不需要效能事件（本地環境的效能數據不代表 production）。測試期啟用用於建立效能 baseline。上線後持續收集用於趨勢監控。

效能事件量通常最大（每 30 秒一筆 resource.memory × 活躍使用者數），取樣率需要控制 — 自用場景全收、商業產品取樣 10-50%（見前端感測器設計的取樣策略段）。

A/B 測試動機

A/B 測試動機驅動的事件是商業動機的延伸 — 實驗期間收集實驗分組和轉換事件，實驗結束後關閉。

事件表

事件名稱	類型	觸發時機	data schema 重點
experiment.{name}.assigned	event	使用者被分配到實驗組	experiment_name, variant
experiment.{name}.converted	event	使用者完成轉換目標	experiment_name, variant, conversion_type

生命週期階段

實驗期間啟用，實驗結束後關閉（從 SDK config 或 feature flag 移除）。實驗事件的保留期限跟著實驗週期走 — 實驗結束 + 分析完成後可清除。A/B test 的統計分析見 A/B test 的統計基礎。

完整對照總表

動機	要偵測的行為	事件名稱模式	感測器類型	生命週期啟用	查詢模式	保留層級
Debug	流程步驟完成/失敗	{feature}.step.*	auto-intercept	開發期起	session 回放	原始 7d
Debug	例外拋出	app.exception	auto-intercept	開發期起	error GROUP BY	原始 30d
Debug	連線狀態	ws.connected/disconnected	auto-intercept	開發期起	session 回放	原始 7d
Debug	最近操作	{action}.completed	手動埋點	開發期起	breadcrumb trail	原始 7d
商業	漏斗步驟	funnel.{name}.step_N	手動埋點	上線後	funnel JOIN	小時聚合 90d
商業	功能使用	feature.{name}.used	手動埋點	上線後	COUNT GROUP BY	天聚合 365d
商業	Session	session.start/end	auto-intercept	上線後	cohort 留存	天聚合 365d
商業	轉換	conversion.{type}	手動埋點	上線後	funnel 最後一步	原始 90d
資安	認證失敗	auth.{method}.failed	auto-intercept	開發期起	閾值告警	原始 30d
資安	權限拒絕	authz.denied	auto-intercept	開發期起	pattern 偵測	原始 30d
資安	敏感存取	sensitive.*	手動埋點	開發期起	audit trail	原始 365d
資安	設定變更	admin.setting.changed	手動埋點	開發期起	audit trail	原始 365d
效能	操作延遲	{operation}.duration	手動埋點	測試期起	P95 趨勢	小時聚合 90d
效能	渲染效能	render.frame_drop	auto-intercept	測試期起	趨勢圖	小時聚合 90d
效能	資源用量	resource.memory	定期取樣	測試期起	趨勢圖	小時聚合 90d
效能	外部依賴	dependency.{name}.latency	手動埋點	測試期起	GROUP BY 依賴	小時聚合 90d
效能	Web Vitals	web.vitals	auto-intercept	測試期起	趨勢圖	小時聚合 90d
A/B	實驗分組	experiment.{name}.assigned	手動埋點	實驗期間	variant GROUP BY	實驗結束後清
A/B	實驗轉換	experiment.{name}.converted	手動埋點	實驗期間	轉換率計算	實驗結束後清
DevOps	Collector 存活	collector.health.check	Collector 內部	開發期起	狀態卡	原始 7d
DevOps	事件吞吐量	collector.ingestion.count	Collector 內部	開發期起	吞吐曲線	小時聚合 90d
DevOps	儲存用量	collector.storage.disk_usage	Collector 內部	開發期起	儲存圖	小時聚合 90d
DevOps	SDK 心跳	sdk.heartbeat	SDK 端	開發期起	連線列表	原始 7d
DevOps	部署事件	deployment.completed	CI/CD hook	開發期起	部署狀態	原始 30d
DevOps	規則命中	rule.matched	Collector 內部	開發期起	alert 歷史	原始 30d
中台	使用者首次出現	user.first_seen	Collector 計算	上線後	cohort 分群	天聚合 365d
中台	通路歸因	attribution.install_source	SDK 首次啟動	上線後	歸因報表	原始 90d
中台	即時在線	session.active.count	Collector 計算	上線後	即時大屏	小時聚合 90d

下一步路由

四類事件的基礎定義 → 四類事件的完整定義
事件枚舉的方法論 → 事件枚舉與補齊檢查
前端感測器的具體設計 → 前端感測器設計
感測器的生命週期控制 → 感測器生命週期管理
查詢消費模式的完整展開 → 查詢消費模式

監控資料洩漏的 Threat Model

Fri, 19 Jun 2026 00:00:00 +0000

監控系統收集的資料本身就是有價值的攻擊目標。Error 訊息包含 stack trace 和系統架構資訊，event 資料包含使用者行為模式，lifecycle 資料包含部署時程和系統狀態。攻擊者取得這些資料後可以用於進一步的攻擊 — stack trace 揭露程式碼結構，部署資訊揭露更新節奏，行為資料揭露高價值使用者。

威脅場景一：傳輸竊聽

攻擊方式

攻擊者在 SDK 和 collector 之間的網路路徑上攔截未加密的 HTTP 流量。同網段的 ARP spoofing、WiFi sniffing、或中間人（MITM）proxy。

暴露的資料

事件的完整 JSON payload — 包括 redaction 後殘留的資訊（使用者行為、系統狀態、error message）。API key 或 basic auth credential 如果在 HTTP header 中明文傳送，也會被攔截。

防護

使用 HTTPS 加密傳輸（Transport 安全）。所有 SDK 到 collector 的通訊走 TLS — 自簽憑證在自用場景足夠，公開部署用 Let’s Encrypt。

威脅場景二：儲存入侵

攻擊方式

攻擊者取得 collector server 的存取權限（SSH 入侵、容器逃逸、雲端 IAM 權限提升），直接讀取儲存的事件檔案。

暴露的資料

所有歷史事件 — 包含 redaction 處理後的事件。如果 redaction 不完整（遺漏了某些敏感欄位），歷史事件中可能包含 secret。

防護

最小化儲存：只保留必要期限的資料，過期自動刪除（GDPR 最小化原則）。攻擊者能取得的資料量與保留期間成正比。

檔案系統加密：LUKS（Linux）或 FileVault（macOS）對整個磁碟加密。Server 關機後磁碟資料無法被讀取。

access log 監控：記錄所有對事件儲存的存取操作（Collector Access Control）。異常存取（非工作時間、非預期的 IP）觸發告警。

威脅場景三：Endpoint 濫用

攻擊方式

攻擊者取得 SDK 的 API key（從 client 端的程式碼或設定檔中提取），大量寫入垃圾事件或惡意 payload。

影響

資料汙染：合法事件和垃圾事件混在一起，分析結果不可靠。

資源耗盡：大量寫入消耗 collector 的儲存和處理能力。

注入攻擊：如果 collector 的查詢介面沒有做好輸入驗證，惡意 payload 中的特殊字元可能觸發 injection。

防護

Rate limit：每個 API key 的寫入速率限制。正常的 SDK 行為有可預測的寫入頻率（每分鐘 N 個事件），超出正常範圍的寫入被拒絕。

Schema validation：collector 只接受符合定義 schema 的事件。格式異常的 payload 在寫入前被丟棄。

API key 輪替：如果 API key 被洩漏，輪替 key 讓舊 key 失效。SDK 端更新新 key 後恢復正常。

威脅場景四：內部越權存取

攻擊方式

有 collector 讀取權限的人（開發者、維運人員）存取超出自己職責範圍的事件資料。例如開發者查看行為分析資料（只應該看 debug 資料），或前端開發者查看 server-side 的 error 事件。

防護

角色分離：不同用途的資料用不同的存取權限（Collector Access Control）。Debug 資料和行為分析資料分開授權。

去識別化：即使有存取權限，看到的也是去識別化後的資料（去識別化策略）。IP 截斷、user agent 簡化、stack trace 路徑清理 — 降低資料的個人可識別性。

access log 審計：所有讀取操作記錄在 access log 中，定期 review。

下一步路由

SDK 端的 redaction → SDK Redaction API 設計
Transport 層保護 → Transport 安全
Collector 端保護 → Collector Access Control 實作
去識別化技術 → 去識別化策略
Client-side SDK 認證的多層緩解策略 → Client-side SDK 認證

模組六：商業方案對照

Fri, 19 Jun 2026 00:00:00 +0000

回答「什麼時候該從自架切換到商業方案」。

待寫章節

自架 vs 商業的判斷決策表（使用者數 / 網路範圍 / 功能需求 / 合規要求）
Sentry 深入（error + performance + session replay 的架構）
Firebase 套件（Crashlytics + Analytics + Remote Config 的整合）
Datadog RUM（全棧 APM 的 client-side 觀點）
Mixpanel / Amplitude（行為分析專用 vs 通用監控的差異）
部署光譜（BaaS + Serverless / PaaS / 完全自架 / 商業 SaaS 四條路徑）

跨分類引用

→ monitoring 模組八商業利用：商業方案的核心賣點是行為分析功能
→ backend 04 可觀測性：server-side 商業方案（Datadog / New Relic）的對照

Sampling

Wed, 24 Jun 2026 00:00:00 +0000

取樣（sampling）的通用概念見 Backend 知識卡：Sampling — 只保留部分觀測資料以控制成本。本卡聚焦監控 SDK 中的具體實作：在事件產生階段按比例丟棄部分事件，降低後續管線（buffer → transport → collector → storage）的負載。取樣是設計內的損失 — 取樣率是明確的 config 參數，損失量可預測。可先對照 backpressure（觸發動態取樣的訊號來源）和 rate limiting（collector 端的 per-client 限制）。

兩種取樣

靜態取樣：SDK config 中設定固定比例（例如 metric 類 0.1 = 每 10 筆只收 1 筆），在 SDK 整個生命週期保持不變。適合已知高頻但單筆 debug 價值低的事件（render.frame_time、scroll.position）。

動態取樣：SDK 在收到 collector 的 HTTP 429 後自動降低取樣率，collector 恢復正常後逐步回升。動態取樣在正常情況下不生效（取樣率 = 1.0），只在 collector 過載時啟用。和靜態取樣互補 — 靜態控制基線負載，動態應對突發。

取樣校正

分析時用取樣率還原原始量級。取樣率 0.1 時收到 100 筆事件，推估原始量為 100 / 0.1 = 1000 筆。SDK 端的 sdk.sampling.rate 指標記錄當前取樣率，讓下游分析知道如何校正。取樣校正對 funnel 和 cohort 分析有效（趨勢和比例不變），對個別事件追蹤無效（被丟棄的事件無法回復）。

設計責任

取樣承擔的設計責任是「在可觀測性覆蓋率和系統負載之間找到平衡」。Error 類事件不做取樣（每筆都可能是需要修的 bug），metric 類事件適合高比例取樣（丟幾筆不影響趨勢），event 類和 lifecycle 類取決於分析需求。

完整章節

靜態取樣率的設定 → 感測器生命週期管理。動態取樣在四層防線中的位置 → Ingestion Scaling。取樣造成的損失量化和控制 → 端到端資料完整性。

查詢消費模式

Sat, 20 Jun 2026 00:00:00 +0000

事件的價值在於被查詢消費。設計事件時反過來想：查詢需要什麼欄位 → 事件需要帶什麼 data → 感測器需要在什麼時機觸發。從消費端反推設計，避免「收了一堆事件但查不到想要的答案」。

五種查詢場景各自需要不同的事件類型、欄位和查詢模式。每種場景的查詢模式也決定了需要 SQLite 層還是 PostgreSQL 層（見功能分層與 Backend 選擇）。

Debug 查詢

Debug 查詢回答「問題出在哪」。觸發時機是使用者回報問題或 error alert 觸發後，開發者需要還原問題的 context。

查詢場景

剛才使用者回報的問題

查詢模式：用 session_id 過濾，拉出該 session 的全部事件，按時間排序。

1-- SQLite
2SELECT type, name, ts, data
3FROM events
4WHERE session_id = 'abc-123'
5ORDER BY ts;

需要的事件欄位：session_id（關聯同次使用的事件）、ts（排序）、error 的 stack trace 和 step（定位失敗點）。

這個 error 多常發生

查詢模式：按 error name 分群計數，看時間趨勢。

1-- SQLite
2SELECT name, COUNT(*) as count,
3       strftime('%Y-%m-%d', ts) as day
4FROM events
5WHERE type = 'error'
6  AND ts >= datetime('now', '-7 days')
7GROUP BY name, day
8ORDER BY day, count DESC;

需要的事件欄位：type=‘error’、name（分群鍵）、ts（時間分桶）。

需要的事件

事件類型	必要欄位	用途
error	stack_trace, step, session_id	定位失敗點 + 關聯 session
event	name, session_id	還原使用者操作路徑
lifecycle	name, session_id	還原系統狀態轉換

Alerting 查詢

Alerting 查詢回答「需要注意嗎」。分兩種機制：rule engine 的即時評估（事件到達時逐筆比對規則）和事後查詢的趨勢分析。

查詢場景

Error 數量突然上升

查詢模式：最近 1 小時的 error 計數 vs 前一天同時段，偏差超過閾值則告警。

1-- SQLite
2SELECT COUNT(*) as recent_count
3FROM events
4WHERE type = 'error'
5  AND ts >= datetime('now', '-1 hour');

Rule engine 的即時版：每收到一筆 error 事件，遞增計數器，計數器超過閾值觸發動作。

特定 error 首次出現

查詢模式：收到 error 時查是否有歷史記錄。

1-- SQLite
2SELECT COUNT(*) FROM events
3WHERE type = 'error' AND name = ?
4  AND ts < ?;

結果為 0 代表首次出現 — 觸發「新 error 類型」告警。Sentry 的核心功能之一就是這個查詢。

Rule engine vs 事後查詢

Rule engine 逐筆評估，延遲在毫秒級，適合「error 出現就通知」。事後查詢用 SQL 聚合，延遲在秒到分鐘級，適合「過去一小時的 error 趨勢」。兩者互補 — rule engine 做即時告警、SQL 查詢做事後分析。

需要的事件

事件類型	必要欄位	用途
error	name, ts	計數 + 時間趨勢
error	source.version	按版本分群看是否新版本引入

產品決策查詢

產品決策查詢回答「使用者怎麼用產品」。從簡單的功能使用率到複雜的 funnel 分析。

查詢場景

新功能有多少人用

查詢模式：按 event name 計數。SQLite 層即可。

1-- SQLite
2SELECT name, COUNT(*) as count,
3       COUNT(DISTINCT session_id) as unique_sessions
4FROM events
5WHERE type = 'event'
6  AND name LIKE 'new_feature.%'
7  AND ts >= datetime('now', '-7 days')
8GROUP BY name;

註冊流程在哪流失

查詢模式：session 級 funnel JOIN。需要 PostgreSQL 層。

 1-- PostgreSQL
 2WITH session_steps AS (
 3  SELECT session_id, name,
 4         ROW_NUMBER() OVER (PARTITION BY session_id ORDER BY ts) as step_order
 5  FROM events
 6  WHERE name IN ('signup.start', 'signup.email', 'signup.verify', 'signup.complete')
 7    AND ts >= NOW() - INTERVAL '30 days'
 8)
 9SELECT name, COUNT(DISTINCT session_id) as sessions
10FROM session_steps
11GROUP BY name
12ORDER BY MIN(step_order);

完整的 funnel 分析方法論見從 collector 資料做基礎 funnel 分析。

需要的事件

事件類型	必要欄位	用途
event	name, session_id, ts	漏斗步驟計數和排序
lifecycle	session.start, ts	session 邊界定義

安全審計查詢

安全審計查詢回答「有沒有非預期的存取」。重點是偵測異常模式而非單筆事件。

查詢場景

有沒有異常登入

查詢模式：auth 失敗事件按 session 分群計數，短時間內大量失敗 = 暴力破解嘗試。

1-- SQLite
2SELECT session_id, COUNT(*) as fail_count,
3       MIN(ts) as first_attempt, MAX(ts) as last_attempt
4FROM events
5WHERE type = 'error' AND name = 'auth.login.failed'
6  AND ts >= datetime('now', '-1 hour')
7GROUP BY session_id
8HAVING fail_count > 5;

誰存取了什麼敏感資料

查詢模式：敏感操作的 audit trail — 按時間列出所有敏感操作事件。

1-- SQLite
2SELECT ts, session_id, name, data
3FROM events
4WHERE type = 'event'
5  AND name IN ('data.export', 'admin.user_lookup', 'config.secret_read')
6ORDER BY ts DESC;

需要的事件

事件類型	必要欄位	用途
error	name=‘auth.*.failed’, session_id	偵測暴力破解
event	敏感操作的 name, session_id	audit trail
event	data 中的操作目標（哪筆資料）	存取範圍追溯

安全事件的取樣率必須是 1.0（全收）— 取樣會讓攻擊嘗試在統計上隱形。見感測器生命週期管理的取樣率設計段。

效能查詢

效能查詢回答「系統有多快」和「哪裡變慢了」。

查詢場景

P95 回應時間趨勢

查詢模式：時間分桶 + percentile 聚合。需要 PostgreSQL 層。

1-- PostgreSQL
2SELECT date_trunc('hour', ts) as hour,
3       percentile_cont(0.95) WITHIN GROUP (ORDER BY (data->>'duration_ms')::int) as p95
4FROM events
5WHERE type = 'metric' AND name = 'api.response.duration'
6  AND ts >= NOW() - INTERVAL '7 days'
7GROUP BY hour
8ORDER BY hour;

SQLite 沒有內建 percentile 函數。SQLite 層的替代方案是排序後取第 95% 位置的值，但在大資料量時效能差。

哪個版本變慢了

查詢模式：按 source.version 分群比較效能。

1-- SQLite / PostgreSQL
2SELECT source_version, AVG((data->>'duration_ms')::int) as avg_ms,
3       COUNT(*) as sample_count
4FROM events
5WHERE type = 'metric' AND name = 'api.response.duration'
6  AND ts >= datetime('now', '-7 days')
7GROUP BY source_version;

需要的事件

事件類型	必要欄位	用途
metric	name, data.duration_ms, ts	延遲趨勢
metric	source.version	按版本比較
metric	data.memory_mb, data.cpu_percent	資源使用趨勢

查詢 → 事件反推表

設計事件時用這張表反向確認：每種查詢場景需要什麼事件、什麼欄位、什麼 storage 層級。

查詢場景	事件類型	必要欄位	Storage 層級	保留需求
Session 回放	全部	session_id, ts	SQLite	原始 7d
Error 計數趨勢	error	name, ts	SQLite	小時聚合 90d
功能使用率	event	name	SQLite	天聚合 365d
Funnel 分析	event	name, session_id, ts	PostgreSQL	原始 30d
暴力破解偵測	error	auth name, session_id	SQLite	原始 30d
Audit trail	event	敏感操作 name, session_id	SQLite	原始 365d
P95 趨勢	metric	duration_ms, ts	PostgreSQL	小時聚合 90d
版本比較	metric	duration_ms, version	SQLite	天聚合 365d

這張表和事件枚舉與補齊檢查的事件表互補 — 事件枚舉從操作端正向推導「要收什麼」，本表從查詢端反向確認「收的夠不夠」。

下一步路由

從操作端正向推導事件 → 事件枚舉與補齊檢查
動機和事件的對應關係 → 動機驅動的事件設計
SQLite vs PostgreSQL 的查詢能力分界 → 功能分層與 Backend 選擇
Rule engine 的即時評估 → Rule engine 設計

感測器生命週期管理

Sat, 20 Jun 2026 00:00:00 +0000

感測器的啟用組合隨產品階段變化。早期開發只需要 error 和 lifecycle 幫助 debug，production 上線後需要商業事件和效能量測，A/B 測試期間需要實驗專用感測器。把所有感測器一次全開會浪費頻寬和儲存、產生大量低價值事件；全程只開 error 則在需要行為分析時發現沒有資料。感測器的啟停是設計決策，由 SDK config、collector 下發和 feature flag 三層機制控制。

五個階段

早期開發

開發期的首要需求是 debug — 程式碼寫完跑起來、出問題時能定位。

感測器類型	啟用	理由
error	全開	每個例外都要看到
lifecycle	全開	app 啟動、連線、狀態轉換的步驟紀錄
event	按需	正在開發的功能手動加埋點，其他關閉
metric	關閉	效能量測在功能穩定前沒有意義

開發期的取樣率全部設 1.0（全收）— 事件量極低（開發者自己操作），不需要取樣。

功能測試

針對被測功能開啟完整感測器，驗證功能的行為事件和效能指標是否正確觸發。

被測功能的 event 和 metric 全開。其他功能維持開發期設定。測試期間的感測器設定通常由測試 config 檔覆寫 SDK 預設值。

Production 上線

上線後的感測器組合平衡覆蓋率和成本：

感測器類型	策略	理由
error	全收	每個 production error 都有 debug 價值
lifecycle	全收	session 分析和環境資訊需要完整紀錄
event（核心操作）	全收	漏斗關鍵步驟、轉換事件不能漏
event（高頻 UI）	取樣	scroll、mousemove、hover 等高頻操作只取部分
metric	取樣	效能指標按時間取樣（每 30 秒一次而非每 frame）
安全事件	全收	auth 失敗、權限越界、敏感操作不取樣

A/B 測試

實驗感測器只對 treatment group 啟用。Control group 不觸發實驗事件，避免污染對照組資料。

實驗專用事件（experiment.pricing_test.assigned、experiment.pricing_test.converted）由 feature flag 控制 — flag 開啟時 SDK 才送這些事件。實驗結束後 flag 關閉，感測器自動停止。

實驗事件的保留期和實驗週期綁定，實驗結束 + 分析完成後可以 purge。

功能下線

功能移除時，對應的感測器 config 一起移除。Collector 端 purge 該功能的歷史事件（或降級到聚合摘要）。

移除 checklist：SDK config 移除事件名稱 → SDK 版本部署 → 確認 collector 不再收到該事件 → purge 歷史資料（可選）。

控制機制

三層控制機制各自適合不同的變更頻率：

SDK init config（靜態）

隨 app 版本部署的本地設定檔。變更需要發新版本。適合穩定的感測器組合。

 1sensors:
 2  error: { enabled: true, sampling: 1.0 }
 3  lifecycle: { enabled: true, sampling: 1.0 }
 4  event:
 5    funnel.*: { enabled: true, sampling: 1.0 }
 6    click.*: { enabled: true, sampling: 0.1 }
 7  metric:
 8    duration: { enabled: true, sampling: 0.5 }
 9  experiment:
10    pricing_test: { enabled: false }

Collector 端下發（動態）

SDK 啟動時從 collector 的 /config endpoint 拉取當前的感測器設定。Collector 端修改設定後，下一次 SDK 重啟或定期 refresh（每 5 分鐘）時生效。適合需要動態調整但不值得接 feature flag 服務的場景。

MVP 階段跳過 collector 下發，只用 SDK 本地 config。下發 API 的定義和實作標為第二階段 — 感測器的開關在 SDK 本地 config 已經能完全控制。

Feature flag 服務整合

SDK 在送出事件前查詢 feature flag 判斷感測器是否啟用。適合 A/B 測試 — flag 可以按使用者 / 百分比 / 條件分群啟用。

優先順序

三層控制的覆蓋優先順序：

1Feature flag > Collector 下發 > SDK 本地 config

SDK 本地 config 是 baseline。Collector 下發覆蓋 baseline 的特定欄位。Feature flag 覆蓋一切 — 即使本地 config 和 collector 都說啟用，flag 說關閉就關閉。

取樣率設計

取樣率決定「多少比例的事件會被實際送出」。取樣在 SDK 端執行 — 不送的事件不佔頻寬和儲存。

全收（sampling: 1.0）

每筆事件都送。適用於：

error：每個 production error 都有 debug 價值，漏掉的 error 可能是最嚴重的那個
安全事件：auth 失敗、權限越界的取樣可能讓攻擊嘗試隱形
漏斗關鍵步驟：funnel 分析的轉換率計算需要精確的步驟計數

百分比取樣（0.01-0.5）

只送一定比例的事件。適用於高頻且個別事件價值低的場景：

scroll / mousemove / hover：每秒觸發數十次，全收會產生大量事件。取樣 1-10% 足以分析使用者行為模式
frame rate 量測：每幀一筆 metric 太多，每秒或每 30 秒取一筆足夠

取樣的實作用 SDK 端的隨機數 — if random() < sampling_rate then send(event) — 不需要 server 端參與。

條件取樣（retrospective full capture）

正常情況取樣，但發生 error 時回溯收集該 session 的全部事件。實作方式是 SDK 在記憶體中保留最近 N 筆事件的環形 buffer，觸發 error 時把 buffer 中的事件一併送出。

條件取樣讓「error session 的上下文完整」和「正常 session 不過度收集」兩個目標共存。

感測器開關的可觀察性

感測器本身的狀態變化需要被觀察 — 如果感測器靜默失效（config 錯誤導致某類事件停送），開發者可能很久後才發現「怎麼最近沒有 funnel 資料」。

啟動時 log 感測器清單

SDK 初始化完成時 log 當前啟用的感測器清單和取樣率。開發者在 debug console 就能看到「哪些感測器在跑」。

Config 變更事件

感測器 config 變更時（collector 下發新 config、或 feature flag 變化），SDK 送一個 lifecycle 事件：

1{
2  "type": "lifecycle",
3  "name": "sensor.config.changed",
4  "data": {
5    "source": "collector_push",
6    "changed": {"click.*": {"sampling": "0.1 → 0.05"}},
7    "active_sensors": 12
8  }
9}

這筆事件讓開發者在查詢時能看到「某個時間點感測器 config 改變了」，和事件量的變化做交叉比對。

下一步路由

感測器偵測哪些行為 → 前端感測器設計
SDK 的公開 API → SDK 公開 API 設計
四類事件的定義 → 四類事件的完整定義
事件枚舉方法 → 事件枚舉與補齊檢查

RFM 分群

Fri, 19 Jun 2026 00:00:00 +0000

RFM 分群用三個維度衡量使用者的價值：Recency（最近一次互動是多久前）、Frequency（互動的頻率）、Monetary（互動的金額或價值）。三個維度各自獨立評分，組合成使用者的 RFM profile，驅動差異化的營運策略。

三個維度

Recency：最近一次互動的時間距離

計算使用者最後一次有意義的互動到現在的天數。「有意義的互動」取決於業務定義 — 電商是最後一次購買，SaaS 是最後一次登入，媒體是最後一次內容消費。

Recency 的價值在於「最近互動的使用者比很久沒來的使用者更可能再次互動」。Recency 高（最近才來）的使用者是活躍群體，Recency 低（很久沒來）的使用者是流失風險群體。

Frequency：互動的頻率

計算使用者在特定時間窗口內的互動次數。時間窗口取決於業務節奏 — 日用品電商看近 90 天的購買次數，SaaS 看近 30 天的登入次數。

Frequency 區分「偶爾來的使用者」和「常客」。高頻使用者是產品的核心用戶群，他們的行為和需求代表產品的核心價值。

Monetary：互動的價值

計算使用者在特定時間窗口內貢獻的總金額。適用於有直接收入的業務（電商、訂閱服務）。

沒有直接收入的產品可以用替代指標：內容平台用消費的內容數量，社群平台用產生的內容數量，工具類產品用使用的功能數量。替代指標的選擇依據是「哪個行為最能代表使用者的投入程度」。

RFM 分數計算

每個維度獨立評分，通常用 1-5 分。評分方式有兩種：

等距分割

把每個維度的值域等分成 5 段。Recency 0-6 天 = 5 分、7-13 天 = 4 分、依此類推。

優點是簡單直覺；缺點是不考慮使用者分佈 — 如果大部分使用者的 Recency 在 0-6 天，5 分的群體佔大多數，分群的鑑別度低。

等量分割（分位數）

用分位數確保每個分數段的使用者數量大致相等。前 20% 的 Recency = 5 分、次 20% = 4 分。

優點是每個分數段有足夠的使用者數量做分析；缺點是分數的業務意義不固定 — 5 分代表的天數取決於使用者分佈，不是固定的閾值。

RFM 群體定義

三個維度各 5 分，組合出 125 種 RFM profile（5 × 5 × 5）。實務上不需要 125 種策略，通常歸納成 5-8 個有業務意義的群體：

群體	RFM 特徵	描述	策略方向
冠軍客戶	R5 F5 M5	最近才來、經常來、消費高	維持關係、VIP 待遇
忠實客戶	R4-5 F4-5 M3-5	經常來、消費中到高	交叉銷售、推薦
潛力客戶	R4-5 F1-2 M1-2	最近才來、但頻率和消費低	引導更多互動
沉睡客戶	R1-2 F3-5 M3-5	曾經活躍但很久沒來	挽回活動
流失客戶	R1 F1 M1	很久沒來、頻率低、消費低	評估挽回成本效益

工程實作

RFM 計算的輸入是使用者的行為事件。從 collector 的 JSONL 資料計算 RFM：

擷取：篩選目標事件（購買、登入、使用功能），按 user_id 分群
計算 R：每個 user_id 的最新事件時間到現在的天數
計算 F：每個 user_id 在時間窗口內的事件數量
計算 M：每個 user_id 在時間窗口內的 monetary 屬性加總
評分：對 R/F/M 各自用分位數或等距分割評分
分群：根據 RFM 分數組合定義群體

這個計算可以用 SQL（如果資料在資料庫）或 Python pandas（如果資料在 JSONL 檔案）完成。定期重算（每天或每週），產出使用者群體標籤。

RFM 分群需要的資料可以從自架 collector 提取 — 從 collector 資料做基礎 funnel 分析展示了 grep + jq 在自架環境中的分析能力和邊界。RFM 分出的群體還可以用 Cohort analysis 追蹤留存趨勢，兩種分析互補。分群和分析的前提是正確的行為事件設計 — 事件的屬性決定了 R/F/M 能否被計算。

模組七：資安與隱私

Fri, 19 Jun 2026 00:00:00 +0000

回答「蒐集的資料本身就是風險資產，怎麼保護」。三層防護：SDK 端 redaction → transport 加密 → collector access control。

待寫章節

SDK redaction API 設計（預設 redaction rule + 自訂 pattern）
Transport 安全（HTTPS / basic auth / 同區網也要加密的理由）
Collector access control 實作（認證 / 授權 / access log）
去識別化策略（IP 截斷 / user agent 簡化 / stack trace 路徑清理 / session UUID）
GDPR 最小化原則的工程落地
「監控資料洩漏」的 threat model
Client-side SDK 認證的根本限制（credential 必然暴露、多層緩解策略）

跨分類引用

→ backend 07 資安：server-side 的 secret management 跟本模組的 redaction 互補
← ux-design 模組三輸入機制：IME 個人化學習 = secret 洩漏
← testing 模組二客戶端可觀測性：log 內容可能含 secret，需要 redaction
→ monitoring 模組八：去識別化是商業利用的入場條件
待建連結 → compliance/（隱私法規教學分類）

Client-side SDK 認證的根本限制

Wed, 24 Jun 2026 00:00:00 +0000

當監控 SDK 部署在使用者裝置上（瀏覽器、手機 app、本機腳本），collector 的 ingestion endpoint 就暴露在外部網路 — 認證機制需要面對 credential 必然可被提取的前提。Client-side SDK 的認證和 server-side API 的認證面對的是結構性不同的問題。Server-side 的 API key 存在環境變數或 secret store 裡，只有 server process 能讀取。Client-side SDK 的 credential 必須嵌入到使用者手上的程式碼中 — JS bundle、APK、Python script — 使用者（或攻擊者）可以直接讀取。

這個限制來自 architecture，和 implementation 無關。混淆 JS、ProGuard 混淆 APK、編譯 Python 成 .pyc，都只增加提取成本，不改變「credential 在 client 端」的事實。

Collector Access Control 討論了 API key 和 mTLS 的認證機制，Transport 安全討論了傳輸層加密。兩者的前提是 credential 被妥善保管。本章處理的是那個前提不成立時 — credential 已被提取或必然可被提取 — 的緩解策略。

商業方案的處理方式

所有主流的 client-side telemetry 方案都面對同樣的限制。它們的共同策略是：承認 client credential 會暴露，把防線從「保護 credential」轉移到「限制 credential 被濫用的影響」。

Google Analytics 4：Measurement ID（G-XXXXXXXXXX）直接寫在網頁的 JS snippet 中，任何人檢視網頁原始碼都能取得。GA4 的防護在 server-side — Google 用 domain 白名單過濾來源，加上自動的 bot traffic 偵測剔除機器流量。Measurement Protocol（server-to-server）需要額外的 API secret，但 client-side 的 gtag.js 不需要。

Sentry：DSN（Data Source Name）包含 project ID 和 public key，直接嵌在 SDK init 的程式碼中。Sentry 官方文件明確標示 DSN 是 public 的 — 攻擊者取得 DSN 只能送事件，不能讀取已收集的資料。防護靠 rate limit（每個 project 的 events/sec 上限）、allowed domains（只接受來自白名單 domain 的事件）、和 server-side 的 event 去重。

Firebase：整個 google-services.json / GoogleService-Info.plist 的內容 — 包含 apiKey、projectId、appId — 都視為公開資訊。Firebase 的安全模型不依賴這些 key 的保密性；它們的功能是識別（identify）而非授權（authorize）。需要保護的資源靠 Firebase Security Rules 和 App Check（device attestation）處理。

Datadog RUM：Client token 是獨立於 API key 的 credential。API key 可以讀寫所有 Datadog 資料，必須保護在 server-side；client token 只能寫入 RUM 事件，設計上可以暴露在 client 端。Datadog 建議搭配 intake proxy（collector 前面加一層自己的 server），讓 client token 不直接出現在瀏覽器中。

這些方案的共同模式：client-side credential 的角色是「識別來源」而非「授權存取」。即使被提取，攻擊者能做的事被限縮在「寫入事件」— 影響可控。

認證天花板：識別 vs 授權

Collector Access Control 的 API key 同時承擔識別和授權 — 有 key 就能寫入，沒 key 就被拒絕。在 server-side 場景下這沒有問題，因為 key 不會暴露。

Client-side 場景需要拆開這兩個功能：

識別（identification）：這個 request 來自哪個 app、哪個 SDK、哪個部署版本。識別資訊可以公開 — 它的價值是讓 collector 知道事件來自哪裡，用於 access log、per-app rate limit、和事件標記。

授權（authorization）：這個 request 有沒有權限執行寫入操作。授權依賴 credential 的保密性 — 在 client-side 場景下，credential 保密性的天花板很低。

接受這個區分後，client-side SDK 的 API key 更接近「識別 token」。它的洩漏不是安全事件（像 server-side API key 洩漏那樣），而是預期中的狀態。防護的重點從「防止 key 洩漏」轉移到「限制 key 被濫用時的影響」。

多層緩解策略

以下各層按實作成本遞增排列。前面的層在多數場景下足夠，後面的層在 endpoint 暴露在公開網路且面對主動攻擊時才需要。

第一層：寫入限制（collector 已有）

Collector Access Control 的寫入限制 — rate limit、payload size limit、schema validation — 是第一層防護。這些機制不區分「合法 SDK」和「偽造 client」，對所有寫入請求一視同仁地施加約束。

Rate limit 限制每個 API key 的事件速率。Schema validation 拒絕不符合 event.schema.json 結構的 payload。兩者合起來把偽造流量的影響限制在「每秒 N 筆符合 schema 的事件」— 這個量級的資料汙染對 error tracking 的影響有限（error 事件靠 stack trace fingerprint 去重），對 funnel 分析的影響較大（行為事件的計數會被灌水）。

第二層：Origin 驗證

Web SDK 的 HTTP request 帶有瀏覽器自動附加的 Origin header。Collector 可以檢查 Origin 是否在白名單中。

 1func originCheck(next http.Handler, allowed []string) http.Handler {
 2    allowedSet := make(map[string]bool)
 3    for _, o := range allowed {
 4        allowedSet[o] = true
 5    }
 6    return http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
 7        origin := r.Header.Get("Origin")
 8        if origin != "" && !allowedSet[origin] {
 9            http.Error(w, "forbidden origin", http.StatusForbidden)
10            return
11        }
12        next.ServeHTTP(w, r)
13    })
14}

Origin 驗證擋住的是「從瀏覽器中跨域呼叫」的場景 — 攻擊者在自己的網站用 JS 向你的 collector 發 request，瀏覽器會帶上攻擊者網站的 Origin，被 collector 拒絕。

天花板：Origin header 只有瀏覽器會自動附加。用 curl、Postman、或任何非瀏覽器 HTTP client 發 request 時，可以自行設定任意 Origin 值。Origin 驗證擋得住瀏覽器中的跨域呼叫，擋不住直接用 HTTP client 偽造的 request。

Mobile SDK（Flutter / native app）的 request 不帶 Origin header。Origin 驗證只對 Web SDK 有效。

第三層：Request signing

SDK 用 HMAC 對每個 request 簽章，collector 驗證簽章有效性。簽章的輸入包含 timestamp 和 payload hash，防止 replay attack 和 payload 竄改。

1X-Signature: a3f8c2e1b7d94f06...  (HMAC-SHA256 結果的 hex 編碼)
2X-Timestamp: 1719216000

SDK 計算方式：HMAC-SHA256(secret, timestamp + "." + SHA256(body))，結果轉 hex 字串放入 X-Signature header。

Collector 端的驗證邏輯：

 1func verifySignature(r *http.Request, secret string) bool {
 2    ts := r.Header.Get("X-Timestamp")
 3    sig := r.Header.Get("X-Signature")
 4
 5    // 拒絕超過 5 分鐘的 request timestamp（防 replay）
 6    // 5 分鐘容忍 client-server 時鐘漂移和網路延遲；行動裝置偏差大的環境可放寬到 10 分鐘
 7    // 此處的 timestamp 是 HTTP request 發出時間，和事件的 timestamp 欄位（事件產生時間）無關
 8    tsInt, err := strconv.ParseInt(ts, 10, 64)
 9    if err != nil || abs(time.Now().Unix()-tsInt) > 300 {
10        return false
11    }
12
13    body, _ := io.ReadAll(r.Body)
14    bodyHash := sha256.Sum256(body)
15    expected := hmac.New(sha256.New, []byte(secret))
16    expected.Write([]byte(ts + "." + hex.EncodeToString(bodyHash[:])))
17
18    sigBytes, err := hex.DecodeString(sig)
19    if err != nil {
20        return false
21    }
22    return hmac.Equal(sigBytes, expected.Sum(nil))
23}

Request signing 增加偽造成本 — 攻擊者需要提取 HMAC secret 並實作簽章邏輯，而非直接複製一個 API key 貼到 curl 指令。

HMAC secret 和 API key 一樣嵌在 client 端程式碼中，反編譯 APK 或閱讀 JS bundle 可以提取。Signing 增加的是攻擊者的工程投入（需要理解簽章算法並正確實作），而非理論上的安全性。對 casual attacker（看到 API key 就想試試的人）有效，對 motivated attacker（願意花時間逆向工程的人）無效。

第四層：行為分析異常偵測

Collector 端統計每個 API key（或 source.app）的事件模式，建立 baseline 後偵測偏離。

正常 SDK 的行為有可預測的特徵：

特徵	正常 SDK 的 pattern	偽造流量的 pattern
事件類型分布	error / event / lifecycle / metric 四類混合	可能只有單一類型
事件間隔	攢批送出，interval 接近 SDK config 的 flush interval	固定間隔或連續送出
Payload 結構	`source.sdk` / `source.platform` / `source.app` 值穩定	可能缺少 SDK 自動填入的欄位
Session 行為	有 lifecycle 事件（session.begin / session.end）	可能沒有 session 邊界
時間分布	跟使用者活動時段相關（工作時間 / 使用高峰）	可能 24 小時均勻分布

Collector 可以用 rule engine 偵測異常模式：

單一 API key 的事件量在 10 分鐘內超過過去 24 小時平均值的 10 倍
連續 N 個 request 的事件全是同一個 type
source.sdk 欄位的值不在已知的 SDK 版本清單中

偵測到異常後的處理方式是標記而非丟棄 — 在事件中加入 _flags.suspicious = true flag，讓 dashboard 和分析查詢可以過濾。直接丟棄有誤殺正常流量的風險（例如行銷活動導致的真實流量暴增）。

攻擊者如果研究過正常 SDK 的行為模式（事件類型分布、送出間隔、payload 結構），可以模擬出相似的流量。行為分析依賴「偽造流量和正常流量有可偵測的差異」這個前提 — 對低投入的攻擊者成立，對高投入的攻擊者不一定。

第五層：Device attestation

由作業系統或平台層驗證 client 的合法性，提供 SDK 自身無法產生的證明。

Firebase App Check：整合 DeviceCheck（iOS）、Play Integrity（Android）、reCAPTCHA Enterprise（Web），由裝置平台出具 attestation token。Collector 向 Firebase 驗證 token 的有效性。

Apple DeviceCheck / App Attest：iOS 裝置向 Apple server 請求 attestation，證明 request 來自一台真實的、未被篡改的 iOS 裝置上的合法 app。

Google Play Integrity：驗證 request 來自 Google Play 安裝的 app、在未 root 的裝置上、由合法使用者操作。

Device attestation 提供的保證比前四層都強 — 它依賴裝置硬體和平台服務（難以偽造），而非 SDK 嵌入的 secret（可提取）。

天花板：

平台綁定 — 每個平台（iOS / Android / Web）需要各自整合不同的 attestation 服務，跨平台 SDK 的實作成本高
Root / 越獄裝置上 attestation 可能失敗或被繞過
Web 端的 reCAPTCHA 驗證依賴 Google 服務，有隱私和可用性的考量
自架 collector 需要額外整合 Firebase Admin SDK 或各平台的驗證 API

Device attestation 適合商業產品級的 mobile app，對自架監控工具而言實作成本通常超出收益。

自架方案的規模對應

不同部署規模下，需要做到哪一層取決於 endpoint 的暴露程度和偽造流量的影響大小。

部署場景	暴露程度	建議做到的層級	理由
自用（1 人，同機 / 同網段）	低 — endpoint 不對外	HTTPS + basic auth	攻擊面只有同網段，認證足夠
小型團隊（< 100 人，VPN 內）	低 — endpoint 在 VPN 後	API key + rate limit	VPN 已限制存取範圍，rate limit 防 SDK bug
公開 endpoint（VPS / 雲端）	高 — 任何人可存取	第一到第四層 + WAF	rate limit + origin + signing + 行為分析 + CDN/WAF 的 IP reputation 過濾
商業產品（app store 發佈）	高 — APK 可反編譯，JS 可檢視原始碼	第一到第五層 + intake proxy	需要 device attestation 和 proxy 層把 credential 從 client 端移除

Intake proxy 架構：在公開 endpoint 和商業產品場景下，可以在 collector 前面加一層自己的 server（proxy），SDK 送事件到 proxy，proxy 用 server-side API key 轉發到 collector。Client 端的 credential 只指向 proxy，proxy 的 API key 指向 collector — credential 分層，client 端的 key 洩漏不影響 collector 的認證。

1SDK ──(client token)──→ Intake Proxy ──(server API key)──→ Collector

Proxy 的額外成本是多一個 server 和網路跳躍。自用場景下不需要；endpoint 公開時值得考慮。

偽造流量的影響分析

偽造流量進入 collector 後，對不同類型的分析影響不同。

Error tracking 影響較低：error 事件的價值在 stack trace 和 error message。偽造的 error 事件缺少真實的 stack trace — 即使格式正確，內容是編造的。Error 去重靠 fingerprint（error type + message + stack trace top frame），偽造事件產生的 fingerprint 不會和真實 error 碰撞，在 dashboard 上是獨立的 error group，容易識別和過濾。

行為分析影響較高：funnel 和 cohort 分析依賴事件計數的準確性。偽造的 page.view 和 button.click 事件直接灌水計數，導致轉換率失真。偽造事件越接近真實事件的結構（正確的 event name、合理的 timestamp），影響越大。

資源消耗是固定成本：無論事件內容是否真實，每筆事件都消耗 collector 的寫入 I/O、儲存空間、和查詢時間。Rate limit 把這個成本限制在可控範圍 — 每秒 N 筆是上限，無論來源是否合法。

事後標記策略

偵測到可疑流量後，collector 在事件中加入標記欄位而非直接丟棄。丟棄有誤殺風險 — 行銷活動的流量暴增、SDK 版本升級改變了事件模式、新平台的 SDK 上線 — 這些正常場景可能觸發異常偵測。

標記方式是在 collector 寫入時，對符合異常條件的事件附加 metadata：

1{
2  "v": 1,
3  "type": "event",
4  "name": "button.click",
5  "source": { "sdk": "js", "platform": "web", "app": "main-site" },
6  "_flags": { "suspicious": true, "reason": "rate_anomaly" }
7}

Dashboard 查詢預設排除 _flags.suspicious = true 的事件。需要調查時可以包含 — 看可疑事件的模式有助於判斷是攻擊還是誤判。

下一步路由

Collector 端的認證和授權機制 → Collector Access Control 實作
Transport 層的加密保護 → Transport 安全
Endpoint 濫用的威脅分析 → 監控資料洩漏的 Threat Model
SDK 端的寫入速率控制 → Ingestion Scaling
行為分析和 rule engine → Rule Engine 設計
偽造流量對資料完整性的影響 → 端到端資料完整性
Error fingerprint 讓偽造 error 容易辨識 → Error Fingerprint 與去重分群

Rate Limiting

Wed, 24 Jun 2026 00:00:00 +0000

速率限制（rate limiting）的通用概念見 Backend 知識卡：Rate Limit — 限制某個主體在一段時間內可使用的資源量。本卡聚焦監控系統中的具體實作：限制每個 client（API key / source.app）在單位時間內可送出的事件數量，保護 collector 不被單一 SDK 的 bug（事件風暴）或偽造流量消耗處理能力。可先對照 backpressure（全域的容量訊號）和 sampling（SDK 端的主動降載）。

和 backpressure 的差異

Rate limiting 和 backpressure 都限制流量，但保護的維度不同。Rate limiting 是 per-client 的配額機制 — 每個 API key 有獨立的速率上限，一個 client 超限不影響其他 client。Backpressure 是全域的容量訊號 — collector 的寫入 channel 滿時對所有 client 回 429，不區分來源。一個 client 的失控用 rate limiting 處理（隔離問題源），全域流量過大用 backpressure 處理（全體降速）。

可觀察訊號與例子

Rate limiting 觸發的訊號是 collector 端對特定 API key 回 429 的次數上升、而其他 key 正常。典型場景：某個 SDK 版本有 bug 導致每秒產生 1000 筆事件 → per-key rate limiter 超過閾值 → 該 key 的後續 request 被回 429 → 其他 SDK 不受影響。

設計責任

Rate limiting 承擔的設計責任是「在公平性和可用性之間取得平衡」。閾值設太低，正常的 burst flush（攢批後一次送出）會被誤觸；閾值設太高，失控的 SDK 要送很多筆才被擋。合理的閾值需高於正常 burst 的事件速率。

完整章節

Per-SDK rate limiting 的實作 → Ingestion Scaling。Rate limiting 在 collector access control 中的角色 → Collector Access Control 實作。偽造流量場景下 rate limiting 和其他防護層的配合 → Client-side SDK 認證。

DevOps Dashboard 設計

Sat, 20 Jun 2026 00:00:00 +0000

DevOps dashboard 的消費者是維護 collector 的人 — 可能是開發者自己、可能是開源使用者的運維人員。這個 dashboard 不看被監控 app 的業務邏輯，只看 collector 這個基礎設施本身是否健康、各 SDK 實例是否正常回報。

使用模式是混合型：平時靠告警被動通知，收到通知後到 dashboard 查看細節。日常監控視圖提供「一眼確認系統正常」的能力，告警觸發視圖提供「出事了去哪裡查」的排障路徑。

日常監控視圖

服務狀態卡

一個狀態卡顯示 collector 的存活狀態和各 SDK 實例的最後心跳時間。狀態卡的設計是「綠色代表正常、紅色代表異常」的二元判斷 — 不需要使用者解讀數字。

Collector 存活的判斷依據是 health endpoint 回應。各 SDK 實例的狀態依據是最後一次 sdk.heartbeat 事件的時間 — 超過設定的逾時閾值（預設 10 分鐘）標為離線。

需要的事件：collector.health.check（collector 自身定期產生）、sdk.heartbeat（各 SDK 定期送出）、sdk.init（SDK 啟動時送出、標記上線）。

吞吐量曲線

折線圖顯示過去 24 小時每分鐘收到的事件數量。多個 SDK 實例用不同顏色區分。吞吐量的正常範圍由歷史資料建立基線 — 突然下降代表某個 SDK 停止送資料，突然上升代表 error storm 或重複送出。

需要的事件：collector.ingestion.count（collector 每分鐘記錄收到的事件數，按 source.app 分群）。

儲存用量

磁碟使用率的趨勢圖 + 保留策略的執行狀態。開發者需要知道「磁碟什麼時候會滿」和「purge 有沒有正常跑」。

需要的事件：collector.storage.disk_usage（定期取樣、metric 類型）、collector.storage.purge.completed（每次 purge 完成時記錄清了多少空間）。

SDK 連線列表

表格列出所有已知的 SDK 實例，每行顯示：app 名稱、版本、平台、最後回報時間、最後一次 init 時間。表格按「最後回報時間」排序 — 最久沒回報的在最上面，方便發現異常。

需要的事件：sdk.init（帶 source 完整資訊）、sdk.heartbeat（定期更新最後回報時間）。

Heartbeat 的觸發機制是 flush timer 的副作用 — SDK 的 flush timer 觸發時，如果 buffer 為空且距上次 heartbeat 超過設定間隔（預設 5 分鐘），自動注入一筆 sdk.heartbeat 事件後送出。不需要獨立的 heartbeat timer。App idle 時 heartbeat 仍會送出，dashboard 的 SDK 連線列表因此能偵測 SDK 是否仍存活。

告警觸發視圖

告警由 rule engine 觸發，觸發後開發者進入 dashboard 查看細節。每種告警條件對應一個排障路徑。

Health check 失敗

Collector 的 health endpoint 連續 N 次回應失敗（由外部 uptime check 偵測、如 cron + curl）。

進入 dashboard 後看：最後一次 collector.health.check 的時間和結果、collector 的 stderr log（systemd journal）、process 是否存活。如果 collector 已經掛了，dashboard 本身也不可達 — 這時的排障路徑是 SSH 到主機查 systemd 狀態。

SDK 停止回報

某個 SDK 實例超過逾時閾值沒有送 sdk.heartbeat。可能原因：被監控 app 當掉、網路斷開、SDK 初始化失敗。

進入 dashboard 後看：該 SDK 的最後事件（什麼類型、什麼時間）、最後 sdk.init 的 source 資訊（版本、平台）、同時段其他 SDK 是否正常（區分「單一 SDK 問題」和「collector 端問題」）。

磁碟用量超過閾值

collector.storage.disk_usage 超過 80%。

進入 dashboard 後看：各 backend 的空間佔比（SQLite DB 大小 + 匯出檔大小）、最近一次 purge 的執行時間和清理量、保留策略的設定值。如果 purge 正常執行但空間仍不足，代表事件產生速度超過清理速度 — 需要調整保留策略或擴容磁碟。

事件吞吐量異常下降

每分鐘事件數從正常基線突然下降超過 50%。

進入 dashboard 後看：吞吐量曲線標注「下降起始時間」、SDK 連線列表確認哪些 SDK 在該時間點後停止回報、collector 的 ingestion error log。

需要的事件總表

事件名稱	類型	產生者	用途
collector.health.check	lifecycle	Collector	服務狀態卡
collector.started	lifecycle	Collector	部署追蹤
collector.shutdown	lifecycle	Collector	異常關閉偵測
collector.ingestion.count	metric	Collector	吞吐量曲線
collector.storage.disk_usage	metric	Collector	儲存用量圖
collector.storage.purge.completed	lifecycle	Collector	purge 執行記錄
sdk.heartbeat	lifecycle	SDK	連線列表、存活判斷
sdk.init	lifecycle	SDK	版本/平台資訊、上線記錄
deployment.started	lifecycle	CI/CD hook	部署追蹤
deployment.completed	lifecycle	CI/CD hook	部署追蹤
rule.matched	event	Collector	alert 歷史

這些事件是 collector 自身的營運事件，和被監控 app 的事件走同一個 Storage interface 儲存。Collector 同時是事件的生產者和消費者 — collector.ingestion.count 由 collector 自己產生、自己儲存、自己在 dashboard 顯示。

deployment.started / deployment.completed 這兩個 lifecycle event 在 server-side 部署流程中對應 Backend 5.8 Deployment Rollout 的 evidence package——rollout 的每一批切換需要可判讀的部署事件作為證據。自架 collector 場景的部署追蹤規模遠小於 production server-side rollout，但 event schema 設計（timestamp / version / environment / result）可以跟 server-side 的 evidence 欄位對齊，讓未來規模成長時 event 格式不用重新設計。

自動恢復設計

自用工具場景下「凌晨三點 collector 掛了」的處理策略是自動恢復，不需要人介入。

機制	做法	恢復時間
systemd watchdog	`WatchdogSec=30s`，collector 定期寫 watchdog notify	30 秒內重啟
Restart policy	`Restart=on-failure`、`RestartSec=5s`	5 秒後自動重啟
Health endpoint	`/health` 回應 200 + 最後寫入時間	外部 check 偵測
啟動自檢	collector 啟動時檢查 storage 完整性、重建索引	啟動時自動修復

自動恢復後 collector 送出 collector.started 事件，dashboard 的服務狀態卡從紅轉綠。如果連續重啟（10 分鐘內重啟 3 次以上），systemd 的 StartLimitBurst 阻止無限重啟、改為發送告警通知人工介入。

存取控制

Day-one 的 dashboard 預設無認證 — 同區網內的任何裝置都能打開 dashboard URL。這是同區網信任模型的設計選擇，和 collector 的 HTTP endpoint 無認證一致。

風險告知

無認證的 dashboard 暴露以下資訊給同區網的所有裝置：

DevOps dashboard：SDK 版本、平台、IP、collector 的磁碟用量
Developer dashboard：error stack trace（可能包含檔案路徑和程式碼片段）、session 回放（使用者操作序列）
中台 dashboard：行為事件明細、funnel 轉換率

家用 LAN 的場景下，家裡的其他裝置（IoT、家人的電腦）也能存取這些資訊。

最小防護

Go 的 net/http middleware 可以用幾行程式碼加 basic auth：

 1func basicAuth(next http.Handler, user, pass string) http.Handler {
 2    return http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
 3        u, p, ok := r.BasicAuth()
 4        if !ok || u != user || p != pass {
 5            w.Header().Set("WWW-Authenticate", `Basic realm="monitor"`)
 6            http.Error(w, "Unauthorized", 401)
 7            return
 8        }
 9        next.ServeHTTP(w, r)
10    })
11}

帳密在 collector 的配置檔設定。Day-one 可選（不設就不啟用），但配置檔中應有 commented-out 的範例讓使用者知道這個選項存在。

Tripwire

Collector 暴露到公網或跨網路存取時，dashboard 的認證從可選變成必要。公網上的無認證 dashboard 等於公開了 error stack trace 和行為資料。

下一步路由

Developer dashboard 設計 → Developer Dashboard 設計
中台 dashboard 設計 → 中台 Dashboard 設計
Rule engine 的告警設計 → Rule engine 設計
Collector 自我監控的 bootstrapping 問題 → 規模演進
服務探活與自動恢復 → DevOps 服務探活

從 collector 資料做基礎 funnel 分析

Fri, 19 Jun 2026 00:00:00 +0000

自架 collector 收集的事件資料可以做基礎的 funnel 分析，不需要商業方案。分析的深度取決於 storage backend 的查詢能力 — SQLite 層能做每步事件計數，PostgreSQL 層能做 session 級轉換率分析。功能分層的完整定義見功能分層與 Backend 選擇。

定義 funnel 步驟

Funnel 分析的第一步是列出每一步和對應的事件名稱。以一個透過 WebSocket 連接遠端終端機的 app 連線流程為例：

步驟	事件名稱	意義
1	terminal.connect.start	使用者點擊連線
2	auth.biometric.success	生物辨識通過
3	terminal.connect.done	WebSocket 連線成功
4	terminal.input.submit	使用者開始打字

SQLite 層：每步事件計數

SQLite backend 能做的 funnel 是「每步有多少事件觸發」— 單表 GROUP BY，不需要跨事件 JOIN。

1SELECT name, COUNT(*) as count
2FROM events
3WHERE name IN ('terminal.connect.start', 'auth.biometric.success',
4               'terminal.connect.done', 'terminal.input.submit')
5  AND ts >= datetime('now', '-7 days')
6GROUP BY name;

步驟 N 的轉換率 = 步驟 N 的事件數 / 步驟 N-1 的事件數。流失率 = 1 - 轉換率。

能做的

每步事件計數（單表 GROUP BY）
按 source.version 或 source.platform 分群（加 WHERE 條件）
按天/按週看趨勢（strftime 分桶 + GROUP BY）

做不到的

Session 級轉換率：「同一個 session 完成步驟 1 到步驟 4 的比例」需要 JOIN 同 session 的多個事件、跨所有 session 聚合。SQLite 能做這個 JOIN，但在大量 session 時效能不足。
步驟間耗時：「使用者在步驟 1 和步驟 2 之間等了多久」需要 self-join on session_id + timestamp 差值計算。
漏斗順序驗證：確認使用者是按 1→2→3→4 順序完成、不是跳步。

PostgreSQL 層：Session 級 funnel

PostgreSQL backend 提供 window function 和高效 JOIN，能做完整的 session 級 funnel 分析。

 1WITH session_steps AS (
 2  SELECT session_id, name,
 3         ROW_NUMBER() OVER (PARTITION BY session_id ORDER BY ts) as step_order
 4  FROM events
 5  WHERE name IN ('terminal.connect.start', 'auth.biometric.success',
 6                 'terminal.connect.done', 'terminal.input.submit')
 7    AND ts >= NOW() - INTERVAL '7 days'
 8),
 9session_max_step AS (
10  SELECT session_id, MAX(step_order) as reached
11  FROM session_steps
12  GROUP BY session_id
13)
14SELECT reached, COUNT(*) as sessions
15FROM session_max_step
16GROUP BY reached
17ORDER BY reached;

新增能力

Session 級轉換率：每個 session 到達了哪一步、在哪一步流失
步驟間耗時：LAG window function 計算相鄰步驟的 timestamp 差值
漏斗順序驗證：用 ROW_NUMBER + CASE 確認步驟順序
Cohort 分群的 funnel：按使用者註冊日期 / 版本 / 平台分群看不同 cohort 的 funnel 差異

JSONL 匯出後的臨時分析

Collector 的 monitor export --format=jsonl 可以匯出事件為 JSONL 格式。匯出後用 grep + jq 做一次性的臨時分析：

1for step in terminal.connect.start auth.biometric.success terminal.connect.done terminal.input.submit; do
2  count=$(grep "\"name\":\"$step\"" exported-events.jsonl | wc -l)
3  echo "$step: $count"
4done

JSONL 臨時分析適合「快速看一眼大概數字」的場景。持續性的 funnel 監控應該用 SQLite 或 PostgreSQL 的 SQL 查詢，結果穩定且可重現。

自架 vs 商業方案

需求	自架能力	商業方案
每步事件計數	SQLite GROUP BY	Mixpanel / Amplitude 內建
Session 級轉換率	PostgreSQL window function	Mixpanel / Amplitude 內建
視覺化 funnel 漏斗圖	自建 dashboard	商業方案內建、拖拉設定
即時更新	定期重算 + dashboard 刷新	商業方案即時
A/B test 分群 funnel	PostgreSQL + feature flag	Optimizely / LaunchDarkly 整合

自用工具場景下，SQLite 層的每步事件計數通常足夠。商業產品需要 session 級分析時，PostgreSQL 層的 SQL 能力和商業方案的分析能力在功能上對等，差異在 UI 和設定便利性。

下一步路由

Funnel 分析的完整方法論 → Funnel analysis
事件設計如何影響分析品質 → 行為事件設計
功能分層定義 → 功能分層與 Backend 選擇
去識別化是分析的入場條件 → 模組七資安與隱私

模組八：行為資料的商業利用

Fri, 19 Jun 2026 00:00:00 +0000

回答「蒐集到的行為資料除了 debug，還能做什麼」。前提：模組七的去識別化是本模組的入場條件。

待寫章節

行為事件設計（事件命名規範 / 屬性設計 / funnel 定義）
Funnel analysis（使用者在哪一步流失）
Cohort analysis（不同族群的留存率差異）
Attribution（使用者從哪來、哪個廣告帶來轉換）
A/B test 的統計基礎（假設檢定 / 樣本量 / 多重比較）
推薦系統概論（collaborative filtering / content-based / 混合）
RFM 分群（Recency / Frequency / Monetary 的工程實作）
從 collector 資料做基礎 funnel 分析（自架方案能做到哪裡）

跨分類引用

← monitoring 模組七資安：去識別化是入場條件
← monitoring 模組一心智模型：event 類事件是行為分析的原料
← ux-design 模組一畫面狀態機：狀態轉換事件 → funnel 分析
待建連結 → data-engineering/（資料管線設計）
待建連結 → statistics/（A/B test 統計基礎）
待建連結 → machine-learning/（推薦系統架構）
待建連結 → compliance/（GDPR / CCPA / 個資法）

Developer Dashboard 設計

Sat, 20 Jun 2026 00:00:00 +0000

Developer dashboard 聚焦 error 追蹤和 debug。開發者的核心問題是「哪裡壞了、影響多少人、怎麼重現」。這個 dashboard 的所有視圖都圍繞 error 事件展開，其他三類事件（event / metric / lifecycle）作為 debug context 輔助。

和 DevOps dashboard 的差異：DevOps 看「基礎設施是否健康」，Developer 看「程式碼是否正確」。Error 趨勢上升在 DevOps 眼中是「事件量異常」，在 Developer 眼中是「程式碼 bug」。

日常監控視圖

Error 摘要

一個數字卡顯示最近 24 小時的 error 總數 + 和前一天的比較（上升 / 下降 / 持平）。旁邊標注「新 error」數量 — 過去 24 小時首次出現的 error name。

新 error 的偵測邏輯：error.name 在最近 24 小時的事件中存在、但在更早的事件中不存在。這是開發者最需要立即注意的 — 新版本引入的 bug 通常表現為「之前沒見過的 error name」。

Error 列表

表格按 error.name 分群，每行顯示：error 名稱、最近 24 小時出現次數、影響的 session 數、首次出現時間、最近出現時間。按出現次數降序排列。

點擊某行進入 Error 詳情視圖。

 1-- SQLite 層可用
 2SELECT name,
 3       COUNT(*) as count,
 4       COUNT(DISTINCT session_id) as sessions,
 5       MIN(ts) as first_seen,
 6       MAX(ts) as last_seen
 7FROM events
 8WHERE type = 'error'
 9  AND ts >= datetime('now', '-1 day')
10GROUP BY name
11ORDER BY count DESC;

Error 趨勢

折線圖顯示過去 7 天每天的 error 數量。可選按 error.name 過濾看單一 error 的趨勢，或看全部 error 的總趨勢。

趨勢的判讀訊號：

穩定持平 → 已知的 recurring error，排優先處理
新版本部署後突然上升 → 該版本引入的 regression
逐漸上升 → 累積性問題（記憶體洩漏、資源耗盡）

版本健康

按 source.version 分群的 error 率比較。每個版本顯示：error 數量、error rate（error / 總事件比）、最常見的 error name。

版本健康視圖幫助判斷「這個版本該不該 rollback」— 如果新版本的 error rate 顯著高於前一版，rollback 決策有數字依據。

Debug 深入視圖

從日常監控的 Error 列表點擊某個 error 進入深入視圖。

Error 詳情

單個 error name 的完整資訊：

Stack trace（最近一次出現的 error.data.stack_trace）
首次出現時間和總出現次數
影響的 session 數和佔比
按版本分佈（哪些版本有、哪些沒有）
按平台分佈（iOS / Android / Web）
最近 10 次出現的時間軸

Session 回放

選擇一個受影響的 session，顯示該 session 的完整事件序列。事件按時間排列，每筆事件顯示類型、名稱、時間、data 摘要。Error 事件用顯眼的樣式標記，讓開發者快速定位「error 發生前使用者做了什麼」。

Session 回放需要同一個 session_id 的所有四類事件。這是 event-enumeration-method 中「Debug — 最近操作」事件的核心消費場景。

1-- SQLite 層可用
2SELECT type, name, ts, data
3FROM events
4WHERE session_id = ?
5ORDER BY ts;

平台分佈

某個 error name 在不同平台和 OS 版本的分佈圖。幫助判斷「這個 error 是全平台問題、還是特定平台的 bug」。

1-- SQLite 層可用
2SELECT json_extract(source, '$.platform') as platform,
3       json_extract(source, '$.os') as os_version,
4       COUNT(*) as count
5FROM events
6WHERE type = 'error' AND name = ?
7GROUP BY platform, os_version;

事件覆蓋確認

Developer dashboard 需要的所有事件在目前的事件設計中已完整覆蓋：

視圖	需要的事件	對應的事件名稱	覆蓋狀態
Error 列表	error GROUP BY name	`app.exception`	已覆蓋
Error 趨勢	error 時間序列	`app.exception`	已覆蓋
版本比較	error GROUP BY source.version	`app.exception` + source schema	已覆蓋
Session 回放	同 session 全部事件	四類事件 + session_id	已覆蓋
Stack trace	error.data.stack_trace	`app.exception` data 欄位	已覆蓋
影響範圍	COUNT DISTINCT session_id	session_id schema	已覆蓋
平台分佈	GROUP BY source.platform	source schema	已覆蓋

SQLite 層 vs PostgreSQL 層

Developer dashboard 的多數視圖在 SQLite 層就能運作 — 都是單表 GROUP BY 和 WHERE 過濾。

視圖	SQLite 層	PostgreSQL 層新增
Error 列表	可用
Error 趨勢	可用（7 天以內）	長期趨勢（30 天以上）
版本比較	可用
Session 回放	可用
平台分佈	可用
Error 詳情	可用
跨版本 P95 回應	不可用	percentile 函數

開發者 debug 場景不需要 PostgreSQL — SQLite 層的查詢能力已涵蓋所有核心視圖。PostgreSQL 的需求來自效能指標的高級分析（P95 趨勢），但這屬於效能監控動機而非 debug 動機。

下一步路由

DevOps dashboard 設計 → DevOps Dashboard 設計
中台 dashboard 設計 → 中台 Dashboard 設計
Error 事件的枚舉方法 → 事件枚舉與補齊檢查
功能分層與 Backend 選擇 → 功能分層與 Backend 選擇
Error fingerprint 分群取代 name 分群 → Error Fingerprint 與去重分群

中台 Dashboard 設計

Sat, 20 Jun 2026 00:00:00 +0000

中台 dashboard 的消費者是營運單位和行銷單位，關心的是「使用者行為」和「商業指標」。這個 dashboard 和 Developer dashboard 的消費對象不同 — 開發者看 stack trace 和 error 分佈，營運看漏斗轉換和留存率。

中台 dashboard 的所有深入分析視圖都需要 PostgreSQL 層（功能分層與 Backend 選擇），因為它們依賴跨 session 的 JOIN 和大規模聚合查詢。SQLite 層只能提供基礎的事件計數。

日常監控視圖

DAU / MAU

每日活躍使用者數（DAU）和每月活躍使用者數（MAU）的趨勢折線圖。活躍使用者的定義是「該時間段內至少有一筆 session.start 事件的唯一 session」。

DAU / MAU 比值（粘性指數）是產品健康的基本訊號 — 比值越高代表使用者回訪越頻繁。一般 SaaS 產品的 DAU/MAU 在 10-20% 為正常範圍，社交類產品期望 50% 以上。

1-- PostgreSQL
2SELECT date_trunc('day', ts) as day,
3       COUNT(DISTINCT session_id) as dau
4FROM events
5WHERE type = 'lifecycle' AND name = 'session.start'
6  AND ts >= NOW() - INTERVAL '30 days'
7GROUP BY day
8ORDER BY day;

核心漏斗

主要業務流程的每步轉換率。漏斗的步驟從動機驅動的事件設計的商業動機段定義。

日常視圖顯示最近 7 天的整體轉換率 — 營運人員每天看「昨天的漏斗有沒有異常」。轉換率突然下降是產品問題的早期訊號（UI 改版影響操作流程、第三方服務異常阻擋流程）。

功能使用排行

按 event.name 計數的排行榜。營運用它判斷「哪些功能有人用、哪些沒人用」— 功能投資的 ROI 判斷依據。

1-- SQLite 層可用（基礎計數）
2SELECT name, COUNT(*) as usage_count
3FROM events
4WHERE type = 'event'
5  AND ts >= datetime('now', '-7 days')
6GROUP BY name
7ORDER BY usage_count DESC
8LIMIT 20;

功能使用排行是 SQLite 層就能提供的視圖 — 單表 GROUP BY。

分析深入視圖

日常視圖發現異常後，營運人員進入分析視圖深入探究。所有分析視圖都需要 PostgreSQL 層。

Funnel 漏斗圖

互動式漏斗圖：選擇步驟 → 看每步轉換率 → 點擊某步看流失使用者的行為。

Funnel 需要 session 級 JOIN — 「同一個 session 完成了步驟 1 到步驟 N 中的哪些步驟」。完整的 SQL 查詢見從 collector 資料做基礎 funnel 分析。

Cohort 留存表

按「使用者首次出現日期」分群的留存率矩陣。行是 cohort（第 N 週註冊的使用者），列是「第 1/2/3/…週的回訪率」。

需要的事件：user.first_seen（cohort 分群依據）+ session.start（回訪判定）。

user.first_seen 是 collector 端計算的衍生事件 — 當某個 session_id 或 user identifier 在系統中第一次出現時記錄。和 SDK 端送來的原始事件不同，它的產生者是 collector 的計算邏輯。

A/B 測試結果

實驗的 variant 間轉換率比較 + 統計顯著性指標（p-value、信賴區間）。

需要的事件：experiment.{name}.assigned（分組）+ experiment.{name}.converted（轉換）。這些事件在動機驅動的事件設計的 A/B 測試段定義。統計分析的方法見 A/B test 的統計基礎。

RFM 分群散佈圖

三維度（Recency / Frequency / Monetary）的使用者分群。每個使用者計算 R/F/M 分數，按分數分群後在散佈圖上顯示。

需要的事件：event 類的購買/使用事件 + lifecycle 的 session 事件。計算方法見 RFM 分群。

通路歸因

使用者從哪裡來（哪個廣告、哪個推薦連結、自然流量），每個通路帶來多少轉換。

需要的事件：attribution.install_source（SDK 首次啟動時從 referrer / UTM 參數 / deep link 取得安裝來源）+ conversion.{type}（轉換事件）。

attribution.install_source 只在 SDK 首次啟動時送一次。來源資訊的取得方式依平台不同 — Web 從 URL 的 UTM 參數取、mobile app 從 deferred deep link 或 install referrer API 取。

需要的缺口事件

中台 dashboard 暴露了三個目前事件表未覆蓋的事件：

事件名稱	類型	產生者	用途	為什麼缺
user.first_seen	lifecycle	Collector 計算	Cohort 分群依據	原始事件設計聚焦 SDK 端，衍生計算事件不在設計範圍
attribution.install_source	event	SDK 首次啟動	通路歸因	只在首次啟動送一次的事件沒有被操作盤點覆蓋
session.active.count	metric	Collector 計算	即時在線大屏	即時統計是 collector 端的衍生 metric

這三個事件的共同特徵：前兩個是「只發生一次」的事件（首次出現、首次安裝），第三個是 collector 端的即時計算結果。操作盤點和四類補齊檢查聚焦在「反覆發生的使用者操作」，容易遺漏「只發生一次」的生命週期轉折點和 collector 端的衍生計算。

中台的權限隔離

營運和行銷人員看行為資料，但不需要也不應該看到 stack trace、raw error message、session 級別的原始事件明細。權限隔離在 collector 的查詢 API 層實作 — 不同的 API scope 回傳不同粒度的資料。

Scope	可見	不可見
devops	collector 健康 metric、SDK 狀態	業務事件明細
developer	全部事件、stack trace、session 回放	無限制
business	聚合統計（funnel/cohort/count）、匿名行為	stack trace、error raw data、session 原始事件

Scope 的實作可以是 API key 分級（不同 key 有不同 scope）、或 HTTP header 帶 role。Day-one 可以跳過（自用場景只有 developer 一個角色），tripwire 是「第一個非開發者要看 dashboard 時加入 scope 機制」。

下一步路由

DevOps dashboard 設計 → DevOps Dashboard 設計
Developer dashboard 設計 → Developer Dashboard 設計
Funnel 分析的完整方法 → Funnel analysis
功能分層與 Backend 選擇 → 功能分層與 Backend 選擇
去識別化是中台 dashboard 的入場條件 → 模組七資安與隱私
畫面狀態矩陣定義了 funnel 步驟的操作來源 → 畫面狀態矩陣

Ingestion Scaling

Sat, 20 Jun 2026 00:00:00 +0000

Ingestion scaling 處理的是「大量事件同時湧入 collector 時怎麼辦」。這和 storage scaling（SQLite → PostgreSQL 的可插拔 backend）是兩個獨立的擴展軸 — storage scaling 解決「查得動嗎」，ingestion scaling 解決「收得下嗎」。一個 collector 可能 storage 用 PostgreSQL（查詢能力足夠）但 ingestion 撐不住（HTTP 請求太多），反之亦然。

四層防線

每一層在不同規模觸發，由近到遠依序啟用。前一層能擋住的流量不需要啟用後一層。本章的四層按防線位置劃分（SDK / Collector / 基礎設施兩層）。DevOps 的規模分級應對表按 events/sec 量級劃分（Tier 1-4），兩者視角不同但覆蓋相同的擴展路徑。

層	機制	在哪裡做	觸發條件	適用規模
一	SDK 端取樣 + 聚合前移	SDK	高頻事件超過合理粒度	所有規模
二	Collector 單機背壓 + rate limit	Collector	寫入 channel 接近滿載	自用 ~ 小型
三	水平擴展（多 collector + LB）	基礎設施	單機 CPU / 連線數飽和	中型 ~ 大型
四	Queue 解耦（Kafka / NATS）	基礎設施	突發流量超過 collector 群的即時處理能力	商業網站級

第一層：SDK 端的流量控制

流量控制的最有效位置是事件產生的源頭。SDK 端減少的事件量，後面每一層都不需要處理。

動態取樣

SDK 在收到 collector 的 HTTP 429（Too Many Requests）回應時，自動降低取樣率。恢復正常後逐步回升。

1正常 → sampling 1.0
2收到 429 → sampling 降到 0.5
3持續 429 → sampling 降到 0.1
4連續 10 次成功 → sampling 回升到 0.5
5連續 30 次成功 → sampling 回到 1.0

動態取樣的控制邏輯在 SDK 端實作，不需要 collector 端額外支援 — 429 回應碼就是觸發訊號。和感測器生命週期管理的靜態取樣率互補 — 靜態取樣在 config 中設定、動態取樣在執行期自動調整。

聚合前移

SDK 端累積一段時間的同名事件，送出摘要而非逐筆。適合 metric 類的高頻取樣。

例：原本每 100ms 送一筆 render.frame_drop，改成每 5 秒送一筆 render.frame_drop_summary（帶 count + min + max + avg）。事件數從 50 筆/5s 降到 1 筆/5s。

聚合前移犧牲事件粒度換取吞吐量。只適合「趨勢比每筆細節重要」的 metric 類事件。Error 和 lifecycle 事件不做聚合 — 每筆的 stack trace 和狀態轉換都有 debug 價值。

優先級丟棄

SDK 的離線 buffer 滿時，按優先級丟棄。Error 的 debug 價值最高，最後丟。

優先級	事件類型	理由
高	error	每筆都可能是需要修的 bug
高	lifecycle	session 邊界和狀態轉換、影響 debug 和 cohort
中	metric	丟幾筆不影響趨勢（聚合摘要仍然有效）
低	event	行為事件在取樣後丟幾筆對 funnel 影響有限

第二層：Collector 單機的防護

Collector 在自身能力範圍內保護自己不被壓垮。和 architecture.md 的並發寫入策略直接相關 — 寫入 channel 是背壓的實作基礎。背壓和流量管控的通用概念見 DevOps 流量管控。

寫入 channel 容量 + 背壓

Single-writer goroutine pattern 的 Go channel 有固定容量（如 10,000）。Channel 滿時 HTTP handler 無法送入事件，此時回 429：

1select {
2case writeCh <- event:
3    w.WriteHeader(http.StatusAccepted) // 202
4default:
5    w.Header().Set("Retry-After", "5")
6    w.WriteHeader(http.StatusTooManyRequests) // 429
7}

Channel 容量的設定依據：容量 × 每筆事件的記憶體大小 = 背壓 buffer 的記憶體上限。10,000 筆 × 每筆 ~1KB = ~10MB，對多數機器微不足道。

Per-SDK rate limiting

按 source.app（或 API key，啟用認證後）限制每個 SDK 實例的請求速率。防止單一 SDK 的 bug（無限迴圈送事件）打爆 collector。

1// 每個 source.app 一個 rate limiter
2limiter := rateLimiters.GetOrCreate(sourceApp, rate.Limit(100)) // 100 events/sec
3if !limiter.Allow() {
4    w.WriteHeader(http.StatusTooManyRequests)
5    return
6}

Error 快通道

Error 事件不經 rate limit — 它們的 debug 價值最高，且在正常情況下數量遠少於其他類型。Error storm（app 出 bug 導致大量 error）時，error 的量可能暴增，但這正是最需要記錄的時刻。

Error 快通道用獨立的 channel 或跳過 rate limiter 的 check。如果 error 量也超出承載，用第一層的 SDK 端優先級丟棄處理。

第三層：水平擴展

單機的 CPU、記憶體或網路頻寬飽和時，水平擴展 — 多個 collector 實例分攤流量。水平擴展的通用模式見 DevOps 水平擴展。

前提：已切換到 PostgreSQL

SQLite backend 不支援水平擴展。每個 collector 實例有各自的 SQLite 檔案，無法合併查詢。水平擴展的前提是所有 collector 寫入同一個 PostgreSQL。

架構

 1SDK ──→ Load Balancer (nginx / HAProxy)
 2             │
 3        ┌────┴────┐
 4        ▼         ▼
 5   Collector A  Collector B
 6        │         │
 7        └────┬────┘
 8             ▼
 9        PostgreSQL
10             │
11             ▼
12         Dashboard

Collector 實例是 stateless 的 — 不在記憶體保存查詢狀態，所有持久化資料在 PostgreSQL。任何 collector 接收的事件都能被任何 dashboard 查到。

Load balancer 用 round-robin 或 least-connections 分配。不需要 sticky session — collector 不保存 session 狀態。

多機的 Downsample 和 Purge

Downsample 和 Purge job 只能由一個 collector 實例執行（避免重複處理）。用 PostgreSQL 的 advisory lock 或外部的 distributed lock 確保單一執行者。

第四層：Queue 解耦

突發流量超過 collector 群的即時處理能力時，在 collector 和 storage 之間插入 message queue 做緩衝。Queue 緩衝的通用概念見 DevOps 突發流量應對，message queue 的選型見 Backend 模組三非同步與訊息佇列。

架構

 1SDK ──→ Collector (ingestion only)
 2             │
 3             ▼
 4        Queue (Kafka / NATS / Redis Streams)
 5             │
 6        ┌────┴────┐
 7        ▼         ▼
 8    Worker A   Worker B
 9        │         │
10        └────┬────┘
11             ▼
12        PostgreSQL

Collector 的職責簡化為「接收 → 驗證 → 寫入 queue → 回 202」。寫入 queue 比寫入 DB 快得多（append-only、不需要索引更新），collector 的吞吐上限大幅提升。

Worker 從 queue 消費、寫入 PostgreSQL。Worker 按自己的速度處理 — 高峰時 queue 積壓，高峰過後 worker 消化積壓。Queue 的持久化保證事件不遺失。

Queue 的選擇

Queue	適合場景	代價
Kafka	高吞吐（百萬 events/sec）、需要 replay	運維重（ZooKeeper / KRaft）
NATS JetStream	輕量、Go 原生、足夠的持久化	生態較小
Redis Streams	簡單、如果已有 Redis	不是專門的 queue、持久化設定需注意

自架監控工具的 queue 層級推薦 NATS JetStream — Go 原生 client、單 binary 部署、JetStream 提供持久化和 replay。

觸發條件

Queue 解耦的引入時機是「collector 群已水平擴展但仍無法處理突發流量」。如果日常流量 collector 群能處理，只有行銷活動 / 新聞曝光的短暫高峰需要 queue 緩衝，queue 的維護成本可能高於收益 — 考慮用第一層的動態取樣在源頭降量。

功能分層整合

擴展功能分層與 Backend 選擇的分層表，加入 ingestion 維度：

功能層級	Storage	Ingestion	適用規模
SQLite 層	SQLite embedded	單 collector + 背壓	自用 ~ 小型團隊
PostgreSQL 層	PostgreSQL	多 collector + LB	中型 ~ 大型
Queue 層	PostgreSQL	Collector + Queue + Worker	商業網站級

每一層是前一層的超集 — Queue 層包含 PostgreSQL 層的所有查詢能力，加上 ingestion 的 queue 緩衝。

下一步路由

Collector 的並發寫入策略 → Collector 架構
Storage 端的擴展設計 → 規模演進
功能分層的定義 → 功能分層與 Backend 選擇
背壓和流量管控的通用概念 → DevOps 流量管控
水平擴展的通用模式 → DevOps 水平擴展
突發流量應對 → DevOps 突發流量
Message queue 選型 → Backend 模組三非同步與訊息佇列
端到端資料完整性（資料損失地圖、完整性指標）→ 端到端資料完整性

SQLite Backend 效能基準

Sat, 20 Jun 2026 00:00:00 +0000

SQLite Backend 的效能受三個因素影響：儲存裝置（SSD vs HDD vs SD card）、Go driver 選擇（modernc.org/sqlite pure Go vs mattn/go-sqlite3 CGO）、並發模型（WAL mode + single-writer）。本章根據 SQLite 的技術特性和業界基準推導預期效能範圍，並提供實測方法讓使用者在自己的環境驗證。所有數字是預期範圍而非實測值 — 實際效能依硬體和 workload 而定。

寫入吞吐

寫入吞吐決定 collector 每秒能消化多少事件。SQLite 的寫入效能主要受 fsync 頻率和 WAL checkpoint 影響。

單筆 INSERT

每筆 INSERT 獨立一個 transaction 時，每次 commit 都會 fsync。WAL mode 的 fsync 成本比 journal mode 低（append-only），但仍是寫入的主要瓶頸。

儲存裝置	單筆 INSERT 延遲	理論上限
NVMe SSD	10-30 μs	30,000-100,000 inserts/sec
SATA SSD	30-50 μs	20,000-30,000 inserts/sec
HDD	50-200 μs	5,000-20,000 inserts/sec
SD card	500-2000 μs	500-2,000 inserts/sec

modernc.org/sqlite（pure Go）的效能約為 CGO driver（mattn/go-sqlite3）的 60-80%。上表數字基於 CGO driver，pure Go 需打八折。Go HTTP handler 的開銷（JSON 解碼、schema 驗證、goroutine 調度）再扣 10-20%。

批次 INSERT

一個 transaction 包裹多筆 INSERT，只做一次 fsync。Collector 接收 SDK 的 flush batch（一個 HTTP request 帶一批事件）天然適合批次寫入。

吞吐提升幅度和批次大小的關係：

批次大小	相對單筆的吞吐提升
10 筆/tx	3-5x
100 筆/tx	5-10x
1000 筆/tx	8-15x

提升來自 fsync 次數從「每筆一次」降到「每批一次」。超過 100 筆/tx 後邊際收益遞減。

實際預期

結合 pure Go driver、HTTP handler 開銷和批次寫入，不同環境下的預期吞吐：

環境	單筆	批次（100/tx）	適合場景
Mac M1/M2 NVMe + pure Go	~5,000/sec	~30,000/sec	開發機
Linux VPS SATA SSD	~3,000/sec	~20,000/sec	小型部署
Raspberry Pi 4 SD card	~200/sec	~1,000/sec	邊緣設備

和事件產生速率的對照

場景	預估 events/sec	SQLite 批次能撐嗎
自用 1 個 app	< 10	遠超需求
小團隊 5 人各跑 1 個 app	< 50	綽綽有餘
10 SDK 同時 flush	100-1000 burst	批次 INSERT 撐得住
100+ 使用者持續活躍	500+ 持續	邊界 — 觀察 database is locked

burst 和持續的差異在於：burst 是短暫的高峰（flush batch 到達後數秒內消化完），持續是長時間的穩定高流量。SQLite 的 WAL mode 對 burst 容忍度高（write lock 等待時間短），對持續高流量容忍度有限（write lock 等待累積）。

查詢延遲

查詢延遲決定 dashboard 的刷新體驗。SQLite 的查詢效能取決於索引覆蓋和掃描行數。

有索引的查詢

建議的索引（見規模演進的建議索引段）覆蓋 dashboard 的核心查詢模式。有索引時的預期延遲：

查詢模式	10 萬筆	50 萬筆	100 萬筆
等值查詢（WHERE session_id = ?）	< 1ms	< 1ms	< 1ms
範圍查詢（WHERE ts BETWEEN ? AND ?）	< 10ms	10-50ms	50-100ms
GROUP BY name	10-50ms	50-200ms	200-500ms
COUNT DISTINCT session_id	50-100ms	200-500ms	500ms-1s
JOIN + window function	100ms-1s	1-3s	3-10s

無索引的查詢

無索引時 SQLite 做全表掃描。掃描速度約 50-100 MB/sec（SSD）、10-30 MB/sec（HDD）。

資料量	預估大小	SSD 全掃延遲	HDD 全掃延遲
10 萬筆	~40 MB	200-500ms	1-3s
100 萬筆	~400 MB	2-5s	10-30s
300 萬筆	~1.2 GB	5-15s	30-90s

超過 100 萬筆無索引查詢會超出 dashboard 可接受的刷新延遲 — 這是 day-one 就建索引的理由。

Dashboard 刷新頻率 vs 查詢延遲

Dashboard 的每個視圖有不同的刷新間隔和可接受延遲。查詢延遲超過可接受值時，dashboard 體驗變差（等待轉圈、資料過時）。

Dashboard 視圖	刷新間隔	可接受延遲	10 萬筆有索引	100 萬筆有索引
即時狀態卡	1-5 秒	< 100ms	滿足	滿足
Error 列表	5-10 秒	< 500ms	滿足	滿足
趨勢圖（最近 24h）	30 秒	< 1s	滿足	邊界
長期聚合（最近 30 天）	5 分鐘	< 3s	滿足	需要預聚合

「需要預聚合」代表原始事件的聚合查詢超過可接受延遲，應該依賴分層保留策略中的 hourly_summary / daily_summary 表（見規模演進的分層保留段）。

資源消耗

記憶體

元件	佔用	備註
Go HTTP server	20-50 MB	基礎開銷
SQLite page cache	2 MB（預設）	`PRAGMA cache_size` 可調
寫入 buffer（channel）	1-10 MB	取決於 channel 容量和事件大小
查詢結果暫存	和結果集成正比	GROUP BY 10 萬筆 ~10 MB
Collector 整體	50-100 MB	自用場景

Raspberry Pi（1 GB RAM）上建議把 page cache 調小（PRAGMA cache_size = -512 = 512 KB），避免大結果集查詢（加 LIMIT），dashboard 刷新頻率降低。

CPU

操作	CPU 使用	備註
INSERT（寫入）	可忽略	I/O bound，CPU 不是瓶頸
SELECT（查詢）	和掃描行數正比	有索引時可忽略
Downsample（每小時）	短暫 spike < 1s	處理最近一小時的事件
Purge（每天）	短暫 spike 1-3s	分批 DELETE
整體	< 5%	自用場景

磁碟

日事件量	原始資料/天	原始資料/月	含索引/月
1,000（極低）	0.3-0.5 MB	9-15 MB	11-18 MB
10,000（自用）	3-5 MB	90-150 MB	110-180 MB
100,000（小團隊）	30-50 MB	0.9-1.5 GB	1.1-1.8 GB

WAL 檔案通常 < 10 MB（auto-checkpoint 在 WAL 達到 1000 pages 時觸發）。分層保留策略下，原始事件只保留 7 天，長期佔用由聚合摘要表決定（遠小於原始事件）。

邊緣設備場景

Raspberry Pi、低配 VPS（1 核 / 1 GB RAM）、甚至 NAS 上跑 collector 時的特殊考量：

SD card 的隨機寫入：SD card 的隨機寫入 IOPS 極低（100-500 IOPS），WAL mode 的 checkpoint（把 WAL 內容合併回主資料庫檔案）可能卡住 1-5 秒。期間新的寫入等待 checkpoint 完成。建議調高 wal_autocheckpoint 的閾值（如 5000 pages），讓 checkpoint 頻率降低但每次時間更長 — 在非活躍時段（凌晨）手動觸發 PRAGMA wal_checkpoint(TRUNCATE)。

1 GB RAM：cache_size 調小（512 KB）、避免 SELECT * 不帶 LIMIT、GROUP BY 的結果集用 HAVING 條件過濾減少暫存。Dashboard 的長期聚合直接查 hourly_summary 表而非原始事件。

ARM CPU：pure Go SQLite driver（modernc.org/sqlite）在 ARM 上的效能差距可能比 x86 更大（pure Go 的 C-to-Go 翻譯在 ARM 的指令最佳化較少）。實測確認。

建議配置：邊緣設備上 collector 的 dashboard 刷新頻率從預設值降低（即時狀態卡 5 秒 → 30 秒，趨勢圖 30 秒 → 5 分鐘），降採樣 job 頻率從每小時改為每 6 小時。

實測方法指引

教學的預期數字是推導值，實際效能取決於使用者的硬體和 workload。Collector 提供內建的 benchmark 命令讓使用者在自己的環境實測。

寫入 benchmark

1# 單筆寫入：10000 筆，每筆獨立 transaction
2./collector benchmark write --events=10000 --batch=1 --storage=sqlite
3
4# 批次寫入：10000 筆，每 100 筆一個 transaction
5./collector benchmark write --events=10000 --batch=100 --storage=sqlite

輸出：total duration、events/sec、p50/p95/p99 latency per event。

查詢 benchmark

1# 先灌入測試資料
2./collector benchmark seed --events=100000 --storage=sqlite
3
4# 跑查詢 benchmark
5./collector benchmark query --type=error --group-by=name --storage=sqlite
6./collector benchmark query --session-id=random --storage=sqlite

輸出：query duration、rows scanned、rows returned。

Production 觀察指標

部署後用 DevOps dashboard（見 DevOps Dashboard 設計）觀察 collector 自身的效能 metric：

collector.storage.write_duration_ms：每次寫入的延遲。P95 超過 100ms 是瓶頸訊號。
collector.storage.query_duration_ms：每次查詢的延遲。P95 超過 dashboard 刷新間隔是瓶頸訊號。
collector.storage.db_size_bytes：資料庫大小。接近磁碟可用空間的 80% 時觸發 purge 或擴容。
collector.storage.wal_size_bytes：WAL 檔案大小。持續 > 50 MB 代表 checkpoint 跟不上寫入速度。

下一步路由

切換到 PostgreSQL 的觸發條件 → 規模演進
SQLite 和 PostgreSQL 的功能分層 → 功能分層與 Backend 選擇
Ingestion 端的擴展設計 → Ingestion Scaling

無 SSH 環境的監控與告警

Fri, 26 Jun 2026 00:00:00 +0000

無 SSH 的環境通常不允許安裝監控 agent（Datadog agent、New Relic APM daemon 都需要 daemon 常駐或 root 權限），伺服器的內部指標（CPU、記憶體、磁碟）只能從主機商的控制面板看到靜態數值，沒有告警機制。這種環境的監控策略是從外部觀測——用 HTTP check 確認服務存活、用不需要 agent 的錯誤追蹤服務捕捉例外、用定期量測建立效能基線。每一層都不依賴 server 端安裝任何東西。

可用性監控（外部 HTTP check）

外部 HTTP check 的運作方式是從第三方伺服器定期對目標 URL 發 HTTP 請求，驗證回應狀態碼、回應時間、以及頁面內容是否包含預期的文字。服務掛了或回應異常時觸發告警。

工具選型

工具	免費方案	檢查間隔	特色
UptimeRobot	50 個 monitor	5 分鐘	設定簡單、API 可整合
Better Stack	10 個 monitor	3 分鐘	含 incident 管理與 status page
Pingdom	1 個 monitor（試用）	1 分鐘	Synthetic monitoring、付費功能完整

UptimeRobot 的免費方案對多數無 SSH 環境的站台足夠——50 個 monitor 可以覆蓋一個站台的主要入口。

該監控哪些 URL

選監控目標的判準是「這個 URL 掛了代表哪一層出問題」：

URL	驗證的層次	掛了代表什麼
首頁	web server 存活	Apache/Nginx 或 PHP 本身掛了
登入頁	應用框架正常運作	PHP session 或框架初始化失敗
一個資料庫相依的頁面	DB 連線存活	MySQL 掛了或連線數滿了
金流 callback URL	第三方服務可達	付款回調會失敗、訂單狀態卡住

每個 monitor 設兩層閾值：回應時間 >3 秒為警告（效能劣化的早期訊號）、>10 秒或非 200 狀態碼為嚴重（服務已不可用）。

告警通道

免費方案通常支援 email 與 webhook（可串 Slack）。付費方案加 SMS 和電話。接手初期用 email + Slack 即可，等確認告警不會誤報後再決定要不要升級到 SMS。頻繁誤報會讓團隊學會忽略通知——閾值要設在「真的有問題才響」的水位。

錯誤追蹤（不需要 server agent）

PHP 的錯誤追蹤在無 SSH 環境有兩條路徑：server 端用 PHP 內建的 error_log、client 端用不需要安裝的 SaaS 服務。

PHP error_log（server 端、不需 SSH）

PHP 可以把錯誤寫進檔案，設定方式是在 .htaccess 或 php.ini（如果主機允許）加入：

1# .htaccess — 啟用錯誤記錄、關閉畫面顯示
2php_flag display_errors off
3php_flag log_errors on
4php_value error_log /home/user/logs/php_errors.log

error_log 的路徑要指向 web root 之外的目錄，避免錯誤訊息被外部存取。設定後透過 FTP 定期下載這個檔案、用 grep 篩選嚴重等級：

1# 篩選 Fatal 和 Warning（過濾掉 Notice / Deprecated）
2grep -E "Fatal|Warning" php_errors.log | tail -50

Sentry（PHP + JavaScript、不需 server agent）

Sentry 的 PHP SDK 不需要系統層 agent，只需要在應用程式碼裡初始化：

1composer require sentry/sentry

1// 在應用程式進入點（如 index.php 最前面）加入
2\Sentry\init([
3    'dsn' => 'https://examplekey@o0.ingest.sentry.io/0',
4    'traces_sample_rate' => 0.1,
5]);

這段程式碼會在 PHP 拋出未捕捉的例外或觸發 error 時，把錯誤資訊（stack trace、request context、使用者資訊）透過 HTTP 送到 Sentry 的 SaaS 平台。免費方案每月 5,000 個事件，對流量不大的流量不大的站台通常足夠。

前端的 JavaScript 錯誤追蹤更簡單——在 HTML 的加一行 Sentry 的 CDN script，不需要修改 server 設定：

1<script
2  src="https://browser.sentry-cdn.com/8.x/bundle.tracing.min.js"
3  crossorigin="anonymous"
4>script>
5<script>
6  Sentry.init({ dsn: "https://examplekey@o0.ingest.sentry.io/0" });
7script>

JavaScript SDK 捕捉的是瀏覽器端的錯誤——DOM 操作失敗、AJAX 請求異常、未處理的 Promise rejection。跟 PHP 端的 SDK 各抓不同層的問題。

error_log vs Sentry 的分工

error_log 是 server 端的文字紀錄，需要手動下載和篩選；Sentry 有搜尋、聚合、告警和 stack trace 視覺化。兩者互補：error_log 保留完整紀錄作為備份、Sentry 提供可操作的告警和分析介面。error_log 在 PHP 嚴重到 Sentry SDK 自己也掛掉的情況下仍然有紀錄。

效能基線

效能基線的責任是回答「正常狀態下回應時間是多少」，讓異常浮現時有比對的參考。沒有基線時，回應時間從 200ms 劣化到 2 秒、但因為「好像一直都這麼慢」而沒人察覺。

量測方式

最簡單的量測是從本機或 CI 環境定期 curl：

1# 量測回應時間（秒），只看 time_total
2curl -o /dev/null -s -w "%{time_total}\n" https://example.com

把這段做成 GitHub Actions 的 scheduled workflow，每小時跑一次、把結果追加到 repo 的 CSV 檔案，就有了一條回應時間的趨勢線：

 1on:
 2  schedule:
 3    - cron: '0 * * * *'
 4jobs:
 5  perf-check:
 6    runs-on: ubuntu-latest
 7    steps:
 8      - uses: actions/checkout@v4
 9      - run: |
10          TIME=$(curl -o /dev/null -s -w "%{time_total}" https://example.com)
11          echo "$(date -u +%Y-%m-%dT%H:%M:%SZ),$TIME" >> perf-log.csv
12      - run: git add perf-log.csv && git commit -m "perf check" && git push

這條趨勢線本身就是監控：回應時間連續幾個小時上升，代表某個東西在劣化（DB 查詢變慢、磁碟快滿、PHP process 卡住）。

頁面效能

Google PageSpeed Insights（免費、不需安裝）分析前端載入效能，包含 LCP、CLS、FID 等 Core Web Vitals。對 legacy PHP 站台有用的是它會指出渲染阻塞的 CSS/JS、未壓縮的圖片、缺少快取 header 這類不需要動後端就能改善的問題。

資料庫效能（需改 code）

如果能修改 PHP 程式碼，在資料庫查詢前後加計時、超過閾值就寫 error_log：

1$start = microtime(true);
2$result = $pdo->query($sql);
3$elapsed = microtime(true) - $start;
4if ($elapsed > 1.0) {
5    error_log(sprintf("Slow query (%.2fs): %s", $elapsed, substr($sql, 0, 200)));
6}

累積一段時間後，從 error_log 裡 grep Slow query 就能看出哪些查詢是效能瓶頸。這不是完整的 APM，但在沒有 agent 的環境裡是最接近 slow query log 的替代方案。

帳單與流量異常偵測

這類主機通常按流量或磁碟空間計費，異常流量（bot 掃描、DDoS、爬蟲）會讓帳單飆高或觸發主機商的流量限制。

流量監控

主機控制面板（cPanel 的 AWStats 或 Webalizer）提供基本的流量分析——top referrer、top page、bot 流量佔比。每月檢查一次，重點看：

bot 流量佔比是否異常高（>50% 通常代表有爬蟲）
單一 IP 的請求量是否異常集中
帶寬使用量的趨勢（月增超過 20% 且沒有對應的業務成長要查原因）

客戶端分析（不需 server 安裝）

Google Analytics 或 Plausible（隱私友善替代品）只需要在頁面加一段 JavaScript。它們追蹤的是真實使用者的瀏覽行為（page view、session、referrer），跟 server 端的 access log 互補：server log 看所有請求（含 bot），GA/Plausible 只看真實瀏覽器。

Cloudflare 免費方案

如果 DNS 可以切換，把 domain 接上 Cloudflare（免費方案）提供三個能力而不需要動 server：

流量分析：比 AWStats 更即時、有地理分佈和 bot 過濾
DDoS 保護：基本的 Layer 3/4 防護免費
CDN 快取：靜態資源（CSS/JS/圖片）由 Cloudflare 快取、減輕 origin 負擔

設定只需要把 domain 的 nameserver 改成 Cloudflare 提供的 NS、原始 DNS record 在 Cloudflare 重建。對無 SSH 環境的站台來說這是投資報酬率最高的單一改善動作——不動 server、不改 code、但同時拿到流量可見性和基本防護。

整合成最低成本監控方案

按投入程度分三層，每一層都包含上一層：

層級	組成	月費	覆蓋
Tier 1（零成本）	UptimeRobot free + Sentry free + Google Analytics	$0	可用性 + 錯誤追蹤 + 流量
Tier 2（最低付費）	+Better Stack ($19/mo) + Cloudflare free	~$19	+incident 管理 + 流量分析 + CDN
Tier 3（升級路徑）	遷移到 VPS → 安裝 APM agent → 對齊模組六的 IaC 監控	依 VPS	完整 server 端可觀測性

Tier 1 在接手當天就能建好（30 分鐘設定 UptimeRobot + Sentry + GA），零成本提供基本的「服務掛了會知道、程式碼出錯會收到、流量異常看得到」的覆蓋。Tier 2 適合站台有營收或合約 SLA 要求時。Tier 3 是離開無 SSH 環境後的正規化路徑，監控從外部觀測升級為 server 端全面可觀測性，見模組六：可觀測性與 log。

跨分類引用

→ 無 SSH 的 FTP / 面板管理環境接管：本篇的母篇，監控建立在盤點與本地環境之後
→ 程式碼版控與 FTP 部署紀律：部署後的驗證用監控確認服務正常
→ Legacy PHP 的安全盤點：錯誤追蹤可能暴露安全問題（未捕捉的 SQL error、路徑洩漏）
→ 模組六：可觀測性與 log：Tier 3 升級路徑的目標——有 server 存取後的 IaC 監控
→ Monitoring 監控體系：客戶端行為訊號（SDK / Collector）的完整討論

讀寫分離與查詢擴展

Mon, 22 Jun 2026 00:00:00 +0000

Monitor 的寫入路徑（SDK flush → HTTP endpoint → Storage）和讀取路徑（Dashboard 刷新、Debug 即席查詢、聚合趨勢、Rule engine 評估）在 SQLite 階段不太會互相干擾 — 事件量小、查詢簡單、WAL mode 讓讀寫各自進行。進入 PostgreSQL 層之後，兩條路徑的負載都會成長，而且成長方向不同。本章處理的是讀寫開始互相干擾時的辨識訊號和應對策略。

讀寫競爭的具體場景

Monitor 的 PostgreSQL 層同時承擔三種負載，各自的資源消耗特性不同。

寫入負載

SDK flush 是 Monitor 的主要寫入來源。多個 SDK 同時 flush 時，collector 透過連線池並行寫入 PostgreSQL。每筆 INSERT 涉及主表寫入 + 索引更新（idx_type_ts、idx_session、idx_name）。寫入量隨 SDK 數量和 flush 頻率線性成長。

Downsample job 是另一種寫入：定期把原始事件聚合到 hourly_summary / daily_summary。Downsample 執行時同時做大量 SELECT（讀原始事件）和 INSERT（寫摘要），佔用連線和 I/O。

Dashboard 讀取負載

Dashboard 是穩定的高頻背景負載。總覽頁每 30 秒刷新、Error 列表每分鐘刷新、趨勢圖每分鐘重算。每次刷新執行一到多個聚合查詢（GROUP BY name、COUNT(*)、時間分桶）。

Dashboard 查詢的掃描量隨資料累積成長。「過去 7 天每小時的 error 數量」在第一週掃描幾千筆，三個月後掃描幾十萬筆。如果沒有用 hourly_summary 摘要表、而是直接查原始 events 表，查詢時間會隨資料量線性增加。

Debug 即席讀取負載

Debug 查詢是偶發的突增負載。開發者在排查問題時，可能用 session_id 拉出整條事件鏈、用 error name 掃描最近 N 筆 stack trace、或用 data->>'duration_ms' 做 ad-hoc 效能分析。這些查詢的特徵是不可預測、偶發但延遲敏感 — 開發者在等結果。

競爭發生在哪

三種負載打同一個 PostgreSQL 時，競爭集中在兩個資源：

連線池：collector 的 SetMaxOpenConns 是固定值（例如 20）。如果 ingestion 佔用 15 條連線做批次 INSERT、dashboard 需要 3 條做聚合查詢、debug 需要 2 條做 ad-hoc 查詢 — 剛好佔滿。這時 downsample job 啟動需要連線，會排隊等待。

I/O 頻寬：聚合查詢需要掃描大量資料（sequential scan 或 index scan + heap access），跟 INSERT 的隨機寫入搶磁碟 I/O。在 HDD 或低階 SSD 上，一個 heavy 聚合查詢可以讓同時進行的 INSERT latency 從毫秒跳到十毫秒。

鎖競爭：PostgreSQL 的 MVCC 讓 SELECT 跟 INSERT 不互相阻塞（reader 不等 writer），但 Downsample 的 INSERT OR REPLACE 跟 ingestion 的 INSERT 可能在同一張表上競爭 row-level lock。長時間的 aggregation query 也可能觸發 idle in transaction 問題，佔住連線不釋放。

辨識訊號

讀寫競爭的辨識訊號是「寫入跟讀取的效能同時退化，而且退化是交互的」：

Ingestion 的 INSERT latency 在 dashboard 刷新時段（每 30 秒）出現週期性尖峰
Dashboard 的聚合查詢在 SDK 高峰 flush 時段（例：每整點、app 啟動潮）變慢
Debug 即席查詢在 downsample job 執行期間 timeout
PostgreSQL 的 pg_stat_activity 顯示多個 idle in transaction 或 waiting 狀態
連線池使用率持續高於 80%，偶發 too many connections 或連線等待

單純的寫入慢（沒有讀取影響）或單純的查詢慢（沒有寫入影響）不是讀寫競爭，可能是索引缺失或查詢效率問題。讀寫競爭的特徵是「兩邊同時退化、一邊忙的時候另一邊也變慢」。

Read Replica 分離

Read replica 是 Monitor 在 PostgreSQL 層後的第一步讀寫分離。概念簡單：寫入走 primary、讀取走 replica，兩者物理隔離。

架構

 1SDK ──→ Collector
 2             │
 3        ┌────┴──────────┐
 4        ▼                ▼
 5   Primary (write)   Replica (read)
 6        │                │
 7        │  replication →  │
 8        │                │
 9        ▼                ▼
10   Ingestion        Dashboard + Debug
11   Downsample       聚合查詢

Collector 持有兩個連線池 — 一個連 primary（用於 Store()、Downsample()、Purge()），一個連 replica（用於 Query()、Aggregate()、Dashboard 的所有讀取）。

Storage interface 的調整

現有的 BasicStorage interface 不需要改動。實作層在初始化時接收兩個 DSN（primary + replica），內部根據操作類型選擇連線池：

1type PostgresStorage struct {
2    primary *sql.DB  // write operations
3    replica *sql.DB  // read operations (nil = use primary)
4}

當 replica DSN 未設定時，所有操作走 primary — 行為跟目前一樣，不破壞 single-instance 部署。

Replica lag 對各查詢場景的影響

PostgreSQL streaming replication 的 lag 在同 AZ 通常 < 100ms，跨 AZ 可能到秒級。各查詢場景對 lag 的容忍度不同：

查詢場景	Lag 容忍度	走哪裡	理由
Dashboard 總覽	秒級可接受	Replica	30 秒刷新一次，lag < 1 秒不影響判讀
Error 列表	秒級可接受	Replica	新 error 晚一秒出現在列表上不影響 debug
聚合趨勢圖	分鐘級可接受	Replica	趨勢圖本身就是歷史資料的聚合
Funnel / Cohort	分鐘級可接受	Replica	分析查詢看的是天級或週級的資料
Debug 即席查詢	數秒可能不接受	Primary	開發者剛送一筆 test event 想立刻查到
Rule engine 查歷史	秒級可接受	Replica	Rule 的閾值判斷容忍短暫延遲

Debug 即席查詢的 lag 問題是 read-after-write 一致性 — 開發者從 SDK 送出 test event 後立刻查詢，如果查 replica 可能還沒同步到。解法是讓 debug query API 提供 consistency=strong 參數，強制走 primary。預設走 replica（大部分 debug 查的是歷史資料），只有需要 read-after-write 時切 primary。

引入時機

Read replica 的引入時機是「辨識訊號」段列出的讀寫競爭訊號持續出現，而且已經做過基本最佳化（索引補齊、dashboard 改讀 summary 表、downsample job 調整執行時段避開高峰）仍然不夠。

引入 read replica 的成本是多一台 PostgreSQL 實例（或 managed service 的 read replica 選項）和 replication 設定。Monitor 的 PostgreSQL 層已經承擔外部 DB 的運維成本，加 replica 是增量而非從零開始。

預聚合作為讀取面的第一道防線

在引入 read replica 之前，預聚合是降低讀取負載最有效的方式 — 不改架構、不加機器、只改查詢的資料來源。

Monitor 已經有 hourly_summary 跟 daily_summary 兩張摘要表（見規模演進）。Dashboard 的趨勢圖跟 Error 計數應該讀摘要表而非原始 events 表。

預聚合沒處理到的讀取負載是「需要原始事件的查詢」— Debug 即席查詢（看 stack trace）、Session 回放（看事件序列）、Funnel 分析（跨 session JOIN）。這些查詢必須掃描原始資料，預聚合無法取代。當這類查詢的負載開始擠壓寫入時，才是引入 read replica 的時機。

概念上，預聚合就是 recording rule 在關聯式資料庫的實作。Downsample job 定期執行 aggregation query、把結果寫入 summary 表，dashboard 讀 summary 表而非重算 raw data。Monitor 的 hourly_summary 等同於 Prometheus 的 recording rule output、PostgreSQL 的 materialized view 等同於 TSDB 的 continuous aggregate。

CQRS 的判讀訊號

Read replica 解決的是「讀寫搶同一台機器的 I/O 跟連線」。當問題不只是資源競爭、而是讀寫的資料形狀根本不同時，read replica 不夠 — 需要獨立的 read model。

CQRS 的完整概念見知識卡。以下是 Monitor 情境下，什麼訊號出現時該考慮從 read replica 往 CQRS 方向演進。

訊號一：讀取需要的資料形狀跟 events 表差異太大

Monitor 的 events 表是 append-only 的正規化結構（一筆事件一個 row）。如果讀取面需要的是：

每個 user 的行為摘要（最近登入、最常用功能、累計 error 數）— 需要跨所有事件聚合成 per-user profile
即時的 error fingerprint 索引（相同 stack trace 的 error 自動分群、計數、追蹤首次出現時間）— 需要維護一張反正規化的 error group 表
跨 session 的 funnel conversion 快照 — 需要維護一張 pre-computed funnel 表

這些讀取形狀無法用 SELECT FROM events + 索引高效產生，需要獨立的 read model 持續從 events 推算。

訊號二：預聚合的種類和刷新頻率失控

Summary 表從 2 張（hourly + daily）增長到 5 張、10 張，每張的刷新頻率從每小時變成每分鐘。Downsample job 的執行時間從秒級增長到分鐘級，開始擠壓 ingestion。

這時候 summary 表已經不只是「摘要」，而是事實上的 read model — 專門為讀取需求設計的獨立資料結構。承認這個事實、把 summary 表的維護從 Downsample job 拆出來成為獨立的 projection consumer，就是進入 CQRS 的起點。

訊號三：讀取跟寫入需要獨立擴展

寫入量穩定（SDK 數量不變），但讀取面因為新增 dashboard、新增分析維度、新增使用者而持續成長。Read replica 可以加多台分攤讀取，但每台 replica 仍然存的是跟 primary 一樣的 events 表結構 — 讀取查詢的複雜度不變，只是分攤到更多機器。

獨立的 read model 可以用完全不同的 schema（反正規化、pre-joined、pre-aggregated），讓讀取查詢從 O(N) 的聚合變成 O(1) 的 lookup。這是 CQRS 的核心價值 — 讀取面的效能不再受限於寫入面的資料結構。

Monitor 目前的位置

Monitor 目前在「SQLite → PostgreSQL → Read Replica」這條路徑的前半段。MVP 用 SQLite、功能需求觸發 PostgreSQL、讀寫競爭觸發 Read Replica。CQRS 是更遠的演進方向，只有上述三個訊號明確出現時才值得引入。

1SQLite（零依賴）
2  → PostgreSQL（聚合分析觸發）
3    → 預聚合 summary 表（讀取負載觸發）
4      → Read Replica（讀寫競爭觸發）
5        → 獨立 read model / CQRS（資料形狀不對稱觸發）

每一步都是被具體的效能訊號或功能需求推動的，跟 Monitor 整體的「按觀察到的瓶頸切換」原則一致。教學的價值在於讓讀者在每一步都知道「下一步是什麼、什麼訊號出現時該走」— 而不是在 SQLite 階段就預先設計 CQRS。

跟 Backend 的概念對照

Monitor 的讀寫分離路徑跟 backend 教材的概念有直接對應：

Monitor 演進階段	Backend 對應概念
SQLite WAL（讀寫各自進行）	WAL mode 的 reader-writer 並行
PostgreSQL summary 表	Materialized view 的最簡實作
Read replica	1.8 Query Boundary 的讀寫分流
獨立 read model	CQRS + Projection
Downsample job → 獨立 worker	Event sourcing 架構中 projection consumer 的起點

Monitor 的規模演進路徑是 backend 概念的具體實例 — 從自用工具到小型服務、從單機到讀寫分離、從 summary 表到可能的 CQRS，每一步都能回到 backend 教材找到概念基礎。

下一步路由

Storage backend 的可插拔架構 → 規模演進
功能分層的定義 → 功能分層與 Backend 選擇
Ingestion 端的流量防線 → Ingestion Scaling
讀寫分離的通用概念 → CQRS 知識卡
資料庫層的讀寫分離設計 → 1.8 State Ownership 與 Query Boundary
觀測領域的讀取路徑設計 → 4.23 觀測查詢設計

Container 部署設計

Sat, 20 Jun 2026 00:00:00 +0000

Container 部署讓 collector 完全隔離於 host 環境，開源使用者用 docker run 一行部署，不需要安裝 Go 或管理 binary 版本。但 SQLite 在 container 中有特殊的 I/O 和持久化考量 — overlay filesystem 的寫入延遲和 container 生命週期對資料持久性的影響需要在部署設計中處理。

Dockerfile 設計

Multi-stage build 把編譯環境和執行環境分離。Build stage 用 Go 官方 image 編譯 binary，runtime stage 只包含 binary 和必要的 CA 憑證。

 1FROM golang:1.22-alpine AS build
 2WORKDIR /src
 3COPY go.mod go.sum ./
 4RUN go mod download
 5COPY . .
 6RUN CGO_ENABLED=0 go build -o /collector ./cmd/collector
 7
 8FROM alpine:3.20
 9RUN apk add --no-cache ca-certificates tzdata
10COPY --from=build /collector /usr/local/bin/collector
11RUN adduser -D -u 1000 monitor
12USER monitor
13EXPOSE 8080
14ENTRYPOINT ["collector"]

最終 image 包含 Go binary（~15MB）+ alpine base（~7MB）+ ca-certificates，總大小目標 < 25MB。用 scratch 替代 alpine 可以再小 7MB，但失去 shell debug 能力。

SQLite 在 Container 中的 I/O 考量

Docker 的 overlay2 storage driver 在每次 fsync 時經過 overlay 層。SQLite 的 WAL mode 依賴 fsync 確保寫入持久性 — 每筆 transaction commit 觸發一次 fsync。Overlay 層增加的延遲讓每筆 fsync 慢 20-40%（取決於 host 的 storage driver 和檔案系統）。

Volume mount 繞過 overlay

把 SQLite 的資料目錄掛載為 host volume（-v /host/data:/data），SQLite 直接寫 host 檔案系統、繞過 overlay 層。寫入效能和同機部署的 binary 版本相當。

不用 volume mount 的風險：container 刪除時 overlay 層的資料一起消失。docker rm = 所有事件資料消失。即使只是 docker run 新版本的 image 也會建立新 container，舊 container 的資料不會自動遷移。

Volume Mount 設計

兩個目錄分開掛載，職責和權限不同：

Mount	Container 路徑	Host 路徑（範例）	權限	內容
資料	`/data`	`./monitor-data`	read-write	SQLite DB + WAL + 匯出檔
設定	`/config`	`./monitor-config`	read-only	retention config + rule config + sensor config

Container 內用非 root user（UID 1000）執行。Host 的 volume 目錄 ownership 需要對應：

1mkdir -p monitor-data monitor-config
2chown 1000:1000 monitor-data

Graceful Shutdown

docker stop 送 SIGTERM → collector 收到後執行 shutdown 序列：

停止接受新的 HTTP request（listener close）
等待 in-flight request 完成（5 秒 context timeout）
Flush pending writes（尚未寫入 storage 的事件，5 秒）
停止定期 job（downsample / purge / rule engine 定期評估）
SQLite WAL checkpoint（TRUNCATE mode，15 秒）
關閉 DB connection
退出

步驟 2-5 合計超時上限 25 秒。這個序列對應 Backend 5.6 Platform Lifecycle Contract 的 shutdown → drain 狀態：步驟 1-2 是 drain（停接新工作、等在途完成），步驟 3-6 是 shutdown（flush 狀態和釋放資源）。Collector 屬於短 request API 的 workload 類型（drain 窗口 5-30 秒），但多了 WAL checkpoint 步驟，讓 shutdown 時間可能超過一般 HTTP 服務。PID 1 信號處理的設計考量（exec form、避免 shell 攔截 SIGTERM）見 Backend 5.1 PID 1 與信號處理。

docker stop 預設等 10 秒後送 SIGKILL。如果 WAL checkpoint 在大量未 checkpoint 的資料下需要超過 10 秒，Docker Compose 可以調 stop_grace_period: 30s。

SQLite 的 WAL 設計支援 crash recovery — SIGKILL 後 WAL 檔案仍在，下次開啟 DB 時自動 replay。但非 graceful shutdown 可能丟失 channel 中尚未寫入的事件（已收到 HTTP 202 但還在 buffer 中的事件）。

資源限制

資源	建議值（自用）	建議值（小團隊）	理由
Memory	256MB	512MB	Collector + SQLite page cache + Go runtime
CPU	0.5 核	1 核	I/O bound、CPU 通常不是瓶頸
磁碟	volume mount 容量	volume mount 容量	保留策略控制、和 host 磁碟共享

Memory 限制設太緊會觸發 OOMKill — container 突然消失且無 log。設定 memory limit 前先觀察 collector 的 baseline 記憶體使用（docker stats），再乘以 1.5 安全係數。CPU request/limit 的設定策略（guaranteed vs burstable QoS）和 memory limit 與 OOM 的判讀見 Backend 5.1 Resource Limit。

Docker Compose 範例

 1services:
 2  collector:
 3    image: tarrragon/monitor:latest
 4    ports:
 5      - "8080:8080"
 6    volumes:
 7      - ./monitor-data:/data
 8      - ./monitor-config:/config:ro
 9    environment:
10      - MONITOR_STORAGE=sqlite
11      - MONITOR_DB_PATH=/data/events.db
12    restart: unless-stopped
13    stop_grace_period: 30s
14    deploy:
15      resources:
16        limits:
17          memory: 256M
18          cpus: '0.5'
19    healthcheck:
20      test: ["CMD", "wget", "-q", "--spider", "http://localhost:8080/health"]
21      interval: 30s
22      timeout: 5s
23      retries: 3

restart: unless-stopped 讓 container 在 crash 或 host 重啟後自動恢復。healthcheck 讓 Docker 偵測 collector 是否真的在回應 — 只有 process 活著但 HTTP 不回應的場景也會被標記為 unhealthy。

和同機部署的效能對照

指標	同機 binary	Container + volume mount	Container 無 volume（overlay）
寫入吞吐（Mac SSD）	~5,000/sec	~4,500/sec（-10%）	~3,000/sec（-40%）
寫入吞吐（Linux VPS）	~3,000/sec	~2,700/sec（-10%）	~1,800/sec（-40%）
查詢延遲	baseline	baseline（volume = 直接讀 host）	+20%（overlay 讀取開銷小）
啟動時間	< 100ms	< 500ms（container 啟動開銷）	同左
記憶體額外開銷	0	~10-20MB（container runtime）	同左

Volume mount 後效能差異只有 ~10%（Go HTTP handler 的 overhead 大於 volume mount 的 overhead）。不用 volume mount 時 overlay fs 的 fsync 開銷顯著 — 寫入吞吐降 40%。

何時用 container、何時用 binary

場景	建議	理由
開源使用者快速試用	Container	`docker run` 一行、不需裝 Go
長期自用部署	Binary + systemd	效能最佳、無 container overhead
CI/CD 測試環境	Container	可拋棄式、每次乾淨環境
Kubernetes 部署	Container	pod spec 標準化
Raspberry Pi / 邊緣設備	Binary	低資源環境避免 container overhead

斷網環境的部署考量

Collector 在斷網環境（air-gapped）裡的部署跟連網環境的主要差異有三點。第一，SDK 的 endpoint 從外部 URL（https://collect.example.com）改為內網地址（http://collector.internal:8080），SDK 設定檔裡的 endpoint 要能按環境切換。第二，Collector 的 container image 無法從 Docker Hub 拉取——需要透過 content ferry 搬運映像、推送到內網的 private registry（Harbor 或 Docker Registry），Dockerfile 的 base image 來源也要改指 private registry。第三，Collector 的 storage backend 只能用本地磁碟或 NFS，不能用雲端物件儲存——SQLite backend 在斷網環境反而是優勢（零外部依賴），儲存容量規劃要在部署前就確定，因為斷網環境的磁碟擴容流程可能需要數週。

SDK 的 offline buffer（見SDK 設計：offline-buffer）在斷網環境更重要——如果 Collector 重啟或暫時不可達，SDK 端的 buffer 是唯一能保住事件的機制。

斷網環境的 infra 層監控（Prometheus / Grafana / Loki）設定見斷網環境的監控與可觀測性。

下一步路由

SQLite 效能基準的詳細數字 → SQLite Backend 效能基準
可插拔 Storage Backend 架構 → 規模演進
Container runtime 通用原則（base image 選擇、build 可重現性、PID 1 信號處理）→ Backend 5.1 Container 與 Runtime
生命週期合約（startup / readiness / drain / shutdown 的責任分類）→ Backend 5.6 Platform Lifecycle Contract
容器化資源設計的通用原則 → DevOps 容器化資源設計
服務探活和自動恢復 → DevOps 服務探活

端到端資料完整性

Wed, 24 Jun 2026 00:00:00 +0000

監控資料從事件產生到寫入 storage，經過 SDK buffer、HTTP transport、collector pipeline、storage backend 四個環節。每個環節都有丟失事件的可能 — 記憶體 buffer 溢出、網路超時、背壓丟棄、磁碟寫入失敗。端到端資料完整性的目標是讓每個損失點都是有意識的設計取捨，而非靜默丟失。

監控資料和交易資料的根本差異在這裡：交易資料的損失會直接造成商業損害（少了一筆訂單），監控資料的損失影響的是可觀測性的覆蓋率（少了幾筆 event 不影響趨勢判斷，但漏了 error 可能讓 bug 晚幾天被發現）。這個差異決定了完整性設計的方向 — 追求的是「損失可控且可觀測」，而非「零損失」。合規稽核 log、billing event 和安全事件不適用這個假設 — 它們的損失有法規或商業後果，需要 at-least-once delivery 和獨立的持久化保證，通常用 transaction log 而非監控管線處理。

資料損失地圖

一筆事件從產生到持久化，依序經過四個環節。每個環節的損失類型、發生條件和影響範圍各不同。

1事件產生 → [SDK buffer] → HTTP POST → [Collector pipeline] → [Storage]
2     ①          ②            ③              ④                   ⑤

環節一：事件產生階段

事件在 SDK 的 monitor.event() / monitor.error() 被呼叫時產生，進入記憶體 buffer。這個階段的損失來自取樣和 SDK 初始化時序。

靜態取樣：SDK config 中設定的取樣率（例如 metric 類 0.1 = 每 10 筆只收 1 筆）是設計內的損失。取樣後的事件量直接影響後續所有環節的負載。取樣率的設定依據見感測器生命週期管理。

SDK 未初始化：app 啟動後到 monitor.init() 完成之間的事件會被丟棄。如果 init 排在其他初始化邏輯之後，啟動階段的 crash 可能漏捕。商業 SDK（Sentry、Crashlytics）用 native crash handler 在 SDK 層之外攔截這類 crash，自架方案通常接受這個損失。

環節二：SDK buffer 階段

事件進入記憶體 buffer 後，等待 flush 觸發。Buffer 溢出和 app 強制終止是這段路徑上的兩個風險。

FIFO 丟棄：記憶體 buffer 有容量上限（典型值 200-500 筆）。離線時間過長或事件產生速率過高時，buffer 滿了會丟棄最舊的事件。丟棄策略見離線 buffer 與重試，優先級丟棄見 Ingestion Scaling 第一層。

App 強制終止：iOS 的 kill、Android 的 process death、Python 的 SIGKILL — 記憶體 buffer 中未 flush 的事件全部遺失。攢批送出策略的 close flush 嘗試在 app 正常退出時送出剩餘事件，但強制終止時連 close callback 都不會執行。

動態取樣：收到 collector 的 HTTP 429（Too Many Requests，表示 collector 過載）後，SDK 自動降低取樣率（從 1.0 降到 0.5 → 0.1）。這是對 collector 過載的回饋反應 — 損失的事件量隨背壓程度增加。和靜態取樣的差異是動態取樣在正常情況下不生效，只在過載時啟用。

環節三：Transport 階段

SDK flush 時透過 HTTP POST 送出 batch。網路故障和重試耗盡構成 transport 層的主要損失。

HTTP 超時 / 連線失敗：collector 不可達時，batch 保留在 SDK buffer 等待下次 flush 重試。重試次數有上限（3 次），超過後丟棄 batch 並記錄 sdk.flush.dropped metric。重試策略見攢批送出策略。

離線補發擁塞：離線恢復後，SDK 一次補發大量累積事件。如果補發速率過高（一批 500 筆 × 多個 SDK 同時恢復），collector 可能觸發背壓回 429，SDK 又進入動態降採樣 — 補發本身造成新的損失。離線 buffer 與重試的分批補發（每批 50-100 筆、間隔 1-2 秒）用來避免這個問題。

環節四：Collector pipeline 階段

Collector 收到 HTTP request 後，事件進入處理鏈路。背壓、驗證拒絕和 pipeline 內部的 buffer 溢出都可能在這裡造成損失。

Channel 背壓：Collector 內部用一個專屬的寫入 goroutine 搭配 Go channel 做序列化寫入（Collector 架構的並發寫入策略段），channel 有固定容量。Channel 滿時 HTTP handler 回 429，事件被拒絕。SDK 收到 429 後保留事件在 buffer 等待重試，但如果 SDK buffer 也快滿，部分事件會被 FIFO 丟棄。這裡的損失是 SDK 層和 collector 層的連鎖反應 — collector 的背壓壓力最終由 SDK 的 buffer 承擔。

Schema validation reject：事件格式不符合 JSON Schema 的事件被拒絕（400 或 207 中的 rejected 部分）。這是品質閘門而非容量限制 — 被拒絕的事件無論重試多少次都不會通過，SDK 應該清除這些事件並記錄 warning。問題在 SDK 端的事件建構邏輯（程式碼 bug），需要修 SDK 而非重試。

429 後事件已回 202 但未寫入：collector 回了 202（已接受）但事件還在 channel buffer 中未寫入 storage 時，如果 collector crash 或被 SIGKILL，channel 中的事件遺失。這是「已承諾但未持久化」的窗口。Container 部署設計的 graceful shutdown 序列嘗試在 shutdown 時 flush pending writes，但非 graceful shutdown（OOMKill、硬體故障）無法保護。

環節五：Storage 階段

事件從 channel 寫入 storage backend。寫入失敗和資料管理操作（downsample / purge）構成最後一段損失。

SQLite database is locked：busy timeout 到期後寫入失敗。Single-writer pattern 降低發生機率但不能完全消除 — downsample / purge job 執行期間持有 write lock，如果 job 跑太久（數秒以上），ingestion 的寫入可能逾時。

磁碟空間不足：SQLite 寫入需要磁碟空間（WAL 檔案 + 主資料庫 + 臨時檔案）。磁碟滿時寫入失敗，事件遺失。保留策略的 purge job 負責控制磁碟使用量，但如果 purge 頻率低於寫入增長速率，磁碟可能在兩次 purge 之間被填滿。

Downsample / purge 的設計內損失：保留策略到期的原始事件被刪除（purge），只保留聚合摘要（hourly_summary / daily_summary）。這是設計內的損失 — 原始事件的 stack trace、完整 JSON data 在 purge 後不可回復，只剩下計數。保留策略見規模演進的分層保留段。

設計內損失 vs 異常損失

上述損失點可以分成兩類，處理方式根本不同。

類型	損失點	特徵	處理方式
設計內	靜態取樣、動態取樣、FIFO 丟棄、purge	有意識的取捨、可預測的量	在 config 中設定、用指標監控
異常	crash 丟 buffer、disk full、WAL 損壞	非預期的故障、不可預測	用告警偵測、用恢復機制應對
品質閘門	schema reject	SDK 端 bug 導致、重試無效	修 SDK 程式碼、不在 collector

設計內損失的目標是讓損失量可控 — 取樣率設 0.1 代表預期丟 90%，FIFO buffer 容量 200 代表離線超過 20 分鐘（每分鐘 10 筆）後開始丟棄。這些數字是 config 參數，可以根據業務需求調整。

異常損失的目標是儘早偵測 — collector crash 後 channel 中有多少筆未寫入？磁碟使用率到多少該告警？下方的完整性指標段專門處理偵測異常損失的方法。

品質閘門的處理在 SDK 端而非 collector 端 — schema validation reject 的事件無論重試多少次都不會通過，問題在事件建構邏輯。具體的 reject 行為和回應格式見環節四的 Schema validation reject 段。

監控損失本身的方法

監控系統的完整性需要「監控自己的監控」— 用獨立的指標追蹤每個環節的進出量，損失量 = 進量 - 出量。

SDK 端指標

SDK 內部維護計數器，每次 flush 成功後一起送出（作為 metric 類事件）：

指標	含義	計算方式
`sdk.events.produced`	事件產生總數（取樣前）	每次 `monitor.event()` 調用 +1
`sdk.events.sampled`	取樣後保留的事件數	通過取樣邏輯的事件 +1
`sdk.events.sent`	成功送出的事件數（收到 200/207 的 accepted）	flush 成功後按 accepted 累加
`sdk.events.dropped`	被 FIFO 丟棄或重試耗盡的事件數	每次丟棄 +1
`sdk.flush.failures`	flush 失敗次數（429 / 5xx / timeout）	每次 flush 失敗 +1
`sdk.sampling.rate`	當前動態取樣率	收到 429 後更新

produced - sampled = 取樣損失（設計內）。sampled - sent - dropped 如果不為零，代表有事件卡在 buffer 中尚未送出或未被計入任何分類。

Collector 端指標

Collector 在 /metrics endpoint（或 health endpoint 的擴展欄位）暴露處理計數器：

指標	含義
`collector.events.received`	收到的事件總數（HTTP handler 層計數）
`collector.events.rejected`	schema validation 拒絕的事件數
`collector.events.stored`	成功寫入 storage 的事件數
`collector.events.backpressure`	因 channel 滿回 429 的事件數
`collector.channel.depth`	當前 channel 中待寫入的事件數
`collector.storage.errors`	storage 寫入失敗的次數

received - rejected - stored - backpressure 如果不為零，代表有事件在 pipeline 中遺失（channel buffer 中的事件在 crash 時丟失就會造成這個差距）。

端到端比對

SDK 的 sent 和 collector 的 received 之間的差距是 transport 層的損失 — 網路丟包、中間件攔截（reverse proxy 的 body size limit）或 collector 重啟期間的連線失敗。

這個比對在自用場景下用手動 spot check 就夠（SDK log 的 sent count vs collector dashboard 的 received count）。小型以上規模需要自動化：一個定期 job 比對兩邊的計數器，差距超過閾值時告警。

損失率的可接受範圍

規模	event 類損失率	error 類損失率	監控粒度
自用	< 10%	< 1%	手動 spot check
小型團隊	< 5%	< 0.5%	每日自動比對
中型以上	< 1%	< 0.1%	即時 dashboard + 告警

閾值的推導邏輯：event 類的損失影響統計精度 — 取樣率 0.9 加上 transport 和 collector 層的少量損失，自用場景合計 < 10% 是合理的上限；funnel 分析用取樣校正（除以取樣率）仍然有效。Error 類的損失直接影響 bug 發現速度 — 容忍度比 event 低一個數量級。中型以上規模的 < 1% / < 0.1% 接近商業方案（Sentry / Datadog）的 SLA 水準。

Ingestion Scaling 的 error 快通道設計就是基於這個優先級差異。

被自己的 SDK DDoS

「SDK 產生的流量壓垮自己的 collector」是自架監控系統最常見的可靠性事故。來源是自家 SDK 的異常行為或正常行為在特定條件下的放大效應 — 內部流量失控，而非外部攻擊。外部偽造流量的防護見 Client-side SDK 認證。

本段按觸發場景分類（SDK bug / 部署推送 / 使用者暴增），和 Ingestion Scaling 的四層防線（SDK 端 / collector 單機 / 水平擴展 / queue 解耦）是不同切面。四層防線按防護位置劃分、說明機制怎麼做；本段按場景劃分、說明什麼時候哪些機制會被觸發。

SDK bug：事件風暴

SDK 程式碼 bug 導致事件無限迴圈 — 常見於事件處理器內再次觸發事件（error handler 中呼叫 monitor.event() 又觸發 error），或 UI 事件綁定錯誤導致每個 frame 產生一筆事件（60 fps = 每秒 60 筆）。

損失路徑：事件風暴首先填滿 SDK buffer → 觸發高頻 flush → collector 收到大量 request → channel 滿觸發 429 → SDK 動態降採樣。如果 SDK 的動態降採樣邏輯本身也有 bug（降到 0.1 後不再降），collector 仍然會持續承壓。

防護層級：

SDK 端 — 事件產生速率上限。SDK 內部維護每秒事件計數器，超過閾值（例如 100 events/sec）後的事件直接丟棄，不進 buffer。這個上限獨立於取樣和背壓機制，是防止 SDK 自身 bug 的最後一道防線。

1// SDK 端的 rate limiter（偽碼，各語言實作不同）
2count = atomicIncrement(eventCounter)
3if count > maxEventsPerSecond:
4    atomicIncrement(droppedCounter)
5    return  // 不進 buffer

Collector 端 — per-key rate limit。每個 API key（或 source.app）的請求速率獨立限制。一個失控的 SDK 被限速時，其他 SDK 的事件不受影響。這和 Ingestion Scaling 的 per-SDK rate limiting 是同一個機制。

Collector 端 — circuit breaker。如果某個 API key 的 429 回應次數在短時間內超過閾值，collector 暫時拒絕該 key 的所有請求（回 503），不再逐筆檢查 rate limit。冷卻期過後自動恢復。這降低了 rate limit 本身的 CPU 開銷 — 高頻 429 回應也有成本。閾值需高於正常 burst 的 per-key 429 頻率 — 如果正常 flush 在 burst 時每分鐘最多觸發 N 次 429，circuit breaker 閾值設為 5N-10N 避免誤觸。具體數字（例如 50 次/分鐘、5 分鐘冷卻）依部署規模調整。

部署推送：補發風暴

100 台機器同時重啟（rolling deploy），每台機器的 SDK 在啟動時：

讀取本地 persistence 中的離線事件
初始化後立即 flush 離線事件 + 新的 lifecycle 事件

100 個 SDK 在幾秒內同時發起離線補發 + 正常 flush，collector 瞬間承受 100 倍的正常流量。

防護方式：init jitter — SDK 初始化後不立即 flush，而是等待一個隨機延遲（0 到 flush_interval 之間的均勻分佈）。100 個 SDK 的首次 flush 分散在 0-30 秒內，流量從一個尖峰變成斜坡。

1import random
2initial_delay = random.uniform(0, flush_interval_seconds)
3# 第一次 flush 延遲 initial_delay 秒，後續按正常 interval

離線補發也加 jitter — 每批補發之間的間隔從固定的 1 秒改為 1-3 秒的隨機值。100 個 SDK 的補發批次在時間軸上交錯，避免所有 SDK 以相同節奏同時送出。

使用者行為高峰：同時在線暴增

行銷活動、媒體報導、季節性高峰 — 同時在線使用者從 100 人暴增到 10,000 人。每個使用者的 SDK 正常運作，但總量超出 collector 的處理能力。

這個場景和 SDK bug 的差異：每個 SDK 的行為完全正常，問題在總量。Per-key rate limit 不會觸發（每個 SDK 的速率在正常範圍），需要的是全域流量控制。

防護方式：Collector 端的全域 channel 背壓（Ingestion Scaling 第二層）是第一道防線 — channel 滿時所有 SDK 收到 429，各自動態降採樣。如果動態降採樣後流量仍然過大，水平擴展（多 collector + load balancer）或 queue 解耦是解法。

行銷活動的可預測性是優勢 — 活動日期已知，可以提前擴展 collector 容量（加機器或調高 channel 容量）。突發的媒體報導則依賴動態降採樣和背壓的自動調節。

三種場景的防護對照

場景	流量特徵	首要防護	次要防護
SDK bug	單 SDK 異常高頻	SDK 端 rate limit + per-key limit	Circuit breaker
部署推送	多 SDK 同時突發	Init jitter + 補發 jitter	Channel 背壓
使用者暴增	全域持續高量	動態降採樣 + channel 背壓	水平擴展 / queue 解耦

資料恢復 vs 接受損失

每個損失點都可以投入工程努力降低損失量。問題是恢復的工程成本是否值得 — 監控資料不是交易紀錄，恢復的價值取決於損失的事件類型和數量。

值得恢復的場景

Error 事件：每筆 error 都可能對應一個需要修的 bug。Error 的損失代表 bug 可能更晚被發現、在更多使用者身上發生後才被注意到。值得投入本地 persistence、優先級丟棄（error 最後丟）、error 快通道等機制降低損失。

Lifecycle 事件：session 邊界（session.begin / session.end）是 cohort 分析和 session replay 的基礎。丟失 session 邊界會讓整個 session 的事件無法正確歸屬。Lifecycle 事件量低（每 session 幾筆），保留成本小、損失影響大。

接受損失的場景

高頻 metric 事件：render.frame_time 每秒 60 筆，丟幾筆對趨勢分析的影響在統計誤差範圍內。聚合前移（SDK 端每 5 秒送一筆 summary）比逐筆保留更有效率。

行為 event 事件：button.click、page.view 在取樣後丟幾筆，funnel 的轉換率計算用取樣校正（除以取樣率）仍然有效。單筆行為事件的 debug 價值低 — 知道某使用者點了某按鈕通常不影響決策。

超過保留期的原始事件：purge 後只剩聚合摘要。如果分析需求發現需要更長的原始事件保留期，調整 retention config，不要嘗試從聚合摘要「恢復」原始事件 — 那是不可能的。

恢復成本的判斷

本地 persistence（SDK 端把 buffer 寫到檔案系統）的實作成本和收益：

因素	記憶體 FIFO（簡單）	本地 persistence（完整）
實作成本	array + 容量檢查	檔案讀寫 + 並發安全 + 容量管理 + 去重
保護範圍	短暫離線（buffer 容量內）	長時間離線（本地儲存容量內）
不保護	app 強制終止	app 強制終止（寫入中的事件仍然遺失）
適用場景	自用工具、SDK 初期版本	行動 app、離線場景頻繁的使用環境

MVP 階段用記憶體 FIFO。本地 persistence 作為第二階段功能，在離線損失率超出可接受範圍時投入。

下一步路由

SDK 端的離線保護 → 離線 buffer 與重試
Collector 端的流量防護 → Ingestion Scaling
Collector 的處理鏈路 → Collector 架構
Container 環境的 graceful shutdown → Container 部署設計
保留策略和降採樣 → 規模演進
SDK 認證和偽造流量防護 → Client-side SDK 認證

Error Fingerprint 與去重分群

Wed, 24 Jun 2026 00:00:00 +0000

Error fingerprint 把相同根因的 error 事件歸為同一組（error group），讓 dashboard 從「每筆 error 獨立一行」變成「同因 error 歸組、顯示 count / first_seen / last_seen / affected_sessions」。這是 error tracking 從「有記錄」演進到「可管理」的關鍵能力。

Collector 搭配的 Developer Dashboard 在 Error 列表中用 GROUP BY name 做分群 — 同名的 error 歸為一行。這在 error name 設計良好時（terminal.connect.failed / auth.biometric.timeout）可以運作，但在以下情境會失效：

同一個 name 對應多個不同的 root cause — app.exception 的 stack trace 指向完全不同的程式碼位置
不同 name 其實是同一個 root cause — ws.connect.failed 和 ws.reconnect.failed 都是同一個 server 下線造成

Fingerprint 提供比 name 更精確的分群維度。

Fingerprint 演算法

Fingerprint 從 error 事件中提取關鍵欄位、計算 hash，相同 hash 的事件歸為同一組。欄位的選擇決定分群的粒度。

基礎版：type + message

1fingerprint = SHA256(error_type + ":" + error_message)

用 error_type（NullPointerException / TypeError / ConnectionError）加上 error_message 做 hash。實作最簡單，大多數情況下能正確分群。

問題在 error message 包含動態值時。同一個 bug 產生的 error 因為動態值不同而分裂成多組：

1"User 12345 not found"  → fingerprint A
2"User 67890 not found"  → fingerprint B

這兩筆是同一個 bug（查無使用者），但 message 中的 user ID 不同導致 fingerprint 不同。動態值的處理見下方 message normalization。

進階版：type + stack trace top frames

1fingerprint = SHA256(error_type + ":" + top_3_frames)

用 error_type 加上 stack trace 最頂端的 N 個 frame（函式名 + 檔案名 + 行號）做 hash。Stack trace 的頂端通常是 error 發生的直接位置，相同位置的 error 歸為同組。

1// 兩筆 error 的 stack trace 頂端相同 → 同一個 fingerprint
2TypeError: Cannot read property 'name' of null
3  at UserProfile.render (UserProfile.js:42)    ← frame 1
4  at Component.update (framework.js:108)       ← frame 2
5  at scheduler.flush (framework.js:203)        ← frame 3

N 的選擇是粒度 vs 穩定性的取捨。N=1 過粗（不同 bug 可能在同一個函式裡），N=5 過細（重構移動程式碼後行號改變，同一個 bug 的 fingerprint 分裂）。N=3 是常見的預設值。

Stack trace 版本的前提是 error 事件帶有結構化的 stack trace。如果 SDK 只送 error message 不送 stack trace，只能用基礎版。

Sentry 的做法

Sentry 的策略核心是只用應用程式自身的 frame 做 hash，排除 framework / library 的 frame，並 normalize message 中的動態值。具體做法：

取 in-app frame：忽略 framework / library 的 frame（framework.js、node_modules/），只用應用程式自身的 frame。同一個 bug 在不同版本的 framework 上觸發時，framework frame 可能不同，但 app frame 相同。
Normalize message：移除動態值（數字、UUID、email）後再 hash。
取最後一個 in-app frame 的函式名：而非取前 N 個 frame。最後一個 in-app frame 是「error 在應用程式碼中實際發生的位置」。

Sentry 的策略對 web 前端（大量 framework frame）和行動 app（大量 OS / runtime frame）的分群效果好，但實作複雜度高 — 需要維護「什麼算 in-app frame」的規則。

SDK 端自定義 fingerprint

SDK 端可以手動指定 fingerprint，覆蓋 collector 的自動計算。用途是讓開發者把「技術上不同但業務上同因」的 error 歸為同組。

1monitor.error("API timeout", data={
2    "fingerprint": "api-gateway-timeout",
3    "endpoint": "/v1/users",
4    "duration_ms": 30000
5})

所有帶 fingerprint: "api-gateway-timeout" 的 error，無論 message 和 stack trace 是否相同，都歸入同一組。

自定義 fingerprint 的處理邏輯：collector 收到事件時，先檢查 data.fingerprint 欄位是否存在。存在則直接用這個值做 hash（或直接用作 fingerprint），不走自動計算。

Message normalization

動態值讓相同 bug 的 message 不同，導致 fingerprint 分裂。Normalization 在計算 fingerprint 前把動態值替換成 placeholder。

替換規則

Pattern	替換為	範例
連續數字（3 位以上）	`{N}`	`"User 12345 not found"` → `"User {N} not found"`
UUID	`{uuid}`	`"Session a1b2...7890 expired"` → `"Session {uuid} expired"`
Email	`{email}`	`"Invalid email foo@bar.com"` → `"Invalid email {email}"`
IPv4 / IPv6	`{ip}`	`"Connection to 192.168.1.100 refused"` → `"Connection to {ip} refused"`
引號內的字串（超過 20 字元）	`{string}`	`"Key 'very-long-dynamic-key...' not found"` → `"Key {string} not found"`
絕對路徑的使用者目錄	`{path}`	`"/Users/john/project/app.js"` → `"{path}/project/app.js"`
ISO 8601 timestamp	`{ts}`	`"Error at 2026-06-24T14:30:00"` → `"Error at {ts}"`

後兩個屬進階規則 — 基礎五個（數字 / UUID / email / IP / 長字串）在多數場景足夠，file path 和 timestamp 在 error group 分裂嚴重時再加。

 1var normalizers = []struct {
 2    pattern *regexp.Regexp
 3    replace string
 4}{
 5    {regexp.MustCompile(`\b[0-9a-f]{8}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{12}\b`), "{uuid}"},
 6    {regexp.MustCompile(`\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b`), "{email}"},
 7    {regexp.MustCompile(`\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b`), "{ip}"},
 8    {regexp.MustCompile(`\d{4}-\d{2}-\d{2}T\d{2}:\d{2}:\d{2}`), "{ts}"},
 9    {regexp.MustCompile(`(?:/Users/|/home/|C:\\Users\\)[^/\\]+`), "{path}"},
10    {regexp.MustCompile(`\d{3,}`), "{N}"},
11}
12
13func normalizeMessage(msg string) string {
14    for _, n := range normalizers {
15        msg = n.pattern.ReplaceAllString(msg, n.replace)
16    }
17    return msg
18}

Normalization 的風險

過度 normalize：把實際不同的 error 歸為同組。例如 HTTP status code 404 和 500 都被替換成 {N}，導致 "HTTP {N}" 把 404 和 500 混在一起。對策：HTTP status code 等已知語意數字用具名 pattern 優先保留（(\b[1-5]\d{2}\b) → 不替換），再跑通用數字替換。Normalizer 的規則順序決定優先級 — 具名 pattern 放在 \d{3,} 之前，匹配到的數字跳過後續替換。

不足 normalize：遺漏動態值導致同因 error 分裂。例如 message 中包含時間戳 "Error at 2026-06-24T14:30:00" 但 normalization 沒有覆蓋 ISO 8601 格式。對策：先用基礎規則上線，根據 error group 的分裂狀況逐步補規則 — 同一個 error 名稱下有大量 group 且 stack trace 相同，通常代表 normalization 不足。

Storage 設計

Fingerprint 的儲存分兩部分：events 表加 fingerprint 欄位、新建 error_groups 表追蹤每組的摘要。

Events 表擴充

在現有的 events 表加 fingerprint 欄位：

1ALTER TABLE events ADD COLUMN fingerprint TEXT;
2CREATE INDEX idx_fingerprint ON events(fingerprint);

fingerprint 存 hash 值（SHA256 hex 的前 16 字元足夠 — 自架場景的 error 種類不會多到 collision）。索引加速「查看某個 error group 的所有事件」查詢。

error_groups 表

 1CREATE TABLE error_groups (
 2    fingerprint TEXT PRIMARY KEY,
 3    name TEXT NOT NULL,
 4    error_type TEXT,
 5    normalized_message TEXT,
 6    count INTEGER NOT NULL DEFAULT 1,
 7    first_seen TEXT NOT NULL,
 8    last_seen TEXT NOT NULL,
 9    last_event_id INTEGER REFERENCES events(id),
10    session_count INTEGER NOT NULL DEFAULT 1,
11    status TEXT NOT NULL DEFAULT 'open'
12);
13
14CREATE INDEX idx_error_groups_last_seen ON error_groups(last_seen);
15CREATE INDEX idx_error_groups_count ON error_groups(count);

status 支援基本的 issue 管理 — open（待處理）、resolved（已修復）、ignored（已知、不處理）。Resolved 的 group 如果又收到新事件，自動 reopen。

寫入流程

Collector 的寫入 pipeline 在 schema validation 之後、storage 寫入之前，加一步 fingerprint 計算。下方的 UPSERT 邏輯引用 events 表的 session_id 欄位 — 該欄位定義在 Events 主表 DDL 中（從 session.id 攤平而來）：

1HTTP → Schema validation → Fingerprint 計算 → Events INSERT → error_groups UPSERT

 1func processErrorEvent(event Event) {
 2    fp := calculateFingerprint(event)
 3    event.Fingerprint = fp
 4
 5    // 1. INSERT event
 6    db.InsertEvent(event)
 7
 8    // 2. UPSERT error_group
 9    db.Exec(`
10        INSERT INTO error_groups (fingerprint, name, error_type, normalized_message,
11                                  count, first_seen, last_seen, last_event_id, session_count)
12        VALUES (?, ?, ?, ?, 1, ?, ?, ?, 1)
13        ON CONFLICT(fingerprint) DO UPDATE SET
14            count = count + 1,
15            last_seen = excluded.last_seen,
16            last_event_id = excluded.last_event_id,
17            session_count = session_count + CASE
18                WHEN ? NOT IN (SELECT DISTINCT session_id FROM events WHERE fingerprint = ?)
19                THEN 1 ELSE 0 END,
20            status = CASE WHEN status = 'resolved' THEN 'open' ELSE status END
21    `, fp, event.Name, event.ErrorType, normalizeMessage(event.ErrorMessage),
22       event.Timestamp, event.Timestamp, event.ID, event.SessionID, fp)
23}

session_count 的子查詢在高寫入量下可能成為瓶頸。務實的替代是在 UPSERT 時不算 session_count，改為定期 job 重新計算（每小時一次）。

查詢模式

Dashboard 的 Error 列表從 GROUP BY name 改為查 error_groups 表：

1-- 之前：按 name 分群（粗略）
2SELECT name, COUNT(*) FROM events WHERE type = 'error' GROUP BY name;
3
4-- 之後：按 fingerprint 分群（精確）
5SELECT fingerprint, name, error_type, normalized_message,
6       count, first_seen, last_seen, session_count, status
7FROM error_groups
8WHERE status != 'ignored'
9ORDER BY last_seen DESC;

error_groups 表的查詢是 index scan，不需要掃描 events 表。Dashboard 刷新頻率高的場景下（每 30 秒），查 error_groups 比 GROUP BY 全表掃描快幾個數量級。

點擊某個 group 進入詳情時，再用 fingerprint 從 events 表撈最近 N 筆事件：

1SELECT * FROM events WHERE fingerprint = ? ORDER BY ts DESC LIMIT 20;

Dashboard 整合

Error fingerprint 改變了 Developer Dashboard 的 Error 列表和詳情視圖。

Error 列表升級

從按 name 分群升級為按 fingerprint 分群：

欄位	之前（name 分群）	之後（fingerprint 分群）
分群維度	error.name	fingerprint hash
同名不同因的 error	混在同一行	各自獨立一行
不同名同因的 error	分開兩行	可用自定義 fingerprint 合併
影響 session 數	每次查詢都做 DISTINCT	error_groups 表預計算
Status 管理	無	open / resolved / ignored
查詢效能	GROUP BY 掃描 events 表	直接查 error_groups 表

Error 詳情升級

點擊某個 error group 進入詳情，顯示：

代表性 stack trace：最近一次事件的 stack trace，讓開發者看到 error 的具體位置
Normalized message：去除動態值後的 error message，一目了然這個 group 代表什麼問題
趨勢：這個 group 的事件量隨時間的變化（上升 = 越來越多使用者遇到、下降 = 可能自行恢復）
受影響版本：按 source.version 分佈 — 新版本出現的 group 通常是 regression
受影響平台：按 source.platform 分佈 — 只影響特定平台的 group 通常是平台特定 bug

自架方案的務實邊界

自架 collector 的 fingerprint 機制和 Sentry 等商業方案有明確的能力差距。

Stack trace 可讀性

Stack trace 分群的前提是 stack trace 可讀 — frame 的函式名和檔名對應原始碼。兩種情境下 stack trace 會變成不可讀：

Minified JS：production 環境的 JS 經過 minify 後，stack trace 變成 a.js:1:2345，無法定位原始碼位置。Sentry 支援上傳 source map，在 server 端自動反解。自架方案的對策：開發期使用未 minify 的 JS（stack trace 直接對應原始碼）；production 環境如果用 minify，需要自建 source map server 或放棄 JS 的 stack trace 分群、改用 error name + message 做 fingerprint。

Android ProGuard / R8 混淆：混淆後 stack trace 的類名和方法名是 a.b.c()。Sentry 和 Crashlytics 支援上傳 mapping file 反混淆。自架方案如果目標平台包含 Android native（非 Flutter），需要自建 mapping 反混淆流程。

Flutter 和 Python 不受上述影響 — Flutter 的 debug / profile build 保留完整 stack trace，Dart 有自己的 stack trace 格式不經過 ProGuard；Python 的 stack trace 永遠包含原始檔名和行號。

ML-based grouping

Sentry 的進階 grouping 使用機器學習判斷「語意相同但結構不同」的 error 是否該歸為同組。例如同一個 bug 因為 async/await 的 call chain 不同而產生不同的 stack trace，ML 模型能辨識它們是同一個 root cause。

自架方案用規則（fingerprint 演算法 + normalization）做 grouping。規則的覆蓋率低於 ML — 遇到規則沒覆蓋的情境時，需要手動加 normalization 規則或用 SDK 端自定義 fingerprint 修正。

能力定位

能力	自架方案	Sentry
基礎分群	type + normalized message	type + in-app frame + ML
Stack trace 分群	top N frames（明文 stack trace）	in-app frame + source map + deobfuscation
自定義 fingerprint	SDK 端 `data.fingerprint`	SDK 端 + server-side rule
Message normalize	regex 替換	regex + ML
Issue 管理	open / resolved / ignored	+ assign / merge / snooze / trend

基礎分群和 message normalization 覆蓋自架場景的多數需求。Stack trace 分群在明文 stack trace 的場景下（Python / Flutter / 未 minify 的 JS）和 Sentry 效果相當。差距主要在 minified / obfuscated 環境和 ML-based grouping — 這兩者恰好是商業方案的核心付費價值。

下一步路由

Error 列表和趨勢的日常監控 → Developer Dashboard 設計
Collector 的處理鏈路 → Collector 架構
偽造 error 的辨識 → Client-side SDK 認證
Sentry 的 error tracking 架構 → Sentry 深入
Error 事件的端到端完整性 → 端到端資料完整性

監控實務指南

Fri, 19 Jun 2026 00:00:00 +0000

監控教材的核心目標是教讀者理解「使用者的裝置上發生了什麼事」。開發者不在使用者旁邊，需要系統性地收集行為事件、攔截錯誤、量測效能、追蹤生命週期 — 這四類資訊構成客戶端可觀測性的完整圖像。

跟 Backend 可觀測性的關係

Backend 模組四：可觀測性平台聚焦 server-side — Prometheus metrics、OpenTelemetry tracing、log aggregation、alert routing。那是「伺服器怎麼知道自己出問題」。

本系列聚焦非 server 端運行時 — mobile app、web 頁面、本機腳本（CLI / Hook）、本機服務。這是「開發者怎麼知道使用者端出問題」。

兩者的交叉點是 事件格式 和 transport。Server-side 用 OTLP（OpenTelemetry Protocol）；本系列用 HTTP POST JSON — 更簡單、無依賴、適合小規模自架。大規模時可橋接到 OTLP。

跟 Testing 的關係

開發測試模組二：客戶端可觀測性聚焦「開發期的 log 設計」— 連線生命週期 log、protocol 訊息 log、功能規格中的 log 點定義。那是「怎麼在開發時就設計好 log」。

本系列聚焦「log 收集到之後的完整鏈路」— SDK 怎麼埋點、事件怎麼送、collector 怎麼收、資料怎麼查、規則怎麼觸發。Testing 模組二是設計端，本系列是基礎設施端。

跟 Infra 可觀測性的關係

Infra 模組六：可觀測性與 log 聚焦基礎設施層 — log group、CloudWatch metric、alarm 跟資源同生命週期的 IaC 管理。那是「基礎設施怎麼知道自己出問題」。本系列跟 Backend 可觀測性、Infra 可觀測性三者的分界是觀測對象：infra 觀測資源健康（CPU、磁碟、網路連通）、backend 觀測服務行為（延遲、錯誤率、trace）、本系列觀測客戶端行為（使用者操作、前端錯誤、效能指標）。事故排查時三者合流。

跟 Dotfile 的關係

Dotfile 工作環境配置指南聚焦個人開發環境的配置管理。Monitoring 系列有獨立的 hands-on 專案做實測，Dotfile 系列也會搭配 VM 實測專案做 Hyprland 桌面配置的驗證——兩者的教材 + 實測專案模式平行。

斷網環境（air-gapped）裡這三層都要 self-hosted——infra 層用 Prometheus + Grafana、backend 層用自架的 trace/log collector、本系列的 SDK 和 Collector 也要部署在內網。斷網環境的 infra 層監控設定見斷網環境的監控與可觀測性。

教學範圍

放在本系列	放在其他系列
監控心智模型（四類事件分類與收集策略）	server-side observability（放 Backend 04）
跨平台 SDK 設計（JS / Flutter / Python）	特定語言的 error handling（放語言教材）
自架 collector（Go、JSONL、rule engine）	商業 APM 管理後台操作
Log schema 與 transport 規格	分散式 tracing（放 Backend 04）
商業方案對照（Sentry / Crashlytics / Datadog RUM）	商業方案的付費方案比較
本機腳本監控（Python Hook / CLI 工具）	server daemon 監控（放 Backend 05 部署平台）
Rule engine（條件觸發 → 自動 issue / alert）	Incident response 流程（放 Backend 08）

教學模組

模組一：監控心智模型

回答「要收集什麼、為什麼」。四類事件各自解答的問題：

事件類型	回答什麼問題	範例
`event`	使用者做了什麼？	button.click、page.view、hook.run、qr.scan
`error`	哪裡壞了？	uncaught exception、network error、hook failure
`metric`	有多快 / 多慢？	response_time、render_duration、hook_duration_ms
`lifecycle`	系統的狀態轉換？	app.start、session.begin、ws.connect、hook.init

四類不是互斥的 — 一個 hook 執行可以同時產生 lifecycle（hook.start）、metric（duration）、error（如果失敗），和 event（hook.complete）。分類的價值是讓查詢和 rule engine 能按類型過濾。

商業方案如何對應：

商業方案	對應的事件類型	額外能力
Sentry	error + metric	stack trace 去重、release tracking
Firebase Crashlytics	error	crash-free rate、ANR 偵測
Firebase Analytics	event + lifecycle	funnel、retention、user property
Datadog RUM	event + error + metric	session replay、waterfall、core vitals
Mixpanel / Amplitude	event	funnel、cohort、A/B test attribution

自架方案覆蓋四類事件的收集和儲存；商業方案在此基礎上加 dashboard、去重、alerting、session replay 等進階功能。理解四類事件的分類後，商業方案的功能差異就是「在哪類事件上做了什麼加值」。

模組二：Log Schema 設計

回答「事件長什麼樣」。跨平台統一事件格式、欄位設計、版本演進策略。

核心格式（schema/event.schema.json）：

 1{
 2  "v": 1,
 3  "type": "error",
 4  "timestamp": "2026-06-19T20:00:00Z",
 5  "source": { "sdk": "python", "platform": "macos", "app": "claude-hooks" },
 6  "name": "hook.failure",
 7  "level": "error",
 8  "data": { "hook": "branch-status-reminder", "duration_ms": 42 },
 9  "error": { "message": "FileNotFoundError: ...", "type": "FileNotFoundError" }
10}

設計原則：

source 標明來源 — 收到事件就知道是哪個 SDK、哪個平台、哪個 app
data 是自由欄位 — 不同場景的附帶資料差異太大，用結構化 JSON 而非固定欄位
v 做版本演進 — Schema 改版時 collector 靠版本號決定解析方式
四類 type — 查詢和 rule engine 的第一個過濾維度

對應 repo：tarrragon/monitor 的 schema/event.schema.json 是 SOT

模組三：SDK 設計模式

回答「怎麼在各平台埋點」。三個 SDK 共用同一套事件格式，但攔截機制不同：

平台	自動攔截	手動上報
JS/TS	`window.onerror`、`unhandledrejection`	`monitor.event('name', {})`
Flutter	`FlutterError.onError`、`PlatformDispatcher`	`monitor.event('name', {})`
Python	`sys.excepthook`、`atexit`	`monitor.event('name', {})`

三個 SDK 的公開 API 設計應保持一致（同名方法、同參數順序），讓跨平台開發者不需重新學習。

模組四：Collector 設計

回答「收到的事件怎麼處理」。Go 單一 binary，零外部依賴。

職責鏈：收（HTTP endpoint）→ 驗（JSON Schema）→ 存（JSONL 檔案）→ 查（CLI 查詢）→ 觸發（rule engine）。

自用場景的 collector 跟 production 級 observability 平台的差異：沒有 dashboard（用 grep / jq）、沒有 alerting（用 rule engine + 腳本）、沒有 HA（單機就夠）。這些是刻意的設計選擇——零依賴、零運維、grep 友好。

從 SDK 到 storage 的每個環節都有丟失事件的可能。端到端資料完整性整理了整條鏈路的損失地圖、控制策略、完整性指標，以及被自己 SDK DDoS 時的防護方式。Error Fingerprint 與去重分群把相同根因的 error 歸組，讓 dashboard 從逐筆列表演進到可管理的 issue 列表。

模組五：平台適配

回答「各平台有什麼特殊考量」。JS 的 CORS 限制、Flutter 的 isolate 安全、Python 的 GIL 與 atexit、Go 的 graceful shutdown。

模組六：商業方案對照

回答「什麼時候該從自架切換到商業方案」。判斷標準：

條件	自架	商業方案
使用者 = 開發者自己	適合	過度
使用者 < 100 人、同區網	適合	可考慮免費方案
使用者 > 1000 人、外部網路	維護成本高	適合
需要 session replay / funnel	自建成本高	適合
需要合規稽核（SOC 2 / GDPR）	自建困難	適合（已認證）

跟模組八的關係：模組六比較「自架 vs 商業」的功能和成本；模組八把行為資料視為商業資產，討論精準行銷、推薦系統、A/B test attribution — 這些是商業方案的核心賣點，也是自架方案最難自建的部分。

模組七：資安與隱私

回答「蒐集的資料本身就是風險資產，怎麼保護」。同一份監控資料在不同角色眼中有不同身份：

角色	看到的是	關心的問題
開發者	debug 資訊	錯誤在哪、使用者做了什麼
安全團隊	風險資產	含 secret 嗎、被入侵會洩漏什麼
法務團隊	合規負債	蒐集合法嗎、保留多久、跨境嗎
行銷團隊	商業原料	能做 funnel 嗎、能投廣告嗎

三層防護設計（影響 SDK 和 collector 的實作）：

層	在哪裡做	做什麼	影響 monitor repo 哪裡
SDK 端 redaction	sdk-js / sdk-flutter / sdk-python	送出前自動遮蔽已知 secret pattern（API key / password / token / file path 中的 username）	SDK 的 `redact()` helper + 預設 redaction rule
Transport 加密	SDK → collector	HTTPS 或至少 basic auth（即使同區網）	transport 規格 + collector TLS 設定
Collector 端 access control	collector	儲存加密 at rest、查詢需認證、access log 記錄誰查了什麼	collector 的 auth middleware + 加密儲存

去識別化策略：

資料類型	去識別方法	時機
IP 地址	截斷最後一段（192.168.1.x）	SDK 端或 collector 收到時
User agent	保留 OS + browser 版本，去除 fingerprint 細節	collector 收到時
自由欄位 `data`	regex 掃描已知 secret pattern，替換為 `[REDACTED]`	SDK 端送出前
Stack trace	去除絕對路徑中的 username	SDK 端送出前
Session ID	不跟真實使用者身份綁定（匿名 UUID）	SDK 初始化時

跟 Backend 07 資安與資料保護的關係：Backend 07 聚焦 server-side 的權限、秘密管理、稽核追蹤；本模組聚焦「蒐集來的監控資料本身」的保護。交叉點是 Secret Management — 監控資料裡意外包含 secret 時，去識別化機制需要知道什麼 pattern 算 secret。

Client-side SDK 的 credential 嵌在使用者手上的程式碼中（JS bundle / APK / Python script），必然可被提取 — 這是 architecture 限制而非 implementation 問題。Client-side SDK 認證的根本限制處理「credential 已暴露」前提下的多層緩解策略。

模組八：行為資料的商業利用

回答「蒐集到的行為資料除了 debug，還能做什麼」。這是監控體系從「開發工具」翻轉成「商業資產」的轉折點。

前提：模組七的去識別化是本模組的入場條件。 沒做好去識別化就做精準行銷 = 法律風險。本模組假設資料已經過去識別化處理。

行為資料的商業價值鏈：

1蒐集（SDK 埋點）
2  → 清洗（去識別 + 去噪）
3    → 分析（funnel / cohort / attribution）
4      → 決策（投放 / 改版 / 定價）
5        → 驗證（A/B test → 回到蒐集）

分析類型	回答什麼問題	需要的事件	商業方案
Funnel analysis	使用者在哪一步流失？	`event`（page.view / button.click / checkout.complete）	Mixpanel / Amplitude / GA4
Cohort analysis	不同族群的留存率差異？	`event` + `lifecycle`（session.begin 時間）	Mixpanel / Amplitude
Attribution	使用者從哪來？哪個廣告帶來轉換？	`event`（install / first_open / conversion）	Adjust / AppsFlyer / GA4
A/B test	哪個版本的按鈕轉換率更高？	`event`（variant_shown / conversion）	Optimizely / LaunchDarkly / 自建
推薦系統	這個使用者可能對什麼感興趣？	`event`（view / click / purchase 歷史）	自建 / AWS Personalize
RFM 分群	誰是高價值客戶？誰快流失？	`event`（purchase 頻率 / 金額 / 最近一次）	自建 / CRM 工具

跟監控的邊界：

	監控（模組一~六）	商業利用（本模組）
看的事件	全部四類（error 為主）	主要 `event` 類
分析粒度	單筆事件（這個錯誤的 stack trace）	聚合統計（過去 30 天的轉換率）
決策輸出	修 bug、改架構	投廣告、改定價、改 UI
資料保留	短期（30 天，debug 用完即丟）	長期（年級，行為趨勢需要歷史資料）
去識別化要求	中（開發者看 raw data 可接受）	高（行銷分析必須去識別）

自架方案能做到哪裡：

Funnel / cohort 基礎分析：collector 的聚合查詢 + 簡單腳本可做
Attribution / 推薦系統：需要專門的資料管線，超出 collector 範圍
A/B test：需要 feature flag 系統 + 統計檢定，屬獨立基礎設施

跨系列的延伸主題（目前放在各章節的下一步路由中，尚未獨立成教學分類）：精準行銷的資料管線設計、A/B test 的統計檢定方法、推薦系統架構、隱私法規工程落地（GDPR / CCPA / 個資法）。

跨模組橋接：監控資料的雙重用途

SDK 送出的同一份 event data 同時服務行為分析（funnel / cohort / attribution）和 server-side 訊號治理（cardinality / cost / signal governance）。兩條消費路徑的保留期、粒度、PII 處理和取樣策略互相衝突，解法是在 transport 層分流而非在 SDK 層複製。

完整的資料格式交叉、治理衝突與分流架構見監控資料的雙重用途。Client-side event 到 server-side trace 的完整串接見 4.24 Client-to-Server 觀測串接。

學習路線

路線	適合讀者	建議順序	讀完能做什麼
自架監控快速上手	想在自己的 app/script 加監控	模組一 → 二 → 四 → 三 → data-integrity（延伸）	能部署 collector + 埋點 SDK + 評估資料損失容忍度
SDK 開發者	想理解監控 SDK 怎麼設計	模組三 → 二 → 五	能設計跨平台一致的監控 SDK
商業方案評估	想知道什麼時候該用 Sentry / Datadog	模組一 → 六	能評估自架 vs 商業方案的取捨
資安合規	想確保蒐集的資料不會變成負債	模組七 → 二（schema 設計）→ client-sdk-auth（延伸）	能設計去識別化 + access control + 認證策略
商業利用	想把行為資料變成商業決策	模組一 → 七 → 八	能設計行為事件 + 基礎 funnel 分析
可靠性工程	想確保自架監控系統的資料完整性和安全性	模組四（架構）→ data-integrity → ingestion-scaling → error-fingerprint → client-sdk-auth	能設計端到端的損失控制 + SDK 認證策略

教學 × 實作互補循環

本系列的教學內容和 tarrragon/monitor monorepo 是互補關係，兩者各自承擔不同的知識生產責任：

	教學（本系列）	實作（monitor repo）
職責	整理理論框架、分類心智模型、設計原則	驗證理論可行性、暴露理論盲區
產出方向	概念 → 範例 → 判斷準則	程式碼 → 困難 → 新的待整理議題
例子	「四類事件分類」「SDK API 一致性原則」	「collector 收到 10 萬筆/天時 JSONL grep 多慢？」

互補循環的運作方式：教學先建立理論框架（四類事件、log schema、transport 規格），實作按框架建 SDK 和 collector，實作過程撞到理論沒覆蓋的挑戰（高併發寫入、大資料查詢、儲存生命週期），挑戰回過頭成為教學的新章節。

教學與 repo 文件分工

教學和 monitor repo 的文件各自有不同的讀者和目的。教學讀者想理解「為什麼這樣設計」，repo 讀者想知道「怎麼跑起來」。

內容	位置	理由
設計原則和判斷框架	教學（本系列）	跨專案可重用
Quick Start（5 分鐘跑起來）	monitor repo README	專案綁定
部署指南（systemd / config 範例）	monitor repo docs/	專案綁定
SDK 整合範例（Flutter / Python）	monitor repo 各 SDK README	語言綁定
Troubleshooting	monitor repo docs/	專案綁定
Migration（SQLite → PostgreSQL）	monitor repo docs/	版本綁定

教學讀者想要直接跑起來的步驟，見 monitor repo 的 README Quick Start 段。

MVP 驗收標準

Monitor 的 MVP 完成定義是「一筆事件從 SDK 到 dashboard 可見」的端到端路徑跑通。

Collector 核心（必須）：

POST /v1/events 接收 JSON 事件、schema 驗證、寫入 SQLite
GET /v1/query 按 type / name / time range 查詢事件
GET /health 回傳 collector 狀態
分層保留的 Downsample + Purge 定期執行
至少一個 rule（error count > N → 寫檔案）

SDK（至少一個語言）：

init / event / error / flush / close 五個 API 可用
攢批送出（buffer + flush interval）
Collector 不可達時 buffer 不丟事件（記憶體 FIFO）

Dashboard（至少一個視圖）：

Error 列表（最近 N 筆 error、按 name 分群）
事件時間軸（按時間排序的事件流）

驗收方式：啟動 collector → SDK init → SDK 送 3 筆事件（1 event + 1 error + 1 lifecycle）→ dashboard 看到這 3 筆 → query API 查到這 3 筆。

不在 MVP 範圍：PostgreSQL backend、水平擴展、funnel / cohort 分析、A/B test、TUI dashboard、container image 發佈。

挑戰在 collector 端，不在 SDK 端

SDK 埋點是已解決問題 — window.onerror 攔截錯誤、http.post 送出事件、攢批 flush，前端技術成熟且各商業方案已驗證過。SDK 的設計決策（自動攔截 vs 手動上報、flush interval、buffer 上限）有最佳實踐可循。

真正的挑戰在 collector 端，而且挑戰的規模隨使用者數量和時間跨度急劇增長：

挑戰	觸發條件	教學需回補的議題
高併發寫入	多個 SDK 同時 flush → collector 瞬間收到大量 HTTP request	寫入 buffer、WAL、背壓、rate limit
大資料查詢	累積 30 天 × 每天 10 萬筆 = 300 萬筆 → `grep` 吃光記憶體	索引策略（時間分區 + 事件名稱索引）、查詢 API 設計
儲存生命週期	JSONL 無限增長 → 磁碟滿	保留策略（TTL）、壓縮（gzip）、歸檔（冷儲存）、清除（定期 purge）
聚合查詢	「過去 7 天 hook.failure 的趨勢」→ 掃描 700 萬筆做 count	預聚合（每小時統計寫入摘要表）、物化視圖
錯誤回報查詢	「最近 10 個 uncaught exception 的 stack trace」→ 全文搜尋	錯誤去重（fingerprint）、stack trace 索引
讀寫競爭	Dashboard 聚合查詢跟 ingestion INSERT 搶 I/O 跟連線池	預聚合 summary 表、read replica、讀寫分離

這些挑戰的共同特徵是：在自用場景（1 人、1 台機器、每天幾百筆）完全不存在，在小規模場景（100 人、每天 10 萬筆）開始浮現，在中規模場景（1000+ 人、每天百萬筆）成為核心問題。自架方案從「grep 就夠」演進到「需要時間序列資料庫」的過程，正好是理解商業方案為什麼那樣設計的最佳路徑。

SQLite 實機驗證優先

Monitor repo 進入實作後，第一個驗證目標是 SQLite backend 的實機效能基準。教學的 SQLite Backend 效能基準提供了基於技術特性和業界數據推導的預期範圍，但這些數字必須在目標硬體上用實測確認。

SQLite 版本和 PostgreSQL 版本的根本差異是 SQLite 無法擴充硬體 — 它是嵌入式資料庫，和 collector 跑在同一台機器上。PostgreSQL 可以透過更大的主機、read replica、connection pool 擴展，但 SQLite 的天花板就是那台機器的 CPU + 磁碟 I/O + 記憶體。這意味著 SQLite 版本的效能邊界是硬限制，撞到就只能切換 backend，沒有「加機器」這個選項。

實機驗證的優先順序：

寫入吞吐和 database is locked 的實際閾值：教學推導的「Mac SSD 約 5,000 inserts/sec」需要在目標環境（可能是 Linux VPS 或 Raspberry Pi）實測。database is locked 出現的條件比理論預測更依賴硬體 — SD card 的隨機寫入延遲可能讓 WAL checkpoint 卡住數秒。
Dashboard 查詢在真實資料量下的延遲：教學推導的「10 萬筆有索引 < 100ms」需要用真實事件資料（不是生成的 dummy data）驗證 — 真實事件的 JSON 大小和欄位分佈影響索引效率。
降採樣 job 和 purge 的執行時間：這兩個定期 job 在執行期間持有 write lock。如果 job 跑太久（數秒以上），ingestion 會 block — 需要確認在目標資料量下 job 的執行時間。
長時間運行的穩定性：SQLite 的 WAL 檔案會持續增長直到 checkpoint。Collector 連續運行數天後的 WAL 大小、checkpoint 行為、記憶體是否有 leak — 這些只有長時間運行才會浮現。

實測結果寫進 monitor repo 的 docs/benchmarks/sqlite-baseline.md，和教學的預期範圍對照。偏差超過 2 倍的項目回補教學章節，修正預期範圍或補充環境特定的注意事項。

實作驅動的教學章節回補

當實作撞牆時，回補流程：

記錄撞牆場景：在 monitor repo 的 docs/challenges/ 記錄具體問題（輸入規模、觀察到的症狀、嘗試的方案）
分析根因：問題屬於哪個領域（資料庫設計 / 併發控制 / 儲存策略 / 查詢最佳化）
回補教學章節：在 monitoring 教學系列或 Backend 對應模組新增章節
交叉引用：collector 高併發問題 → Backend 01 資料庫或 Backend 09 效能容量

實作撞的牆越多，教學系列就越完整。商業方案（Sentry、Datadog）已經解決過這些問題 — 他們的架構選擇（ClickHouse 做事件儲存、Kafka 做寫入 buffer、Snuba 做聚合查詢）就是這些挑戰的解法。自架過一次，看商業方案的架構文件時每個決策都能理解為什麼。

教學寫作方向

自架先於商業 — 先教 grep + JSONL 怎麼查問題，再說 Sentry 的 dashboard 多好用。理解底層才能判斷商業方案值不值得
四類事件是統一語言 — 所有討論都回到 event/error/metric/lifecycle 四類。商業方案差異也用這四類拆解
實作驅動教學 — monitor repo 的實作困難是教學章節的來源。撞牆 → 記錄 → 分析 → 回補章節。教學不只是寫在實作前的理論，也是寫在實作撞牆後的提煉
規模演進是理解工具的路徑 — 從 grep 到 SQLite 到時間序列 DB 的演進過程，正好是理解 Sentry / Datadog 架構選擇的最佳路徑

文件版本：v0.2.0 最後更新：2026-06-19 系列狀態：分類索引建立中

監控資料的雙重用途：行為分析與訊號治理

Mon, 22 Jun 2026 00:00:00 +0000

SDK 埋的每一筆 event 有兩個下游消費者：產品團隊用它做行為分析（轉換率、留存、歸因），工程團隊用它做訊號治理（cardinality 控制、成本歸因、事故判讀）。兩邊各自有教學章節（Monitoring 08 Business Analytics 和 Backend 04 可觀測性），但讀者常不知道這是同一份資料的兩種消費方式。本文是橋。

同一份資料、兩種消費路徑

 1SDK 埋點（event / error / metric / lifecycle）
 2  │
 3  ├── 行為分析路徑 → Monitoring 08
 4  │     消費者：PM / 行銷 / 產品
 5  │     方法：funnel / cohort / attribution / A-B test
 6  │     決策：改 UI、調定價、投廣告
 7  │
 8  └── 訊號治理路徑 → Backend 04
 9        消費者：SRE / platform team / on-call
10        方法：cardinality budget / cost attribution / signal governance
11        決策：降 cardinality、調 sampling、改 alert、產出 evidence

這不是兩套埋點。同一個 button.click event，產品團隊看的是「哪個步驟流失最多使用者」，工程團隊看的是「這個 event 的 cardinality 是否在預算內、ingestion cost 是否合理」。event 相同，切入角度不同。

資料格式的交叉點

Monitoring SDK 送出的事件格式（02 Log Schema）和 Backend 04 的 log schema / OTel event format 有共通欄位：

欄位	Monitoring SDK 格式	Backend 04 / OTel 格式	交叉用途
timestamp	`timestamp`（ISO 8601）	`TimeUnixNano`	兩邊都需要精確時間做時序查詢
event type	`type`（event/error/metric/lifecycle）	`SeverityText` / `SpanKind`	行為分析按 type 做 funnel；訊號治理按 type 做 cardinality budget
source	`source.sdk` / `source.platform` / `source.app`	`Resource` attributes	行為分析按 platform 切分；訊號治理按 service 做 cost attribution
trace context	手動注入（若有）	`TraceId` / `SpanId`	client-to-server 端到端追蹤的串接欄位
payload	`data`（自由 JSON）	`Attributes` / `Body`	行為分析讀 business fields；訊號治理讀 operational fields

格式一致性的價值是一份 event 同時餵 BigQuery（行為分析）和 Grafana Loki（訊號查詢）不需要格式轉換。如果兩邊各自定義 schema，同一個 event 要寫兩次 adapter，schema drift 的風險倍增。

資料治理的衝突

同一份資料被兩邊消費時，治理需求會衝突：

面向	行為分析需要	訊號治理需要	衝突點
保留期	長期保留（年級，趨勢與 cohort 需要歷史資料）	短期保留（30-90 天，debug 用完即丟）	成本 vs 分析完整度
粒度	高粒度（per-user、per-session、per-action）	低粒度（聚合到 service / endpoint 維度）	cardinality 爆炸 vs 分析精度
PII 處理	去識別但需保留 user segment（國家、裝置、方案）	完全匿名或 redacted	分析需求 vs 合規要求
取樣	低取樣或全量（行為趨勢需要完整分布）	可以高取樣（error 全收，正常 request 取樣即可）	成本 vs 覆蓋度
查詢延遲	可接受分鐘級（batch analytics）	需要秒級（incident debug 不能等）	儲存分層與查詢 backend 選擇

這些衝突無法靠「選一邊」解決。行為分析少了歷史資料就看不到趨勢；訊號治理存太多高粒度資料就 cardinality 爆炸。解法是分流。

解法：在 transport 層分流

把 SDK 送出的 event 在 collector 或 pipeline 層分流到不同 backend，各自按需求治理：

Hot path：即時訊號

error 和 metric 類事件即時進入 04 telemetry pipeline（Loki / Prometheus / Tempo），短期 retention（30-90 天），服務 on-call debug 和 incident triage。這條路徑要求秒級延遲、低 cardinality（聚合維度）。

Warm path：行為分析

全部四類事件進入 data warehouse（BigQuery / ClickHouse / Snowflake），長期 retention（年級），服務 funnel、cohort、attribution 和 A/B test。這條路徑接受分鐘級延遲、高粒度（per-user / per-session）。

Cold path：合規留存

audit-level event 進入 archive storage（Cloud Storage / S3 / Glacier），法規要求的年級保留（GDPR 刪除請求、HIPAA 6 年、金融業更長）。這條路徑寫入後幾乎不查詢，查詢時接受小時級延遲。

分流的關鍵設計

分流在 transport 層做，不在 SDK 層做。SDK 統一送出全部 event 到同一個 endpoint，pipeline 按 event type / source / tag 路由到不同 backend。

1SDK → Collector / OTel Collector / Cloud Logging
2         │
3         ├─ [type=error OR type=metric] → Hot path (Loki / Prometheus)
4         ├─ [all events]                → Warm path (BigQuery)
5         └─ [audit=true]               → Cold path (Cloud Storage)

SDK 不需要知道下游有幾個消費者。新增一個消費者（例如新的分析平台）只要在 pipeline 加一條路由，不用改 SDK。

實作考量

分流的實作方式取決於 pipeline 架構：

架構	分流機制	適用場景
自架 collector（Monitoring 04）	Rule engine 按 event type 寫不同 output file / HTTP endpoint	小規模、自用場景
OTel Collector	Processor + 多個 Exporter 組成 pipeline fan-out	中規模、已採用 OTel
Cloud Logging（GCP）	Subscription filter + Sink（BigQuery / Cloud Storage / Pub/Sub）	GCP 生態
Kinesis / Firehose（AWS）	Firehose delivery stream + Lambda transform	AWS 生態

不論哪種架構，分流後的每條 path 要各自設定 retention、sampling、PII handling 和 cost budget。Hot path 的 cardinality 治理規則不該影響 warm path 的分析粒度；warm path 的長期保留成本不該擠壓 hot path 的 freshness。

常見誤區

用兩套 SDK 替代分流

在 client 端同時整合行為分析 SDK（Mixpanel）和 error tracking SDK（Sentry），看似分工清楚，實際是兩套 schema、兩份 ingestion cost、兩組 PII 風險面、兩套 consent 管理。同一個 user action 在兩個平台各記一次，但欄位名、timestamp 精度、user identifier 可能不同，跨平台 correlation 困難。

統一 SDK + pipeline 分流的成本通常低於雙 SDK 的整合與治理成本。

Hot path 存全量高粒度

把 per-user / per-session 的完整事件直接灌進 Prometheus 或 Loki，會導致 cardinality 爆炸（4.7 Cardinality 治理）。Hot path 的正確做法是在 pipeline 層做 aggregation 或 relabeling，只保留 service / endpoint / status 等低 cardinality 維度。高粒度資料走 warm path。

Warm path 不做 PII 處理

行為分析需要 user segment，但不需要 PII 原文。warm path 的 ingestion pipeline 應該在寫入 warehouse 前做 PII redaction（hash user_id、truncate IP、strip email）。Monitoring 07 去識別化的策略同時適用於 hot 和 warm path。

讀者路由

如果你想	先讀
理解 event 格式設計	Monitoring 02 Log Schema
理解行為分析方法	Monitoring 08 Business Analytics
理解訊號治理和成本控制	Backend 04 Cardinality 治理、4.15 Cost Attribution
理解 pipeline 分流架構	Backend 04 Telemetry Pipeline
理解 PII 去識別化	Monitoring 07 Security Privacy
理解 client-to-server 端到端觀測串接	Backend 04 Client-to-Server 觀測串接

監控案例庫

Fri, 19 Jun 2026 00:00:00 +0000

本案例庫的來源與 testing / ux-design 不同：案例由 tarrragon/monitor 的實作過程產生，不是事前採集。

每個案例對應 monitor repo 的 docs/challenges/ 中的一個撞牆記錄，經教學化處理後收錄於此。

預期案例（實作後產生）

預期主題	觸發時機	對應模組
JSONL 查詢效能天花板	累積 > 1 萬筆	模組四
高併發寫入 buffer 策略	多 SDK 同時 flush	模組四
SDK 離線 buffer 丟失	網路中斷 + buffer 滿	模組三
跨平台 timestamp 偏移	JS/Dart/Python 時間精度不同	模組五
錯誤去重 fingerprint 設計	同一 exception 重複回報	模組三
Redaction false positive	正常內容被誤判為 secret	模組七
聚合查詢掃描量爆炸	「過去 7 天趨勢」	模組四

案例庫會隨實作進展持續擴充。

LLM Service 偵測訊號覆蓋

Tue, 12 May 2026 00:00:00 +0000

本章的責任是把 LLM 服務的異常行為訊號、納入 7.13 偵測覆蓋與訊號治理的既有偵測框架。LLM 服務的偵測訊號跟一般 service 的差異在「需要看 prompt / response / tool call 三個語意層」、不只是 traffic 跟 error rate；LLM-specific 訊號的關鍵範例是 refusal rate、通用 alerting 詞彙見 alert、alert-fatigue、symptom-based-alert 卡。本章聚焦這層特殊性、通用偵測流程沿用 7.13。

本章寫作邊界

本章聚焦 production LLM 服務的偵測訊號設計：tool call 異常、prompt injection 觸發徵兆、abuse 模式、cost / token 異常、模型行為偏移。通用偵測平台選型與 SIEM / SOAR 整合屬 04-observability 跟 7.13。

本章 threat scope

In-scope：LLM 服務的特殊偵測訊號（prompt / response / tool call 語意層）、agent 行為異常、abuse / 濫用模式、cost 異常、模型 drift。

Out-of-scope（路由到他章）：

通用偵測覆蓋與訊號治理 → 7.13 detection-coverage-and-signal-governance
偵測平台 → 04-observability
IR 工作流 → 7.10 incident-case-to-control-workflow
agent prompt injection 後果 → llm-prompt-injection-in-agent
log / PII 治理 → llm-log-and-pii-governance

從本章到實作

Mechanism：問題節點表 → knowledge-card。
Delivery：交接路由 → 04-observability 偵測平台、08-incident-response IR 流程。

LLM 服務的偵測語意層

一般 service 的偵測訊號集中在 traffic / error / latency / auth event；LLM 服務增加了三個語意層：

prompt 語意層：使用者輸入的內容模式、prompt 長度分布、特殊 token / pattern 出現頻率。
response 語意層：模型輸出的內容類型、refusal rate、輸出長度分布、tool call 出現模式。
tool call 序列層：agent 場景下、tool call 順序、頻率、跨 tool 依賴模式。

這三層的訊號通常無法用傳統 monitoring stack 直接抓、需要 LLM-specific 的 telemetry pipeline。

分析模型

LLM 服務偵測依四個層次設計訊號：

traffic 層：跟一般 service 一致、QPS / latency / error rate / auth event。
content 層：prompt 跟 response 的語意特徵（長度、token 類型、敏感詞）。
behavior 層：tool call 序列、agent loop 步數、cross-service call pattern。
cost 層：token / call 累積、cost 異常（單一 tenant 突然暴增、cost-per-result 飆高）。

判讀流程

判讀流程的責任是把「能偵測一般服務異常的偵測平台」擴成「能偵測 LLM 特殊異常的偵測平台」。

先盤點現有偵測平台覆蓋哪些訊號類別、哪些是 LLM-specific 缺漏。
再設計 LLM-specific 訊號的採集路徑（log → metric → alert）。
接著定義 baseline 跟 anomaly threshold、避免假陽性過高。
最後交接到 IR 流程、確認 alert 能對應到具體處置動作。

問題節點（案例觸發式）

問題節點	判讀訊號	風險後果	前置控制面
tool call 序列異常	同一 session 內 tool call 暴增、跨 tool 跳躍頻繁	injection 觸發 agent 進入非預期 loop	detection-coverage-and-signal-governance
Refusal rate 突然下降	模型開始接受原本拒絕的 prompt	對齊被繞過、injection 攻擊在進行	symptom-based-alert
token usage 異常飆升	單一 tenant cost 跳一個量級	abuse / DoS / 自動化攻擊	rate-limit
prompt 含 injection 模式	“ignore previous instructions” / 大量 system prompt 字樣	已知 injection 模式試探	symptom-based-alert
response 含 PII 模式	模型輸出含信用卡 / 身分證號碼 pattern	訓練資料洩漏 / hallucinate PII	data-protection
跨 tenant pattern 相似性	不同 tenant 同時出現相似異常 prompt	協同攻擊 / botnet	symptom-based-alert
模型 drift	同 prompt 在不同時段 response 品質明顯變化	模型版本切換問題 / vendor 端變動	contract-test

常見風險邊界

風險邊界的責任是界定何時 LLM 偵測覆蓋已進入高壓狀態。

tool call 序列、refusal rate、token usage 任一缺乏 baseline 時、代表 content / behavior / cost 層偵測不足。
prompt injection 已知 pattern 沒列入 alert 時、代表已知威脅未覆蓋。
跨 tenant 模式分析缺失時、代表協同攻擊偵測能力不足。
alert 沒對應到 IR 處置動作時、代表偵測與處置斷層。

LLM 場景的特殊判讀

LLM 服務偵測相對一般 service 偵測的特殊性：

訊號是非結構化的：prompt / response 是自由文字、不是 status code 跟 endpoint name；偵測 pipeline 需要 NLP / embedding 等手段、不只是 grep / regex。
baseline 漂移：使用者行為跟 LLM 使用模式持續演進、baseline 比一般 service 更需要 rolling window 更新。
「正常」prompt 跟「injection」prompt 的邊界模糊：教 LLM 寫 prompt injection 教材的使用者、prompt 內容跟攻擊者的測試 prompt 形式上類似；偵測需要結合 intent 跟 context。
cost-based detection 是 LLM 特有的 strong signal：傳統 service 的「cost」對應 infra、容易被視為運維議題；LLM service 的 token cost 直接連結到 abuse、cost 異常本身是強訊號。
跨 tenant 相關性分析：協同攻擊跟 botnet 在 LLM 服務上、可能用相同 prompt 在不同帳號試探；跨 tenant pattern 分析比一般 service 更有用。
模型 vendor 是 third-party 失敗點：vendor 端的模型更新、API 限流、政策變更會直接影響服務行為；需要 vendor-side 訊號（status page、release notes）納入偵測範圍。

訊號設計的核心原則

traffic 層沿用既有監控：QPS / latency / error rate / 5xx、跟一般 service 一致、用既有平台。
content 層需建 NLP pipeline：prompt 長度分布、敏感詞 detector、injection pattern detector、response PII detector。
behavior 層追蹤 tool call 序列：每個 session 的 tool call DAG、跟 baseline 比對。
cost 層做 tenant-scoped baseline：每個 tenant 的 token / cost 用 rolling baseline、突破 threshold 觸發 alert。
跨 tenant pattern 用 embedding 相似性：用 prompt embedding 做相似性分析、找協同攻擊。
vendor-side 訊號納入：vendor status page、release notes、incident 公告應該 watch、作為 external signal source。

案例觸發參考

LLM 服務偵測的公開案例累積中、值得追蹤的方向：

大型 LLM vendor 的 abuse detection pipeline 公開介紹
prompt injection 攻擊在 production agent 場景的真實案例
token usage abuse 的 botnet 案例

LLM-specific 偵測案例累積後會補入 red-team/cases/llm-detection/。一般偵測案例見 7.13 detection-coverage-and-signal-governance。

事實查核註：LLM 服務的偵測 baseline、attack pattern、defense 工具都在快速演進、本章列舉的訊號類型為 2026 年 5 月常見社群實踐、具體 threshold、tooling、commercial product 依時段變化、引用前以最新研究跟產品文件為準。

引用標準

標準	版本 / 年份	適用場景
MITRE ATLAS	continuous	AI 系統威脅戰術 / 偵測戰術 reference
OWASP LLM Top 10	2025	LLM application security 通用 reference
NIST AI RMF	1.0 (2023)	AI 系統風險偵測 reference
MITRE ATT&CK	continuous	一般系統威脅戰術、部分適用 LLM 服務基礎設施

引用版本與 cadence 規則見 security-citation-currency-and-precision。Last reviewed: 2026-05-12。

下一步路由

通用偵測覆蓋：7.13 detection-coverage-and-signal-governance
偵測平台：04-observability
agent prompt injection 後果：llm-prompt-injection-in-agent
log / PII 治理：llm-log-and-pii-governance
事件案例工作流：7.10 incident-case-to-control-workflow

Monitoring 知識卡片

Fri, 19 Jun 2026 00:00:00 +0000

監控體系教學中出現的關鍵術語卡片。每張卡片說明一個語意責任，跨情境變義的概念拆成獨立卡片。

TUI 監控工具：btop、htop、k9s 的遠端使用與刷新率調校

Mon, 15 Jun 2026 00:00:00 +0000

TUI 監控工具負責把系統或叢集的即時狀態畫成全螢幕互動介面：即時呈現負載變化，並用鍵盤直接排序、過濾、送訊號，取代反覆敲 ps、df、free 再自行拼湊。在遠端 SSH 情境下，它的關鍵變數是刷新率與頻寬的取捨，因為全螢幕介面每次刷新都會重送整片畫面。

本文承接終端機圖形化工具總覽的 TUI 工具脈絡，聚焦系統監控這一支在遠端的實際使用與調校。git 線圖工具（tig / lazygit / gitui）雖然也是 TUI，但屬版控子題，獨立成遠端 CLI 開發的 git 線圖工具選型。

htop：進程層的標準

htop 把進程清單畫成帶 CPU 與記憶體長條的全螢幕視圖，責任是即時看進程並直接操作。它用底部的功能鍵列引導操作，不必背指令。

按鍵	作用
`F3`	搜尋進程
`F4`	過濾（只顯示符合的進程）
`F5`	樹狀檢視（看父子關係）
`F6`	選排序欄位
`F9`	送訊號（殺進程）
`F10`	離開

遠端使用的關鍵是刷新延遲。htop 用 -d 設定刷新間隔，單位是十分之一秒，所以 htop -d 30 是每 3 秒刷新一次。慢速連線下把延遲調大換取畫面不卡、按鍵不延遲，可從 5 秒（htop -d 50）起步，順了再往下調。這個 5 秒是經驗起點、不是測得的閾值，實際依連線 RTT 與終端尺寸調整（後面 btop 與判讀段沿用此基準）。

btop：多資源儀表板

btop 把 CPU、記憶體、網路、磁碟畫在同一畫面，並帶歷史曲線與滑鼠操作，責任是一眼總覽多個資源維度的趨勢。相較 htop 偏進程清單，btop 偏向整機儀表板。

刷新率是 btop 在遠端最該調的設定。它的刷新間隔由 update_ms 控制（預設 2000 毫秒），把間隔調短會讓全螢幕重畫更頻繁、在慢速連線吃掉頻寬。調整方式是按 Esc 開 Options 選單改 update_ms，或直接編輯設定檔 ~/.config/btop/btop.conf 的 update_ms 值。判讀分界與 htop 相同：連線品質好可用較密的刷新換即時性，品質差就把間隔拉長，慢速連線可從 update_ms 5000（5 秒）起步。

k9s：Kubernetes 叢集導航

k9s 把 kubectl 的查詢與操作做成全螢幕導航介面，責任是讓叢集管理不必逐條敲 kubectl 指令。它用冒號指令切換資源視圖，游標選中資源後用快捷鍵操作。

安裝與 --refresh 旗標已實機驗證；以下 :pods 等叢集操作需連到 k8s cluster，依官方用法、本機未實機驗證。

常見操作是輸入 :pods 看 pod 清單、:svc 看 service，游標停在某個 pod 上按 l 看 log、d 看 describe、s 進 container shell。對遠端管理叢集的情境，它把「查狀態到進去除錯」的流程收進同一畫面，省去反覆切換指令的負擔。k9s 同樣是全螢幕 TUI、會定期輪詢叢集狀態，慢速連線下導航延遲明顯時，可在啟動時用 --refresh 把輪詢間隔（秒）調長。

其他常用 TUI 監控

不同資源維度有各自的專用 TUI，責任聚焦在單一面向。

工具	監控對象	用途
`ncdu` / `gdu`	磁碟空間	掃描目錄並用長條顯示各目錄佔多少空間
`ctop`	容器	即時看各 container 的資源佔用
`dive`	映像層	逐層分析 Docker image 的大小組成

這些工具的共同特性是各管一個維度：磁碟爆了用 ncdu 找出是哪一包、容器資源異常用 ctop 定位、要拆解 image 肥在哪用 dive。遠端排查時依問題維度挑對應工具，比開一個大而全的儀表板更直接。

Docker 相關的兩個工具值得多記一筆。dive 除了 TUI，還有非互動的 --ci 模式：dive --ci 會輸出 image 的 efficiency 與 wasted space，並依門檻判定 pass/fail，適合塞進 CI pipeline 擋住臃腫 image。ctop 的單一容器細節視圖（游標選中按 Enter）會把環境變數明文列出，含資料庫密碼這類敏感值，共享畫面或側錄時要留意。

遠端刷新率與頻寬的取捨

全螢幕 TUI 監控的遠端成本核心在於：每次刷新會重送整片字元矩陣，刷新越密、頻寬負擔越重。慢速連線下會看到畫面延遲、按鍵反應慢。對策是把刷新間隔調長（htop -d、btop 的 update_ms），用更新頻率換流暢度。

判讀分界落在刷新率與監控粒度：連線順暢時用 1–2 秒的密集刷新看即時變化；連線吃緊時把間隔拉到 5 秒以上，或當只盯單一指標時改用一次性的文字趨勢（見終端機文字圖表）而非全螢幕儀表板。

下一步路由

把監控擺進可持久化的多工器：tmux 基礎，斷線後 reattach 回去監控還在跑。
一次性的文字趨勢圖（省頻寬的替代）：終端機文字圖表。
監控的是 web 請求而非系統資源：終端機看 nginx 請求（GoAccess / ngxtop）。
TUI 監控在遠端工具分類中的定位：終端機圖形化工具總覽。

終端機圖形化工具總覽：遠端操作下的 TUI、文字圖表與多工器

Mon, 15 Jun 2026 00:00:00 +0000

終端機圖形化工具，是用純文字字元（ASCII 與 Unicode 製圖字元）在終端機裡畫出可讀介面的一類程式，承擔的責任是讓遠端操作不必依賴桌面圖形環境就能監控系統、判讀資料與管理多個工作流。它們傳輸的全是文字，所以在頻寬低、連線不穩、只有一支手機的情境下，反而比真正的圖形介面更可靠。

這類工具常被誤解成「把圖片塞進終端機」。那是另一條技術路線（sixel、kitty 影像協定、chafa 把 PNG 轉成色塊），依賴特定終端機支援、傳輸量大，在低頻寬遠端會卡。本篇談的是另一條路線：用 ─│┌┐└┘ 這類製圖字元、用半形與全形方塊堆出長條圖、用 sparkline 點陣畫趨勢線。畫面本質仍是一段文字，任何能顯示文字的終端機都能呈現。

為什麼遠端操作特別需要這條路線

遠端操作的核心限制是頻寬與連線穩定度，而純文字介面正好把這兩個成本壓到最低。一個全螢幕的監控介面，每次刷新送出的是一整片字元矩陣；若改用影像協定，送出的是一張壓縮點陣圖，資料量通常相差一個量級以上（實際視壓縮率而定）。連線中斷時，文字介面只要重連就能重畫，影像協定則可能因終端機狀態錯亂而花屏。

這條路線也避開了環境依賴。遠端伺服器通常沒有桌面環境，X11 forwarding 設定繁瑣又吃頻寬；手機上的 SSH app（Termius、Blink、JuiceSSH）能穩定顯示的就是文字。把操作介面建立在文字之上，等於把「能不能用」的前提降到「終端機能顯示字」，這是所有遠端通道都滿足的最低標準。

六類工具的定位

終端機圖形化工具依本篇關注的責任分六類，各自解決遠端操作的不同問題。這裡聚焦「監控判讀、資料可視化、多工承載、檔案瀏覽、資料庫存取、訊息佇列存取」六種責任；fuzzy finder（fzf）等其他互動式 TUI 同屬純文字遠端路線、但責任不同，不在本篇的選型框架內。

TUI 監控與儀表板

TUI（Text User Interface）監控工具負責把系統即時狀態畫成全螢幕的互動介面，省去反覆敲 ps、df、free 再自行拼湊的步驟，一眼呈現 CPU、記憶體、磁碟、網路的即時變化。它用製圖字元畫出框線與長條，用顏色標出負載高低，並接受鍵盤操作來排序、過濾、殺進程。

btop 與 htop 是系統層的代表：開起來就是一片帶長條圖的進程清單，可以直接選中進程送訊號。k9s 把這套搬到 Kubernetes，用同樣的全螢幕互動瀏覽 pod、查 log、進 container。lazygit 把 git 的暫存、commit、分支操作變成可點選的面板。ncdu 與 gdu 掃描磁碟並用長條畫出每個目錄佔多少空間，找出爆掉的是哪一包。

這類工具的共同判讀訊號是：需求落在「即時狀態 + 立刻操作」、而非「事後分析一段歷史資料」時，TUI 監控是對的選擇。它的邊界在於刷新成本 — 全螢幕重畫在慢速連線上會明顯延遲，這點在後面遠端情境會展開。

ASCII 與文字圖表

文字圖表工具負責把一串數值畫成終端機裡的圖，讓趨勢與分布可視化，而不必把資料下載回本機開試算表。它接受標準輸入或檔案的數字，輸出長條圖、折線圖或 sparkline，全部由字元構成。

gnuplot 是老牌繪圖工具，設定 set terminal dumb 就會用 ASCII 畫折線圖，適合畫函數或一段時間序列。termgraph 吃一份「標籤 + 數值」就畫出橫向長條圖，看各分類佔比很直接。plotext 是 Python 函式庫，在腳本裡直接畫折線與散點，適合接在資料處理流程後面。youplot（uplot）能從 pipeline 即時吃資料畫圖，配合 tail -f 可以做出滾動更新的監控線。sparkline 類工具（如 spark）把一串數字壓成一行高低起伏的點陣，塞進狀態列或 log 裡都行。

這類工具的判讀訊號是：手上已經有一串數值（log 抽出來的延遲、監控匯出的指標、一個查詢的結果），想看形狀而非逐筆讀數字。它跟 TUI 監控的差別在於資料來源 — TUI 監控自己去抓系統即時狀態，文字圖表則是餵什麼畫什麼，適合畫自訂指標與歷史資料。

終端機多工器

終端機多工器負責在單一連線裡管理多個終端機 session，並讓 session 的生命週期脫離連線本身。它把畫面切成多個 pane、用分頁組織工作流，而最關鍵的是：連線斷了，伺服器上的 session 仍在跑，重連後 attach 回去就接續原狀。

tmux 是事實標準，幾乎每台伺服器都裝得到，設定檔成熟、資源佔用低。zellij 是較新的選擇，預設就有畫面提示（floating pane、操作提示列），對不熟快捷鍵的人上手較快，並內建 layout 設定能一鍵開出固定的多 pane 佈局。

多工器跟前兩類不同，它本身不畫資料圖，而是承載其他工具的容器：在一個 pane 跑 btop、另一個 pane 跑 tail -f 接 sparkline、第三個 pane 留著敲指令。對遠端操作來說，它解決的是連線穩定度問題 — 這是手機與低頻寬情境的核心痛點，下一節展開。

檔案瀏覽與操作

檔案管理器負責把目錄結構與檔案內容做成可導航的互動介面，讓遠端只有終端機時也能像 IDE 側邊欄那樣瀏覽、預覽、搬移檔案，取代反覆 ls、cd、cat。

broot 用可展開的樹狀檢視呈現目錄層級，配模糊跳轉適合深層結構；yazi 與 ranger 走 Miller 欄狀（並列父目錄、當前目錄、預覽窗），邊瀏覽邊看內容。

這類工具的判讀訊號是：需求落在檔案層級的導覽與操作，而非系統監控或畫圖。選型與依賴注意事項見終端機檔案管理器。

資料庫存取

資料庫客戶端負責把 DB 的 schema、表格與查詢結果做成文字介面，讓遠端只有終端機時也能連到資料庫瀏覽資料、跑查詢，取代把連線資訊餵給桌面 GUI（DBeaver、TablePlus）。

它分兩種範式：全螢幕 TUI（harlequin 的 SQL IDE 風、lazysql 的瀏覽器風）把 schema 樹、編輯器、結果表排進面板；增強型 REPL（pgcli / litecli）仍是行式打 SQL、但補上語法高亮與智能補全。

這類工具的判讀訊號是：需求落在連資料庫做事，而非看系統或檔案。選型與連線注意事項見終端機 SQL 客戶端。

訊息佇列存取

訊息佇列客戶端負責把 broker 的 topic、partition、consumer group 與訊息內容做成文字介面，讓遠端只有終端機時也能瀏覽訊息流、消費單一 topic、看消費進度，取代把連線資訊餵給桌面工具（Conduktor、RedisInsight）。它跟資料庫客戶端的關鍵差異是多半綁單一 broker 協議：Kafka 的 TUI 不認 AMQP、一個工具連多種 broker 是少數例外。

它同樣分兩種範式：全螢幕 TUI（Kafka 的 kaskade 看叢集與消費、yozefu 用查詢撈 record）把 topic 清單與訊息排進面板；增強型 REPL（Redis 的 iredis）行式打指令、補上補全與型別感知。

這類工具的判讀訊號是：需求落在連 broker 看訊息與消費狀態，而非連資料庫。選型與實機驗證注意事項見終端機訊息佇列客戶端。

三種遠端情境的選型判讀

工具選型要回到實際的連線條件，而不只是比對功能清單。以下對應三種常見的遠端情境，各自的判讀重點與陷阱不同。

SSH 連到 Linux 伺服器

從本機 SSH 進伺服器，連線通常穩定、頻寬足，瓶頸在於操作要連續、不想每次重連都從頭開始。這個情境的核心配置是「多工器打底 + TUI 監控擺上去」：登入後先 tmux attach（沒有就 tmux new），在固定的 pane 佈局裡跑監控與操作。

這裡的判讀重點是把 session 持久化當成預設習慣，而不是等斷線才後悔。即使連線穩定，把長時間任務（build、資料遷移、tail -f 追 log）放進多工器，就能隨時離開再回來。TUI 監控在這個情境幾乎沒有刷新成本顧慮，btop 開最高刷新率也順，互動功能的排序與殺進程都能放手用。

常見陷阱是把多工器與終端機本身的捲動搞混 — 進了 tmux 後，滑鼠捲動預設是 tmux 在管，要進 copy mode 才能往回看歷史。這是上手期最容易卡住的點，值得一開始就把捲動與複製的快捷鍵設順。

手機或平板遠端

用手機或平板的 SSH app 連線，限制是螢幕小、虛擬鍵盤難敲組合鍵、連線會隨網路切換而中斷。這個情境最該優先的是多工器的持久化能力：手機從 Wi-Fi 切到行動網路、app 切到背景再回來，連線往往已經斷過一次，沒有多工器就等於每次都重來。

工具選型要往「省版面、少快捷鍵」傾斜。zellij 在這裡比 tmux 友善，因為它把操作提示畫在畫面上，不必硬記組合鍵；但 tmux 若已配好觸控友善的快捷鍵也能勝任。TUI 監控要挑版面能縮的 — htop 在窄螢幕下仍可讀，複雜的多欄儀表板則會被擠到看不清。文字圖表在小螢幕反而有優勢，一行 sparkline 不管螢幕多窄都塞得下。

常見陷阱是組合鍵在虛擬鍵盤上難以輸入。多工器的 prefix key（tmux 預設 Ctrl-b）在手機上很難按，值得改綁成單鍵或螢幕上的快捷按鈕；好的 SSH app 通常提供自訂工具列來補這個缺口。

低頻寬或不穩定連線

連線慢或會斷時，限制同時來自頻寬與穩定度，兩者要分開處理。穩定度由多工器解決 — 斷線後 session 還在，這點與情境無關地成立。頻寬則直接決定 TUI 監控能不能用得舒服。

這裡最關鍵的判讀是刷新率與重畫成本的取捨。全螢幕 TUI 每次刷新會重送整片畫面，刷新間隔越短、頻寬負擔越重；把刷新率調快、或工具本身刷新較密時，慢速連線上會看到畫面追不上、按鍵延遲。對策是把刷新間隔調長（多數工具支援，例如 btop 在介面裡可調 update_ms、htop 用 -d 設延遲），用較低的更新頻率換流暢的操作。

判讀的分界是即時性與頻寬的取捨：連線品質好就用全螢幕 TUI 的即時性，品質差就退回低頻率的文字輸出。文字圖表在後者特別划算，因為它是一次性輸出而非持續重畫 — 跑一次 termgraph 印出結果就結束，不佔用持續頻寬；需要持續監控時，「低刷新率的單一數值 + 偶爾印一次 sparkline」往往比全螢幕儀表板更實用。

選型判準與下一步

把這些工具與三種情境收斂成一條判準鏈：先用多工器解決連線斷續（任何遠端情境都先做這步），再依任務選對應工具 — 即時狀態用 TUI 監控、看歷史數值用文字圖表、找檔案用檔案管理器、連資料庫用 SQL 客戶端、連 broker 看訊息用訊息佇列客戶端，最後依連線品質調整刷新率與版面密度。

這條判準對應的具體工具，在本資料夾逐篇展開安裝、設定與遠端調校的細節：

TUI 工具：系統監控（btop / htop / k9s）見 TUI 監控工具；web 請求日誌（GoAccess / ngxtop）見終端機看 nginx 請求；git 線圖（tig / lazygit / gitui）屬版控子題、見遠端 CLI 開發的 git 線圖工具選型
文字圖表：終端機文字圖表（gnuplot dumb terminal、termgraph 與 plotext 的資料接法、sparkline 接 pipeline）
多工器：tmux 基礎（持久化與基本操作）；zellij 的 pane 操作見 Zellij 多終端機操作指南、瀏覽器遠端連線見 Zellij Web Client 外網連線教學
檔案管理：終端機檔案管理器（broot 樹狀、yazi / ranger Miller 欄狀的選型與依賴）
資料庫客戶端：終端機 SQL 客戶端（harlequin IDE 風、lazysql 瀏覽器風、pgcli / litecli 增強 REPL）
訊息佇列客戶端：終端機訊息佇列客戶端（Kafka 的 kaskade / yozefu / ktea、Redis 的 iredis、與綁單一 broker 協議的選型差異）

每篇單工具文章會聚焦一個工具在遠端情境下的實際配置，而不是重述官方手冊。先有這份總覽建立選型框架，再依當下的連線條件挑對應的工具深入。