這個案例的核心責任是說明大規模 multi-tenant Kafka 的營運可視性需求遠超原生 metric。

觀察

Wix 2000+ microservice、每天 66 billion Kafka 訊息、用自建 Greyhound(JVM library + polyglot sidecar)抽象 Kafka;troubleshooting 痛點是「卡住的 consumer 看不到原因、只能寫 DB 修復腳本」。

判讀

TLLSR 框架(Trace / Lookup / Longest-running / Skip-replay / Redistribute)解 single-partition lag、單筆 poison pill、handler 卡住等情境;consumer lag alert > 30 分鐘觸發。揭露原生 lag metric 無法定位「卡在哪」、需要 message-level trace + 操作介面。

對應大綱

Kafka 進階主題:consumer lag / observability / multi-tenant / poison message。

下一步路由

Kafka vendor 頁3.5 紅隊章

引用源