這個案例的核心責任是說明 schema 治理是 data pipeline 的核心責任、不是 add-on。

觀察

Yelp data pipeline 一天數十億訊息、跨數百個 service、數千 schema、用自建 Schematizer 強制所有 message 走 Avro schema、訊息只帶 schema ID。

判讀

Schematizer 不只是 schema store、還做 schema evolution compatibility 與 topic 自動分配(不相容 schema 強制新 topic)。揭露 producer / consumer schema 治理要拉到平台層、靠工具強制、不靠人約定。

對應大綱

Kafka 進階主題:Schema Registry / Schema evolution。

下一步路由

Kafka vendor 頁3.7 event contract / replay boundary

引用源