CoreWeave 在 2025 末收購 Bufstream、揭露 Kafka 生態系兩個同步發生的結構性訊號:串流市場進入 整併週期 末段、以及算力廠商把資料基礎設施視為 剛需 而垂直整合。本篇拆解兩個趨勢的疊加效應、Diskless Kafka 的市場格局、以及對資料工程師職涯的訊號。

事件本身

2025 末 CoreWeave 收購 Bufstream。Bufstream 來自 Buf 公司、Buf 從 Google 開源的 Protobuf 生態系做起、發展出 Schema Registry 跟相容 Kafka 的串流基礎設施。CoreWeave 從 Crypto 轉型成 GPU 算力租借巨頭、2024 上市、市值規模達數百億美元。

這起收購接在 2024 年 WarpStream 被 Confluent 收購、Aiven 跟 AutoMQ 各自鞏固位置之後、屬於串流市場整併週期的一環。

理解 Bufstream 的策略路徑、需要先理解 Schema vs non-Schema(raw bytes)的長期爭論。資料庫領域奠基者之一 Mike Stonebraker(圖靈獎得主)近年先後公開批評 MapReduce 脫離 Schema 是設計缺失、streaming 上沒有 Schema 也屬同類議題。Buf 的整套主張—從 Protobuf 生態系到 Buf Schema Registry 再到 Bufstream—延續 Schema 派立場:Schema 應當是企業內部所有微服務通訊、資料儲存與串流處理的「唯一真實來源」。Bufstream 是 schema-first 哲學在 streaming 層的延伸、不是純粹的技術產品。

主流公開討論集中在「又一筆 M&A」的表面敘事。本篇焦點在這起收購揭露的兩個結構性趨勢、以及對資料工程師職涯的意涵。

串流市場的整併週期

什麼是 Kafka?它是一個資料管路工具、讓不同系統之間的資料即時流動(例如使用者下訂單後、訂單資料即時流給庫存系統、出貨系統、會計系統)。Kafka 是 LinkedIn 開源的、市場上有多家廠商基於 Kafka 賣商業服務。

2024-2025 年這個 Kafka 商業服務市場玩家收斂明顯:

  • 2024 年 WarpStream(一家做 Diskless Kafka 架構的新創)被 Confluent 收購
  • 2025 年 Bufstream(Buf 公司的 Kafka 服務)被 CoreWeave 收購
  • 未來幾年可能還有後續整併

市場進入殘酷的 整併週期(一個市場成熟之後、玩家數量會從多收斂到少、靠併購完成)—新進者沒有獨家差異化資產就很難留下。

Buf 在 streaming(即時資料流動)賽道的位置就反映這個結構。Buf 持有的差異化是 Schema(資料的結構描述、確保系統之間溝通有共識)哲學深度、但在 streaming 層缺三個關鍵資產:

  • 自有銷售通路:Confluent 由 Kafka 原作者創辦、自帶銷售管道跟 Kafka 社群信任;Buf 沒有這個
  • Diskless 架構先發優勢:Diskless 是把 Kafka 從「自己管硬碟」改成「丟到雲端便宜物件儲存(如 AWS S3)」、成本可顯著低於傳統架構;WarpStream 是 Diskless 先驅、AutoMQ 也已起步、Bufstream 後發
  • 自有生態系:Aiven(北歐託管多種開源資料服務的公司)已建立託管平台、客戶在 Aiven 上同時用多個服務;Buf 沒有這層

在這個競爭格局裡、Bufstream 進市場時已處於 紅海(已經被大家搶得頭破血流的成熟市場)後段、繼續競爭的邊際報酬遞減、整併出場是合理選項。這是整併週期的標準劇本—新進者缺差異化、整併或收掉是兩條主要出路。

對想進串流市場的新創來說、這個整併週期的意涵是:在 Confluent 主導 + Diskless 已有先發 + 託管市場 Aiven 卡位之後、第四個進場的差異化空間有限。要進這個市場、得帶顛覆性差異化(例如新一代非 Kafka 的串流架構、或極端垂直化的應用層)、否則整併是合理預期出路。

算力廠商垂直整合資料基礎設施

CoreWeave 出手的動機跟傳統 SaaS 公司買競爭對手不一樣。傳統 SaaS 買競爭對手是為了市佔率(買掉對手讓自己市佔變大)。CoreWeave 這種算力廠商買 streaming 工具的動機完全不同—是為了把「資料管路」這層放進自己控制範圍、不要被第三方廠商卡脖子。

為什麼?因為訓練大型 AI 模型的經濟結構很特殊:

訓練一個 AI 模型需要數以萬計的 GPU 節點同時運作。每個 GPU 一小時租金可能上千美元、數萬個 GPU 同時跑、一小時的營收規模驚人。但這些 GPU 一邊跑訓練、一邊產生海量資料:

  • 遙測資料(每個 GPU 的健康狀況、溫度、效能指標)
  • 模型權重快照(訓練過程的階段性備份、Disaster Recovery 用)
  • 梯度更新紀錄(演算法每一步調整模型的紀錄)
  • 線上評估指標(模型表現好不好的即時數字)

這些資料必須即時傳輸跟儲存。如果資料管路(也就是 streaming)出問題、GPU 就只能等資料、不能算—GPU 閒置一秒就是一秒的營收損失。

舉個算式:

  • 假設 CoreWeave 一個 GPU 一小時租金 5 美元、一個訓練集群有 1 萬個 GPU
  • 集群每小時營收 = 5 × 10,000 = 5 萬美元
  • 如果 streaming 故障讓 GPU 閒置 1 小時、損失 5 萬美元
  • 如果第三方 streaming 廠商的 SLA(服務等級協議、保證最低可用性)寫的是「99.9% 可用」、意思是一年最多可以閒置 8.76 小時、損失上限 43 萬美元

對按小時計費的算力服務商來說、streaming 不是「可選的工具」、是「直接決定營收的命脈」(剛需、客戶非要不可的需求)。CoreWeave 收 Bufstream 的本質、是把 streaming 從「外部第三方依賴」轉為「內部自己控制的基礎設施」、避免外部 SLA 成為訓練流程的瓶頸。

這個動機跟 CoreWeave 過去收購軌跡一致—Weights & Biases(AI 訓練的觀測平台)、Conductor AI(AI 工作流編排)、Bufstream(streaming)—都是 vertical AI stack(從硬體到應用的整套垂直 AI 平台)的拼圖、目標是對抗 AWS Bedrock、Azure ML 這些 Hyperscaler(超大規模雲端廠商)的 AI 平台堆疊。

當算力廠商成為主要併購買方、市場整併方向就會偏向「服務 AI workload(AI 工作負載)的基礎設施」、不是傳統 IT 基礎設施。這個訊號對未來幾年資料基礎設施的併購輪廓很有參考價值—下一輪會被買的目標、可能是 observability(系統觀測工具)、storage(儲存系統)、metadata 管理工具等、同樣對 AI workload 是剛需的工具。

Diskless Kafka 的未來與市場格局

這起收購最大的市場討論點是 Diskless Kafka 的未來。

傳統 Kafka 設計:每台 Kafka 伺服器都有自己的硬碟、資料寫進來先存在本地硬碟、再複製到其他伺服器當備份。可靠但成本高—要買一堆 Kafka 專用的高效能硬碟伺服器、而且還要存好幾份。

Diskless 架構:Kafka 伺服器不存本地硬碟了、直接把資料丟到便宜的雲端物件儲存(像 AWS S3)。成本可顯著低於傳統架構、但效能、延遲是技術挑戰。

既然 Kafka 依然是資料工程中無可替代的角色、而在 紅海 競爭下「成本」已經成為最大亮點、市場上能選的大型方案收斂到剩下:

玩家定位訊號
ConfluentKafka 官方商業版、原作者公司業界龍頭、整併買方
WarpStreamDiskless 先驅、2024 被 Confluent 收購已併入 Confluent
Aiven北歐託管多種開源資料服務(含 Kafka)走託管路線、不爭架構創新
AutoMQ主打 Diskless 架構、開源策略Diskless 架構推動者
BufstreamSchema-first 串流、2025 被 CoreWeave 收購已併入 CoreWeave、退出公開市場

至於 Apache Kafka 社群版 Diskless 架構、預期仍需數個版本週期才能達到生產就緒—開源社群協調速度比商業公司慢、但技術方向跟商業版的成本壓力一致。

兩個趨勢的疊加效應

「整併週期」跟「算力廠商垂直整合」兩個趨勢同時發生並互相強化。整併週期的買方需要明確的「為什麼買」理由、算力廠商剛好提供了這個理由:垂直整合資料基礎設施、避免外部 SLA 拖累自己的單位營收。

兩個趨勢疊加產生的次生效應:

  • 整併市場的買方結構從「同業 + PE」變成「同業 + PE + 算力廠商」
  • 被併購標的的估值判讀要納入「對算力廠商的戰略價值」、不只「同業 ARR multiple」
  • 留下的獨立玩家面對「同業 + 算力廠商雙重收購壓力」、自主路線越來越難維持

長期影響

長期看:

整併週期:串流市場玩家會繼續往少數玩家收斂、新進者很難找空間、除非有顛覆性差異化(例如新一代非 Kafka 串流架構)。

算力廠商垂直整合:CoreWeave 不會是最後一個—未來會有更多算力廠商收購資料基礎設施(streaming、observability、storage)。原因是按小時計費的 GPU 服務不能受制於第三方—任何資料管路延遲都是直接的營收損失。

對資料工程師:資料工程的戰略位置從「服務內部 BI / 報表」升級為「直接影響 GPU 利用率與訓練吞吐量」。過去資料工程屬於後端營運層、影響範圍限於內部報表與分析;現在因為 AI 訓練對資料流動是剛需、資料管路效能直接決定 GPU 利用率、進而決定算力服務商的單位營收。

對資料工程師職涯的訊號

過去資料工程屬於後端營運層、影響範圍限於內部報表與分析。現在因為 AI 訓練對資料流動是剛需、資料工程的影響範圍延伸到算力服務商的單位營收與訓練吞吐量。CoreWeave 願意以併購規模投資串流基礎設施、反映該層對算力商業模式是不可外包的依賴項。

職涯方向訊號:

  • 往「服務 AI workload 的資料基礎設施」走:GPU 遙測、模型快照、梯度紀錄、評估指標的 streaming
  • 累積跨服務的整合能力:訊息佇列、Object Storage、Observability 的銜接
  • 理解上游算力商業化的 GTM:知道為什麼算力廠商要垂直整合、就能判斷自己該往哪走

預警訊號:何時要重新評估這個分析

關鍵假設要監控:

假設一:AI 訓練對 streaming IO 的剛需會持續。 監控訊號:訓練模式變革(例如純檔案系統訓練、不需要 streaming),或新硬體大幅降低 IO 瓶頸(例如 PCIe 6.0、CXL)。如果剛需減弱、算力廠商不再有垂直整合動機。

假設二:串流市場真的進到整併末段。 監控訊號:新一輪融資金額、新公司獲投情況。如果有新一波創新出現(例如 Iceberg-style 開放標準改變整個市場結構)、整併可能逆轉成新一輪百家爭鳴。

假設三:開源 Apache Kafka Diskless 會醞釀成功。 監控訊號:Apache Kafka 社群版 KIP 提案的合併進度。如果開源版本成熟、商業版的價值會被擠壓。

下面任一具體訊號出現、要重新評估這套分析:

訊號觸發的修正方向
主要算力廠商一年內裁掉資料基礎設施團隊垂直整合動機消失、判讀過時
新一代非 Kafka 串流架構大規模採用整併判讀過時、市場可能重新洗牌
開源 Apache Kafka Diskless 主線版本釋出商業版價值受壓、現有玩家估值要重估
訓練模式變革讓 streaming 不再剛需算力廠商與資料基礎設施鬆綁、垂直整合趨勢逆轉

判讀框架

判讀對象看什麼主要訊號
串流市場玩家是大廠還是新進者、有無 Fat Skill自有銷售通路、自有生態系、價格戰能力
賽道生命週期紅海 進到哪一段整併新聞密集度、新一輪融資金額、玩家數量收斂速度
算力廠商買方是否自有資料基礎設施是否買下 streaming / storage / observability 工具
資料工程師職涯公司資料流是否服務 AI 訓練或推論是否處理 GPU 遙測、模型快照、梯度紀錄等 AI workload

這個框架的可遷移性:當任何按用量計費的基礎服務商(算力、頻寬、儲存)開始垂直整合相鄰基礎設施時、同樣可以套這個結構問—「整併到哪一段了」「為什麼這個 buyer 出現」「對下游從業者意味著什麼」。

延伸閱讀