<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Multi-Gpu on Tarragon</title><link>https://tarrragon.github.io/blog/tags/multi-gpu/</link><description>Recent content in Multi-Gpu on Tarragon</description><generator>Hugo -- gohugo.io</generator><language>zh-TW</language><copyright>Tarragon (CC BY 4.0)</copyright><lastBuildDate>Tue, 12 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://tarrragon.github.io/blog/tags/multi-gpu/index.xml" rel="self" type="application/rss+xml"/><item><title>NVLink</title><link>https://tarrragon.github.io/blog/llm/knowledge-cards/nvlink/</link><pubDate>Tue, 12 May 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/llm/knowledge-cards/nvlink/</guid><description>&lt;p>NVLink 的核心概念是「NVIDIA 自家的 GPU 之間高速互連介面、頻寬高於 &lt;a href="https://tarrragon.github.io/blog/llm/knowledge-cards/pcie/" data-link-title="PCIe" data-link-desc="PC 上連接 GPU 跟主機板的高速序列匯流排、影響模型載入速度跟 MoE 卸載時的推論吞吐">PCIe&lt;/a>、適合多卡 tensor parallel 場景」。資料中心級 GPU（如 A100 / H100 / H200）普遍支援、消費級 RTX 30 系列部分支援（如 3090）、RTX 40 / 50 系列普遍移除 NVLink、消費級多卡通常只能走 PCIe。&lt;/p>
&lt;h2 id="概念位置">概念位置&lt;/h2>
&lt;p>NVLink 在多卡推論場景的角色：&lt;/p>
&lt;ol>
&lt;li>&lt;strong>tensor parallel&lt;/strong>：把一個 transformer 層的 weight 切到多張卡、每 token 計算時需要卡間同步、卡間頻寬影響直接。&lt;/li>
&lt;li>&lt;strong>pipeline parallel&lt;/strong>：把不同層分到不同卡、卡間需要傳 activation、頻寬要求中等。&lt;/li>
&lt;li>&lt;strong>資料分發&lt;/strong>：把不同 request 分到不同卡（data parallel）、卡間流量低、PCIe 也夠。&lt;/li>
&lt;/ol>
&lt;p>頻寬對照（廠商標稱、依世代變化）：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>介面&lt;/th>
 &lt;th>卡間頻寬（標稱）&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>PCIe 4.0 x16&lt;/td>
 &lt;td>約 32 GB/s 單向&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>PCIe 5.0 x16&lt;/td>
 &lt;td>約 64 GB/s 單向&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>NVLink（H100）&lt;/td>
 &lt;td>約 900 GB/s 雙向、依世代&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>NVLink（A100）&lt;/td>
 &lt;td>約 600 GB/s 雙向&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>NVLink 比 PCIe 高一個量級、是資料中心多卡推論的關鍵；消費級 RTX 場景多卡通常只能走 PCIe、縮放效益相對受限。&lt;/p>
&lt;blockquote>
&lt;p>&lt;strong>事實查核註&lt;/strong>：NVLink 各世代的頻寬數字依 NVIDIA 官方規格、不同 GPU 跟世代有差異；NVLink 在哪些消費級 / 工作站 / 資料中心 GPU 可用、依時段跟廠商策略變化、引用前以 &lt;a href="https://www.nvidia.com/">NVIDIA 官方產品頁&lt;/a> 跟對應 GPU 的 datasheet 為準。&lt;/p>&lt;/blockquote>
&lt;h2 id="設計責任">設計責任&lt;/h2>
&lt;p>理解 NVLink 後可以解釋兩個現象：為什麼資料中心多卡 LLM 推論能線性 scale（NVLink 頻寬足以做 tensor parallel）、為什麼消費級雙卡 RTX 推論縮放比通常低於線性（沒 NVLink、走 PCIe x4 / x8、卡間頻寬限制）。&lt;/p>
&lt;p>選消費級 GPU 跑本地 LLM 時、NVLink 不是常見選項；多卡升級的判讀應該基於「能否容忍縮放比低於線性」、而不是預期 NVLink 等級的卡間頻寬。詳見 &lt;a href="https://tarrragon.github.io/blog/llm/05-discrete-gpu/gpu-vendor-differences/" data-link-title="5.6 GPU 廠商差異" data-link-desc="NVIDIA CUDA、AMD ROCm、Intel ARC 在 llama.cpp 生態的相對位置、選卡時的判讀軸">5.6 GPU 廠商差異&lt;/a>。&lt;/p></description><content:encoded><![CDATA[<p>NVLink 的核心概念是「NVIDIA 自家的 GPU 之間高速互連介面、頻寬高於 <a href="/blog/llm/knowledge-cards/pcie/" data-link-title="PCIe" data-link-desc="PC 上連接 GPU 跟主機板的高速序列匯流排、影響模型載入速度跟 MoE 卸載時的推論吞吐">PCIe</a>、適合多卡 tensor parallel 場景」。資料中心級 GPU（如 A100 / H100 / H200）普遍支援、消費級 RTX 30 系列部分支援（如 3090）、RTX 40 / 50 系列普遍移除 NVLink、消費級多卡通常只能走 PCIe。</p>
<h2 id="概念位置">概念位置</h2>
<p>NVLink 在多卡推論場景的角色：</p>
<ol>
<li><strong>tensor parallel</strong>：把一個 transformer 層的 weight 切到多張卡、每 token 計算時需要卡間同步、卡間頻寬影響直接。</li>
<li><strong>pipeline parallel</strong>：把不同層分到不同卡、卡間需要傳 activation、頻寬要求中等。</li>
<li><strong>資料分發</strong>：把不同 request 分到不同卡（data parallel）、卡間流量低、PCIe 也夠。</li>
</ol>
<p>頻寬對照（廠商標稱、依世代變化）：</p>
<table>
  <thead>
      <tr>
          <th>介面</th>
          <th>卡間頻寬（標稱）</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>PCIe 4.0 x16</td>
          <td>約 32 GB/s 單向</td>
      </tr>
      <tr>
          <td>PCIe 5.0 x16</td>
          <td>約 64 GB/s 單向</td>
      </tr>
      <tr>
          <td>NVLink（H100）</td>
          <td>約 900 GB/s 雙向、依世代</td>
      </tr>
      <tr>
          <td>NVLink（A100）</td>
          <td>約 600 GB/s 雙向</td>
      </tr>
  </tbody>
</table>
<p>NVLink 比 PCIe 高一個量級、是資料中心多卡推論的關鍵；消費級 RTX 場景多卡通常只能走 PCIe、縮放效益相對受限。</p>
<blockquote>
<p><strong>事實查核註</strong>：NVLink 各世代的頻寬數字依 NVIDIA 官方規格、不同 GPU 跟世代有差異；NVLink 在哪些消費級 / 工作站 / 資料中心 GPU 可用、依時段跟廠商策略變化、引用前以 <a href="https://www.nvidia.com/">NVIDIA 官方產品頁</a> 跟對應 GPU 的 datasheet 為準。</p></blockquote>
<h2 id="設計責任">設計責任</h2>
<p>理解 NVLink 後可以解釋兩個現象：為什麼資料中心多卡 LLM 推論能線性 scale（NVLink 頻寬足以做 tensor parallel）、為什麼消費級雙卡 RTX 推論縮放比通常低於線性（沒 NVLink、走 PCIe x4 / x8、卡間頻寬限制）。</p>
<p>選消費級 GPU 跑本地 LLM 時、NVLink 不是常見選項；多卡升級的判讀應該基於「能否容忍縮放比低於線性」、而不是預期 NVLink 等級的卡間頻寬。詳見 <a href="/blog/llm/05-discrete-gpu/gpu-vendor-differences/" data-link-title="5.6 GPU 廠商差異" data-link-desc="NVIDIA CUDA、AMD ROCm、Intel ARC 在 llama.cpp 生態的相對位置、選卡時的判讀軸">5.6 GPU 廠商差異</a>。</p>
]]></content:encoded></item></channel></rss>