~/blog/dgx-spark-gemma4-complete-guide

DGX Spark · part 14

[Benchmark] Gemma 4 全家桶 on DGX Spark — 哪個版本適合你?

cat --toc

TL;DR

Gemma 4 家族四種版本在三台機器上的完整測試。26B MoE NVFP4 在 DGX Spark 上 52 tok/s 是最佳性價比。31B Dense 只有 7 tok/s — 別浪費時間。MacBook Pro 32GB 最高跑到 26B MoE(47 tok/s)。RTX 5090 是唯一適合跑 31B Dense 的硬體(62 tok/s — 夠快,不用犧牲智商)。

白話版:Google 的 AI 模型有四種大小,你該選哪個?

Gemma 4 是 Google 在 2026 年推出的開源 AI 模型,像一個家族有四個成員:最小的 E2B 能在手機上跑,最大的 31B 需要工作站。問題是:文件沒告訴你每個版本在你的硬體上實際跑多快。

這篇把四個版本在三種硬體上的實測數據放在一張表裡,讓你不用讀六篇文章就能做決定。


終極對照表

DGX Spark (GB10) — 128 GB, 273 GB/s

模型類型Active 參數量化Runtimetok/s模型佔用推薦度
26B-A4BMoE4BNVFP4vLLM5216.5 GB⭐⭐⭐⭐⭐
E4BPLE4BNVFP4vLLM509.8 GB⭐⭐⭐⭐
E4BPLE4BFP8vLLM36~14 GB⭐⭐⭐
E2BPLE2BQ4_K_MOllama537.2 GB⭐⭐⭐
E4BPLE4BBF16vLLM19~18 GB⭐⭐
31B DenseDense31BNVFP4vLLM731 GB

RTX 5090 — 32 GB GDDR7, 1792 GB/s

推薦度以能力排序,不是速度。四個模型在這張卡上都超過可用門檻(~20 tok/s),沒有理由為了速度犧牲智商。

模型量化Runtimetok/sActive 參數推薦度
31B DenseQ4_K_MOllama6231B⭐⭐⭐⭐⭐
26B MoEQ4_K_MOllama1864B⭐⭐⭐⭐⭐
E4BQ4_K_MOllama2024B⭐⭐⭐⭐
E2BQ4_K_MOllama3102B⭐⭐⭐

MacBook Pro M1 Max — 32 GB, 400 GB/s

模型量化Runtimetok/s備註
E2BQ4_K_MOllama81最速
26B MoEQ4_K_MOllama47最大可用
31B DenseQ4_K_MoMLX12.8需要 oMLX
31B DenseQ4_K_MOllama (ctx=2048)9要砍 context
31B DenseQ4_K_MOllama (預設)1.5❌ swap 地獄

怎麼選?

你有 DGX Spark

26B-A4B NVFP4 + vLLM。52 tok/s,模型只佔 16 GB,剩 82 GB 給 KV cache。能力最強 + 速度最快的組合。

詳細部署:26B NVFP4 完整指南

你有 RTX 5090

→ 預設選擇:31B Dense(62 tok/s)。5090 的 1792 GB/s 匯流排讓 Dense 模型在別的硬體上跑不動、在這裡跑得舒服。62 tok/s 遠超可用門檻,沒理由為了速度犧牲智商。

→ 要更快:26B MoE(186 tok/s)— 能力依然很強,速度快 3 倍。適合高吞吐的 agent 工作,延遲比推理深度更重要的場景。

→ 要極速:E2B(310 tok/s)— 能力最弱但最快。只在 edge-like 或批次處理場景才需要。

你有 MacBook Pro 32GB

26B MoE(47 tok/s)是最大可用的版本。31B Dense 不要用 Ollama 預設 — 會掉到 1.5 tok/s。

想試 31B 的話:拯救 31B on 32GB MBP

你在評估買什麼硬體

你的需求推薦硬體理由
極速 + 消費級RTX 50901792 GB/s 頻寬碾壓一切
大模型 + 長 contextDGX Spark128 GB 記憶體,26B MoE 不用量化也裝得下
便攜 + 日常使用MacBook ProE2B/E4B 隨開即跑,26B MoE 也 OK

一張圖:速度 vs 記憶體頻寬

記憶體頻寬是決定 decode 速度的唯一因素(在 batch=1 的情況下):

硬體頻寬26B MoE tok/s倍數
RTX 50901792 GB/s1865.0x
MBP M1 Max400 GB/s471.3x
DGX Spark273 GB/s371.0x

DGX Spark 的容量優勢(128 GB)在大模型上發揮,但純速度不如 RTX 5090 和 MBP(頻寬更低)。

詳細分析:4 台機器、4 個模型、1 個答案


為什麼 Dense 不能選?

31B Dense 在 GB10 上只有 7 tok/s。26B MoE 有 52 tok/s。同樣的硬體,7.5 倍差距。

原因很簡單:Dense 模型每個 token 要讀完全部 31B 參數(62 GB @ BF16)。MoE 每次只激活 4B(8 GB)。在 273 GB/s 的匯流排上,這就是速度的天花板。

如果你有 RTX 5090(1792 GB/s),31B Dense 62 tok/s 是首選 — 夠聰明值得跑、夠快用起來舒服。其他硬體上都應該選 MoE。

詳細數學:31B Dense 的頻寬之牆


量化格式怎麼選

格式適用說明
NVFP4DGX Spark + vLLM最快。E4B 提升 2.6x,26B 提升顯著。但需要 vLLM + --moe-backend marlin
FP8DGX Spark + vLLM中間值。比 BF16 快但不如 NVFP4
Q4_K_M任何 + Ollama通用格式。Mac/RTX/DGX 都能跑。速度合理
BF16足夠大的 VRAM無損品質但最慢。只在 VRAM 充裕時考慮

E4B NVFP4 的完整量化過程:全球首個 E4B NVFP4 量化


這次的收穫

最浪費時間的地方: 沒有統一比較表,每次要查數據都要翻個別文章。這篇就是為了解決這個問題。

可以複用的診斷思路: 選模型的決策樹永遠是:記憶體裝得下嗎 → 頻寬夠嗎 → MoE 有對應大小嗎 → 有 NVFP4 checkpoint 嗎。

一句話結論: 在頻寬受限的硬體上,永遠選 MoE 而不是 Dense。參數總量不重要,active 參數才決定速度。


深入閱讀

每個數據點背後都有一篇完整的踩坑紀錄:

主題文章
26B NVFP4 部署 + 52 tok/s完整指南
31B Dense 為什麼這麼慢頻寬之牆
31B on 32GB MacBook Pro從 1.5 到 12.8 tok/s
4 台機器完整對照記憶體決定一切
E2B vs E4B 三機實測頻寬 = 速度
E4B NVFP4 量化實作從 19 到 50 tok/s
DGX Spark 供電診斷30W / 100W / 過熱完整指南

常見問題

Gemma 4 有幾種版本?各有什麼差別?
四種:E2B(2B active,手機/edge)、E4B(4B active,桌機)、26B MoE(4B active,伺服器)、31B Dense(31B active,最大但最慢)。前三個都是 MoE 或 PLE 架構,每次只激活一小部分參數;31B 是 dense,每個 token 讀全部參數。
DGX Spark 上跑 Gemma 4 哪個版本最快?
26B-A4B MoE NVFP4,52 tok/s(vLLM)。E4B NVFP4 接近,49.9 tok/s。31B Dense 只有 7 tok/s — 不推薦。E2B 用 Ollama 53 tok/s,但能力較弱。
MacBook Pro 32GB 能跑 Gemma 4 嗎?
可以跑到 26B MoE(47 tok/s),但 31B Dense 會因為 KV cache 超過記憶體而掉到 1.5 tok/s(swap)。降 context window 到 2048 可以救到 9 tok/s,用 oMLX 可以到 12.8 tok/s。建議用 E4B 或 26B MoE。
哪種量化格式最好?
在 DGX Spark 上用 vLLM:NVFP4 最快(E4B 從 19 → 50 tok/s,提升 2.6 倍)。在 Mac/消費級 GPU 上用 Ollama:Q4_K_M 是唯一選項。FP8 是中間值(E4B 36 tok/s)但不值得——NVFP4 更快。
2026 年 DGX Spark $4,699 值得嗎?
以 Gemma 4 來說:26B MoE NVFP4 跑 52 tok/s,只佔 128 GB 中的 16 GB — 如果你打算同時跑多個模型或 100B+ 模型,值得。如果只跑一個 32 GB 以內的模型,RTX 5090 跑同一個 26B MoE 有 186 tok/s(快 3.6 倍)。DGX Spark 贏在容量和能跑別的地方裝不下的模型。
跑 Gemma 4 該選 DGX Spark 還是 RTX 5090?
RTX 5090 在每個 Gemma 4 版本都更快(E2B 310 vs 53、26B MoE 186 vs 52 tok/s)。但 RTX 5090 跑不了超過 32 GB 的模型。在 RTX 5090 上,31B Dense 62 tok/s 是最聰明的舒適選擇。在 DGX Spark 上,26B MoE NVFP4 52 tok/s 是最佳平衡,因為 31B Dense 只有 7 tok/s(頻寬瓶頸)。