Gemma 4 有幾種版本？各有什麼差別？

四種：E2B（2.3B effective，手機/edge）、E4B（4.5B effective，桌機）、26B-A4B（3.8B active，伺服器）、31B（30.7B 參數，最大但最慢）。E2B 和 E4B 其實是 dense 模型配 PLE（Per-Layer Embedding）減少有效計算量；只有 26B-A4B 是真正的 MoE（128 個專家，每次選 8 個）；31B 是純 dense，每個 token 讀全部參數。

DGX Spark 上跑 Gemma 4 哪個版本最快？

26B-A4B MoE NVFP4，52 tok/s（vLLM）。E4B NVFP4 接近，49.9 tok/s。31B Dense 只有 7 tok/s — 不推薦。E2B 用 Ollama 53 tok/s，但能力較弱。

MacBook Pro 32GB 能跑 Gemma 4 嗎？

可以跑到 26B MoE（47 tok/s），但 31B Dense 會因為 KV cache 超過記憶體而掉到 1.5 tok/s（swap）。降 context window 到 2048 可以救到 9 tok/s，用 oMLX 可以到 12.8 tok/s。建議用 E4B 或 26B MoE。

哪種量化格式最好？

在 DGX Spark 上用 vLLM：NVFP4 最快（E4B 從 19 → 50 tok/s，提升 2.6 倍）。在 Mac/消費級 GPU 上用 Ollama：Q4_K_M 是唯一選項。FP8 是中間值（E4B 36 tok/s）但不值得——NVFP4 更快。

2026 年 DGX Spark $4,699 值得嗎？

以 Gemma 4 來說：26B MoE NVFP4 跑 52 tok/s，只佔 128 GB 中的 16 GB — 如果你打算同時跑多個模型或 100B+ 模型，值得。如果只跑一個 32 GB 以內的模型，RTX 5090 跑同一個 26B MoE 有 186 tok/s（快 3.6 倍）。DGX Spark 贏在容量和能跑別的地方裝不下的模型。

跑 Gemma 4 該選 DGX Spark 還是 RTX 5090？

RTX 5090 在每個 Gemma 4 版本都更快（E2B 310 vs 53、26B MoE 186 vs 52 tok/s）。但 RTX 5090 跑不了超過 32 GB 的模型。在 RTX 5090 上，31B Dense 62 tok/s 是最聰明的舒適選擇。在 DGX Spark 上，26B MoE NVFP4 52 tok/s 是最佳平衡，因為 31B Dense 只有 7 tok/s（頻寬瓶頸）。

[Benchmark] Gemma 4 全家桶 on DGX Spark — 哪個版本適合你？

TL;DR

Gemma 4 家族四種版本在三台機器上的完整測試。26B MoE NVFP4 在 DGX Spark 上 52 tok/s 是最佳性價比。31B Dense 只有 7 tok/s — 別浪費時間。MacBook Pro 32GB 最高跑到 26B MoE（47 tok/s）。RTX 5090 是唯一適合跑 31B Dense 的硬體（62 tok/s — 夠快，不用犧牲智商）。

白話版：Google 的 AI 模型有四種大小，你該選哪個？

Gemma 4 是 Google 在 2026 年推出的開源 AI 模型，像一個家族有四個成員：最小的 E2B 能在手機上跑，最大的 31B 需要工作站。問題是：文件沒告訴你每個版本在你的硬體上實際跑多快。

這篇把四個版本在三種硬體上的實測資料放在一張表裡，讓你不用讀六篇文章就能做決定。

終極對照表

DGX Spark (GB10) — 128 GB, 273 GB/s

模型	類型	Active 參數	量化	Runtime	tok/s	模型佔用	推薦度
26B-A4B	MoE	4B	NVFP4	vLLM	52	16.5 GB	⭐⭐⭐⭐⭐
E4B	PLE	4B	NVFP4	vLLM	50	9.8 GB	⭐⭐⭐⭐
E4B	PLE	4B	FP8	vLLM	36	~14 GB	⭐⭐⭐
E2B	PLE	2B	Q4_K_M	Ollama	53	7.2 GB	⭐⭐⭐
E4B	PLE	4B	BF16	vLLM	19	~18 GB	⭐⭐
31B Dense	Dense	31B	NVFP4	vLLM	7	31 GB	❌

RTX 5090 — 32 GB GDDR7, 1792 GB/s

推薦度以能力排序，不是速度。四個模型在這張卡上都超過可用門檻（~20 tok/s），沒有理由為了速度犧牲智商。

模型	量化	Runtime	tok/s	Active 參數	推薦度
31B Dense	Q4_K_M	Ollama	62	31B	⭐⭐⭐⭐⭐
26B MoE	Q4_K_M	Ollama	186	4B	⭐⭐⭐⭐⭐
E4B	Q4_K_M	Ollama	202	4B	⭐⭐⭐⭐
E2B	Q4_K_M	Ollama	310	2B	⭐⭐⭐

MacBook Pro M1 Max — 32 GB, 400 GB/s

模型	量化	Runtime	tok/s	備註
E2B	Q4_K_M	Ollama	81	最速
26B MoE	Q4_K_M	Ollama	47	最大可用
31B Dense	Q4_K_M	oMLX	12.8	需要 oMLX
31B Dense	Q4_K_M	Ollama (ctx=2048)	9	要砍 context
31B Dense	Q4_K_M	Ollama (預設)	1.5	❌ swap 地獄

怎麼選？

你有 DGX Spark

→ 26B-A4B NVFP4 + vLLM。52 tok/s，模型只佔 16 GB，剩 82 GB 給 KV cache。能力最強 + 速度最快的組合。

詳細部署：26B NVFP4 完整指南

你有 RTX 5090

→ 預設選擇：31B Dense（62 tok/s）。5090 的 1792 GB/s 匯流排讓 Dense 模型在別的硬體上跑不動、在這裡跑得舒服。62 tok/s 遠超可用門檻，沒理由為了速度犧牲智商。

→ 要更快：26B MoE（186 tok/s）— 能力依然很強，速度快 3 倍。適合高吞吐的 agent 工作，延遲比推理深度更重要的場景。

→ 要極速：E2B（310 tok/s）— 能力最弱但最快。只在 edge-like 或批次處理場景才需要。

你有 MacBook Pro 32GB

→ 26B MoE（47 tok/s）是最大可用的版本。31B Dense 不要用 Ollama 預設 — 會掉到 1.5 tok/s。

想試 31B 的話：拯救 31B on 32GB MBP

你在評估買什麼硬體

你的需求	推薦硬體	理由
極速 + 消費級	RTX 5090	1792 GB/s 頻寬碾壓一切
大模型 + 長 context	DGX Spark	128 GB 記憶體，26B MoE 不用量化也裝得下
便攜 + 日常使用	MacBook Pro	E2B/E4B 隨開即跑，26B MoE 也 OK

一張圖：速度 vs 記憶體頻寬

記憶體頻寬是決定 decode 速度的唯一因素（在 batch=1 的情況下）：

硬體	頻寬	26B MoE tok/s	倍數
RTX 5090	1792 GB/s	186	5.0x
MBP M1 Max	400 GB/s	47	1.3x
DGX Spark	273 GB/s	37	1.0x

DGX Spark 的容量優勢（128 GB）在大模型上發揮，但純速度不如 RTX 5090 和 MBP（頻寬更低）。

詳細分析：4 台機器、4 個模型、1 個答案

為什麼 Dense 不能選？

31B Dense 在 GB10 上只有 7 tok/s。26B MoE 有 52 tok/s。同樣的硬體，7.5 倍差距。

原因很簡單：Dense 模型每個 token 要讀完全部 31B 參數（62 GB @ BF16）。MoE 每次只激活 4B（8 GB）。在 273 GB/s 的匯流排上，這就是速度的天花板。

如果你有 RTX 5090（1792 GB/s），31B Dense 62 tok/s 是首選 — 夠聰明值得跑、夠快用起來舒服。其他硬體上都應該選 MoE。

詳細數學：31B Dense 的頻寬之牆

量化格式怎麼選

格式	適用	說明
NVFP4	DGX Spark + vLLM	最快。E4B 提升 2.6x，26B 提升顯著。但需要 vLLM + `--moe-backend marlin`
FP8	DGX Spark + vLLM	中間值。比 BF16 快但不如 NVFP4
Q4_K_M	任何 + Ollama	通用格式。Mac/RTX/DGX 都能跑。速度合理
BF16	足夠大的 VRAM	無損品質但最慢。只在 VRAM 充裕時考慮

E4B NVFP4 的完整量化過程：全球首個 E4B NVFP4 量化

這次的收穫

最浪費時間的地方： 沒有統一比較表，每次要查資料都要翻個別文章。這篇就是為了解決這個問題。

可以複用的診斷思路： 選模型的決策樹永遠是：記憶體裝得下嗎 → 頻寬夠嗎 → MoE 有對應大小嗎 → 有 NVFP4 checkpoint 嗎。

一句話結論： 在頻寬受限的硬體上，永遠選 sparse 架構（MoE 或 E2B/E4B 這種 PLE dense），不要選全 dense 模型。參數總量不重要——每個 token 實際讀到的參數才決定速度。

深入閱讀

每個資料點背後都有一篇完整的踩坑紀錄：

主題	文章
26B NVFP4 部署 + 52 tok/s	完整指南
31B Dense 為什麼這麼慢	頻寬之牆
31B on 32GB MacBook Pro	從 1.5 到 12.8 tok/s
4 台機器完整對照	記憶體決定一切
E2B vs E4B 三機實測	頻寬 = 速度
E4B NVFP4 量化實作	從 19 到 50 tok/s
DGX Spark 供電診斷	30W / 100W / 過熱完整指南