Dense 和 MoE 模型差在哪裡？

Dense 模型每次回答都用到所有參數，像全公司所有人一起做每件事。MoE 只啟用一小部分專家，像 260 人的公司每次只派 10 個人出來。MoE 模型更大但跑起來更快。

什麼是 PLE 架構？

Per-Layer Embedding，每一層都有自己的詞彙查詢表。像一棟大樓每層樓都有自己的接待櫃台，不用跑到一樓問。Google 的 Gemma 4 E2B 和 E4B 用的就是這個架構。

SSM 模型有什麼優勢？

SSM（State Space Model）不需要回頭看完整對話紀錄，而是維護一份持續更新的摘要。對話越長，SSM 相對傳統模型越快，因為它不會隨著對話長度變慢。

怎麼從模型名稱看出它是什麼架構？

看名字裡有沒有數字線索：'30B-A3B' 表示 MoE（總共 30B 但只用 3B），沒有 A 的就是 Dense。E2B/E4B 是 PLE。名字帶 Mamba 或 DeltaNet 的是 SSM。

[LLM 101] Dense、MoE、PLE、SSM — 四種 AI 模型架構，一次搞懂

TL;DR

AI 模型有四種主流架構：Dense（全員出動，穩但慢）、MoE（專家輪班，大但快）、PLE（每層自帶字典，查詢效率高）、SSM（速讀高手，長對話不掉速）。選模型前先看架構，比光看參數量有用。

白話版：為什麼 AI 模型有不同的「體質」？

你可能注意到，AI 模型的名字越來越奇怪。Gemma 4 E2B、Qwen3-Coder 235B-A22B、Mamba — 這些字母和數字到底在講什麼？

其實它們在描述模型的「體質」— 也就是架構。就像人有不同的體型（短跑選手 vs 馬拉松選手），AI 模型也有不同的設計方式，各自擅長不同的事。

這篇文章用最白話的方式，解釋目前最常見的四種 AI 模型架構。看完之後你再看到模型的規格表，就不會只是一堆看不懂的數字了。

前言

買手機的時候，你不會只看「幾 GB RAM」就決定要不要買。你還會想知道：這個處理器的架構是什麼？省電還是效能取向？跑遊戲快不快？

選 AI 模型也一樣。「120B 參數」聽起來很厲害，但如果它是 Dense 架構，你的筆電可能跑不動。反過來，一個「30B 參數」的 MoE 模型可能又輕又快。

架構決定了模型的個性。

Dense — 全員出動

Dense（密集）是最直覺的架構，基於標準的 Transformer 設計。模型裡的每一個參數，在每一次回答時都會被用到。

像什麼？

像一間 100 人的公司，不管客戶問什麼問題，100 個人全部一起動起來處理。即使只是問「今天天氣如何」，100 個人都要過一遍。

優點

品質穩定。 所有參數都參與計算，不會漏掉什麼
架構簡單。 歷史最久、最成熟，所有工具都支援
容易預測。 模型多大就跑多慢，沒有意外

缺點

跑起來很慢。 100 個人全動就是 100 個人的工作量，沒有偷懶的空間
吃記憶體。 所有參數都要載進記憶體，31B 參數的模型就是要佔 31B 的空間

代表模型

Llama 3 8B / 70B — Meta 的經典模型
Gemma 4 31B — Google 的 Dense 大模型，在我的 DGX Spark 上只跑到 7 tok/s（每秒 7 個字），因為太大了

規格表怎麼看

名字裡只有一個數字的，通常就是 Dense：Llama-3-8B、Gemma-4-31B。沒有「A 幾 B」的後綴。

MoE — 專家輪班

MoE（Mixture of Experts，混合專家）是目前最流行的「作弊」方式 — 模型很大，但每次只用一小部分。

像什麼？

像一間有 260 個員工的大公司，但每次只派 10 個最相關的專家出來處理。問財務問題？派財務組。問法律問題？派法律組。其他 250 個人繼續待命。

這代表公司有 260 人的知識量，但每次的工作量只有 10 個人。

優點

又大又快。 知識量跟 260 人的公司一樣多，但跑起來只有 10 人的負擔
省記憶體（相對而言）。 雖然模型檔案很大，但每次計算只啟用一小部分，對顯示卡的計算壓力小
適合「什麼都要懂」的通用模型。 不同的專家可以擅長不同領域

缺點

模型檔案還是很大。 260 個人都要載進記憶體裡待命，即使只有 10 個在工作。所以下載和儲存的需求不會比較少
路由開銷。 每次都要決定「該派誰出來」，這個決策本身也需要計算
專家品質不均。 某些領域可能剛好沒有對應的專家，品質就會不穩定

代表模型

Qwen3-Coder 235B-A22B — 總共 235B 參數，每次只啟用 22B。寫程式很猛
DeepSeek-V3 685B-A37B — 超大模型，6850 億參數但只用 370 億
Gemma 4 26B-A4B — Google 的小型 MoE，26B 總量只用 4B，在 DGX Spark 上跑到 52 tok/s

規格表怎麼看

名字裡有兩個數字、用 -A 連線的就是 MoE：235B-A22B = 總量 235B、啟用 22B。看 A 後面的數字才知道實際跑起來多快。

PLE — 每層自帶字典

PLE（Per-Layer Embedding，逐層嵌入）是比較新的架構，目前主要是 Google 的 Gemma 4 在用。

像什麼？

想像一棟 42 層的辦公大樓。在傳統架構裡，不管你在幾樓辦事，查字典都要跑到一樓的大廳去。一樓放了一本超大的字典（262,144 個詞），所有樓層共用。

PLE 的做法是：每一層樓都有自己的字典。42 層就有 42 本。你在 17 樓辦事就用 17 樓的字典，不用跑下去。

優點

查詢效率高。 不用跑到一樓，每層就地解決
實際計算量小。 那 42 本字典只是查表用的，真正做數學運算的參數其實很少。Gemma 4 E4B 名義上是 8B 參數，但實際運算路徑只有大約 4B

缺點

模型檔案比「看起來」大。 42 本字典佔的空間不少。E4B 的字典就佔了 5.4 GB，將近模型總大小的三分之一
架構比較新。 不是所有工具都完美支援，偶爾會遇到相容性問題
目前只有 Gemma 4 在用。 生態系比 Dense 和 MoE 小很多

代表模型

Gemma 4 E2B — 2B 計算參數，7.2 GB。在 M1 Max 上跑到 81 tok/s
Gemma 4 E4B — 4B 計算參數，9.6 GB

規格表怎麼看

名字裡有 E 前綴的：E2B = 2B 計算參數，E4B = 4B。E 代表 Embedding-heavy，跟 Dense 的 B 不能直接比。

SSM / Hybrid — 速讀高手

SSM（State Space Model，狀態空間模型）是最新也最不一樣的架構。傳統模型用的是 Transformer（注意力機制），SSM 用完全不同的方式處理文字。

像什麼？

傳統的 Transformer 像一個人讀書時每次都要翻回去重讀前面的內容。你問它「第三章講了什麼」，它真的會翻回第三章看一遍。對話越長，要翻的頁數越多，速度越慢。

SSM 像一個速讀高手 — 它讀過的內容會即時壓縮成一份「摘要筆記」。你問它第三章的事，它看筆記就好，不用翻回去。不管對話多長，查筆記的時間都一樣。

優點

長對話不掉速。 這是 SSM 最大的賣點。傳統模型對話越長越慢，SSM 幾乎不受影響
記憶體用量穩定。 不管對話多長，SSM 的「筆記」大小是固定的，不會越來越佔記憶體

缺點

短對話沒有優勢。 當對話很短的時候，「翻回去看」和「查筆記」速度差不多，SSM 的優勢展現不出來
可能漏細節。 把整本書壓縮成筆記，難免會遺漏一些細節。對於需要精確回憶的任務，SSM 可能不如 Transformer
技術很新。 工具支援和生態系都還在發展中

現實中的 Hybrid（混合架構）

純 SSM 有些場景會漏細節，所以目前更常見的做法是「混合」— 一部分用 SSM 速讀，一部分用 Transformer 精讀。像是一個人大部分時候看筆記，遇到關鍵段落才翻回原文確認。

代表模型

Qwen3.5-35B-A3B — SSM + MoE 混合。在 DGX Spark 上，短對話 56 tok/s、長對話（8K token）也是 56 tok/s — 幾乎不衰減
Qwen3-Coder-Next 79.7B — SSM + MoE 混合，512 個專家只用 10 個
Mamba 系列 — 最早的純 SSM 模型，學術界的先驅

規格表怎麼看

名字帶 Mamba、DeltaNet、或是 SSM 的就是。混合架構的可能不會特別標示，要看模型卡片裡的架構描述。一個快速判斷法：如果規格表上寫了「短 context 和長 context 速度相近」，大概率有 SSM 成分。

四種架構一張表

	Dense	MoE	PLE	SSM / Hybrid
比喻	全員出動	專家輪班	每層自帶字典	速讀高手
速度	慢（參數多就慢）	快（只用一部分）	中（查表快但檔案大）	快（長對話更明顯）
模型大小	大 = 慢	大但跑起來輕	比看起來大	中等
長對話	越長越慢	越長越慢	越長越慢	幾乎不掉速
成熟度	★★★★★	★★★★☆	★★☆☆☆	★★★☆☆
代表	Llama 3	DeepSeek-V3	Gemma 4 E2B	Qwen3.5

實戰：怎麼看模型名字選架構

下次你在 Ollama 或 HuggingFace 上看到一個模型，試試這個判斷流程：

名字裡有 -A + 數字嗎？（例如 235B-A22B） → MoE。看 A 後面的數字判斷實際速度。

名字有 E 前綴 + B？（例如 E2B、E4B） → PLE。目前只有 Gemma 4 家族。

名字帶 Mamba、DeltaNet、SSM？ → SSM / Hybrid。長對話場景的好選擇。

以上都不是？就一個數字 + B？（例如 8B、70B） → Dense。最傳統，最穩定，但也最吃資源。

學到了什麼

花最多時間的地方

決定要不要講 Transformer 的注意力機制。最後決定不講 — 對於「選模型」這個目的來說，知道「傳統模型對話越長越慢」就夠了，不需要解釋為什麼。

可以帶走的思考框架

看規格表的時候，不要只看「幾 B 參數」。看三件事：

架構 — Dense / MoE / PLE / SSM？
啟用參數（MoE 的 A 後面的數字）— 這才是實際跑起來的負擔
你的場景 — 短對話？長對話？多人同時用？

放諸四海皆準的規律

沒有最好的架構，只有最適合你場景的架構。就像沒有人會說「短跑選手比馬拉松選手厲害」— 要看你在跑什麼。

接下來

上一篇：Ollama vs vLLM — 在自己電腦跑 AI 的兩條路
想看 Dense 有多慢？→ Gemma 4 31B Dense 在 DGX Spark 上只跑到 7 tok/s
想看 MoE 有多快？→ Gemma 4 26B-A4B NVFP4 跑到 52 tok/s
想看 PLE 的 E2B vs E4B？→ 三台機器實測
LLM 101 下一篇：怎麼選模型 — 那麼多模型，到底該下載哪一個？（敬請期待）

白話版：為什麼 AI 模型有不同的「體質」？

前言

Dense — 全員出動

像什麼？

優點

缺點

代表模型

規格表怎麼看

MoE — 專家輪班

像什麼？

優點

缺點

代表模型

規格表怎麼看

PLE — 每層自帶字典

像什麼？

優點

缺點

代表模型

規格表怎麼看

SSM / Hybrid — 速讀高手

像什麼？

優點

缺點

現實中的 Hybrid（混合架構）

代表模型

規格表怎麼看

四種架構一張表

實戰：怎麼看模型名字選架構

學到了什麼

花最多時間的地方

可以帶走的思考框架

放諸四海皆準的規律

接下來

常見問題