LLM 101 · part 2
[LLM 101] Dense、MoE、PLE、SSM — 四種 AI 模型架構,一次搞懂
TL;DR
AI 模型有四種主流架構:Dense(全員出動,穩但慢)、MoE(專家輪班,大但快)、PLE(每層自帶字典,查詢效率高)、SSM(速讀高手,長對話不掉速)。選模型前先看架構,比光看參數量有用。
白話版:為什麼 AI 模型有不同的「體質」?
你可能注意到,AI 模型的名字越來越奇怪。Gemma 4 E2B、Qwen3-Coder 235B-A22B、Mamba — 這些字母和數字到底在講什麼?
其實它們在描述模型的「體質」— 也就是架構。就像人有不同的體型(短跑選手 vs 馬拉松選手),AI 模型也有不同的設計方式,各自擅長不同的事。
這篇文章用最白話的方式,解釋目前最常見的四種 AI 模型架構。看完之後你再看到模型的規格表,就不會只是一堆看不懂的數字了。
前言
買手機的時候,你不會只看「幾 GB RAM」就決定要不要買。你還會想知道:這個處理器的架構是什麼?省電還是效能取向?跑遊戲快不快?
選 AI 模型也一樣。「120B 參數」聽起來很厲害,但如果它是 Dense 架構,你的筆電可能跑不動。反過來,一個「30B 參數」的 MoE 模型可能又輕又快。
架構決定了模型的個性。
Dense — 全員出動
Dense(密集)是最直覺的架構。模型裡的每一個參數,在每一次回答時都會被用到。
像什麼?
像一間 100 人的公司,不管客戶問什麼問題,100 個人全部一起動起來處理。即使只是問「今天天氣如何」,100 個人都要過一遍。
優點
- 品質穩定。 所有參數都參與計算,不會漏掉什麼
- 架構簡單。 歷史最久、最成熟,所有工具都支援
- 容易預測。 模型多大就跑多慢,沒有意外
缺點
- 跑起來很慢。 100 個人全動就是 100 個人的工作量,沒有偷懶的空間
- 吃記憶體。 所有參數都要載進記憶體,31B 參數的模型就是要佔 31B 的空間
代表模型
- Llama 3 8B / 70B — Meta 的經典模型
- Gemma 4 31B — Google 的 Dense 大模型,在我的 DGX Spark 上只跑到 7 tok/s(每秒 7 個字),因為太大了
規格表怎麼看
名字裡只有一個數字的,通常就是 Dense:Llama-3-8B、Gemma-4-31B。沒有「A 幾 B」的後綴。
MoE — 專家輪班
MoE(Mixture of Experts,混合專家)是目前最流行的「作弊」方式 — 模型很大,但每次只用一小部分。
像什麼?
像一間有 260 個員工的大公司,但每次只派 10 個最相關的專家出來處理。問財務問題?派財務組。問法律問題?派法律組。其他 250 個人繼續待命。
這代表公司有 260 人的知識量,但每次的工作量只有 10 個人。
優點
- 又大又快。 知識量跟 260 人的公司一樣多,但跑起來只有 10 人的負擔
- 省記憶體(相對而言)。 雖然模型檔案很大,但每次計算只啟用一小部分,對顯示卡的計算壓力小
- 適合「什麼都要懂」的通用模型。 不同的專家可以擅長不同領域
缺點
- 模型檔案還是很大。 260 個人都要載進記憶體裡待命,即使只有 10 個在工作。所以下載和儲存的需求不會比較少
- 路由開銷。 每次都要決定「該派誰出來」,這個決策本身也需要計算
- 專家品質不均。 某些領域可能剛好沒有對應的專家,品質就會不穩定
代表模型
- Qwen3-Coder 235B-A22B — 總共 235B 參數,每次只啟用 22B。寫程式很猛
- DeepSeek-V3 685B-A37B — 超大模型,6850 億參數但只用 370 億
- Gemma 4 26B-A4B — Google 的小型 MoE,26B 總量只用 4B,在 DGX Spark 上跑到 52 tok/s
規格表怎麼看
名字裡有兩個數字、用 -A 連接的就是 MoE:235B-A22B = 總量 235B、啟用 22B。看 A 後面的數字才知道實際跑起來多快。
PLE — 每層自帶字典
PLE(Per-Layer Embedding,逐層嵌入)是比較新的架構,目前主要是 Google 的 Gemma 4 在用。
像什麼?
想像一棟 42 層的辦公大樓。在傳統架構裡,不管你在幾樓辦事,查字典都要跑到一樓的大廳去。一樓放了一本超大的字典(262,144 個詞),所有樓層共用。
PLE 的做法是:每一層樓都有自己的字典。42 層就有 42 本。你在 17 樓辦事就用 17 樓的字典,不用跑下去。
優點
- 查詢效率高。 不用跑到一樓,每層就地解決
- 實際計算量小。 那 42 本字典只是查表用的,真正做數學運算的參數其實很少。Gemma 4 E4B 名義上是 8B 參數,但實際運算路徑只有大約 4B
缺點
- 模型檔案比「看起來」大。 42 本字典佔的空間不少。E4B 的字典就佔了 5.4 GB,將近模型總大小的三分之一
- 架構比較新。 不是所有工具都完美支援,偶爾會遇到相容性問題
- 目前只有 Gemma 4 在用。 生態系比 Dense 和 MoE 小很多
代表模型
- Gemma 4 E2B — 2B 計算參數,7.2 GB。在 M1 Max 上跑到 81 tok/s
- Gemma 4 E4B — 4B 計算參數,9.6 GB
規格表怎麼看
名字裡有 E 前綴的:E2B = 2B 計算參數,E4B = 4B。E 代表 Embedding-heavy,跟 Dense 的 B 不能直接比。
SSM / Hybrid — 速讀高手
SSM(State Space Model,狀態空間模型)是最新也最不一樣的架構。傳統模型用的是 Transformer(注意力機制),SSM 用完全不同的方式處理文字。
像什麼?
傳統的 Transformer 像一個人讀書時每次都要翻回去重讀前面的內容。你問它「第三章講了什麼」,它真的會翻回第三章看一遍。對話越長,要翻的頁數越多,速度越慢。
SSM 像一個速讀高手 — 它讀過的內容會即時壓縮成一份「摘要筆記」。你問它第三章的事,它看筆記就好,不用翻回去。不管對話多長,查筆記的時間都一樣。
優點
- 長對話不掉速。 這是 SSM 最大的賣點。傳統模型對話越長越慢,SSM 幾乎不受影響
- 記憶體用量穩定。 不管對話多長,SSM 的「筆記」大小是固定的,不會越來越佔記憶體
缺點
- 短對話沒有優勢。 當對話很短的時候,「翻回去看」和「查筆記」速度差不多,SSM 的優勢展現不出來
- 可能漏細節。 把整本書壓縮成筆記,難免會遺漏一些細節。對於需要精確回憶的任務,SSM 可能不如 Transformer
- 技術很新。 工具支援和生態系都還在發展中
現實中的 Hybrid(混合架構)
純 SSM 有些場景會漏細節,所以目前更常見的做法是「混合」— 一部分用 SSM 速讀,一部分用 Transformer 精讀。像是一個人大部分時候看筆記,遇到關鍵段落才翻回原文確認。
代表模型
- Qwen3.5-35B-A3B — SSM + MoE 混合。在 DGX Spark 上,短對話 56 tok/s、長對話(8K token)也是 56 tok/s — 幾乎不衰減
- Qwen3-Coder-Next 79.7B — SSM + MoE 混合,512 個專家只用 10 個
- Mamba 系列 — 最早的純 SSM 模型,學術界的先驅
規格表怎麼看
名字帶 Mamba、DeltaNet、或是 SSM 的就是。混合架構的可能不會特別標示,要看模型卡片裡的架構描述。一個快速判斷法:如果規格表上寫了「短 context 和長 context 速度相近」,大概率有 SSM 成分。
四種架構一張表
| Dense | MoE | PLE | SSM / Hybrid | |
|---|---|---|---|---|
| 比喻 | 全員出動 | 專家輪班 | 每層自帶字典 | 速讀高手 |
| 速度 | 慢(參數多就慢) | 快(只用一部分) | 中(查表快但檔案大) | 快(長對話更明顯) |
| 模型大小 | 大 = 慢 | 大但跑起來輕 | 比看起來大 | 中等 |
| 長對話 | 越長越慢 | 越長越慢 | 越長越慢 | 幾乎不掉速 |
| 成熟度 | ★★★★★ | ★★★★☆ | ★★☆☆☆ | ★★★☆☆ |
| 代表 | Llama 3 | DeepSeek-V3 | Gemma 4 E2B | Qwen3.5 |
實戰:怎麼看模型名字選架構
下次你在 Ollama 或 HuggingFace 上看到一個模型,試試這個判斷流程:
名字裡有 -A + 數字嗎?(例如 235B-A22B)
→ MoE。看 A 後面的數字判斷實際速度。
名字有 E 前綴 + B?(例如 E2B、E4B)
→ PLE。目前只有 Gemma 4 家族。
名字帶 Mamba、DeltaNet、SSM? → SSM / Hybrid。長對話場景的好選擇。
以上都不是?就一個數字 + B?(例如 8B、70B)
→ Dense。最傳統,最穩定,但也最吃資源。
學到了什麼
花最多時間的地方
決定要不要講 Transformer 的注意力機制。最後決定不講 — 對於「選模型」這個目的來說,知道「傳統模型對話越長越慢」就夠了,不需要解釋為什麼。
可以帶走的思考框架
看規格表的時候,不要只看「幾 B 參數」。看三件事:
- 架構 — Dense / MoE / PLE / SSM?
- 啟用參數(MoE 的 A 後面的數字)— 這才是實際跑起來的負擔
- 你的場景 — 短對話?長對話?多人同時用?
放諸四海皆準的規律
沒有最好的架構,只有最適合你場景的架構。就像沒有人會說「短跑選手比馬拉松選手厲害」— 要看你在跑什麼。
接下來
- 上一篇:Ollama vs vLLM — 在自己電腦跑 AI 的兩條路
- 想看 Dense 有多慢?→ Gemma 4 31B Dense 在 DGX Spark 上只跑到 7 tok/s
- 想看 MoE 有多快?→ Gemma 4 26B-A4B NVFP4 跑到 52 tok/s
- 想看 PLE 的 E2B vs E4B?→ 三台機器實測
- LLM 101 下一篇:怎麼選模型 — 那麼多模型,到底該下載哪一個?(敬請期待)
常見問題
- Dense 和 MoE 模型差在哪裡?
- Dense 模型每次回答都用到所有參數,像全公司所有人一起做每件事。MoE 只啟用一小部分專家,像 260 人的公司每次只派 10 個人出來。MoE 模型更大但跑起來更快。
- 什麼是 PLE 架構?
- Per-Layer Embedding,每一層都有自己的詞彙查詢表。像一棟大樓每層樓都有自己的接待櫃台,不用跑到一樓問。Google 的 Gemma 4 E2B 和 E4B 用的就是這個架構。
- SSM 模型有什麼優勢?
- SSM(State Space Model)不需要回頭看完整對話紀錄,而是維護一份持續更新的摘要。對話越長,SSM 相對傳統模型越快,因為它不會隨著對話長度變慢。
- 怎麼從模型名稱看出它是什麼架構?
- 看名字裡有沒有數字線索:'30B-A3B' 表示 MoE(總共 30B 但只用 3B),沒有 A 的就是 Dense。E2B/E4B 是 PLE。名字帶 Mamba 或 DeltaNet 的是 SSM。