LLM 101 · part 3
[LLM 101] 那麼多模型,到底該下載哪一個?
❯ cat --toc
TL;DR
選模型就像買車:先看停車位多大(你的記憶體),再決定要轎車還是卡車(模型大小),最後挑品牌(Gemma、Llama、Qwen)。記住一個公式:參數量(B)× 0.6 ≈ 所需 GB 記憶體。8GB 記憶體跑 7B,16GB 跑 14B,32GB 可以上 30B。
白話版:怎麼在幾百個 AI 模型裡挑到適合你的?
如果你打開 Ollama 的模型庫,會看到幾百個 AI 模型,名字一個比一個長:Gemma 4 E4B、Llama 3.3 70B、Qwen3-Coder 235B-A22B。每個都說自己很厲害,但你的電腦跑得動嗎?跑得動的話,哪個適合你?
這其實跟買車的邏輯一模一樣。你不會在還沒確認停車位大小之前就去看法拉利。選 AI 模型也是:先看你的電腦能吃多大的模型,再從合適的尺寸裡挑最好的那個。
上一篇我們聊了 AI 模型有四種不同的「體質」。這篇教你怎麼用三個步驟,從幾百個模型裡挑到適合你的那一個。
前言
你走進一間有 500 台車的展示場。每台車都有一堆規格表:馬力、扭力、油耗、0-100 加速秒數。你不是賽車手,你只是想買一台通勤用的車。
你會怎麼選?
大部分人不會從馬力開始看。你會先看:我的停車位多大?我的預算多少?我主要開高速還是市區?
選 AI 模型也是一樣的思路。不要被規格表嚇到,用這三個步驟就好。
第一步:你的停車位多大?(記憶體)
這是最重要的一步,因為再好的模型,跑不起來就沒用。
AI 模型需要載入記憶體才能跑。模型越大,需要的記憶體越多。這裡的「記憶體」指的是:
- 如果你有獨立顯卡(NVIDIA RTX 系列)→ 看顯卡自己的記憶體(叫 VRAM,跟電腦的 RAM 不同,通常 8-24 GB)
- 如果你用 Mac → 看你的 RAM(Mac 的記憶體是 CPU 和 GPU 共用的,所以全部都能拿來跑模型)
- 如果你用一般筆電 → 看 RAM,但要扣掉系統本身在用的(通常剩 60-70% 可用)
快速估算公式
模型名字裡的 B 代表 Billion(十億)個參數。要知道模型占多少記憶體,用這個公式:
參數量(B)× 0.6 ≈ 所需 GB 記憶體
這個 0.6 是假設你下載的是壓縮版本(後面會解釋什麼是「量化」,現在先記住這個數字就好)。舉幾個例子:
| 模型大小 | 記憶體需求(約) | 適合什麼電腦 |
|---|---|---|
| 1-3B | 1-2 GB | 手機、低配筆電 |
| 7B | 4-5 GB | 8 GB 筆電 |
| 14B | 8-9 GB | 16 GB 筆電或 Mac |
| 30B | 18-20 GB | 32 GB Mac 或有 24GB 顯卡 |
| 70B | 40-45 GB | 需要 64 GB+ 或專業顯卡 |
你的電腦有多少記憶體? 這就是你的停車位大小。確認了這個,才能進下一步。
第二步:你要轎車還是卡車?(模型大小 vs 品質)
確認了記憶體上限之後,你會發現有好幾個大小都「停得進去」的模型。這時候要做一個取捨:
大模型 = 更聰明,但更慢
一個 30B 的模型回答品質通常比 7B 好很多 — 它理解力更強、邏輯更清楚、比較不會胡說八道。但它回答的速度也慢很多。
根據 Chatbot Arena 的人類盲測排名,同一個品牌的模型,大小翻倍通常意味著品質提升 10-20%。但速度可能掉一半以上。
速度多快才「夠用」?
AI 回答問題的時候,文字是一個一個「吐」出來的,不是一次全部出現。這個速度用「每秒幾個字」來衡量(技術上叫 tok/s — token per second,一個 token 大約等於一個中文字或一個英文單詞)。
一個有用的參考點:你的閱讀速度大約是每秒 4-5 個字。如果 AI 吐字的速度比你讀還慢,你就會開始覺得「它在卡」。
根據 BentoML 的推論效能研究和社群實測,速度的體感分級是:
| 每秒幾個字 | 什麼感覺 | 白話版 |
|---|---|---|
| < 5 | 比你閱讀還慢,會想放棄 | 塞車到懷疑人生 |
| 5-12 | 明顯在等,會想切分頁 | 市區塞車,勉強能忍 |
| 12-30 | 需要等一下但可以接受 | 一般道路,正常開 |
| 30-50 | 舒適,像在對話 | 高速公路,推薦目標 |
| 50-80 | 很快,文字自然流出 | 超車道 |
| 80+ | 再快也感覺不出差別了 | 飛機,但你只是要通勤 |
ChatGPT 有多快? 作為參考:你用的 ChatGPT 大約是每秒 50 個字,Claude 大約 46,Gemini 最快可以到 220。在自己電腦上跑,目標是 每秒 30 個字以上就很舒適 — 跟 ChatGPT 差不多的體感。
真實的速度差多少?
我用自己的設備跑了幾個不同大小的模型,給你一個直覺:
| 電腦 | 模型大小 | 速度(字/秒) | 體感 |
|---|---|---|---|
| 高階顯卡(RTX 5090) | 3B(小模型) | 310 | 瞬間出現 |
| 高階顯卡(RTX 5090) | 8B(中小) | 202 | 瞬間出現 |
| 桌上型工作站(128GB) | 8B(壓縮版) | 50 | 舒適,像在對話 |
| 桌上型工作站(128GB) | 31B(大模型) | 7 | 在等,勉強能用 |
| MacBook Pro(32GB) | 31B(有調校) | 13 | 可以接受 |
| MacBook Pro(32GB) | 31B(沒調校) | 1.5 | 完全不能用 |
注意最後兩行 — 同一台電腦、同一個模型,只是因為軟體設定不同,速度差了 8 倍。設定的細節很重要,但那是進階的話題(有興趣可以看這篇)。
重點:選模型時不只看大小,還要看你的電腦能跑多快。一個在你電腦上每秒 40 字的中型模型,體驗遠比每秒 5 字的大模型好。
所以怎麼選?
- 日常對話、翻譯、寫作 → 選你記憶體能裝的最大模型。品質比速度重要,反正你問一個問題等幾秒沒關係。
- 寫程式、Debug → 選大一點的模型。程式碼的品質差異在小模型上很明顯 — 7B 常常寫出能跑但邏輯有問題的程式。
- 即時聊天、快速問答 → 選中等大小,速度跟品質的平衡點通常在 14-30B 左右。
- 資源很有限(8GB 或更少) → 選 7B,不用猶豫。現在的 7B 模型已經比兩年前的 70B 還聰明。
第三步:挑品牌(Gemma、Llama、Qwen)
大小決定之後,你會發現同一個大小有好幾個品牌。就像你決定要買一台中型轎車之後,還是得在 Toyota、Honda、Tesla 之間選。
2026 年主流的 AI 模型品牌:
| 品牌 | 誰做的 | 最擅長 | 中文 | 大小選擇 |
|---|---|---|---|---|
| Gemma | 多語言、推理、平衡 | 很好 | 1B、4B、12B、27B | |
| Llama | Meta | 英文生態、社群支援最大 | 普通 | 1B、3B、8B、70B、405B |
| Qwen | 阿里巴巴 | 中文最強、程式碼強 | 最好 | 0.6B、1.8B、7B、14B、32B、72B |
| Mistral | Mistral AI | 效率高、歐洲語言 | 普通 | 7B、8x7B、8x22B |
| Phi | Microsoft | 小模型之王 | 普通 | 3B、14B |
選擇建議:
- 中文使用為主 → Qwen 或 Gemma
- 英文為主 → Llama 或 Gemma
- 寫程式 → Qwen-Coder 或 Gemma
- 記憶體有限(≤ 8GB) → Phi-3 或 Gemma 4B
- 不知道選什麼 → 從 Qwen 14B 或 Gemma 12B 開始,這兩個在中文世界的 CP 值最高
量化:同一台車,不同的壓縮率
你可能注意到同一個模型有很多「版本」:Q4_K_M、Q8_0、FP16。這些是量化等級 — 就像音樂檔案有 MP3 128kbps、320kbps、FLAC 的差別。
| 量化等級 | 大小 | 品質 | 白話版 |
|---|---|---|---|
| FP16 | 最大 | 最好 | FLAC — 無損,但檔案超大 |
| Q8 | 約 FP16 的一半 | 幾乎無損 | MP3 320kbps — 聽不出差別 |
| Q4 | 約 FP16 的四分之一 | 稍有損失 | MP3 128kbps — 日常夠用 |
| Q2 | 極小 | 明顯損失 | 64kbps — 能聽但品質差 |
日常使用選 Q4 就對了。 大小只有原版的四分之一,品質損失對一般使用者幾乎感覺不出來。上面的記憶體估算公式就是用 Q4 算的。
想要更好的品質?選 Q8。但記憶體需求會翻倍 — 確認你停得下再升級。
實戰:我有一台 16GB 的 Mac,該選什麼?
走一遍流程:
- 記憶體:16 GB,扣掉系統大概剩 10-12 GB 可用
- 模型大小上限:10 GB ÷ 0.6 ≈ 14-16B 左右
- 用途:日常對話 + 偶爾寫程式
- 語言:中文為主
推薦:qwen3:14b(Q4 版,約 9 GB)
在 Ollama 裡一行指令就能試:
ollama run qwen3:14b
不喜歡?換 Gemma:
ollama run gemma4:12b
兩個都試試,問同一個問題比較回答品質。喜歡哪個就用哪個。
一句話總結
先量停車位(記憶體),再選車型(大小),最後挑品牌。不確定就從 Qwen 14B 或 Gemma 12B 開始。
下一篇我們會聊:什麼是量化?Q4、Q8、FP16 這些版本到底差在哪?
這是「LLM 101」系列的第三篇。上一篇:四種 AI 模型架構。
常見問題
- AI 模型大小怎麼看?
- 看名字裡的 B 數字,例如 7B 就是 70 億個參數。參數越多,模型越聰明但也越占記憶體。7B 約需 4-5 GB,70B 約需 40 GB。粗估法:參數量(B)× 0.6 = 所需 GB 記憶體(4-bit 量化)。
- 電腦記憶體不夠跑大模型怎麼辦?
- 三個方法:1. 選小一點的模型(7B 或 14B)2. 用量化版本(Q4 比原版小 4 倍)3. 如果有獨立顯卡,用顯卡記憶體跑會更快。8GB 記憶體建議跑 7B 以下,16GB 可以跑 14B,32GB 可以挑戰 30B。
- Gemma、Llama、Qwen 哪個比較好?
- 各有強項。Google 的 Gemma 多語言和推理強,Meta 的 Llama 英文生態最大,阿里巴巴的 Qwen 中文最好且程式能力強。同樣大小的情況下,先試 Qwen(中文好)或 Gemma(平衡),不滿意再換。
- 模型名字裡的 Q4、Q8、FP16 是什麼意思?
- 這是量化精度。FP16 是原始品質(最大最慢),Q8 是輕微壓縮(品質幾乎不變),Q4 是大幅壓縮(大小砍半,品質稍降)。就像 MP3 的 128kbps vs 320kbps vs FLAC。日常使用 Q4 就夠了。