~/blog/llm-101-how-to-choose-a-model

LLM 101 · part 3

[LLM 101] 那麼多模型,到底該下載哪一個?

cat --toc

TL;DR

選模型就像買車:先看停車位多大(你的記憶體),再決定要轎車還是卡車(模型大小),最後挑品牌(Gemma、Llama、Qwen)。記住一個公式:參數量(B)× 0.6 ≈ 所需 GB 記憶體。8GB 記憶體跑 7B,16GB 跑 14B,32GB 可以上 30B。

白話版:怎麼在幾百個 AI 模型裡挑到適合你的?

如果你打開 Ollama 的模型庫,會看到幾百個 AI 模型,名字一個比一個長:Gemma 4 E4B、Llama 3.3 70B、Qwen3-Coder 235B-A22B。每個都說自己很厲害,但你的電腦跑得動嗎?跑得動的話,哪個適合你?

這其實跟買車的邏輯一模一樣。你不會在還沒確認停車位大小之前就去看法拉利。選 AI 模型也是:先看你的電腦能吃多大的模型,再從合適的尺寸裡挑最好的那個。

上一篇我們聊了 AI 模型有四種不同的「體質」。這篇教你怎麼用三個步驟,從幾百個模型裡挑到適合你的那一個。


前言

你走進一間有 500 台車的展示場。每台車都有一堆規格表:馬力、扭力、油耗、0-100 加速秒數。你不是賽車手,你只是想買一台通勤用的車。

你會怎麼選?

大部分人不會從馬力開始看。你會先看:我的停車位多大?我的預算多少?我主要開高速還是市區?

選 AI 模型也是一樣的思路。不要被規格表嚇到,用這三個步驟就好。


第一步:你的停車位多大?(記憶體)

這是最重要的一步,因為再好的模型,跑不起來就沒用。

AI 模型需要載入記憶體才能跑。模型越大,需要的記憶體越多。這裡的「記憶體」指的是:

  • 如果你有獨立顯卡(NVIDIA RTX 系列)→ 看顯卡自己的記憶體(叫 VRAM,跟電腦的 RAM 不同,通常 8-24 GB)
  • 如果你用 Mac → 看你的 RAM(Mac 的記憶體是 CPU 和 GPU 共用的,所以全部都能拿來跑模型)
  • 如果你用一般筆電 → 看 RAM,但要扣掉系統本身在用的(通常剩 60-70% 可用)

快速估算公式

模型名字裡的 B 代表 Billion(十億)個參數。要知道模型占多少記憶體,用這個公式:

參數量(B)× 0.6 ≈ 所需 GB 記憶體

這個 0.6 是假設你下載的是壓縮版本(後面會解釋什麼是「量化」,現在先記住這個數字就好)。舉幾個例子:

模型大小記憶體需求(約)適合什麼電腦
1-3B1-2 GB手機、低配筆電
7B4-5 GB8 GB 筆電
14B8-9 GB16 GB 筆電或 Mac
30B18-20 GB32 GB Mac 或有 24GB 顯卡
70B40-45 GB需要 64 GB+ 或專業顯卡

你的電腦有多少記憶體? 這就是你的停車位大小。確認了這個,才能進下一步。


第二步:你要轎車還是卡車?(模型大小 vs 品質)

確認了記憶體上限之後,你會發現有好幾個大小都「停得進去」的模型。這時候要做一個取捨:

大模型 = 更聰明,但更慢

一個 30B 的模型回答品質通常比 7B 好很多 — 它理解力更強、邏輯更清楚、比較不會胡說八道。但它回答的速度也慢很多。

根據 Chatbot Arena 的人類盲測排名,同一個品牌的模型,大小翻倍通常意味著品質提升 10-20%。但速度可能掉一半以上。

速度多快才「夠用」?

AI 回答問題的時候,文字是一個一個「吐」出來的,不是一次全部出現。這個速度用「每秒幾個字」來衡量(技術上叫 tok/s — token per second,一個 token 大約等於一個中文字或一個英文單詞)。

一個有用的參考點:你的閱讀速度大約是每秒 4-5 個字。如果 AI 吐字的速度比你讀還慢,你就會開始覺得「它在卡」。

根據 BentoML 的推論效能研究和社群實測,速度的體感分級是:

每秒幾個字什麼感覺白話版
< 5比你閱讀還慢,會想放棄塞車到懷疑人生
5-12明顯在等,會想切分頁市區塞車,勉強能忍
12-30需要等一下但可以接受一般道路,正常開
30-50舒適,像在對話高速公路,推薦目標
50-80很快,文字自然流出超車道
80+再快也感覺不出差別了飛機,但你只是要通勤

ChatGPT 有多快? 作為參考:你用的 ChatGPT 大約是每秒 50 個字,Claude 大約 46,Gemini 最快可以到 220。在自己電腦上跑,目標是 每秒 30 個字以上就很舒適 — 跟 ChatGPT 差不多的體感。

真實的速度差多少?

我用自己的設備跑了幾個不同大小的模型,給你一個直覺:

電腦模型大小速度(字/秒)體感
高階顯卡(RTX 5090)3B(小模型)310瞬間出現
高階顯卡(RTX 5090)8B(中小)202瞬間出現
桌上型工作站(128GB)8B(壓縮版)50舒適,像在對話
桌上型工作站(128GB)31B(大模型)7在等,勉強能用
MacBook Pro(32GB)31B(有調校)13可以接受
MacBook Pro(32GB)31B(沒調校)1.5完全不能用

注意最後兩行 — 同一台電腦、同一個模型,只是因為軟體設定不同,速度差了 8 倍。設定的細節很重要,但那是進階的話題(有興趣可以看這篇)。

重點:選模型時不只看大小,還要看你的電腦能跑多快。一個在你電腦上每秒 40 字的中型模型,體驗遠比每秒 5 字的大模型好。

所以怎麼選?

  • 日常對話、翻譯、寫作 → 選你記憶體能裝的最大模型。品質比速度重要,反正你問一個問題等幾秒沒關係。
  • 寫程式、Debug → 選大一點的模型。程式碼的品質差異在小模型上很明顯 — 7B 常常寫出能跑但邏輯有問題的程式。
  • 即時聊天、快速問答 → 選中等大小,速度跟品質的平衡點通常在 14-30B 左右。
  • 資源很有限(8GB 或更少) → 選 7B,不用猶豫。現在的 7B 模型已經比兩年前的 70B 還聰明。

第三步:挑品牌(Gemma、Llama、Qwen)

大小決定之後,你會發現同一個大小有好幾個品牌。就像你決定要買一台中型轎車之後,還是得在 Toyota、Honda、Tesla 之間選。

2026 年主流的 AI 模型品牌:

品牌誰做的最擅長中文大小選擇
GemmaGoogle多語言、推理、平衡很好1B、4B、12B、27B
LlamaMeta英文生態、社群支援最大普通1B、3B、8B、70B、405B
Qwen阿里巴巴中文最強、程式碼強最好0.6B、1.8B、7B、14B、32B、72B
MistralMistral AI效率高、歐洲語言普通7B、8x7B、8x22B
PhiMicrosoft小模型之王普通3B、14B

選擇建議:

  • 中文使用為主 → Qwen 或 Gemma
  • 英文為主 → Llama 或 Gemma
  • 寫程式 → Qwen-Coder 或 Gemma
  • 記憶體有限(≤ 8GB) → Phi-3 或 Gemma 4B
  • 不知道選什麼 → 從 Qwen 14BGemma 12B 開始,這兩個在中文世界的 CP 值最高

量化:同一台車,不同的壓縮率

你可能注意到同一個模型有很多「版本」:Q4_K_M、Q8_0、FP16。這些是量化等級 — 就像音樂檔案有 MP3 128kbps、320kbps、FLAC 的差別。

量化等級大小品質白話版
FP16最大最好FLAC — 無損,但檔案超大
Q8約 FP16 的一半幾乎無損MP3 320kbps — 聽不出差別
Q4約 FP16 的四分之一稍有損失MP3 128kbps — 日常夠用
Q2極小明顯損失64kbps — 能聽但品質差

日常使用選 Q4 就對了。 大小只有原版的四分之一,品質損失對一般使用者幾乎感覺不出來。上面的記憶體估算公式就是用 Q4 算的。

想要更好的品質?選 Q8。但記憶體需求會翻倍 — 確認你停得下再升級。


實戰:我有一台 16GB 的 Mac,該選什麼?

走一遍流程:

  1. 記憶體:16 GB,扣掉系統大概剩 10-12 GB 可用
  2. 模型大小上限:10 GB ÷ 0.6 ≈ 14-16B 左右
  3. 用途:日常對話 + 偶爾寫程式
  4. 語言:中文為主

推薦qwen3:14b(Q4 版,約 9 GB)

在 Ollama 裡一行指令就能試:

ollama run qwen3:14b

不喜歡?換 Gemma:

ollama run gemma4:12b

兩個都試試,問同一個問題比較回答品質。喜歡哪個就用哪個。


一句話總結

先量停車位(記憶體),再選車型(大小),最後挑品牌。不確定就從 Qwen 14B 或 Gemma 12B 開始。

下一篇我們會聊:什麼是量化?Q4、Q8、FP16 這些版本到底差在哪?

這是「LLM 101」系列的第三篇。上一篇:四種 AI 模型架構

常見問題

AI 模型大小怎麼看?
看名字裡的 B 數字,例如 7B 就是 70 億個參數。參數越多,模型越聰明但也越占記憶體。7B 約需 4-5 GB,70B 約需 40 GB。粗估法:參數量(B)× 0.6 = 所需 GB 記憶體(4-bit 量化)。
電腦記憶體不夠跑大模型怎麼辦?
三個方法:1. 選小一點的模型(7B 或 14B)2. 用量化版本(Q4 比原版小 4 倍)3. 如果有獨立顯卡,用顯卡記憶體跑會更快。8GB 記憶體建議跑 7B 以下,16GB 可以跑 14B,32GB 可以挑戰 30B。
Gemma、Llama、Qwen 哪個比較好?
各有強項。Google 的 Gemma 多語言和推理強,Meta 的 Llama 英文生態最大,阿里巴巴的 Qwen 中文最好且程式能力強。同樣大小的情況下,先試 Qwen(中文好)或 Gemma(平衡),不滿意再換。
模型名字裡的 Q4、Q8、FP16 是什麼意思?
這是量化精度。FP16 是原始品質(最大最慢),Q8 是輕微壓縮(品質幾乎不變),Q4 是大幅壓縮(大小砍半,品質稍降)。就像 MP3 的 128kbps vs 320kbps vs FLAC。日常使用 Q4 就夠了。