AI 模型大小怎麼看？

看名字裡的 B 數字，例如 7B 就是 70 億個參數。參數越多，模型越聰明但也越占記憶體。7B 約需 4-5 GB，70B 約需 40 GB。粗估法：參數量（B）× 0.6 = 所需 GB 記憶體（4-bit 量化）。

電腦記憶體不夠跑大模型怎麼辦？

三個方法：1. 選小一點的模型（7B 或 14B）2. 用量化版本（Q4 比原版小 4 倍）3. 如果有獨立顯卡，用顯卡記憶體跑會更快。8GB 記憶體建議跑 7B 以下，16GB 可以跑 14B，32GB 可以挑戰 30B。

Gemma、Llama、Qwen 哪個比較好？

各有強項。Google 的 Gemma 多語言和推理強，Meta 的 Llama 英文生態最大，阿里巴巴的 Qwen 中文最好且程式能力強。同樣大小的情況下，先試 Qwen（中文好）或 Gemma（平衡），不滿意再換。

模型名字裡的 Q4、Q8、FP16 是什麼意思？

這是量化精度。FP16 是原始品質（最大最慢），Q8 是輕微壓縮（品質幾乎不變），Q4 是大幅壓縮（大小砍半，品質稍降）。就像 MP3 的 128kbps vs 320kbps vs FLAC。日常使用 Q4 就夠了。

[LLM 101] 那麼多模型，到底該下載哪一個？

TL;DR

選模型就像買車：先看停車位多大（你的記憶體），再決定要轎車還是卡車（模型大小），最後挑品牌（Gemma、Llama、Qwen）。記住一個公式：參數量（B）× 0.6 ≈ 所需 GB 記憶體。8GB 記憶體跑 7B，16GB 跑 14B，32GB 可以上 30B。

白話版：怎麼在幾百個 AI 模型裡挑到適合你的？

如果你打開 Ollama 的模型庫，會看到幾百個 AI 模型，名字一個比一個長：Gemma 4 E4B、Llama 3.3 70B、Qwen3-Coder 235B-A22B。每個都說自己很厲害，但你的電腦跑得動嗎？跑得動的話，哪個適合你？

這其實跟買車的邏輯一模一樣。你不會在還沒確認停車位大小之前就去看法拉利。選 AI 模型也是：先看你的電腦能吃多大的模型，再從合適的尺寸裡挑最好的那個。

上一篇我們聊了 AI 模型有四種不同的「體質」。這篇教你怎麼用三個步驟，從幾百個模型裡挑到適合你的那一個。

前言

你走進一間有 500 台車的展示場。每台車都有一堆規格表：馬力、扭力、油耗、0-100 加速秒數。你不是賽車手，你只是想買一台通勤用的車。

你會怎麼選？

大部分人不會從馬力開始看。你會先看：我的停車位多大？我的預算多少？我主要開高速還是市區？

選 AI 模型也是一樣的思路。不要被規格表嚇到，用這三個步驟就好。

第一步：你的停車位多大？（記憶體）

這是最重要的一步，因為再好的模型，跑不起來就沒用。

AI 模型需要載入記憶體才能跑。模型越大，需要的記憶體越多。這裡的「記憶體」指的是：

如果你有獨立顯卡（NVIDIA RTX 系列）→ 看顯卡自己的記憶體（叫 VRAM，跟電腦的 RAM 不同，通常 8-24 GB）
如果你用 Mac → 看你的 RAM（Mac 的記憶體是 CPU 和 GPU 共用的，所以全部都能拿來跑模型）
如果你用一般筆電 → 看 RAM，但要扣掉系統本身在用的（通常剩 60-70% 可用）

快速估算公式

模型名字裡的 B 代表 Billion（十億）個參數。要知道模型占多少記憶體，用這個公式：

參數量（B）× 0.6 ≈ 所需 GB 記憶體

這個 0.6 是假設你下載的是壓縮版本（後面會解釋什麼是「量化」，現在先記住這個數字就好）。舉幾個例子：

模型大小	記憶體需求（約）	適合什麼電腦
1-3B	1-2 GB	手機、低配筆電
7B	4-5 GB	8 GB 筆電
14B	8-9 GB	16 GB 筆電或 Mac
30B	18-20 GB	32 GB Mac 或有 24GB 顯卡
70B	40-45 GB	需要 64 GB+ 或專業顯卡

你的電腦有多少記憶體？ 這就是你的停車位大小。確認了這個，才能進下一步。

第二步：你要轎車還是卡車？（模型大小 vs 品質）

確認了記憶體上限之後，你會發現有好幾個大小都「停得進去」的模型。這時候要做一個取捨：

大模型 = 更聰明，但更慢

一個 30B 的模型回答品質通常比 7B 好很多 — 它理解力更強、邏輯更清楚、比較不會胡說八道。但它回答的速度也慢很多。

根據 Chatbot Arena 的人類盲測排名，同一個品牌的模型，大小翻倍通常意味著品質提升 10-20%。但速度可能掉一半以上。

速度多快才「夠用」？

AI 回答問題的時候，文字是一個一個「吐」出來的，不是一次全部出現。這個速度用「每秒幾個字」來衡量（技術上叫 tok/s — token per second，一個 token 大約等於一個中文字或一個英文單詞）。

一個有用的參考點：你的閱讀速度大約是每秒 4-5 個字。如果 AI 吐字的速度比你讀還慢，你就會開始覺得「它在卡」。

根據 BentoML 的推論效能研究和社群實測，速度的體感分級是：

每秒幾個字	什麼感覺	白話版
< 5	比你閱讀還慢，會想放棄	塞車到懷疑人生
5-12	明顯在等，會想切分頁	市區塞車，勉強能忍
12-30	需要等一下但可以接受	一般道路，正常開
30-50	舒適，像在對話	高速公路，推薦目標
50-80	很快，文字自然流出	超車道
80+	再快也感覺不出差別了	飛機，但你只是要通勤

ChatGPT 有多快？ 作為參考：你用的 ChatGPT 大約是每秒 50 個字，Claude 大約 46，Gemini 最快可以到 220。在自己電腦上跑，目標是 每秒 30 個字以上就很舒適 — 跟 ChatGPT 差不多的體感。

真實的速度差多少？

我用自己的設備跑了幾個不同大小的模型，給你一個直覺：

電腦	模型大小	速度（字/秒）	體感
高階顯卡（RTX 5090）	3B（小模型）	310	瞬間出現
高階顯卡（RTX 5090）	8B（中小）	202	瞬間出現
桌上型工作站（128GB）	8B（壓縮版）	50	舒適，像在對話
桌上型工作站（128GB）	31B（大模型）	7	在等，勉強能用
MacBook Pro（32GB）	31B（有調校）	13	可以接受
MacBook Pro（32GB）	31B（沒調校）	1.5	完全不能用

注意最後兩行 — 同一台電腦、同一個模型，只是因為軟體設定不同，速度差了 8 倍。設定的細節很重要，但那是進階的話題（有興趣可以看這篇）。

重點：選模型時不只看大小，還要看你的電腦能跑多快。一個在你電腦上每秒 40 字的中型模型，體驗遠比每秒 5 字的大模型好。

所以怎麼選？

日常對話、翻譯、寫作 → 選你記憶體能裝的最大模型。品質比速度重要，反正你問一個問題等幾秒沒關係。
寫程式、Debug → 選大一點的模型。程式碼的品質差異在小模型上很明顯 — 7B 常常寫出能跑但邏輯有問題的程式。
即時聊天、快速問答 → 選中等大小，速度跟品質的平衡點通常在 14-30B 左右。
資源很有限（8GB 或更少） → 選 7B，不用猶豫。現在的 7B 模型已經比兩年前的 70B 還聰明。

第三步：挑品牌（Gemma、Llama、Qwen）

大小決定之後，你會發現同一個大小有好幾個品牌。就像你決定要買一台中型轎車之後，還是得在 Toyota、Honda、Tesla 之間選。

2026 年主流的 AI 模型品牌：

品牌	誰做的	最擅長	中文	大小選擇
Gemma	Google	多語言、推理、平衡	很好	1B、4B、12B、27B
Llama	Meta	英文生態、社群支援最大	普通	1B、3B、8B、70B、405B
Qwen	阿里巴巴	中文最強、程式碼強	最好	0.6B、1.8B、7B、14B、32B、72B
Mistral	Mistral AI	效率高、歐洲語言	普通	7B、8x7B、8x22B
Phi	Microsoft	小模型之王	普通	3B、14B

選擇建議：

中文使用為主 → Qwen 或 Gemma
英文為主 → Llama 或 Gemma
寫程式 → Qwen-Coder 或 Gemma
記憶體有限（≤ 8GB） → Phi-3 或 Gemma 4B
不知道選什麼 → 從 Qwen 14B 或 Gemma 12B 開始，這兩個在中文世界的 CP 值最高

量化：同一台車，不同的壓縮率

你可能注意到同一個模型有很多「版本」：Q4_K_M、Q8_0、FP16。這些是量化等級 — 就像音樂檔案有 MP3 128kbps、320kbps、FLAC 的差別。

量化等級	大小	品質	白話版
FP16	最大	最好	FLAC — 無損，但檔案超大
Q8	約 FP16 的一半	幾乎無損	MP3 320kbps — 聽不出差別
Q4	約 FP16 的四分之一	稍有損失	MP3 128kbps — 日常夠用
Q2	極小	明顯損失	64kbps — 能聽但品質差

日常使用選 Q4 就對了。 大小只有原版的四分之一，品質損失對一般使用者幾乎感覺不出來。上面的記憶體估算公式就是用 Q4 算的。

想要更好的品質？選 Q8。但記憶體需求會翻倍 — 確認你停得下再升級。

實戰：我有一台 16GB 的 Mac，該選什麼？

走一遍流程：

記憶體：16 GB，扣掉系統大概剩 10-12 GB 可用
模型大小上限：10 GB ÷ 0.6 ≈ 14-16B 左右
用途：日常對話 + 偶爾寫程式
語言：中文為主

推薦：qwen3:14b（Q4 版，約 9 GB）

在 Ollama 裡一行指令就能試：

ollama run qwen3:14b

不喜歡？換 Gemma：

ollama run gemma4:12b

兩個都試試，問同一個問題比較回答品質。喜歡哪個就用哪個。

一句話總結

先量停車位（記憶體），再選車型（大小），最後挑品牌。不確定就從 Qwen 14B 或 Gemma 12B 開始。

下一篇我們會聊：什麼是量化？Q4、Q8、FP16 這些版本到底差在哪？

這是「LLM 101」系列的第三篇。上一篇：四種 AI 模型架構。