LLM 101 · part 1
[LLM 101] Ollama vs vLLM:在自己電腦跑 AI 的兩條路
TL;DR
Ollama 像微波爐 — 一行指令就能跑 AI,三分鐘上手。vLLM 像專業烤箱 — 設定麻煩但速度快 30%、能同時服務多人。新手先裝 Ollama,有需求再上 vLLM。
白話版:在自己電腦跑 AI 是什麼意思?
你每天用的 ChatGPT、Claude、Gemini,背後都是一個超大的 AI 模型,跑在雲端的超級電腦上。你打字、它回答、資料經過網路來回。這代表兩件事:你要付錢(或看廣告),而且你的對話內容會經過別人的伺服器。
但現在有些 AI 模型小到可以塞進你的筆電裡跑。不用連網、不用付月費、對話內容不出你的電腦。就像你家裡有一台咖啡機,不用每次都去星巴克排隊。
問題是:要用什麼工具來跑這些模型?市面上最常見的兩個選擇是 Ollama 和 vLLM。它們做的事差不多(都是讓你在自己電腦上跑 AI 模型),但設計理念完全不同 — 像 Word 和 LaTeX 的差別。
這篇文章用最白話的方式解釋它們的差異,幫你決定該用哪一個。
前言
你家廚房大概有微波爐也有烤箱。兩個都能加熱食物,但你不會用微波爐烤法國麵包,也不會為了熱一杯牛奶去預熱烤箱。
Ollama 和 vLLM 的關係就是這樣。一個追求方便,一個追求效能。選錯了不會爆炸,但會浪費時間。
先搞懂一件事:為什麼要在自己電腦跑 AI?
用 ChatGPT 就像去餐廳吃飯 — 有人煮、有人端、菜單固定、吃完付帳。方便,但你沒辦法改食譜,而且餐廳會知道你點了什麼。
在自己電腦跑 AI 就像自己下廚 — 食材自己買、份量自己調、沒人知道你今天煮了什麼。代價是要自己洗碗。
具體來說,三個理由讓越來越多人選擇自己跑:
隱私。 你跟 AI 聊的每一句話,都不會離開你的電腦。不用擔心公司機密被拿去訓練模型、不用擔心私人對話被看到。
免費。 模型本身是開源的(就像 Wikipedia — 免費下載、免費使用)。只要你的電腦跑得動,不用付任何月費。
自由。 你可以選要用哪個模型、怎麼調整它的行為。不受任何公司的限制。想用 Google 的模型也行、Meta 的也行,甚至中國的也行。
Ollama — 微波爐派
Ollama 的設計哲學就四個字:能用就好。
安裝它就像裝一個手機 App。在 Mac 上下載、拖到應用程式資料夾、完成。然後打開終端機(就是那個黑底白字的視窗),輸入一行字:
ollama run gemma4:e2b
等它下載完模型(大概要等幾分鐘,看你網速),你就可以開始打字跟 AI 對話了。整個過程不超過三分鐘。
它像什麼?
像手機的 App Store。你想要哪個 AI 模型,就輸入名字下載。Google 的 Gemma、Meta 的 Llama、阿里巴巴的 Qwen — 都在上面,免費。
它擅長什麼?
- 個人聊天。 你問它問題、它回答你,就像私人版的 ChatGPT
- 寫作助手。 請它幫你改文章、翻譯、整理筆記
- 快速實驗。 想試試新出的模型?一行指令下載,不喜歡就刪掉
它的限制
- 一次只能服務一個人。 就像微波爐一次只能放一個便當。如果你想讓辦公室五個同事同時用,它會排隊 — 一個做完才做下一個
- 速度有天花板。 因為用的是比較通用的技術,沒有針對你的硬體做特別優化。堪用,但不是最快
vLLM — 專業烤箱派
vLLM 的設計哲學是:跑得快、扛得住。
安裝它比 Ollama 複雜得多。你需要先裝 Docker(一個把軟體打包好的盒子 — 想像把整個廚房裝進一個貨櫃,搬到哪裡都能用),然後輸入一長串設定指令,告訴它要用哪個模型、怎麼分配記憶體、開哪個連接埠。
聽起來很麻煩。確實很麻煩。
它像什麼?
像開一間小餐廳的廚房。你不只是在做飯 — 你在架設一個能接單、出餐、同時服務好幾桌客人的系統。
它擅長什麼?
- 同時服務多人。 三個人同時問問題?沒問題,三個一起處理。實測總速度是 Ollama 的將近三倍
- 接程式的單。 它內建標準化的接口(想像一個統一的點餐窗口),你寫的程式可以直接叫它做事 — 自動回信、自動分析資料、自動寫報告
- 極致速度。 同一個模型,vLLM 跑起來比 Ollama 快大約 30%。它會針對你的硬體做特別優化,榨出每一點效能
它的限制
- 門檻高。 要懂 Docker、要會看 log、出了錯要會 debug。不是裝了就能用
- 設定繁瑣。 模型路徑、記憶體分配、量化格式 — 每一項都要手動設定。搞錯一個參數,可能跑不起來,也可能跑起來但速度不對
- GPU 需求更嚴格。 雖然 Ollama 也需要顯示卡,但 vLLM 對顯示卡的相容性要求更高。不是每張卡都能用
數字說話:同一個模型,速度差多少?
拿同一個 AI 模型(Google Gemma 4),放在同一台電腦上,用兩個不同的工具跑。
| Ollama | vLLM | 差距 | |
|---|---|---|---|
| 回應速度(一個人問) | 每秒 40 個字 | 每秒 52 個字 | vLLM 快 30% |
| 三個人同時問 | 排隊,還是 40 | 三個一起跑,共 115 | vLLM 快 3 倍 |
| 安裝時間 | 3 分鐘 | 30 分鐘以上 | Ollama 秒殺 |
| 出錯時怎麼辦 | 通常重裝就好 | 要看 log 找原因 | Ollama 友善得多 |
「每秒 40 個字」是什麼概念?大約是你閱讀速度的兩倍。實際使用上,Ollama 已經夠快了 — 你問完問題,AI 幾乎是立刻開始回答,完整回覆通常在幾秒內出現。
vLLM 的 30% 速度優勢在一個人用的時候感覺不明顯。但如果你要讓 AI 自動化處理大量任務(比如一次分析一百封 email),這 30% 就會累積成很可觀的時間差。
所以我該選哪個?
不用想太多,照這個選:
「我只是想試試在自己電腦跑 AI」 → 用 Ollama。三分鐘裝好,不喜歡隨時刪掉。零風險。
「我想讓 AI 自動幫我做事」 → 用 vLLM。它能接程式的指令,是自動化的基礎。但要有心理準備花半天在設定上。
「我兩個都想要」 → 先裝 Ollama 玩熟。等你明確知道自己需要什麼效能,再加裝 vLLM。它們可以裝在同一台電腦上 — 但不要同時開,就像你不會同時開微波爐和烤箱搶同一個插座。
「我完全不想碰終端機(黑底白字那個)」 → 繼續用 ChatGPT。沒有不好,就是適合不同的人。
三分鐘上手 Ollama
如果你決定試試,這是最快的路:
第一步:安裝。 去 ollama.com 下載,像裝普通軟體一樣安裝。
第二步:開終端機。 Mac 用戶按 Cmd + 空白鍵,搜尋「終端機」,打開它。
第三步:跑你的第一個模型。 輸入這行字,按 Enter:
ollama run gemma4:e2b
等它下載完(第一次要下載 7.2 GB,之後就不用了),你就會看到一個輸入框。打字問它任何問題。
就這樣。你現在有一個跑在你電腦裡的私人 AI 了。
想結束?按 Ctrl + D 或打 /bye。
學到了什麼
花最多時間的地方
把技術名詞翻成人話。「CUDA graphs」「Marlin kernels」「PagedAttention」— 這些對工程師來說是具體的技術,但對一般人來說就是噪音。最大的挑戰是找到正確的比喻:既不能太簡化(會誤導),也不能太精確(會勸退)。
可以帶走的思考框架
「微波爐 vs 烤箱」的比較框架,適用於很多技術工具的選擇:
- VS Code vs Vim → 微波爐 vs 烤箱
- WordPress vs 自架網站 → 微波爐 vs 烤箱
- Notion vs Obsidian → 微波爐 vs 烤箱
每次碰到「兩個工具做差不多的事」,問自己:這次我需要方便,還是需要控制力?
放諸四海皆準的規律
方便和效能永遠是 trade-off。世界上不存在「又簡單又最快」的工具。但大多數時候,「夠快又方便」比「最快但很麻煩」更值得。
接下來
- 想看硬核技術版本?→ vLLM vs Ollama:同模型為什麼差 30%
- 想看不同機器跑起來多快?→ Gemma 4 E2B vs E4B 三機實測
- LLM 101 下一篇:怎麼選模型 — 那麼多模型,到底該下載哪一個?(敬請期待)
常見問題
- Ollama 和 vLLM 差在哪裡?
- Ollama 像微波爐 — 一行指令就能跑 AI 模型,適合個人使用。vLLM 像專業烤箱 — 設定比較複雜,但速度快 30%,而且能同時服務好幾個人。
- 新手應該用 Ollama 還是 vLLM?
- 新手用 Ollama。安裝只要一行指令,三分鐘就能開始跟 AI 聊天。等你用熟了、有效能需求,再考慮 vLLM。
- 為什麼要在自己電腦跑 AI?
- 三個理由:隱私(資料不上傳到別人的伺服器)、免費(不用付月費)、自由(想用什麼模型就用什麼模型)。
- Ollama 和 vLLM 可以同時用嗎?
- 可以裝在同一台電腦,但不建議同時開。兩個程式會搶記憶體和顯示卡資源,速度都會變慢。用完一個再開另一個。