Ollama 和 vLLM 差在哪裡？

Ollama 像微波爐 — 一行指令就能跑 AI 模型，適合個人使用。vLLM 像專業烤箱 — 設定比較複雜，但速度快 30%，而且能同時服務好幾個人。

新手應該用 Ollama 還是 vLLM？

新手用 Ollama。安裝只要一行指令，三分鐘就能開始跟 AI 聊天。等你用熟了、有效能需求，再考慮 vLLM。

Ollama 和 vLLM 可以同時用嗎？

可以裝在同一台電腦，但不建議同時開。兩個程式會搶記憶體和顯示卡資源，速度都會變慢。用完一個再開另一個。

[LLM 101] Ollama vs vLLM：在自己電腦跑 AI 的兩條路

Q: 為什麼要在自己電腦跑 AI？

三個理由：隱私（資料不上傳到別人的伺服器）、免費（不用付月費）、自由（想用什麼模型就用什麼模型）。

TL;DR

Ollama 像微波爐 — 一行指令就能跑 AI，三分鐘上手。vLLM 像專業烤箱 — 設定麻煩但速度快 30%、能同時服務多人。新手先裝 Ollama，有需求再上 vLLM。

白話版：在自己電腦跑 AI 是什麼意思？

你每天用的 ChatGPT、Claude、Gemini，背後都是一個超大的 AI 模型，跑在雲端的超級電腦上。你打字、它回答、資料經過網路來回。這代表兩件事：你要付錢（或看廣告），而且你的對話內容會經過別人的伺服器。

但現在有些 AI 模型小到可以塞進你的筆電裡跑。不用連網、不用付月費、對話內容不出你的電腦。就像你家裡有一台咖啡機，不用每次都去星巴克排隊。

問題是：要用什麼工具來跑這些模型？市面上最常見的兩個選擇是 Ollama 和 vLLM。它們做的事差不多（都是讓你在自己電腦上跑 AI 模型），但設計理念完全不同 — 像 Word 和 LaTeX 的差別。

這篇文章用最白話的方式解釋它們的差異，幫你決定該用哪一個。

前言

你家廚房大概有微波爐也有烤箱。兩個都能加熱食物，但你不會用微波爐烤法國麵包，也不會為了熱一杯牛奶去預熱烤箱。

Ollama 和 vLLM 的關係就是這樣。一個追求方便，一個追求效能。選錯了不會爆炸，但會浪費時間。

先搞懂一件事：為什麼要在自己電腦跑 AI？

用 ChatGPT 就像去餐廳吃飯 — 有人煮、有人端、菜單固定、吃完付帳。方便，但你沒辦法改食譜，而且餐廳會知道你點了什麼。

在自己電腦跑 AI 就像自己下廚 — 食材自己買、份量自己調、沒人知道你今天煮了什麼。代價是要自己洗碗。

具體來說，三個理由讓越來越多人選擇自己跑：

隱私。 你跟 AI 聊的每一句話，都不會離開你的電腦。不用擔心公司機密被拿去訓練模型、不用擔心私人對話被看到。

免費。 模型本身是開源的（就像 Wikipedia — 免費下載、免費使用）。只要你的電腦跑得動，不用付任何月費。

自由。 你可以選要用哪個模型、怎麼調整它的行為。不受任何公司的限制。想用 Google 的模型也行、Meta 的也行，甚至中國的也行。

Ollama — 微波爐派

Ollama 的設計哲學就四個字：能用就好。

安裝它就像裝一個手機 App。在 Mac 上下載、拖到應用程式資料夾、完成。然後打開終端機（就是那個黑底白字的視窗），輸入一行字：

ollama run gemma4:e2b

等它下載完模型（大概要等幾分鐘，看你網速），你就可以開始打字跟 AI 對話了。整個過程不超過三分鐘。

它像什麼？

像手機的 App Store。你想要哪個 AI 模型，就輸入名字下載。Google 的 Gemma、Meta 的 Llama、阿里巴巴的 Qwen — 都在上面，免費。

它擅長什麼？

個人聊天。 你問它問題、它回答你，就像私人版的 ChatGPT
寫作助手。 請它幫你改文章、翻譯、整理筆記
快速實驗。 想試試新出的模型？一行指令下載，不喜歡就刪掉

它的限制

一次只能服務一個人。 就像微波爐一次只能放一個便當。如果你想讓辦公室五個同事同時用，它會排隊 — 一個做完才做下一個
速度有天花板。 因為用的是比較通用的技術，沒有針對你的硬體做特別最佳化。堪用，但不是最快

vLLM — 專業烤箱派

vLLM 的設計哲學是：跑得快、扛得住。

安裝它比 Ollama 複雜得多。你需要先裝 Docker（一個把軟體打包好的盒子 — 想像把整個廚房裝進一個貨櫃，搬到哪裡都能用），然後輸入一長串設定指令，告訴它要用哪個模型、怎麼分配記憶體、開哪個連線埠。

聽起來很麻煩。確實很麻煩。

它像什麼？

像開一間小餐廳的廚房。你不只是在做飯 — 你在架設一個能接單、出餐、同時服務好幾桌客人的系統。

它擅長什麼？

同時服務多人。 三個人同時問問題？沒問題，三個一起處理。實測總速度是 Ollama 的將近三倍
接程式的單。 它內建標準化的接口（想像一個統一的點餐窗口），你寫的程式可以直接叫它做事 — 自動回信、自動分析資料、自動寫報告
極致速度。 同一個模型，vLLM 跑起來比 Ollama 快大約 30%。它會針對你的硬體做特別最佳化，榨出每一點效能

它的限制

門檻高。 要懂 Docker、要會看 log、出了錯要會 debug。不是裝了就能用
設定繁瑣。 模型路徑、記憶體分配、量化格式 — 每一項都要手動設定。搞錯一個參數，可能跑不起來，也可能跑起來但速度不對
GPU 需求更嚴格。 雖然 Ollama 也需要顯示卡，但 vLLM 對顯示卡的相容性要求更高。不是每張卡都能用

數字說話：同一個模型，速度差多少？

拿同一個 AI 模型（Google Gemma 4），放在同一台電腦上，用兩個不同的工具跑。

	Ollama	vLLM	差距
回應速度（一個人問）	每秒 40 個字	每秒 52 個字	vLLM 快 30%
三個人同時問	排隊，還是 40	三個一起跑，共 115	vLLM 快 3 倍
安裝時間	3 分鐘	30 分鐘以上	Ollama 秒殺
出錯時怎麼辦	通常重裝就好	要看 log 找原因	Ollama 友善得多

「每秒 40 個字」是什麼概念？大約是你閱讀速度的兩倍。實際使用上，Ollama 已經夠快了 — 你問完問題，AI 幾乎是立刻開始回答，完整回覆通常在幾秒內出現。

vLLM 的 30% 速度優勢在一個人用的時候感覺不明顯。但如果你要讓 AI 自動化處理大量任務（比如一次分析一百封 email），這 30% 就會累積成很可觀的時間差。

所以我該選哪個？

不用想太多，照這個選：

「我只是想試試在自己電腦跑 AI」 → 用 Ollama。三分鐘裝好，不喜歡隨時刪掉。零風險。

「我想讓 AI 自動幫我做事」 → 用 vLLM。它能接程式的指令，是自動化的基礎。但要有心理準備花半天在設定上。

「我兩個都想要」 → 先裝 Ollama 玩熟。等你明確知道自己需要什麼效能，再加裝 vLLM。它們可以裝在同一台電腦上 — 但不要同時開，就像你不會同時開微波爐和烤箱搶同一個插座。

「我完全不想碰終端機（黑底白字那個）」 → 繼續用 ChatGPT。沒有不好，就是適合不同的人。

三分鐘上手 Ollama

如果你決定試試，這是最快的路：

第一步：安裝。 去 ollama.com 下載，像裝普通軟體一樣安裝。

第二步：開終端機。 Mac 使用者按 Cmd + 空白鍵，搜尋「終端機」，打開它。

第三步：跑你的第一個模型。 輸入這行字，按 Enter：

ollama run gemma4:e2b

等它下載完（第一次要下載 7.2 GB，之後就不用了），你就會看到一個輸入框。打字問它任何問題。

就這樣。你現在有一個跑在你電腦裡的私人 AI 了。

想結束？按 Ctrl + D 或打 /bye。

學到了什麼

花最多時間的地方

把技術名詞翻成人話。「CUDA graphs」「Marlin kernels」「PagedAttention」— 這些對工程師來說是具體的技術，但對一般人來說就是噪音。最大的挑戰是找到正確的比喻：既不能太簡化（會誤導），也不能太精確（會勸退）。

可以帶走的思考框架

「微波爐 vs 烤箱」的比較框架，適用於很多技術工具的選擇：

VS Code vs Vim → 微波爐 vs 烤箱
WordPress vs 自架網站 → 微波爐 vs 烤箱
Notion vs Obsidian → 微波爐 vs 烤箱

每次碰到「兩個工具做差不多的事」，問自己：這次我需要方便，還是需要控制力？

放諸四海皆準的規律

方便和效能永遠是 trade-off。世界上不存在「又簡單又最快」的工具。但大多數時候，「夠快又方便」比「最快但很麻煩」更值得。

接下來

想看硬核技術版本？→ vLLM vs Ollama：同模型為什麼差 30%
想看不同機器跑起來多快？→ Gemma 4 E2B vs E4B 三機實測
LLM 101 下一篇：怎麼選模型 — 那麼多模型，到底該下載哪一個？（敬請期待）

白話版：在自己電腦跑 AI 是什麼意思？

前言

先搞懂一件事：為什麼要在自己電腦跑 AI？

Ollama — 微波爐派

它像什麼？

它擅長什麼？

它的限制

vLLM — 專業烤箱派

它像什麼？

它擅長什麼？

它的限制

數字說話：同一個模型，速度差多少？

所以我該選哪個？

三分鐘上手 Ollama

學到了什麼

花最多時間的地方

可以帶走的思考框架

放諸四海皆準的規律

接下來

常見問題