~/blog/llm-101-ollama-vs-vllm

LLM 101 · part 1

[LLM 101] Ollama vs vLLM:在自己電腦跑 AI 的兩條路

2026-04-073 分鐘閱讀#ollama#vllm#llm#本地部署English

TL;DR

Ollama 像微波爐 — 一行指令就能跑 AI,三分鐘上手。vLLM 像專業烤箱 — 設定麻煩但速度快 30%、能同時服務多人。新手先裝 Ollama,有需求再上 vLLM。

白話版:在自己電腦跑 AI 是什麼意思?

你每天用的 ChatGPT、Claude、Gemini,背後都是一個超大的 AI 模型,跑在雲端的超級電腦上。你打字、它回答、資料經過網路來回。這代表兩件事:你要付錢(或看廣告),而且你的對話內容會經過別人的伺服器。

但現在有些 AI 模型小到可以塞進你的筆電裡跑。不用連網、不用付月費、對話內容不出你的電腦。就像你家裡有一台咖啡機,不用每次都去星巴克排隊。

問題是:要用什麼工具來跑這些模型?市面上最常見的兩個選擇是 Ollama 和 vLLM。它們做的事差不多(都是讓你在自己電腦上跑 AI 模型),但設計理念完全不同 — 像 Word 和 LaTeX 的差別。

這篇文章用最白話的方式解釋它們的差異,幫你決定該用哪一個。


前言

你家廚房大概有微波爐也有烤箱。兩個都能加熱食物,但你不會用微波爐烤法國麵包,也不會為了熱一杯牛奶去預熱烤箱。

Ollama 和 vLLM 的關係就是這樣。一個追求方便,一個追求效能。選錯了不會爆炸,但會浪費時間。


先搞懂一件事:為什麼要在自己電腦跑 AI?

用 ChatGPT 就像去餐廳吃飯 — 有人煮、有人端、菜單固定、吃完付帳。方便,但你沒辦法改食譜,而且餐廳會知道你點了什麼。

在自己電腦跑 AI 就像自己下廚 — 食材自己買、份量自己調、沒人知道你今天煮了什麼。代價是要自己洗碗。

具體來說,三個理由讓越來越多人選擇自己跑:

隱私。 你跟 AI 聊的每一句話,都不會離開你的電腦。不用擔心公司機密被拿去訓練模型、不用擔心私人對話被看到。

免費。 模型本身是開源的(就像 Wikipedia — 免費下載、免費使用)。只要你的電腦跑得動,不用付任何月費。

自由。 你可以選要用哪個模型、怎麼調整它的行為。不受任何公司的限制。想用 Google 的模型也行、Meta 的也行,甚至中國的也行。


Ollama — 微波爐派

Ollama 的設計哲學就四個字:能用就好

安裝它就像裝一個手機 App。在 Mac 上下載、拖到應用程式資料夾、完成。然後打開終端機(就是那個黑底白字的視窗),輸入一行字:

ollama run gemma4:e2b

等它下載完模型(大概要等幾分鐘,看你網速),你就可以開始打字跟 AI 對話了。整個過程不超過三分鐘。

它像什麼?

像手機的 App Store。你想要哪個 AI 模型,就輸入名字下載。Google 的 Gemma、Meta 的 Llama、阿里巴巴的 Qwen — 都在上面,免費。

它擅長什麼?

  • 個人聊天。 你問它問題、它回答你,就像私人版的 ChatGPT
  • 寫作助手。 請它幫你改文章、翻譯、整理筆記
  • 快速實驗。 想試試新出的模型?一行指令下載,不喜歡就刪掉

它的限制

  • 一次只能服務一個人。 就像微波爐一次只能放一個便當。如果你想讓辦公室五個同事同時用,它會排隊 — 一個做完才做下一個
  • 速度有天花板。 因為用的是比較通用的技術,沒有針對你的硬體做特別優化。堪用,但不是最快

vLLM — 專業烤箱派

vLLM 的設計哲學是:跑得快、扛得住

安裝它比 Ollama 複雜得多。你需要先裝 Docker(一個把軟體打包好的盒子 — 想像把整個廚房裝進一個貨櫃,搬到哪裡都能用),然後輸入一長串設定指令,告訴它要用哪個模型、怎麼分配記憶體、開哪個連接埠。

聽起來很麻煩。確實很麻煩。

它像什麼?

像開一間小餐廳的廚房。你不只是在做飯 — 你在架設一個能接單、出餐、同時服務好幾桌客人的系統。

它擅長什麼?

  • 同時服務多人。 三個人同時問問題?沒問題,三個一起處理。實測總速度是 Ollama 的將近三倍
  • 接程式的單。 它內建標準化的接口(想像一個統一的點餐窗口),你寫的程式可以直接叫它做事 — 自動回信、自動分析資料、自動寫報告
  • 極致速度。 同一個模型,vLLM 跑起來比 Ollama 快大約 30%。它會針對你的硬體做特別優化,榨出每一點效能

它的限制

  • 門檻高。 要懂 Docker、要會看 log、出了錯要會 debug。不是裝了就能用
  • 設定繁瑣。 模型路徑、記憶體分配、量化格式 — 每一項都要手動設定。搞錯一個參數,可能跑不起來,也可能跑起來但速度不對
  • GPU 需求更嚴格。 雖然 Ollama 也需要顯示卡,但 vLLM 對顯示卡的相容性要求更高。不是每張卡都能用

數字說話:同一個模型,速度差多少?

拿同一個 AI 模型(Google Gemma 4),放在同一台電腦上,用兩個不同的工具跑。

OllamavLLM差距
回應速度(一個人問)每秒 40 個字每秒 52 個字vLLM 快 30%
三個人同時問排隊,還是 40三個一起跑,共 115vLLM 快 3 倍
安裝時間3 分鐘30 分鐘以上Ollama 秒殺
出錯時怎麼辦通常重裝就好要看 log 找原因Ollama 友善得多

「每秒 40 個字」是什麼概念?大約是你閱讀速度的兩倍。實際使用上,Ollama 已經夠快了 — 你問完問題,AI 幾乎是立刻開始回答,完整回覆通常在幾秒內出現。

vLLM 的 30% 速度優勢在一個人用的時候感覺不明顯。但如果你要讓 AI 自動化處理大量任務(比如一次分析一百封 email),這 30% 就會累積成很可觀的時間差。


所以我該選哪個?

不用想太多,照這個選:

「我只是想試試在自己電腦跑 AI」 → 用 Ollama。三分鐘裝好,不喜歡隨時刪掉。零風險。

「我想讓 AI 自動幫我做事」 → 用 vLLM。它能接程式的指令,是自動化的基礎。但要有心理準備花半天在設定上。

「我兩個都想要」 → 先裝 Ollama 玩熟。等你明確知道自己需要什麼效能,再加裝 vLLM。它們可以裝在同一台電腦上 — 但不要同時開,就像你不會同時開微波爐和烤箱搶同一個插座。

「我完全不想碰終端機(黑底白字那個)」 → 繼續用 ChatGPT。沒有不好,就是適合不同的人。


三分鐘上手 Ollama

如果你決定試試,這是最快的路:

第一步:安裝。ollama.com 下載,像裝普通軟體一樣安裝。

第二步:開終端機。 Mac 用戶按 Cmd + 空白鍵,搜尋「終端機」,打開它。

第三步:跑你的第一個模型。 輸入這行字,按 Enter:

ollama run gemma4:e2b

等它下載完(第一次要下載 7.2 GB,之後就不用了),你就會看到一個輸入框。打字問它任何問題。

就這樣。你現在有一個跑在你電腦裡的私人 AI 了。

想結束?按 Ctrl + D 或打 /bye


學到了什麼

花最多時間的地方

把技術名詞翻成人話。「CUDA graphs」「Marlin kernels」「PagedAttention」— 這些對工程師來說是具體的技術,但對一般人來說就是噪音。最大的挑戰是找到正確的比喻:既不能太簡化(會誤導),也不能太精確(會勸退)。

可以帶走的思考框架

「微波爐 vs 烤箱」的比較框架,適用於很多技術工具的選擇:

  • VS Code vs Vim → 微波爐 vs 烤箱
  • WordPress vs 自架網站 → 微波爐 vs 烤箱
  • Notion vs Obsidian → 微波爐 vs 烤箱

每次碰到「兩個工具做差不多的事」,問自己:這次我需要方便,還是需要控制力?

放諸四海皆準的規律

方便和效能永遠是 trade-off。世界上不存在「又簡單又最快」的工具。但大多數時候,「夠快又方便」比「最快但很麻煩」更值得。


接下來

常見問題

Ollama 和 vLLM 差在哪裡?
Ollama 像微波爐 — 一行指令就能跑 AI 模型,適合個人使用。vLLM 像專業烤箱 — 設定比較複雜,但速度快 30%,而且能同時服務好幾個人。
新手應該用 Ollama 還是 vLLM?
新手用 Ollama。安裝只要一行指令,三分鐘就能開始跟 AI 聊天。等你用熟了、有效能需求,再考慮 vLLM。
為什麼要在自己電腦跑 AI?
三個理由:隱私(資料不上傳到別人的伺服器)、免費(不用付月費)、自由(想用什麼模型就用什麼模型)。
Ollama 和 vLLM 可以同時用嗎?
可以裝在同一台電腦,但不建議同時開。兩個程式會搶記憶體和顯示卡資源,速度都會變慢。用完一個再開另一個。