從 0 開始的 AI Agent 生活 · part 11
[Agent 進階 #11] 把助理的腦換成你家機器上的:從雲端 ChatGPT 換成本地模型
❯ cat --toc
TL;DR
前面這系列,我們的助理大腦一直用雲端的 ChatGPT——好用、省事、適合入門。這篇做一件更進階的事:把那顆腦換成跑在你自己機器上的本地模型(我用 ds4)。重點一句話——換腦不換身體:Hermes 這副身體(記憶、接 LINE、自動跑任務)完全不動,只把後面那顆腦從雲端搬回你家。換來的是整套自主:零雲端依賴、隱私留你這邊、不限額、全在你手上。代價也老實說:本地腦通常較慢(ds4 純吐字約每秒 10 個字),而且要一台夠力的機器。不是人人需要——是你想「完全靠自己」才走這條。
白話導讀:同一個助理,把腦從雲端搬回家
還記得 #3 嗎?我們把助理拆成兩塊:大腦(會思考的 AI 模型)和身體(把腦裝起來、給它記憶跟手腳的 Hermes)。那時我們挑了最省事的組合——大腦直接用你的 ChatGPT。
這篇要動的,只有「大腦」那一塊。
想像你的助理是一個人,腦袋一直是用「電話遠端連線」連到雲端某個超級大腦在幫它想事情。現在我們做的,是把那顆大腦換成你家裡自己養的一顆——身體(手腳、記性、嘴巴)一根線都不拆,只是後面接的那顆腦,從雲端的 ChatGPT,換成跑在你自己機器上的模型。
對你來說,使用起來幾乎一樣:一樣傳 LINE、一樣自動跑任務。差別在背後——從這一刻起,這個助理的「思考」不再經過雲端:它讀你的話、想、回你,全在你家機器上跑。(要提醒的是,你若還掛著 LINE、上網查資料這類工具,那部分仍然會連外——換本地腦換掉的是「腦」這塊,不是整台機器從此斷網。)

前言
入門那七篇把助理養起來、接上 LINE、會自己跑任務了;#9 起進階軌,我們幫它接了眼睛跟耳朵。這篇是另一條路——不加新能力,而是換掉它最核心的那塊:腦。
而且要講清楚一件事:這不是因為 ChatGPT 不好。 ChatGPT 當大腦又快又聰明,我自己入門也是這樣用、也推薦你這樣起步。這篇要做的是另一種選擇——把整套變成完全自主:不靠任何雲端、資料不出門、沒有用量天花板。想要這份「全部在自己手上」的人,才會想換本地腦。它有代價,我也會老實講。
為什麼有人要把腦換成本地的
明明雲端 ChatGPT 又快又好,為什麼有人要費這個功夫?三個理由:
一、隱私——資料不出你家。 你跟雲端助理講的每句話,都會傳到別人的伺服器去處理。多數時候沒差,但如果你讓助理碰你的私人筆記、財務、工作機密,你可能會希望這些東西從頭到尾沒離開過你的機器。本地腦做得到:對話在你電腦裡產生、在你電腦裡運算、在你電腦裡回給你——餵進模型的內容,一個字都不外傳。
二、長期成本——不限額、不按次數算錢。 雲端模型多半有用量上限或按用量收費。如果你的助理很忙——每天跑很多自動任務、處理很多訊息——這些會累積。本地腦跑在你自己機器上,電費以外不再多花一毛、也沒有「這個月額度用完了」。養得越兇越划算。
三、掌控——整套真的是你的。 雲端服務的規則、價格、能不能用,都不是你說了算。哪天對方改條款、漲價、限制某些用途,你只能配合。本地腦不會——它在你硬碟上,誰也關不掉、改不了。對「想完全靠自己」的人,這點最重要。

換腦不換身體:怎麼接
這是整篇最關鍵、也最讓人安心的一句話:身體完全不用動。
回想 #3——Hermes 是身體,它本來就不在乎那顆腦是誰。對 Hermes 來說,大腦只是「一個我可以把問題丟過去、它會把答案丟回來的地址」。雲端 ChatGPT 是一個地址,你家機器上的模型也是一個地址。換腦,就是把這個地址從雲端改成你家。
實際上要做的事,概念上就三步:
- 在你機器上把一顆模型跑起來,讓它在本機開一個服務(一個本機地址,像
你的電腦:某個埠號)。這一步是換本地腦真正的功夫所在——你得有一台夠力的機器,把模型載進去、讓它待命。我自己跑的是 ds4 這種在本機跑的模型。 - 告訴 Hermes 新的大腦地址:把它原本指向雲端的設定,改成指向你機器上那個窗口。
- 重啟一下讓設定生效,助理的腦就換好了。
具體的指令、設定檔位置、要填哪幾欄,依你的 Hermes 版本和你用的 provider 而定,這裡不寫死。觀念上你只要記住:你是在 Hermes 的「大腦設定」裡,把一個雲端地址換成一個本地地址。其餘記憶、LINE、排程任務全部原封不動。
換完之後,你傳 LINE、它自動跑任務——一切照舊。唯一變的是:從此這顆腦在你家,不在天上。

代價:比較慢,而且要一台夠力的機器
換本地腦也是有代價的,兩個缺點要先知道。
代價一:通常比較慢。 雲端 ChatGPT 跑在資料中心一整櫃頂級顯卡上,你家一台機器很難拚過。具體有多慢?我拿自己的本地腦 ds4 實測——它「純吐字」的速度大約每秒 10 個字(技術上叫 10 tok/s)。聽起來確實比雲端慢。
但這裡有個很重要、容易被那個數字嚇到的真相:當助理用,沒想像中卡。 原因是這顆腦很會「記住」前面講過的話——長對話接下去時,它不用把前面幾萬字重新讀一遍再回你,而是直接接著想。實測下來,大概一半的回合在五到十五秒內就回完了,手感是順的。真正會卡的是「冷啟動」那種狀況(剛開機第一句、或換了全新話題),偶爾要等個一兩分鐘。所以真實體驗是雙峰:熱起來很順、偶爾卡一下,不是從頭到尾都慢。
一句話總結:帳面數字「每秒 10 個字」聽起來不能用,但實際當助理跑,它幾乎不用重新計算前面的對話,多數時候幾秒到十幾秒就回——慢是真的,但堪用。
代價二:要一台夠力的機器。 本地腦要跑得動,得有一台能塞下一顆中大型模型的機器——不錯的顯卡,或像某些新機種那樣有大容量的統一記憶體。一般文書筆電通常扛不動夠聰明的腦。這是門檻,也是為什麼這條路不適合所有人。
所以這篇不是要你一定要換。 入門用雲端 ChatGPT 完全沒問題、而且更省事。本地腦是給「願意為了完全自主,接受慢一點、並且手邊有夠力機器」的人準備的。
什麼人適合走這條
簡單一個判斷:
- 入門、求方便、機器普通 → 繼續用雲端 ChatGPT 就好。 快、省事,這系列 #1–#7 那套就很夠。
- 在意隱私、助理很忙想省長期成本、想完全掌控、而且有一台夠力的機器 → 可以考慮換本地腦。 你會用「慢一點 + 一台好機器」換到「整套自主、零雲端依賴」。
沒有對錯,只是要不要這份自主、付不付得起這個代價。
收穫
換腦不換身體,是整套設計的好處
因為 #3 早就把助理拆成「腦 + 身體」,今天才能只換腦、身體一根線不拆。這就是一開始選對架構的回報——腦可以換、可以升級、可以從雲端搬回家,身體始終是你那一副。
慢不慢,要看真實使用,不要被一個數字嚇跑
「每秒 10 個字」單看很嚇人,但當助理跑,它很會記住前文、不用重算,多數回合幾秒就回。別用一個帳面數字判生死,要看你實際怎麼用它。
自主是一種選擇,不是更高級
把腦搬回家換到隱私、不限額、完全掌控;代價是慢一點、要好機器。這是取捨,不是升級。 想清楚你要的是「方便」還是「自主」,再決定走哪條——兩條都是對的。
結論
- 換本地腦 = 把助理的大腦從雲端 ChatGPT,換成跑在你自己機器上的模型(ds4 之類)。
- 換腦不換身體:Hermes 的記憶、LINE、排程任務全部不動,只把「大腦地址」從雲端改成本地。具體指令依你的 Hermes 設定/provider 而定。
- 換來的是整套自主:隱私(資料不出門)、不限額(省長期成本)、完全掌控。
- 代價誠實講:本地腦通常較慢(ds4 約每秒 10 個字,但靠記住前文,多數回合幾秒到十幾秒回,冷啟動偶爾卡)+ 要一台夠力的機器。
- ⚠️ 不是人人需要:入門求方便就用雲端;想「完全靠自己」且有好機器,才走這條。
同系列:
- 入門 #1–#7:從「助理是什麼」到「裝起來、接 LINE、自動跑任務」
- #3:我們的固定組合——ChatGPT 大腦 + Hermes 身體——這篇講為什麼入門用雲端 ChatGPT;本篇是「換成本地腦」的進階版
- 進階軌 #9:讓你的 AI 助理看得到、聽得到——同一副身體,外掛眼睛跟耳朵
常見問題
- 把助理的腦換成本地模型,是 ChatGPT 不夠好嗎?
- 不是。ChatGPT 當大腦很好用,我們前面整套都靠它。換成本地模型是為了另一件事——「完全自主」:不依賴任何雲端、資料不出你家、沒有用量上限、整套掌握在自己手上。這是取捨,不是升級,看你要不要這份自主。
- 本地腦會比較慢嗎?
- 通常會。雲端的 ChatGPT 跑在資料中心的頂級顯卡上,你家機器很難比。我自己的本地腦(ds4)純吐字速度大約每秒 10 個字,比雲端慢。但實際當助理用沒想像中卡——因為它很會「記住」前面的對話,長對話接續時不用每次重算,多數回合幾秒到十幾秒就回來了。
- 換本地腦要準備什麼?
- 一台夠力的機器(要有不錯的顯卡或統一記憶體,跑得動一顆中大型模型),加上一個能對外提供模型的本地服務。Hermes 這邊只要把「大腦的地址」從雲端改成你機器上那個地址就好,身體完全不用動。具體指令依你的 Hermes 版本與 provider 設定而定。