改裝 22G 的 2080 Ti 到底改了什麼?為什麼是 22 不是 24?

2080 Ti 是 352-bit 記憶體匯流排 = 11 條 32-bit channel,原廠每條掛一顆 1GB(8Gb)的 GDDR6,所以是 11GB。改裝就是把這 11 顆全換成 2GB(16Gb)的顆粒,11 × 2GB = 22GB。所以才是 22 這個怪數字,不是整數 24——這正是「真的是 2080 Ti die 改的」指紋。工序是 BGA 返修(熱風拆顆粒→植球→焊上高容量顆粒)加上刷一版認得新容量的 VBIOS。

改裝只翻容量,那它會變快嗎?

不會。改裝動的是顆粒容量,沒動匯流排寬度、也沒換更快的顆粒,記憶體頻寬一樣是 ~616 GB/s。你買的是「裝得下 27B + 長 context」的空間,不是速度。對拿來跑大模型來說,容量先卡死你,所以這筆划算;但別期待它變成更快的卡。

一台 16GB RAM + 6 核 CPU 的老桌機,真的能 24/7 掛一個 agent 腦嗎?

能,但瓶頸跟你想的不一樣。GPU 那邊塞得下:Qwen3.6-27B Q4_K(約 15.7GB)+ 128K KV 剛好進 22G、留約 2GB。常駐靠 Windows SYSTEM 排程開機自動拉起 :8080。真正卡住你的是那顆只有 6 核的便宜 CPU——任何吃 CPU 的活直接在這台上跑,會把 decode 從 ~40 拖到 10 出頭,所以腦要從別台機器遠端驅動。

這是在叫人去買改裝顯卡嗎?

不是。改裝卡有真風險:第三方拆焊植球品質參差、改版 VBIOS 的穩定性、高容量顆粒散熱更吃緊、沒有原廠保固。這篇是一條撿便宜的實測路線,不是推坑。到貨先跑 VRAM 壓力測試,別當神卡。

[趣味競賽進階 #1] 老將漢升(GTX 970)退場,天水的麒麟兒(RTX 2080Ti 22G)登場:NT$11k 改裝卡養一顆 27B agent

TL;DR

GTX 970 那系列結尾我留了一句話:同一個 SWA 機制讓那張 2014 老卡撐 64K context 幾乎免費,大到我甚至認真想過「在十一年前的卡上掛一個 Hermes agent」——但誠實標了「不建議,E2B 太小」。這篇就是接著那條線往下走:老卡掛不動,那就去二手市場撈一張改裝 22G 的 RTX 2080 Ti(淘寶標價 ¥2079,到手含海運雜費約 NT$11,000)來掛。同一台廉價老桌機——Ryzen 5 3500X 六核、16GB RAM——主機什麼都沒換,只換了一張卡 + 退掉 WSL 改成 native Windows,腦力就從「邊緣跑得動 4B」跳到「常駐一顆 27B agent」。改裝的怪數字 22(不是 24)是它的指紋:352-bit = 11 條 channel,每顆 1GB 換成 2GB = 22GB。它只翻容量、不動頻寬(一樣 ~616 GB/s),所以買的是空間不是速度。重點不是圓夢、也不是買到神卡,是用合理價錢挖到剛好夠用的好料的那種爽——連帶一個很反直覺的工程教訓:家機掛 agent,真正卡你的常常不是 GPU。

白話導讀:換一張二手改裝卡,老桌機就養得起一個真 agent

家裡那台舊桌機,要花多少錢,才能掛得動一個「永遠在線、會幫我做事」的 agent?新卡太貴;我上一系列那張 2014 年的 GTX 970 又太小,當時我自己都誠實標「想掛 agent 但不建議」。

這篇是中間那條路:二手市場有一種「改裝 22G」的 RTX 2080 Ti——把一張 2018 年的卡,記憶體容量灌成兩倍。一張 ¥2079,到手約台幣一萬一。它剛好踩在一個很甜的門檻上:塞得下一顆 27B 的模型 + 長 context,於是同一台沒換過零件的廉價老桌機,突然就養得起一顆常駐的 agent 腦。

而且這張卡一點都不冷門,反而很搶手——2026 這個 VRAM 跟 RAM 雙雙漲到肉痛的大環境下,新卡貴、記憶體也貴,「用合理價錢生出一張大顯存的卡來跑本地模型」幾乎變成首選,改裝 22G 2080 Ti 正好卡在那個甜蜜點上。所以這不是挖到沒人要的冷門貨,是大環境逼出來的熱門解。

不是圓夢、不是還願、也不是「買到賺到的神卡」。就是 bargain-hunter 翻到便宜好料、剛好夠用的那種快樂。下面講它是什麼、怎麼改的、以及把它變成「真的能 24/7」時一個很反直覺的瓶頸。

前言:接著 GTX 970 那句「想掛 agent 但不建議」

GTX 970 系列我寫了四篇,結尾在 Part 3 留了一段我自己覺得很浪漫的話:讓 q8 KV 變沒意義的同一個 sliding-window 機制,也讓那張卡撐 64K context 幾乎不吃記憶體——64K 夠大,大到你甚至會認真起念「在這張 2014 年的卡上掛一個 Hermes agent」。然後我誠實補了一句:基本上不建議,E2B 太小、SWA 的窗也擺在那,當輕量小幫手可以,當真正的 agent 腦會卡。

那句「不建議」就是這篇的起點。

老卡掛不動真正的 agent,有兩條路。一條是買新卡——但要一張塞得下大模型 + 長 context 的卡,價格直接勸退。另一條是去二手市場找 CP 值高的。我走了第二條,撈回一張改裝 22G 的 RTX 2080 Ti。

借個三國的梗:這像老將漢升(黃忠)退場、天水的麒麟兒(姜維)登場。GTX 970 是那位老當益壯、撐到最後的老將;改裝 2080 Ti 是接棒的少帥——年資沒新到哪去(Turing 也 2018 年了),但便宜、夠用、剛好補上老將撐不住的那塊。換血不靠砸大錢請新人,靠在二手市場撈到一個剛好合用的。

改裝 22G 的 RTX 2080 Ti(技嘉 Turbo 鼓風扇版),全新盒裝——所謂「麒麟兒」就是這張二手改裝卡

同一台機,只換了一張卡

最反差的地方在這裡:除了顯卡,這台 forge 什麼都沒換。

	GTX 970(舊腦)	2080 Ti 22G(現腦)
架構	Maxwell `sm_52`(2014)	Turing `sm_75`(2018)
Tensor core	沒有	有(Turing 強化版,承自 Volta)
VRAM	4GB(約 3.5GB 可用)	22528 MiB(改裝 22G)
記憶體頻寬	約 224 GB/s	約 616 GB/s
養得動的腦	約 1–4B Q4(邊緣塞)	27B Q4_K @128K 常駐

主機板、CPU、RAM、機殼,全留著:還是那顆 Ryzen 5 3500X 六核、還是 16GB RAM(實際量到 15.93 GB)。整個升級就兩件事:換一張卡,把跑在 WSL2 裡的環境退掉、改成 native Windows 11。

同一台主機只換一張卡:CPU(Ryzen 5 3500X 六核)、16GB RAM、主機板、機殼都沒動,GPU 從 GTX 970 4GB 換成改裝 2080 Ti 22G,養得動的腦從 ~4B 跳到常駐 27B @128K

這就是這張卡好玩的地方:腦力暴漲,但底下還是同一台廉價老桌機。沒有「為了跑 AI 重組一台」,就是換了顆能裝得下大腦的眼窩。

改裝 22G 的 2080 Ti,到底改了什麼

先說清楚:原廠 RTX 2080 Ti 是 11GB。nvidia-smi 在這張上報的是 22528 MiB,差不多 22GB——容量翻倍。它不是 NVIDIA 出的型號,是第三方改裝。

改的是這個:

2080 Ti 用 352-bit 記憶體匯流排 = 11 條 32-bit channel。原廠每條掛一顆 1GB(8Gb)的 GDDR6,所以 11 條 × 1GB = 11GB。
改裝就是把這 11 顆全換成 2GB(16Gb)的顆粒,11 × 2GB = 22GB。
所以是 22,不是整數 24——這個怪數字本身就是「真的是 2080 Ti 的 die 改出來的」指紋。一張掛 24GB 的卡通常是 384-bit(12 channel)的別張卡;22 這個數字,只有 11 channel × 2GB 才湊得出來。

工序是硬功夫:BGA 返修——用熱風或紅外把原廠顆粒整顆拆下來、植球、再把高容量顆粒焊回去——加上刷一版改過的 VBIOS,讓卡認得新容量跟對應的 timing(VBIOS 沒刷對,卡會看不到多出來的記憶體、甚至開不了機)。

我這張賣場頁標的是技嘉(GIGABYTE)Turbo 的散熱,賣點寫「核心 300A、满血、满供电、尾部供电、带 type-c」。翻成白話:

核心 300A = TU102-300A 這顆 bin(是 SKU/bin 標籤,不是完整 die)。要講精確:2080 Ti 不是用完整的 TU102 die——完整 die 是 4608 個 CUDA core、384-bit 介面,2080 Ti 是這顆 die 砍掉一部分後的版本,4352 個 CUDA core、352-bit(11 channel)匯流排。所謂「满血」是指這張是 2080 Ti 該有的完整零售規格,不是被進一步閹割的縮水版,不是說它是完整的 die。
满供电 / 尾部供电 = 供電相數補滿、供電接口移到卡尾。
带 type-c = 那顆 VirtualLink USB-C。

改裝只翻容量、不動頻寬:11 條 channel 的顆粒從 1GB 換成 2GB(11×2GB=22GB);352-bit 匯流排與 ~14 Gbps 顆粒速度都不變,所以記憶體頻寬一樣 ~616 GB/s——買的是空間不是速度

最關鍵的一點,也是這張卡的本質:改裝只翻倍容量、完全沒動匯流排寬度,顆粒速度等級也維持(~14 Gbps)。所以記憶體頻寬還是 ~616 GB/s,不會變快。你買到的是「裝得下 27B + 長 context」的空間,不是速度。

對「想在家養大模型」這個目的來說,這筆很划算——因為先卡死你的是容量,不是頻寬。但別把它想成更快的卡;它不是。

價格:標價跟到手價差一截(也是個小陷阱)

賣場那一頁很好認:「RTX2080TI 魔改 22G 显卡非矿专业AI训练渲染跑图 CUDA(二手)」,淘寶標價 ¥2079 RMB 起。

淘寶上的改裝卡賣場頁:標價 ¥2079 RMB 起,寫明「魔改 22G、非礦、二手、專業 AI 訓練」,官方直郵海運到台

但別把標價當到手價。跨境買的人都懂這個陷阱:加上海運、雜費、本地取貨,實際到手約 NT$11,000(差不多 US$340)。標價跟到手價中間那段,就是跨境挖寶的隱藏成本——¥2079 是 sticker,NT$11k 才是你真的付出去的數字。寫帳的時候用到手價,別自己騙自己。

值不值,看你拿它對比什麼:對比「一張全新、塞得下大模型的卡」,這便宜得多;對比「一張有原廠保固、規格透明的卡」,你是拿保固跟確定性去換價差。這是 bargain-hunter 的交易,不是無腦撿便宜。

賣場那邊的訊號還算成熟:1 年店保、官方直郵海運到台、超商取貨 / 信用卡 / Apple Pay,頁面寫「显卡回购第 1 名」「全网 2000+」——是一個量產的改裝市場,不是某個人一次性的手作。但店保不是原廠保固,「非矿」也只是賣家的說法,沒辦法驗。

「常駐」是真的:把腦變成開機就在的服務

撿到卡只是第一步。要它變成「真的 agent」,得讓那顆腦 24/7 都在。

現任的腦是 Hina = Qwen3.6-27B Q4_K(qwen36-27b-Q4_K.gguf,約 15.7GB),abliterated,跑在 llama.cpp 上、開 OpenAI 相容的 :8080。為什麼是 27B 不是更大?因為這台只有 16GB RAM + 22G VRAM:27B Q4_K(約 15.7GB)的權重 + 一份量化過(q4)的 128K KV cache 剛好塞進 22G、留約 2GB free(實測 used 約 20.1 / 22.5 GB)。再大就溢出去了。

它靠一個開機就自動拉起的常駐服務跑著:重開機會自動回來、會自我重啟,不用每次手動開。我這邊已經連續跑了兩天多的真實對話——不是 demo 跑一次就關。

真正的瓶頸不是 GPU,是那顆便宜 CPU

最後一個很反直覺的教訓——而且是我第一次在 Windows 上跑 llama.cpp、踩了坑才學到的。

先講那個坑,因為它害我差點誤判整張卡。我遇到的第一個怪問題是:同一顆腦、同一張卡,測出來的速度跟它「實際該有的速度」差一大截。 查半天才發現,是 llama-server 的 process 優先權被排得太低——只要系統上有別的東西在動,Windows 的 CPU 排程就把它往後丟,測速自然難看。把它拉到 High priority 之後,測速才跟實際對得上。在 Windows 上跑本地推理,優先權是個沒人提醒你的隱藏旋鈕:沒設,你會以為這張卡很慢,其實是它根本沒搶到 CPU。

你會以為一台跑 27B 的機器,瓶頸是 GPU。在這台不是。Hina decode 暖機時跑 ~30–40 tok/s(MTP 接受率 0.5–0.75);但只要我直接在 forge 上開 Claude Code / Codex 做事,decode 就掉到 10 出頭 tok/s——這也是上面「測速忽高忽低」的另一個元兇。

這裡有個容易誤會的點:被吃掉的不只是 CPU,還有系統 RAM——但兇手不是模型。 model 本身幾乎不吃系統 RAM(權重全在 VRAM -ngl 99 + mmap;forge 乾淨、沒在做事時,我量到 16GB 只用 ~5.6GB、還剩 10GB)。真正把 RAM 跟 CPU 吃掉、把測速拖歪的,是我在這台上額外開的那些工具(就是那個 Claude Code)。這顆 Ryzen 5 3500X 只有 6 核 + 16GB RAM,旁邊一個吃資源的 process 一上來,推理就被搶得餓肚子,benchmark 也跟著歪。

解法很單純:把 forge 當純推理機,AI 跟工具全部從別台遠端連進去跑,別在這台上做事。 (另:--no-mmap 會把 15.7GB 直接灌進 16GB RAM → OOM,所以 mmap 不能關。)

速度的真相:forge 當純推理機才跑得快——純推理(從別台遠端驅動)時 decode ~30–40 tok/s、CPU/RAM 都留給推理;你一在 forge 上開 Claude Code,CPU+RAM 被搶,decode 掉到 ~10、測速也歪。挑卡看 VRAM,但速度看「CPU/RAM 別被搶」+ 優先權設 High

「家機掛 agent」很反直覺的一課:挑卡時你盯著 VRAM 跟頻寬,但真正會把體感拖垮的,常常是那顆便宜 CPU——還有 Windows 上那個沒人提醒你的優先權設定。

接下來

這篇是「腦怎麼來的」。它不是無瑕——27B 在 30 tok/s 是真的慢、會在 context 爆掉時 crash 重載(client 那邊吃 503)、TTFT 在 cache miss 時可以拖到分鐘級。這些都是後面幾篇的主題,這裡只點到。

下一篇講一個更挑釁的選擇:我為什麼放棄 100 tok/s 的 Gemma 12B,換成只有 30 tok/s 的 Qwen 27B。快不等於有用——當腦要在長 context 裡持續守一套程序(做完→收尾→標狀態),而不只是回一段漂亮的話,速度根本不是該看的數字。

再往後是硬核篇:把 context 拉到 256K 然後 crash 的偵探故事(對應這篇的 503)、MTP 的 30 tok/s 是怎麼擠出來的、為什麼 30 tok/s 體感比別台的 14 還慢(TTFT)、還有每回合重算的 17K 工具定義稅。

這條線跟 GTX 970 系列是同一個 thesis 的兩半:那邊是「退役的老卡有第二春」,這邊是「一張二手改裝卡,剛好夠養一個真 agent」。都是探索,不是推坑。改裝卡有風險,要誠實標。但用合理價錢撈到剛好合用的好料——那個爽,是真的。

同系列其他篇:

(下一篇)Gemma 12B vs Qwen 27B:我為什麼放棄 100 tok/s 換 30
(硬核篇)把 context 拉到 256K 然後 crash:VRAM 跟 context 的數學

前傳:

GTX 970 系列 Part 3:在老卡上,Flash Attention 讓長 context 的 decode 接近翻倍(結尾那句「想掛 agent 但不建議」就是這篇的起點)