~ / blog / series / Gemma 4 on a GTX 970
❯ ls ~/blog/series/gemma-4-on-a-gtx-970
4 篇文章
- #日期標題
- 12026-06-09[趣味競賽] GTX 970 跑 Gemma 4 E2B:最大的量化檔反而最快(47.6 tok/s)
在 2014 年的 GTX 970 上跑 Gemma 4 E2B 四種量化。3.2GB 的 QAT Q4_0 反而比 2.9GB 的 Q2_K 快(47.6 vs 32.8 tok/s)——因為沒有 tensor core 的 Maxwell 老卡卡在解量化,不是卡頻寬。
- 22026-06-09[趣味競賽] 把 GTX 970 變語音助手:Gemma 4 E2B 多模態 + Piper TTS,端到端 2.8 秒
一張 2014 年的 GTX 970 跑 Gemma 4 E2B(看圖 + 聽聲音)再接上 Piper TTS——一個會看、會聽、會說、會寫 code 的完整離線語音助手。端到端約 2.8 秒,硬體約 NT$500。
- 32026-06-14[趣味競賽] 在 GTX 970 上,Flash Attention 讓長 context 的 decode 接近翻倍(24.3 → 42.5 tok/s)
在沒有 tensor core 的 Maxwell GTX 970 上跑 Gemma 4 E2B,開 Flash Attention 讓長 context 的 decode 接近翻倍(24.3 → 42.5 tok/s),還省了約 430MB VRAM;而 q8 KV cache 幾乎沒省到記憶體、還拖慢 decode。一般的 KV cache 常識整個翻過來。
- 42026-06-14[趣味競賽] 用一張 GTX 970 架部落格 RAG 客服:不裝 torch、不用向量資料庫、不碰 LangChain
幫部落格做一個 RAG 客服 bot,跑在一張 2014 年的 GTX 970 加一個約 600MB 的 embedding 模型。embedding 走 llama.cpp 在 CPU 上跑、檢索用 numpy 暴力算 3,475 條 chunk、護欄靠嵌入分數閘、對外走 Cloudflare Tunnel。