Gemma 4 on a GTX 970 — 系列文章

~ / blog / series / Gemma 4 on a GTX 970

❯ ls ~/blog/series/gemma-4-on-a-gtx-970

4 篇文章

#日期閱讀標題
12026-06-0910m
[趣味競賽] GTX 970 跑 Gemma 4 E2B：最大的量化檔反而最快（47.6 tok/s）
在 2014 年的 GTX 970 上跑 Gemma 4 E2B 四種量化。3.2GB 的 QAT Q4_0 反而比 2.9GB 的 Q2_K 快（47.6 vs 32.8 tok/s）——因為沒有 tensor core 的 Maxwell 老卡卡在解量化，不是卡頻寬。
22026-06-099m
[趣味競賽] 把 GTX 970 變語音助手：Gemma 4 E2B 多模態 + Piper TTS，端到端 2.8 秒
一張 2014 年的 GTX 970 跑 Gemma 4 E2B（看圖 + 聽聲音）再接上 Piper TTS——一個會看、會聽、會說、會寫 code 的完整離線語音助手。端到端約 2.8 秒，硬體約 NT$500。
32026-06-149m
[趣味競賽] 在 GTX 970 上，Flash Attention 讓長 context 的 decode 接近翻倍（24.3 → 42.5 tok/s）
在沒有 tensor core 的 Maxwell GTX 970 上跑 Gemma 4 E2B，開 Flash Attention 讓長 context 的 decode 接近翻倍（24.3 → 42.5 tok/s），還省了約 430MB VRAM；而 q8 KV cache 幾乎沒省到記憶體、還拖慢 decode。一般的 KV cache 常識整個翻過來。
42026-06-1413m
[趣味競賽] 用一張 GTX 970 架部落格 RAG 客服：不裝 torch、不用向量資料庫、不碰 LangChain
幫部落格做一個 RAG 客服 bot，跑在一張 2014 年的 GTX 970 加一個約 600MB 的 embedding 模型。embedding 走 llama.cpp 在 CPU 上跑、檢索用 numpy 暴力算 3,475 條 chunk、護欄靠嵌入分數閘、對外走 Cloudflare Tunnel。