~ / blog / series / DeepSeek-V4-Flash on DGX Spark
❯ ls ~/blog/series/deepseek-v4-flash-on-dgx-spark
3 篇文章
- #日期標題
- 12026-06-12[地端 LLM] 我在 128GB 小盒子上跑了 284B 的 DeepSeek-V4-Flash,然後錯怪了 2-bit
DeepSeek-V4-Flash 是 284B 的 frontier 模型。我用 antirez 的 ds4 引擎 + 非對稱 Q2 在單台 GB10 跑起來,15.6 tok/s。本來以為 2-bit 量化讓它假裝呼叫工具,結果真兇是 runtime 沒接 DSML parser。
- 22026-06-12[地端 LLM] 把 15 tok/s 的 284B 當每天的 agent 大腦:DeepSeek-V4-Flash 怎麼設才舒服
一顆 284B、只有 15 tok/s 的模型,要拿來當每天的 agent 大腦,得先做點準備才用得舒服。server 跟 agent 框架兩邊各一組設定:--no-mmap 冷啟砍到 57 秒、KV disk cache 省一半 prefill、context_length 沒設對整個 session 會炸。
- 32026-06-12[地端 LLM] 權重就是正義:284B 砍到 2-bit,還是比塞得下的小模型強
把 DeepSeek-V4-Flash(284B)壓到非對稱 Q2 才塞進 128GB 小盒子。聽起來像自殺式量化,但它只砍 routed experts、把高精度留在該留的層。實際當 agent 跑 280 輪零退化——權重夠大,2-bit 也壓不垮。