DeepSeek-V4-Flash on DGX Spark — 系列文章

~ / blog / series / DeepSeek-V4-Flash on DGX Spark

❯ ls ~/blog/series/deepseek-v4-flash-on-dgx-spark

10 篇文章

#日期閱讀標題
12026-06-1210m
[地端 LLM] 第一次跑 Q2 就以為模型變笨了 —— 284B DeepSeek-V4-Flash 在 128GB 桌機,真兇是 parser 不認 DSML
DeepSeek-V4-Flash 是 284B 的 frontier 模型。我用 antirez 的 ds4 引擎 + 非對稱 Q2 在單台 GB10 跑起來,15.6 tok/s。本來以為 2-bit 量化讓它假裝呼叫工具,結果真兇是 runtime 沒接 DSML parser。
22026-06-1213m
[地端 LLM] 把 15 tok/s 的 284B 當每天的 agent 大腦:DeepSeek-V4-Flash 怎麼設才舒服
一顆 284B、只有 15 tok/s 的模型,要拿來當每天的 agent 大腦,得先做點準備才用得舒服。server 跟 agent 框架兩邊各一組設定:--no-mmap 冷啟砍到 57 秒、KV disk cache 省一半 prefill、context_length 沒設對整個 session 會炸。
32026-06-126m
[地端 LLM] 權重就是正義:284B 砍到 2-bit,還是比塞得下的小模型強
把 DeepSeek-V4-Flash(284B)壓到非對稱 Q2 才塞進 128GB 小盒子。聽起來像自殺式量化,但它只砍 routed experts、把高精度留在該留的層。實際當 agent 跑 280 輪零退化——權重夠大,2-bit 也壓不垮。
42026-07-0511m
[本地 LLM] 養了一個月,我的 284B agent 悄悄不再快取——ds4 的 evict 風暴,跟每輪重付的 prefill
Part 2 誇的『快取命中就順』hot path,一個月重度 agent 用下來悄悄失效。ds4 的 disk-KV cache 在 GB10 上被兩件事餓死:預算填滿的 evict 風暴,加上 tool-call 那輪根本沒存 checkpoint。一段 14K token 的對話只認得 268 個字,剩下整段重 prefill。這篇拆 log 指紋、上游 PR #489、跟一張證明機制修好的 A/B 驗收。
52026-07-0610m
[本地 LLM] V4-Flash 的 depth-1 MTP:agent 回合 +9%、散文 −4%——推測解碼要看工作型態決定開不開
推測解碼常被當成免費加速,但在 bandwidth-bound 的 GB10 上,它其實是個會變負的取捨。depth-1 MTP 在 DeepSeek-V4-Flash 上無損,但看工作型態:agent 回合 +9.4%、程式碼 +6.5%,散文 −3.6%、中文閒聊 −3.7%。正負號跟著接受率走,因為這裡的吐字卡在驗證(108ms 驗證 vs 4ms 草稿)。不是全域開關,看工作型態開。
62026-07-0710m
[地端 LLM] 284B 塞得進 128GB、長 context 還跑得動:DeepSeek-V4-Flash 打的是 KV cache,不是參數量
DeepSeek-V4-Flash 是 284B 的 MoE,長 context 還能在 128GB 的 GB10 上跑得動,靠的不是權重小,是它天生就在打 KV cache:混合式 attention(SWA + CSA + HCA)把 KV 壓到 64K 只剩 871MiB;lightning indexer 挑的是壓過的 entry、一步只讀幾百列。這篇拆 ds4 的實作,順便講為什麼你沒辦法再靠量化 KV 省記憶體。
72026-07-0912m
[本地 LLM] 我把 FlashMemory 重訓到自己的 Q2 build 上,它還是改善不了 V4-Flash 的 native lightning indexer
DeepSeek-V4-Flash 本來就有一套 native lightning indexer,追真實 attention 追到 93–96%。FlashMemory 會先把候選 chunk 篩小一圈,但直接拿來用跟亂猜沒兩樣;我重訓到自己的 Q2 build 上,也只爬到 89–92%。GB10 上 NO-GO。
82026-07-1010m
[本地 LLM] 怎麼判斷一個被吹爆的 LLM 優化,搬到你機器上是不是真的:讀原始碼、找天花板、跑一個實驗
本地 LLM 圈到處是被吹爆的優化——外掛 sparse-KV 壓縮器、「省 90% 記憶體」。多數搬到你自己的模型上就垮了。三個很便宜的動作判斷哪些是真的:讀原始碼、找真正的天花板、跑一個能定生死的實驗,全部拿 DeepSeek-V4-Flash 上那次 FlashMemory 調查來對照。
92026-07-2110m
[DeepSeek-V4-Flash] 一句好奇,單台 DGX Spark 上白賺半代引擎升級——ds4 換 Entrpi
我只是問 Codex『這個 ds4 repo 有沒有針對單台 GX10 的強化』,結果一個下午,我那台在跑正職的 DGX Spark 就換了引擎(antirez/ds4 的 Blackwell fork,Entrpi)。同一顆 abliterated 模型、什麼都沒換,decode 從 14-16 提到 20、讀 prompt 快約一倍。沿路還實測收掉三個真問題:投機解碼在 abliterated 上為什麼反而更慢、disk-KV 是不是在省記憶體、managed KV 是不是 swap。
102026-07-2510m
[DeepSeek-V4-Flash] 上次那個白賺的引擎升級,後來 OOM 討債:我為什麼把光羽換回舊版
Entrpi 把 decode 從 14-16 拉到 20,代價是把權重存了第二份 78.71G artifacts、塞爆 128G 的 DGX Spark。大 context 一來就 OOM。我讀原始碼、實測、最後換回舊引擎。

← 回到所有文章