~ / blog / series / Qwen3.5-122B on DGX Spark

ls ~/blog/series/qwen3.5-122b-on-dgx-spark

2 篇文章

  • #日期標題
  • 12026-03-19
    [vLLM] Qwen3.5-122B 跑起來了。但只有 14 tok/s。

    修完四個 SM121 NVFP4 bug 之後,Qwen3.5-122B 能跑、輸出正確。然後你看了速度:14 tok/s。沒有 flag 能修它。為什麼——以及在等什麼。

  • 22026-06-11
    [Benchmark] Qwen3.5-122B 在 DGX Spark 加速 100%!

    Qwen3.5-122B-A10B 在 128GB 的 DGX Spark 上,vLLM 怎麼調都卡在 17 tok/s 的 GDN 牆,連 merge 進去的加速 PR 都沒用。我換掉 vLLM、改用 Atlas 引擎跑同一顆解禁 NVFP4 權重,直接翻到 33.9 tok/s(開 MTP 36.5,約 2×)—— 加速 100%,解禁行為原封不動。真正的出口不在量化工具箱裡。