#fp8 — 技術筆記 — ai-muninn

~ / blog / tag / fp8

❯ grep -r "#fp8" ~/blog

16 篇文章

日期閱讀標題
2026-06-058m
[Benchmark] NVFP4 量化砍繁中比砍英文兇兩倍：gemma-4-12B 實測
#dgx-spark #gb10 #gemma-4 #nvfp4
2026-06-046m
[Benchmark] Gemma 4 12B omni 上 DGX Spark:weight-only NVFP4 贏 W4A4,還保住多模態
#dgx-spark #gb10 #gemma-4 #nvfp4
2026-06-019m
[Benchmark] NVFP4 W4A4 在 DGX Spark 上超車 FP8:拔掉 enforce-eager,MoE 從 23 衝到 67 tok/s
#nvfp4 #w4a4 #fp8 #dgx-spark
2026-05-308m
[Benchmark] NVFP4 在 DGX Spark 比 FP8 快 1.5 倍——但贏在壓縮，不是那顆 FP4 運算單元
#nvfp4 #fp8 #dgx-spark #gb10
2026-05-219m
Round 2 EAGLE-3 retrain 沒打破天花板 — 60 小時訓練的 null result + 教訓
#gemma-4 #abliteration #eagle-3 #speculative-decoding
2026-05-1612m
Fine-tune EAGLE-3 drafter 在 abliterated Gemma 4 上 — Round 1 拉平 acceptance 曲線(+ 一個 measurement lesson)
#gemma-4 #abliteration #eagle-3 #speculative-decoding
2026-05-145m
在 DGX Spark 上 30 行 docker 拿 +34%:huihui Gemma 4 FP8 + vanilla MTP n=1 部署 recipe
#gemma-4 #abliteration #mtp #speculative-decoding
2026-05-0913m
想用 MTP 加速 abliterated Gemma 4?vanilla draft 對不上被改過的 body
#gemma-4 #abliteration #mtp #speculative-decoding
2026-05-0611m
火箭起飛:Gemma 4 在 DGX Spark 跑出 670 tok/s 總吞吐(單流 108 tok/s)
#gemma-4 #mtp #speculative-decoding #vllm
2026-05-0414m
[實戰] Z-Image Turbo 教戰守則:換配置會崩品質嗎?LPIPS + CLIPScore 雙軸驗證
#z-image #comfyui #nvfp4 #fp8
2026-05-0411m
[實戰] Z-Image Turbo 教戰守則:6 種配置怎麼選,1.37× 加速 + 44% 省 RAM
#z-image #comfyui #nvfp4 #fp8
2026-04-2814m
[llm-compressor] 自量化 abliterated 35B FP8 on DGX Spark：4 次 OOM、3 個 prefix bug、最終 51 tok/s
#dgx-spark #gb10 #sm121 #llm-compressor
2026-04-2214m
[實作] 用 Triton 讓 NVFP4 在 GB10 上快 17%：FP8 Tensor Core 繞路攻略
#nvfp4 #fp8 #triton #dgx-spark
2026-04-217m
[Benchmark] NVFP4 在 GB10 上是陷阱：FP8 快 32%（vLLM + SGLang 雙引擎實測）
#nvfp4 #fp8 #dgx-spark #gb10
2026-04-079m
[Benchmark] 從 19 到 50 tok/s：我們搶先做了全球首個 Gemma 4 E4B NVFP4 量化
#gemma-4 #e4b #nvfp4 #fp8
2026-03-216m
[vLLM] GB10 上的 FP8 KV Cache：為什麼輸出會在 500 Token 後崩成重複迴圈
#vllm #fp8 #kv-cache #gb10

← 回到所有文章