~/ai-muninn
blog
github
EN
~ / blog
/
tag / fp8
❯
grep -r "#fp8" ~/blog
12 篇文章
日期
閱讀
標題
2026-05-21
7m
Round 2 EAGLE-3 retrain 沒打破天花板 — 60 小時訓練的 null result + 教訓
#gemma-4
#abliteration
#eagle-3
#speculative-decoding
2026-05-16
9m
Fine-tune EAGLE-3 drafter 在 abliterated Gemma 4 上 — Round 1 拉平 acceptance 曲線(+ 一個 measurement lesson)
#gemma-4
#abliteration
#eagle-3
#speculative-decoding
2026-05-14
4m
在 DGX Spark 上 30 行 docker 拿 +34%:huihui Gemma 4 FP8 + vanilla MTP n=1 部署 recipe
#gemma-4
#abliteration
#mtp
#speculative-decoding
2026-05-09
8m
想用 MTP 加速 abliterated Gemma 4?vanilla draft 對不上被改過的 body
#gemma-4
#abliteration
#mtp
#speculative-decoding
2026-05-06
7m
火箭起飛:Gemma 4 在 DGX Spark 跑出 670 tok/s 總吞吐(單流 108 tok/s)
#gemma-4
#mtp
#speculative-decoding
#vllm
2026-05-04
8m
[實戰] Z-Image Turbo 教戰守則:6 種配置怎麼選,1.37× 加速 + 44% 省 RAM
#z-image
#comfyui
#nvfp4
#fp8
2026-05-04
9m
[實戰] Z-Image Turbo 教戰守則:換配置會崩品質嗎?LPIPS + CLIPScore 雙軸驗證
#z-image
#comfyui
#nvfp4
#fp8
2026-04-28
9m
[llm-compressor] 自量化 abliterated 35B FP8 on DGX Spark:4 次 OOM、3 個 prefix bug、最終 51 tok/s
#dgx-spark
#gb10
#sm121
#llm-compressor
2026-04-22
10m
[實作] 用 Triton 讓 NVFP4 在 GB10 上快 17%:FP8 Tensor Core 繞路攻略
#nvfp4
#fp8
#triton
#dgx-spark
2026-04-21
4m
[Benchmark] NVFP4 在 GB10 上是陷阱:FP8 快 32%(vLLM + SGLang 雙引擎實測)
#nvfp4
#fp8
#dgx-spark
#gb10
2026-04-07
6m
[Benchmark] 從 19 到 50 tok/s:我們搶先做了全球首個 Gemma 4 E4B NVFP4 量化
#gemma-4
#e4b
#nvfp4
#fp8
2026-03-21
3m
[vLLM] GB10 上的 FP8 KV Cache:為什麼輸出會在 500 Token 後崩成重複迴圈
#vllm
#fp8
#kv-cache
#gb10
← 回到所有文章