~/ai-muninn
blog
github
EN
~ / blog
/
tag / speculative-decoding
❯
grep -r "#speculative-decoding" ~/blog
3 篇文章
日期
閱讀
標題
2026-05-09
8m
想用 MTP 加速 abliterated Gemma 4?vanilla draft 對不上被改過的 body
#gemma-4
#abliteration
#mtp
#speculative-decoding
2026-05-06
7m
火箭起飛:Gemma 4 在 DGX Spark 跑出 670 tok/s 總吞吐(單流 108 tok/s)
#gemma-4
#mtp
#speculative-decoding
#vllm
2026-04-28
9m
[llm-compressor] 自量化 abliterated 35B FP8 on DGX Spark:4 次 OOM、3 個 prefix bug、最終 51 tok/s
#dgx-spark
#gb10
#sm121
#llm-compressor
← 回到所有文章