~ / blog / series / LLM 深水區
❯ ls ~/blog/series/llm-深水區
2 篇文章
- #日期標題
- 12026-04-15[LLM 深水區] 量化演算法在做什麼?從 Q4_K_M 到 TurboQuant 的三層拆解
Q4_K_M 用 4 bit 怎麼裝得下 14B 模型?答案不是「切掉 75%」,而是 K-quant 的 super-block 分組、TurboQuant 的隨機旋轉、跟 QJL 的 1-bit sign sketch 三層演算法。一篇講清楚機制,但不推公式。
- 22026-03-30[Benchmark] TurboQuant 實測:KV Cache 3-bit 壓縮,真的零損失?
Google TurboQuant 在 GX10 (GB10/SM121) 上的實測數據 — 3-bit KV cache 壓縮的真實壓縮率、Qwen2.5-3B 精度驗證、以及 Qwen3.5-35B 的 hybrid attention 架構為什麼讓事情變得複雜。