LLM 深水區 — 系列文章

~ / blog / series / LLM 深水區

❯ ls ~/blog/series/llm-深水區

2 篇文章

#日期閱讀標題
12026-04-155m
[LLM 深水區] 量化演算法在做什麼？從 Q4_K_M 到 TurboQuant 的三層拆解
Q4_K_M 用 4 bit 怎麼裝得下 14B 模型？答案不是「切掉 75%」，而是 K-quant 的 super-block 分組、TurboQuant 的隨機旋轉、跟 QJL 的 1-bit sign sketch 三層演算法。一篇講清楚機制，但不推公式。
22026-03-304m
[Benchmark] TurboQuant 實測：KV Cache 3-bit 壓縮，真的零損失？
Google TurboQuant 在 GX10 (GB10/SM121) 上的實測數據 — 3-bit KV cache 壓縮的真實壓縮率、Qwen2.5-3B 精度驗證、以及 Qwen3.5-35B 的 hybrid attention 架構為什麼讓事情變得複雜。