為什麼 --enable-chunked-prefill 讓 vLLM 上的 Qwen3.5-35B 吞吐量掉了 8 倍？

Qwen3.5-35B-A3B 使用 SSM（DeltaNet）遞迴 layer，需要 sequential state 傳遞。Chunked prefill 把 prompt 切成片段，但每個 SSM chunk 都必須從上一個 chunk 接收 hidden state——跨片段的 overhead 不斷累積。實測結果是 47 tok/s 跌到 5.7 tok/s，衰退了一個數量級。

哪些 LLM 架構和 vLLM 的 --enable-chunked-prefill 不相容？

所有含有 recurrent layer 的模型：Mamba、DeltaNet、Mamba2、RWKV、SSM hybrid。包含 Qwen3.5-35B-A3B 和 qwen3-coder-next。標準 Transformer（Llama、Mistral）和純 MoE 模型（GLM-4.7-Flash）可以安全使用。查看 model card 架構說明中是否有 'mamba'、'ssm'、'deltanet' 或 'recurrent'。

如何確認 vLLM 是否在自己沒設定的情況下啟用了 chunked prefill？

某些 vLLM 版本會預設啟用 chunked prefill。執行：docker logs qwen35 2>&1 | grep -i 'chunked'。正確情況是沒有輸出或看到 'Chunked prefill: disabled'。如果看到 'Chunked prefill: enabled'，在 serve command 明確加上 --disable-chunked-prefill。

vLLM 吞吐量崩潰但沒有任何錯誤，如何診斷？

吞吐量崩潰但 server 看起來正常（請求成功、沒有 error），先查 configuration flag，再查 model 和硬體。SSM 模型的第一個嫌疑是 --enable-chunked-prefill。同時也要確認沒有 Ollama 記憶體衝突，以及每個請求是否都帶了 enable_thinking: false。

[vLLM] SSM 模型不能加 --enable-chunked-prefill

TL;DR

在 SSM hybrid 模型（Qwen3.5-35B）上加 --enable-chunked-prefill，吞吐量從 47 tok/s 崩到 5.7 tok/s — 因為 SSM 遞迴層需要序列性的 state 傳遞，chunked 處理會摧毀這個流程。

白話版：為什麼一個「加速」設定反而讓 AI 慢了 8 倍

想像一條生產線。如果每個站的工作互不相干，你可以把工作切成批次平行處理 — 這就是 chunked prefill 對標準 AI 模型做的事。但有些較新的模型（叫 SSM hybrid）運作方式更像接力賽：每個站必須把棒子親手交給下一站。把接力賽切成段，選手花在傳棒子的時間比跑步還多。

這裡發生的就是這樣。一個原本要改善 GPU 使用率的設定 flag，把快速的模型變成比 CPU 還慢。沒有錯誤訊息，沒有 crash — 模型只是靜靜地以八分之一的速度回應。如果你在用 vLLM，而且模型的架構裡有「SSM」、「Mamba」或「DeltaNet」，不要加這個 flag。

前言

流水線讓組裝更快，前提是每個站的東西不需要按順序交給下一站。如果需要，你就把一條生產線變成了一個瓶頸。

--enable-chunked-prefill 加在 SSM model 上就是這樣。這個 flag 在 vLLM 文件裡記載為 Transformer model 的 throughput 最佳化。對 Qwen3.5-35B-A3B 這種 SSM+MoE hybrid 架構來說，它是反最佳化。這篇記錄的是 OpenClaw agent 架構在 vLLM 上跑 Qwen3.5-35B 時，那個把 throughput 砍掉 8 倍的設定失誤。

加了 --enable-chunked-prefill 之後發生了什麼？

Qwen3.5-35B 的 vLLM 遷移已經完成，model 跑在 ~47 tok/s。當時在嘗試為多個 agent 並行工作負載擠出更多 throughput，翻了一下可以調整的 flag。

vLLM 文件裡有提到 --enable-chunked-prefill：把 prefill phase 切成 chunk 和 decode 交錯執行，改善 GPU 使用率。聽起來是個安全的嘗試。加了。

Throughput 從 47 tok/s 掉到 5.7 tok/s。

這是 8.2 倍的衰退。不是誤差範圍，不是測量雜訊。是 throughput 的完全崩潰，從可以正常互動，變成比 CPU 跑還慢。

Flag 沒有讓 vLLM crash，也沒有產生任何錯誤訊息。Server 啟動，接受 request，回傳 response，只是速度是 5.7 tok/s。如果沒有在量 throughput，你可能不會發現，直到 agent 真的開始等待回應。

為什麼 Chunked Prefill 會摧毀 SSM 模型的吞吐量？

Qwen3.5-35B-A3B 是 SSM+MoE hybrid 架構。名字裡的「A3B」代表它使用了 DeltaNet — 一種 state space model 架構，搭配 MoE 層一起運作。這不是標準的 Transformer。

關鍵差異在這裡：

Transformer attention 是並行的。序列裡的每個 token 可以以任何順序處理 — attention 對整個序列做矩陣運算，不在乎順序。把這個切成 chunk 完全沒問題，因為 attention 的計算不依賴任何中間狀態。

SSM（State Space Model）層維護一個 recurrent hidden state h_t，每一步的狀態都依賴前一步：

h_t = f(h_{t-1}, x_t)

這是遞迴。它本質上是序列性的。你沒辦法在不處理 token 1 到 99 的情況下直接處理 token 100，因為 h_100 依賴 h_99，h_99 依賴 h_98，一路往前追溯。

Chunked prefill 把 prompt 切成 segment，以交錯方式批次處理。對純 Transformer 來說沒問題 — segment 之間不互相依賴中間狀態。對 SSM 層來說，每個 chunk 都需要從前一個 chunk 的末端接收 recurrent hidden state，再把新的 state 傳給下一個 chunk。這個跨 chunk 的 state 傳遞是有代價的 — 在每個 segment 邊界都會發生，隨著序列長度增加，chunk 邊界數量增加，累積代價也隨之增加。

在一個很長的序列裡，每個邊界的 hidden state 傳遞 overhead 的總和遠超過任何並行化帶來的收益。throughput 地板很快就到了。實際測量的情況：從一台能跑 47 tok/s 的機器上得到 5.7 tok/s。

哪些模型架構會受影響？

任何有 recurrent layer 的 model（SSM、Mamba、DeltaNet、Mamba2、RWKV 或類似架構）都會受影響。關鍵是 model 架構，不是名字：

Qwen3.5-35B-A3B — SSM+MoE hybrid（DeltaNet 層）— 受影響
qwen3-coder-next 79.7B — SSM+MoE hybrid — 受影響
GLM-4.7-Flash — 純 MoE，標準 attention — 可以安全使用 chunked prefill
標準 Llama/Qwen/Mistral — 純 Transformer — 可以安全使用 chunked prefill

不確定的話，看 model card 或 config.json。如果架構描述裡出現 mamba、ssm、deltanet、state_space、recurrent 這些字眼，就不要加 --enable-chunked-prefill。

如何修正？

把 flag 移掉，就這樣。Qwen3.5-35B-A3B-FP8 的可用啟動指令不包含 --enable-chunked-prefill：

docker run -d --name qwen35 --restart unless-stopped \
  --gpus all --ipc host --shm-size 64gb -p 8000:8000 \
  -v /home/coolthor/models/qwen35-35b-hf:/models/qwen35 \
  vllm/vllm-openai:cu130-nightly \
  --model /models/qwen35 \
  --served-model-name qwen3.5-35b \
  --max-model-len 200000 \
  --gpu-memory-utilization 0.90 \
  --kv-cache-dtype fp8 \
  --calculate-kv-scales \
  --max-num-batched-tokens 4096 \
  --enable-prefix-caching \
  --reasoning-parser qwen3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder
  # 注意：--enable-chunked-prefill 不在這裡

另外確認 vLLM 沒有自動啟用它。某些 vLLM 版本在特定設定下會預設開啟 chunked prefill。檢查啟動 log：

docker logs qwen35 2>&1 | grep -i "chunked"

你希望看到空的輸出，或是 Chunked prefill: disabled。如果看到 Chunked prefill: enabled 但你沒有手動加，明確加上 --disable-chunked-prefill 強制關閉。

換來了什麼

這裡的診斷模式是可以推廣的：throughput 崩潰但沒有 error 時，先查 flag 再查 model。

vLLM throughput 災難性地低、但 server 看起來正常時，第一個懷疑對象是設定 flag，不是 model、不是硬體、不是 CUDA。Model 做的是你告訴它做的事。問題是你告訴它做了什麼。

「我的 SSM model 在 vLLM 上為什麼這麼慢」的 checklist：

確認 serve 指令裡有沒有 --enable-chunked-prefill（或看 log 裡有沒有被啟用）
確認 Ollama 有沒有 model 被載入到共用 GPU 記憶體裡（參見 Ollama KEEP_ALIVE 衝突）
確認 --max-num-batched-tokens 是否符合 SSM block size 要求
確認每個 request 都有帶 enable_thinking: false（thinking token 會燒掉表觀 throughput）

一個 flag 造成 8 倍衰退，這種事不會出現在文件裡，因為它是 flag 和架構類型之間的交互作用，不是 bug。Flag 完全按照設計工作 — 只是它是為另一類 model 設計的。

結語

在加任何 vLLM throughput flag 之前，先查清楚 model 的架構類型。如果有任何 recurrent state（SSM、Mamba、DeltaNet、RWKV），就把 --enable-chunked-prefill 當禁區。這個 flag 不會產生錯誤，也不會警告你，只會讓 throughput 下降一個數量級，然後讓 server 繼續靜靜地跑在 5.7 tok/s。

唯一能抓到這件事的方法，是在每次改 flag 前後都量一下 throughput。

同系列其他文章：Qwen3.5 從 Ollama 遷移到 vLLM · Ollama 的 KEEP_ALIVE 在偷吃你的 vLLM 記憶體空間 · 純 MoE vs SSM Hybrid：Context Decay 與為什麼 Agent 要在乎