DGX Spark · part 21
[Benchmark] 繁中 LLM 實測:Qwen 3.6 35B 在 TMMLU+ 51 個子科目全勝 Gemma 4 26B
❯ cat --toc
TL;DR
兩個 MoE 模型,一台 DGX Spark,22,690 題繁中選擇題。Qwen 3.6 35B-A3B:75.07%。Gemma 4 26B-A4B:46.30%。 Qwen 51 個子科目全勝,0 敗。「Google 繁中比較好」的直覺撐不過實測——連台灣地理這種主場題目,Qwen 都贏 41.9 分。兩個模型唯一共同弱點是台語(接近隨機)。
白話版:一份不會考慮模型面子的考卷
TMMLU+ 是台灣 iKala 做的一份繁中考卷。22,690 題、66 個科目,從國小一路考到律師國考、獸醫國考。要考得好不只要懂繁體中文,還要懂台灣文化、台灣地理、台灣的法律制度。
我把兩個開源 MoE 模型——Google 的 Gemma 4 26B-A4B 跟阿里的 Qwen 3.6 35B-A3B——丟進同一台機器、同一套 harness、跑同樣的題目。各跑大概 3.6 小時。
結果不是普通的差距。Qwen 75 分、Gemma 46 分,差快 30 分。Qwen 每一個科目都贏。
唯一兩個都爛的:台語。33 分跟 42 分,跟亂猜(25%)差不多。這不是模型不夠強,是資料根本不夠——台語書寫沒統一標準,公開語料量小到對 35B 模型沒意義。
前言
我原本的預設是 Qwen 在繁中會比 Gemma 差。Qwen 訓練語料以簡中為主,Google 在台灣搜尋市場做了二十年——直覺上 Gemma 該有優勢。但這個假設沒人在當代模型上對齊過,所以只能算軟性印象。
然後 Codex 在一個 /debate session 打我說:你一直在講「Gemma 繁中應該比較強」,但你沒 benchmark 數據撐這個說法。
合理。所以我去拿了數據。
Setup:lm-eval-harness + vLLM + DGX Spark
硬體: NVIDIA GB10(DGX Spark),128GB unified memory,ARM64 Grace
Harness: lm-evaluation-harness(EleutherAI)
Backend: local-completions API 打 vLLM Docker container
量化: FP8 Dynamic(RedHatAI / Qwen 官方)
Few-shot: 5
Concurrency: 8
Dataset: ikala/tmmluplus(22,690 題,66 個科目)
lm_eval \
--model local-completions \
--model_args base_url=http://localhost:8000/v1/completions,model=$MODEL,tokenizer=$PATH,num_concurrent=8 \
--tasks tmmluplus \
--num_fewshot 5 \
--output_path ~/tmmlu-runs/$MODEL \
--trust_remote_code
一個地雷:datasets>=4 已經把 loading script 砍了,TMMLU+ 還在用 tmmluplus.py builder script。第一次跑爆 RuntimeError: Dataset scripts are no longer supported。降版 datasets==2.21 就過。如果你跑舊一點的 HF dataset 也踩到一樣的雷,先 pin 版本。
75.07% vs 46.30%,Gemma 一個都沒贏
| Gemma 4 26B-A4B | Qwen 3.6 35B-A3B | Δ | |
|---|---|---|---|
| 總分 | 46.30% | 75.07% | +28.77 |
| STEM | 54.37% | 77.89% | +23.52 |
| 人文 | 41.07% | 65.23% | +24.16 |
| 其他 | 41.20% | 72.14% | +30.94 |
| 社會科學 | 50.77% | 80.72% | +29.95 |
51 個 paired 子科目,Qwen 贏 51 個。Gemma 贏 0 個。
對照 2024 年凍結的 TMMLU+ 官方 leaderboard:
| 模型 | TMMLU+ |
|---|---|
| GPT-5 | 88.60 |
| Qwen 3.6 35B-A3B(這次跑) | 75.07 |
| gpt-oss:120b | 69.14 |
| Gemini-1.5-pro | 64.65 |
| Qwen-72B(舊代 Qwen) | 64.27 |
| Gemma 4 26B-A4B(這次跑) | 46.30 |
Qwen 3.6 35B-A3B 用 3B active 打贏舊代 Qwen-72B(72B dense)11 分。Gemma 4 26B 比舊 Qwen-72B 還差 18 分。
台灣專屬題目:以為 Gemma 會贏的地方
我原本的直覺是:Google 在台灣搜尋市場高,繁中索引深,Gemma 應該比訓練資料偏中國的 Qwen 更懂台灣專屬內容。
實測:
| 科目 | Gemma | Qwen | Δ |
|---|---|---|---|
| 台灣地理 | 40.8 | 82.7 | +41.9 |
| 高職自然 | 54.0 | 88.9 | +34.9 |
| 高職設計 | 53.3 | 86.2 | +32.9 |
| 高職國文 | 66.5 | 90.5 | +24.0 |
| 高職數學 | 29.3 | 46.7 | +17.3 |
| 傳統中醫臨床 | 41.0 | 78.4 | +37.4 |
| 中文語言文學 | 33.7 | 76.4 | +42.7 |
每一個我抓出來看的台灣專屬科目,Qwen 都贏 17 到 42 分。「Google 有更多繁中資料」的假設碰到實測直接死。
合理推測:Qwen 訓練語料量大到一個程度,就算主體是簡中,跨字體 transfer 到繁中還是比 Google 為 Gemma 挑出來的繁中子集更有用。量大 + 髒 > 量小 + 乾淨——當兩家都不夠認真。
共同死穴:台語
唯二讓兩個模型一起跌的科目:
| 科目 | Gemma | Qwen | 隨機基準 |
|---|---|---|---|
| 台語(Hokkien) | 32.6 | 41.9 | 25.0 |
Qwen 還是贏 9.3 分,但 41.9% 只比亂猜高 17 分——任何 production 場景都不能用。
這不是花一個週末 fine-tune 就能解的問題:
- 書寫沒標準。台語有 POJ(教會羅馬字)、漢羅、全漢、台羅、注音閩南語——不同社群、不同正字法。
- Tokenizer 沒有原生台語 token。Qwen 跟 Gemma 對很多台語字會 fallback 到 byte-level,token 效率極差。
- 公開語料太小。PTT 台語板、台文戰線、自由時報台語專欄、台日大辭典加起來大概只有幾百 MB。對 35B 模型完全不夠。
如果你要做台語應用,看 Yentinglin 的 Taiwan-LLM 系列——他們花好幾年蒐集台灣語料。在 Qwen 3.6 上面做 LoRA 不會贏過他們,自己一個人重做也是在重新發明已經被學界做得更好的輪子。
收穫
最花時間的地方
datasets>=4 砍了 loading script。第一次跑直接爆 RuntimeError: Dataset scripts are no longer supported, but found tmmluplus.py。降到 datasets==2.21 就解。如果你跑任何老一點的 HF dataset 而它還在用 builder script,一開始就 pin 版本。
可搬走的診斷方法:paired eval 不能省
單一模型分數沒有 paired baseline 就是噪音。Qwen 3.6 75% 聽起來很猛。Gemma 4 26B 46% 聽起來很爛。但只有同一套 harness、同一台硬體、同一天跑出來的兩個數字,你才知道哪個是模型訊號、哪個是 benchmark 訊號。配對也能讓你看出「分數意外高/低」是模型本身、還是 benchmark 結構造成的。
通用原則
「X 在 Z 任務的訓練資料應該比 Y 多」這種 prior,動手前先跑 paired benchmark。對訓練語料組成的直覺,多半繼承自別人的印象,不是當代模型的實測。我這次 prior 直接錯了 28 分。
結論
April 2026 在地端選繁中模型的 checklist:
- 繁中寫作、blog、辯論預設選 Qwen 3.6 35B-A3B FP8。在 DGX Spark 上 3B active 跑得快,TMMLU+ 比 Gemma 高 28 分。
- 英文 coding agent 選 Gemma 4 26B-A4B(SWE-bench Lite 38.67%、有 audio 多模態、VRAM 較省)。
- 台語應用 Yentinglin 的 Llama-3-Taiwan-70B 或接受能力差距。Qwen 跟 Gemma 都不行。
- 決定主力模型前先跑 paired benchmark。「哪個中文比較好」這種共識針對當代模型沒人重新校準過——我自己的直覺差了 28 分。
Run config、完整子科目分數、對比 script 都在 GX10 的 ~/tmmlu-runs/ 下。兩個 results_*.json 各 30KB,整套 paired 跑完大概 7 小時。
同系列:
常見問題
- TMMLU+ 是什麼?為什麼測繁中要用它?
- TMMLU+ 是 iKala 做的繁體中文選擇題 benchmark,22,690 題、66 個科目,從國小到專業考照(律師、醫師、會計師、獸醫)。包含台灣專屬內容像台灣地理、台語、高職國文。其他中文 benchmark(C-Eval、CMMLU)都是簡中、中國語境,TMMLU+ 是少數真的測「這個模型懂不懂台灣」的考題。
- Qwen 真的 51 個科目全勝?沒有一個 Gemma 贏的?
- 對,51/51 全勝。最小差距是邏輯推理(+8.6 分),最大差距是餐飲技術(+43.5 分)。總分 Qwen 75.07% vs Gemma 46.30%,差距 28.77 個百分點。
- Google 不是繁中資料比阿里巴巴多嗎?怎麼會輸?
- 我自己原本也是這個直覺,預設 Qwen 在繁中會輸(簡中為主訓練 + Google 在台灣搜尋市場深耕)。Codex 在 /debate session 打我說「你這直覺沒 benchmark 數據撐」。這次跑就是補數據。結果連台灣地理 +41.9 分、傳統中醫 +37.4 分這種台灣專屬題目,Qwen 都贏。「Google 繁中 corpus 比較好」的假設碰到實測直接破。
- 兩個模型有共同的死穴嗎?
- 有,台語(Hokkien)。Gemma 32.6%、Qwen 41.9%——兩個都接近隨機(25%)。台語書寫沒有標準(POJ、漢羅、全漢、台羅混雜),公開語料總共大概只有幾百 MB。fine-tune 救不了,是資料本身不夠。要做台語應用要去找 Yentinglin 的 Taiwan-LLM 系列。