~/blog/tmmluplus-qwen-vs-gemma-traditional-chinese

DGX Spark · part 21

[Benchmark] 繁中 LLM 實測:Qwen 3.6 35B 在 TMMLU+ 51 個子科目全勝 Gemma 4 26B

2026-04-25更新於 2026-04-264 分鐘閱讀#tmmlu+#繁體中文#qwen-3.6#gemma-4English
cat --toc

TL;DR

兩個 MoE 模型,一台 DGX Spark,22,690 題繁中選擇題。Qwen 3.6 35B-A3B:75.07%。Gemma 4 26B-A4B:46.30%。 Qwen 51 個子科目全勝,0 敗。「Google 繁中比較好」這個直覺撐不過實測——連台灣地理這種主場題目,Qwen 都贏 41.9 分。兩個模型唯一一起跌的是台語(接近隨機)。

白話版:一份不會給模型留面子的考卷

TMMLU+ 是台灣 iKala 做的繁中考卷,22,690 題、66 個科目,從國小一路考到律師國考、獸醫國考。考得好不只要懂繁體中文,還要懂台灣文化、地理、法律制度。

我把兩個開源 MoE 模型——Google 的 Gemma 4 26B-A4B 跟阿里的 Qwen 3.6 35B-A3B——丟進同一台機器、同一套 harness、跑同樣的題。各跑大概 3.6 小時。

結果不是普通的差距。Qwen 75 分、Gemma 46 分,差快 30 分。Qwen 每個科目都贏。

兩個都爛的只有一個科目:台語。33 分跟 42 分,跟亂猜(25%)差不多。這不是模型不夠強,是資料根本不夠——台語書寫沒統一標準,公開語料量小到對 35B 模型沒意義。


前言

我原本的預設是 Qwen 在繁中會比 Gemma 差。Qwen 訓練主要是簡中,Google 在台灣搜尋做了二十年——直覺上 Gemma 該占優勢。但這個假設沒人在當代模型上實際比過,所以只能算個軟性印象。

Codex 在一場 /debate 打我說:你一直在講「Gemma 繁中應該比較強」,但你沒 benchmark 資料撐這個說法。

合理。所以我去拿了資料。


Setup:lm-eval-harness + vLLM + DGX Spark

硬體:        NVIDIA GB10(DGX Spark),128GB unified memory,ARM64 Grace
Harness:    lm-evaluation-harness(EleutherAI)
Backend:    local-completions API 打 vLLM Docker container
量化:       FP8 Dynamic(RedHatAI / Qwen 官方)
Few-shot:   5
Concurrency: 8
Dataset:    ikala/tmmluplus(22,690 題、66 個科目)
lm_eval \
  --model local-completions \
  --model_args base_url=http://localhost:8000/v1/completions,model=$MODEL,tokenizer=$PATH,num_concurrent=8 \
  --tasks tmmluplus \
  --num_fewshot 5 \
  --output_path ~/tmmlu-runs/$MODEL \
  --trust_remote_code

一個地雷:datasets>=4 把 loading script 砍了,但 TMMLU+ 還在用 tmmluplus.py builder script。第一次跑直接爆 RuntimeError: Dataset scripts are no longer supported。降到 datasets==2.21 就過。如果你跑舊一點的 HF dataset 還在用 builder script,一開始就 pin 版本,省麻煩。


75.07% vs 46.30%,Gemma 一個都沒贏

Gemma 4 26B-A4BQwen 3.6 35B-A3BΔ
總分46.30%75.07%+28.77
STEM54.37%77.89%+23.52
人文41.07%65.23%+24.16
其他41.20%72.14%+30.94
社會科學50.77%80.72%+29.95

51 個 paired 子科目,Qwen 贏 51 個,Gemma 贏 0 個。

對照 2024 年凍結的 TMMLU+ 官方 leaderboard

模型TMMLU+
GPT-588.60
Qwen 3.6 35B-A3B(這次跑)75.07
gpt-oss:120b69.14
Gemini-1.5-pro64.65
Qwen-72B(舊代 Qwen)64.27
Gemma 4 26B-A4B(這次跑)46.30

Qwen 3.6 35B-A3B 用 3B active 比舊代 Qwen-72B(72B dense)還高 11 分。Gemma 4 26B 反而比舊 Qwen-72B 還低 18 分。


台灣專屬題目:以為 Gemma 會贏的地方

我原本的直覺是這樣:Google 在台灣搜尋占有率高,繁中索引深,Gemma 應該比訓練偏中國的 Qwen 更懂台灣專屬內容。

實測:

科目GemmaQwenΔ
台灣地理40.882.7+41.9
高職自然54.088.9+34.9
高職設計53.386.2+32.9
高職國文66.590.5+24.0
高職數學29.346.7+17.3
傳統中醫臨床41.078.4+37.4
中文語言文學33.776.4+42.7

每個我抓出來看的台灣專屬科目,Qwen 都贏 17 到 42 分。「Google 有更多繁中資料」的假設碰到實測直接死。

合理推測:Qwen 訓練語料量大到某個程度,即使主體是簡中,跨字體轉移到繁中還是比 Google 為 Gemma 挑出來的繁中子集有用。量大但雜 > 量小但乾淨——當兩家都不夠認真投入的時候。


共同死穴:台語

兩個模型一起跌的只有這個:

科目GemmaQwen隨機基準
台語(Hokkien)32.641.925.0

Qwen 還是贏 9.3 分,但 41.9% 只比亂猜高 17 分——任何 production 場景都不能用。

這不是花一個週末 fine-tune 就能解的問題:

  1. 書寫沒標準。台語有 POJ(教會羅馬字)、漢羅、全漢、台羅、注音閩南語——不同社群、不同正字法。
  2. Tokenizer 沒有原生台語 token。Qwen 跟 Gemma 對很多台語字會 fallback 到 byte-level,token 效率極差。
  3. 公開語料太小。PTT 台語板、台文戰線、自由時報台語專欄、台日大辭典加起來大概也只有幾百 MB。對 35B 模型完全不夠。

要做台語應用,看 Yentinglin 的 Taiwan-LLM 系列——他們花了好幾年蒐集台灣語料。在 Qwen 3.6 上做 LoRA 贏不過他們,一個人重做也是在重新發明學界已經做得更好的輪子。


收穫

最花時間的地方

datasets>=4 砍 loading script。第一次跑直接爆 RuntimeError: Dataset scripts are no longer supported, but found tmmluplus.py。降到 datasets==2.21 就解。如果你跑任何老一點、還在用 builder script 的 HF dataset,一開始就 pin 版本,不要等炸了再回頭找。

可搬走的診斷方法:paired eval 不能省

單一模型分數沒有 paired baseline 就是噪音。Qwen 3.6 75% 聽起來很猛,Gemma 4 26B 46% 聽起來很爛。但只有同一套 harness、同一台硬體、同一天跑出來的兩個數字擺在一起,你才知道哪個是模型訊號、哪個是 benchmark 自己的特性。配對也能讓你看出「某個分數意外高 / 低」到底是模型本身、還是 benchmark 結構在說話。

通用原則

「X 在 Z 任務的訓練資料應該比 Y 多」這種直覺,動手做之前先跑 paired benchmark。對訓練語料組成的印象,多半是繼承自別人的二手意見,不是當代模型的實測。我這次的直覺直接錯了 28 分。


結論

April 2026 想在地端選繁中模型,給你的 checklist:

  1. 繁中寫作、blog、辯論——預設選 Qwen 3.6 35B-A3B FP8。3B active 在 DGX Spark 上跑得快,TMMLU+ 比 Gemma 高 28 分。
  2. 英文 coding agent——選 Gemma 4 26B-A4B(SWE-bench Lite 38.67%、有 audio 多模態、VRAM 較省)。
  3. 台語——Yentinglin 的 Llama-3-Taiwan-70B,或接受能力落差。Qwen 跟 Gemma 都不行。
  4. 決定主力模型前——先跑 paired benchmark。「哪個中文比較好」這個共識,沒人在當代模型上重新校準過,我自己直覺差了 28 分。

Run config、完整子科目分數、對比 script 都在 GX10 的 ~/tmmlu-runs/ 下。兩個 results_*.json 各 30KB,整套 paired 跑完大約 7 小時。


同系列:

常見問題

TMMLU+ 是什麼?為什麼測繁中要用它?
TMMLU+ 是 iKala 做的一份繁體中文選擇題 benchmark,22,690 題、66 個科目,從國小到專業考照(律師、醫師、會計師、獸醫)都收。題目包含台灣專屬內容,像台灣地理、台語、高職國文。其他常見的中文 benchmark(C-Eval、CMMLU)都是簡中、中國語境,TMMLU+ 是少數真的在測「這個模型懂不懂台灣」的卷子。
Qwen 真的 51 個科目全勝?沒有一個 Gemma 贏?
對,51 / 51 全勝。最小差距是邏輯推理(+8.6 分),最大差距是餐飲技術(+43.5 分)。總分 Qwen 75.07%、Gemma 46.30%,差 28.77 個百分點。
Google 的繁中資料不是比阿里巴巴多嗎?怎麼會輸?
我自己原本也是這個直覺——Qwen 主要訓練在簡中、Google 在台灣搜尋市場深耕二十年,預期 Qwen 會輸。Codex 在一場 /debate 打我說「你這直覺沒 benchmark 撐」。所以我去拿了數據。實測下去連台灣地理 +41.9 分、傳統中醫 +37.4 分這些台灣專屬題目,Qwen 都贏。「Google 繁中 corpus 比較好」這個假設碰到實測直接破。
兩個模型有共同的死穴嗎?
有,台語(Hokkien)。Gemma 32.6%、Qwen 41.9%——兩個都接近隨機(25%)。台語沒有統一的書寫標準(POJ、漢羅、全漢、台羅混用),公開語料總共大概只有幾百 MB。fine-tune 救不了,是資料本身就不夠。要做台語應用,看 Yentinglin 的 Taiwan-LLM 系列。