#swe-bench — 技術筆記 — ai-muninn

~ / blog / tag / swe-bench

❯ grep -r "#swe-bench" ~/blog

5 篇文章

日期閱讀標題
2026-04-278m
[SWE-bench] Qwen 3.6 35B 檢討考卷:155 題答錯,76% 是「找對檔案、改錯邏輯」
#swe-bench #qwen-3.6 #gemma-4 #failure-analysis
2026-04-206m
[Benchmark] 同 Scaffold、三個模型：SWE-bench Lite 16% → 38% → 48%
#swe-bench #gemma-4 #qwen-3.6 #scaffold
2026-04-1711m
[Benchmark] 26B 地端模型在 SWE-bench Lite 拿到 38.67% — 差 Claude 3.5 Sonnet 系統 0.33%
#swe-bench #gemma-4 #mini-swe-agent #vllm
2026-04-157m
[AI Agent] Gemma 4 26B 跑通 SWE-bench Lite 單題：兩天 28 次 run，2 次真的算數
#swe-bench #mini-swe-agent #gemma-4 #vllm
2026-04-137m
[AI Agent] Gemma 4 從 40 次失敗到 9 步修好 Bug — 只換了一個東西
#swe-bench #gemma-4 #qwen-3.5 #openhands

← 回到所有文章

coolthor·github·huggingface·muninn.chat·linkedin·threads·facebook·bpstracker·buy me a coffee·methodology·rss·built in public · 2026