~/ai-muninn
blog
github
EN
~ / blog
/
tag / swe-bench
❯
grep -r "#swe-bench" ~/blog
5 篇文章
日期
閱讀
標題
2026-04-27
5m
[SWE-bench] Qwen 3.6 35B 檢討考卷:155 題答錯,76% 是「找對檔案、改錯邏輯」
#swe-bench
#qwen-3.6
#gemma-4
#failure-analysis
2026-04-20
4m
[Benchmark] 同 Scaffold、三個模型:SWE-bench Lite 16% → 38% → 48%
#swe-bench
#gemma-4
#qwen-3.6
#scaffold
2026-04-17
6m
[Benchmark] 26B 地端模型在 SWE-bench Lite 拿到 38.67% — 差 Claude 3.5 Sonnet 系統 0.33%
#swe-bench
#gemma-4
#mini-swe-agent
#vllm
2026-04-15
4m
[AI Agent] Gemma 4 26B 跑通 SWE-bench Lite 單題:兩天 28 次 run,2 次真的算數
#swe-bench
#mini-swe-agent
#gemma-4
#vllm
2026-04-13
4m
[AI Agent] Gemma 4 從 40 次失敗到 9 步修好 Bug — 只換了一個東西
#swe-bench
#gemma-4
#qwen-3.5
#openhands
← 回到所有文章