Qwen3.6-27B:更小卻更準的寫碼路線
Qwen3.6-27B 是 27B dense multimodal 模型,在 SWE-bench Verified 拿到 77.2,還贏過更大的 Qwen3.5-397B-A17B。對開發團隊來說,這代表更好部署,也更適合 agentic coding。

阿里巴巴的 Qwen 團隊又丟出一顆重磅模型,名字叫 Qwen3.6-27B。它是 270 億參數的 dense multimodal 模型,不是那種動不動就上百 B 的怪獸。
但數字很有意思。它在 SWE-bench Verified 拿到 77.2。這個分數還壓過更大的 Qwen3.5-397B-A17B。講白了,就是更小,卻更會寫碼。
對開發者來說,這種結果很實際。你不只看模型有多大。你還要看它好不好部署,延遲高不高,伺服器扛不扛得住。Qwen3.6-27B 直接把這題拉到桌面上。
為什麼這次發表很有看頭
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
這次的重點,不是 Qwen 又發了新模型。重點是,27B dense 模型居然能打贏 397B MoE 模型。這差距不是小修小補。這是架構選擇開始影響實戰結果。

Qwen3.6-27B 主打 agentic coding。也就是說,它不是只會補幾行程式碼。它要能處理終端機、修 bug、看文件,還要能在多輪互動裡持續做事。這種任務很吃模型穩定性。
它還支援 thinking 與 non-thinking 兩種模式。再加上圖片、影片、文字輸入,這就不是單純的 code model 了。它比較像一個可以看畫面、讀 log、理解文件的工作型 LLM。
- 模型規模:27B,dense 架構
- 對手:Qwen3.5-397B-A17B,397B MoE,17B active parameters
- 可用管道:Qwen Studio、Hugging Face、ModelScope
- 雲端 API:Alibaba Cloud Bailian
我覺得這裡最重要的,不是「它更小」。而是它更容易進 production。dense 模型不用像 MoE 那樣做 expert routing。少一層複雜度,通常就少一堆部署麻煩。
對台灣很多團隊來說,這很有感。你可能沒有超大 GPU 叢集。你可能只有幾台伺服器。這時候,模型能不能穩定跑,比 paper 上的參數數字更重要。
Benchmark 數字才是主菜
很多模型發表都愛講故事,但這次的分數真的有料。Qwen3.6-27B 在 SWE-bench Verified 拿 77.2,在 SWE-bench Pro 拿 53.5,在 Terminal-Bench 2.0 拿 59.3,在 SkillsBench 拿 48.2。
對比 Qwen3.5-397B-A17B,分數分別是 76.2、50.9、52.5、30.0。你會發現,Qwen3.6-27B 幾乎在每個項目都更好。尤其 SkillsBench,差了快 18 分,這不是小事。
這代表什麼?代表它不只是會背程式碼。它在 agent 工作流裡,可能更會做決策、更會接續上下文,也更懂得怎麼把任務做完。這種差異,對 coding assistant 很要命。
“The future of AI is not about bigger models. It’s about better models.” — Sam Altman, OpenAI DevDay 2023
這句話拿來看 Qwen3.6-27B 很貼切。因為這次大家討論的重點,已經不是參數數字有多大。重點變成,這模型到底能幫開發者省多少工。
另外,Qwen 還提到 GPQA Diamond 87.8。這不是 coding benchmark,但它可以補一個訊號。模型的推理能力沒有只卡在程式題目上。
- SWE-bench Verified:77.2 vs 76.2
- SWE-bench Pro:53.5 vs 50.9
- Terminal-Bench 2.0:59.3 vs 52.5
- SkillsBench:48.2 vs 30.0
- GPQA Diamond:87.8
如果你只看一個數字,我會選 SkillsBench。因為 agentic coding 最怕的是模型只會答題,不會做事。這個分數差距,剛好點出它在實際工作流裡的優勢。
而且它贏的是更大的 MoE 模型。這種結果會讓很多人重新想一遍:到底是堆參數比較重要,還是把架構和訓練方向調準比較重要?
開發者今天就能怎麼用
Qwen3.6-27B 已經能在 Qwen Studio 試用。權重也放在 Hugging Face 和 ModelScope。這代表你可以先線上試,再決定要不要拉進內部環境。

對團隊來說,這很方便。你不用等封閉測試。你可以直接拿它做 code review、文件理解、或內部 agent 測試。這種開放程度,對開發流程很友善。
它也能接到一些現成工具,像 OpenClaw、Claude Code,還有 Qwen Code。這點很關鍵。因為它不是要你整套重做,而是想塞進你本來就在用的工作流。
它還支援圖片和影片。這就很適合 UI debug、看截圖找 bug、或讀設計稿。你可能會想問,這跟一般 code model 差在哪?差在它能處理更多真實世界的髒資料。
Qwen 也提到未來 API 會支援 preserve_thinking。對 agent 來說,這種功能很實用。它可以讓模型保留前面的推理脈絡,少一點重複說明。
如果這功能真的穩,長對話的 coding session 會順很多。你不用一直重講需求。模型也比較不會在中途斷線式失憶。
跟其他開源模型比,差在哪
把 Qwen3.6-27B 放到開源模型市場看,位置其實很清楚。它不是最大,也不是最吵。但它很像那種「實戰派」模型。dense、multimodal、又偏 agentic coding。
這跟一些大型 MoE 模型的路線不同。MoE 很強,但部署常常比較麻煩。你要處理 routing,要處理資源分配,還要考慮 latency 抖動。對很多產品團隊來說,這些都不是小事。
下面這個比較,會比較有感:
- Meta Llama:生態系很大,但在 coding agent 的專注度上,Qwen 這次更兇。
- DeepSeek:在 coding 和 reasoning 很有存在感,但 Qwen3.6-27B 的 dense 架構更好部署。
- Qwen3.5-397B-A17B:參數更大,卻在這批 benchmark 上輸給 27B 版本。
- Qwen 開源系列:持續往可落地的 agent 工作流靠近。
說白了,這次不是在比誰比較會喊口號。是在比誰比較能進機房。27B dense 模型通常更容易塞進實際預算,也更容易做 latency 優化。
如果你在做 AI coding 產品,這種差異很現實。你不是只要分數漂亮。你還要 API 穩、成本可控、回應速度別太慢。
這波對開源 AI coding 的意義
Qwen3.6-27B 其實在提醒大家一件事。現在的模型競爭,不再只是比誰聊天比較像人。更重要的是,誰能在 terminal、repo、log、文件、截圖裡一起工作。
這也是為什麼 agentic coding 會變成主戰場。因為開發工作本來就不是單輪問答。它是修 bug、改檔案、重跑測試、再回頭修正。模型如果只會一次性回答,就很難真的上線。
我覺得接下來開源模型的分水嶺,會是「能不能穩定做事」。不是「能不能講得漂亮」。Qwen3.6-27B 這次的 benchmark,剛好把這件事講得很直白。
如果它在社群測試裡也維持這個表現,那它很可能會變成很多團隊的預設選項。尤其是那些想做內部 coding assistant,卻又不想背太高推理成本的團隊。
對台灣開發團隊來說,這個方向很實際。你可以先拿它做小規模 A/B test。看它在你的 repo、你的語言、你的 CI 流程裡,到底能不能省時間。
接下來該怎麼看
我會建議先看兩件事。第一,社群實測會不會跟 benchmark 一樣漂亮。第二,它在真實專案裡的 token 成本和延遲表現怎樣。這兩個數字,會決定它能不能進 production。
如果你現在就在選 coding model,Qwen3.6-27B 值得先跑一輪。不是因為它名字新,而是因為它把「小模型也能做重活」這件事,做得很像樣。你可以先從一個內部 repo 開始測。
我自己的判斷很直接:接下來 6 到 12 個月,真正吃香的 open model,不會只是參數最大的那個。會是部署成本、推理品質、agent 穩定度都平衡得好的那個。Qwen3.6-27B 已經把這條路畫得很清楚。