[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-swe-bench-pro":3},{"tag":4,"articles":10},{"id":5,"name":6,"slug":7,"article_count":8,"description_zh":9,"description_en":9},"ad568dc4-80b0-4a22-b74a-e4bfb4a9f25f","SWE-Bench Pro","swe-bench-pro",2,null,[11,20,28],{"id":12,"slug":13,"title":14,"summary":15,"category":16,"image_url":17,"cover_image":17,"language":18,"created_at":19},"da646ee1-db2e-48b4-9ffe-b79a8a81ae93","why-kimi-k26-changes-coding-model-race-zh","為什麼 Kimi K2.6 會改寫寫程式模型競賽","Kimi K2.6 以開放權重、接近 GPT-5.5 的程式能力和更低成本，逼迫編碼模型競賽重新定價。","model-release","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778980423319-9xts.png","zh","2026-05-17T01:13:21.45526+00:00",{"id":21,"slug":22,"title":23,"summary":24,"category":25,"image_url":26,"cover_image":26,"language":18,"created_at":27},"5b168b94-465a-4d72-bbb1-e6577625cb1a","why-coding-benchmarks-are-finally-telling-the-truth-zh","為什麼程式碼基準測試終於開始說實話","BenchLM 的程式碼排行榜顯示，真正有用的訊號只剩 LiveCodeBench 與 SWE-bench Pro；HumanEval 已經不適合拿來選模型。","research","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778670697069-56o7.png","2026-05-13T11:10:25.586869+00:00",{"id":29,"slug":30,"title":31,"summary":32,"category":33,"image_url":34,"cover_image":34,"language":18,"created_at":35},"62a923b4-173d-465e-93f0-071226ba6119","marginlab-claude-code-opus-46-tracker-zh","Marginlab 盯上 Claude Code 漂移","Marginlab 每天跑 50 個 SWE-Bench-Pro 任務，追蹤 Claude Code Opus 4.6 的分數漂移，還會看 token、成本與工具呼叫。","ai-agent","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775147267370-bbwz.png","2026-04-02T16:27:31.179506+00:00"]