標籤
2 篇文章
這篇研究看 SWE-bench Verified 上的代理式寫程式,發現 token 花費可比一般 code chat 高出 1000 倍,且多半是 input 在燒錢,成本還很難預測。
ARC Prize 排行榜把成本和分數放在同一張圖上,ARC-AGI-3 也把任務拉進互動環境。這篇看它怎麼逼 AI 團隊正視算力、Token 和實際可部署性。