新聞趨勢比較排行學習 Claude Code

新聞趨勢比較排行學習 Claude Code

標籤

SWE-bench Pro

2 篇文章

為什麼程式碼基準測試終於開始說實話

技術研究/5月13日

為什麼程式碼基準測試終於開始說實話

BenchLM 的程式碼排行榜顯示，真正有用的訊號只剩 LiveCodeBench 與 SWE-bench Pro；HumanEval 已經不適合拿來選模型。

Marginlab 盯上 Claude Code 漂移

AI Agent/4月3日

Marginlab 盯上 Claude Code 漂移

Marginlab 每天跑 50 個 SWE-Bench-Pro 任務，追蹤 Claude Code Opus 4.6 的分數漂移，還會看 token、成本與工具呼叫。

內容

新聞
AI 趨勢總覽
LLM 模型比較 2026
AI 排行與熱門榜單

分類

模型發布
AI Agent
技術研究
區塊鏈

工具

AI 術語表
LLM API 費用計算機
AI 發展時間軸 2024–2026
開發者提示詞庫

關於

編輯團隊
OG 預覽
RSS Feed

© 2026 OraCore.dev

v4.37.3—