ARC 排行榜把成本攤開來看
ARC Prize 排行榜把成本和分數放在同一張圖上,ARC-AGI-3 也把任務拉進互動環境。這篇看它怎麼逼 AI 團隊正視算力、Token 和實際可部署性。

AI 圈很愛看分數。可是 ARC Prize leaderboard 直接把成本攤開。網站寫得很白,只有跑一次低於 10,000 美元的系統才會上榜。這種做法很像把獎盃牆換成帳單牆,誰燒錢,誰有效率,一眼就看懂。
更有意思的是,ARC Prize 不再只考靜態題目。ARC-AGI-1 和 ARC-AGI-2 比的是固定題型下的推理。ARC-AGI-3 則把 agent 丟進互動環境。講白了,問題從「模型會不會答」變成「它能不能快速學會規則」。
這差很多。因為真實軟體環境裡,任務常常會變。資料格式會變。API 會改。工具會掛。你不只要答對,還要能適應。這也是 ARC 排行榜比很多 benchmark 更像工程現場的原因。
ARC 排行榜到底在量什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
ARC 的圖表不是單純排名。它把每個系統的成本和表現放在同一張散點圖上。你可以把它想成,每個點都在回答一個很現實的問題:這個模型每做一題,燒掉多少算力,換回多少分數。

這種量法很直接,也很殘酷。很多 AI demo 看起來很猛,但一旦算進推理時間、重試次數、工具呼叫和 Token 消耗,成本就會炸開。分數高不代表能上線。分數高也不代表能長期跑在伺服器上。
ARC Prize 還把不同類型的系統分開看。像 GPT-4.5 和 Claude 3.7 Sonnet 這類 base LLM,通常是單次推理。另一類是 reasoning system,會拉長思考時間。還有 Kaggle 系統,因為它們是在極小預算下拚命擠分數。
這樣切開來看,才不會把不同玩法混成一團。說真的,把 50 美元預算的競賽方法,跟 10,000 美元等級的推理系統放一起比,本來就很怪。ARC 至少有努力把規則講清楚。
- 上榜門檻是單次運行低於 10,000 美元。
- Kaggle 組別只有 50 美元算力預算。
- ARC-AGI-3 改成互動式任務。
- 部分結果還是 preview 或 provisional。
為什麼 ARC-AGI-3 讓人更在意
ARC-AGI-3 最有意思的地方,是它把題目從靜態推理拉進互動。這不再是一次性考試。模型要先觀察,再調整,再繼續試。這種模式比較像 agent,而不是傳統聊天機器人。
這個改動很重要。因為很多 LLM 在固定題目上看起來很強,可是一進入真實任務就開始亂猜。它可能要多輪試錯,還要一直呼叫工具。每多一次動作,成本就往上疊。Token 也跟著燒。
ARC Prize 把這個代價畫出來,算是很誠實。你可以看到某些系統不是不能解題,而是解題方式太貴。這對 AI 團隊是壓力,也是提醒。真正能部署的系統,不是只會做題,而是能控制成本。
“True intelligence isn't just about solving problems, but solving them efficiently with minimal resources.”
這句引述來自 ARC Prize。意思很直白。只會靠狂燒算力解題,不代表夠聰明。它可能只是預算比較大。這也是我覺得 ARC 題目比很多 benchmark 更有意思的地方。
因為它逼你面對一個老問題。模型分數高,跟產品能不能賣,根本不是同一件事。你在 demo 場上看到的漂亮曲線,常常是伺服器和成本團隊在背後幫你扛。
不同系統類型怎麼比
ARC 的排行榜不是只看誰第一。它更像在看不同策略的取捨。reasoning system 通常會隨著思考時間增加而進步,但 ARC 的說明也提到,這種提升常會慢慢趨平。講白了,就是多想一點有用,但不是無限有用。

這點很像現實世界的 AI 服務。你把推理時間拉長,答案有時會更好。可是一旦延遲變高,使用者就開始罵。更別說雲端成本、GPU 排程、API 延遲,全部都會一起上來。
base LLM 的價值,則在於它告訴你模型原始能力到哪裡。它沒有長鏈推理的加成,也沒有太多外掛技巧。這種結果很適合拿來看底子。Kaggle 系統則是另一種極端,專門把有限預算榨到乾。
如果你是做產品的人,這張圖其實很好懂。高分但貴,適合 demo。中高分但便宜,才像能上線。低分但超便宜,可能是某些場景的實用解。ARC 的好處,就是把這些差異攤平給你看。
- reasoning system 會隨思考時間增加而進步。
- base LLM 反映單次推理的原始能力。
- Kaggle 系統是固定預算下的極限優化。
- 有些結果只算 preview,不該當成最終答案。
如果拿現有大廠來看,OpenAI 和 Anthropic 都很愛談 reasoning 能力。這沒錯。但 ARC 逼大家多看一個欄位:成本。沒有成本,能力常常只是幻覺。
我覺得這對台灣開發者特別有感。很多團隊現在都在串 API 做 agent。你如果只看成功率,不看每次任務花多少 Token,月底帳單會直接教你做人。
這對 AI agent 開發有什麼意思
ARC-AGI-3 的方向,會直接影響 agent 設計。以前大家常比誰的模型答得準。現在更像在比誰能更快學會任務,還能少走冤枉路。這種能力很接近實際產品需求。
例如客服 agent、資料整理 agent、研究助理 agent,都不會只做一次輸出。它們要讀文件、查資料、呼叫工具、修正結果。每一步都會消耗時間和算力。任務一複雜,成本就會跳。
所以 ARC 排行榜的價值,不只是展示誰分數高。它也在提醒大家,agent 不能只追求多輪思考。更好的設計,應該是更少重試、更少廢話、更少無效 Token。這才像能在真實伺服器上活下來的系統。
這裡可以順手看一下產業脈絡。現在很多團隊都在往 agent framework 靠攏,像是工具調用、記憶管理、工作流編排。可是框架再多,如果成本控制沒做好,最後還是會卡在營運面。技術債會變成雲端帳單。
這股潮流背後的產業壓力
AI 產業這兩年很愛比大模型參數、上下文長度、工具數量。可是真正落地後,大家最先問的常常不是準不準,而是貴不貴。這很現實,也很正常。因為企業買的是服務,不是論文。
ARC 這種榜單會受歡迎,不是因為它比較會炒作。是因為它把成本變成主角。這對模型供應商很麻煩,因為只靠「更大、更強」這套說法,已經不夠了。你還得證明每個 Token 都花得值得。
我也覺得這會影響 benchmark 生態。接下來,單看 accuracy 的榜單可能會越來越沒說服力。大家會開始問延遲、成本、失敗率、重試次數,甚至是互動過程中的 sample efficiency。這些才是產品團隊真的在意的指標。
如果你是做開發工具、SaaS,或是內部知識庫系統,這種轉變特別重要。因為你不會想把一個 90 分的模型,放進一個每月燒掉幾十萬的 workflow。高分很爽。帳單更真實。
接下來該看什麼
我的判斷很簡單。接下來幾個月,大家會更在意模型的「每分成本」。不是只看誰拿最高分,而是誰能用更少資源拿到接近的結果。這會直接影響 agent、推理服務和雲端部署策略。
如果 ARC-AGI-3 持續把互動能力和成本綁在一起,AI 團隊就很難再只靠跑分說故事。下一個值得追的點,不是單一分數,而是分數、延遲、重試、Token 消耗的整體組合。你如果在做產品,現在就該開始記這些數字。
講白了,這種榜單不是叫你迷信 ARC。它是在提醒你,AI 的價值不是免費的。下次你看到某個模型分數很漂亮,先問一句:它花了多少錢?如果答案太難看,那分數再高也只是漂亮數字而已。