為什麼 Kimi K2.5 會改寫開源 Agent 競賽

OraCore Editors

返回首頁

[MODEL] 2026年5月5日3 分鐘閱讀OraCore 編輯部

為什麼 Kimi K2.5 會改寫開源 Agent 競賽

Kimi K2.5 不是單純更強的模型，而是把多模態推理、工具調用與多代理協作綁成一個可執行的開源系統。

開源 Agent 多模態推理工具調用多代理協作

分享 LinkedIn

Kimi K2.5 把多模態推理、工具調用和多代理協作綁在一起，讓開源 Agent 從會聊天變成能做事。

Kimi K2.5 不是又一次模型發表，而是把開源 AI 從「能回答」推向「能執行」的明確訊號。它的重點不在單次問答更漂亮，而在能否跨視覺、文字與工具鏈完成真實工作流程，這才是開源 Agent 競賽真正的分水嶺。

從公開資訊看，K2.5 是原生多模態模型，訓練資料量約 15T 的圖文混合 token，並且搭配可自我調度的 agent swarm，最多能協調 100 個子代理、處理高達 1,500 次工具調用。這已經不是「偶爾會呼叫工具的聊天模型」，而是一套以執行為中心的系統。

第一個論點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

開源模型過去太常把文字能力當成全部，但真實工作不是文字測驗。Kimi K2.5 直接把這個前提推翻：它主打同時具備 coding 與 vision 能力，且視覺與文字預訓練不是互相犧牲，而是疊加強化。官方展示的網站影片重建案例就很有代表性，因為它不是玩具級標註，而是「看懂畫面再產出可用程式」的工作流。

數據也支持這個方向。K2.5 在不使用工具時，文字分數 31.5、圖像分數 21.3；接上工具後，文字提升到 51.8、圖像提升到 39.8。這個差距說明一件事：模型的價值不只在內部推理，而在能否接上環境、搜尋資訊、拆解步驟並完成動作。對工程團隊來說，這才是能否落地的門檻。

第二個論點

這次最重要的突破，不是單一模型變大，而是它如何組織工作。官方說法指出，K2.5 能自動建立並協調 agent swarm，不需要預先定義子代理或固定流程，還能透過平行執行把 runtime 最多縮短 4.5 倍。這直接打到應用 AI 的核心痛點：單一模型可以推理，但很難有效放大自己的努力。

對產品與開發團隊而言，這比榜單名次更重要。瀏覽器任務、程式重構、文件審閱、試算表整理，這些工作不只是「回答問題」，而是要拆分、並行、交叉驗證。Kimi.com 與 app 提供的四種模式，包括 Agent Swarm beta，顯示 Moonshot 想賣的不是一個聊天框，而是一個工作平台。這是基礎設施思維，不是 demo 思維。

反方可能怎麼說

質疑者的說法其實很合理：benchmark 很容易被包裝，工具調用常常只是把模型弱點外包給外部系統，多代理協作也常因協調成本而失控。再加上官方提到為了避免資料外洩，Hugging Face 版本被限制存取，這會讓人懷疑可重現性、評測潔淨度，以及這些提升是否只在自家環境有效。

這個批評有力，但不足以推翻 K2.5 的意義。因為這次的價值不在抽象的「純模型分數」，而在整合後的實際能力。若模型在能看、能查、能拆工時明顯更強，那不是作弊，而是產品定義。當然，限制也存在：團隊不能把它當成宇宙通用智慧，而要在自己的資料、工具與流程裡實測。

換句話說，K2.5 的爭議不是它有沒有完美，而是它把 AI 的競爭焦點從「誰的單點能力最高」改成「誰能把推理變成可重複的執行」。這個轉向本身就足夠重要，因為大多數企業需要的不是一個更會說話的模型，而是一個能穩定縮短流程時間的系統。

你能做什麼

如果你是工程師，應該拿 K2.5 去測那些最容易暴露淺層推理的任務：視覺除錯、前端還原、文件抽取、試算表自動化、多步驟程式修改。如果你是 PM 或創辦人，不要再問「它是不是最強」，而要問「它能不能把原本要三個工具、兩個人完成的流程，壓成一個可控的工作流」。K2.5 的訊號很明確：下一輪 AI 競爭，不只比模型品質，更比跨文字、視覺與工具的協同執行能力。

// 相關文章

為什麼 Kimi K2.5 會改寫開源 Agent 競賽

第一個論點

訂閱 AI 趨勢週報

第二個論點

反方可能怎麼說

你能做什麼

為什麼 Google 隱藏的 Gemini Live 模型，比演示更重要

MiniMax-M1：開源 1M Token 推理模型

Gemini Omni 影片模型怎麼了

為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …

OpenAI 即時音訊模型瞄準語音互動

Anthropic推10款金融AI Agent