[AGENT] 5 分鐘閱讀OraCore 編輯部

Kimi K2.5 評測:更強,但還不是神作

Kimi K2.5 加入視覺、寫碼和多代理工具,長文理解更強,但長跑慢、設計感弱、付費牆明顯,還沒到頂級行列。

分享 LinkedIn
Kimi K2.5 評測:更強,但還不是神作

Kimi K2.5 這次真的不是小修小補。它主打 1 兆參數級模型,還能看圖片、影片、長文件,甚至接代理工作流。說真的,這組合很猛,但實測後也很現實:長文理解進步明顯,跑任務卻常常拖時間。

更有意思的是,它現在不是單純聊天機器人了。Kimi 把模型、代理層、寫碼工具包在一起賣,部分程式碼也放在 Moonshot AI 的 GitHub。功能變多了,但免費與付費的界線也更硬了。

Kimi K2.5 到底強在哪

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

先講結論。Kimi K2.5 最有感的進步,是它更會吃髒資料。長文、圖片、影片這種混在一起的輸入,它比前代更穩。這對做研究、讀報告、整理會議資料的人很實用。

在 40 萬字元級別的小說測試裡,它能抓到更細的角色關係。像是誰跟誰有衝突,哪條支線埋了伏筆,它都比一些只會表面摘要的模型更會看。這種能力,對台灣開發者很重要,因為很多工作不是寫一句話,而是要讀一整包資料。

它的多模態能力也有進步。像 PDF 指令、30 秒網球影片,它都能拆解得更細。影片上限大約 100MB,這代表它適合短片分析,不適合拿來處理長片素材。講白了,它很會吃小樣本,但還沒到全能。

  • 長文測試:約 40 萬字元小說
  • 影片支援:可處理 Apple MOV
  • 單段影片上限:約 100MB
  • 常見可用長度:約 3 分鐘
  • 角色與劇情整理:比 Qwen3-Max 更細

代理工具有料,但還不夠穩

現在 AI 產品都愛講 agent。Kimi 也不例外。它有單代理模式,還有 Agent Swarm,可以讓多個代理一起做事。再加上 Kimi Code,它能接本機開發環境,讀專案檔案,改程式,跑測試,甚至執行命令。

聽起來很像把助理、工程師、測試員塞進同一個產品。問題是,跑起來沒有那麼順。複雜任務有時要等 30 分鐘,途中還可能卡住。更麻煩的是,它碰到矛盾指令時,常常不先問你,而是直接照著其中一條路走下去。

這種行為適合 demo,不太適合正式流程。你如果拿它做報表、寫 code、處理客戶資料,半小時後才發現方向錯了,真的會想翻白眼。它像一個很會做事的菜鳥,不像你能完全放手的同事。

“If you want to build a ship, don’t drum up people to collect wood and don’t assign them tasks and work, but rather teach them to long for the endless immensity of the sea.” — Antoine de Saint-Exupéry, The Little Prince

這句話放在 agent 時代很貼切。大家都想要 AI 自己拆任務、自己跑流程。可是真正難的地方,是它要知道什麼時候該停,什麼時候該問人。

如果代理只會一路往前衝,那它不是自動化,是自動出包。Kimi K2.5 目前就在這條線上搖擺。能用,但還沒到可以放心交棒。

跟競品比,差距在哪

把 Kimi K2.5 放到同一桌比較,畫面就很清楚。它在長文理解上,這次比 Qwen 系列更穩。面對複雜文本,它比較不會漏掉關係鏈,也比較敢下結論。

Gemini 比,視覺指令理解差距不大。可是到了設計輸出,Kimi 還是很容易掉進「像簡報、不像作品」的坑。版面能看,味道很淡。這種東西做內部報告可以,拿去當品牌主視覺就有點尷尬。

另一個對照是 OpenAIAnthropic。它們的產品線也在往 agent 和 coding 工具靠。差別是,Kimi 現在更像在追趕整套工作流,而不是只比聊天品質。這會讓它更像工具平台,也更考驗穩定度。

  • 長文理解:這次 Kimi 領先 Qwen3-Max
  • 視覺指令:大致接近 Gemini
  • 設計輸出:完成度有,審美普通
  • Hero 圖:太像 PPT
  • 回答意願:比 Qwen3-Max 更敢答

價格也很現實。Kimi 現在把訂閱推得更明顯,排隊優先、Kimi Code、Agent Swarm 都有付費門檻。最高方案傳出是每月 199 人民幣。這讓它直接站進同一個商業戰場,跟國際大廠搶重度用戶的錢包。

對台灣開發者來說,重點不是它會不會聊天,而是它能不能穩定嵌進工作流。只要它還會卡、會誤解、會亂跑,很多團隊就只會把它放在測試環境,不會直接上線。

這次更新透露了什麼產業訊號

Kimi K2.5 其實很像現在 AI 產品的縮影。模型本身越來越會讀長文、看圖片、看影片。產品層則往 agent、寫碼、訂閱制走。說白了,大家都在想辦法把「會聊」變成「會做事」。

這也反映一個更大的分岔。開源模型在社群裡越來越有存在感,整合速度也快。封閉式產品則還是握著最完整的體驗和最容易收費的功能。Kimi 想兩邊都吃,策略不差,但執行很容易卡在體驗不一致。

如果你是開發者,我會這樣看:Kimi K2.5 值得試,尤其是長文和多模態場景。可是你要先把它當工具,不要先把它當隊友。等它哪天能在開始動手前,先問出更好的問題,才比較像成熟的 agent。

我自己的判斷很直接。接下來 3 到 6 個月,Kimi 能不能把 agent 的問答節奏修好,會比參數數字更重要。因為大家最後買單的,不是模型有多大,而是它會不會少搞砸一次。

結尾:它值得誰先試

如果你在做研究、讀長文件、跑多模態整理,Kimi K2.5 值得先放進測試清單。它在長文理解和視覺輸入上,確實有料。你會感覺它比很多只會講漂亮話的模型更能幹。

但如果你的場景很吃穩定性,像是 production code、客服流程、正式報告,我會建議先小範圍試。先看它會不會亂跑,再決定要不要把它接進主流程。你如果問我一句話結論:Kimi K2.5 變強了,但還沒強到可以偷懶。