[MODEL] 7 分鐘閱讀OraCore 編輯部

Kimi K2.5 上線:開源模型打進第一梯隊

Moonshot AI 的 Kimi K2.5 在 2026/1/27 上線,主打 256K context、Agent Swarm、MIT 授權,還把多項 benchmark 拉到和 GPT、Claude 同一張桌子。

分享 LinkedIn
Kimi K2.5 上線:開源模型打進第一梯隊

Moonshot AI 在 2026 年 1 月 27 日推出 Kimi K2.5。這次不是小修小補。它直接丟出 256K token context、1 兆參數 MoE 架構,還給你 MIT 授權。講白了,這種組合很少見。

更狠的是,它還有免費入口。你不用先刷卡,也能摸到接近旗艦級的體驗。對台灣開發者來說,這種模型最實際的意義很簡單:你可以先拿它跑真實工作,再決定要不要付費。

如果你只看一句話,重點就是這個。Kimi K2.5 把「開源模型只能便宜不能強」這種老觀念,狠狠敲了一下。

Moonshot 這次到底端了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

Moonshot AI 是北京新創,2023 年成立。創辦團隊裡有前 ByteDance 成員。公司背後也有 AlibabaHongShan 的資金。這種背景很現實,代表它不是只想做 demo。

Kimi K2.5 上線:開源模型打進第一梯隊

Moonshot 一開始就押兩件事。第一是長 context。第二是 agent 行為。這兩件事看起來很學術,實際上很務實。因為真實工作裡,文件都很長,任務也很碎。

Kimi K2.5 延續這條路。它能處理文字、圖片、影片。它也能切換成多步驟執行模式。這表示它不是只會聊天。它想做的是幫你把一串工作拆開,再一段段處理。

  • 256K token context
  • 1 兆參數 MoE 架構
  • 32B active parameters
  • 支援文字、圖片、影片
  • MIT 授權,權重可在 Hugging Face 找到
  • 可在 kimi.com 免費使用

256K context 不是拿來炫技而已。Moonshot 的說法是,大概可塞 350 到 500 頁文字。這對法務、研究、產品規格書、技術文件都很有感。你不用一直切檔,也不用一直餵摘要。

MoE 架構也很重要。因為不是每個 token 都要啟動整個模型。這能把推理成本壓下來。說白了,這就是它能做免費版的原因之一。

Agent Swarm 為什麼這麼吵

這次最容易被拿來討論的功能,就是 KimiAgent Swarm。它不是單線跑到底。它可以把任務拆成很多子任務,再同時派出最多 100 個專門 agent 去做。

這種設計很適合研究、競品分析、資料整理。因為這些工作最浪費時間的地方,不是推理本身,而是找資料、比資料、整理資料。Agent Swarm 就是在砍這段時間。

如果你要查 10 個網站、比 5 份報告、再做一份摘要,傳統單線流程很容易卡住。Swarm 模式則比較像小型研究團隊。它不是一個人在硬幹,是一群人分工。

"The model has 1 trillion parameters but uses a Mixture-of-Experts architecture: only 32 billion are active at any given moment."

這句話很值錢。因為它把產品策略講得很清楚。Moonshot 不是只想拼模型大小。它是在拼工作流。拼長 context。拼平行處理。

我覺得這是比較務實的方向。因為企業買單的,常常不是最會考試的模型,而是最省時間的模型。

如果你想看更多 agent 工具,可以順手看我們整理的 AI agent 工具清單。那篇會更容易看出 Kimi 放在哪個位置。

數據怎麼看,才不會被榜單騙

先講白的。Kimi K2.5 不是每一項都贏。它也不是那種「全項第一」的神話機器。但它的分數,已經夠讓人把它放進旗艦討論圈。

Kimi K2.5 上線:開源模型打進第一梯隊

在一些 benchmark 上,它真的很能打。尤其是 agentic search、影片理解、長文工作。這三個方向,正好都是實務很常碰到的痛點。

下面這組數字很有參考價值。你不用把它當神諭,但可以看出趨勢。

  • HLE with tools:Kimi K2.5 50.2%,GPT-5.2 45.5%,Claude Opus 4.5 43.2%
  • BrowseComp:Kimi K2.5 78.4%,GPT-5.2 54.9%,DeepSeek V3.2 67.6%
  • SWE-Bench Verified:Kimi K2.5 76.8%,GPT-5.2 80.0%,Claude Opus 4.5 80.9%
  • AIME 2025:Kimi K2.5 96.1%,GPT-5.2 100.0%,Claude Opus 4.5 92.8%
  • VideoMMMU:Kimi K2.5 86.6%,GPT-5.2 85.9%,Claude Opus 4.5 84.4%

這些數字透露一件事。Kimi 在搜尋和影片理解上很兇。可是在程式碼與數學上,它還是略輸 OpenAIAnthropic 的旗艦。

但差距沒有大到不能用。這就是重點。很多團隊不是要拿模型去考奧林匹亞。大家要的是,能不能更快完成一份報告,或更穩地跑完一個研究流程。

源文也提到,Kimi 在管理任務測試裡表現很穩。像溝通、規劃、分析、學習、問題解決,都維持在高檔。這種穩定性很重要。因為日常工作最怕模型今天正常,明天失控。

跟其他中國模型比,差在哪

如果只看中國模型圈,Kimi K2.5 不是唯一強者。但它的定位很完整。它不是只強一個面向,而是把搜尋、分析、多模態、agent 行為一起包進來。

這點很像工具箱。你不會每次都想開四個模型。你想要的是一個能先上手的主力。Kimi 就是在搶這個位置。

它的競爭對手也很明確。MiniMax 在團隊管理任務上更亮眼。Qwen 在規劃上更強。DeepSeek 在價格效率上很兇。Kimi 的優勢則是整體廣度。

  • Kimi K2.5:整體最均衡,搜尋強,免費入口友善
  • MiniMax M2.7:團隊管理任務更突出
  • Qwen3.5 Plus:規劃能力更強
  • DeepSeek V3.2:每 token 成本更低
  • GLM-5:HR 與回饋類任務表現亮眼

價格也很現實。源文提到,Kimi 的付費方案有 19、39、199 美元三種。API 成本做一份 100 頁報告,也比 Claude Opus 4.5 低,還比 GPT-5.2 便宜。

但它不是萬能。它在英文和中文最強。其他語言的品質會掉。這點很值得注意。台灣團隊如果常寫英文,通常沒問題。可如果你要混西文、德文、法文,就要先測。

所以我會這樣看。Kimi 不是拿來取代所有模型。它比較像你工作台上的一把大扳手。很多場景都能用,但不是每顆螺絲都最合。

這波對產業代表什麼

這件事最有意思的地方,不在於又多了一個大模型。真正有意思的是,開源模型和閉源旗艦之間的差距,正在變得沒那麼好看。

過去很多團隊會直接假設,最強模型一定在美國,而且一定要付高價。現在這個假設開始鬆動。中國團隊已經能做出接近第一梯隊的產品,而且還能把授權放開。

這對開發者很實際。你可以先用 Hugging Face 上的權重做測試。你也可以直接用 Kimi 網頁版跑真實任務。這種可接觸性,對小團隊很重要。

長 context 也會繼續變成主戰場。因為企業文件、程式碼庫、客服紀錄、會議記錄,都不是短文。誰能把長資料吃進去,誰就更容易進到工作流程裡。

Agent 也會越來越像標配。不是每個模型都要會下棋,但很多模型都得會分工。這一點,Kimi K2.5 已經先踩進去了。

我會怎麼建議你試

如果你是工程師,先拿它做一個真實任務。不要拿「幫我寫一段 JS」這種玩具題。那種測不出差異。你要給它長文件、10 個來源、或一份需要比對的研究題目。

如果它能幫你把 2 小時壓到 40 分鐘,這就有價值。不是因為它很潮,是因為它真的省時間。AI 工具最後還是要回到這件事。

如果你是產品或管理角色,我會先看三件事。第一,長 context 有沒有用到。第二,中文與英文品質夠不夠。第三,成本能不能壓在可接受範圍。

我的判斷很直接。Kimi K2.5 值得測,而且應該優先測在研究、分析、文件整理這些工作流。下一步不是問它多強,而是問它能不能真的幫你少開幾個分頁。