[MODEL] 9 分鐘閱讀OraCore 編輯部

Kimi K2.7-Code 主打快,但證據還不夠

Moonshot 的 Kimi K2.7-Code 加了 HighSpeed Mode,主打更快、Token 更省,但目前只有官方 benchmark 能支撐這些說法。

分享 LinkedIn
Kimi K2.7-Code 主打快,但證據還不夠

Moonshot 的 Kimi K2.7-Code 加了 HighSpeed Mode,主打更快、Token 更省,但目前只有官方 benchmark 能支撐這些說法。

Moonshot AI 在 2026 年 6 月 12 日推出 Kimi K2.7-Code。三天後,又在 Hugging Face 放出 HighSpeed Mode。它的說法很直接:吞吐量最高快 6 倍,推理 Token 也少約 30%。

講白了,這種簡報很會打。問題是,Moonshot 還沒把它送進獨立 coding benchmark。現在能看的,幾乎都是官方數字。開發者要拿它跟 OpenAIAnthropic 比,只能先看價格、架構和自家測試。

指標Kimi K2.7-Code意義
發布日期2026/06/12新模型,主打新模式
HighSpeed Mode最高快 6 倍適合 agentic coding 流程
輸入價格每百萬 Token 0.95 美元API 成本壓得很低
輸出價格每百萬 Token 4.00 美元還是比多數高階工具便宜
Context window262,144 Token適合長程式碼庫
啟用參數約 320 億 / TokenMoE 讓推理成本更好控

HighSpeed Mode 真的有感,但不是全部

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

HighSpeed Mode 是這次最有感的賣點。Moonshot 說,中位數 coding 輸入可跑到每秒約 180 Token。短上下文任務甚至可到每秒 260 Token。對跑自動化 coding agent 的團隊來說,這不是小事。延遲一慢,整個流程就會卡住。

Kimi K2.7-Code 主打快,但證據還不夠

這種速度提升,對 CLI 工具特別重要。你在終端機裡等模型回應,感受會很直接。少個幾秒,體感差很多。尤其是 repo-wide refactor、批次修 bug、或多輪工具呼叫時,速度常常比理論分數更重要。

Moonshot 也說,K2.7-Code 比 K2.6 少用約 30% 的 reasoning Token。這個數字很漂亮,但也很危險。少用 Token,可能代表推理更精簡。也可能代表模型提早收工,複雜題反而不夠看。

“The problem with generative AI is that it doesn’t know when to stop generating.” — Dario Amodei

這句話放在這裡很貼切。模型會不會少想一點,常常比會不會多講一點更重要。Moonshot 現在是在賭,K2.7-Code 的思考更省。這件事要不要信,得看外部 benchmark。

  • HighSpeed Mode 主打更低延遲。
  • 30% 少 Token,可能省錢,也可能少想。
  • 180 到 260 tokens/sec,對 agent 很實用。
  • CLI 工作流比聊天 demo 更吃這種優化。

官方 benchmark 很多,但外部驗證很少

Moonshot 這次丟了不少自家測試。像是 Kimi Code Bench v2、Program Bench、MLS Bench Lite、MCP Atlas、MCP Mark Verified。數字看起來完整,但本質還是 vendor-run。這種分數能看趨勢,不能直接當結論。

更麻煩的是,它還沒出現在 SWE-bench Verified、DeepSWE、LiveCodeBench、GPQA Diamond 這些常見公開榜單上。對開發者來說,這就像只看店家自己貼的測試表。不是不能參考,只是你不會直接下單。

模型選型最怕這種情況。廠商可以針對自家測試調參,分數就會很好看。可是到了真實專案,修 bug、改依賴、處理邊界案例,表現常常掉得很快。這也是為什麼外部 benchmark 還是很重要。

  • Kimi Code Bench v2 分數是 62.0。
  • Moonshot 拿 GPT-5.5 的 69.0 來比。
  • 也拿 Claude Opus 4.8 的 67.4 來比。
  • 但這些對照用了不同 compute 模式。

所以這些比較不能直接畫等號。你看到的是模型,也看到算力設定。這兩件事混在一起,結論就沒那麼乾淨。真的要比,還是得看同條件測試,或看實際使用資料。

架構很會省錢,這點倒是說得通

K2.7-Code 用的是 Mixture-of-Experts,也就是 MoE。總參數量到一兆,拆成 384 個專家。每個 Token 只會啟用前 8 個專家,再加 1 個共享專家。講白了,就是大模型的體積很大,但每次只動一部分。

Kimi K2.7-Code 主打快,但證據還不夠

這種設計很適合壓 inference 成本。因為不是每次都把全部參數拉上來跑。對 API 服務來說,這很實際。你要的是高能力,但也要能算得過帳。Moonshot 顯然很懂這點。

它還用了 Multi-head Latent Attention,簡稱 MLA。這套東西會壓縮 key-value cache,讓長 context 不會把記憶體吃爆。這也是它能支援 256K context window 的原因。長 repo、長對話、多檔案改寫,都比較好塞。

  • 384 個 experts,把模型切成很多專長區。
  • 每個 Token 只啟用約 320 億參數。
  • 256K context,適合長文件和長程式碼庫。
  • 它只有 thinking mode,沒有 instant-response 路線。

最後這點很重要。沒有快速回應模式,就代表每次都要付推理成本。如果它真的能少用 reasoning Token,還算說得過去。若不行,成本優勢就會被吃掉一部分。

Moonshot 賣的是整套工具,不只是模型

K2.7-Code 也接到 Kimi Code,這是 Moonshot 的終端機導向 coding agent。月費從 19 美元起跳。這個價位,和 Claude Code 的開發者工具訂閱很接近。Moonshot 很明顯是在搶同一群人。

這策略其實蠻合理。現在很少人只買「模型」。大家要的是模型、CLI、價格、延遲、流程整合,全部一起來。你如果只給 weights,很多團隊還是懶得自己包。Moonshot 乾脆把整套一起端上來。

它的更新節奏也很兇。K2 在 2025 年 7 月,K2 Thinking 在 2025 年 11 月,K2.5 在 2026 年 1 月,K2.6 在 2026 年 4 月,K2.7-Code 則是 2026 年 6 月。這種速度,真的不是慢慢來。

但企業會在意的不只速度。Moonshot 總部在北京,背後有 Alibaba、Tencent、China Mobile、Meituan 等投資人。它的 API 業務又走新加坡實體。對企業買家來說,資料怎麼流、法規怎麼套,還是得先問清楚。

另外,這家公司也不是完全沒出過事。OECD AI Incident Database 記過一筆 2026 年 4 月的事件。當時 Kimi 在一般任務中,把一位使用者的履歷細節露給另一位使用者。這不代表一定有系統性問題,但安全團隊一定會記得。

跟其他模型比,K2.7-Code 贏在價格和節奏

如果只看價格,K2.7-Code 很有攻擊性。輸入每百萬 Token 0.95 美元,輸出每百萬 Token 4.00 美元。這個組合對大量跑 agent 的團隊很有吸引力。尤其是那些一天要噴很多 Token 的工作流,差一點點就會差很多錢。

再看 context window,262,144 Token 也很夠用。很多 coding 任務不是單次問答,而是整個 repo 的長上下文。這時候大 window 的價值就出來了。你不用一直切檔,也比較不容易失去脈絡。

但價格低,不代表就能直接打贏。OpenAI 和 Anthropic 的強項,還是穩定性、工具鏈整合、以及比較完整的外部驗證。Moonshot 現在比較像是先把成本打下來,再用速度搶試用。

  • K2.7-Code:輸入 0.95 美元,輸出 4.00 美元。
  • Claude Code:月費 19 美元起,走成熟開發者路線。
  • OpenRouter 類型平台,較能看真實使用行為。
  • 公開 benchmark 缺席,是目前最大短板。

所以這場比的不是單一分數。是誰能把成本、延遲、工具整合一起做好。Moonshot 現在在價格和節奏上很猛,但還沒把信任感補齊。這就是它現在的位置。

中國 AI 實驗室的節奏,正在改寫開發者選項

Moonshot 不是唯一這樣玩的公司。中國 AI 實驗室近年都很愛用快節奏發版。先丟模型,再丟工具,再補價格。這種打法對開發者很有吸引力,因為你很快就能試到東西。

另一個背景是,LLM 競爭已經不只拼能力。還要拼 API 成本、上下文長度、CLI 體驗、以及自架可行性。以前大家只問「準不準」。現在還要問「貴不貴」、「快不快」、「能不能接工作流」。

這也解釋了為什麼 K2.7-Code 會先強調速度和 Token 效率。對很多團隊來說,這比單一 benchmark 分數更有感。尤其是做內部工具、資料處理、或大量自動修 code 的團隊,省下來的錢很快就看得到。

但市場最後還是會回到一件事:能不能在真實專案裡站得住。官方數字可以先吸睛,公開測試才會讓人下決定。這個規則,現在還沒變。

接下來要看的,不是宣傳,而是外部測試

如果你現在要評估 K2.7-Code,我會建議先把它當候選,不要當結論。拿你的 repo 跑一次。看它修 bug 的速度。看它在長 context 裡會不會亂掉。這些比簡報上的 6 倍快更有用。

如果 Moonshot 之後把 K2.7-Code 丟進 SWE-bench Verified 或其他公認榜單,討論就會變得很不一樣。那時候大家才有共同基準可以比。現在沒有,就只能先看官方資料,然後自己驗證。

我覺得這款模型短期內會吸引不少團隊試用。原因很簡單:便宜、快、又夠長上下文。可是只要外部 benchmark 還沒補上,它就還在「很有意思,但還沒完全證明自己」這一格。

下一步很明確。先跑你自己的測試,再看 Moonshot 會不會補公開成績。這比等宣傳稿更實際,也更像真正的開發者做法。