[AGENT] 7 分鐘閱讀OraCore 編輯部

Mistral Medium 3.5 讓遠端 coding agent 上線

Mistral 推出 Medium 3.5,主打 128B 開放權重模型,並把 coding agent 放到雲端執行,支援 Le Chat 的 Vibe 與 Work mode。

分享 LinkedIn
Mistral Medium 3.5 讓遠端 coding agent 上線

Mistral 推出 Medium 3.5,並把 coding agent 改成可在雲端遠端執行。

Mistral AI 這次不是只丟一個新模型。它把模型、雲端執行、和 agent 工作流綁在一起。講白了,就是讓你關掉分頁,任務還能繼續跑。

這次主角是 Mistral Medium 3.5。它是 128B dense 模型,context window 有 256k,還是 open weights。對開發者來說,這些數字比宣傳詞實在多了。

項目數字意義
模型規模128B dense適合較重的 coding 與 reasoning 工作
Context window256k能同時放進更多程式碼與指令
SWE-Bench Verified77.6%看得出軟體修 bug 的能力
τ³-Telecom91.4代表 tool-use 與 agent 能力不差
API 價格$1.5 / $7.5 每百萬 tokens方便團隊估算成本

Mistral 這次到底改了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

重點不是只有模型更新。Mistral 把 coding agent 的執行方式改掉了。以前很多人用 AI 寫 code,還是卡在本機 terminal。你得盯著它,等它吐一段,再手動接下一步。

Mistral Medium 3.5 讓遠端 coding agent 上線

現在 Vibe remote agents 可以在雲端跑。你可以從 CLI 或 Le Chat 開始任務,再把 session 送去雲端。狀態、授權、歷史都能保留。官方甚至提到可以把本機 CLI session「teleport」到雲端。這句話很短,但意思很直接。

它想做的是同一套工作流。筆電、瀏覽器、背景執行,都要能接起來。對工程團隊來說,這種設計比單純多一個聊天框有用多了。因為真正耗時間的,常常是那些碎碎的修補工作。

  • Session 可以平行跑,不用一個接一個等。
  • 做完能直接開 GitHub pull request。
  • diff、tool calls、進度都看得到。
  • 本機任務可無痛移到雲端。

Medium 3.5 為什麼比名字更重要

Hugging Face 上每天都有模型新文。老實說,多數都很像。這次比較不一樣的地方,是 Medium 3.5 把 instruction、reasoning、coding 放在同一個 dense 模型裡,不是拆成好幾套權重。

官方也提到 reasoning effort 可以按 request 調整。這很實際。因為有時候你只想要快答,有時候你要它慢慢想,像 agent 一樣做多步推理。這種可調整性,對開發情境比單純高分更重要。

數字也不算虛。Mistral 說它在 SWE-Bench Verified 拿到 77.6%,在 τ³-Telecom 拿到 91.4。它還說自架只要 4 張 GPU。對想控成本、控資料、控部署的團隊,這點很有吸引力。

“Today we’re moving them to the cloud, where they run on their own, in parallel, and notify you when they’re done.” — Mistral AI

這句話很像產品方向的白話版。它不是要你多一個會聊天的模型。它是要你有一個會做事的 worker。做完後回報,不是一直在聊天室碎念。

Work mode 讓 Le Chat 變成執行層

第二個重點是 Le Chat 的 Work mode。Mistral 說這模式是靠新 harness 加上 Medium 3.5。意思很簡單:它不是只回答問題,而是能跨工具執行任務。

Mistral Medium 3.5 讓遠端 coding agent 上線

它可以讀寫多個外部工具,也能同時呼叫多個工具。像是整理 email、訊息、行事曆,準備會議資料,建立 Jira issue,或把摘要丟到 Slack 和 Teams。這些工作你可能每天都在做,煩,但又不能不做。

不過,自治程度越高,風險也越高。這點 Mistral 也有提。每個動作都會顯示 tool calls 和 reasoning。敏感操作還是要明確批准。這種設計比較像給團隊用,不像亂放飛的 demo。

價格與可用性,直接告訴你誰該看

Medium 3.5 現在已經能在 Vibe 和 Le Chat 用。方案包含 Pro、Team、Enterprise。API 價格是每百萬 input tokens $1.5,每百萬 output tokens $7.5。這個定價不算最便宜,但也不是亂開價。

對有自架需求的人,Hugging Face 上提供 open weights,授權是 modified MIT license。它也能透過 NVIDIA BuildNVIDIA NIM 部署。這代表它不是只想待在自家平台。

如果你是產品團隊,重點是成本和整合。如果你是研究或平台團隊,重點是權重和部署彈性。這次 Mistral 兩邊都顧到,但沒有把話說滿。這反而比較像真正在賣工具的人。

  • API 價格可直接估算 agent 成本。
  • 開放權重方便內部部署。
  • 雲端 agent 適合長任務。
  • 自架環境適合敏感資料流程。

這波和 Claude、OpenAI 怎麼比

如果拿來跟 ClaudeOpenAI 比,Mistral 的路線很清楚。它不是只拼聊天品質,而是把模型和執行環境綁在一起。這點對 coding agent 很重要,因為 agent 的價值不只在推理,還在持續執行。

Claude 系列強在長上下文和寫作感。OpenAI 的工具鏈和生態很完整。Mistral 這次的賣點,則是 open weights、雲端遠端執行、和比較清楚的價格。對歐洲系統、內部部署、或想避開單一雲端綁定的團隊,這很有吸引力。

但它也有現實限制。128B dense 模型不是小玩具。就算官方說 4 張 GPU 可自架,實際上還是要看吞吐、延遲、和你自己的 infra 成本。說白了,能不能上線,還是要看伺服器和錢包。

  • Claude 強在長文與對話品質。
  • OpenAI 強在產品整合與工具生態。
  • Mistral 強在開放權重與部署彈性。
  • 遠端 agent 是三家都會搶的方向。

這次釋出的背景,其實很合理

AI coding 工具這一年已經從「幫你補幾行 code」變成「幫你跑整段工作流」。這種變化很自然。因為開發者真正缺的不是更多句子,而是更多可執行的時間。agent 如果只能陪聊,價值很快就被吃掉。

另一個背景是企業對資料控制越來越在意。很多公司不想把程式碼、issue、內部文件全丟給黑盒雲端。open weights 加上可自架,剛好補到這個需求。這也是 Mistral 一直很會打的點。

所以這次不是單純發新模型。它是在回答一個很實際的問題:AI 要怎麼真正進到工程流程,而不是停在 demo。這個問題如果答不好,再強的 benchmark 也只是簡報素材。

接下來該看什麼

我覺得接下來要看兩件事。第一,remote agents 的穩定度。第二,Work mode 在真實企業流程裡能不能少出錯。只要其中一項做不好,agent 就會從「幫手」變成「麻煩製造機」。

如果你是台灣的開發團隊,現在就可以先試三種任務:大範圍 refactor、CI 問題排查、還有 PR 草稿生成。這三種最容易看出 agent 到底是省時間,還是在浪費你時間。說真的,這比看 benchmark 更準。