標籤
multimodal AI
多模態 AI 把文字、圖像、音訊與影片放進同一套模型與工作流,重點不只在生成內容,也在理解、編輯與代理式任務。從長上下文、視覺編修到語音與影片處理,這類模型正改變產品與開發方式。
3 篇文章

模型發布/5月4日
Kimi K2.6 把 256K 上下文帶進 API
Kimi K2.6 為 API 開發者帶來 256K 上下文、圖像與影片輸入,還強化長程式碼任務的穩定度。

模型發布/4月4日
Gemma 4 登上 Google Cloud
Gemma 4 進入 Google Cloud,支援 256K context、vision、audio 與 Apache 2.0 授權,還能跑在 Vertex AI、Cloud Run、GKE 與 TPU 上。

模型發布/4月2日
MiMo V2 Pro、Omni、Flash 怎麼選
MiMo 2026 三款模型分工很清楚:Flash 主打開源與 coding,Pro 提供 1M context,Omni 則處理圖像、音訊與影片。這篇直接比 benchmark、價格與適用場景。