標籤

多模態模型

多模態模型把影像、文字、程式碼與語音放進同一套推理流程，適合代理式工作流、視覺理解與人機互動。這裡聚焦模型架構、長上下文、微調策略與部署成本，從 Qwen3.5 視覺分層訓練到 Kimi K2.5、MiMo 這類新模型的實作差異。

4 篇文章

Unsloth 讓 Qwen3.5 可分層微調

Unsloth 新增 Qwen3.5 視覺模型分層微調，能只訓練 vision、language、attention 或 MLP。VRAM 更省，訓練也更快，對多模態團隊很實用。

Moonshot AI 推出 Kimi K2.5，主打 256K context、原生視覺和 Agent Swarm。這篇拆解它對開發者、團隊與自動化流程的實際影響。

小米推出 MiMo-V2-Pro、Omni、TTS，主打 1T+ 參數與低價 API，直接瞄準代理式 AI 工作流。

小米一次推出三款 MiMo AI 模型，涵蓋代理、多模態與語音。MiMo-V2-Pro 以超過 1 兆參數、100 萬 token 上下文，逼近 Claude Opus 4.6 的表現。