標籤
多模態模型
多模態模型把影像、文字、程式碼與語音放進同一套推理流程,適合代理式工作流、視覺理解與人機互動。這裡聚焦模型架構、長上下文、微調策略與部署成本,從 Qwen3.5 視覺分層訓練到 Kimi K2.5、MiMo 這類新模型的實作差異。
4 篇文章

工具應用/4月3日
Unsloth 讓 Qwen3.5 可分層微調
Unsloth 新增 Qwen3.5 視覺模型分層微調,能只訓練 vision、language、attention 或 MLP。VRAM 更省,訓練也更快,對多模態團隊很實用。

模型發布/4月3日
Kimi K2.5 把視覺、程式碼和 Agent 放一起
Moonshot AI 推出 Kimi K2.5,主打 256K context、原生視覺和 Agent Swarm。這篇拆解它對開發者、團隊與自動化流程的實際影響。

產業動態/3月28日
小米 MiMo 盯上代理式軟體
小米推出 MiMo-V2-Pro、Omni、TTS,主打 1T+ 參數與低價 API,直接瞄準代理式 AI 工作流。

模型發布/3月28日
小米 MiMo 三模型瞄準代理、機器人與語音
小米一次推出三款 MiMo AI 模型,涵蓋代理、多模態與語音。MiMo-V2-Pro 以超過 1 兆參數、100 萬 token 上下文,逼近 Claude Opus 4.6 的表現。