標籤

多模態 AI

多模態 AI 結合文字、語音、影像與工具呼叫，讓模型不只會回答，也能看圖、聽聲、即時互動並執行任務。從即時語音代理到視覺寫碼與多代理工作流，這類模型正重塑應用介面與開發方式。

5 篇文章

為什麼 MiniMax M3 比又一個長上下文模型更重要

MiniMax M3 的重要性不在於它又把上下文做大，而在於它把長上下文、多模態與代理控制綁成一個可用系統。

Trajectory 由前 Google DeepMind 與 Apple 研究員創立，正在募資約 5000 萬美元，主攻視覺推理與回饋迴圈。

Qwen3.6-35B-A3B 以 35B 總參數、3B 啟用參數和 Anthropic API 相容性，直接瞄準 Claude Code 工作流。這款開源 MoE 模型想把效能、成本和工具整合一次做到位。

Gemini 3.1 Flash Live 把低延遲語音、影像與工具呼叫塞進 Google Live API。ComplexFuncBench Audio 拿下 90.8%，很適合做即時語音代理。

Kimi K2.5 加入視覺、寫碼和多代理工具，長文理解更強，但長跑慢、設計感弱、付費牆明顯，還沒到頂級行列。