標籤
多模態 AI
多模態 AI 結合文字、語音、影像與工具呼叫,讓模型不只會回答,也能看圖、聽聲、即時互動並執行任務。從即時語音代理到視覺寫碼與多代理工作流,這類模型正重塑應用介面與開發方式。
5 篇文章

模型發布/6月6日
為什麼 MiniMax M3 比又一個長上下文模型更重要
MiniMax M3 的重要性不在於它又把上下文做大,而在於它把長上下文、多模態與代理控制綁成一個可用系統。

模型發布/5月28日
前 Google 與 Apple 團隊募資 5000 萬美元
Trajectory 由前 Google DeepMind 與 Apple 研究員創立,正在募資約 5000 萬美元,主攻視覺推理與回饋迴圈。

模型發布/4月20日
Qwen3.6-35B-A3B 打開開源寫碼新路線
Qwen3.6-35B-A3B 以 35B 總參數、3B 啟用參數和 Anthropic API 相容性,直接瞄準 Claude Code 工作流。這款開源 MoE 模型想把效能、成本和工具整合一次做到位。

模型發布/4月3日
Gemini 3.1 Flash Live 主打即時語音 …
Gemini 3.1 Flash Live 把低延遲語音、影像與工具呼叫塞進 Google Live API。ComplexFuncBench Audio 拿下 90.8%,很適合做即時語音代理。

AI Agent/3月27日
Kimi K2.5 評測:更強,但還不是神作
Kimi K2.5 加入視覺、寫碼和多代理工具,長文理解更強,但長跑慢、設計感弱、付費牆明顯,還沒到頂級行列。