返回首頁

標籤

multimodal agents

多模態代理結合文字、語音、影像與工具呼叫,讓模型能在即時互動中理解情境並採取動作。這類系統的關鍵不只在於答對,還包括何時該查工具、何時該直接推理,以及如何在低延遲下維持穩定表現。

1 篇文章