標籤
多模態代理結合文字、語音、影像與工具呼叫,讓模型能在即時互動中理解情境並採取動作。這類系統的關鍵不只在於答對,還包括何時該查工具、何時該直接推理,以及如何在低延遲下維持穩定表現。
1 篇文章
HDPO 把「答對」和「少叫工具」分開訓練,想修正多模態代理的盲目工具使用。摘要稱它能大幅減少呼叫次數,同時提升推理正確率。