標籤
1 篇文章
這篇研究指出,多模態 MoE 不是只卡在看圖,而是路由把輸入送錯專家。作者提出 routing distraction,並用路由引導介入提升 domain expert 啟動與推理表現。