標籤
視覺語言模型把影像、文字與推理接到同一條管線,常見於圖文問答、偏好對齊與多模態 MoE。這個主題關注模型如何看懂畫面、選對專家並在任務規則下做出更穩定的判斷。
2 篇文章
rDPO 用每個圖文任務的專屬 rubric 取代粗粒度偏好訊號,讓視覺偏好最佳化更細緻,並在過濾與 benchmark 上帶來提升。
這篇研究指出,多模態 MoE 不是只卡在看圖,而是路由把輸入送錯專家。作者提出 routing distraction,並用路由引導介入提升 domain expert 啟動與推理表現。