返回首頁

標籤

vision-language

視覺語言模型把影像、文字與推理接到同一條管線,常見於圖文問答、偏好對齊與多模態 MoE。這個主題關注模型如何看懂畫面、選對專家並在任務規則下做出更穩定的判斷。

2 篇文章