標籤

vision-language

視覺語言模型把影像、文字與推理接到同一條管線，常見於圖文問答、偏好對齊與多模態 MoE。這個主題關注模型如何看懂畫面、選對專家並在任務規則下做出更穩定的判斷。

3 篇文章

PixelRAG 把截圖變可檢索上下文

工具應用/6月30日

PixelRAG 把截圖變可檢索上下文

拆解 PixelRAG 的截圖優先 RAG 流程，順手給你一份可直接抄去做視覺檢索的模板。

用 rubric 讓視覺偏好訓練更精準

技術研究/4月15日

用 rubric 讓視覺偏好訓練更精準

rDPO 用每個圖文任務的專屬 rubric 取代粗粒度偏好訊號，讓視覺偏好最佳化更細緻，並在過濾與 benchmark 上帶來提升。

多模態 MoE 為何會分心

技術研究/4月10日

多模態 MoE 為何會分心

這篇研究指出，多模態 MoE 不是只卡在看圖，而是路由把輸入送錯專家。作者提出 routing distraction，並用路由引導介入提升 domain expert 啟動與推理表現。