標籤
3 篇文章
ART 用一張可訓練圖片,讓凍結的多模態 LLM 不改權重也能做任務微調。
ART 把凍結的多模態 LLM 微調,改成只優化一張圖片,避開改權重與加 adapter 的部署麻煩。
這篇論文提出一套訓練方式,讓多模態 LLM 評審更依賴影像證據,而不是被看起來合理的文字帶偏。