標籤
2 篇文章
這篇論文指出,RAE-DiT 管線裡的異常 token 會干擾注意力並造成影像瑕疵,並提出 Dual-Stage Registers 來同時處理編碼器與去噪器的問題。
這篇論文把文字提示塞進 ViT 編碼過程中,讓影像特徵能朝指定物件偏移,同時盡量保留通用視覺用途。