標籤
2 篇文章
MemDreamer 把感知和推理拆開,用階層式圖記憶與代理式檢索,讓長影片理解能塞進很小的上下文窗口。
IPT 用中介感知 token 讓多模態模型學會推理看不到的空間結構,特別是在遮擋、視角切換與路徑追蹤上更準。