標籤

self-reflection

2 篇文章

AlphaGRPO 讓多模態模型學會自我修正

技術研究/5月13日

AlphaGRPO 讓多模態模型學會自我修正

AlphaGRPO 把可驗證、可拆解的獎勵訊號加進多模態模型訓練，讓模型能推理、修正輸出，並在不靠 cold-start 的情況下提升生成表現。

MM-WebAgent 讓網頁生成更一致

技術研究/4月17日

MM-WebAgent 讓網頁生成更一致

MM-WebAgent 用分層規劃與自我反思，讓多模態網頁生成不再像拼貼。它也提出新 benchmark 與多層評估方式，但摘要未公開完整數字。