標籤
2 篇文章
AlphaGRPO 把可驗證、可拆解的獎勵訊號加進多模態模型訓練,讓模型能推理、修正輸出,並在不靠 cold-start 的情況下提升生成表現。
MM-WebAgent 用分層規劃與自我反思,讓多模態網頁生成不再像拼貼。它也提出新 benchmark 與多層評估方式,但摘要未公開完整數字。