[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-multimodal-generation":3},{"tag":4,"articles":10},{"id":5,"name":6,"slug":7,"article_count":8,"description_zh":9,"description_en":9},"e96a571f-ae6a-4fbe-b276-0f986c04d148","multimodal generation","multimodal-generation",0,null,[11],{"id":12,"slug":13,"title":14,"summary":15,"category":16,"image_url":17,"cover_image":17,"language":18,"created_at":19},"4a7fe7e7-0731-47ec-96a5-2758c5bfd8f9","alphagrpo-self-reflective-multimodal-generation-en","AlphaGRPO teaches multimodal models to self-correct","AlphaGRPO adds verifiable reward signals to multimodal models so they can reason, refine outputs, and improve generation without cold-start training.","research","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778652656972-4yog.png","en","2026-05-13T06:10:34.985001+00:00"]