[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-verifiable-reward":3},{"tag":4,"articles":10},{"id":5,"name":6,"slug":7,"article_count":8,"description_zh":9,"description_en":9},"72db541e-374a-4feb-8e8d-6de88491aebd","verifiable reward","verifiable-reward",0,null,[11],{"id":12,"slug":13,"title":14,"summary":15,"category":16,"image_url":17,"cover_image":17,"language":18,"created_at":19},"978080ac-12c3-491c-808b-1920bf107fcd","alphagrpo-self-reflective-multimodal-generation-zh","AlphaGRPO 讓多模態模型學會自我修正","AlphaGRPO 把可驗證、可拆解的獎勵訊號加進多模態模型訓練，讓模型能推理、修正輸出，並在不靠 cold-start 的情況下提升生成表現。","research","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778652662823-p0k7.png","zh","2026-05-13T06:10:34.396837+00:00"]