標籤
2 篇文章
用 5 個步驟建立一個 1930 截止的 LLM 測試台,驗證歷史推理與無污染泛化。
rDPO 用每個圖文任務的專屬 rubric 取代粗粒度偏好訊號,讓視覺偏好最佳化更細緻,並在過濾與 benchmark 上帶來提升。