[MODEL] 3 分鐘閱讀OraCore 編輯部

AWS 解析 Nova 的 RFT 評分法

AWS 公布用 LLM-as-a-judge 做 Nova 的強化微調,並用合約審查案例示範如何把評分信號接到生產流程。

分享 LinkedIn
AWS 解析 Nova 的 RFT 評分法

AWS 公布一套用 LLM 當評審的強化微調流程,讓 Nova 模型能用更細的評分信號學會對齊任務要求。

2026 年 4 月 30 日,AWS 發布 Amazon SageMaker AI 上的指南,說明如何為 Amazon Nova 做 reinforcement fine-tuning(RFT)並搭配 LLM-as-a-judge。文章用合約審查案例展示,這種方法可在某些任務上優於基礎模型與 supervised fine-tuning。

項目數值
發布日期2026/04/30
案例中的評審模型GPT OSS 120B
生產環境 timeout 建議15 分鐘
Provisioned concurrency 指引約 100

發生了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

AWS 把 LLM-as-a-judge 定位成比固定規則更靈活的 reward signal。它不只看字串是否命中,還能評分正確性、語氣、安全性、相關性與領域細節。

AWS 解析 Nova 的 RFT 評分法

這份指南把流程拆成 6 步:先選 judge 類型,再定義評分標準,接著挑模型與參數,然後優化 prompt,最後把 reward metrics 對齊生產評估,並用 Lambda 做大規模與失敗處理。

  • Rubric-based judging:依預設標準,對單一回答打分。
  • Preference-based judging:比較兩個回答,選較好的一個。
  • Rubric 類型多用 boolean pass/fail,方便訓練穩定。
  • Reward function 會混合 LLM 評分與格式、長度、語言、安全等 deterministic checks。
  • Lambda 建議加入 exponential backoff、平行呼叫、錯誤時回傳 neutral reward,以及 15 分鐘 timeout。

在模型選擇上,AWS 認為大模型適合多維度、較複雜的判斷,小模型則可用在數學、程式或一般聊天等較常見任務,只要 prompt 夠清楚。文章也強調輸出要結構化、規則要明確,邊界案例要先處理好,reward 才不會亂掉。

為什麼重要

對開發者來說,這種做法最大的價值是少做人工標註,卻能拿到更細的訓練訊號。LLM 評審還能說明錯在哪,方便團隊回頭修 reward logic,而不是只看分數高低。

AWS 解析 Nova 的 RFT 評分法

合約審查案例很實際。AWS 描述的是用少量標註資料,訓練系統去比對條款、內部規範、歷史合約與地方法規,這類工作靠字面匹配很難做準。

這也把訓練目標和上線指標綁得更緊。若 reward 設計能對齊準確率、安全與合規檢查,模型就比較不會在訓練時學偏,部署後才出問題

對產業來說,重點不是 RFT 能不能用,而是哪些任務該交給 LLM 評審,哪些還是用規則或人工更划算。

如果你的產品已經進到高風險、高規則密度場景,這篇指南等於在提醒一件事:評分方式本身,就是模型品質的一部分。