AWS 解析 Nova 的 RFT 評分法
AWS 公布用 LLM-as-a-judge 做 Nova 的強化微調,並用合約審查案例示範如何把評分信號接到生產流程。

AWS 公布一套用 LLM 當評審的強化微調流程,讓 Nova 模型能用更細的評分信號學會對齊任務要求。
2026 年 4 月 30 日,AWS 發布 Amazon SageMaker AI 上的指南,說明如何為 Amazon Nova 做 reinforcement fine-tuning(RFT)並搭配 LLM-as-a-judge。文章用合約審查案例展示,這種方法可在某些任務上優於基礎模型與 supervised fine-tuning。
| 項目 | 數值 |
|---|---|
| 發布日期 | 2026/04/30 |
| 案例中的評審模型 | GPT OSS 120B |
| 生產環境 timeout 建議 | 15 分鐘 |
| Provisioned concurrency 指引 | 約 100 |
發生了什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
AWS 把 LLM-as-a-judge 定位成比固定規則更靈活的 reward signal。它不只看字串是否命中,還能評分正確性、語氣、安全性、相關性與領域細節。

這份指南把流程拆成 6 步:先選 judge 類型,再定義評分標準,接著挑模型與參數,然後優化 prompt,最後把 reward metrics 對齊生產評估,並用 Lambda 做大規模與失敗處理。
- Rubric-based judging:依預設標準,對單一回答打分。
- Preference-based judging:比較兩個回答,選較好的一個。
- Rubric 類型多用 boolean pass/fail,方便訓練穩定。
- Reward function 會混合 LLM 評分與格式、長度、語言、安全等 deterministic checks。
- Lambda 建議加入 exponential backoff、平行呼叫、錯誤時回傳 neutral reward,以及 15 分鐘 timeout。
在模型選擇上,AWS 認為大模型適合多維度、較複雜的判斷,小模型則可用在數學、程式或一般聊天等較常見任務,只要 prompt 夠清楚。文章也強調輸出要結構化、規則要明確,邊界案例要先處理好,reward 才不會亂掉。
為什麼重要
對開發者來說,這種做法最大的價值是少做人工標註,卻能拿到更細的訓練訊號。LLM 評審還能說明錯在哪,方便團隊回頭修 reward logic,而不是只看分數高低。

合約審查案例很實際。AWS 描述的是用少量標註資料,訓練系統去比對條款、內部規範、歷史合約與地方法規,這類工作靠字面匹配很難做準。
這也把訓練目標和上線指標綁得更緊。若 reward 設計能對齊準確率、安全與合規檢查,模型就比較不會在訓練時學偏,部署後才出問題。
對產業來說,重點不是 RFT 能不能用,而是哪些任務該交給 LLM 評審,哪些還是用規則或人工更划算。
如果你的產品已經進到高風險、高規則密度場景,這篇指南等於在提醒一件事:評分方式本身,就是模型品質的一部分。