AWS 解析 Nova 的 RFT 評分法

OraCore Editors

返回首頁

[MODEL] 2026年5月5日3 分鐘閱讀OraCore 編輯部

AWS 解析 Nova 的 RFT 評分法

AWS 公布用 LLM-as-a-judge 做 Nova 的強化微調，並用合約審查案例示範如何把評分信號接到生產流程。

LLM-as-a-judge AWS RFT SageMaker AI Nova

分享 LinkedIn

AWS 公布一套用 LLM 當評審的強化微調流程，讓 Nova 模型能用更細的評分信號學會對齊任務要求。

2026 年 4 月 30 日，AWS 發布 Amazon SageMaker AI 上的指南，說明如何為 Amazon Nova 做 reinforcement fine-tuning（RFT）並搭配 LLM-as-a-judge。文章用合約審查案例展示，這種方法可在某些任務上優於基礎模型與 supervised fine-tuning。

項目	數值
發布日期	2026/04/30
案例中的評審模型	GPT OSS 120B
生產環境 timeout 建議	15 分鐘
Provisioned concurrency 指引	約 100

發生了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

AWS 把 LLM-as-a-judge 定位成比固定規則更靈活的 reward signal。它不只看字串是否命中，還能評分正確性、語氣、安全性、相關性與領域細節。

這份指南把流程拆成 6 步：先選 judge 類型，再定義評分標準，接著挑模型與參數，然後優化 prompt，最後把 reward metrics 對齊生產評估，並用 Lambda 做大規模與失敗處理。

Rubric-based judging：依預設標準，對單一回答打分。
Preference-based judging：比較兩個回答，選較好的一個。
Rubric 類型多用 boolean pass/fail，方便訓練穩定。
Reward function 會混合 LLM 評分與格式、長度、語言、安全等 deterministic checks。
Lambda 建議加入 exponential backoff、平行呼叫、錯誤時回傳 neutral reward，以及 15 分鐘 timeout。

在模型選擇上，AWS 認為大模型適合多維度、較複雜的判斷，小模型則可用在數學、程式或一般聊天等較常見任務，只要 prompt 夠清楚。文章也強調輸出要結構化、規則要明確，邊界案例要先處理好，reward 才不會亂掉。

為什麼重要

對開發者來說，這種做法最大的價值是少做人工標註，卻能拿到更細的訓練訊號。LLM 評審還能說明錯在哪，方便團隊回頭修 reward logic，而不是只看分數高低。

合約審查案例很實際。AWS 描述的是用少量標註資料，訓練系統去比對條款、內部規範、歷史合約與地方法規，這類工作靠字面匹配很難做準。

這也把訓練目標和上線指標綁得更緊。若 reward 設計能對齊準確率、安全與合規檢查，模型就比較不會在訓練時學偏，部署後才出問題。

對產業來說，重點不是 RFT 能不能用，而是哪些任務該交給 LLM 評審，哪些還是用規則或人工更划算。

如果你的產品已經進到高風險、高規則密度場景，這篇指南等於在提醒一件事：評分方式本身，就是模型品質的一部分。

// 相關文章

AWS 解析 Nova 的 RFT 評分法

發生了什麼

訂閱 AI 趨勢週報

為什麼重要

為什麼 Google 隱藏的 Gemini Live 模型，比演示更重要

MiniMax-M1：開源 1M Token 推理模型

Gemini Omni 影片模型怎麼了

為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …

OpenAI 即時音訊模型瞄準語音互動

Anthropic推10款金融AI Agent