標籤

LLM fine-tuning

LLM 微調指的是在既有基礎模型上，透過監督式資料或強化學習調整模型行為，讓它更貼近特定任務與領域。這個主題涵蓋資料準備、訓練穩定性、評估與部署，例如 PPO 的替代方法、BPO/GBPO，以及用 S3、SageMaker 和 MLflow 加速實作。

1 篇文章

BRRL 取代 PPO 剪裁：BPO 與 GBPO 的穩定性升級

BRRL 把 PPO 的剪裁目標改寫成有界比例框架，推出 BPO 與 GBPO，主打更穩定的更新與更清楚的理論基礎。