返回首頁

標籤

LLM fine-tuning

LLM 微調指的是在既有基礎模型上,透過監督式資料或強化學習調整模型行為,讓它更貼近特定任務與領域。這個主題涵蓋資料準備、訓練穩定性、評估與部署,例如 PPO 的替代方法、BPO/GBPO,以及用 S3、SageMaker 和 MLflow 加速實作。

1 篇文章