標籤
LLM fine-tuning
LLM 微調指的是在既有基礎模型上,透過監督式資料或強化學習調整模型行為,讓它更貼近特定任務與領域。這個主題涵蓋資料準備、訓練穩定性、評估與部署,例如 PPO 的替代方法、BPO/GBPO,以及用 S3、SageMaker 和 MLflow 加速實作。
1 篇文章
標籤
LLM 微調指的是在既有基礎模型上,透過監督式資料或強化學習調整模型行為,讓它更貼近特定任務與領域。這個主題涵蓋資料準備、訓練穩定性、評估與部署,例如 PPO 的替代方法、BPO/GBPO,以及用 S3、SageMaker 和 MLflow 加速實作。
1 篇文章