← 術語表

Distillation

技術

定義

訓練較小的 student model 去模仿較大的 teacher model。這能產生更輕量的模型,以較低運算成本保留多數能力,常見於 DeepSeek-R1-Zero 與許多生產模型。