LLM 微調筆記 - SFT 和 DPO 的差異
Last Updated on 2023-12-27 by Clay
介紹
在大型語言模型(Large Language Model, LLM)的微調任務中,監督式微調(Supervised Fine-tuning, SFT)、基於人類反饋強化學習(Reinforcement Learning from Human Feedback, RLHF)和直接偏好優化(DPO)... 等等都是不錯的方法,不過他們之間存在一些差異。
Read More »LLM 微調筆記 - SFT 和 DPO 的差異