Direct Preference Optimization (DPO) 訓練方法筆記
Last Updated on 2024-02-29 by Clay
介紹
DPO(Direct Preference Optimization, 直接偏好優化)是一種取代 RLHF(Reinforcement Learning from Human Feedback, 基於人類反饋的強化學習)的微調方式。眾所皆知,大型語言模型在經過非監督式學習後能夠學習到大量的知識與理解能力(有些研究者認為是『壓縮並保存』了知識在神經網路權重中);在監督式學習後學會了流暢地回應我們的問題,或者說是學會了『對話』的能力。
Read More »Direct Preference Optimization (DPO) 訓練方法筆記