27 12 月, 2023

LLM 微調筆記 - SFT 和 DPO 的差異

Clay
2023-12-272023-12-27
Machine Learning

Last Updated on 2023-12-27 by Clay

介紹

在大型語言模型（Large Language Model, LLM）的微調任務中，監督式微調（Supervised Fine-tuning, SFT）、基於人類反饋強化學習（Reinforcement Learning from Human Feedback, RLHF）和直接偏好優化（DPO）... 等等都是不錯的方法，不過他們之間存在一些差異。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31