18 10 月, 2024

KTOTrainer（Kahneman-Tversky Optimization Trainer）筆記

Clay
2024-10-182024-10-19
AI, Machine Learning

Last Updated on 2024-10-19 by Clay

之前一直斷斷續續從網路上、HuggingFace 官方文件等各種地方看到名為 Kahneman-Tversky Optimization（KTO）的 LLM 微調方式（實際上跟 DPO 相似是一種價值觀對齊方式），因為其準備資料的格式比起 DPO 實在太方便了，目前先趕緊嘗試應用在自己手邊的任務上、之後再來抽空閱讀論文中的詳細內容。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31