Skip to content

18 10 月, 2024

KTOTrainer(Kahneman-Tversky Optimization Trainer)筆記

Last Updated on 2024-10-19 by Clay

之前一直斷斷續續從網路上、HuggingFace 官方文件等各種地方看到名為 Kahneman-Tversky OptimizationKTO)的 LLM 微調方式(實際上跟 DPO 相似是一種價值觀對齊方式),因為其準備資料的格式比起 DPO 實在太方便了,目前先趕緊嘗試應用在自己手邊的任務上、之後再來抽空閱讀論文中的詳細內容。

Read More »KTOTrainer(Kahneman-Tversky Optimization Trainer)筆記