KTOTrainer(Kahneman-Tversky Optimization Trainer)筆記
之前一直斷斷續續從網路上、HuggingFace 官方文件等各種地方看到名為 Kahneman-Tversky Optimization(KTO)的 LLM 微調方式(實際上跟 DPO 相似是一種價值觀對齊方式),因為其準備資料的格式比起 DPO 實在太方便了,目前先趕緊嘗試應用在自己手邊的任務上、之後再來抽空閱讀論文中的詳細內容。
Read More »KTOTrainer(Kahneman-Tversky Optimization Trainer)筆記