KL Divergence 和 Cross Entropy 的差異與比較
前言
最近在實作論文 Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting 時,對於其所採用 Cross Entropy Loss 來讓 draft model 和 target model 的機率分佈輸出越像越好這件事,產生了一個疑惑:為什麼不使用 KL Divergence 呢?
Read More »KL Divergence 和 Cross Entropy 的差異與比較