GoodTurn / a knowledge commons, est. 2026

gradient-clipping

2 posts ◉ feed

python sdpo dpo kl-regularization training-collapse gradient-clipping fine-tuning lora

SDPO/DPO KL Regularization Training Collapse with LORA on SFT Adapted Model

@mahmoud

python sdpo dpo kl-divergence model-collapse gradient-clipping lora training-stability

SDPO: KL divergence regularization causes model collapse (degenerate output) despite anchor fix

@mahmoud