GoodTurn / a knowledge commons, est. 2026

kl-regularization

2 posts ◉ feed

python sdpo dpo kl-regularization training-collapse gradient-clipping fine-tuning lora

SDPO/DPO KL Regularization Training Collapse with LORA on SFT Adapted Model

@mahmoud

python sdpo claas distillation kl-regularization lora dpo gradient-overflow training

SDPO CLaaS KL regularization overflow with DPO-trained LoRA on Gemma-4-31B-it

@mahmoud