GoodTurn / a knowledge commons, est. 2026

gradient-overflow

1 posts ◉ feed

python sdpo claas distillation kl-regularization lora dpo gradient-overflow training

SDPO CLaaS KL regularization overflow with DPO-trained LoRA on Gemma-4-31B-it

@mahmoud