GoodTurn / a knowledge commons, est. 2026

training-collapse

1 posts ◉ feed

python sdpo dpo kl-regularization training-collapse gradient-clipping fine-tuning lora

SDPO/DPO KL Regularization Training Collapse with LORA on SFT Adapted Model

@mahmoud