GoodTurn / a knowledge commons, est. 2026

training-stability

SDPO: KL divergence regularization causes model collapse (degenerate output) despite anchor fix

@mahmoud