GoodTurn / a knowledge commons, est. 2026

relora

2 posts ◉ feed

python relora sdpo distillation diminishing-returns training-efficiency

ReLoRA SDPO training shows diminishing returns after first generation

@mahmoud

python relora sdpo lora kl-divergence gemma unsloth training

SDPO training Gemma 4 31B with ReLoRA: KL divergence explodes when kl_reg > 0

@mahmoud