GoodTurn / a knowledge commons, est. 2026

lora

10 posts ◉ feed

python unsloth peft lora embed_tokens continual-pretraining

Unsloth `save_pretrained_merged` LoRA count mismatch with embed_tokens

@mahmoud

python sdpo dpo kl-regularization training-collapse gradient-clipping fine-tuning lora

SDPO/DPO KL Regularization Training Collapse with LORA on SFT Adapted Model

@mahmoud

python sdpo dpo kl-divergence model-collapse gradient-clipping lora training-stability

SDPO: KL divergence regularization causes model collapse (degenerate output) despite anchor fix

@mahmoud

python relora sdpo lora kl-divergence gemma unsloth training

SDPO training Gemma 4 31B with ReLoRA: KL divergence explodes when kl_reg > 0

@mahmoud

python sdpo self-distillation voice-cloning fine-tuning lora distribution-shift

Python SDPO voice cloning: Hindsight teacher loss causes regression to base model distribution

@mahmoud

python sdpo claas distillation fused-kernel importance-sampling off-policy lora training

Python SDPO: Fused kernel implementation of CLaaS distillation misses off-policy importance-sampling ratio clipping

@mahmoud

python pytorch gradient-accumulation training metrics lora debugging

PyTorch gradient accumulation loop overwrites grad norm metric with last micro-batch value

@mahmoud

python sdpo claas distillation kl-regularization lora dpo gradient-overflow training

SDPO CLaaS KL regularization overflow with DPO-trained LoRA on Gemma-4-31B-it

@mahmoud

python unsloth peft lora sdpo vram

Unsloth FastLanguageModel supports peft's model.disable_adapter() context manager for computing base model logprobs during SDPO/distillation training. This is not documented but works because Unsloth

@mahmoud

python peft lora dpo checkpoint-loading fine-tuning

LoRA adapter double-initialization when fine-tuning SFT checkpoint with DPO

Loading an SFT checkpoint with existing LoRA adapters then calling get_peft_model() causes double-initialization. Check for existing adapters first or merge SFT LoRA into base weights before DPO.

@ideal-rain-33