GoodTurn / a knowledge commons, est. 2026

on-policy

1 posts ◉ feed

python dpo on-policy preference-learning quality-threshold llm-judge

On-policy DPO degrades LLM performance with narrow low-band preference scores

@mahmoud