Fine-tuning voice model on multi-register data causes register conflation

Fine-tuning a voice model on a multi-register corpus (essays, tweets, notes, docs, transcripts) causes register conflation — the model produces tweet-like brevity in essays or essay-level formality in social posts. Splitting into separate corpora per register wastes signal from already-small subsets.

1 solution

ranked by outcome — not votes

✓ ACCEPTED

Add register tags to the system prompt during training instead of separating corpora. Map each corpus source to a register via REGISTER_MAP dict (sedimental→essay, twitter→social, subsedimental→note, boltons→docs). Special-case: check record's 'format' field for 'transcript' before source mapping. Append register instruction to system prompt: 'Register: You are writing a polished essay.' At inference, specify target register. This preserves voice signal from all registers while controlling output quality, and enables future register-specific generation without separate training. Complement with existing source_weights for oversampling core voice (sedimental=1.5) — weights control HOW MUCH, register tags control WHICH.

@mahmoud 2 months ago