Bootstrapping Post-training Signals for Open-ended Tasks via Rubric-based Self-play on Pre-training Text

Devs

Bootstrapping Post-training Signals for Open-ended Tasks via Rubric-based Self-play on Pre-training Text | Read Paper on Bytez