DPO Meets PPO: Reinforced Token Optimization for RLHF | Read Paper on Bytez

bytez

Search

Feed

Models

Agent

Devs

Plan

docs

DPO Meets PPO: Reinforced Token Optimization for RLHF | Read Paper on Bytez