Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling

Devs

Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling | Read Paper on Bytez