R*: Efficient Reward Design via Reward Structure Evolution and Parameter Alignment Optimization with Large Language Models

Devs

R*: Efficient Reward Design via Reward Structure Evolution and Parameter Alignment Optimization with Large Language Models | Read Paper on Bytez