Self-Play $Q$-Learners Can Provably Collude in the Iterated Prisoner's Dilemma

Devs

Self-Play $Q$-Learners Can Provably Collude in the Iterated Prisoner's Dilemma | Read Paper on Bytez