Data-parallel distributed training of very large models beyond GPU capacity

Devs

Data-parallel distributed training of very large models beyond GPU capacity | Read Paper on Bytez