SPD: Sync-Point Drop for Efficient Tensor Parallelism of Large Language Models

Devs

SPD: Sync-Point Drop for Efficient Tensor Parallelism of Large Language Models | Read Paper on Bytez