Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration

Devs

Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration | Read Paper on Bytez