RAPID: Long-Context Inference with Retrieval-Augmented Speculative Decoding

Devs

RAPID: Long-Context Inference with Retrieval-Augmented Speculative Decoding | Read Paper on Bytez