Efficient Prompt Compression with Evaluator Heads for Long-Context Transformer Inference

Devs

Efficient Prompt Compression with Evaluator Heads for Long-Context Transformer Inference | Read Paper on Bytez