Multi-Token Prediction via Self-Distillation

Source

arxiv.orgfull article ↗

Read on arxiv

Publisher summary· verbatim

arXiv:2602.06019v2 Announce Type: replace Abstract: Existing techniques for accelerating language model inference, such as speculative decoding, require training auxiliary speculator models and building and deploying complex inference pipelines. We consider a new approach for converting a pretrained

Discussion

No replies yet. Be first.

Multi-Token Prediction via Self-Distillation

Related coverage

Multi-Token Prediction via Self-Distillation

Related coverage