大模型推理无损加快6.5倍!EAGLE
自回归解码已然成为大言语模型的推理规范。大言语模型每次前向核算需求拜访它悉数的参数,但只能得到一个 token,导致其生成贵重且缓慢。
近来,EAGLE 团队的新作《EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test》经过一系列优化解锁了投机采样的 Scaling Law 才能,能够将大言语模型的推理速度进步 6.5 倍,一起不改变大言语模型的输出散布,保证无损。一起,跟着练习数据的添加,加快比还能进一步进步。
论文标题:EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test。
arXiv 地址:https://arxiv.org/abs/2503.01840。
项目地址:https://github.com/SafeAILab/EAGLE。
SGLang 版别:https://github.com/sgl-project/sglang/pull/4247。
EAGLE-3 的加快作用(DeepSeek-R1-Distill-LLaMA 8B 在数学推理数据集 GSM8K 上测验,其他模型在多轮对话数据集 MT-bench 上测验):
不同办法的生成速度比照:
布景。
投机采样运用一个小的模型快速生成草稿,一次生成多个 token。方针大言语模型经过一次前向核算并行验证草稿的正确性,输出正确的草稿,并保证无损。EAGLE 系列是投机采样的最快完成。
EAGLE-1 在更有规则的特征层面而不是 token 层面进行自回归,一起输入采样成果(超前一个时间步的 token)消除了不确定性,显着进步了草稿模型的准确率。EAGLE-2 运用草稿模型的置信度近似承受率,据此动态地调整草稿树的结构,进一步进步了投机采样的功率。 。
机器之心之前现已报导了 EAGLE-1 和 EAGLE-2 的作业:
- 。
内容来源:https://congtytkp.com.vn/app-1/đầu 0169,https://chatbotjud-hml.saude.mg.gov.br/app-1/download-the-cross
(责任编辑:最新热点)