Google为Gemma 4系列发布MTP草稿模型
作者 / 产品管理总监 Olivier Lacombe 与开发者关系工程师 Maarten Grootendorst
上个月,我们推出了 Gemma 4 —— 我们迄今为止最强大的开放模型。在发布之初的短短几周内,Gemma 4 的全球下载量便突破了 6,000 万次。它为开发者工作站、移动设备以及云端环境带来了前所未有的 "单位参数智能 (Intelligence-per-parameter)"。如今,我们又一次将效率提升到了全新的高度。
我们正式为 Gemma 4 系列发布多 Token 预测 (Multi-Token Prediction, MTP) 草稿模型。借助专用的推测性解码 (Speculative Decoding) 架构,这些草稿模型可在保持输出质量或推理逻辑的前提下,实现高达 3 倍的推理加速。

△ 每秒 Token 生成速度提升,该数据基于 LiteRT-LM、MLX、Hugging Face Transformers 及 vLLM 在不同硬件上的测试结果。
为什么要采用推测性解码?
从技术本质来看,标准的大语言模型 (LLM) 推理过程受限于内存带宽,处理器需要将大部分时间耗费在把数十亿模型参数从显存 (VRAM) 搬运到计算单元上来生成单个 Token,造成了显著的延迟瓶颈。这导致计算资源未得到充分利用以及高延迟,特别是会体现在消费级硬件上。
推测性解码 (speculative decoding) 将 Token 的生成与验证解耦。通过将大型目标模型 (例如 Gemma 4 31B) 与轻量级草稿模型 (即 MTP 模型) 配对,我们能利用闲置的计算资源,让草稿模型在少于目标模型处理单个 Token 的时间内,一次性 "预测" 多个未来的 Token。随后,目标模型会并行验证所有这些被建议的 Token。
推测性解码的工作原理
标准大语言模型以自回归 (Autoregressive) 的方式生成文本,即一次只能产生一个 Token。这种方式虽然有效,但它在预测显而易见的后续内容 (比如在 "Actions speak louder than…" 之后预测 "words") 时所消耗的计算量,与解答一道复杂的逻辑难题时并无差别。
MTP 通过推测性解码缓解了这种低效问题。这一技术由 Google 研究人员在《Fast Inference from Transformers via Speculative Decoding》一文中提出。如果目标模型认同草稿序列 (draft),它会在单次前向传播 (Forward Pass) 中接受整个序列,并在过程中额外自行生成一个 Token。这意味着,您的应用现在可以在以往只能生成单个 Token 的时间内,输出完整的草稿序列以及额外的一个 Token。
开启从端侧到工作站的AI 推理加速
对开发者而言,推理速度往往是生产部署中的首要瓶颈。无论您是在构建编码助理、需要快速执行多步规划的自主智能体 (Autonomous Agents),还是运行在纯设备端的即时响应式移动应用,每一毫秒都至关重要。
通过将 Gemma 4 模型与其对应的草稿模型相配对,开发者可以实现:
更快的响应体验: 显著降低近乎实时对话、沉浸式语音应用以及智能体工作流中的延迟。
大幅提升本地开发效能: 在 PC 和消费级 GPU 上以前所未有的速度运行我们的 26B MoE 和 31B Dense 模型,为流畅、复杂的离线编程及智能体工作流提供强劲动力。
增强的设备端性能: 通过加快输出生成速度,最大化提升 E2B 和 E4B 模型在边缘设备上的实用性,进而延长宝贵的电池续航。
无损质量表现: 由于最终的验证权仍由作为主模型的 Gemma 4 掌握,因此您可以获得完全一致的行业前沿级推理能力和准确率,与此同时大幅提升输出速度。
△ Gemma 4 26B 在 NVIDIA RTX PRO 6000 上的性能实测: 标准推理模式 (左) 与 MTP 草稿模型模式 (右) 的每秒 Token 数对比。在保证输出质量完全一致的前提下,响应延迟缩减了一半。
深入探索 MTP 草稿模型的底层技术
为了使这些 MTP 草稿模型具备极致的速度与准确率,我们在底层架构上引入了多项改进。草稿模型能无缝利用目标模型的激活状态并共享其 KV 缓存,这意味着它们无需重新计算大模型已经处理过的上下文信息。针对最终 Logit 计算面临较大瓶颈的 E2B 和 E4B 边缘模型,我们甚至在嵌入层中实现了一种高效的聚类技术,以进一步加快文本生成速度。
同时,我们对特定硬件的优化进行了细致分析。例如,尽管 26B 混合专家模型 (MoE) 在 Apple Silicon 上单批次 (batch size = 1) 运行时面临独特的路由调度挑战,但同时处理多个请求 (如批次大小为 4 到 8) 可在本地解锁高达约 2.2 倍的加速。在增加批次大小时,我们在 Nvidia A100 硬件上也观察到了类似的性能提升。
如果您想了解具体运行机制,我们已发布了一份深度技术解析,详细剖析了支撑这些草稿模型的可视化架构、KV 缓存共享以及高效的嵌入层技术。
即刻开始使用
Gemma 4 系列的 MTP 草稿模型已经正式发布,采用与 Gemma 4 相同的开源 Apache 2.0 许可协议。欢迎查阅技术文档,了解如何将 MTP 与 Gemma 4 配合使用。您现在便可在 Hugging Face 和 Kaggle 上下载模型权重,利用 Transformers、MLX、VLLM、SGLang 及 Ollama 开启快速推理的实践体验,或直接在面向 Android 与 iOS 的 Google AI Edge Gallery 中试用。
我们期待看到这种性能的飞跃将如何助力您在 Gemma 生态系统中开启下一个创新篇章。欢迎您关注 "谷歌开发者" 微信公众号,及时了解更多相关更新、开发技术和资讯动态!
