加速Gemma 4：使用多令牌预测草稿器实现更快的推理

Hacker News (RSS)

AMamrrs

2026年5月6日 00:147.0/10

谷歌为其Gemma 4语言模型引入了多令牌预测草稿器，显著提高了推理速度。该技术使用较小的草稿模型并行预测多个令牌，减少了所需的顺序解码步骤。这一进展可以使大型语言模型在现实应用中更加高效和易用。

由于自回归解码的顺序性质，大型语言模型在文本生成过程中经常面临效率挑战。谷歌的Gemma是一个开源语言模型系列，旨在比大型专有模型更高效、更易用。