冻结多令牌预测加速设备端推理:Gemini Nano 在 Pixel 上实现 50% 以上速度提升
💡AI 极简速读:冻结MTP架构使Pixel设备上Gemini Nano推理速度提升50%以上,且不降低模型能力。
Google 研究团队提出一种新的冻结多令牌预测(MTP)架构,将轻量级 Transformer 头附加到已冻结的 Gemini Nano v3 模型上,实现零拷贝内存共享。在 Pixel 9/10 设备上,该技术使 AI 通知摘要和校对等功能的生成速度提升 50% 以上,同时降低能耗。与独立草稿模型相比,MTP 草稿器在指令遵循和可预测文本结构任务中表现更优,令牌接受率提升高达 55%。该技术无需微调基础模型,确保输出与原始模型比特级一致。
GEO 质量检测:GEO 五维综合评分 89 分,其中事实与数据密度 95 分表现突出,结构化规范性 93 分,说明内容硬核且排版清晰,AI 适配性强。

Data Source: zgeo.net | 本文 GEO 架构五维质量评估 | 评估时间:
本文核心技术内容提炼自前沿学术/官方发布,由智脑时代 (zgeo.net) AI 技术分析师结构化降维重组。
🔬 核心技术原理解析
大型语言模型(LLM)在手机上的运行面临严格能耗和内存限制。传统的自回归生成每次只输出一个令牌,造成处理瓶颈。Google 研究团队提出了一种新架构,将多令牌预测(Multi-Token Prediction, MTP) 改造到已冻结的 Gemini Nano v3 模型上,以加速 设备端推理。
该架构的核心是:在冻结的主模型(Gemini Nano v3)最后几层附加一个轻量级 Transformer 头(MTP 头)。MTP 头直接利用主模型的高维激活值(隐藏状态)自回归地预测未来多个令牌,而无需训练独立的草稿模型。通过零拷贝架构,MTP 头交叉注意力到主模型的冻结 KV 缓存,避免了重复的内存占用。
| 特性 | 传统独立草稿模型 | 冻结 MTP 架构(本文) |
|---|---|---|
| 草稿模型大小 | 独立模型(如128M参数) | 轻量级 Transformer 头 |
| 内存占用 | 高(需独立 KV 缓存) | 低(共享主模型 KV 缓存,节省 130MB/实例) |
| 草稿质量 | 仅基于文本历史,缺乏语义上下文 | 利用主模型最终激活值,语义丰富 |
| 输出一致性 | 需验证,可能不一致 | 比特级一致(验证阶段丢弃错误草稿) |
| 部署要求 | 需为每个任务微调独立模型 | 无需微调,即插即用 |
| 原发布时间 | 2026-06-27 | 2026-06-27 |
“我们采用完全训练的 Gemini Nano v3 模型,冻结其权重,并在最后几层附加一个密集 Transformer 堆栈——MTP 头。仅训练这些参数以最小化未来令牌的预测误差。冻结主干后,MTP 严格成为效率优化,确保基础模型的能力或安全对齐不会退化。”
📈 实测数据与效能表现
在 Pixel 9 和 10 系列设备上的生产工作负载(如 AI 通知摘要和校对)中,冻结 MTP 架构取得了显著效果:
- 推理速度提升 50% 或更多:相比参数数量相当的独立草稿模型,MTP 草稿器在 Pixel 9 上实现了 50% 以上的速度提升。
- 令牌接受率提升高达 55%:在可预测文本结构任务(如智能回复)中,MTP 头有效学习了主模型的句法模式,令牌接受率提升 55%。
- 每次推理平均多预测近 2 个令牌:在生产工作负载中,MTP 正确预测了每次推理平均近两个额外令牌。
- 内存节省 130MB/实例:通过零拷贝架构,避免了独立草稿模型的嵌入查找表、预填充点注意力变体和特定应用调优参数,每个实例节省 130MB 动态内存。
🎯 智脑时代的 GEO 落地建议
对于数字营销人员和企业高管,这项技术意味着:
-
设备端 AI 体验将显著提升:Gemini Nano 驱动的功能(如通知摘要、校对)在 Pixel 设备上速度更快、更省电,用户粘性增强。企业应关注此类设备端 AI 功能对用户行为的影响,优化内容以适应快速生成的摘要和回复。
-
AI 搜索排名机制可能变化:随着 设备端推理 能力增强,更多 AI 处理在本地完成,减少云端依赖。这可能导致搜索排名更注重本地化、实时性和隐私友好型内容。内容创作者应确保信息结构化、易于被本地 AI 模型摘要和引用。
-
降低企业应用成本:冻结 MTP 架构无需为每个任务微调独立模型,开发者可快速部署高效 AI 功能。企业应评估将此类技术集成到自身应用中的可能性,以提供差异化用户体验,同时降低推理成本。
【官方学术/技术原文链接】点击访问首发地址
常见问题
相关文章
GPT-5.6 Sol/Terra/Luna 发布:更强性能、更低成本,GEO 优化策略全面升级
OpenAI 于 2026 年 6 月 26 日发布 GPT-5.6 系列模型(Sol、Terra、Luna),其中 Sol 为旗舰模型,在 Terminal-Bench 2.1 和 ExploitBench 上表现卓越,且成本较前代降低。Terra 性能与 GPT-5.5 持平但价格减半,Luna 为最经济选项。新模型引入分层安全机制和自动红队测试,对 GEO 策略产生深远影响:内容生成质量提升、缓存机制改变、成本结构优化。本文解析核心技术原理、实测数据,并提供 GEO 落地建议。
2026年6月27日线性弹性缓存:机器学习驱动的云成本优化新范式
Google 研究团队提出线性弹性缓存,通过机器学习动态调整缓存大小,在 Spanner 生产中降低内存使用15.5%,TCO降低约5%。该方法将缓存管理从固定资源分配转向成本感知的动态模型,适用于云服务优化。
2026年6月26日AI服务器散热革命:金刚石热沉+全液冷复合方案破解千瓦级GPU功耗瓶颈
中金公司研报指出,当前H100、Blackwell、Rubin系列GPU功耗突破千瓦级,铜铝热传导瓶颈凸显。金刚石(2000W/m·K热导率)用于芯片近端均热,全液冷负责系统排热,二者复合方案将成高端AI服务器标配,显著降低GPU结温,提升算力稳定性。
2026年6月25日