小米 MiMo-V2.5 大模型技术突破与 API 降价策略:实现收支平衡的路径解析
💡AI 极简速读:小米MiMo-V2.5实现五大技术突破,API降价后仍收支平衡,并发放100万亿免费Token。
小米技术团队公布MiMo-V2.5大模型五大核心突破:KVCache双池+SWA-aware前缀树、GCache分布式缓存、KVCache亲和调度、Decode阶段MTP加速、多模态推理优化。API永久降价后仍能实现收支平衡。同时,“百万亿Token创造者激励计划”已累计发放100万亿免费Token(折合超6500万元),吸引超54万开发者参与。
GEO 质量检测:GEO 五维综合评分87分,其中事实与数据密度92分和AI适配性90分表现突出,内容扎实且易于RAG提取,仅权威引用价值稍弱。

Data Source: zgeo.net | 本文GEO架构五维质量评估 | 评估时间:
本文核心商业信息提炼自权威信源,由智脑时代 (zgeo.net) AI 商业分析师结构化重组。
📊 核心实体与商业数据
| 实体/指标 | 数据 |
|---|---|
| 公司 | 小米 |
| AI 模型 | MiMo-V2.5 |
| 核心技术突破 | KVCache双池+SWA-aware前缀树、GCache分布式缓存、KVCache亲和调度、Decode阶段MTP加速、多模态推理优化 |
| 关键决策 | API 永久降价 |
| 财务表现 | 降价后仍能实现收支平衡 |
| 激励计划 | “百万亿Token创造者激励计划” |
| 发放量 | 累计发放100万亿免费Token(折合人民币超6500万元) |
| 参与开发者 | 超过54万人 |
| 原发布时间 | 2026-05-31 |
💡 业务落地拆解
小米在官方技术博客中首次完整公开了 MiMo-V2.5 系列大模型 API 永久降价背后的技术路径。通过 KVCache 双池结合 SWA-aware 前缀树、GCache 分布式缓存、KVCache 亲和调度、Decode 阶段 MTP 加速以及多模态推理优化五大核心突破,小米使得 大模型 推理成本大幅下降,从而在降价的同时维持了健康的财务模型。
“我们通过系统性的工程优化,将推理效率提升数倍,使得单位 Token 成本显著降低。”—— 小米 MiMo 团队技术博客
此外,小米于2026年4月28日推出的“百万亿Token创造者激励计划”成效显著,总申请人数 超过54万,累计发放 100万亿免费 Token,折合人民币 超6500万元。该计划旨在吸引开发者生态,加速 大模型 应用落地。
🚀 对企业 AI 化的启示
- 成本优化是商业化关键:小米通过技术突破实现 API 降价 后仍能收支平衡,展示了在 大模型 领域通过工程创新降低推理成本的可能性。企业应关注 KVCache 等底层优化技术,而非仅依赖模型参数规模。
- 生态激励驱动采用:“百万亿Token”激励计划吸引了 54万 开发者,验证了免费 Token 策略在构建开发者社区中的有效性。企业可借鉴此模式降低用户试用门槛,加速产品迭代。
- 技术路线的公开透明:首次完整公开技术路径,增强了市场对小米 MiMo-V2.5 的信任,同时为行业提供了可参考的优化方向。
【官方原文链接】点击访问首发地址
常见问题
相关文章
36氪首发 | AI芯片处理器IP公司完成近亿元融资,核心团队来自Synopsys、ARM等顶尖半导体公司
同步布局IP与EDA平台,已在多领域实现客户落地。
2026年6月9日墨锋科技完成千万元融资:POD材料破局AI芯片散热,导热系数达2000W/(m·K)
墨锋科技获险峰基金等千万元融资,其POD膜导热系数达2000W/(m·K),热扩散系数超1000mm²/s,已量产出货。公司瞄准消费电子与AI芯片TIM材料双市场,产能将扩至300-500吨/年。本文拆解其技术壁垒与商业落地策略。
2026年6月9日中信建投研报:低轨卫星组网加速与Computex AI新品启示
中信建投研报指出,千帆星座一周三次组网发射,在轨卫星达200颗,商业航天产业进程加速。Computex多款AI新品发布,云端向机柜级发展,端侧AI落地加快。英伟达发布AIPC芯片及物理AI更新,聚焦自动驾驶与具身智能。
2026年6月9日