OpenAI 突破速率限制:Codex 与 Sora 的实时信用访问架构解析
OpenAI 技术团队成员 Jonah Cohen 于 2026 年 2 月 13 日发布工程博客,详细阐述了为 Codex 和 Sora 构建的全新实时访问引擎。该系统融合了速率限制与信用消费,通过决策瀑布模型实现无缝过渡,确保计费可证明正确。这一架构旨在保护用户创作动量,消除硬性中断,支持用户持续探索与创作,标志着 OpenAI 在访问控制与计费系统上的重大创新。
OpenAI 突破速率限制:Codex 与 Sora 的实时信用访问架构解析
据 OpenAI 官方工程博客披露,其技术团队成员 Jonah Cohen 于 2026 年 2 月 13 日 发布了一篇深度技术文章,详细阐述了如何为 Codex 和 Sora 构建一个全新的实时访问引擎,以突破传统速率限制的瓶颈,实现更灵活、公平且可扩展的访问控制。
传统访问模型的局限与混合系统的必要性
传统的访问模型往往迫使开发者在两种方案中做出选择:
- 速率限制:初期有助于平滑需求,但当用户用完配额时,会带来“稍后再来”的糟糕体验,中断用户创作流程。
- 基于用量的计费:虽然灵活,但从第一个 Token 开始计费,不利于支持用户的早期探索和实验。
对于像 Codex(代码生成模型)和 Sora(视频生成模型)这样的交互式产品,单独使用任何一种方案都不够。简单地提高速率限制会失去需求平滑和公平控制,导致服务容量耗尽;而完全依赖异步用量计费则会引入延迟、超额或对账问题,在用户最投入时造成困扰。
因此,OpenAI 决定构建一个单一的混合系统,将实时限制与按需付费访问相结合。该系统需要实现:
- 在达到速率限制前强制执行限制。
- 在同一请求内无缝过渡到信用消费。
- 实时做出访问决策。
- 在追踪信用消耗时,确保严格准确和可审计性。
核心创新:决策瀑布模型与内部构建的实时系统
OpenAI 实现的一个关键概念转变是将访问建模为决策瀑布。系统不再简单地问“这允许吗?”,而是问“允许多少,以及从哪里扣除?”。在计算用量时,系统按顺序检查速率限制、免费额度、信用余额、促销活动和企业授权等层级。从用户视角看,他们并没有“切换系统”,只是继续使用 Codex 和 Sora,因此信用消费感觉是“隐形”的。
OpenAI 评估了第三方用量计费平台,但它们无法满足两个关键需求:实时性和透明度。当用户触发限制但仍有信用时,系统必须立即知晓;任何延迟都会导致意外的阻塞、余额不一致或错误扣费。此外,系统需要透明展示每个请求的结果:为何被允许或阻止、消耗了多少用量、应用了哪些限制或余额。
为了不损害用户信任,OpenAI 选择了内部构建解决方案,以完全控制正确性、时序和可观测性。他们构建了一个专为同步访问决策设计的分布式用量与余额系统。该系统:
- 追踪每个用户、每个功能的用量。
- 维护速率限制窗口。
- 维护实时信用余额。
- 通过流式异步处理器以幂等方式扣减余额。
每个请求都经过单一评估路径,实时决定允许的用量,同步消耗速率限制,并在需要时验证足够信用;然后返回一个明确的结果,同时异步结算任何信用扣减。这确保了跨产品行为的一致性,并消除了团队间的重复逻辑。
可证明正确的计费系统:确保用户信任
该系统的核心设计原则之一是必须能够证明计费的正确性。这源于其对企服客户信用的支持。系统维护三个相互关联的数据集:
- 产品用量事件:用户实际执行的操作。
- 货币化事件:为用户用量收取的费用。
- 余额更新:如何调整用户信用余额及原因。
这些数据集驱动着系统,每个数据集触发下一个。分离“发生了什么”、“相关费用”和“扣减了什么”使得 OpenAI 能够独立审计、重放和对账每一层。这是一个有意的权衡:优先考虑可证明的正确性,代价是信用余额更新略有延迟。
具体实现方式包括:
- 为所有用户活动发布产品用量事件,无论是否驱动信用消费,提供审计追踪。
- 每个事件携带稳定的幂等键,防止重试、重放或工作进程重启导致双重扣减,从而避免双重计费。
- 执行异步(但仍接近实时)的余额更新而非同步更新,以创建审计追踪。容忍余额更新的微小延迟,以证明系统功能正常,并向用户保证无误计费。当短暂延迟导致用户信用余额超支时,系统会自动退款。
- 在单个原子数据库事务中减少信用余额并插入余额更新记录。余额更新按账户序列化,防止并发请求争用相同信用。余额更新记录包含扣减金额以及触发更新的货币化事件归属信息。
架构目标:保护用户创作动量
所有这些严谨设计的核心目标是:让访问变得简单安全。当用户在进行创作或编码时,不应担心请求是否会通过、是否会被多收费或余额是否准确。通过使用量、计费和余额可证明正确,OpenAI 为用户提供了一个不会干扰其体验的系统。这使得他们能够用持续访问取代硬性中断,让信用在真实工作中可用,而不仅仅出现在发票上。
OpenAI 方法的指导原则是保护用户动量。每个架构决策都映射到面向用户的结果:实时余额防止不必要的中断,原子消费防止双重计费,统一的访问逻辑确保可预测的行为。结果是,用户可以工作更长时间、探索更深入、推进项目更远,而无需面对硬性中断或过早的计划变更。
构建这种体验需要将访问、用量和计费重新思考为一个单一系统,并构建将正确性视为一等产品特性的基础设施。这一基础可以随时间扩展到更多产品;Codex 和 Sora 仅仅是个开始。
常见问题
相关文章
腾讯申请注册WorkBuddy商标:企业级AI布局再落一子
2026年6月25日,腾讯科技(深圳)有限公司申请注册多枚“TENCENT WORKBUDDY”商标,国际分类包括广告销售、教育娱乐等,当前状态为等待实质审查。此举显示腾讯在**企业级AI**工作助手领域的商标占位,旨在强化**WorkBuddy**品牌在办公协同、知识管理等场景的实体权重。结合此前腾讯AI助手产品的行业认知,该**商标**注册加速了其在企业级AI市场的商业化落地。
2026年6月25日瑞为技术通过港交所聆讯:视觉具身智能赛道迎来首家18C特专科技上市公司
瑞为技术于2026年6月24日通过港交所主板上市聆讯,联席保荐人为华泰国际、建银国际、农银国际。公司以视觉感知为起点,依托自研VTFLA技术延伸至具身机器人产品,有望成为港股“视觉具身智能第一股”及18C特专科技赛道标志性案例。
2026年6月25日企业微信5.0.9上线AI服务总结:企业级应用加速数字化转型
2026年6月25日,企业微信5.0.9版本正式推出包括服务总结在内的多项AI功能。这些功能聚焦企业级应用场景,通过AI技术提升客户沟通与服务效率,为企业的数字化转型提供新工具。本文基于官方报道,梳理了核心功能与商业落地价值。
2026年6月25日