这也是当前很多高排名页面共同的成功路径。
更重要的是,更高的 token 投入并不必然带来更高的准确率,准确率往往在中等成本区间达到峰值,继续追加 token 后便迅速饱和。
许多开发者在实际部署AI编码Agent时,都会遇到一个隐形陷阱:原本以为一次简单的bug修复任务,几千token就能搞定,结果因为自纠正和反思循环反复迭代,token消耗迅速失控,从初始几千直接攀升到数十万甚至百万级别。arXiv最新论文《How Do AI Agents Spend Your Money?
arXiv 近期论文《How Do AI Agents Spend Your Money?》对八个前沿 LLM 在 SWE-bench Verified 上的轨迹进行了系统分析,发现 agentic coding 任务的 token 消耗比普通代码聊天或单轮推理高出约 1000 倍,而且主导成本的几乎全是输入 token,而非输出。同一任务不同运行之间的消耗差异可达 30 倍,随机性极强,这让成本预测变得异常困难。
不是简单换更贵模型,而是让每一步 token 都花在刀刃上。这套方法论的核心在于从“盲目跑”转向“智能管”。实际落地时,压缩不能太激进以免丢失关键信息,路由规则需要针对具体任务调优,监控工具要实时跟进 token breakdown。方向是对的,但现实更复杂,值得每个开发者从小任务开始测试。
不同模型间效率差异显著,例如Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多消耗超过150万token。这件事比表面看起来复杂得多:2026年企业级规模化部署的真实TCO远不止token费用本身。
更深层的原因在于token消耗的高度随机性,即stochastic consumption。同一任务、同一个模型,不同运行的决策路径可能天差地别:工具调用顺序、循环次数、无效探索分支的进入概率、上下文管理策略等因素随机组合,像不可控的掷骰子过程。论文数据显示,某些运行的总token用量能比另一次高出30倍。开发者常以为更强的模型会带来更稳定的表现,但实际随机性远超预期,路径差异主导了成本波动。
核心来看,迭代验证而非初始生成,才是agentic coding的主要成本点。代码审查阶段吃掉近60% token,本质源于其高度上下文依赖的对话性质——每次交互都需重载大量已有信息,形成隐形黑洞。这让“AI帮写代码就能大幅省钱”的预期变得比想象中复杂得多,值得开发者持续跟踪优化路径。
论文进一步指出,token使用具有高度随机性。同一个任务,多次运行的总token消耗可能相差高达30倍。而且更高的token消耗并不一定带来更高的准确率,准确率往往在中等成本时达到峰值,继续烧钱反而边际收益递减。这意味着单纯追求“多思考”不一定划算。
云端前沿模型如GPT-5、Claude-Sonnet系列在复杂编码场景中优势明显,准确率更高、易用性强,无需自搭硬件,直接API调用即可快速构建多步流程。论文同时指出,不同模型token效率差异显著,有些在相同任务上比GPT-5多耗超过150万token。但输入token主导的特性,让高频使用时费用容易失控,同一任务不同运行波动可达30倍,且更高消耗未必带来更高准确率,峰值往往出现在中间成本区间。
深入观察五大发现之一,代理任务的token消耗可达普通场景的约1000倍,且主要由输入token驱动,而非输出。这反映出代理在工具调用、上下文维护和循环决策中的持续开销特征。不同于一次性查询,代理往往陷入长链交互,导致总成本快速膨胀。数据支持这个方向,但样本量仍需更多验证来确认普适性。
规则对比的迭代和升级节奏,正在明显加快,这也意味着留给那些仍然处于观望或慢半拍状态的参与者的机会窗口,正在逐步缩小。