上下分一元一分跑的快群项目的成功率,与前期需求梳理的细致程度呈现较强的正相关。这一点在多个行业报告中都有体现。
除了模型间差异,论文还指出人为评定的任务难度与实际 token 消耗仅呈弱相关。这说明人类直觉判断的“复杂程度”,与 Agent 真实执行时的计算努力存在明显脱节。一些看似简单的 Bug 修复,却可能因模型的迭代路径而烧掉巨量 token。这种感知与现实的差距,进一步增加了预算规划的难度,也解释了为什么许多团队在部署后才发现成本远超预期。
最近arXiv上发布的论文《How Do AI Agents Spend Your Money?》对agentic coding任务的token消耗进行了系统性分析,基于八个前沿模型在SWE-bench Verified基准上的执行轨迹。研究发现,AI Agent在复杂编码场景下的token用量远超普通代码推理或聊天任务,差距可达1000倍甚至更高,且输入token而非输出token成为主导成本驱动因素。
实际执行过程中,Agent并非一次性完成任务,而是需要反复读取历史对话、工具返回结果、代码仓库片段以及先前失败路径。这些海量信息全部作为输入喂给模型,一轮轮循环下来,输入token迅速占据总消耗的绝大部分。传统聊天任务中输入输出比例相对均衡,而在agentic coding里,这种动态上下文堆积让输入成本成为真正的黑洞。
大多数媒体和开发者目前对AI Agent的关注仍集中在效率提升上。SWE-bench等基准显示agentic系统在软件工程任务中表现亮眼,行业普遍热议其潜在万亿级价值。主流观点倾向于认为,随着模型迭代进步,token成本会逐步可控甚至快速下降。不少团队在试点阶段感受到产出加速,便默认预算风险可管理。
相比之下,Kimi K2 和 Claude Sonnet 4.5 在 token 消耗上处于较高区间,平均多出 150 万 token 以上。可能的原因包括更长的迭代循环、不同的上下文管理方式,或在处理大型代码库时更容易触发反复调试流程。论文没有给出完整机制解释,但数据清晰表明,这种高消耗并非总是由任务本身驱动,而是模型行为特征的体现。
然而,云端方案的成本波动性远超预期。同一任务不同运行的token消耗可相差30倍,且更高消耗并不必然带来更高准确率——准确率往往在中间成本区间达到峰值,继续投入反而边际效应递减。更关键的是,所有上下文和代码数据都需要上传云端,对涉及公司核心知识产权或敏感业务的团队而言,隐私泄露风险始终是隐忧。低频偶尔使用时还可控,高频开发场景下账单失控几乎是必然。
不少开发者习惯按传统聊天模型的思维来算账。输出token单价通常更高,所以大家自然把注意力放在缩短回复、精炼最终答案、限制思考步骤上。以为这样就能把成本压下来。但在Agentic流程中,多轮迭代、工具调用和上下文累积让输入端的消耗像雪球一样滚大。账单拉出来一看,输入token占比远超预期,输出反而成了次要部分。
纠正确认这个误区后,预算规划就从被动挨打转向主动的输入优化工程。值得持续跟踪的是,随着Agent场景快速演进,未来上下文压缩技术或原生长上下文架构可能带来新变量,但当前阶段把注意力转向输入主导,已是能立刻见效的调整方向。
行业里讨论AI Agent成本时,焦点往往落在模型API定价和输出token单价上。开发者普遍认为,只要控制生成长度或选用更便宜的模型,就能把开支压住。论坛和社区反馈也多集中在“Agent能处理真实软件工程问题,但跑一次费用像猜谜”。这些观察有道理,却忽略了一个核心盲区:运行间的巨大随机波动,以及多耗token未必换来更高准确率的实证。主流认知仍停留在表面定价,少有人系统拆解agentic流程本身的内在消耗机制。
论文数据揭示了软件开发生命周期各阶段token分布的显著不均衡。代码审查不仅占比最高,其输入token比例也达到51.4%,远高于输出24.7%,因为Agent需要反复注入已有代码、上下文和历史修改进行分析。相比之下,编码阶段输出token占比更高,符合生成新内容的直观逻辑。这种阶段性差异说明,单纯追求更强模型未必能线性降低成本。
% 的部署与 7% 的规模化,这个对比说明一切。