大家想知道最稳妥的路径,却很少有人愿意接受“没有捷径”这个答案。
大家对AI Agent写代码的认知,通常停留在高效和省时上。媒体和企业试点中常强调Agent可以自动迭代调试、处理复杂工作流,似乎输出一段代码就能带来明显ROI。可现实里,大多数讨论只关注最终生成的代码片段,却很少触及过程中上下文反复堆积的隐性开销。Agent不是一次性推理,而是要持续读取历史对话、工具返回、代码仓库片段以及失败尝试,这些内容全被塞进输入序列,一轮轮循环下来,总成本迅速失控。
arXiv 最新论文《How Do AI Agents Spend Your Money?》系统分析了八个前沿 LLM 在 SWE-bench Verified 上的轨迹,发现 agentic coding 任务的 token 消耗是普通代码聊天或推理任务的 1000 倍左右。主导成本的不是输出 token,而是输入上下文膨胀。同一任务不同运行间消耗可差 30 倍,高消耗并不等于高准确率,准确率往往在中间成本水平就达到峰值。
更反直觉的是,token使用呈现高度随机性。同一任务多次运行,总消耗可能相差高达30倍,这使得单次实验结果充满不确定性。同时,准确率往往在中等token成本时达到峰值,继续增加投入后便趋于饱和,甚至没有明显提升。这一点挑战了“多花钱多办事”的直觉判断。开发者在选型时,不能仅看基准准确率,还需关注真实成本曲线。数据支持这个方向,但样本量和具体场景仍需更多验证。
这些实证发现直接解释了开发者每天面对的账单焦虑。输入 token 主导成本,意味着每一次把历史对话、工具输出、代码仓库全塞进上下文,都在默默加码。变量大、预测差,让预算控制变得像猜谜。数据支持这个方向,但样本量有限,值得持续跟踪,现在下结论为时尚早。
论文重点拆解了agentic tasks的内在机制:不同于单步问答,AI编码Agent需多轮工具调用、代码阅读、补丁生成与测试验证,每一步上下文都会累积进下一轮,导致输入token迅速膨胀。即使启用缓存,上下文管理仍难以完全避免膨胀效应。输出token虽不可忽视,但整体经济性主要由输入驱动,这与简单推理任务的成本结构形成鲜明对比。
模型间效率差异同样显著,Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多消耗超过150万token。这件事比表面看起来复杂得多:2026年企业级规模化部署的真实TCO远不止token费用本身。
arXiv 最新论文《How Do AI Agents Spend Your Money?》对 SWE-bench Verified 数据集上的 8 个前沿大模型进行了系统性分析,结果显示 Agentic Coding 任务的 token 消耗远超普通代码推理或聊天场景,高出约 1000 倍。 更关键的是,成本主要由输入 token 主导,而非输出。
arXiv上这篇分析AI Agent token消耗的论文,给出了清晰的实证数据。在SWE-bench Verified这类编码基准上,Agentic任务的token使用量是普通代码聊天或推理任务的1000倍左右,而主导成本的正是输入token,即便启用缓存,这一规律依然成立。输入token占比平均达到53.9%,远高于输出和推理部分,凸显了Agent协作中的“通信税”。
最近一篇arXiv论文将AI代理在编码任务中的token消耗模式首次系统性地摊开分析。研究追踪了八个前沿大模型在SWE-bench Verified基准上的完整轨迹,发现代理任务的token开销远超普通代码推理或聊天场景。这不仅暴露了成本黑箱,还直接挑战了行业对代理效率的乐观预期。AI代理看似能处理复杂多步流程,实际却在反复交互中悄然推高支出,表面繁荣之下隐藏着更棘手的经济矛盾。
不少开发者仍沿用传统聊天模型的思维算账。输出token单价通常更高,大家自然把精力放在精炼最终答案、限制思考步骤上,以为这样就能把成本压下来。实际情况却往往相反。尤其是Agent进入多轮迭代、工具调用和上下文累积的Agentic流程时,输入端的消耗像雪球一样越滚越大。账单拆开后,输入token占比远超预期,输出反而成了次要部分。
持续关注那些把试点转为常规流程的案例,会比追逐概念更有帮助。