AI编码Agent同一任务token消耗为何波动高达30倍？论文实证揭秘

围绕谁有1块1分跑的快群、发展脉络相关线索，本期我们重点关注那些已经被验证有效的调整方向。

本期我们重点关注那些已经被验证有效的调整方向。

arXiv最新论文“How Do AI Agents Spend Your Money?”对八个前沿LLM在SWE-bench Verified上的完整轨迹进行了分析。结果显示，Agentic编码任务的token消耗是普通代码推理或代码聊天的1000倍左右，而主导成本的正是输入token，即使启用缓存，这一规律依然成立。

从实际部署看，这种波动让企业预算预测变得困难。开发团队修复同一个issue，第一次运行可能顺利通过测试，token在合理范围；第二次却走弯路，上下文膨胀导致成本直线上升，准确率却未必提升，甚至因超时失败。短期内，开发者需加强单次运行监控，考虑早停机制；长期而言，推动模型提升token预测能力（当前相关性最高仅0.39且系统性低估）将成为关键，否则高波动或成Agent规模化落地的隐形瓶颈。

Kimi K2和Claude Sonnet 4.5则处于较高消耗区间，在相同任务下平均多出150万+ token。可能的原因包括更长的迭代循环、不同的上下文管理方式，以及在复杂代码库中更容易陷入反复调试的状态。不过，论文也诚实地指出，这些模型在某些准确率峰值场景下可能仍有优势，尤其当任务需要极致深度推理时。适合对性能有极致追求、预算相对宽松的场景，但多花的token并不总能线性换来更好结果。

此外，前沿模型预测自身token消耗的能力仍较薄弱。论文数据显示，预测值与实际消耗的相关性最高仅0.39，且存在系统性低估。这让开发者在启动任务前难以准确预判开支，预算控制变得充满不确定性。短期内，这可能让中小团队对大规模部署Agentic Coding保持谨慎；长期来看，它或将推动行业向更token-efficient的架构演进，例如优化上下文管理或引入专用成本预测工具。但如果缓存与压缩技术未能快速突破，使用门槛或许会显著抬高。

这篇论文的贡献在于，它不是停留在抽象讨论，而是通过真实轨迹数据拆解了代理任务的token流动规律。与主流认知不同，代理并非简单的一次性交互，而是持续的上下文读取和工具调用循环，这直接推高了总体消耗。数据显示，代理任务的token用量比基准代码任务高出约1000倍，而公众和部分开发者还停留在“用代理就能省力”的阶段，这种认知偏差正在悄然放大部署风险。

无限循环迭代是常见浪费来源之一。Agent反复尝试相似修复方案，每次都重新加载大量上下文，token线性累积。实操中，提前在框架内设置单任务token预算上限，并在接近阈值时记录中间状态，能有效中断无效循环并从检查点重启。这在小规模bug修复中特别实用，避免了从头重跑的开销。

云端买的是顶级大脑的服务，但每一次思考、每一次上下文迭代，你都得持续付费。更关键的是，所有数据需上传，涉及公司核心代码时隐私风险难以忽视。适合低频、追求极致性能的场景，比如快速原型验证或非敏感模块开发——前提是你能接受账单的随机性。

模型间的效率差距同样值得注意。在相同SWE-bench任务上，Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这不是边缘差异，对需要频繁调用Agent的团队来说，选择合适的基础模型能直接节省大笔API费用。论文对比显示，并非所有“大模型”在agentic场景下都同样经济。

模型间的token效率差异也加剧了这一风险。在相同SWE-bench任务上，Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。人类专家对任务难度的主观评定与实际token成本仅呈微弱相关，最高相关系数只有0.39左右，且模型自身系统性低估真实消耗。这说明我们对复杂度的直觉与Agent实际的计算努力之间存在明显鸿沟，值得持续跟踪，现在下结论为时尚早。

这一点目前行业内仍有不同声音。数据支持随机性是主要驱动，但样本量和框架差异可能影响泛化程度。值得持续跟踪，现在下结论为时尚早。

这个转变的深层含义，还需要更多案例来佐证。

继续查看

对当前主题与发展脉络相关内容还可继续查看新闻资讯频道、 AI编码Agent同一任务token消耗为何波动高达30倍？论文实证揭秘、 OpenAI Privacy Filter + API：构建合规可扩展 Web 应用的完整安全流程以及下方相关文章列表。

作者简介

频道值班编辑主要面向主要面向同话题内容池建设，负责页面摘要整理、资讯页面维护和基础内容复核，偏向把复杂信息拆成易读段落，并根据当期话题做差异化补充。

互动数据

点赞 773 · 评论 1

固定链接：http://www5.name.ss7a.cn/6111.html

同栏阅读：奔跑吧剪辑魔术揭秘：迪丽热巴12天如何撑起整季收视 / SloMo-44K数据集拆解：AI视频时间流控制的最大慢动作资源库来了 / ADDYY 与其他欧洲 ADR 股票分红比较：海外投资该怎么选

本文标题：AI编码Agent同一任务token消耗为何波动高达30倍？论文实证揭秘
固定链接：http://www5.name.ss7a.cn/6111.html
说明：本页以频道方式对当前主题进行整理，并结合正文与相关文章提供连续阅读入口。

AI编码Agent同一任务token消耗为何波动高达30倍？论文实证揭秘

作者简介

互动数据

相关文章

AI编码Agent迭代循环如何导致token爆炸式增长？风险防控

AI Agent任务复杂度与token消耗的弱相关性：人类直觉为何失效

如何优化 AI Coding Agent 的 token 消耗？实用成本控制策略

从 arXiv 论文看 AI 代理经济的未来：token 预测与透明定价

哪款大模型在 Agentic Coding 中最省 token？8 大前沿模型对比

AI编码Agent的“通信税”：输入token如何主导你的账单