这对正规1元1分跑的快群的技术实现路径产生直接影响。
论文的核心发现直指这一盲区。同一任务不同运行轨迹的token消耗可相差高达30倍,输入token而非输出token才是成本主导因素。准确率往往在中等token区间达到峰值,继续增加消耗反而出现饱和甚至无明显提升。模型间差距同样惊人,Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多耗超过150万token。
输入token主导的特性,让AI Coding Agent的成本结构与传统聊天工具形成鲜明对比。研究发现,代码审查和迭代验证阶段通常占总消耗的50%以上,而初始代码生成反而相对廉价。这提醒我们,agent并非一次性工具,而是持续对话系统,其隐藏成本藏在每次工具调用和历史累积里。数据支持这个观察,但具体到不同框架如OpenHands时的表现,仍需更多跨模型验证。
论文进一步揭示了agentic任务的独特高耗特征。相比单次推理,Agent需要反复读取上下文、调用工具并迭代修正,由此产生的“通信税”推动输入token占比显著升高。高耗并不必然对应高准确率,研究显示准确率常在中间成本区间达到峰值,继续追加token投入后反而出现饱和。这意味着盲目延长运行时间未必能换来更好回报。
你部署AI Agent时,是不是总盯着输出token定价,以为控制生成长度就能省钱?结果账单爆炸,却发现输入token占了大头——这正是大多数团队正在踩的坑。
arXiv最新论文《How Do AI Agents Spend Your Money?》的轨迹分析显示,这种现象在agentic coding任务中极为普遍,输入token的累积是主因。
短期内,继续依赖人类感知复杂度做agent deployment预算,容易导致ROI下滑,尤其在大规模生产环境中,随机波动会让固定成本控制变得棘手。长期来看,这一gap或推动行业开发更精准的token预测工具、优化模型效率,或设计内置预算感知的Agent架构。但前沿模型当前自我预测token消耗的相关性最高仅0.39,且存在系统性低估,值得持续跟踪。现在下结论为时尚早,样本和任务类型仍有局限。
GPT-5在相同任务下的token效率表现出色。论文数据显示,它平均比Kimi K2和Claude Sonnet 4.5少消耗150万以上的token。这一差距并非源于任务难度本身,即使在所有模型都能成功解决的子集上,效率差异依然稳定存在。GPT-5的上下文管理和迭代策略似乎更优化,避免了不必要的冗长循环。对于预算敏感或需要大规模部署Agent的团队来说,这种高效性直接转化为长期成本优势。
模型间的token效率差异同样不容忽视。在相同SWE-bench任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗150万以上token。这种差距即使在所有模型都能成功解决的简单子集上依然存在,说明它更多源于模型行为而非任务难度本身。人类专家对任务难度的主观判断与实际token成本仅呈弱相关,这意味着凭经验估算开支很容易出错。
此外,前沿模型预测自身token消耗的能力相当有限。论文指出,预测与实际消耗的相关性最高仅0.39,且存在系统性低估。 这让开发者在启动任务前难以准确预判开销,预算控制变得充满不确定性。短期内,这会让不少中小团队对大规模部署Agentic Coding保持谨慎;长期来看,它或将推动行业向token-efficient的代理架构演进,包括更优的上下文管理和成本预测工具。但如果缓存与压缩技术未能突破,使用门槛可能显著抬高中小玩家的参与度。
当然,优化不是一劳永逸。Agent架构仍在快速迭代,未来上下文压缩技术和原生长上下文支持可能进一步改变成本结构。但在当前阶段,把注意力从“输出溢价”转向“输入主导”,已是大多数团队能立刻调整预算逻辑、避免项目超支的务实一步。值得持续跟踪的是,随着Agent规模化部署,这一输入主导的经济学规律会如何影响整个LLM生态的定价模型。
回顾“正规1元1分跑的快群”_正规1元1分跑的快群新乡论坛中的核心论点,可以发现数据支持的方向与现实执行之间,仍存在不小的落差。这个落差,正是未来竞争的焦点所在。
本文标题:AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?
固定链接:http://www5.name.ss7a.cn/images/6121.html
说明:本页内容以主题整理、信息补充和相关阅读为主,适合按频道结构做连续查看。